exllama

Llm Inference| Classifica generale #1030

A more memory-efficient rewrite of the HF transformers implementation of Llama for use with quantized weights.

Visita il sito

Classifica

#1030generale

#6 in Llm Inference

Punteggio: 8/50

Prezzo

Versione gratuita disponibile

Dati

open-source-ai

Cos'è exllama?

exllama è uno strumento di llm inference basato sull'IA. A more memory-efficient rewrite of the HF transformers implementation of Llama for use with quantized weights.

Funzionalità principali

Automazione basata sull'IA
Interfaccia intuitiva
Accesso basato sul cloud
Aggiornamenti regolari
Assistenza clienti

Casi d'uso

Automazione di attività ripetitive
Migliorare la produttività
Ridurre il lavoro manuale
Ottenere approfondimenti basati sull'IA
Ottimizzare i flussi di lavoro

Prezzi di exllama

Versione gratuita: sì — exllama offre un piano gratuito.

Visita il sito di exllama per tutti i dettagli sui prezzi.

Domande frequenti

Che cos'è exllama?

exllama è uno strumento basato sull'IA nella categoria Llm Inference. A more memory-efficient rewrite of the HF transformers implementation of Llama for use with quantized weights.

exllama è gratuito?

Sì, exllama offre un piano gratuito. Consulta il loro sito web per i dettagli su cosa è incluso nel piano gratuito.

In quale categoria si trova exllama?

exllama è classificato nella categoria Llm Inference su Top AI Ranked. È al #6 posto in questa categoria in base al nostro sistema di punteggio.

Quali sono le alternative a exllama?

Puoi trovare strumenti simili nella pagina della nostra categoria Llm Inference. Top AI Ranked elenca diverse alternative che puoi confrontare per posizione, prezzo e funzionalità.

Alternative a exllama

Altri ottimi strumenti nella categoria llm inference:

SGLang#1

SGLang is a fast serving framework for large language models and vision language models.

vLLM#2

A high-throughput and memory-efficient inference and serving engine for LLMs.

TensorRT-LLM#3

Nvidia Framework for LLM Inference

FasterTransformer#4

NVIDIA Framework for LLM Inference(Transitioned to TensorRT-LLM)

MInference#5

To speed up Long-context LLMs' inference, approximate and dynamic sparse calculate the attention, which reduces inferenc

FastChat#7

A distributed multi-model LLM serving system with web UI and OpenAI-compatible RESTful APIs.

exllama vs SGLang exllama vs vLLM exllama vs TensorRT-LLM

Vedi tutti gli strumenti Llm Inference