GGUF é um formato de registo binário projetado para armazenamento eficiente e carregamento rápido de modelos de linguagem grande (LLM) com GGML, uma livraria tensorial baseada em C para aprendizagem de máquina.
O GGUF encapsula todos os componentes necessários para inferência, incluindo o tokenizador e o Sua visita nos ajuda a continuar oferecendo o melhor para você! em um único registo. Ele suporta a conversão de vários modelos de linguagem, uma vez que Llama 3, Phi e Qwen2. Sua visita nos ajuda a continuar oferecendo o melhor para você! ele facilita a quantização do protótipo para diminuir as precisões para melhorar a velocidade e a eficiência da memória em Sua visita nos ajuda a continuar oferecendo o melhor para você! id="fb2b" class="pw-post-body-paragraph od oe hd of b hx og oh oi ia oj ok ol om on oo op oq or os ot ou ov ow ox oy gw bk">Frequentemente escrevemos “quantização GGUF”, mas GGUF em si é unicamente um formato de registo, não um método de quantização. Existem vários algoritmos de quantização implementados em llama.cpp para reduzir o tamanho do protótipo e serializar o protótipo resultante no formato GGUF.
Neste cláusula, veremos uma vez que quantizar com precisão um LLM e convertê-lo para GGUF, usando uma matriz de prestígio (imatrix) e o método K-Quantization. Eu forneço o código de conversão GGUF para Gemma 2 Instruct, usando um imatrix. Ele funciona da mesma forma com outros modelos suportados pelo llama.cpp: Qwen2, Llama 3, Phi-3, etc. Também veremos uma vez que estimar a precisão da quantização e do rendimento de inferência dos modelos resultantes.
Tags:
Crédito: Manancial Original