Modelos GGUF rápidos e precisos para sua CPU
GGUF é um formato de registo binário projetado para armazenamento eficiente e carregamento rápido de modelos de linguagem grande (LLM) com GGML, uma livraria tensorial baseada em C para aprendizagem de máquina.
O GGUF encapsula todos os componentes necessários para inferência, incluindo o tokenizador e o código, em um único registo. Ele suporta a conversão de vários modelos de linguagem, uma vez que Llama 3, Phi e Qwen2. Outrossim, ele facilita a quantização do protótipo para diminuir as precisões para melhorar a velocidade e a eficiência da memória em CPUs.
Frequentemente escrevemos “quantização GGUF”, mas GGUF em si é unicamente um formato de registo, não um método de quantização. Existem vários algoritmos de quantização implementados em llama.cpp para reduzir o tamanho do protótipo e serializar o protótipo resultante no formato GGUF.
Neste cláusula, veremos uma vez que quantizar com precisão um LLM e convertê-lo para GGUF, usando uma matriz de prestígio (imatrix) e o método K-Quantization. Eu forneço o código de conversão GGUF para Gemma 2 Instruct, usando um imatrix. Ele funciona da mesma forma com outros modelos suportados pelo llama.cpp: Qwen2, Llama 3, Phi-3, etc. Também veremos uma vez que estimar a precisão da quantização e do rendimento de inferência dos modelos resultantes.
Tags:
Crédito: Manancial Original