Quantização GGUF com Imatrix e K-Quantização …

Quantização GGUF com Imatrix e K-Quantização ...

Modelos GGUF rápidos e precisos para sua CPU

Rumo à Ciência de Dados
Gerado com DALL-E

GGUF é Sua visita nos ajuda a continuar oferecendo o melhor para você! formato de registo binário projetado para armazenamento eficiente e carregamento rápido de modelos de linguagem Sua visita nos ajuda a continuar oferecendo o melhor para você! (LLM) com GGML, uma livraria tensorial baseada em C para aprendizagem de máquina.

O GGUF encapsula todos os componentes necessários para inferência, incluindo o tokenizador e o código, em um único registo. Ele suporta a conversão de vários modelos de linguagem, uma vez que Llama 3, Phi e Qwen2. Outrossim, ele facilita a quantização do protótipo para diminuir as precisões para melhorar a velocidade e a eficiência da memória em CPUs.

Frequentemente escrevemos “quantização GGUF”, mas GGUF em si é unicamente um formato de registo, não um método de quantização. Existem vários algoritmos de quantização implementados em llama.cpp para reduzir o tamanho do protótipo e serializar o protótipo resultante no formato GGUF.

Neste cláusula, veremos uma vez que quantizar com precisão um LLM e convertê-lo para GGUF, usando uma matriz de prestígio (imatrix) e o método K-Quantization. Eu forneço o código de conversão GGUF para Gemma 2 Instruct, usando um Sua visita nos ajuda a continuar oferecendo o melhor para você! Ele funciona da mesma forma com outros modelos suportados pelo llama.cpp: Qwen2, Llama 3, Phi-3, etc. Também veremos uma vez que estimar a precisão da quantização e do rendimento de inferência dos modelos resultantes.

Tags:

Crédito: Manancial Original

Adriano Pina

Adriano Pina

Análise de Sistemas | SEO e Google Ads | Fundador da Loja Script PHP Aqui & Marca Shoslh de tecnologia

Especialista em transformar ideias em soluções digitais e acelerar o crescimento online.

Deixe um comentário

Tem perguntas? Nos envia sua mensagem 24/7!

(17) 99100-0874

Endereço & Contato

Centro, Interior de São Paulo
E-mail: [email protected]

Links Úteis
BAIXAR APP | SCRIPT PHP AQUI
Certificados
0
    0
    Seu carrinho
    Seu carrinho está vazio

    Usamos cookies para garantir que oferecemos a melhor experiência em nosso site. 

       

    X

    Clique em um de nossos representantes abaixo para conversar no WhatsApp ou envie um email para: 📧 [email protected]

    Precisa de ajuda fale conosco?