Quantização GGUF com Imatrix e K-Quantização …

Quantização GGUF com Imatrix e K-Quantização ...

Modelos GGUF rápidos e precisos para sua CPU

Sua visita nos ajuda a continuar oferecendo o melhor para você! noopener" target="_blank" href="https://medium.com/@bnjmn_marie?source=post_page-----02356b531926--------------------------------">

Rumo à Ciência de Dados
Sua visita nos ajuda a continuar oferecendo o melhor para você! 50vw, (-webkit-min-device-pixel-ratio: 4) and (max-width: 700px) 50vw, (min-resolution: 3dppx) and (max-width: 700px) 67vw, (-webkit-min-device-pixel-ratio: 3) and (max-width: 700px) 65vw, (min-resolution: 2.5dppx) and (max-width: 700px) 80vw, (-webkit-min-device-pixel-ratio: 2.5) and (max-width: 700px) 80vw, (min-resolution: 2dppx) and (max-width: 700px) 100vw, (-webkit-min-device-pixel-ratio: 2) and (max-width: 700px) 100vw, 700px" type="image/webp"/>Sua visita nos ajuda a continuar oferecendo o melhor para você! and (max-width: 700px) 80vw, (-webkit-min-device-pixel-ratio: 2.5) and (max-width: 700px) 80vw, (min-resolution: 2dppx) and (max-width: 700px) 100vw, (-webkit-min-device-pixel-ratio: 2) and (max-width: 700px) 100vw, 700px"/>
Gerado com DALL-E

GGUF é um formato de registo binário projetado para armazenamento eficiente e carregamento rápido de modelos de linguagem grande (LLM) com GGML, uma livraria tensorial baseada em C para aprendizagem de máquina.

O GGUF encapsula todos os componentes necessários para inferência, incluindo o tokenizador e o código, em um único registo. Ele suporta a conversão de vários modelos de linguagem, uma vez que Llama 3, Phi e Qwen2. Outrossim, ele facilita a quantização do protótipo para diminuir as precisões para melhorar a velocidade e a eficiência da memória em CPUs.

Frequentemente escrevemos “quantização GGUF”, mas GGUF em si é unicamente um formato de registo, não um método de quantização. Existem vários algoritmos de quantização implementados em llama.cpp para reduzir o tamanho do protótipo e serializar o protótipo resultante no formato GGUF.

Neste cláusula, veremos uma vez que quantizar com precisão um LLM e convertê-lo para GGUF, usando uma matriz de prestígio (imatrix) e o método K-Quantization. Eu forneço o código de conversão GGUF para Gemma 2 Instruct, usando um imatrix. Ele funciona da mesma forma com outros modelos suportados pelo llama.cpp: Qwen2, Llama 3, Phi-3, etc. Também veremos uma vez que estimar a precisão da quantização e do rendimento de inferência dos modelos resultantes.

Tags:

Crédito: Manancial Original

Adriano Pina

Adriano Pina

Análise de Sistemas | SEO e Google Ads | Fundador da Loja Script PHP Aqui & Marca Shoslh de tecnologia

Especialista em transformar ideias em soluções digitais e acelerar o crescimento online.

Deixe um comentário

Tem perguntas? Nos envia sua mensagem 24/7!

(17) 99100-0874

Endereço & Contato

Centro, Interior de São Paulo
E-mail: [email protected]

Links Úteis
BAIXAR APP | SCRIPT PHP AQUI
Certificados
0
    0
    Seu carrinho
    Seu carrinho está vazio

    Usamos cookies para garantir que oferecemos a melhor experiência em nosso site. 

       

    X

    Clique em um de nossos representantes abaixo para conversar no WhatsApp ou envie um email para: 📧 [email protected]

    Precisa de ajuda fale conosco?