Carregue llama-3.2 webgpu no seu navegador de uma pasta local

Carregue llama-3.2 webgpu no seu navegador de uma pasta local


Carregue llama-3.2 webgpu no seu navegador de uma pasta local (Via) Inspirado por um comentário sobre o Hacker News, decidi ver se era possível modificar os transformadores.

Eu coloquei o problema para a CLI do Codex, habilitada para GPT-5 da OpenAI, assim:

git clone https://github.com/huggingface/transformers.js-examples
cd transformers.js-examples/llama-3.2-webgpu
codex

Então este prompt:

Modify this application such that it offers the user a file browse button for selecting their own local copy of the model file instead of loading it over the network. Provide a "download model" option too.

Codex agitou -se por vários minutos, mesmo executando comandos como curl -sL https://raw.githubusercontent.com/huggingface/transformers.js/main/src/models.js | sed -n '1,200p' Para inspecionar o código -fonte da biblioteca transformadores.js subjacentes.

Após quatro avisos, o total (mostrado aqui) construiu algo que funcionou!

Para experimentá -lo, você precisará de sua própria cópia local do modelo LLAMA 3.2 ONNX. Você pode obter isso (um download de ~ 1,2 GB)) como assim:

git lfs install
git clone https://huggingface.co/onnx-community/Llama-3.2-1B-Instruct-q4f16

Em seguida, visite minha página llama-3.2-webgpu no Chrome ou Firefox todas as noites (como o WebGPU é necessário), clique em “Pasta de navegação”, selecione essa pasta que você acabou de clonar, concorde com a confirmação de “fazer upload” (confuso, pois nada é carregado no modelo do seu navegador, o arquivo do modelo é aberto localmente) e clique em “carregar” carregar “carregar”.

Aqui está uma demonstração animada (gravada em tempo real, não acelerei isso):

Carregue llama-3.2 webgpu no seu navegador de uma pasta local

Eu empurrei um ramo com essas mudanças aqui. A próxima etapa seria modificar isso para apoiar outros modelos, além da demonstração do LLAMA 3.2, mas tenho o prazer de ter chegado a essa prova de conceito com tão pouco trabalho além de lançar alguns avisos no Codex para ver se poderia descobrir.

De acordo com o Codex /status Comando isso usou 169.818 tokens de entrada, 17.112 tokens de saída e 1.176.320 tokens de entrada em cache. No preço de token GPT-5 atual (entrada de US $ 1,25/milhão, entrada em cache de US $ 0,125/milhão, saída de US $ 10/milhão) que custaria 53,942 centavos, mas o Codex CLI liga no meu plano de chatgpt de US $ 20/mês existente para que isso tenha sido agrupado.



Source link

Postagens Similares

Deixe um comentário

O seu endereço de email não será publicado. Campos obrigatórios marcados com *