Carregue llama-3.2 webgpu no seu navegador de uma pasta local
Carregue llama-3.2 webgpu no seu navegador de uma pasta local (Via) Inspirado por um comentário sobre o Hacker News, decidi ver se era possível modificar os transformadores.
Eu coloquei o problema para a CLI do Codex, habilitada para GPT-5 da OpenAI, assim:
git clone https://github.com/huggingface/transformers.js-examples
cd transformers.js-examples/llama-3.2-webgpu
codex
Então este prompt:
Modify this application such that it offers the user a file browse button for selecting their own local copy of the model file instead of loading it over the network. Provide a "download model" option too.
Codex agitou -se por vários minutos, mesmo executando comandos como curl -sL https://raw.githubusercontent.com/huggingface/transformers.js/main/src/models.js | sed -n '1,200p' Para inspecionar o código -fonte da biblioteca transformadores.js subjacentes.
Após quatro avisos, o total (mostrado aqui) construiu algo que funcionou!
Para experimentá -lo, você precisará de sua própria cópia local do modelo LLAMA 3.2 ONNX. Você pode obter isso (um download de ~ 1,2 GB)) como assim:
git lfs install
git clone https://huggingface.co/onnx-community/Llama-3.2-1B-Instruct-q4f16
Em seguida, visite minha página llama-3.2-webgpu no Chrome ou Firefox todas as noites (como o WebGPU é necessário), clique em “Pasta de navegação”, selecione essa pasta que você acabou de clonar, concorde com a confirmação de “fazer upload” (confuso, pois nada é carregado no modelo do seu navegador, o arquivo do modelo é aberto localmente) e clique em “carregar” carregar “carregar”.
Aqui está uma demonstração animada (gravada em tempo real, não acelerei isso):

Eu empurrei um ramo com essas mudanças aqui. A próxima etapa seria modificar isso para apoiar outros modelos, além da demonstração do LLAMA 3.2, mas tenho o prazer de ter chegado a essa prova de conceito com tão pouco trabalho além de lançar alguns avisos no Codex para ver se poderia descobrir.
De acordo com o Codex /status Comando isso usou 169.818 tokens de entrada, 17.112 tokens de saída e 1.176.320 tokens de entrada em cache. No preço de token GPT-5 atual (entrada de US $ 1,25/milhão, entrada em cache de US $ 0,125/milhão, saída de US $ 10/milhão) que custaria 53,942 centavos, mas o Codex CLI liga no meu plano de chatgpt de US $ 20/mês existente para que isso tenha sido agrupado.
