Kimi K2 Pensando

Kimi K2 Pensando


Kimi K2 Pensando. O Kimi K2 do laboratório chinês de IA Moonshot se estabeleceu como um dos maiores modelos de peso aberto – 1 trilhão de parâmetros – em julho. Eles agora lançaram a versão Thinking, também com um trilhão de parâmetros (MoE, 32B ativos) e também sob sua licença MIT modificada personalizada (portanto, não exatamente de código aberto).

Começando com Kimi K2, nós o construímos como um agente pensante que raciocina passo a passo enquanto invoca ferramentas dinamicamente. Ele estabelece um novo estado da arte no Último Exame da Humanidade (HLE), BrowseComp e outros benchmarks, aumentando drasticamente a profundidade do raciocínio em várias etapas e mantendo o uso estável da ferramenta em 200 a 300 chamadas sequenciais. Ao mesmo tempo, K2 Thinking é um modelo de quantização INT4 nativo com janela de contexto de 256k, alcançando reduções sem perdas na latência de inferência e no uso de memória da GPU.

Este tem apenas 594 GB no Hugging Face – Kimi K2 tinha 1,03 TB – o que acho que se deve à nova quantização INT4. Isso torna o modelo mais barato e mais rápido de hospedar.

Até agora, as únicas pessoas que o hospedam são os próprios Moonshot. Eu tentei por meio de sua própria API e por meio do proxy OpenRouter, por meio do plugin llm-moonshot (de NickMystic) e meu plugin llm-openrouter respectivamente.

O burburinho em torno deste modelo até agora é muito positivo. Poderia este ser o primeiro modelo de peso aberto competitivo com os mais recentes da OpenAI e Anthropic, especialmente para sequências de chamadas de ferramentas de agente de longa duração?

As pontuações de benchmark auto-relatadas da Moonshot AI mostram o K2 Thinking superando os principais modelos OpenAI e Anthropic (GPT-5 e Sonnet 4.5 Thinking) em “Agentic Reasoning” e “Agentic Search”, mas não totalmente no topo em “Coding”:

Gráfico de barras de comparação mostrando pontuações de desempenho de benchmark de raciocínio, pesquisa e codificação de agentes em três sistemas de IA (K, OpenAI e AI) em tarefas incluindo Último Exame da Humanidade (44,9, 41,7, 32,0), BrowseComp (60,2, 54,9, 24,1), Seal-0 (56,3, 51,4, 53,4), SWE-Multilingual (61,1, 55.3, 68.0), SWE-bench Verified (71.3, 74.9, 77.2) e LiveCodeBench V6 (83.1, 87.0, 64.0), com descrições de categoria incluindo "Perguntas de nível de especialista em todos os assuntos", "Pesquisa e navegação agentes", "Coleta de informações mais recentes do mundo real", "Codificação agente"e "Programação competitiva".

Fiz alguns testes de pelicano:

llm install llm-moonshot
llm keys set moonshot # paste key
llm -m moonshot/kimi-k2-thinking 'Generate an SVG of a pelican riding a bicycle'

Kimi K2 Pensando

llm install llm-openrouter
llm keys set openrouter # paste key
llm -m openrouter/moonshotai/kimi-k2-thinking \
  'Generate an SVG of a pelican riding a bicycle'

Soneto 4.5: Ilustração minimalista de desenho animado de um pássaro branco com bico laranja e pés em pé sobre uma bicicleta estilo penny-farthing de estrutura triangular com rodas de cubo cinza e um chapéu de hélice na cabeça, contra um fundo claro com linhas pontilhadas e uma linha de fundo marrom.

Análise Artificial disse:

Kimi K2 Thinking atinge 93% no 𝜏²-Bench Telecom, benchmark de uso de ferramenta agentica onde o modelo atua como agente de atendimento ao cliente. Esta é a pontuação mais alta que medimos de forma independente. O uso de ferramentas em contextos de agência de longo horizonte foi um ponto forte do Kimi K2 Instruct e parece que esta nova variante do Thinking traz ganhos substanciais

A CNBC citou uma fonte que forneceu o preço de treinamento do modelo:

O modelo Kimi K2 Thinking custou US$ 4,6 milhões para ser treinado, segundo uma fonte familiarizada com o assunto. (…) A CNBC não conseguiu verificar de forma independente os números do DeepSeek ou do Kimi.

A desenvolvedora do MLX, Awni Hannun, fez com que funcionasse em dois M3 Ultra Mac Studios:

O novo modelo Kimi K2 Thinking com parâmetro de 1 trilhão funciona bem em 2 M3 Ultras em seu formato nativo – sem perda de qualidade!

O modelo foi treinado com reconhecimento de quantização (qat) em int4.

Aqui ele gerou aproximadamente 3.500 tokens a 15 toks/s usando paralelismo de pipeline em mlx-lm

Aqui está o modelo da comunidade mlx de 658 GB.



Source link

Postagens Similares

Deixe um comentário

O seu endereço de email não será publicado. Campos obrigatórios marcados com *