Benchmarks Impressionantes: Modelo Smaug 70B LLaMA 3 Refinado Domina

Descubra como Smaug, um modelo LLaMA 3 fine-tuned de 70B, domina os benchmarks, superando o GPT-4 Turbo. Explore suas impressionantes capacidades, incluindo tarefas de codificação e raciocínio, nesta análise aprofundada.

14 de fevereiro de 2025

party-gif

Descubra o poder do novo modelo LLaMA 3 refinado, Smaug 70b, à medida que domina os benchmarks e supera até mesmo o GPT-4 Turbo. Explore as capacidades deste modelo de código aberto e veja como ele pode lidar com uma variedade de tarefas, desde codificação até resolução de problemas, nesta análise abrangente.

Smaug 70b domina os benchmarks

De acordo com Bindu, a CEO da Abacus AI, o modelo Smaug 70b é significativamente melhor do que o modelo de código aberto anterior, o LLaMA 37b. O Smaug 70b supera o LLaMA 37b e o GPT-4 Turbo em vários benchmarks, incluindo MT bench e Arena hard scores.

O modelo Smaug 70b obteve uma pontuação de 56,7 no MT bench, enquanto o LLaMA 37b obteve 41,1. Isso demonstra o raciocínio e a capacidade aprimorados do modelo Smaug 70b em comparação com seu predecessor.

Para testar ainda mais o modelo, o autor baixou uma versão quantizada de 7 bilhões de parâmetros do modelo Smaug e a executou localmente usando o LM Studio. O modelo menor foi capaz de criar com sucesso um jogo da cobrinha, mostrando sua versatilidade e desempenho.

O autor então prosseguiu para testar a versão maior de 70 bilhões de parâmetros do modelo Smaug no Abacus.com. O modelo foi capaz de concluir várias tarefas, como gerar os números de 1 a 100 e resolver problemas matemáticos simples. No entanto, ele teve dificuldades com tarefas mais complexas, como criar um jogo da cobrinha usando a biblioteca Curses ou fornecer uma solução passo a passo para um quebra-cabeça lógico.

Em contraste, o modelo quantizado menor de 7 bilhões de parâmetros em execução local apresentou melhor desempenho nessas tarefas mais complexas, destacando os possíveis benefícios do uso de um modelo menor e otimizado para determinadas aplicações.

Testando os modelos: script Python e jogo da cobra

A transcrição indica que o autor testou duas versões do modelo Smog, uma versão não quantizada de 70 bilhões de parâmetros e uma versão quantizada de 7 bilhões de parâmetros, em várias tarefas. Aqui está um resumo dos principais pontos:

  • O autor primeiro testou a capacidade de ambos os modelos de gerar os números de 1 a 100 em um script Python, o que ambos os modelos conseguiram fazer com sucesso.
  • Em seguida, o autor testou a capacidade dos modelos de criar um jogo da cobrinha em Python. O modelo quantizado menor de 7 bilhões de parâmetros conseguiu criar um jogo da cobrinha funcional na primeira tentativa, enquanto a versão maior de 70 bilhões de parâmetros teve problemas e não conseguiu criar um jogo funcional.
  • O autor então tentou fazer o modelo maior criar um jogo da cobrinha usando a biblioteca pygame, mas também não teve sucesso nessa tarefa.
  • O autor concluiu que o modelo quantizado menor apresentou melhor desempenho na tarefa do jogo da cobrinha em comparação com a versão maior não quantizada.

Em geral, os resultados sugerem que o modelo quantizado menor foi mais capaz de lidar com certas tarefas de programação, como criar um jogo da cobrinha funcional, em comparação com a versão maior não quantizada do modelo Smog.

Resolvendo problemas de matemática e problemas de palavras

O modelo apresentou bom desempenho em uma variedade de problemas matemáticos e de palavras, demonstrando suas capacidades em raciocínio quantitativo e resolução de problemas. Alguns destaques importantes:

  • O modelo foi capaz de resolver corretamente problemas aritméticos simples, como "25 - 4 * 2 + 3", e fornecer o raciocínio passo a passo.
  • Para um problema de palavras envolvendo cobranças de hotel, o modelo identificou a fórmula correta para calcular o custo total, incluindo impostos e taxas.
  • Quando solicitado a explicar o raciocínio de um quebra-cabeça lógico complicado sobre assassinos em uma sala, o modelo local menor forneceu uma resposta mais perspicaz e precisa em comparação com a versão maior baseada na nuvem.
  • O modelo local menor também superou o maior em um problema simples de proporcionalidade sobre secagem de camisas.
  • Ambos os modelos lidaram com tarefas de programação básicas, como gerar uma sequência de números e construir um simples jogo da cobrinha.

Em geral, os resultados demonstram as fortes capacidades do modelo em raciocínio matemático e resolução de problemas, com a versão local menor às vezes superando a maior baseada na nuvem. Isso sugere que o raciocínio quantitativo de alta qualidade pode ser alcançado mesmo com implantações de modelos mais compactas e eficientes.

Analisando o cenário da bola de gude na xícara

O cenário da bola de gude no copo é um quebra-cabeça lógico clássico que testa a capacidade de raciocinar sobre o mundo físico e fazer inferências lógicas. Neste caso, o cenário envolve uma bola de gude sendo colocada em um copo, o copo sendo virado de cabeça para baixo e colocado em uma mesa, e então o copo sendo pego e colocado em um micro-ondas.

A chave para resolver esse quebra-cabeça é entender que a posição da bola de gude em relação ao copo não muda ao longo das ações descritas. Mesmo que o copo seja virado de cabeça para baixo e movido, a bola de gude permanece no fundo do copo, que agora está voltado para cima.

Quando o copo é colocado no micro-ondas, a bola de gude ainda está dentro do copo, pois as ações realizadas não fizeram a bola de gude sair do copo. Essa é a resposta correta, pois a bola de gude permanece na mesma posição dentro do copo durante toda a sequência de eventos.

Determinando a localização da bola

John, que colocou a bola na caixa antes de sair para o trabalho, assumirá que a bola ainda está na caixa.

Mark, que colocou a bola na cesta enquanto John estava fora, assumirá que a bola está na cesta.

Como tanto John quanto Mark têm suposições diferentes sobre a localização da bola, a localização final da bola é ambígua com base nas informações fornecidas.

Criando frases terminando na palavra 'maçã'

O modelo maior foi capaz de gerar 10 frases que todas terminavam com a palavra "Maçã":

  1. A Maçã crocante e suculenta foi uma delícia de comer.
  2. John jogou a Maçã madura na cesta.
  3. A árvore de Maçã no quintal estava carregada de frutas.
  4. Ela cortou a Maçã e adicionou-a à salada.
  5. A torta de Maçã quente encheu a cozinha com um aroma delicioso.
  6. A professora entregou uma Maçã vermelha brilhante a cada aluno.
  7. A Maçã com cobertura de caramelo era uma guloseima popular na feira do condado.
  8. A sidra de Maçã era o acompanhamento perfeito para as folhas de outono.
  9. As pétalas da flor de Maçã dançavam na brisa suave.
  10. O menino pegou com entusiasmo uma mordida da Maçã Verde.

Calculando o tempo de escavação para um buraco de 10 pés

Para calcular o tempo que 50 pessoas levariam para cavar um único buraco de 10 pés, podemos usar uma abordagem proporcional:

  • Uma pessoa leva 5 horas para cavar um buraco de 10 pés
  • Portanto, 50 pessoas levariam 1/50 desse tempo, ou seja, 6 minutos

O raciocínio é o seguinte:

  • Se 1 pessoa leva 5 horas, então 50 pessoas levariam 1/50 desse tempo, ou seja, 5 horas / 50 = 0,1 horas = 6 minutos.
  • O tempo de escavação é inversamente proporcional ao número de pessoas, então dobrar o número de pessoas reduz pela metade o tempo de escavação.

Portanto, 50 pessoas levariam 6 minutos para cavar um único buraco de 10 pés.

Perguntas frequentes