Benchmarks Impressionantes: Modelo Smaug 70B LLaMA 3 Refinado Domina
Descubra como Smaug, um modelo LLaMA 3 fine-tuned de 70B, domina os benchmarks, superando o GPT-4 Turbo. Explore suas impressionantes capacidades, incluindo tarefas de codificação e raciocínio, nesta análise aprofundada.
22 de fevereiro de 2025

Descubra o poder do novo modelo LLaMA 3 refinado, Smaug 70b, à medida que domina os benchmarks e supera até mesmo o GPT-4 Turbo. Explore as capacidades deste modelo de código aberto e veja como ele pode lidar com uma variedade de tarefas, desde codificação até resolução de problemas, nesta análise abrangente.
Smaug 70b domina os benchmarks
Testando os modelos: script Python e jogo da cobra
Resolvendo problemas de matemática e problemas de palavras
Analisando o cenário da bola de gude na xícara
Determinando a localização da bola
Criando frases terminando na palavra 'maçã'
Calculando o tempo de escavação para um buraco de 10 pés
Conclusão
Smaug 70b domina os benchmarks
Smaug 70b domina os benchmarks
De acordo com Bindu, a CEO da Abacus AI, o modelo Smaug 70b é significativamente melhor do que o modelo de código aberto anterior, o LLaMA 37b. O Smaug 70b supera o LLaMA 37b e o GPT-4 Turbo em vários benchmarks, incluindo MT bench e Arena hard scores.
O modelo Smaug 70b obteve uma pontuação de 56,7 no MT bench, enquanto o LLaMA 37b obteve 41,1. Isso demonstra o raciocínio e a capacidade aprimorados do modelo Smaug 70b em comparação com seu predecessor.
Para testar ainda mais o modelo, o autor baixou uma versão quantizada de 7 bilhões de parâmetros do modelo Smaug e a executou localmente usando o LM Studio. O modelo menor foi capaz de criar com sucesso um jogo da cobrinha, mostrando sua versatilidade e desempenho.
O autor então prosseguiu para testar a versão maior de 70 bilhões de parâmetros do modelo Smaug no Abacus.com. O modelo foi capaz de concluir várias tarefas, como gerar os números de 1 a 100 e resolver problemas matemáticos simples. No entanto, ele teve dificuldades com tarefas mais complexas, como criar um jogo da cobrinha usando a biblioteca Curses ou fornecer uma solução passo a passo para um quebra-cabeça lógico.
Em contraste, o modelo quantizado menor de 7 bilhões de parâmetros em execução local apresentou melhor desempenho nessas tarefas mais complexas, destacando os possíveis benefícios do uso de um modelo menor e otimizado para determinadas aplicações.
Testando os modelos: script Python e jogo da cobra
Testando os modelos: script Python e jogo da cobra
A transcrição indica que o autor testou duas versões do modelo Smog, uma versão não quantizada de 70 bilhões de parâmetros e uma versão quantizada de 7 bilhões de parâmetros, em várias tarefas. Aqui está um resumo dos principais pontos:
- O autor primeiro testou a capacidade de ambos os modelos de gerar os números de 1 a 100 em um script Python, o que ambos os modelos conseguiram fazer com sucesso.
- Em seguida, o autor testou a capacidade dos modelos de criar um jogo da cobrinha em Python. O modelo quantizado menor de 7 bilhões de parâmetros conseguiu criar um jogo da cobrinha funcional na primeira tentativa, enquanto a versão maior de 70 bilhões de parâmetros teve problemas e não conseguiu criar um jogo funcional.
- O autor então tentou fazer o modelo maior criar um jogo da cobrinha usando a biblioteca
pygame
, mas também não teve sucesso nessa tarefa. - O autor concluiu que o modelo quantizado menor apresentou melhor desempenho na tarefa do jogo da cobrinha em comparação com a versão maior não quantizada.
Em geral, os resultados sugerem que o modelo quantizado menor foi mais capaz de lidar com certas tarefas de programação, como criar um jogo da cobrinha funcional, em comparação com a versão maior não quantizada do modelo Smog.
Resolvendo problemas de matemática e problemas de palavras
Resolvendo problemas de matemática e problemas de palavras
O modelo apresentou bom desempenho em uma variedade de problemas matemáticos e de palavras, demonstrando suas capacidades em raciocínio quantitativo e resolução de problemas. Alguns destaques importantes:
- O modelo foi capaz de resolver corretamente problemas aritméticos simples, como "25 - 4 * 2 + 3", e fornecer o raciocínio passo a passo.
- Para um problema de palavras envolvendo cobranças de hotel, o modelo identificou a fórmula correta para calcular o custo total, incluindo impostos e taxas.
- Quando solicitado a explicar o raciocínio de um quebra-cabeça lógico complicado sobre assassinos em uma sala, o modelo local menor forneceu uma resposta mais perspicaz e precisa em comparação com a versão maior baseada na nuvem.
- O modelo local menor também superou o maior em um problema simples de proporcionalidade sobre secagem de camisas.
- Ambos os modelos lidaram com tarefas de programação básicas, como gerar uma sequência de números e construir um simples jogo da cobrinha.
Em geral, os resultados demonstram as fortes capacidades do modelo em raciocínio matemático e resolução de problemas, com a versão local menor às vezes superando a maior baseada na nuvem. Isso sugere que o raciocínio quantitativo de alta qualidade pode ser alcançado mesmo com implantações de modelos mais compactas e eficientes.
Analisando o cenário da bola de gude na xícara
Analisando o cenário da bola de gude na xícara
O cenário da bola de gude no copo é um quebra-cabeça lógico clássico que testa a capacidade de raciocinar sobre o mundo físico e fazer inferências lógicas. Neste caso, o cenário envolve uma bola de gude sendo colocada em um copo, o copo sendo virado de cabeça para baixo e colocado em uma mesa, e então o copo sendo pego e colocado em um micro-ondas.
A chave para resolver esse quebra-cabeça é entender que a posição da bola de gude em relação ao copo não muda ao longo das ações descritas. Mesmo que o copo seja virado de cabeça para baixo e movido, a bola de gude permanece no fundo do copo, que agora está voltado para cima.
Quando o copo é colocado no micro-ondas, a bola de gude ainda está dentro do copo, pois as ações realizadas não fizeram a bola de gude sair do copo. Essa é a resposta correta, pois a bola de gude permanece na mesma posição dentro do copo durante toda a sequência de eventos.
Determinando a localização da bola
Determinando a localização da bola
John, que colocou a bola na caixa antes de sair para o trabalho, assumirá que a bola ainda está na caixa.
Mark, que colocou a bola na cesta enquanto John estava fora, assumirá que a bola está na cesta.
Como tanto John quanto Mark têm suposições diferentes sobre a localização da bola, a localização final da bola é ambígua com base nas informações fornecidas.
Criando frases terminando na palavra 'maçã'
Criando frases terminando na palavra 'maçã'
O modelo maior foi capaz de gerar 10 frases que todas terminavam com a palavra "Maçã":
- A Maçã crocante e suculenta foi uma delícia de comer.
- John jogou a Maçã madura na cesta.
- A árvore de Maçã no quintal estava carregada de frutas.
- Ela cortou a Maçã e adicionou-a à salada.
- A torta de Maçã quente encheu a cozinha com um aroma delicioso.
- A professora entregou uma Maçã vermelha brilhante a cada aluno.
- A Maçã com cobertura de caramelo era uma guloseima popular na feira do condado.
- A sidra de Maçã era o acompanhamento perfeito para as folhas de outono.
- As pétalas da flor de Maçã dançavam na brisa suave.
- O menino pegou com entusiasmo uma mordida da Maçã Verde.
Calculando o tempo de escavação para um buraco de 10 pés
Calculando o tempo de escavação para um buraco de 10 pés
Para calcular o tempo que 50 pessoas levariam para cavar um único buraco de 10 pés, podemos usar uma abordagem proporcional:
- Uma pessoa leva 5 horas para cavar um buraco de 10 pés
- Portanto, 50 pessoas levariam 1/50 desse tempo, ou seja, 6 minutos
O raciocínio é o seguinte:
- Se 1 pessoa leva 5 horas, então 50 pessoas levariam 1/50 desse tempo, ou seja, 5 horas / 50 = 0,1 horas = 6 minutos.
- O tempo de escavação é inversamente proporcional ao número de pessoas, então dobrar o número de pessoas reduz pela metade o tempo de escavação.
Portanto, 50 pessoas levariam 6 minutos para cavar um único buraco de 10 pés.
Perguntas frequentes
Perguntas frequentes