高い基準: Smaug 70B LLaMA 3 ファインチューンモデルが優位
Smaug、70B LLaMA 3のファインチューンモデルが、GPT-4 Turboを凌駕し、ベンチマークを支配する様子を発見してください。このインデプスな分析では、コーディングタスクや推論など、その印象的な機能を探求します。
2025年2月22日

新しいLLaMA 3ファインチューンモデル、Smaug 70bの力を発見してください。このモデルは、ベンチマークを支配し、GPT-4 Turboを凌駕しています。このオープンソースモデルの機能を探索し、コーディングから問題解決まで、さまざまなタスクをどのように処理できるかを、この包括的な分析で確認してください。
Smaug 70bがベンチマークを支配する
モデルのテスト: Pythonスクリプトとスネークゲーム
数学の問題と単語の問題を解く
コップの中のマーブルのシナリオを分析する
ボールの位置を特定する
「りんご」で終わる文章を作る
10フィートの穴を掘るのに必要な時間を計算する
結論
Smaug 70bがベンチマークを支配する
Smaug 70bがベンチマークを支配する
Abacus AI社のCEOであるBinduによると、Smaug 70bモデルは以前の最高のオープンソースモデルであるLLaMA 37bよりも大幅に優れているそうです。Smaug 70bはMT benchやArena hard scoresなどのさまざまなベンチマークでLLaMA 37bやGPT-4 Turboを上回っています。
Smaug 70bモデルはMT benchで56.7のスコアを獲得したのに対し、LLaMA 37bは41.1でした。これは、Smaug 70bモデルの推論能力と機能が前モデルよりも向上していることを示しています。
さらにモデルをテストするため、著者はSmaug 70bモデルの7億パラメーターの量子化バージョンをダウンロードし、LM Studioを使ってローカルで実行しました。この小さなモデルは、Snake ゲームを正常に作成することができ、その汎用性と性能を示しました。
その後、著者は70億パラメーターのSmaug 70bモデルをAbacus.comで試しました。このモデルは1から100までの数字の出力や簡単な数学問題の解決など、さまざまなタスクを完了することができました。しかし、Cursesライブラリを使ったSnakeゲームの作成や論理パズルの段階的な解決など、より複雑なタスクでは苦戦しました。
これに対し、ローカルで実行された7億パラメーターの量子化モデルは、これらの複雑なタスクでより良い成績を収めました。これは、特定のアプリケーションでは最適化された小さなモデルの方が有利である可能性を示唆しています。
全体として、Smaug 70bモデルは様々なベンチマークで優れた性能を発揮し、以前の最先端モデルであるLLaMA 37bを上回りました。しかし、著者のテストでは、量子化された小さなモデルの方が特定のユースケースでより適しているという結果も得られました。
FAQ
FAQ