Парящие ориентиры: Smaug 70B LLaMA 3 Fine-Tuned Model доминирует

Узнайте, как Smaug, модель LLaMA 3 с тонкой настройкой на 70B, доминирует на контрольных тестах, превосходя GPT-4 Turbo. Исследуйте его впечатляющие возможности, включая задачи программирования и рассуждения, в этом подробном анализе.

23 марта 2025 г.

Откройте для себя силу новой модели LLaMA 3 с тонкой настройкой, Smaug 70b, поскольку она доминирует в бенчмарках и превосходит даже GPT-4 Turbo. Исследуйте возможности этой открытой модели и посмотрите, как она может справляться с различными задачами, от программирования до решения проблем, в этом всестороннем анализе.

Smaug 70b доминирует на контрольных испытаниях
Тестирование моделей: скрипт на Python и змеиная игра
Решение математических задач и задач на логику
Анализ сценария с мраморным шариком в чашке
Определение местоположения мяча
Составление предложений, заканчивающихся словом 'яблоко'
Расчет времени копания 10-футовой ямы
Заключение

Smaug 70b доминирует на контрольных испытаниях

По словам Бинду, генерального директора Abacus AI, модель Smaug 70b значительно лучше, чем предыдущая лучшая открытая модель, LLaMA 37b. Smaug 70b превосходит LLaMA 37b и GPT-4 Turbo по различным показателям, включая MT bench и Arena hard scores.

Модель Smaug 70b набрала 56,7 баллов на MT bench, в то время как LLaMA 37b набрала 41,1. Это демонстрирует улучшенные возможности рассуждения и возможности модели Smaug 70b по сравнению с ее предшественницей.

Для дальнейшего тестирования модели автор загрузил версию модели Smaug с 7 миллиардами параметров и запустил ее локально с помощью LM Studio. Меньшая модель смогла успешно создать работающую игру Snake, демонстрируя свою универсальность и производительность.

Затем автор приступил к тестированию более крупной версии модели Smaug с 70 миллиардами параметров на Abacus.com. Модель смогла выполнять различные задачи, такие как вывод чисел от 1 до 100 и решение простых математических задач. Однако она столкнулась с более сложными задачами, такими как создание игры Snake с использованием библиотеки Curses или предоставление пошагового решения логической головоломки.

В отличие от этого, меньшая версия модели с 7 миллиардами параметров, работающая локально, лучше справлялась с этими более сложными задачами, что подчеркивает потенциальные преимущества использования меньшей, оптимизированной модели для определенных приложений.

Тестирование моделей: скрипт на Python и змеиная игра

Транскрипт указывает, что автор протестировал две версии модели Smog: версию с 70 миллиардами параметров без квантования и версию с 7 миллиардами параметров с квантованием, на различных задачах. Вот краткое изложение ключевых моментов:

Автор сначала протестировал способность обеих моделей выводить числа от 1 до 100 в скрипте Python, что обе модели смогли сделать успешно.
Затем автор протестировал способность моделей создавать игру Snake в Python. Меньшая модель с 7 миллиардами параметров с квантованием смогла создать работающую игру Snake с первой попытки, в то время как более крупная версия с 70 миллиардами параметров столкнулась с проблемами и не смогла создать работающую игру.
Автор затем попытался заставить более крупную модель создать игру Snake с использованием библиотеки pygame, но она также не смогла успешно выполнить эту задачу.
Автор пришел к выводу, что меньшая квантованная модель показала лучшие результаты в задаче создания игры Snake по сравнению с более крупной неквантованной версией модели Smog.

В целом, результаты показывают, что меньшая квантованная модель была более способна справляться с определенными программными задачами, такими как создание работающей игры Snake, по сравнению с более крупной неквантованной версией модели Smog.

Решение математических задач и задач на логику

Модель показала хорошие результаты в решении различных математических и словесных задач, демонстрируя свои возможности в количественных рассуждениях и решении задач. Некоторые ключевые моменты:

Модель смогла правильно решить простые арифметические задачи, такие как "25 - 4 * 2 + 3", и предоставить пошаговое обоснование.
Для задачи со словесной формулировкой, связанной с гостиничными расходами, модель определила правильную формулу для расчета общей стоимости, включая налоги и сборы.
При просьбе объяснить логику сложной головоломки об убийцах в комнате меньшая локальная модель дала более содержательный и точный ответ по сравнению с более крупной версией, работающей в облаке.
Меньшая локальная модель также превзошла более крупную версию в простой задаче на пропорциональность о сушке рубашек.
Обе модели справились с базовыми программными задачами, такими как генерация последовательности чисел и создание простой игры Snake.

В целом, результаты демонстрируют сильные возможности модели в математических рассуждениях и решении задач, при этом меньшая локальная версия иногда превосходила более крупную облачную версию. Это свидетельствует о том, что высококачественные количественные рассуждения могут быть достигнуты даже с более компактными и эффективными развертываниями модели.

Анализ сценария с мраморным шариком в чашке

Сценарий с шариком в стакане - это классическая логическая головоломка, которая проверяет способность рассуждать о физическом мире и делать логические выводы. В данном случае сценарий предполагает, что шарик помещается в стакан, стакан переворачивается и ставится на стол, а затем стакан поднимается и помещается в микроволновую печь.

Ключ к решению этой головоломки заключается в понимании того, что положение шарика относительно стакана не меняется на протяжении описанных действий. Даже несмотря на то, что стакан переворачивается и перемещается, шарик остается на дне стакана, которое теперь обращено вверх.

Когда стакан помещается в микроволновую печь, шарик все еще находится внутри стакана, поскольку выполненные действия не привели к тому, что шарик покинул стакан. Это правильный ответ, так как шарик остается в том же положении внутри стакана на протяжении всей последовательности событий.

Определение местоположения мяча

Джон, который положил мяч в коробку, прежде чем уйти на работу, будет предполагать, что мяч все еще находится в коробке.

Марк, который положил мяч в корзину, пока Джона не было, будет предполагать, что мяч находится в корзине.

Поскольку у Джона и Марка разные предположения о местонахождении мяча, окончательное местонахождение мяча является неоднозначным, исходя из предоставленной информации.

Составление предложений, заканчивающихся словом 'яблоко'

Вот раздел текста в формате markdown:

Более крупная модель смогла сгенерировать 10 предложений, все из которых заканчивались словом "Apple":

Хрустящее, сочное Яблоко было истинным наслаждением.
Джон бросил спелое Яблоко в корзину.
Яблоня в заднем дворе была усыпана плодами.
Она нарезала Яблоко и добавила его в салат.
Теплый Яблочный пирог наполнил кухню восхитительным ароматом.
Учитель раздал каждому ученику блестящее Красное Яблоко.
Карамелизованное Яблоко было популярным лакомством на ярмарке округа.
Яблочный сидр был идеальным дополнением к осенним листьям.
Лепестки цветов Яблони танцевали в легком ветерке.
Юный мальчик с удовольствием откусил от Зеленого Яблока.

Расчет времени копания 10-футовой ямы

Вот раздел текста в формате markdown:

Для расчета времени, которое потребуется 50 людям, чтобы выкопать одну 10-футовую яму, мы можем использовать пропорциональный подход:

Одному человеку требуется 5 часов, чтобы выкопать 10-футовую яму
Следовательно, 50 людям потребуется 1/50 этого времени, то есть 6 минут

Обоснование следующее:

Если одному человеку требуется 5 часов, то 50 людям потребуется 1/50 этого времени, то есть 5 часов / 50 = 0,1 часа = 6 минут.
Время копания обратно пропорционально количеству людей, поэтому удвоение количества людей вдвое сокращает время копания.

Следовательно, 50 людям потребуется 6 минут, чтобы выкопать одну 10-футовую яму.

Заключение

Меньшая версия модели Smog с 7 миллиардами параметров и квантованием показала удивительно хорошие результаты, часто соответствуя или даже превосходя более крупную версию с 70 миллиардами параметров без квантования. В то время как более крупная модель превосходила в задачах, таких как генерация предложений, заканчивающихся словом "Apple", меньшая модель смогла справиться с разнообразными другими задачами, включая математические задачи, логические головоломки и программные задачи.

Это свидетельствует о том, что для многих практических приложений меньшая квантованная модель может быть жизнеспособной и более эффективной альтернативой более крупной версии. Возможность запускать высококачественные языковые модели локально также является значительным преимуществом, поскольку это позволяет обеспечить больший контроль, прозрачность и потенциально более быстрое время отклика.

В целом, результаты этого сравнения были весьма интересными и подчеркивают важность тщательного тестирования и оценки различных конфигураций модели, чтобы определить наилучшее решение для конкретного случая использования. Производительность меньшей модели Smog, безусловно, впечатляет и заслуживает внимания разработчиков и исследователей, стремящихся использовать мощные возможности языковых моделей ИИ.

Часто задаваемые вопросы

Это лучшая в мире модель с открытым исходным кодом по мнению Abacus AI?

Что будет тестировать автор видео?

Как модель Smaug 70b показала себя по сравнению с LLaMA 3 на контрольных тестах?

Каков был результат тестирования меньшей версии модели Smaug с 7 миллиардами параметров, квантованной локально?

Кто является спонсором видео?

Создайте свою девушку с искусственным интеллектом

Создайте своего идеального компаньона с помощью нашего AI Girlfriend Builder.