Google Gemma-2: Технические идеи и прорывы в крупных языковых моделях

Откройте для себя технические идеи и прорывы, стоящие за языковыми моделями Google Gemma-2. Исследуйте архитектуру, методы обучения и контрольные показатели производительности, которые выделяют эти крупные языковые модели. Получите более глубокое понимание достижений в этой области.

20 февраля 2025 г.

party-gif

Раскройте силу последних достижений в области языковых моделей с помощью углубленного анализа технического отчета Gemma 2. Узнайте, как инновационный подход Google к дистилляции знаний и улучшения архитектуры привели к передовым результатам на академических эталонных тестах и реальных чат-ботовых приложениях. Этот всесторонний анализ предоставляет ценные insights, которые могут помочь вам использовать эти передовые языковые модели для улучшения ваших собственных проектов.

Архитектурные инновации в Gemma 2

Gemma 2, последняя открытая языковая модель Google, представляет несколько архитектурных инноваций, которые способствуют ее высокой производительности. Модель использует архитектуру Transformer только с декодером, что упрощает конструкцию модели по сравнению с традиционной схемой кодировщик-декодер.

Одно из ключевых нововведений - использование большого размера словаря в 256 000 токенов. Это позволяет модели справляться с широким спектром многоязычных задач, несмотря на то, что она в основном обучалась на английских данных. Большой размер словаря обеспечивает модели богатое лексическое понимание, что позволяет ей хорошо справляться с различными языковыми доменами.

Кроме того, архитектура Gemma 2 включает в себя несколько модификаций стандартной конструкции Transformer. Сюда входят изменения механизма внимания, нормализации слоев и остаточных соединений, направленные на повышение эффективности и результативности модели. Технический отчет предоставляет подробную информацию об этих архитектурных решениях и их влиянии на производительность модели.

Использование разнообразных наборов данных для обучения

Модели Gemini 2 компании Google были обучены на разнообразных источниках данных, включая как внутренние, так и внешние общедоступные наборы данных. Ключевые аспекты обучающих данных:

  1. Подсказки чата LMS: Команда использовала подсказки (но не ответы) из набора данных чата LMS, общедоступного набора данных разговорных подсказок. Это позволило моделям обучаться на широком спектре сценариев общения, не будучи предвзятыми предопределенными ответами.

  2. Внутренние данные: Помимо общедоступных данных, команда также использовала внутренние источники данных для предварительного обучения моделей. Это, вероятно, обеспечило моделям более широкую и разнообразную базу знаний.

  3. Фильтрация данных: Все обучающие данные прошли тщательный процесс фильтрации для удаления небезопасного или дублирующего контента. Это помогло обеспечить, чтобы модели обучались на высококачественных, отредактированных данных.

Дистилляция знаний: улучшение меньших моделей

Одной из основных проблем при обучении больших языковых моделей является необходимость в огромных объемах данных для эффективной доработки. Даже меньшие модели из семейства Gemini 2 требуют значительного количества данных, причем семейство Lamda 3 было доработано на основе до 15 триллионов токенов, что привело к улучшению менее чем на 1% по сравнению с моделями, соответствующими современному уровню.

Для решения этой проблемы команда Gemini 2 применила технику, называемую "дистилляцией знаний". Этот подход заключается в использовании более крупной "учительской" модели, такой как Gemini 1.5 или Colossal-AI, для обучения меньшей "ученической" модели. Вместо прямого предсказания следующего токена, ученическая модель обучается соответствовать распределению вероятностей учительской модели, используя расхождение Кульбака-Лейблера (KL) в качестве функции потерь.

Шаблон подсказки и структура разговора

Модель Gemini 2 использует определенный шаблон подсказки для одноразовых разговоров. Структура подсказки следующая:

<start_of_conversation>
<user_role>
<end_of_turn>
<model_role>
<end_of_sequence>

Для второго хода в разговоре подсказка будет дополнена:

<start_of_conversation>
<user_role>
<end_of_turn>
<model_role>
<end_of_turn>
<user_role>
<end_of_sequence>

Основные моменты:

  • Подсказка начинается с токена <start_of_conversation>.
  • Токен <user_role> указывает на часть разговора, принадлежащую пользователю.
  • Токен <end_of_turn> разделяет ввод пользователя и ответ модели.
  • Токен <model_role> указывает на часть разговора, принадлежащую модели.
  • Токен <end_of_sequence> отмечает конец разговора.

Использование данных чата LMS для улучшения производительности

Подход Google к обучению моделей Gemma 2 включал использование подсказок из набора данных чата LMS, но не фактических ответов. Вместо этого они использовали модель-учитель для генерации ответов на эти подсказки, которые затем использовались для обучения моделей-учеников через дистилляцию знаний.

Эта стратегия имеет несколько потенциальных преимуществ:

  1. Избежание предвзятости: Не используя предопределенные ответы из набора данных чата LMS, модель поощряется к большей креативности и гибкости в своих выходных данных, вместо того, чтобы просто имитировать предвзятость, присутствующую в наборе данных.

  2. Использование экспертизы модели-учителя: Более крупная и более способная модель-учитель используется для генерации высококачественных ответов на подсказки чата LMS. Эти ответы затем используются для обучения моделей-учеников, позволяя им извлечь выгоду из экспертизы учителя.

Исследование аблации: подтверждение эффективности методик

Модели Gemma 2 легко доступны для использования. Самый простой способ получить к ним доступ - через Google AI Studio, где модели предоставляются в разделе "Модели". Кроме того, веса моделей также доступны на платформе Hugging Face, что позволяет интегрировать их в свою собственную кодовую базу.

Для использования моделей Gemma 2 вам потребуется следовать определенному шаблону подсказки. Подсказка должна начинаться со специальных токенов, за которыми следует роль пользователя, токен конца хода, роль модели и токен конца последовательности. Для второго хода вам нужно будет добавить ту же структуру подсказки в конец предыдущей, убедившись, что присутствует токен конца последовательности.

Модели Gemma 2 представлены в двух версиях: модель с 9 миллиардами параметров и модель с 27 миллиардами параметров. Обе версии доступны для использования, и вы можете выбрать ту, которая лучше всего соответствует вашим потребностям. Модели были обучены с использованием сочетания внутренних и внешних общедоступных данных, включая подсказки из набора данных чата LMS, но без соответствующих ответов.

Часто задаваемые вопросы