Оценка производительности Phi-3-Mini на RAG, маршрутизации и агентах

Оценка производительности Phi-3-Mini на RAG, маршрутизации и агентах. Исследование возможностей модели в практических вариантах использования, включая простые запросы RAG, сложное разложение запросов и оркестрацию агентов.

19 февраля 2025 г.

party-gif

Эта статья в блоге исследует возможности языковой модели Phi-3-Mini в практических сценариях использования, включая поиск, маршрутизацию запросов и агентные фреймворки. Контент предоставляет подробный анализ производительности модели в различных задачах, предлагая insights в отношении ее сильных и слабых сторон. Читатели получат лучшее понимание пригодности модели для реальных приложений.

Простое извлечение и RAG

Модель демонстрирует разумную производительность на простых задачах поиска с использованием конвейера RAG (Retrieval-Augmented Generation). Когда ей задается простой запрос, например, "чем отличаются OpenAI и Meta в инструментах ИИ", модель способна предоставить точный ответ, сжимая соответствующие фрагменты текста и генерируя связное резюме.

Однако, когда запросы становятся более сложными, модель начинает проявлять некоторые ограничения. Например, когда ее спрашивают "какие новые функции добавил OpenAI в ChatGPT", модель неправильно приписывает некоторые функции, введенные Meta, OpenAI, демонстрируя тенденцию к галлюцинациям или путанице информации из разных источников.

Производительность модели улучшается при использовании режима "tree summarize", который рекурсивно резюмирует каждый фрагмент текста перед генерацией окончательного ответа. Этот подход помогает смягчить проблему противоречивой информации в разных фрагментах.

Сложные запросы и ограничения RAG

Производительность модели на сложных запросах выявляет некоторые ограничения подхода RAG (Retrieval-Augmented Generation). Хотя она справляется с простыми запросами довольно хорошо, она испытывает трудности с более сложными запросами, которые включают противоречивую информацию из разных фрагментов документа.

Когда ее спросили о новых функциях, введенных OpenAI, модель неправильно приписала некоторые функции, которые на самом деле были введены Meta. Это свидетельствует о том, что модель испытывает трудности с согласованием и синтезом информации из нескольких источников, особенно когда есть расхождения или противоречия.

Однако возможности модели по декомпозиции запросов выглядят более перспективными. Когда ей был представлен сложный запрос, модель смогла разбить его на соответствующие подвопросы и получить информацию соответствующим образом. Это свидетельствует о том, что модель имеет некоторое понимание underlying структуры запроса и может попытаться решить его более систематическим образом.

Маршрутизация запросов и декомпозиция запросов

Производительность модели на задачах маршрутизации и декомпозиции запросов была смешанной.

Для маршрутизации запросов модель эффективно использовала предоставленные описания инструментов, чтобы определить, какое векторное хранилище использовать для ответа на конкретные запросы. Когда ей был задан вопрос об информации, связанной с Meta, модель правильно определила "Vector Tool" как соответствующий ресурс и предоставила релевантный ответ. Аналогичным образом, когда ей был задан более конкретный вопрос о количестве чат-ботов, ориентированных на личность, введенных Meta, модель снова использовала правильное векторное хранилище, чтобы получить точную информацию.

Однако, когда модели разрешили выбирать несколько инструментов, ее производительность снизилась. Для запроса, спрашивающего об основных функциях, введенных OpenAI и другими компаниями, модель неправильно приписала информацию о Tesla и Apple, которые не упоминались в исходном документе. Это свидетельствует о том, что модель все еще испытывает трудности с сложной маршрутизацией запросов и может галлюцинировать информацию, пытаясь объединить несколько источников.

Агенты и математические операции

Тесты, проведенные на модели Retrieval-Augmented Generation (RAG), раскрывают некоторые интересные особенности ее возможностей и ограничений:

  1. Простые запросы RAG: Модель демонстрирует разумную производительность на простых запросах RAG, предоставляя точные ответы на основе информации, доступной в документе.

  2. Сложные запросы RAG: Когда модель сталкивается с более сложными запросами, которые включают противоречивую информацию из разных фрагментов документа, она испытывает трудности и склонна к галлюцинациям или неправильной классификации информации.

  3. Маршрутизация запросов: Модель демонстрирует способность выполнять маршрутизацию запросов, где она может выбирать соответствующее векторное хранилище для извлечения релевантной информации на основе запроса. Это свидетельствует о том, что модель может справляться с задачами, требующими понимания метаданных и возможностей различных источников информации.

Часто задаваемые вопросы