Революционизируя агентов ИИ: Открывая компьютерный контроль с помощью OS World

Революционизируйте агентов ИИ с OS World, новым проектом с открытым исходным кодом, который предоставляет надежную среду для тестирования и оценки агентов ИИ в реальных компьютерных средах. Узнайте, как этот прорыв позволяет агентам выполнять сложные задачи, связывая инструкции с конкретными действиями.

22 февраля 2025 г.

party-gif

Откройте будущее агентов искусственного интеллекта с OS World, революционным проектом, который обеспечивает бесшовное управление компьютерами в различных операционных системах. Узнайте, как эта открытая платформа меняет способ тестирования и улучшения агентов искусственного интеллекта, наделяя их возможностью решать сложные, реальные задачи с точностью и эффективностью.

Как OS World позволяет агентам ИИ управлять компьютерами в различных операционных системах

OS World - это новый проект, который направлен на решение проблемы тестирования и оценки производительности ИИ-агентов в реальных компьютерных средах. Ключевые особенности OS World включают:

  1. Единая мультимодальная среда: OS World предоставляет единую среду, в которой ИИ-агенты могут работать в различных операционных системах, приложениях и интерфейсах, включая как графические пользовательские интерфейсы (GUI), так и интерфейсы командной строки (CLI).

  2. Пространство наблюдений и действий: OS World определяет пространство наблюдений, которое включает текущую рабочую среду, инструкции, скриншоты и деревья доступности. Он также определяет пространство действий, которое включает такие действия, как перемещение мыши, щелчки, ввод с клавиатуры и многое другое.

  3. Метрики оценки: OS World включает тщательно аннотированные реальные компьютерные задачи с начальными конфигурациями состояния и пользовательскими скриптами оценки для оценки производительности ИИ-агентов.

  4. Доступность и обоснование: OS World предоставляет информацию о доступности и обоснование, чтобы позволить ИИ-агентам интерпретировать и выполнять инструкции, преодолевая ограничения подходов, таких как открытый интерпретатор, которые полагаются на неточные взаимодействия, основанные на скриншотах.

  5. Открытый исходный код и воспроизводимость: Проект OS World, включая исследовательскую статью, код и данные, является открытым исходным кодом, что позволяет обеспечить воспроизводимость и дальнейшее развитие исследовательским сообществом.

Определение интеллектуальных агентов и их ключевых компонентов

Интеллектуальный агент определяется как система, которая воспринимает свою среду через датчики и действует на эту среду через исполнительные механизмы, рациональным образом для достижения своих целей. Ключевые компоненты интеллектуального агента:

  1. Датчики: средства восприятия агентом своей среды, такие как камеры, микрофоны или другие устройства ввода.

  2. Исполнительные механизмы: средства, с помощью которых агент воздействует на свою среду, такие как моторы, динамики или другие устройства вывода.

  3. Автономность: способность агента действовать без прямого человеческого контроля.

  4. Реактивность: способность агента воспринимать и своевременно реагировать на изменения в своей среде.

  5. Проактивность: способность агента проявлять целенаправленное поведение, предпринимая инициативу для достижения своих целей.

  6. Социальные способности: способность агента взаимодействовать с другими агентами или людьми в своей среде.

Проблемы управления компьютерами для агентов ИИ

Управление компьютерами и выполнение задач в цифровых средах было значительной проблемой для ИИ-агентов. Презентация выделяет ключевые проблемы:

  1. Обоснование инструкций в действия: Простое предоставление пошаговых инструкций недостаточно для успешного выполнения задачи ИИ-агентом. Агент должен уметь обосновывать эти инструкции в конкретные действия, которые могут управлять компьютерным интерфейсом, будь то мышь, клавиатура или другие методы ввода.

  2. Закрытые и проприетарные системы: Операционные системы, такие как macOS и Windows, являются закрытыми и проприетарными, что затрудняет точное управление компьютерной средой для ИИ-агентов. Существующие подходы, такие как использование функций доступности и сеток скриншотов, являются неточными и неэффективными.

  3. Отсутствие обратной связи и итерации: Без возможности воспринимать среду и получать обратную связь ИИ-агенты испытывают трудности в генерации точных многошаговых планов для выполнения задач. Отсутствие взаимодействия с реальной средой ограничивает их способность обучаться и улучшаться.

  4. Сложность реальных компьютерных задач: Многие реальные компьютерные задачи включают несколько приложений, интерфейсов и рабочих процессов. Перевод высокоуровневых инструкций в необходимые действия для выполнения этих сложных задач является значительной проблемой для современных ИИ-агентов.

OS World: масштабируемая реальная компьютерная среда для тестирования агентов ИИ

OS World - это новый проект, который направлен на решение проблемы последовательного и всестороннего тестирования ИИ-агентов. Он предоставляет надежную среду, несколько операционных систем и способ для агентов взаимодействовать со средой и измерять свою производительность.

Основные особенности OS World включают:

  1. Мультимодальная среда для агентов: OS World служит единой средой для оценки открытых компьютерных задач, которые включают произвольные приложения и интерфейсы в различных операционных системах.

  2. Режимы наблюдения: Агенты могут получать наблюдения через различные режимы, включая дерево доступности, скриншот и набор меток (сеточное представление экрана).

  3. Пространство действий: Агенты могут выполнять широкий спектр действий, таких как перемещение мыши, щелчки, ввод с клавиатуры и использование горячих клавиш, чтобы взаимодействовать со средой.

  4. Оценка задач: OS World включает тщательно аннотированные реальные компьютерные задачи с начальными конфигурациями состояния и пользовательскими скриптами оценки для оценки производительности агента.

  5. Тестирование производительности: Проект использовался для тестирования различных агентов, включая Cog Agent, GPT-4 и Gemini Pro Cloud 3, демонстрируя эффективность режимов наблюдения на основе дерева доступности и скриншотов.

  6. Открытый исходный код: Проект OS World, включая код и данные, является открытым исходным кодом, что позволяет исследователям и разработчикам получать доступ и развивать платформу.

Оценка производительности агентов в OS World

Проект OS World направлен на предоставление надежной и масштабируемой среды для оценки производительности ИИ-агентов при выполнении реальных компьютерных задач. Ключевые аспекты этого процесса оценки:

  1. Формализация задач: Задача агента формализуется как частично наблюдаемый марковский процесс принятия решений (POMDP) с определенным пространством состояний, пространством наблюдений, пространством действий, функцией перехода и функцией вознаграждения.

  2. Модальности наблюдения: Агенты могут получать наблюдения через различные модальности, включая дерево доступности, скриншот и набор координат ограничивающих рамок (меток). Они предоставляют различные уровни информации о текущем состоянии среды.

  3. Пространство действий: Агенты могут выполнять широкий спектр действий для взаимодействия с компьютерной средой, таких как перемещение мыши, щелчки, ввод с клавиатуры, прокрутка и использование горячих клавиш.

  4. Оценка выполнения задач: Каждая задача тщательно аннотирована с реальными инструкциями, начальной конфигурацией состояния и пользовательским скриптом оценки, который проверяет, была ли задача успешно выполнена.

  5. Контрольные задачи: Проект OS World включает 369 реальных компьютерных задач, связанных с веб-приложениями, настольными приложениями, файловыми операциями и многоприложенными рабочими процессами, предоставляя всеобъемлющий набор контрольных заданий для оценки производительности агентов.

Заключение

Проект OS World является значительным шагом вперед в области разработки надежных и масштабируемых эталонов для оценки возможностей ИИ-агентов в реальных компьютерных средах. Предоставляя стандартизированную и открытую платформу, он позволяет исследователям и разработчикам систематически оценивать и улучшать производительность своих агентов в широком спектре задач и сценариев.

Основные особенности проекта OS World:

  1. Мультимодальное взаимодействие: Среда поддерживает различные входные модальности, включая скриншоты, деревья доступности и набор меток, позволяя агентам воспринимать и взаимодействовать с компьютерной средой более естественным и всесторонним образом.

  2. Реальные компьютерные задачи: Проект включает разнообразный набор из 369 реальных компьютерных задач, тщательно отобранных из пользовательских инструкций, которые включают многошаговые рабочие процессы в различных приложениях и операционных системах.

  3. Строгая оценка: Задачи сопровождаются подробными начальными конфигурациями состояния и пользовательскими скриптами оценки, что позволяет проводить стандартизированную и объективную оценку производительности агентов.

  4. Открытая доступность: Весь проект, включая код, данные и исследовательскую статью, находится в открытом доступе, что способствует сотрудничеству и дальнейшему развитию в этой области.

Часто задаваемые вопросы