Мир ИИ на этой неделе: прорывные объявления от Google и OpenAI

Погрузитесь в последние прорывы в области искусственного интеллекта от Google и OpenAI. Откройте для себя расширенные возможности GPT-4, изменения в руководстве OpenAI и множество объявлений Google об ИИ на I/O 2024. Будьте в курсе быстро развивающегося ландшафта ИИ.

15 февраля 2025 г.

party-gif

На этой неделе произошел всплеск важных объявлений об ИИ от ведущих технологических компаний, таких как Google и OpenAI. От выпуска GPT-4, мощной новой языковой модели, до захватывающих достижений в таких областях, как генерация видео и дополненная реальность, это поворотный момент в быстро развивающемся мире искусственного интеллекта. Погрузитесь в изучение последних прорывов, которые готовы сформировать будущее.

GPT-40: Многомодальный ИИ-ассистент

Последняя модель Open AI, GPT-40, является прорывным мультимодальным AI-ассистентом, который может обрабатывать широкий спектр входных и выходных данных. Некоторые ключевые особенности:

  • Мультимодальные возможности: GPT-40 может понимать и генерировать контент в различных форматах, включая текст, аудио, изображения и видео. Это позволяет более естественные и контекстные взаимодействия.

  • Бесплатный доступ для всех: Расширенные возможности GPT-40, такие как просмотр интернета, интерпретация кода и аналитика данных, теперь доступны всем бесплатным пользователям ChatGPT. Платные подписчики ChatGPT Plus получают дополнительные преимущества, такие как более быстрое время отклика и более высокие лимиты вывода.

  • Разговорные способности: GPT-40 может вступать в человекоподобные разговоры, с возможностью понимать тон, оказывать эмоциональную поддержку и даже рассказывать истории с выразительной подачей.

  • Визуальное понимание: Модель может интерпретировать визуальную информацию, такую как решение математических задач путем анализа изображений, и генерировать изображения на основе текстовых описаний.

  • Интеграция с рабочим столом: Open AI выпустила настольное приложение, которое позволяет пользователям получать доступ к GPT-40 напрямую на своих компьютерах, с возможностью обмена содержимым экрана и получения контекстной помощи.

Исследование возможностей GPT-40

Новая модель Open AI GPT-40 - это мощная и универсальная языковая модель, которая выходит за рамки простой генерации текста. Вот некоторые ключевые возможности GPT-40, которые были продемонстрированы:

Мультимодальные способности

GPT-40 - это мультимодальная модель, что означает, что она может обрабатывать и понимать различные типы медиа, такие как аудио, видео и изображения, в дополнение к тексту. Это позволяет ей выполнять задачи, сочетающие несколько модальностей, например, описывать содержимое изображения или видео.

Расширенные разговорные способности

Модель продемонстрировала впечатляющие разговорные способности, участвуя в диалоге с обратной связью и даже принимая различные эмоциональные тона и образы. Она смогла понять контекст и предоставить соответствующие и связные ответы.

Пошаговое решение проблем

Когда ей была представлена математическая задача, GPT-40 не просто предоставила окончательный ответ. Вместо этого она прошла пошаговый процесс решения задачи, объясняя свои рассуждения на протяжении всего процесса.

Настраиваемый голосовой вывод

GPT-40 может генерировать речевой вывод с настраиваемыми тоном, эмоциями и выразительностью. Это позволяет ей звучать более естественно и похоже на человека во время общения.

Генерация изображений

Помимо текста, GPT-40 обладает способностью генерировать изображения. Продемонстрированные примеры включали создание подробных изображений с разборчивым текстом, а также генерацию согласованных дизайнов персонажей в нескольких сценах.

Синтез 3D-объектов

Модель может брать 2D-изображения и генерировать 3D-реконструкции, анимируя их и размещая логотипы или другие элементы на 3D-объектах.

Илья Сутскевер покидает OpenAI

Илья Сутскевер, один из первоначальных основателей OpenAI, решил уйти из компании. После почти десяти лет работы в OpenAI Сутскевер принял решение покинуть компанию.

Сутскевер был частью совета, который принял решение уволить генерального директора OpenAI, Сэма Олтмана, в ноябре 2023 года. Однако позже Сутскевер пожалел об этом решении и публично извинился, заявив, что увольнение Олтмана было ошибкой.

Хотя причины ухода Сутскевера не совсем ясны, кажется, что он мог быть не полностью согласен с направлением, в котором движется OpenAI. Как исследователь и ученый, Сутскевер, вероятно, больше заинтересован в науке и технологиях, стоящих за ИИ, чем в монетизации и коммерциализации этой технологии.

В своем прощальном сообщении Сутскевер выразил уверенность в руководстве OpenAI под управлением Олтмана, Грега Брокмана и Миры Мурати и заявил, что с нетерпением ждет, что его собственный личный проект, о котором он расскажет подробнее в ближайшее время.

Уход Сутскевера является значительной потерей для OpenAI, поскольку он был одним из основателей компании и ведущим специалистом в области ИИ. Однако компания, похоже, движется вперед со своими амбициозными планами, включая недавний выпуск мощной модели GPT-4.

Ключевые отставки из команды Супер Выравнивания

По сообщениям, несколько ключевых членов команды супер-согласования в OpenAI ушли из компании. В их число входят Ян ЛеКун, Леопольд Ашенбреннер и Уильям Сондерс.

Эти люди входили в команду, ответственную за обеспечение безопасности и пользы ИИ-систем, разработанных OpenAI, таких как GPT-4. Их уход вызывает озабоченность, так как может свидетельствовать о потенциальных проблемах или разногласиях внутри компании относительно направления и безопасности их передовых моделей ИИ.

Команда супер-согласования играет критически важную роль в попытках смягчить риски мощных ИИ-систем. Их выход может сигнализировать о внутренних напряженностях или сдвиге приоритетов в OpenAI в сторону быстрого развития в ущерб надежным мерам безопасности.

Эта новость приходит вскоре после ухода Ильи Сутскевера, одного из соучредителей OpenAI, который объявил, что покидает компанию, чтобы заняться "лично значимым" новым проектом.

Потеря этих ключевых фигур, особенно тех, кто сосредоточен на безопасности ИИ, является тревожным событием, за которым следует внимательно следить. Это поднимает вопросы о будущем направлении и приоритетах OpenAI, поскольку они продолжают расширять границы больших языковых моделей и других передовых возможностей ИИ.

Google IO 2024: Модели Gemini, Проект Astra и многое другое

Самым большим объявлением на Google IO 2024 стало представление моделей ИИ Gemini. Gemini 1.5 Flash и Gemini 1.5 Pro - это новые большие языковые модели от Google.

Gemini 1.5 Flash - это более быстрая модель, в то время как Gemini 1.5 Pro предназначена для обеспечения наилучшего возможного вывода. Обе модели имеют контекстное окно в 1 миллион токенов, с планами увеличить его до 2 миллионов токенов в будущем. Это позволяет вводить и выводить около 1,5 миллионов слов.

Еще одним ярким моментом стал проект Astra, который позволяет мобильному телефону видеть, что видит камера, и отвечать на вопросы об этом. Демонстрация показала, что телефон запоминает детали, такие как местоположение пары очков, и докладчик смог продолжить взаимодействие с системой, используя очки дополненной реальности, намекая на будущие возможности, подобные Google Glass.

Google также продемонстрировала свою новую текстово-визуальную модель Imagine 3, которая приближается к реалистичности моделей, таких как Midjourney. Они также представили новую модель генерации видео под названием Veo, которая может создавать видео в 1080p длительностью более 1 минуты, хотя и не достигает качества Sorai от Anthropic.

Другие обновления ИИ: Anthropic, Hume и будущее свиданий

Начиная с Anthropic, компания наняла сооснователя Instagram Майка Кригера в качестве нового руководителя продукта. Кригер, который был одним из основателей Instagram, а также сооснователем новостного приложения Artifact, будет отвечать за создание хорошего пользовательского опыта, чтобы вызвать больший интерес и использование инструментов Anthropic, таких как Claude.

Anthropic также выпустила новую функцию генератора подсказок в своей консоли. Пользователи теперь могут генерировать готовые к использованию подсказки, описывая, чего они хотят достичь, а система будет использовать техники инженерии подсказок, такие как рассуждение по цепочке мыслей, для создания более эффективных, точных и надежных подсказок.

Переходя к другим новостям, компания ИИ Hume выпустила новый инструмент под названием Chatter - интерактивный подкаст-опыт. Chatter - это подкаст, который позволяет вам направлять беседу, задавая вопросы ведущему ИИ и получая ответы, адаптированные к вашим интересам, в данном случае сосредоточенные на последних новостях об ИИ.

Наконец, клип с основательницей Bumble Уитни Вульф Херд на прошлой неделе стал вирусным, где она высказалась о будущем свиданий с участием ИИ-консьержей для свиданий. Идея заключается в том, что ваш личный ИИ-консьерж будет ходить на свидания с ИИ-консьержами других людей, чтобы определить совместимость, прежде чем познакомить настоящих людей. Хотя это звучит как сюжет из "Черного зеркала", это подчеркивает, как ИИ потенциально может сыграть роль в будущих свиданиях.

Заключение

Прошедшая неделя была бурной в мире ИИ, с крупными объявлениями как от Google, так и от OpenAI.

OpenAI представила свою последнюю языковую модель GPT-4, которая является мощной мультимодальной системой, способной обрабатывать различные входные данные, такие как аудио, изображения и видео. Самым впечатляющим аспектом является то, что GPT-4 теперь будет доступен всем бесплатным пользователям ChatGPT, предоставляя им доступ к расширенным функциям, ранее зарезервированным для платных подписчиков.

Google, с другой стороны, выбрал другой подход на своем мероприятии I/O - обрушив на аудиторию более 100 объявлений, связанных с ИИ. Среди основных моментов - новые языковые модели Gemini, впечатляющий проект Astra, который может визуально понимать сцену, и достижения в области генерации текста в изображения и видео.

Хотя Google, возможно, и перегрузил аудиторию количеством обновлений, обе компании продемонстрировали значительный прогресс в повышении доступности и возможностей ИИ. Гонка за превосходство в ИИ набирает обороты, и будет интересно наблюдать, как эти технологии будут развиваться и влиять на нашу повседневную жизнь в ближайшие годы.

Поскольку сезон ИИ-мероприятий продолжается, с предстоящими презентациями от Microsoft, Cisco, Qualcomm и Apple, не будет недостатка в инновационных разработках в области ИИ, на которые стоит обратить внимание. Это захватывающее время для индустрии ИИ, и я с нетерпением жду возможности продолжать делиться с вами последними новостями и инсайтами.

Часто задаваемые вопросы