この1週間のAI界: Googleとオープンエーアイからの画期的な発表

Googleとオープンエーアイの最新のAI技術への飛び込み。GPT-4の高度な機能、オープンエーアイの経営陣の変更、そしてGoogle I/O 2024でのAIに関する数々の発表を発見しましょう。急速に進化するAIの世界の最前線に立ち続けましょう。

2025年2月24日

party-gif

今週は、Googleや OpenAIなどの主要なテクノロジー企業から、大規模なAIに関する発表が相次ぎました。GPT-4という強力な新しい言語モデルの公開から、ビデオ生成や拡張現実などの分野での興味深い進展まで、人工知能の急速に進化する世界における重要な転換点です。最新の画期的な成果を探ってみましょう。

GPT-40: マルチモーダルAIアシスタント

OpenAIの最新モデルであるGPT-40は、幅広い入力と出力に対応できる革新的なマルチモーダルAIアシスタントです。主な特徴は以下の通りです:

  • マルチモーダル機能: GPT-40は、テキスト、オーディオ、画像、ビデオなど、さまざまな形式のコンテンツを理解し生成できます。これにより、より自然で文脈に即した対話が可能になります。

  • 無料アクセス: インターネット閲覧、コード解釈、データ分析など、GPT-40の高度な機能がすべてのChatGPTユーザーに無料で提供されます。ChatGPT Plusの有料会員はさらに高速な応答時間や高出力制限などの追加の特典を得られます。

  • 会話能力: GPT-40は感情表現や物語の語りなど、人間らしい会話を行うことができます。

  • 視覚理解: 画像の数式問題解決や、テキストから画像生成など、視覚情報の理解と生成が可能です。

  • デスクトップ統合: OpenAIはGPT-40をデスクトップアプリで直接利用できるようにしました。画面共有やコンテキスト支援が可能です。

GPT-40は言語理解とマルチモーダル対話の融合により、AIアシスタントの可能性を大きく広げています。日常生活や仕事での人間とAIの協働に新しい道を開くでしょう。

GPT-40の機能を探る

OpenAIの新しいGPT-40モデルは、テキスト生成を超えた強力で多機能な言語モデルです。GPT-40の主な機能は以下の通りです:

マルチモーダル機能

GPT-40はマルチモーダルモデルで、テキストだけでなくオーディオ、ビデオ、画像などさまざまなメディアを扱うことができます。これにより、画像や動画の内容を説明するなど、複数のモダリティを組み合わせたタスクを実行できます。

高度な会話能力

モデルは対話を行う際に感情表現や文脈理解を示し、関連性のある一貫した応答を生成することができます。

段階的な問題解決

数学の問題に対して、最終答えだけでなく解決過程を説明しながら示すことができます。

音声出力のカスタマイズ

トーン、感情、表現力を調整した自然で人間らしい音声出力が可能です。

画像生成

テキストから詳細な画像を生成したり、キャラクターデザインを一貫して生成することができます。

3Dオブジェクト合成

2D画像から3Dオブジェクトを再構築し、アニメーションさせたり、ロゴなどを付加することができます。

GPT-40の機能は多様性と複雑性の高さを示しており、大規模言語モデルの急速な進歩を物語っています。モダリティを融合し、複雑なタスクを遂行する能力は、この技術の変革的な可能性を示唆しています。

Ilia Sutskever がOpenAIを去る

OpenAIの共同創設者の1人であるIlia Sutskeverが同社を離れることになりました。OpenAIに約10年在籍した後、Sutskeverは同社を去ることを決めました。

Sutskeverは2023年11月にOpenAIのCEOであるSam Altmanを解雇する決定を下した取締役会のメンバーでしたが、後にこの決定を後悔し、公に謝罪しています。

Sutskeverが退社する理由は完全には明らかではありませんが、OpenAIの方向性に完全に同意していなかった可能性があります。研究者であり学者でもあるSutskeverは、AIの商用化やmonetizationよりも、その科学と技術に興味があるようです。

退社の際のメッセージで、Sutskeverはaltman、Brockman、Muratiによる現在のリーダーシップを信頼していると述べ、自身の新しい個人的なプロジェクトに期待を寄せています。

Sutskeverの退社はOpenAIにとって大きな損失です。しかし、同社は最近のGPT-4リリースなど、野心的な計画を着実に進めていくようです。

Sutskeverの退社がOpenAIの軌道にどのような影響を与えるかは不明ですが、同社が人工知能の限界を押し広げる中で、大きな転換期を迎えていることは確かです。

スーパーアラインメントチームからの主要な退職

報告によると、OpenAIのスーパーアラインメントチームの主要メンバーが同社を退社しました。これには、Yan Lecun、Leopold Ashenbrener、William Saundersが含まれています。

これらの人物は、GPT-4などOpenAIが開発したAIシステムの安全性と有益性を確保するチームの一員でした。彼らの退社は懸念を呼び起こします。これは、同社の先進的なAIモデルの方向性と安全性をめぐる内部の問題や意見の相違を示唆しているためです。

スーパーアラインメントチームは、強力なAIシステムのリスクを軽減する重要な役割を果たしています。彼らの退社は、OpenAIにおける優先順位が急速な開発に傾いており、堅固な安全対策を軽視する傾向にあることを示唆しているかもしれません。

この報道は、OpenAIの共同創設者の1人であるIlya Sutskeverが同社を去ると発表したばかりの後のことです。

これらの中心人物、特にAIの安全性に焦点を当てていた人物の退社は、深刻な問題を示唆しています。OpenAIが大規模言語モデルやその他の先進的なAI機能の開発を続ける中で、同社の将来の方向性と優先順位に注目が集まることでしょう。

Google IO 2024: Geminiモデル、Project Astra、その他

Google I/O 2024の最大のアナウンスは、Gemini AIモデルの登場でした。Gemini 1.5 FlashとGemini 1.5 Proは、Googleの新しい大規模言語モデルです。

Gemini 1.5 Flashはより高速なモデル、Gemini 1.5 Proは最高の出力を目指したモデルです。両モデルとも100万トークンのコンテキストウィンドウを持ち、将来的には200万トークンまで拡張する予定です。これにより、150万語程度の入出力が可能になります。

注目された別の機能は「Project Astra」で、スマートフォンのカメラが見ているものを認識し、質問に答えることができます。デモでは、メガネの位置を記憶し、拡張現実メガネを使って対話を続けるなど、将来のGoogle Glassのような機能を示唆していました。

Googleはまた、Midjourney並みの写実性を持つ新しい画像生成モデル「Imagine 3」も披露しました。さらに、Anthropicの「Sorai」に匹敵する品質の1080p動画を生成できる「Veo」という新しい動画生成モデルも紹介しました。

その他にも、多段階の推論、メール自動整理、画像コンテキスト理解など、AIによる機能強化が Google検索、Gmail、Googleスイートツールに加えられました。

全体として、GoogleのI/Oイベントは、同社がAIを製品やサービスに統合し続けていることを示す、幅広い発表で埋め尽くされていました。

その他のAI更新情報: Anthropic、Hume、デートの未来

Anthropicの動きとしては、Instagramの共同創設者であるMike Kriegerが新しいプロダクト責任者に就任したことが挙げられます。Kriegerは、Instagramの共同創設者であり、ニュースアプリ「Artifact」の共同創設者でもあり、AnthropicのツールであるClaudeなどをより多くの人に使ってもらえるようなユーザーエクスペリエンスを設計することが期待されています。

また、Anthropicはコンソールに新しいプロンプト生成機能を追加しました。ユーザーは目的を記述するだけで、チェーン推論などのプロンプトエンジニアリング手法を使って、より効果的で正確で信頼性の高いプロンプトを自動生成できるようになりました。

AI企業のHumeは、対話型ポッドキャスト「Chatter」を新しくリリースしました。Chatterは、ユーザーが質問をしたり興味関心に合わせてトピックを変更したりできる、AIホストとの対話型ポッドキャストです。

最後に、Bumbleの創業者であるWhitney Wolfe Herdの発言が先週話題になりました。彼女は、将来的にAIのデートコンシェルジュが人間同士のマッチングを行う可能性について言及しました。個人のAIコンシェルジュが他のAIコンシェルジュと交流し、適合性を判断した上で人間同士を紹介するというアイデアです。これはブラック・ミラーのようなプロットに聞こえますが、AIがデートの未来に関わる可能性を示唆しています。

全体として、Anthropic、Hume、デートアプリなど、AIを新しい方法で活用しようとする動きが続いています。今後の展開が非常に興味深いです。

結論

先週は、GoogleとOpenAIからの大きなアナウンスが相次ぎ、AI業界が大きな注目を集めていました。

OpenAIは最新の言語モデルであるGPT-4を発表しました。GPT-4はマルチモーダルなシステムで、オーディオ、画像、ビデオなどさまざまな入力に対応できます。最も注目されたのは、GPT-4の機能がすべてのChatGPTユーザーに無料で提供されるようになったことです。これまで有料会員限定だった高度な機能が一般ユーザーでも利用可能になります。

GoogleはI/Oイベントで、100を超えるAI関連の発表を行いました。Gemini言語モデル、視覚理解が優れたProject Astra、高度な画像生成と動画生成機能などが目立ちました。

Googleの発表は量的に圧倒的でしたが、両社ともAIをより身近で使いやすいものにしようと努めています。AIの覇権を争う熱い戦いが繰り広げられる中、今後数年でこの技術がどのように進化し、私たちの日常生活に影響を与えていくかが楽しみです。

マイクロソフト、シスコ、Qualcomm、Appleなどの今後のイベントでも、革新的なAI開発が続々と発表されるでしょう。AI業界は非常に活況を呈しており、最新動向を追い続けていきたいと思います。

FAQ