AI ニュース: AI の進歩と開発に忙しい1週間

過去1週間の最新のAI進歩と開発を発見してください。OpenAIの高度な音声機能、GPT-4の長出力機能、MicrosoftのAI競争クレーム、Google、Anthropic、Meta、その他からの更新情報が含まれています。絶え間なく進化するAIの世界の最先端を維持してください。

2025年2月16日

party-gif

このブログ記事では、OpenAIのChatGPTの新しい音声機能から、CanvaがLeonardo AIを買収するまで、AIの世界の最新の進歩を幅広く概説しています。読者は、急速に進化するAIの景観と、この技術の未来を形作る興奮の渦中にある出来事について洞察を得ることができます。

OpenAIの高度な音声機能

Open AIは、一部のユーザーに高度な音声機能を提供し始めました。この新機能により、ユーザーはスカーレット・ヨハンソンのような有名人の声を模倣することができるようになりました。

高度な音声モードの主な特徴は以下の通りです:

  • アクセス権を持つユーザーは、チャットウィンドウの下部にある「高度な音声モード」オプションを試すことができます。
  • 有名人や著名人の声を模倣するなど、非常に現実的な音声を生成することができます。
  • ユーザーは音声が話している最中に割り込むことができ、標準のチャットGPTアプリではこの機能は利用できません。
  • デモンストレーションでは、音声モデルが呼吸を模擬しながら非常に素早く数を数えることができることが示されています。

ただし、この高度な音声機能は現在、限られたユーザーにしか提供されていません。ほとんどの人はまだこの機能を試すことができません。Open AIは新機能を発表しましたが、選択されたグループに徐々に提供しているのが現状です。

GPT-4の長出力

Open AIは最近、「GPT-4 Long Output」と呼ばれる実験的なバージョンのGPT-4をリリースしました。この新しいモデルは1リクエストあたり最大64,000トークンの出力が可能で、標準のGPT-4モデルに比べて非常に長く詳細な回答を生成することができます。

GPT-4 Long Outputモデルは現在、限られたAlphaパーティシパントにのみ提供されており、一般ユーザーはまだアクセスできません。この実験的なバージョンは、ユーザーが非常に長く包括的な出力を生成できるようにするために設計されています。

モデルのアーキテクチャや学習プロセスの詳細は公開されていませんが、出力長の増加は、モデルのメモリと推論機能の向上によって実現されたと考えられます。これにより、より長い文脈と一貫性を維持しながら、より詳細で深い回答を提供することができます。

GPT-4 Long Outputモデルの潜在的な用途は多岐にわたり、研究や分析タスクから、レポート、エッセイ、さらには書籍の生成などの長形式コンテンツの作成まで幅広いです。ただし、強力なAI技術であるがゆえに、悪用や意図しない結果への懸念もあります。

Open AIは、規制当局やその他の利害関係者と緊密に協力し、GPT-4 Long Outputモデルの責任ある開発と展開を確保するための対策を講じていると述べています。これには、有害または非倫理的な目的での使用を防ぐための安全策とガイドラインの実装が含まれます。

全体として、GPT-4 Long Outputモデルの登場は、大規模言語モデルの進化と、より複雑で微妙な形式のコミュニケーションや情報処理を行う能力の向上を示す重要なマイルストーンです。この技術の発展に伴い、研究者、政策立案者、一般の人々が、その発展と影響を慎重に監視することが不可欠です。

MicrosoftとのOpenAIの競争

今週、Microsoftは、Open AIがAIとサーチの競合相手であると主張しています。これは興味深いことです。なぜなら、Microsoftは有名にOpen AIに130億ドルを投資し、同社の49%を所有しているからです。

Microsoftの財務報告書では、Anthropic、Open AI、Meta、その他のオープンソースのオファリングをAI製品の競合相手として挙げています。これは奇妙です。Open AIはMicrosoftの49%を所有しており、Metaとも提携関係にあるからです。

Microsoftは今、自社のサーチやニュース広告事業の競合相手としてOpen AIを見なしているようです。これは2社の間で非常に興味深い関係性の変化です。

OpenAIのAI規制支持

Open AIは今週、AIの規制と安全性に関連するいくつかの上院法案を支持しました。これには、アメリカ合衆国AIセーフティ研究所を連邦機関として正式に位置づけ、AIモデルの基準とガイドラインを設定する「Future of AI Innovation Act」が含まれています。

Open AIはまた、AIの研究のための連邦奨学金を提供する「NSF AI Education Act」と、大学やK-12の学校にAI教育リソースを設置する「CREATE AI Act」も支持しました。

Open AIによるこれらの支持は、今後のAI規制に関する議論に同社が参加する足がかりになると考えられます。主要なAI企業であるOpen AIは、今後規制の対象となる可能性が高いため、これらの法案を支持することで、規制の方向性に影響を及ぼし、自社の利益を代表させることができます。

さらに、Open AIは次のモデルを米国AIセーフティ研究所に早期に提供すると約束しました。これは、Open AIが強力な生成型AIテクノロジーの追求を優先しているという narrative に対抗するための取り組みと見られます。

全体として、Open AIの動きは、同社が米国政府に接近し、AI規制と安全基準の策定における主要な利害関係者としての地位を確立しようとしていることを示唆しています。

AnthropicがブラジルでClaudを立ち上げる

ブラジルの人にとっては朗報です。Anthropicは同国でAIアシスタントのClaudをこの週にローンチしました。Claudはブラジルのユーザーが利用・対話できるようになりました。

GoogleのGemini 1.5 Proおよびその他のAIモデル

Googleも今週、AIの世界で大きな波を起こしています。彼らは新しいバージョンのGemini 1.5 Proを公開し、それを0801バージョンと呼んでいます。これはGoogle AI Studioの中で今すぐ使えるようになっています。

アクセスするには、ai.studio.google.comに行き、「Model」ドロップダウンの中から「Gemini 1.5 Pro experimental 0801」を選択してください。これが使いたいモデルです。

この新しいGemini 1.5 Proモデルとチャットすると、lm.orgのリーダーボードの首位に立っており、GPT-4、GPT-4 Mini、CLAE 3.5、Sonetを凌駕しています。

Googleはまた、この週に自社のGemini 2モデルの新しい小型バージョンをリリースしました。これは20億パラメーターのモデルで、モバイルデバイス向けの高速なパフォーマンスと効率性を目指しています。興味深いことに、この20億パラメーターのモデルは、Mixdral 8X 7B、GPT-3.5 Turbo、LLaMA 2 70 billionといった大規模なモデルよりも優れたパフォーマンスを発揮しています。

Geminiの新モデルに加えて、Googleはこの週、Chromeに新しいAI機能を追加しました。これにはGoogle Lensの統合による画像内のオブジェクト識別・検索機能や、製品比較機能などが含まれています。

全体として、Googleは大規模言語モデルとAI機能の境界を押し広げ続けており、Chromeにおけるこれらの取り組みは、同社のAI分野における継続的な革新と主導性を示しています。

Googleの新しいChromeのAI機能

この週、Googleはそのクロームブラウザにいくつかの新しいAI搭載機能を追加しました:

  1. デスクトップ版ChromeでのGoogle Lens: 画像内のオブジェクトについて情報を検索するためにGoogle Lensを使うことができるようになりました。画像の一部を選択するとLensが類似の製品を検索したり、オブジェクトを識別したりします。

  2. 製品比較: Chromeに製品を比較する機能が組み込まれました。これにより、タブを行き来することなく、製品を研究し比較することができます。

  3. 自然言語によるブラウジング履歴検索: Chromeのブラウジング履歴を自然言語で検索できるようになりました。例えば「先週見た アイスクリーム屋はどこだっけ?」と尋ねると、関連する履歴情報が表示されます。

これらのAI搭載機能の追加は、Googleが知的機能を自社の主要製品やサービスに直接統合する取り組みの一環です。コンピュータービジョンや自然言語処理などの技術を活用することで、ユーザーはタブを移動することなく、情報検索、製品比較、ブラウジング履歴の管理を行えるようになります。AIの進化に伴い、このようなインテリジェント機能がGoogle製品全体に広がっていくことが期待されます。

Meta社のAIチャットボットの廃止と新しいAIスタジオ

今週、Metaは1年前のMeta Connectで発表した機能の1つを廃止しました。彼らは有名人そっくりのAIチャットボットを披露していましたが、それは実際の有名人のチャットボットではなく、顔だけを使って別の情報で訓練されたものでした。しかし、誰もそれを気に入らなかったので、Metaはそれを廃止しました。

しかし、それに代わるものを導入しました - 今では誰でもカスタムのAIを作成できるようになりました。Metaは「AI Studio」を立ち上げ、私の友人のDon Allen Stevensonは早期アクセスを得た人の1人です。

新機能により、ユーザーは自分の興味に基づいてAIキャラクターを作成できます。ai.meta.com/AI-Studioにアクセスして、AIペット、個人教師、ファン仲間、想像力豊かなアーティスト、サウンディングボード、クリエイティブデザイナー、パーソナルスタイリストなどのオプションから選択できます。

このプロセスでは、AIによってキャラクター画像が生成され、名前とタグラインが付けられます。その後、ユーザーがこのAIにどのような機能を持たせたいかをさらにカスタマイズできます。現時点では、大量のドキュメントやトランスクリプトを取り込んで、ユーザーがAIアバターバージョンと会話できるようにするのは難しいようですが、おそらくそこに向かっていくのだと思います。

Metaが今週リリースした中で、より印象的なのは「Segment Anything Model 2 (SAM 2)」です。これは、画像や動画の特定の部分を非常に正確に抽出できるモデルです。移動するオブジェクトの追跡も可能で、前のセグメンテーションモデルに比べて大幅に改善されています。ビデオ編集のロトスコーピングなどに非常に役立つかもしれません。SAM 2はsam2.metademolab.comで試すことができます。

全体として、Metaは消費者向けの機能がいくらかギミック的に見えるかもしれませんが、AIの可能性を押し広げ続けています。AIスタジオやセグメンテーションツールがどのように発展していくかは興味深いところです。

Meta社のSegment Anything Model 2

Metaは、セグメントエニシングモデルの新バージョン「SAM 2」をリリースしました。このアップデートされたモデルは、画像や動画のオブジェクト抽出精度を大幅に向上させています。

SAM 2の主な特徴は以下の通りです:

  • 遮蔽時のオブジェクト追跡能力が向上 - モデルは一時的に他のオブジェクトに隠れても、対象のオブジェクトを継続して追跡できます。
  • セグメンテーション精度が向上し、検出されたオブジェクトの境界線をより正確に描くことができます。
  • 処理速度が高速化され、ビデオアプリケーションでのリアルタイムセグメンテーションが可能になりました。
  • 人物、動物、複雑な形状や構造物など、幅広いオブジェクトをセグメント化できるようになりました。

Metaが提供するデモンストレーションでは、SAM 2の驚くべき機能が披露されています。例えば、スケートボーダーが場面を移動しても、木の後ろを通過しても、モデルはその追跡を維持できます。同様に、複数のボールを個別に識別しながら追跡することもできます。

これらのセグメンテーション技術の進歩は、ビデオ編集、VFX、その他のメディア制作ワークフローに大きな可能性を秘めています。ロトスコーピングの自動化によって、これらのタスクを大幅に効率

FAQ