人工智慧新聞:人工智慧進展和發展的忙碌一週

探索過去一週最新的人工智慧進展和發展,包括OpenAI的先進語音功能、GPT-4的長篇輸出能力、Microsoft的人工智慧競爭聲明,以及來自Google、Anthropic、Meta等公司的更新。保持領先於不斷變化的人工智慧世界。

2025年2月16日

party-gif

這篇部落格文章提供了人工智慧最新進展的全面概述,涵蓋了從OpenAI的ChatGPT的新語音功能到Canva收購Leonardo AI等廣泛主題。讀者將了解到人工智慧領域快速發展的景況,以及塑造這項技術未來的令人興奮的發展。

OpenAI 的先進語音功能

Open AI 最近向少數用戶推出了一項先進的語音功能。這項新功能允許用戶生成類人語音,包括模仿斯嘉麗·約翰遜等名人的聲音。

高級語音模式的一些關鍵亮點:

  • 有權限的用戶可以在聊天視窗底部嘗試"高級語音模式"選項。
  • 它可以生成非常逼真的聲音,包括模仿名人和公眾人物的聲音。
  • 用戶可以在語音說話時中斷它,這是標準聊天 GPT 應用程序中沒有的功能。
  • 演示顯示,語音模型可以非常快地進行計數,甚至模擬需要喘息的情況。

然而,這項高級語音功能目前只對少數用戶開放。大多數人仍無法自行嘗試。Open AI 已經宣布了這項新功能,但目前正在緩慢地向選定群體推出。

GPT-4 長輸出

Open AI 最近推出了一個名為"GPT-4 Long Output"的 GPT-4 實驗版本。這個新模型每次請求的最大輸出為 64,000 個標記,允許產生更長更詳細的響應,與標準 GPT-4 模型相比。

GPT-4 Long Output 模型目前只對一批 Alpha 參與者開放,普通大眾還無法使用。這個實驗版本旨在為用戶提供生成極長和全面輸出的能力,以回應他們的查詢。

雖然模型的架構和訓練過程的細節尚未公開披露,但增加的輸出長度可能是通過提升模型的記憶力和推理能力而實現的。這使模型能夠在更長的文本跨度內保持上下文和連貫性,從而提供更詳細和深入的響應。

GPT-4 Long Output 模型的潛在應用非常廣泛,從延伸的研究和分析任務到生成長篇內容,如報告、論文甚至書籍。然而,與任何強大的 AI 技術一樣,也存在濫用或產生意外後果的擔憂。

Open AI 表示,他們正在與監管機構和其他利益相關方密切合作,確保 GPT-4 Long Output 模型的負責任發展和部署。這包括實施保護措施和指導方針,以防止該模型被用於有害或不道德的目的。

總的來說,GPT-4 Long Output 模型的推出代表了大型語言模型在更複雜和微妙的交流和信息處理方面能力的重大里程碑。隨著技術的不斷發展,研究人員、決策者和公眾密切監控其發展和影響將至關重要。

OpenAI 作為微軟的競爭對手

本週,微軟現在聲稱 Open AI 是其 AI 和搜索的競爭對手。這很有趣,因為微軟著名地投資了 130 億美元到 Open AI,並擁有該公司 49% 的股份。

在其財務報告中,微軟將包括 Anthropic、Open AI、Meta 和其他開源產品在內的公司列為其 AI 產品的競爭對手。這很奇怪,因為 Open AI 是微軟擁有 49% 股份的公司,雙方還有合作協議。

看來微軟現在將 Open AI 視為其自身搜索和新聞廣告業務的競爭對手,儘管他們在該公司擁有重大股份。這是兩家公司之間發展出的一個非常有趣的動態。

OpenAI 對 AI 監管的支持

本週,Open AI 支持了幾項與 AI 監管和安全相關的參議院法案。其中包括《未來 AI 創新法案》,該法案將正式授權美國 AI 安全研究所作為聯邦機構,制定 AI 模型的標準和指導方針。

Open AI 還支持了《NSF AI 教育法案》和《CREATE AI 法案》,這些法案為 AI 研究提供聯邦獎學金,並在大學和 K-12 學校內建立 AI 教育資源。

Open AI 的這些支持很可能是為了在未來關於 AI 監管的對話中獲得一席之地。作為一家主要的 AI 公司,Open AI 很可能會面臨監管審查。通過支持這些法案,Open AI 可以幫助塑造監管的方向,並確保其利益得到代表。

此外,Open AI 承諾將提前向美國 AI 安全研究所提供其下一個模型。這似乎是一種努力,以抵消 Open AI 在追求更強大的生成 AI 技術的過程中忽視 AI 安全的說法。

總的來說,Open AI 的舉措表明,該公司正在努力與美國政府建立更緊密的關係,並將自己定位為 AI 監管和安全標準制定的關鍵利益相關方。

Anthropic 在巴西推出 Claud

巴西的好消息 - Anthropic 本週在該國推出了其 AI 助手 Claud。Claud 現已供巴西用戶使用和互動。

Google 的 Gemini 1.5 Pro 和其他 AI 模型

本週,谷歌在 AI 領域也掀起了一些大浪。他們發布了 Gemini 1.5 Pro 的新版本,稱之為 0801 版本,現在可以在谷歌的 AI 工作室內使用。

要訪問它,你可以去 AI Studio .g google.com,在"模型"下拉菜單中,你會看到"Gemini 1.5 Pro 實驗 0801" - 這就是你想要使用的模型。

當你與這個新的 Gemini 1.5 Pro 模型聊天時,它已經在 lm.org 的排行榜上領先,甚至超過了 GPT-4、GPT-4 Mini、CLAE 3.5 和 Sonet。

谷歌本週還發布了他們 Gemini 2 模型的一個新的更小版本 - 一個 20 億參數的模型,專為更快的性能和效率而構建,很可能是針對移動設備的。有趣的是,這個 20 億參數的模型超過了更大的模型,如 Mixdral 8X 7B、GPT-3.5 Turbo 和 LLaMA 2 70 億。

除了新的 Gemini 模型,谷歌本週還為 Chrome 瀏覽器添加了一些令人印象深刻的新 AI 功能,包括 Google Lens 集成,可以識別和搜索圖像中的物體,以及一個新的比較功能,可以比較不同網站上的產品。

總的來說,谷歌一直在推動大型語言模型和 Chrome 中 AI 功能的發展,展示了他們在 AI 領域的持續創新和領導地位。

Google 的新 Chrome AI 功能

本週,谷歌為其 Chrome 瀏覽器添加了一些新的 AI 驅動功能:

  1. Chrome 桌面版的 Google Lens: 你現在可以直接在 Chrome 瀏覽器中使用 Google Lens 搜索圖像中的物品信息。只需選擇圖像的某個區域,Lens 就會搜索相似的產品或識別該物體。

  2. 產品比較: Chrome 現在內置了一個功能,允許你比較不同標籤和網站上的產品。這使得研究和比較商品變得更加容易,無需在標籤之間切換。

  3. 自然語言搜索歷史: 你現在可以使用自然語言搜索你的 Chrome 瀏覽歷史。例如,你可以問"上週我看過的冰淇淋店是什麼?",Chrome 會從你的搜索歷史中找到相關信息。

這些 Chrome 中新增的 AI 驅動功能展示了谷歌持續努力,將智能功能直接集成到其核心產品和服務中。通過利用計算機視覺和自然語言處理等技術,谷歌正在使用戶更容易找到信息、比較產品和瀏覽歷史 - 全都在 Chrome 瀏覽器內完成。隨著 AI 的不斷進步,我們可以期待在谷歌的工具和應用程序套件中看到更多這類智能功能。

Meta 關閉 AI 聊天機器人和新的 AI 工作室

本週,Meta 取消了他們在去年 Meta Connect 上宣布的一項功能。他們曾展示過看起來像名人的 AI 聊天機器人,但實際上並不是那些名人的聊天機器人 - 它們只是使用了他們的臉,但是訓練在不同的信息上。然而,沒有人真的喜歡這些,所以 Meta 把它們去掉了。

但他們用其他東西取代了它 - 現在任何人都可以創建自己的定制 AI。Meta 推出了一個 AI 工作室,我的一個朋友 Don Allen Stevenson 是獲得早期訪問權的人之一。

這個新功能允許任何人根據自己的興趣創建 AI 角色。你可以去 ai.meta.com/AI-Studio 創建你自己的定制 AI 角色,選擇 AI 寵物、私人導師、粉絲、富有想像力的藝術家、思考者、創意設計師、個人造型師等選項。

這個過程會用 AI 生成一個角色圖像,給它一個名字和標語,然後你可以進一步定制和設計你想要這個 AI 做什麼。現在看起來這有點像是一個新奇的功能,因為你無法輕易地引入大量文檔或文字記錄,讓人們與你的 AI 化身聊天。但這很可能是他們未來想要實現的。

Meta 本週推出的更令人印象深刻的是他們的新 Segment Anything Model 2 (SAM 2)。這是一個可以以令人印象深刻的準確度分割圖像或視頻中的某些部分的模型,甚至可以跟蹤移動的物體。它比以前的分割模型有了很大的改進,可能對視頻編輯任務如蒙版處理很有用。你可以在 sam2.metademolab.com 試用 SAM 2。

總的來說,Meta 正在不斷推動 AI 的極限,即使他們面向消費者的一些功能目前可能看起來有點新奇。它將很有趣看看他們的 AI 工作室和分割工具在未來如何發展。

Meta 的 Segment Anything Model 2

Meta 發布了他們的 Segment Anything Model 的新版本,稱為 SAM 2。這個更新的模型在準確分割圖像和視頻中的物體方面展現了顯著的改進。

SAM 2 的一些關鍵特點包括:

  • 改善了在遮擋情況下跟蹤物體的能力 - 該模型可以在物體暫時被另一個物體遮擋時繼續跟蹤它。
  • 增強的分割準確性,使其能夠更精確地勾勒出檢測到的物體的邊界。
  • 更快的處理速度,使實時視頻分割成為可能。
  • 更廣泛的適用性,該模型能夠分割各種各樣的物體,從人和動物到更複雜的形狀和結構。

Meta 提供的演示展示了 SAM 2 的出色功能。例如,該模型可以準確地跟蹤一個滑板手在場景中的移動,即使滑板手經過一棵樹後也能保持分割。同樣地,它可以隔離並跟蹤多個球,將每個球都區分開來。

這些分割技術的進步為視頻編輯、視覺特效和其他媒體製作工作流程帶來了令人興奮的影響。通過自動化繁瑣的蒙版處理過程,SAM 2 有潛力大大簡化和加快這些任務。與 Adobe Premiere 和 DaVinci Resolve 等工具的集成可能使 SAM 2 成為內容創作者的寶貴資產。

總的來說,Meta 的 Segment Anything Model 2 代表了計算機視覺和圖像/視頻處理能力的重大進步。隨著 AI 的不斷發展,我們可以期待在不久的將來看到更令人印象深刻的視覺理解和操作功能。

Perplexity 出版商計劃

Perplexity,這個 AI 驅動的搜索引擎,宣布了 Perplexity 出版商計劃。該計劃旨在與在 Perplexity 平台上作為新聞來源的特定合作夥伴分享收益。

最初包括在這個計劃中的合作夥伴有:

  • 時代雜誌
  • 明鏡週刊
  • 財富雜誌
  • 企業家雜誌
  • 德克薩斯論壇報

常問問題