OpenAI 揭開下一代 AI 模型,震撼華爾街和科技界

OpenAI 發布其下一代 AI 模型,標誌著科技和金融行業的重大轉變。該模型預計將解鎖前所未有的功能,引發關於 AI 安全和協調的辯論。

2025年2月24日

party-gif

探索最新的人工智能進展,包括 OpenAI 的新模型和 Google 的搜尋生成體驗,如何顛覆金融等行業,並改變我們獲取資訊的方式。這篇部落格文章深入探討塑造人工智能未來的尖端發展。

OpenAI 開始訓練下一代前沿模型

開放人工智慧(OpenAI)宣布,他們已經開始訓練下一代的前沿模型,預計這將使他們在邁向人工通用智慧(AGI)的道路上達到更高的能力水平。儘管該公司以建立和發布行業領先的模型而感到自豪,但在這個重要時刻,他們歡迎進行深入的辯論。

開放人工智慧表示,他們最近已經開始訓練這個新的前沿模型,這表明即將推出的模型可能是一個我們未曾預料到的系統,就像GPT-4一樣。這與GPT-5的開發大不相同,後者的發展更為公開地討論。

目前還不清楚這個新模型將擁有什麼樣的能力,但開放人工智慧的措辭暗示它可能會帶來重大進步。該公司以謹慎的語言而聞名,所以這一宣布很可能預示著一個影響深遠的新系統正在研發中。無論它是更先進的語言模型、代理系統還是其他什麼,都有待觀察。

儘管如此,開放人工智慧將重點放在建立AGI,而不是追求超級智慧,這為該公司的戰略方向提供了洞見。他們似乎在賭其他組織將解決超級智慧系統的對齊問題,而開放人工智慧則專注於開發可用於實際應用的強大AGI系統。

大型語言模型超越華爾街分析師的財務分析能力

最近的一篇論文研究了大型語言模型(LLM)是否能夠以類似於專業人類分析師的方式成功進行財務報表分析。研究人員向GPT-4提供了標準化和匿名的財務報表,並指示該模型分析它們,以確定未來收益的方向,即使沒有任何敘述或行業特定信息。

該研究的主要發現如下:

  • LLM在預測收益變化方面的表現優於金融分析師。
  • LLM在分析師傾向於掙扎的情況下相對優於人類分析師。
  • LLM的預測準確度與專門訓練的最先進機器學習模型的表現相當。
  • LLM的預測並非源於其訓練記憶,而是生成了有關公司未來表現的有用敘述洞見。
  • 基於LLM預測的交易策略產生的夏普比率和阿爾法高於基於其他模型的策略。

研究人員得出結論,LLM可能在未來的金融決策中扮演核心角色。該研究提供了一個公開的演示,讓用戶親身體驗LLM的財務分析能力。

Google 更新 Gemini 1.5 Pro API 以取代 Claude 3 Opus

谷歌最近更新了其Gemini 1.5 Pro API,對模型進行了後續訓練以提高其能力。這一更新使Gemini 1.5 Pro API在Arena ELO排名中超越了Claude 3 Opus,但尚未超過GPT-4。

後續訓練過程涉及在初始訓練後對模型進行微調,這可以顯著提高其可靠性、響應性和整體性能。這是一種OpenAI一直在使用的技術,不斷更新和完善GPT-4模型以保持其優勢。

谷歌決定對Gemini 1.5 Pro API採取類似的方法,表明了科技巨頭在努力提高大型語言模型並保持在快速發展的AI領域中的競爭力。儘管頂級模型之間的Arena ELO差異相對較小,但這突出了各方不斷努力推動這些系統能力的極限。

隨著這些模型的收斂點不斷縮小,未來一年的格局演變將是令人著迷的。人工智慧領域的快速進步確實令人激動,我們將期待見證下一代強大語言模型及其對各行各業的潛在影響。

Google 的搜索生成體驗提供了可疑的答案

谷歌的新搜索生成體驗(SGE)功能引起了一些爭議,因為提供的AI生成答案被發現包含不準確甚至危險的信息。

討論中突出的一些例子包括:

  • 建議孕婦每天吸煙2-3支,這明顯是不安全的醫療建議。
  • 建議在披薩上添加無毒膠水以使起司更好地粘附,這可能會造成危害。
  • 建議每天至少吃一小塊石頭,這是極其危險的,絕對不應該這樣做。

看來谷歌匆忙實施了這項新的搜索功能,並沒有適當地審查用於生成響應的數據來源。這導致了包含玩笑答案和其他不可靠信息的情況被呈現為事實。

用戶在依賴SGE答案時需要謹慎,因為它們可能並不總是準確或安全的。相比盲目接受AI生成的響應,更重要的是交叉參考來自可信來源的信息。谷歌很可能需要改善內容策展和事實核查流程,以確保SGE功能的可靠性。

結論

從文字記錄中總結的關鍵要點如下:

  1. 開放人工智慧成立了一個新的安全和安全委員會,就其項目的關鍵決策提出建議。
  2. 開放人工智慧已經開始訓練其「下一代前沿模型」,這可能是一個超越GPT-5的新人工智慧系統。
  3. 這個新模型預計將帶來重大的新能力,但具體情況仍不清楚。
  4. 有跡象表明,開放人工智慧正將重點更多地轉移到建立產品,而不是純粹研究超級智慧。
  5. 微軟的新「回憶」功能,可以追蹤個人電腦的使用情況,引發了隱私方面的擔憂,正在接受調查。
  6. 一篇新的研究論文顯示,大型語言模型在預測收益變化方面可以超越人類金融分析師。
  7. 谷歌已經更新了其Gemini 1.5 Pro API,使其性能相比其他頂級模型如GPT-4和Claude 3 Opus有所提升。
  8. 谷歌的新搜索生成體驗功能面臨一些問題,提供了不準確或不適當的響應。

常問問題