Mixtral 8x22B MoE - 新一代強大的商業用開放式大型語言模型

使用 Mixtral 8x22B MoE 革新您的 AI 功能,這是一款強大的新型開放式 LLM,適用於商業用途。這個基礎模型擁有 1760 億個參數,其性能令人印象深刻,超越了最先進的基準測試。探索它多樣化的應用,從創意寫作到實用的編程任務。透過這個突破性的發布,開啟 AI 的未來。

2025年2月15日

party-gif

探索突破性的 Mixtral 8x22B MoE,這款最新的開源語言模型正準備顛覆人工智能的格局。這個強大的模型擁有令人印象深刻的 176 億個參數,在各種任務中都能提供卓越的表現。探索它的功能,為您的專案開啟全新的可能性。

Mixtral 8x22B MoE 的出色表現

米斯塔爾 AI 最近發布了一個龐大的開放權重模型,米斯塔爾 8x22B MoE,擁有令人印象深刻的 176 億個參數。這個模型是由八個專家模型組成,每個模型有 22 億個參數,形成了一個高度強大和多功能的語言模型。

米斯塔爾 8x22B MoE 有幾個值得注意的特點:

  • 大型上下文長度: 該模型可支持高達 655,000 個標記,明顯大於之前的版本。
  • 出色的性能: 即使在基本形式中,該模型在各種基準測試中也優於之前的最先進的開放權重模型 Cair R+。
  • 商業可用性: 該模型以 Apache 2.0 許可證發布,允許商業使用。
  • Hugging Face 集成: 該模型及其標記器已經在 Hugging Face 平台上提供,使 AI 社區更容易獲取。

雖然該模型的預訓練數據和多語言能力仍未知,但初步評估表明,米斯塔爾 8x22B MoE 是一個高度強大的語言模型。其性能估計介於 Chinchilla 和 GPT-4 之間,但鼓勵用戶在自己的應用程序上測試該模型,以獲得更準確的評估。

該模型一個值得注意的方面是它能夠遵循指令並提供相關的回應,即使在其基本形式中也是如此。這表明該模型已經在大量的指令性數據上進行了訓練,這可能會導致在微調版本可用時出現更加令人印象深刻的結果。

然而,需要注意的是,該模型的大尺寸和高資源需求可能會限制其可訪問性。運行該模型需要大量的 GPU 內存,16 位精度需要 260 GB 的 VRAM,4 位精度需要 73 GB 的 VRAM。這可能會給許多用戶帶來挑戰,但該模型功能的潛在優勢可能會使那些擁有必要硬件資源的人願意進行投資。

常問問題