人工智能新闻:人工智能进步和发展的忙碌一周

探索过去一周的最新人工智能进展和发展,包括 OpenAI 的先进语音功能、GPT-4 的长输出能力、微软的人工智能竞争声明,以及来自谷歌、Anthropic、Meta 等公司的更新。保持领先,跟上人工智能不断发展的步伐。

2025年4月14日

这篇博客文章提供了对人工智能最新进展的全面概述,涵盖了从OpenAI的ChatGPT中的新语音功能到Canva收购Leonardo AI等广泛的主题。读者将了解到人工智能领域快速发展的景观以及塑造该技术未来的令人兴奋的发展。

OpenAI的高级语音功能

OpenAI 已经开始向少数用户推出先进的语音功能。这项新功能允许用户生成类人声音,包括模仿斯嘉丽·约翰逊等名人的声音。

高级语音模式的一些关键亮点:

有权限的用户可以在聊天窗口底部尝试"高级语音模式"选项。
它可以生成非常逼真的声音,包括模仿名人和公众人物的声音。
用户可以在语音发出时打断它,这是标准聊天 GPT 应用程序中没有的功能。
演示显示,语音模型可以非常快地进行计数,甚至模拟需要呼吸的情况。

然而,这项高级语音功能目前只对少数用户开放。大多数人仍然无法自己尝试。OpenAI 已经宣布了这项新功能,但目前正在缓慢地向一个选定的群体推出。

GPT-4长输出

OpenAI 最近推出了一个名为"GPT-4 Long Output"的 GPT-4 实验版本。这个新模型每次请求的最大输出为 64,000 个标记,允许产生更长更详细的响应,与标准 GPT-4 模型相比。

GPT-4 Long Output 模型目前只对一些 Alpha 参与者开放,普通公众还无法使用。这个实验版本旨在让用户能够生成极其长且全面的输出来回答他们的查询。

虽然模型的架构和训练过程的细节尚未公开披露,但增加输出长度可能是通过提高模型的记忆和推理能力实现的。这使模型能够在更长的文本跨度内保持上下文和连贯性,从而提供更详细和深入的响应。

GPT-4 Long Output 模型的潜在应用非常广泛,从扩展的研究和分析任务到生成长篇内容如报告、论文甚至书籍。然而,与任何强大的 AI 技术一样,也存在滥用或产生意外后果的担忧。

OpenAI 表示,他们正在与监管机构和其他利益相关方密切合作,确保 GPT-4 Long Output 模型的负责任发展和部署。这包括实施保护措施和指导方针,以防止该模型被用于有害或不道德的目的。

总的来说,GPT-4 Long Output 模型的发布标志着大型语言模型及其参与更复杂和细微形式的交流和信息处理能力的重大进步。随着技术的不断发展,研究人员、决策者和公众密切监控其发展和影响将至关重要。

OpenAI作为微软的竞争对手

本周,微软现在声称 OpenAI 是其 AI 和搜索的竞争对手。这很有趣,因为微软著名地投资了 130 亿美元到 OpenAI,并拥有该公司 49% 的股份。

在其财务报告中,微软将包括 Anthropic、OpenAI、Meta 和其他开源产品在内的公司列为其 AI 产品的竞争对手。这很奇怪,因为 OpenAI 是微软拥有 49% 股份的公司,两家公司还有合作协议。

看来微软现在将 OpenAI 视为其自身搜索和新闻广告业务的竞争对手,尽管他们在该公司拥有重大股份。这是两家公司之间发展出的一个非常有趣的动态。

OpenAI对AI监管的支持

本周,OpenAI 支持了几项与 AI 监管和安全相关的参议院法案。其中包括《未来 AI 创新法案》,该法案将正式授权美国 AI 安全研究所作为联邦机构,制定 AI 模型的标准和指导方针。

OpenAI 还支持了《NSF AI 教育法案》和《CREATE AI 法案》,这些法案为 AI 研究提供联邦奖学金,并在大学和 K-12 学校内建立 AI 教育资源。

OpenAI 的这些支持很可能是为了在未来关于 AI 监管的讨论中获得一席之地。作为一家主要的 AI 公司,OpenAI 很可能会面临监管审查。通过支持这些法案,OpenAI 可以帮助塑造监管的方向,确保其利益得到代表。

此外,OpenAI 承诺将提前向美国 AI 安全研究所提供其下一个模型。这似乎是一种努力,以抵消 OpenAI 在追求更强大的生成式 AI 技术的同时忽视 AI 安全的说法。

总的来说,OpenAI 的这些举措表明,该公司正在努力与美国政府建立更密切的关系,并将自己定位为 AI 监管和安全标准制定的关键利益相关方。

Anthropic在巴西推出Claud

巴西的好消息 - Anthropic 本周在该国推出了其 AI 助手 Claud。Claud 现已供巴西用户访问和互动。

Google的Gemini 1.5 Pro和其他AI模型

谷歌本周在 AI 领域也掀起了一些大浪。他们发布了 Gemini 1.5 Pro 的新版本,称之为 0801 版本,现在可以在谷歌的 AI Studio 中使用。

要访问它,你可以去 ai.studio.google.com,在"模型"下拉菜单中,你会看到"Gemini 1.5 Pro experimental 0801" - 这就是你想要使用的模型。

当你与这个新的 Gemini 1.5 Pro 模型聊天时,它已经在 lm.org 的排行榜上领先,甚至超过了 GPT-4、GPT-4 Mini、CLAE 3.5 和 Sonet。

谷歌本周还发布了他们 Gemini 2 模型的一个新的更小版本 - 一个 20 亿参数的模型,专为更快的性能和效率而构建,可能针对移动设备。有趣的是,这个 20 亿参数的模型超过了更大的模型,如 Mixdral 8X 7B、GPT-3.5 Turbo 和 LLaMA 2 70 亿。

除了新的 Gemini 模型,谷歌还在本周为 Chrome 添加了一些令人印象深刻的新 AI 功能,包括 Google Lens 集成,可以识别和搜索图像中的物体,以及一个新的比较功能,可以比较不同网站上的产品。

总的来说,谷歌一直在推动大型语言模型和 Chrome 中 AI 功能的边界,展示了他们在 AI 领域持续的创新和领导地位。

Google的新Chrome AI功能

本周,谷歌为其 Chrome 浏览器添加了一些新的 AI 驱动功能:

Chrome 桌面版的 Google Lens: 你现在可以直接在 Chrome 浏览器中使用 Google Lens 搜索图像中的信息。只需选择图像的一个区域,Lens 就会搜索相似的产品或识别该物体。
产品比较: Chrome 现在内置了一个功能,允许你比较不同标签页和网站上的产品。这使得研究和比较商品变得更加容易,无需在标签页之间切换。
自然语言搜索历史: 你现在可以使用自然语言搜索你的 Chrome 浏览历史。例如,你可以问"上周我看过的冰淇淋店是什么?",Chrome 就会从你的搜索历史中找到相关信息。

这些 Chrome 中新的 AI 驱动功能展示了谷歌不断努力将智能功能直接集成到其核心产品和服务中。通过利用计算机视觉和自然语言处理等技术,谷歌正在使用户更容易找到信息、比较产品和浏览历史 - 所有这些都无需离开 Chrome 浏览器。随着 AI 的不断进步,我们可以期待在谷歌的工具和应用程序套件中看到更多这类智能功能。

Meta关闭AI聊天机器人和新的AI工作室

本周,Meta 取消了他们在去年 Meta Connect 上宣布的一项功能。他们展示了看起来像名人的 AI 聊天机器人,但实际上并不是那些名人的聊天机器人 - 它们只是使用了他们的脸,但是训练于不同的信息。然而,没有人真的喜欢这些,所以 Meta 把它们去掉了。

但他们用其他东西取代了它 - 现在,任何人都可以创建自己的定制 AI。Meta 推出了一个 AI 工作室,我的一个朋友 Don Allen Stevenson 是获得早期访问权的人之一。

这项新功能允许任何人根据自己的兴趣创建 AI 角色。你可以访问 ai.meta.com/AI-Studio,创建你自己的定制 AI 角色,选择 AI 宠物、私人导师、粉丝、富有想象力的艺术家、思考伙伴、创意设计师、个人造型师等选项。

这个过程会使用 AI 生成一个角色图像,给它一个名字和标语,然后你可以进一步定制和设计你想要这个 AI 做什么。现在,它看起来有点像一个新奇的东西,因为你不能轻易地导入大量文档或文字记录,让人们与你的 AI 化身聊天。但这可能是他们未来想要实现的。

Meta 本周推出的更令人印象深刻的是他们的新 Segment Anything Model 2 (SAM 2)。这是一个可以以令人印象深刻的准确度分割图像或视频中某些部分的模型,甚至可以跟踪移动的物体。它比以前的分割模型有了很大的改进,可能对视频编辑任务如蒙版处理非常有用。你可以在 sam2.metademolab.com 尝试使用 SAM 2。

总的来说,Meta 正在不断推动 AI 的边界,即使他们面向消费者的一些功能目前可能看起来有些新奇。它将很有趣看看他们的 AI 工作室和分割工具将如何随时间发展。

Meta的Segment Anything Model 2

Meta 发布了他们的 Segment Anything Model 的新版本,称为 SAM 2。这个更新的模型在准确分割图像和视频中的物体方面显示出了显著的改进。

SAM 2 的一些关键特点包括:

改善了在遮挡情况下跟踪物体的能力 - 该模型可以继续跟踪即使暂时被另一个物体遮挡的物体。
增强的分割准确性,使其能够更精确地勾勒出检测到的物体的边界。
更快的处理速度,使实时视频分割成为可能。
更广泛的适用性,该模型能够分割各种各样的物体,从人和动物到更复杂的形状和结构。

Meta 提供的演示展示了 SAM 2 的令人印象深刻的功能。例如,该模型可以准确地跟踪一个滑板手在场景中的移动,即使滑板手经过一棵树后也能保持分割。同样地,它可以孤立并跟踪多个球,将每个球都区分开来。

这些分割技术的进步对视频编辑、视觉特效和其他媒体制作工作流程有着令人兴奋的影响。通过自动化繁琐的蒙版处理过程,SAM 2 有潜力大大简化并加快这些任务。与 Adobe Premiere 和 DaVinci Resolve 等工具的集成可能会使 SAM 2 成为内容创作者的宝贵资产。

总的来说,Meta 的 Segment Anything Model 2 代表了计算机视觉以及图像/视频处理能力的重大进步。随着 AI 的不断发展,我们可以期待在不久的将来看到更加令人印象深刻的视觉理解和操作能力。

Perplexity出版商计划

Perplexity,这个基于 AI 的搜索引擎,宣布了 Perplexity 出版商计划。该计划旨在与在 Perplexity 平台上作为新闻来源的特定合作伙伴分享收益。

最初包括在该计划中的合作伙伴有:

时代杂志
明镜周刊
财富杂志
企业家杂志
德克萨斯论坛报
WordPress.com

虽然目前该计划只包括较大的出版商,但 Perplexity 表示希望未来能够激励普通博主和内容创作者也向该平台授权他们的内容。然而,目前 Perplexity 出版商计划主要针对的是知名新闻机构。

该计划

FAQ

OpenAI 正在推出的新的高级语音功能是什么?

OpenAI 推出了什么新的 GPT-4 长输出功能?

微软如何将 OpenAI 视为竞争对手?

谷歌发布了哪些新的 AI 功能?

Meta 发布了哪些新的 AI 功能?

有哪些新的 AI 驱动视频工具发布?

AI 公司面临哪些法律问题?

本周还发生了哪些其他值得注意的 AI 新闻?

Create Your AI Girlfriend

Create and chat with your dream AI Girlfriend