AI 生成视频超越空?最新发展探索

探索最新的 AI 视频生成工具,如 Cling、Toncraftey、Domo AI 和 Stable Audio,以及 Nvidia、AMD、Intel、Qualcomm 和思科在推进 AI 功能方面的公告。在特里贝卡电影节和微软的 AI 驱动游戏助手中发现 AI 生成的短片。

2025年2月19日

party-gif

探索人工智能视频生成、动画和音效方面的最新进展,这些进展正在推动着可能性的边界。探索来自领先科技公司的令人兴奋的发展,以及这些工具如何革新内容创作。

崛起的粘性:令人印象深刻的AI视频生成器

这个名为Cling的新AI视频生成器来自中国,这周在AI界引起了广泛关注。如果你有中国手机号码,你reportedly可以注册使用这个应用程序。

Cling生成的视频通常长约5秒,但也有更长的视频示例。一个视频展示了一个男孩骑自行车,随着视频的进行,环境从沙漠变为雪景。虽然这些视频明显是AI生成的,但它们的逼真程度令人印象深刻。

Cling还有一个功能,允许你上传一张图像和一个模板动作,它会将图像动画化以匹配该动作。这产生了一些创意十足且有趣的示例,比如一个人在海滩上跳舞或人们吃各种食物。

总的来说,Cling AI视频生成器似乎产生的结果比我们最近看到的许多其他视频生成器都要好,尽管它们还无法完全匹配Sora的质量。有趣的是,看看这个工具将如何发展,以及它是否会在中国以外变得更加广泛可用。

Ton Crafter:帧与帧之间的动画

Ton Crafter是一个很酷的AI工具,可以在两帧之间进行动画化。你只需提供一个起始图像和一个结束图像,它就会生成中间的动画过渡。

这个工具在处理卡通风格或动漫风格的图像时效果最好,而不是真实照片。它可以处理简单的头部转动或角色迈步,并流畅地完成动画过渡。

你现在可以在Hugging Face上免费使用Ton Crafter。只需上传你的起始和结束图像,工具就会生成动画。这是一个开源项目,所以你也可以下载代码并在自己的电脑上本地运行。

Ton Crafter的一些使用示例包括:

  • 一个人拿着雨伞走在街上
  • 一个发光的球体或宝石脉动和变化
  • 一个卡通角色的头部略微转动并眨眼

总的来说,Ton Crafter提供了一种简单但有效的方式来实现两帧之间的动画化,使其成为创建短循环动画的便捷工具,无需手动绘制每一帧。

Domo AI:将视频转换为卡通

Domo AI是一个允许用户将普通视频镜头转换为卡通动画的工具。它的工作原理如下:

  • 用户可以将视频文件上传到Domo AI平台。
  • 该工具会对视频进行处理,应用卡通风格的滤镜和特效,创造出原始镜头的动画版本。
  • 这可以应用于各种视频来源,包括电影、电视节目和用户生成的内容。
  • 生成的动画视频保留了原始的动作和行为,但具有梦幻般的手绘美学。
  • Domo AI甚至处理了lip-syncing任务,确保卡通角色的嘴部动作与音频同步。

这个工具为标准视频提供了一种独特的动画外观和感觉。它可用于创意项目、视频评论或只是为现有镜头增添视觉魅力。Domo AI使卡通转换过程对广大用户来说都是可访问的。

Verse的魔法画笔:选择性动画

最近,Proper Prompter分享了一个名为Verse的新工具,其中包括一个名为Magic Brush的功能。这个功能允许你选择图像的特定部分并只对该部分进行动画化。

这里有一些Magic Brush功能的示例:

  • 给哈利·波特的魔杖添加动画,包括手部和魔杖的移动。
  • 给埃隆·马斯克的脸部添加动画,使他点头。
  • 给一枚火箭船起飞添加动画,包括喷出的蒸汽。
  • 给霍格沃茨特快列车添加动画,包括蒸汽和列车的移动。

Magic Brush功能似乎比类似的工具(如Runway)产生更好的结果,允许所选区域的动画更加自然和流畅。用户可以上传一张图像,选择想要动画化的部分,Verse的AI就会使该部分生动起来。

这个工具为创作者提供了另一种强大的方式,可以为图像添加动画和运动,而无需对整个场景进行动画化。Magic Brush的选择性使其成为各种用例的多功能工具,从视觉特效到创意项目。

音频生成:下一级的音效

本周,AI生成音频领域出现了一些令人兴奋的进展。两个值得注意的公告如下:

  1. 11 Labs的AI生成音效: 11 Labs展示了一项新功能,允许用户提示任何音效,AI然后生成这些音效。示例包括一个"说'远离,渺小的人类'的食人魔"以及一个类似魔兽世界生物的独特音效。

  2. Stability AI的Stable Audio模型: Stability AI发布了一个名为Stable Audio的开源模型,可以生成长达47秒的音频样本和音效,包括鼓点、乐器旋律、环境音和制作元素。演示中展示的音频质量相当出色。

这些AI生成音频的进展突出了这个领域的快速发展。用户现在可以提示特定的音效或音频样本,AI模型能够产生高质量、逼真的结果。这为音频创作、音效设计以及各行业的音频后期制作开辟了新的可能性。

随着这些工具的不断发展,我们可以期待在不久的将来看到更加令人印象深刻和多功能的AI驱动音频生成功能。

英伟达在Computex上:突破性公告

Nvidia CEO Jensen Huang在Computex活动上做出了几项重大公告。以下是关键亮点:

  1. Earth 2: Nvidia推出了Earth 2,这是整个地球的数字孪生,旨在帮助更好地预测气候变化和天气。它可以进行超本地预报,精确到数十米,基于大量天气数据进行训练。

  2. Nvidia Aces: Nvidia展示了其数字人类技术套件,实现了实时路径跟踪次表面散射,模拟光线与皮肤的相互作用,赋予其柔和而半透明的外观。

  3. GPU性能和效率: Nvidia证明其GPU计算能力远远超越了摩尔定律,而功耗却显著下降,实现了更高效的AI处理。

  4. GPU路线图: Nvidia概述了其GPU路线图,包括即将推出的Blackwell、Reuben和未来几代,计划每年发布一款新GPU以推动持续进步。

  5. Project G Assist: Nvidia推出了Project G Assist,这是一款AI驱动的助手,可以在玩家游戏时回答问题并提供指导。

  6. Nvidia的市场地位: Nvidia曾短暂超越苹果成为世界第二大公司,突显了其GPU技术在AI时代的日益重要性。

这些公告展示了Nvidia在AI领域的持续领导地位,从数字孪生和数字人类到更强大和高效的GPU硬件路线图,公司致力于推动AI创新的决心显而易见。

AMD和英特尔在Computex上:专注于AI

AMD在Computex上做出了一些重大公告,包括他们的下一代笔记本电脑处理器Ryzen AI 300系列。这款芯片采用了AMD的XDNA 2 NPU,据称其计算能力是上一代的5倍,能效也提高了一倍。Ryzen AI 300将于2024年7月开始应用于某些co-pilot PC。

Intel也推出了他们的Lunar Lake客户端处理器架构,继续推动AI驱动PC的发展。他们展示了一个"AI Playground",包括使用稳定扩散模型的图像生成器,以及一个"Answer"部分,提供了一个类似ChatGPT的大型语言模型,可在用户的计算机上本地运行。

关键的启示是,所有主要的芯片制造商 - Nvidia、AMD、Intel和高通 - 都专注于开发专门针对AI处理优化的硬件。这反映了AI功能在消费和企业计算中的日益重要性。Computex上宣布的新芯片和技术旨在使更广泛的设备上能够运行更高效和强大的AI应用程序。

思科Live:增强数字弹性

Cisco在最近的Cisco Live活动中,重点关注提高"数字弹性" - 即企业应对数字世界中可能出现的问题(如黑客攻击、网络安全威胁和数据完整性问题)的能力。

Cisco正在使用AI来帮助企业更好地监控和管理其数字基础设施。他们开发了一款名为ThousandEyes的工具,利用AI监视公司的整个数字环境,及时发出警报并帮助快速定位问题的根源。

虽然消费者可能无法直接使用Cisco的技术,但提供我们使用的服务和工具的企业公司很可能依赖于Cisco的基础设施。通过利用AI增强数字弹性,Cisco旨在提高我们所依赖的数字系统的整体安全性和可靠性。

除了开发自己的AI驱动工具,Cisco还宣布了一项10亿美元的全球AI投资基金,以支持创新AI解决方案的发展。该公司认识到AI在确保我们数字世界的安全和稳定性方面将发挥关键作用。

苹果WWDC:对AI进步的期望

苹果即将举行的全球开发者大会(WWDC)预计将是一个重大的AI公告事件。据报道,这家科技巨头计划在其产品阵容中推出一系列新的AI功能和能力。

其中一个关键预期是推出一个全新的"Apple Intelligence"平台,可能会取代当前的Siri人工智能。这个新系统预计将在自然语言处理、任务完成和与苹果生态系统的集成方面提供显著改进。

此外,苹果也有望将更先进的AI功能集成到其核心产品(如iPhone、iPad和Mac)中。这可能包括改进的图像识别、增强的语音命令和更智能的个人助理功能。

该公司还预计将展示其增强现实(AR)和混合现实(MR)技术的进展,这些技术很可能利用AI进行物体识别、场景理解和与数字内容的无缝集成。

此外,苹果可能会推出新的开发者工具和API,使第三方应用程序创建者能够利用公司的AI功能。这可能会导致整个苹果生态系统中出现大量AI驱动的体验。

总的来说,对于苹果的WWDC活动,人们的期望很高,有望看到重大的AI驱动创新,这可能会塑造该公司产品和服务的未来。随着科技行业继续优先发展AI,苹果的公告将受到消费者和行业分析师的密切关注。

微软和谷歌的召回功能:隐私问题

当一名黑客开发了一个工具来提取数据,利用微软新的"回忆"功能时,这引发了关于隐私和数据保护的担忧。作为回应,微软已经做出了几项更新来解决这些问题:

  • "回忆"功能现在默认关闭,需要用户特别启用。
  • 查看时间线和搜索回忆数据需要出示在场证明。
  • 将添加更多数据保护措施,包括及时解密和本地存储快照(而不是云端)。
  • 用户将拥有更多控制权,可以暂停、过滤和删除保存在"回忆"功能中的内容。

微软显然正在努力解决"令人不安"的因素,确保用户对自己的数据拥有更多透明度和控制权。

谷歌也在探索为Chromebook开发类似的"记忆"功能,他们也致力于消除这种功能可能引发的隐私问题。

关键的启示是,随着这些AI驱动的生产力功能变得更加普遍,科技公司必须谨慎平衡其利益和强大的隐私保护措施。开发者需要主动解决这些技术可能被滥用或利用的潜在问题。

AI创新的挑战:加州法案

提议中的加州法案SB 1047(《安全可靠的前沿人工智能模型创新法》)引发了AI创新者的担忧。争议的关键点包括:

  1. 前沿模型部门: 该法案设立了一个"前沿模型部门",负责为AI模型制定安全标准。这个部门将通过对AI开发者征收费用和罚款来获得资金。

  2. AI开发者的责任: 该法案要求任何培训"

FAQ