好莱坞级别的AI视频揭秘:探索最新的AI视频技术进展

探索最新的 AI 视频技术,包括好莱坞级别的 Odyssey 工具以及 Live Portrait 和 PaintSUndo 等工具。了解 AI 如何改变视频创作并开启新的创意可能性。探索来自 OpenAI、Meta 和其他领先 AI 公司的最新发展。

2025年2月15日

party-gif

探索人工智能视频技术的最新进展,从"好莱坞级别"的人工智能视频生成到创新工具,让您的图像焕发生机。探索正在重塑视觉讲述世界的尖端发展。

从好莱坞级别的AI视频生成中获益

奥德赛是一款新的AI视频工具,声称提供好莱坞级别的视觉能力。由一支在自动驾驶汽车和重大电影项目中有经验的团队开发,奥德赛旨在实现对视觉讲述的核心层的全面控制,包括高质量的几何形状、逼真的材质、惊艳的照明和可控的运动。

该工具目前不对公众开放,但团队正在与好莱坞合作,塑造这项技术。奥德赛的生成模型旨在提供对场景细节的精确配置,让创作者能够以无故障和令人惊叹的视觉效果实现他们的愿景。

随着AI视频领域的不断发展,像奥德赛这样的工具有望民主化高质量、电影级别的视频生成,赋能创作者以前所未有的方式实现他们的创意项目。

用实时肖像让图像栩栩如生

实时肖像是一款可以使用驱动视频来动画化图像的工具。它的工作原理如下:

  1. 你上传一张静态图像和一段驱动视频。
  2. 该工具会将图像动画化,使其与驱动视频中的动作和表情同步。
  3. 结果是一段视频,图像似乎活了过来,主体的嘴部、眼睛和头部动作与驱动视频同步。

这个工具可在GitHub上使用,你也可以通过Hugging Face空间免费使用。虽然它对于富有表情的面部效果很好,但可能会在某些特征(如胡须)上有所挣扎。

要使用实时肖像,只需选择输入图像和驱动视频,然后点击"动画化"生成最终输出视频。你会看到并排比较,左边是动画化的图像,右边是原始的驱动视频。

这个工具是AI驱动视频生成进步的一个很好例子,它能以无缝和逼真的方式为静态图像注入生命。

用油画撤销功能逆向工程您的数字艺术作品

名为"Paints Undo"的研究项目是一个非常有趣的工具,它允许你逆向工程数字艺术作品。其思路很简单 - 你上传一幅完成的图像,比如一个动漫角色,该工具会生成一个分步骤的过程,向你展示如何重新创作该作品。

这本质上是我们在AI艺术生成器(如Midjourney或DALL-E)中看到的逆过程。与其从文本提示开始生成图像,Paints Undo从最终图像出发,将其分解为初始草图、绘画和着色步骤。

项目GitHub页面上展示的示例展示了这一过程在各种动漫风格作品上的应用。你可以看到该工具如何分解最终图像,揭示用于创作它的底层层次和技术。

虽然代码目前可在GitHub上获得,但开发者指出,处理时间通常比典型的Hugging Face任务更长。因此,他们不建议直接将其部署到Hugging Face。相反,他们计划在未来发布一个Google Colab笔记本,这将提供一种更容易使用Paints Undo工具的方式。

如果你对探索这种数字艺术的逆向工程方法感兴趣,请关注即将推出的Colab笔记本发布。这个工具可能是艺术家学习和复制最喜欢的数字艺术作品所用技术的宝贵资源。

用nid AI增强您的视频创作

创作高质量的视频可能非常耗时,从编剧到编辑再到寻找合适的库存镜头,这是一项繁重的工作。这就是nid AI的用武之地。

nid是全球使用最广泛的AI视频创作工具,拥有2500多万用户。想象一下,有一个熟练的助手来处理所有繁琐乏味的视频编辑任务,让你可以专注于发挥创意。

它的工作原理如下:

  1. 从一个简单的文本提示开始,比如"解释为什么机器人技术进步正在加速"。
  2. 点击生成视频,并添加一些其他细节,比如制作成YouTube短视频。
  3. nid会为你创作一个初稿,按照你刚才输入的提示。
  4. 从这里开始,你就掌控了全局。想改变开场?用提示就可以。需要更好的镜头素材?只需点击编辑,选择要替换的片段,从他们的高质量库存视频中替换即可。
  5. 想把整个视频翻译成西班牙语?也很简单,只需输入提示并点击生成。

nid AI集成了超过10种工具的功能,集于一身。这可以轻松为你节省每月数百美元的订阅费用,而且起价只需20美元/月。

我强烈建议你去看看nid AI,特别是如果你对视频创作很认真的话。你可以免费开始,但付费计划可以去掉水印,让你获得语音克隆功能和更多高质量的库存镜头。

只需访问描述中的链接,使用我的优惠码"mw50"或扫描屏幕上的二维码,就可以在第一个月获得两倍的视频积分。立即体验nid AI,将你的视频创作提升到新的高度。

探索Po Previews和Anthropic的最新进展所带来的力量

如果你一直在使用聊天机器人Po,它本周刚刚更新了一个名为Previews的新功能。这是一个新功能,可以让你在Po的聊天中直接查看和交互Web应用程序。

Previews在擅长编码的LLM上表现特别出色,包括Clae 3.5、Sonet GPT 4.0和Gemini 1.5。Po是一个基于订阅的聊天机器人,但在使用时,你可以选择想要使用的模型 - 你不仅限于使用GPT、Claud或Gemini。这似乎非常类似于Anthropic最近发布的Artifacts,但它在Po中,你可以将其与多个不同的模型一起使用。

从提供的片段中可以看到,在被提示后,Po实际上生成了代码并在聊天窗口中实时执行了代码。这些预览可以通过专门的链接与任何人共享,所以如果你在Po内部创建了一些很酷的编码内容,你可以与他人分享链接,他们就可以在自己的Po账户中访问。

说到Anthropic,他们本周也让Artifacts可以共享。Artifacts并不是新功能,你在左边输入提示,它会在右边生成代码和预览,你可以与之交互。但是能够与他人分享,让他们可以使用、尝试和重新混合,这是一个新功能。

Anthropic不断改善使用其应用程序的体验。他们还推出了在开发者控制台内评估提示的功能。这允许你生成改进的提示,比较多个提示,并测试每个提示中的单个变量,以查看它们如何改变输出。

在其他新闻中,Meta宣布了一种名为Mobile LLM的新语言模型,这是一种专为移动设备开发的更小型模型。根据提供的图表,准确性似乎要高于大多数其他移动模型。

总的来说,我们看到AI领域不断取得进步和改进,Po Previews和Anthropic的Artifacts等工具使创建和共享交互式应用程序变得更加容易。能够选择不同的模型并评估提示也是一个受欢迎的发展,让用户能够最大限度地利用这些强大的AI系统。

了解Open AI、Stability AI和版权影响方面的最新消息,保持领先地位

本周,OpenAI引起了一些重大进展的关注:

  • OpenAI已经封锁了对ChatGPT在中国的访问,切断了用户绕过禁令的漏洞。然而,中国仍然可以通过Microsoft Azure访问GPT-4,这引发了人们对GPT-5可能推出的猜测。
  • 微软和苹果都退出了担任OpenAI董事会观察员的计划,这可能是由于对反垄断审查的担忧。
  • OpenAI宣布与洛斯阿拉莫斯国家实验室合作进行生物科学研究,并正在与Arianna Huffington的Thrive Global合作开发个性化的AI健康教练。

Stability AI(Stable Diffusion的公司)也做出了一些值得注意的更新:

  • 他们更新了许可条款,允许更多的商业使用,只要年收入不超过100万美元。
  • Stability AI发布了Stable Assistant的新功能,包括搜索和替换,以及文本到语音的功能。

在版权影响方面,最近的一项法院裁决表明,只要AI系统的输出与输入材料足够不同,它们可能就不会受到法律制裁,为未来的诉讼提供了一些先例。

此外,加州提出的一项法案(SB 1047)有可能严重阻碍AI研究人员,并受到来自A16Z的Ananth Raman等行业领袖的强烈反对。

总的来说,AI格局继续快速发展,来自OpenAI和Stability AI等行业巨头的重大进展,以及将塑造该领域未来的重要法律和监管考虑因素,都值得关注。

探索三星的AI驱动型电子产品

Samsung最新的产品阵容展示了AI在其设备中的集成。一些关键亮点包括:

  • Galaxy Z Fold 6:配备了三星最新的AI功能,包括Circle搜索、翻译和转录PDF文档,从照片中的人物或物体生成AI图像,以及将简单草图转换为高质量图像的功能。

  • Galaxy Z Flip 6:外部显示屏提供基于设备AI的建议回复,以及AI驱动的壁纸。

  • Galaxy Watch 7:这是首款获得FDA授权的可穿戴设备,可识别睡眠呼吸暂停的迹象,由AI驱动的睡眠算法提供支持。它还根据活动、睡眠质量等健康指标提供全面的能量评分。

  • Galaxy Ring:使用Galaxy AI根据活动、睡眠质量等数据生成能量评分,并提供AI驱动的睡眠跟踪。

  • Galaxy Buds 3 Pro:具有一项翻译功能,利用AI实时将外语对话翻译到用户耳中。

这些融入AI的设备展示了三星致力于将智能功能集成到其产品线中,通过个性化、健康监测和语言翻译来增强用户体验。

在谷歌深度思维办公室见证Gemini的导航实力

最后,这里有一个使用Gemini导航谷歌深度思维办公室的机器人。它使用Vision模型来感知周围环境,在走廊中导航,确保不会撞到任何东西,因为视觉模型准确知道它的位置并可以看清周围,确保不会撞到任何东西。

TechCrunch文章中的视频没有音频,但它说这个机器人可以在办公室里走动,并用语音指出不同的地标。他们使用所谓的"视觉-语言-行动"结合,将环境理解和常识推理能力结合起来。一旦这些过程结合在一起,机器人就可以响应书面和绘制的命令,以及手势。

目前,它有点像一个AI导游 - 它可以在一栋建筑物里游荡,向你指出并给你一些信息。

FAQ