索拉是什么意思
分类:电脑知识 发布时间:2024-09-27 15:40:06
2024年2月16日,当全中国都沉浸在春节假期的喜悦中时,OpenAI发布了旗下首个文生视频(Text-to-Video)大模型Sora,其生成的多段视频质感优秀,媲美电影,我们看到了走在东京街道上的时尚女郎、踏雪而来的猛犸象群、咖啡杯里互相追逐的海盗船、在蜡烛边烤火的小怪兽……全世界都在惊叹“AI产业的‘iPhone时刻’已经到来”,埃隆·马斯克干脆承认“人类输了”。只在测试阶段就引起了如此大的轰动,那么Sora是什么意思?Sora又是如何工作的呢?
工具/原料:
系统版本:win10专业版
品牌型号:华为MateBook E
软件版本:Sora SDK 2.3.6
Sora是什么意思:
Sora的名字来自日语“空”,直译过来就是天空;日语中还有一个成语“绘空事”,表示的正是“画出不存在之物、天马行空地创作”之意,完全符合这个文生视频大模型的定位。
“文生视频”,就是让大模型根据用户输入的指令快速生成前所未有的AI视频。这种产品并非OpenAI首创。实际上,近几年以文生视频为主业务的初创公司不断涌现,互联网行业巨头如谷歌、Meta、微软也投入了不少人员和精力在这条赛道上,但视频时长和质量一直徘徊不前。2023年最火的AI视频应用是Runway和Pika,它们都能根据文字生成4-6秒的视频,两家公司的创始人都把生成15秒视频作为今年的目标,可见提升AI视频时长是多么的困难。
但Sora的出现完全改变了这一切,一出手就建立了绝对优势。一是视频时长,Sora可以生成60秒长视频,完全碾压已有的任何同类产品;二是对“文字提示”的高度理解,还可以对简单的指令进行合理补充,并充满了合理的想象力;三是能在一个视频内实现多角度镜头,分镜切换既符合逻辑又十分流畅;四是体现了对真实世界的理解能力,Sora对于光影反射、物体运动、物体相互作用等细节处理得十分优秀,极大地提升了真实感。
除此之外,Sora已经对现实世界的物理规律具备了一定的理解能力。比如一段视频中,男人咬了一口汉堡包后,汉堡上出现了一个咬痕。虽然我们觉得这是理所当然的,但Sora能模拟出这种变化已经一种突破,表明该模型已经开始理解物理规律,这是人工智能的一大进步。
Sora是如何工作的:
想象一下,从电视上的静电、嘈杂的画面开始,慢慢消除模糊,直到你看到一个清晰、移动的视频。这基本上就是 Sora 所做的。这是一个特殊的程序,使用“transformer架构”来逐步消除噪音并创建视频。
它可以一次生成整个视频,而不仅仅是逐帧生成。通过提供模型文本描述,用户可以引导视频的内容,例如确保一个人即使离开屏幕一会儿也能保持可见。
想想基于单词生成文本的 GPT 模型。Sora 做了类似的事情,但使用图像和视频。它将视频分解成更小的部分,称为补丁。
“Sora 建立在 DALL·E 和 GPT 模型。它使用了 DALL·E 3,涉及为视觉训练数据生成高度描述性的标题。因此,该模型能够更忠实地遵循生成视频中用户的文本说明。
总结:以上关于索拉是什么意思就介绍到这里了,有需要的小伙伴一起来看看吧。