OpenAI的Sora视频生成器令人印象深刻,但尚未准备好投入实际运用 - 彭博社
Shirin Ghaffary, Rachel Metz
本周,我们独家获得了OpenAI新的文本到视频软件Sora的独家预览,迅速吸引了人工智能和媒体界的注意。但首先…
三件事情要知道:
• 由于人工智能推动销售,英伟达股价上涨了大约九个月来的最多• 谷歌正在深入开源,推出其Gemma AI模型• 印度的科技领袖们正在争夺3000亿美元人工智能市场的一部分
猴子们的嬉戏
想象一下:一只色彩斑斓的鹦鹉飞过一片郁郁葱葱的哥斯达黎加丛林,落在一棵树枝上和一群猴子一起吃水果。这是黄金时刻;阳光照射在树叶和猴子的白色皮毛上。
基本上,这就是我们要求OpenAI的研究人员使用Sora为我们创建的场景,这是这家初创公司的新文本到视频生成器。 上周揭幕,Sora可以对简单的书面提示做出高清晰度长达一分钟的视频回应。OpenAI分享了令人印象深刻的电影片段,比如可爱的金毛幼犬在雪地里嬉戏,一对夫妇在东京街头漫步,以及戏剧性地扫视相机穿过一个博物馆画廊。Sora展示了人工智能生成视频的快速发展,这距离Meta和谷歌预告类似研究项目展示短小、低分辨率视频仅一年半的时间。几乎立即,OpenAI的Sora公告引发了人们对其改变电影制作方式潜力的恐惧和兴奋,但这些反应还为时过早。Sora仍然是一个研究项目,很少有人可以使用它,在我们与OpenAI的私人演示期间,该工具存在明显的限制。我们给了OpenAI四个提示,其中两个是由Sora团队为我们生成的。(该公司表示由于研究人员的时间限制,没有运行另外两个。)在最令人印象深刻的例子中,一个10秒的片段展示了一只鹦鹉飞过丛林,第一次观看时没有明显的问题。但当我们再次观看时,我们发现了一些问题 — 当它飞过猴子时,鹦鹉的翅膀被扭曲了,虽然我们只要求了一只鹦鹉,但有几只鹦鹉,而且其中一只猴子在最后似乎有一只鹦鹉的尾巴。
“在那段视频中,你会发现一些奇怪的动作,”OpenAI研究科学家比尔·皮布尔斯告诉我们。“但Sora能够模拟具有这种复杂程度的场景表明视频生成能力已经出现了明显的飞跃。”
OpenAI并没有设定Sora发布的时间表,因为该公司希望确保能充分减轻与选举相关的安全风险,OpenAI发言人娜塔莉·萨默斯表示。随着2024年世界上许多地区的选民有资格投票,许多政治人物、虚假信息研究人员和技术专家对使用超逼真的AI换脸技术来欺骗选民的风险提出了担忧,这使得现在释放一款强大的新视频生成工具成为一个值得商榷的时机。
但尽管存在安全顾虑,OpenAI表示Sora在准备投入主流市场之前还有很长的路要走。首先,还有许多技术挑战需要解决,包括前述的肢体偏离问题和对物理学的混合理解 —— 这些问题OpenAI在一份Sora的技术报告中指出。这些问题对于其他致力于生成视频的人,比如Runway,也是具有挑战性的。
Sora显然还需要更多的时间 —— 以及计算能力 —— 来生成每个视频,而不是像OpenAI的Dall-E 3那样生成单个图像所需的时间。OpenAI不会准确地说Sora每个请求需要多长时间,但皮布尔斯表示这“绝对不是瞬间完成的。”
“你可以在等待这些事情运行的时候去拿点零食,”他说。
**对AI有疑问吗?**给我发电子邮件,Shirin Ghaffary,我会尽量在未来的新闻简报中回答你的问题。
机器人失误
谷歌周四表示,由于批评AI模型处理种族描绘的方式,将暂时阻止 Gemini 生成人物图像。一些社交媒体用户 — 包括许多右翼账号,他们利用这一事件批评他们认为是“唤醒文化”的行为 — 发布了尝试让 Gemini 生成白人图像的失败截图。用户表示,他们要求 Gemini 制作教皇或维京人的图像,却只收到有色人种的图像。其他人表示,他们要求 Gemini 生成开国元勋的图像,却得到了几幅有色人种的描绘。
Gemini 的结果似乎是对一个非常真实的问题的过度纠正。大型语言AI模型和图像生成器存在对白人的偏见。这主要是因为这些服务是建立在反映历史偏见的庞大数据集之上的 — 或者甚至可能比现实世界更有偏见。正如彭博社之前所报道的,一个领先的图像生成器很少将女性描绘为医生,更有可能展示有深色皮肤的男性犯罪。虽然AI公司已经承认了这个问题,但要消除他们工具所建立的数据的偏见并不容易。公司可以尝试微调他们的AI模型以使结果多样化,但这可能会很具有挑战性。一位谷歌 Gemini 产品高级总监在 X 上发帖称公司“设计其图像生成能力”以反映“全球用户群”。但这位高级总监承认历史图像“更加微妙”,团队将“进一步调整以适应”,称这些修复是“对齐过程的一部分”。
Gemini不是本周唯一出现故障的AI工具。周二晚上,OpenAI的ChatGPT出现了故障。对于简单的问题,这个聊天机器人开始在疯狂的循环中重复随机短语,用西班牙式英语回答问题,并且提供了一些混合的隐喻,几乎可以当作现代诗歌。OpenAI 后来归咎于 语言处理模型的“bug”。大型语言模型会为单词分配数字,并根据概率部分地给出回应。然而,在这种情况下,OpenAI表示“模型选择了稍微错误的数字”。效果就像“迷失在翻译中”一样。ChatGPT在深夜崩溃,虽然很有趣,但也提醒了我们即使是最尖端的生成式AI系统也可能出现故障。谷歌、OpenAI和其他科技公司正在竞相将AI工具整合到我们工作、创造和相互交流的基本结构中。但这些服务距离足够可靠,可以依赖它们代表我们行事而不需要真正的人进行理智检查,还有很长的路要走。
本周人物语录
“加速计算和生成式AI已经达到了临界点。”****Jensen HuangNvidia CEO
Nvidia 股价在周四大涨,因为公司的业绩和预测超出了华尔街的预期,这要归功于对其AI芯片的不可满足的需求。在 言论中周三,黄先生表示:“一个全新的行业正在形成,这推动了我们的增长。”### 值得关注
Thrive Global首席执行官Arianna Huffington表示,超个性化人工智能可以帮助人类养成更健康的日常习惯。Bloomberg### 深度学习
- 孙正义希望将SoftBank打造成一个人工智能强国
- OpenAI的Sam Altman正在寻求美国政府的批准,以筹集数十亿美元用于人工智能芯片
- 每个市场现在都在追捧人工智能热潮,正如这些图表所显示的
- Reddit已经与Google达成内容许可协议
- 了解一下ElevenLabs,这家人工智能初创公司的技术已经被用来模仿政治候选人并推广欺诈性产品
更多来自彭博社
获取科技日报以及更多彭博科技周刊,请订阅:
- 网络安全简报,报道黑客和网络间谍的阴影世界
- 游戏时代,报道视频游戏业务
- 电源启动,提供苹果独家新闻、消费者科技新闻等
- 银幕时光,报道好莱坞和硅谷的碰撞
- 声音碎片,报道播客、音乐行业和音频趋势
Nvidia Corp.在芯片制造商发布了另一个令人瞠目结舌的销售预测后,股价上涨了大约九个月来的最多,为已经使其成为全球市值最高的芯片制造商的股票涨势增添了新的动力。
公司在本期的收入将达到约240亿美元,周三在一份声明中表示。分析师平均预测为219亿美元。第四季度的业绩也大大超过了华尔街的预期。
黄仁勋摄影师:Lionel Ng/Bloomberg这一展望延续了Nvidia超越预期的连续表现,得益于对其人工智能加速器的无尽需求——这些备受推崇的芯片为人工智能模型处理数据。这项技术已经帮助推动了聊天机器人和其他生成式人工智能服务的大量发展,这些服务可以根据简单的提示创建文本和图形。
“加速计算和生成式人工智能已经达到了临界点,”首席执行官黄仁勋在声明中表示。“全球范围内的公司、行业和国家的需求激增。”
周四纽约收盘时,股价飙升了16%,至785.38美元,创下历史新高,也是自五月以来的最大单日涨幅。
收听 • 17分钟6秒
Bloomberg Daybreak: Nvidia Surges & Corporate Shakeups (Podcast)
Nvidia的市值今年已增加了6500亿美元以上,使其估值达到1.89万亿美元,投资者押注该公司将继续成为人工智能计算繁荣的主要受益者。
这使得周三的报告成为华尔街和科技界都极为期待的事件。而随着黄先生的乐观态度和数字的公布,人们对支出将保持强劲的信心得到了恢复。
另外,预计将从人工智能增长中受益的另外三家芯片制造商——先进微设备公司、博通公司和马维尔科技公司的股价也在周四上涨。
“整个市场都在关注这份报告,预期已经提高,”Wolfe Research分析师克里斯·卡索在一份报告中表示。指导意见足够强劲,可以“证明持续的势头,同时也为下半年的持续上行留下了空间。”
新周期
在分析师电话会议上,黄先生表示,对Nvidia最新产品的需求将在今年余下时间继续超过供应。尽管供应正在增长,但需求并没有显示出任何放缓的迹象。
“生成式人工智能已经开启了一个全新的投资周期,”黄先生说道。这将导致未来五年全球数据中心的安装基数翻倍,“代表了数千亿美元的年度市场机会,”他说。
Nvidia于1993年由黄先生共同创立,最初是为电脑游戏玩家提供图形卡的供应商。在过去两年里,该公司的技术被证明能够处理繁重的人工智能工作负载,其H100加速器在科技界已经成为传奇,客户争相获取尽可能多的产品。
像亚马逊公司这样的公司亚马逊公司,Meta平台公司,微软公司和Alphabet公司的谷歌是英伟达最大的客户,占其收入的近40%,它们正急于投资于人工智能计算的硬件。
观看:彭博智库的Kunjan Sobhani讨论了英伟达的收益和销售预测。
在截至1月28日的财政第四季度,英伟达的收入增至221亿美元,超过了三倍。不包括某些项目的利润为每股5.16美元。分析师预测销售额约为204亿美元,每股收益为4.60美元。突显其最近增长势头的重要性:就在2021年,英伟达的整年收入还没有达到这个水平。
英伟达的数据中心部门,现在是其最大的销售来源,收入达到184亿美元,比去年同期增长了409%。游戏芯片提供了28.7亿美元的销售额。
英伟达现在正在努力将其人工智能技术推广到大数据中心以外的领域。61岁的黄先生已经周游全球,主张政府和公司需要拥有自己的人工智能系统,既能保护他们的数据,又能获得竞争优势。
英伟达的数据中心部门取得了爆炸性增长
对人工智能相关基础设施的支出推动了收入增长
来源:公司数据
英伟达本月早些时候宣布与思科系统公司达成了一项协议,为其提供了一个新的分销渠道。作为该协议的一部分,全球最大的网络设备提供商思科将帮助向公司销售完整的人工智能系统。
阅读更多: 英伟达、思科将帮助公司构建内部人工智能计算
但英伟达面临风险,包括日益激烈的竞争以及一些客户推动开发自己的人工智能芯片。
AMD最近开始销售名为MI300的加速器产品线。预计今年该产品将实现35亿美元的收入,高于之前的20亿美元的预期。不过,英伟达并未停滞不前。分析师们预计该公司将很快推出更强大的加速器。
英伟达还不得不应对前往中国的芯片的新出口规定,中国是半导体的最大市场。为了继续向该地区销售产品,该公司已经降低了产品的功能。过去,中国市场占据了英伟达四分之一的收入。三个月前,首席财务官科莱特·克雷斯告诉分析师,如果不是中国的规定,公司的预期收入将更高。
就数据中心收入而言,中国在第四季度占据了中等单个数字的百分比。“我们预计在第一季度它将保持在类似的范围内,”克雷斯周三表示。
该公司已经开始向中国客户发送符合限制的新芯片样品,黄仁勋表示。这将有助于业务再次复苏。
“我们将尽最大努力在这个市场竞争并取得成功,”黄仁勋说。