谷歌推出更新的人工智能模型，能够处理更长的文本和视频 - 彭博社

Davey Alba

2024-02-15

谷歌的Gemini是迄今为止最大、最有能力和灵活的人工智能模型。更新版本可以处理更大量的文本和视频。

摄影师：Gabby Jones/BloombergAlphabet Inc.的谷歌正在推出其强大人工智能模型的新版本，据称可以处理比竞争对手产品更多的文本和视频。

更新的人工智能模型名为Gemini 1.5 Pro，将于本周四提供给云客户和开发人员，以便他们测试其新功能，并最终创建新的商业应用程序。谷歌及其竞争对手已经投入数十亿美元来提升它们在生成式人工智能方面的能力，并渴望吸引企业客户以展示它们的投资正在取得回报。

“我们今天首先专注于提供使这一模型成为可能的研究成果，”谷歌副总裁兼Gemini联合技术负责人Oriol Vinyals在与记者的简报会上表示。“明天，我们很期待看到世界对新功能的反应。”谷歌表示，新人工智能模型Gemini 1.5 Pro的中等版本的性能与较大的Gemini 1.0 Ultra模型相似。

自OpenAI在2022年底推出其对话聊天机器人ChatGPT取得了巨大成功以来，谷歌一直在努力展示自己也是前沿生成式人工智能技术的一股力量，该技术可以根据用户提示创建新的文本、图像甚至视频。越来越多的公司一直在尝试这项技术，它可以用于自动化编码、总结报告或创建营销活动等任务。

谷歌在12月发布了其人工智能模型Gemini，共推出了三个版本，使其能够根据具体任务进行定制，并能够在从移动设备到大型数据中心的各种设备上运行。Gemini是谷歌对抗微软公司和OpenAI联盟的回应，有人说后者在包括云客户和开发者在内的当前人工智能热潮中更快地利用了优势。

现在，谷歌正试图用更强大的工具吸引这些用户进入其生态系统。Vinyals表示，Gemini 1.5的训练速度更快、更高效，而且每次被触发时能够处理大量信息。例如，开发者可以使用Gemini 1.5 Pro来查询长达一小时的视频、11小时的音频或超过70万字的文档，这是谷歌称之为“最长上下文窗口”的大规模人工智能模型。谷歌表示，与OpenAI和Anthropic的最新人工智能模型相比，Gemini 1.5能够处理更多的数据。

在一段为记者预先录制的视频演示中，谷歌展示了工程师们如何要求Gemini 1.5 Pro摄取一份402页的阿波罗11号登月任务的PDF成绩单，然后要求其找到显示“三个有趣时刻”的引用语。人工智能模型的一个答案指出，在阿波罗11号任务成绩单的第五个小时，宇航员迈克尔·柯林斯对任务控制中心说：“如果我们回答你晚了，那是因为我们在吃三明治。”

在另一段预先录制的演示中，谷歌工程师要求Gemini 1.5 Pro找到一部44分钟的巴斯特·基顿电影中的一个特定场景，并提供了他们记得的场景的草图。Gemini成功地找到了这个场景，并指出它出现在视频的大约15分钟处。

谷歌警告说，然而，像所有生成模型一样，响应并不总是完美的。 Gemini 1.5 Pro 有时仍然容易产生幻觉，有时运行缓慢，并不总是理解用户的意图，迫使他们以不同的方式提出问题，然后模型才能给出正确的回应。Vinyals说公司正在“努力优化” Gemini 1.5 的性能，使其更快，并且它“仍处于实验阶段和研究阶段”。

该公司表示，开发人员可以使用谷歌的 AI Studio 探索 Gemini 1.5 Pro，而一些云客户可以在其企业平台的私人预览中访问这个AI模型，Vertex AI。谷歌还表示，周四将扩大对其大规模 Gemini 1.0 Ultra 的访问权限，向更多全球客户开放该模型在 Vertex AI 上的使用。

Nvidia Corp.，这家人工智能支出热潮中心的芯片制造商，披露了对Arm Holdings Plc、SoundHound AI Inc.和生物技术公司Recursion Pharmaceuticals Inc.的投资。

Nvidia在周三向美国证券交易委员会提交的13F表格中包含了这些信息，让人们一窥这家备受关注公司的投资策略。它与Arm有着历史，Nvidia曾试图在2020年以400亿美元收购Arm。但那笔交易最终在监管压力下破裂，Nvidia在2022年2月放弃了。随着纽约交易的展开，Arm的股价周四上涨了2.9%。