赶着使用生成式人工智能推动公司整理数据 - 华尔街日报
Belle Lin
企业技术主管面临着压力,要确保公司的数据存储、过滤和保护,以便与人工智能一起使用。照片: 程一华/彭博社对ChatGPT制造商OpenAI开发的大型语言模型等技术的兴趣,再次引起了对数据管理的关注——这给企业技术主管增加了更多压力,要确保公司的数据存储、过滤和保护,以便与人工智能一起使用。
“任何公司,无论其所在的行业如何,都真的需要在数据管理方面建立良好的结构和治理机制,”金融科技公司杰克·亨利的首席信息官罗布·泽林卡说。“现在引入大型语言模型,这变得更加迫切。”
加剧紧迫性的是,已经建立了强大数据基础设施的公司可以更快地利用大型语言模型进行定制业务用途,比如管理合同、提供客户服务和编写代码。为了赶超竞争对手,商业技术领导者面临着更大的需求,要提供能够帮助实现生成式人工智能应用的数据框架。
一些首席信息官已经求助于内部数据专家和专门设置数据基础设施并管理成本的外部供应商。数据,包括公司的交易记录、分析、代码和其他类型的专有信息,被认为是任何人工智能模型的基础,因为它用于教导这些算法从中获取模式并进行预测。
赛诺斯健康公司的首席信息和数字官Larry Pickett负责帮助制定企业数据管理战略,重点是“管理、清理和组织整个业务范围内的所有数据。”首先,这家生物制药服务公司将来自其运营系统(如企业资源规划和临床试验信息)的数据集成到了一个数据湖中,或者说是一个数字存储库,Pickett说。
赛诺斯健康公司随后花了大约18个月的时间准备其数据存储库用于培训和构建AI模型,Pickett说,指派了一组数据科学家和业务领域专家来构建“特征存储”,或者所谓的可重复使用的机器学习构建块的集中存储库。
总部位于北卡罗来纳州莫里斯维尔的公司还会删除不再使用的数据,仅保留用于AI、仪表板和其他应用的数据。“如果不及时处理,云成本肯定会激增,数据存储成本也会上升,”Pickett说。
训练大型语言模型需要随时访问大量数据,其存储、处理和保护可能成本高昂。像Granica这样的供应商,这是一家成立于2019年的总部位于加利福尼亚州山景城的初创公司,刚刚退出隐身模式,是一批旨在帮助公司利用生成式AI的初创公司之一,提供现成服务,或者降低成本和提供网络安全保证。
Granica已经开发了一种压缩存储在Amazon.com和Google的云平台中的数据的方法,据称可以减少云对象存储的大小和成本,这些存储大量非结构化数据,无法适应传统的列和行。这家初创公司宣布,它已经从风险投资公司新企业协会和贝恩资本风险投资公司共筹集了总额4500万美元。
为了保护其AI训练数据,提供电子邮件、日历和联系人API的Nylas正在测试Granica的Screen服务,该服务可以在压缩过程中删除敏感的公司数据和个人可识别信息。
对于一个可以被训练成像特定用户一样写邮件的生成式AI工具来说,这是非常有用的,Nylas的工程副总裁John Jung说道。“你希望它被清洗掉[个人可识别信息],这样你就不会潜在地让模型产生幻觉,并泄露敏感信息,”他提到了生成式AI程序产生错误结果时的情况。
分析师们也预计会有更多的初创公司专注于帮助公司筛选和控制他们的数据以供生成式AI使用。
对于一些首席信息官来说,数据质量和控制成本一样重要,换句话说,确保他们的数据格式正确、组织良好且适用于训练AI模型。“最重要的不仅仅是收集数据,还要清洗、分类数据,并确保数据处于可用格式,”Zelinka说道。“否则你只是在付费存储毫无意义的数据。”
Jack Henry目前专注于数据治理,Zelinka说。他正在与公司的首席风险官合作,定义谁可以访问公司的数据以及数据如何被使用,并与公司的首席技术官合作,后者正在研究如何将生成式AI嵌入其产品和平台。
大多数公司都关注他们的数据的“质量、上下文和隐私”,用于大型语言模型的使用,IT研究和咨询公司Gartner的杰出副总裁分析师Erick Brethenoux说。他说,这些问题长期存在,但现在受到对生成式AI的兴趣的加速影响。
Syneos Health目前正在准备发布他们所称之为“Protocol Genius”工具,这是一个基于OpenAI的大型语言模型和ChatGPT构建的聊天机器人,可以搜索超过40万个临床方案,Pickett说。商业兴趣推动了创新的步伐,他说,“因为我们确信其他人也会这样做。”
写信给Belle Lin,邮箱:[email protected]