表意文字在AI图像中生成可读文本-彭博社

Rachel Metz

2023-10-03

一家新的人工智能初创公司正在挑战更成熟的竞争对手，通过解决一个棘手的问题：让用户创建一幅实际可读的带有文字的图像。

与同行一样，Ideogram可以在几秒钟内从简短的文本提示中生成令人惊讶逼真的图像。但总部位于多伦多的初创公司Ideogram在8月份推出，还可以进一步渲染这些图像中的文字。它可以生成一幅示威者举着一块可读的牌子的图像，或者一只穿着T恤的可爱猫，上面清晰地写着“问我关于我的人工智能初创公司”。解决看似是一个小众技术问题对整个行业有着广泛的影响。当要求在图片中呈现文字时，其他流行的AI图像生成器，如Midjourney、OpenAI的Dall-E 2和Stability AI的Stable Diffusion经常显示出无意义的内容。

从同一个提示“一只穿着T恤，上面写着‘问我关于我的人工智能初创公司’的可爱小猫的照片”生成的最好看的AI图像。从左上角开始顺时针：Ideogram、OpenAI的DALL-E 2、Midjourney和Stability AI的Stable Diffusion XL。Ideogram的推出有可能动摇日益拥挤的AI图像生成器领域，也指向了这一快速改进技术的下一个阶段。OpenAI即将在10月推出的Dall-E新版本，目前可以通过微软的必应图像创建器获得，看起来同样有能力。OpenAI发布了一张图像，显示一个没有果核的牛油果患者对着一只勺子治疗师说：“我只是觉得内心空虚。” Stability AI也可以用名为DeepFloyd IF的软件在图像中表示文字，但大多数人无法轻松获得。

Ideogram的团队包括几位前谷歌员工，他们帮助创建了这家科技巨头的图像生成服务，Imagen。这家初创公司在一轮由安德森·霍洛维茨和Index Ventures领投的种子轮融资中筹集了1650万美元，不仅专注于生成带有文本的图像。Ideogram还试图让任何人都能更轻松地使用人工智能来创建引人入胜的图像，而无需输入那种产生“提示工程”的复杂描述。

“我们的目标是让人们能够尽可能轻松和简单地参与创意表达，”首席执行官兼联合创始人Mohammad Norouzi告诉彭博新闻。Norouzi表示自推出以来已有110万人注册了这项免费服务，迄今已生成了8000多万张图像（新用户可能需要加入等候名单）。用户在Ideogram的网站上输入软件的命令，服务将以一次生成四张图像的方式进行响应。

凭借其功能，Ideogram最终可能会与营销人员和创意专业人士竞争业务。然而，通过生成文本并使AI更容易生成各种图片，这家初创公司也面临着被用于传播错误信息的风险，进一步破坏了在线图片的可信度。

仅需一刹那时间，就能生成一个相当逼真的阿尔伯特·爱因斯坦举着一块写着“问我任何事”的牌子的描绘 —— 类似于人们在Reddit上进行问答会话时发布作为身份证明的图像。很容易想象对一位活跃的公众人物做同样的事情。

“我认为担心这个是非常合理的，” Hugging Face 公司的研究科学家 Nathan Lambert 说道，他经常定期撰写关于人工智能研究的文章。例如，Midjourney 曾经被证明很容易被欺骗，即使添加了一些防范措施也无法阻止其制造错误信息。

Norouzi 表示，Ideogram 的潜在恶意行为是一个“严重关切”。他不希望其人工智能被用于传播与选举有关的虚假信息，但与科技行业的许多人一样，他也认为言论自由很重要。Ideogram 的小团队试图通过自动过滤其生成的某些图片（被软件认为不适当的图片）来阻止冒犯性内容的传播，而是展示一张一只拿着标牌的猫，上面写着“可能不安全”。

所有用户使用 Ideogram 创建的图片以及他们提交的提示目前都是公开的。公司希望这种选择能够帮助建立产品周围的社区，并鼓励体面的行为。然而，即使没有搜索功能，也不难找到那些在家庭友好和不适宜家庭观看之间摇摆的图片，比如女名人涂满“身体彩绘”的描绘。

Ideogram 用户主要似乎是利用其生成文本的能力进行创意活动。有海报和T 恤设计，节日问候语，仿针织和塔罗牌。需求非常高，用户经常被迫在生成图片之间等待 30 秒或更长时间，因为服务难以跟上（这一问题已经激起一些用户创作出示威者举着标牌的图片，上面写着诸如“你需要更多服务器。”

“他们已经找到了一种方法，可以真正释放出那些从未认为自己是艺术家的人的无限、高质量的创造力，”在风险投资公司Andreessen Horowitz投资Ideogram之前加入该公司的合伙人Anjney Midha说。

生产包含可读文本的清晰图像长期以来一直是其他流行的AI图像生成器面临的挑战。加州理工学院的教授Anima Anandkumar将其解释为“垃圾进，垃圾出”的问题——这个短语经常用来指代训练数据不好往往会产生糟糕的结果。

在一个生成图像系统能够对书面提示做出回应之前，它必须被喂入大量的图像——包括大量不同对象的图片——以及相应的书面说明。Anandkumar指出，这些图片中可能包含苹果或花朵的图片，这些图片可能以不同的光线和角度拍摄，以帮助AI确定这些概念。但是这些图片中的文本可能质量不一，不完整或光线不好，并且通常在用于开发这些工具的图片中文本并不是很多。这导致对文本是什么的概念理解不足。

“这可以通过获取更好的数据——获取以文本为中心的数据来解决，”Anandkumar说。

Norouzi没有详细解释Ideogram是如何能够比竞争对手更好地生成文本的。总的来说，Norouzi指出，能够接受书面提示并输出文本或图像的生成AI工具随着模型规模和训练数据的增加而改善。他说，Ideogram指示其模型注意诸如引号之类的细节，这些细节包含在提示中。Norouzi没有详细说明其训练数据的来源，但表示公司尝试包含带有文本的图像，并拥有自己的内部数据集。

“我们的模型试图在其他对象的背景下创建文本，并找出自己的排版方式 — 如何将文本适应画布的限制，” Norouzi 说。

这可以从用户使用 Ideogram 制作的一些图片中看到，从一个内部写着“great idea”的荧光灯泡到一个蛋糕上覆盖着蜡烛，侧面写着“Happy birthday Andres” 的糖霜字体。目前，这些图片中的文本主要限于英语，但 Norouzi 希望随着时间推移能够生成多种语言和字母表的文本。

在公司的 Discord 频道上，Norouzi 经常与用户聊天，在那里他表示，这家初创公司打算让人们私下生成图片。其文本功能也可能最终帮助公司从希望使用它来设计标志和其他营销产品的企业那里赚钱。

Norouzi 说，这家初创公司计划在某个时候推出付费服务，让人们更快地使用其服务 — 也许有助于它承担构建和运营人工智能的高昂成本。

“这不是我们想要快速做的事情。我们刚刚开始，”Norouzi 说。“但由于人工智能领域的经济学原理，这是不可避免的。”