B站的“生草翻译”,关AI什么事?_风闻
果壳硬科技-果壳旗下硬科技内容品牌2021-01-12 18:59
“特朗普(女性)长大了,我在妓院里看到了她。”
——《长恨歌》
难以置信这是《长恨歌》?
生草翻译是网友们基于谷歌翻译、百度翻译等翻译器创造的一种恶搞内容的生产模式。开篇的句子即是生草翻译的名场面之一,它的原句其实是《长恨歌》中的“杨家有女初长成,养在深闺人不知”。
类似的名场面其实还有很多:
奥特曼里的“怪兽暴君”,被翻译成“超级愚蠢的克”;李白的“将进酒,杯莫停”,成了“进入酒吧,请不要停下来”;《狂人日记》中的“他们会吃人,就未必不会吃我”变成了“不要吃人,等我,一起吃”等等。
好好的翻译器,怎么就被一众UP主玩成了生草翻译机,这背后是有神秘的蓝光影响了世界,还是说现阶段的翻译AI本就过于智障,所以活该被玩坏?
这一切还要从生草翻译器说起。
Danny丨作者
一萌、普通酱丨编辑
放大灯团队丨策划
当人类“虐待”AI
首先来了解一下:什么是生草翻译器?
网友口中的“生草翻译器”并不是一个专门的软件,而是一套制作流程。在这套流程操作下,一切翻译器都可以用来“生草”。
生草,有时也叫“草生”,通常表达超好笑、笑死我了的意思。这个词源于日语“草生える”,在日本的弹幕文化中,常用日语“笑”的首字母“w”表示好笑,而一排w的样子像极了草,就有了用“草生える”(长草了)表达好笑的说法。
小声:其实这个说法跟中文互联网的“233333”“hhhhhh”差不多。
方法其实很简单。比如,打开任何一个翻译工具,将歌词或文字依照中、英、日、韩、法的顺序循环翻译20次,最后翻回中文即可。
听起来似乎没什么新奇?但生草机这翻译20次的魔性洗礼,最终让一篇篇经典的小说、散文乃至古诗词,变成了B站上语序生硬、措辞荒诞,但是却又有一种莫名故事感的爆款生草翻译视频。
国内“生草翻译视频”的头部制作者,是在B站拥有38.6万粉丝的“鹰目大人”,代表作为“谷歌翻译20次鲁迅《狂人日记》中的经典‘吃人’片段”。
鹰目大人B站截图
通过生草翻译机,鹰目大人将白话小说《狂人日记》硬生生加工成了一篇鬼畜超现实散文,魔幻场面到处可见。该视频目前在B站上有302万的播放量和12.1万的点赞。
但经放大灯团队测试发现,**同样是把《狂人日记》丢进谷歌翻译中,如果仅仅是进行中英文之间的反复互译,不论重复多少次,其结果都不会较大的变化。**甚至对于一些中文名篇,谷歌翻译还能做到中英文的严格对译,每次的结果都一字不差。
那么,好端端的谷歌翻译,怎么就变成了神奇的生草翻译器?UP主们有什么特别的技巧吗?
一个重要诀窍是:要选择AI翻译更易出错的小语种。
“翻译软件缺乏中小语种语料库。”一位不具名的专家告诉放大灯团队,当前常见的翻译系统多基于大数据进行训练,数据量越大、质量越高,训练的翻译系统越好。
小语种语料为啥匮乏?还是因为钱。
一个事实是,目前市场主流需求集中于中英互译。“我们C端用户90%的需求都是中英互译。”腾讯翻译君商务总监周丹介绍称,根据腾讯翻译君过往的服务情况,英日韩法四种语言和中文之间的互译,加起来已经占到了整个机器翻译C端市场的97%,其他小语种的市场十分有限。
更大的市场才能获得更高的关注度和人力投入。小语种市场小,研究投入就少。据相关专家介绍,翻译AI目前接触到的中英互译训练数据通常可以达到数亿、甚至数十亿规模。而小语种翻译面临严重的数据匮乏,通常可能仅有数万条甚至更少的训练数据。
低资源翻译是全球全行业长期面临的难题,也是国际研究的前沿热点。但是,低资源翻译并不特指小语种。一篇文言文的英文翻译,也可以认为是低资源翻译。面对文言文翻译,AI交出的答卷也是一塌糊涂。
《蜀道难》变身“串联并联电路图” 图丨UP主“悠然晓冰”
不过,尽管语料资源多寡有异,但翻译原理都类似。
当前机器翻译行业的主流技术,是基于神经网络的、端到端的翻译。其典型结构包含一个编码器和一个解码器。收到输入文本后,编码器首先“通读”一遍,然后对整个输入文本进行抽象和向量化表示,使得其成为AI能“理解”的模样,然后AI翻译模型再通过解码器,把要表达的意思和语料库中的数据对应,在此基础上,逐个产生目标单词,最终输出译文。
AI翻译流程示意图丨放大灯团队制图
**在此过程中,一切在互联网上不能爬取到充足语料的文本,都属于低资源范畴。**就像《狂人日记》《长恨歌》这种,连英文版都不易得,更别提小语种译本了。
巧妇难为无米之炊,“没有样例语料”就是翻译AI的死穴。让AI翻译连人类翻译家都怵的内容,UP主们简直是在玩赛博虐待。
此外,除了在一款软件中的反复翻译外,鹰目大人等UP主还会在谷歌、百度等多款翻译软件中轮流翻译一段文字,然后生草。
B站上的“翻译20次”
这合理吗?
人们可能觉得两个不同的AI翻译模型对译,就像两个人对话一样稀松平常,然而事实并非如此,不同算法模型之间的差异,导致AI之间并不能互相“理解”。
“这种差异远比人们想象的要大。”腾讯智能平台产品部自然语言研究中心总经理李沐博士告诉放大灯团队,“两个AI就像是完全不同的两个物种。”
AI的悲欢并不相通。
“生草”背后的技术误解:爱加戏的AI
这些视频能火爆,不仅仅是因为生草翻译后文本的失真,更主要的是其结果总能有一种莫名的故事感和流行元素混入,在我们再熟悉不过的文章和翻译结果之间,制造奇怪的……因果关系,或者说一种陌生感。
令人挠头的奇怪因果,图丨UP主“鹰目大人”
这些莫名其妙的逻辑从哪来?
UP主们对文本内容的人为修饰不可忽视。为了增强戏剧性,UP主们会对生草机产出的文本加以修改,像鹰目大人,就在近期作品的简介中,都特别注明“文本略微修改”。
除此之外,还有很多名场面的诞生,则是AI在翻译过程中自行加戏的结果。
“AI没有‘上下文’概念。”一位从事NLP机器翻译的专家告诉放大灯团队,**目前的机器翻译没办法像人一样,去考虑一句话的语境、乃至上下文背后的背景知识。**AI只会根据语料库和算法模型,去翻译一段文字。
在此过程中,为了优化表达,AI会抓取近期网络频繁出现的对译内容,并且优先使用。
赶时髦的一面是与时俱进,另一面是制造大量误译。比如一句英文中如果有“President”这个词,会因训练模型的语料库中双语句对中的实际表达,而被AI翻译成“特朗普”,而不是“总统”。
乱入朱自清《春》生草翻译视频的特朗普 UP主“鹰目大人”
一些不相干的人名、物品名就这样奇迹般地出现在生草翻译的结果中。
不过,即便AI没有上下文概念,也不会像查字典一样逐词翻译凑句子。目前AI翻译都以句子为基本单位进行翻译。
“普遍采取逐句翻译主要是因为算力原因。”李沐博士告诉放大灯团队,一句话越长,编码和解码时所需要的算力就越大,随着长度的增加,所需算力的增长,也不是“1+1那么简单”,而是一种“指数级”增长。
事实上,目前在算法模型上以通篇文章为单位进行翻译的,即使是在学术领域,也是比较前沿的待探索领域。
那这又和句子中诡异的逻辑感有什么关系?
很简单,由于流畅度是评价机器翻译质量的重要指标之一,这使得AI在以句为单位进行翻译时,会考虑每句话内部的流畅度。
**当AI发现它面对的句子支离破碎时,便会主动“加戏”,使其符合人类表达习惯的句子。**一些尽管流畅但诡异魔幻表达,也就由此诞生。
AI的赛博朋克,图丨UP主“鹰目大人”
对于本就不那么聪明的AI来说,生草翻译的使用条件实在过于极端。**“****翻译过程中任何一个环节的微小错误,经过多次传递,都会被迭加放大。”**相关专家对放大灯团队表示,多轮翻译带来的生草,可以简单理解为多个系统或者同一个系统的多次串联。
至于这些句子有多骇人听闻,并不重要,反正AI也看不懂。同样的,很多人也不求甚解AI为什么写出了这种话——他们只想证明AI大概是个傻子。
但AI并不在乎。它还是在网络中默默记录和学习着人类的语言,以完成它被设定的本职工作:翻译。
你尽管生草,翻译软件该用还得用
生草,并不能成为否定机器翻译水平的理由。
尽管AI不擅长低频语料翻译,不懂上下文,还爱加戏,但是它依旧是个好AI。阿里、腾讯、网易等多家深耕翻译领域的专家告诉放大灯团队,AI翻译目前在B端的商业化市场十分可观。
其主要变现渠道包括:
在一些对外垂直领域市场的应用。比如阿里巴巴国际站为商家提供商品信息的翻译。
私有云的部署。比如给政府企业部署加密的翻译网络。
公有云的API接入。比如手机系统中自带的翻译。
打包到一个全能AI中去。比如各类虚拟助手。
在此背景下,B端企业级用户显然不会因为几个视频,就否定机器翻译的价值。那么,C端普通用户呢?
普通用户看完生草翻译视频后,要说没一点想法也不太可能,但机器翻译在语料丰富的领域,如人们经常使用且跟熟悉的时事新闻领域,往往还都有着不错的表现。无论是人类翻译还是机器翻译,主要目的都是交流,而不是对一个句子进行来回翻译。因此在有更好的、省时省力的低成本替代方案出现前,机器翻译该用还得用。
毕竟也不花钱。
而以鹰目大人为代表的生草翻译视频UP主,为了追求眼球效果,一味选择低语料素材不说,光是其反复翻译的行为,就不具备参考价值,只能在视频网站博君一哂。
事实上,知乎上已经开始出现了诸如“如何看待b站UP主‘鹰目大人’因制作‘低创视频’而火?”等,关于生草翻译视频小范围火爆的反思性提问,来反思这种并没有什么技术含量的所谓“创作”。
知乎上的相关问题
另外,值得指出的是,类似鹰目大人这样,通过翻译软件进行商业“创作”的行为,目前其实处于版权法律的灰色地带。
“机器翻译出来的文本,迄今为止还没有人去声称过版权,但这并不意味着,以后不会有某家公司对其生成的内容声明版权。”一位不具名的行业人士表示。
就让娱乐归娱乐,翻译归翻译吧。