你好,再见,语音识别 - 彭博社
bloomberg
科技与您播客 |
---|
回到充满活力的1990年代,许多科技行业内外的人们相信他们很快就能通过与计算机对话来控制它们。当然,这从未发生,但当炒作消退时,研究工作仍在继续,并取得了重大进展。语音现在可能在个人电脑上迎来复苏,尤其是在手持设备上。
我最近在IBM(IBM)位于纽约州约克镇的托马斯·J·沃森研究中心度过了一天,了解语音识别、计算机合成语音和自动翻译的进展。自1990年代中期以来,语音识别程序帮助了相对较小的无法使用键盘的个人电脑用户。您仍然可以购买几种版本的IBM ViaVoice,价格约为75美元,或Nuance Communications的Dragon NaturallySpeaking,价格从150美元起,但基于个人电脑的语音识别从未超越其小众地位。这是因为达到计算机识别您所说的95%的水平需要大量的练习——这意味着每20个单词中就有一个错误。对于大多数人来说,打字要高效得多。
呼叫中心的语音识别则是另一回事。许多呼叫中心已经用更友好的语音识别系统取代了那些可怕的“按1选择英语”的自动响应系统。这表明,一项技术不必完美才能让客户满意,只需比其替代品更不令人烦恼即可。真正的进展在于合成响应的质量。在我在沃森听到的最佳样本中,网络声音几乎可以被误认为是真正的人类。
寻找语音技术将变得 在汽车中更加普遍,除了汽车本身以外的所有操作都可以实现免提,这确实是一个安全的优势。我最喜欢的系统是在 Acura TL 中,驾驶员可以通过语音控制导航、气候控制和音频系统,以及蓝牙手机。现在大多数豪华车都有某种语音控制系统,这应该在未来几年迅速进入大众市场。
随着计算机科学家找到软件理解语言某些含义的方法,语音识别变得更加准确,从而能够将单个单词放入上下文中。然而,这种理解正在被扩展,尽管并非没有困难,从简单的识别到实时翻译。一种方法是医疗翻译系统,在我看到的原型中,它允许说中文的患者与说英语的医生详细讨论症状和治疗方案。翻译成英语的内容,无论是口头还是书面,虽然有些生硬,但很容易理解。
鉴于人类翻译者的稀缺,快速机器翻译在学术界和工业界都是一个热门话题。沃森研究人员展示了一个演示,实时翻译来自外语电视的信号(在这种情况下是来自半岛电视台)。这比医疗翻译要困难得多,因为主题内容没有限制,语法比“哪里疼?”复杂得多。输出的质量刚好足以让你了解正在说什么,并可以用来确定广播中哪些部分值得人类翻译者的关注。
虽然听写不太可能成为在个人电脑上输入文本的主要方法(键盘的工作效果实在太好,无法被取代),但翻译等应用程序可能会在笔记本电脑和台式机上大大推动语音技术的发展。此外,识别软件变得越来越高效,手持设备的处理能力也在不断提升。这种结合应该很快就能使在你的Palm(PALM )或BlackBerry(RIMM )上进行识别变得实用,而数据输入仍然是一个挑战。
语音技术在很长一段时间内一直处于低调状态,承诺的功能往往未能兑现。这一波新工具可能会使设备更易于使用,并提高用户的生产力。
有关过去的专栏和仅在线的评论,请访问Tech Maven,网址为www.businessweek.com/technology/wildstrom.htm
作者 斯蒂芬·H·怀尔德斯特罗姆