使用垃圾邮件拦截器来针对艾滋病毒,也是 - 彭博社
bloomberg
削价止痛药!尼日利亚的未认领财富!!我们大多数人很快就能识别这样的电子邮件消息为垃圾邮件。但是你如何将这种技能教给机器呢?大卫·赫克曼需要知道。在本世纪初,赫克曼在微软研究院领导一个反垃圾邮件团队。为了构建他们的工具,团队成员仔细绘制了数千个信号,以判断一条消息是否可能是垃圾邮件。例如,包含“伟哥”的电子邮件很可能是垃圾邮件——但事情很快变得复杂起来。
如果垃圾邮件发送者看到“伟哥”消息被删除,他们就会改用V1agra或Vi agra。几乎就像垃圾邮件像生物一样在变异。
这种垃圾邮件与生物学之间的类比引起了赫克曼的共鸣,他不仅是一名医生,还是计算机科学的博士。他很快意识到,他的反垃圾邮件工具可以远远超出垃圾电子邮件的范围,进入生命科学的领域。2003年,他让华盛顿州雷德蒙德的同事们感到惊讶,因为他将反垃圾邮件技术重新聚焦于世界上最致命、变异最快的难题之一:HIV,即导致艾滋病的病毒。
赫克曼正在深入医学领域——并带着微软(MSFT )一起前行。当他向比尔·盖茨提出他的计划时,这位公司主席“非常兴奋,”赫克曼说。盖茨在他的慈善工作中对HIV非常了解,便将赫克曼与麻省总医院、华盛顿大学及其他地方的艾滋病研究人员联系起来。
自那时以来,50岁的赫克曼和两位同事在微软创建了自己的生物学领域,他们开发检测HIV的软件。这些是用于识别感染细胞并将病毒突变与个体基因特征相关联的研究工具。赫克曼的团队通过320台并行运行的计算机集群处理大量数据。得益于更智能的算法和更强大的机器,他们的数据处理速度比一年前快了480倍。今年6月,团队在互联网上免费发布了第一批工具。
这是巨头要征服的新行业吗?并不完全是。赫克曼在雷德蒙德的领域仅仅是全球艾滋病研究努力中的一个小节点,这一努力主要以合作为特征。“微软团队有不同的视角和良好的统计背景,”洛斯阿拉莫斯国家实验室的HIV研究员贝特·科尔伯说。他们面临的关键目标是病毒本身,这比微软的任何企业对手都要狡猾。虽然赫克曼对他的工具能够在三年内导致可在人类身上测试的疫苗抱有很高的期望,但他的研究并不在微软的商业计划之内。“这与微软没有任何关系,”他说,“除了我们可以提供帮助。”从公司的角度来看,投资于HIV研究的金额只是一个小数额——在70亿美元的研发预算中,仅有几百万美元。潜在的回报将是为艾滋病研究的圣杯——成功的疫苗做出贡献。在最佳情况下,制药公司将把这种研究提炼成针对性的疫苗品种,从而帮助全球数百万人抵御这一灾难。商业回报呢?好吧,如果帮助征服一种瘟疫不能证明努力的价值——并提升微软的形象——那么也许一种病毒嗅探工具可以将垃圾邮件压制到极限。
如果说垃圾邮件过滤器最终会研究核酸听起来很奇怪,那就不应该了。研究正变得越来越定量。如今,几乎所有事物,从原子和细胞开始,都以数据来描述。当工作涉及在大量数据中寻找统计关系时,会发生两件事:首先,数学家和计算机科学家获得了影响力,这意味着像微软和IBM这样的强大公司在研究中的角色不断扩大(IBM )。其次,随着研究人员发现共同的模式,他们开始在不同学科之间跳跃。
计算概率
对抗HIV的斗争吸引了大量这样的跳跃者。例如,洛斯阿拉莫斯的几位科学家正在教机器识别卫星图像中的模式。这使他们与HIV相关联,他们正在构建类似于微软的工具。而微软的800名研究人员中,许多人在各个学科之间交叉。一位名叫迈克尔·科恩的研究人员,最初是开发软件将照片拼接成全景。现在,他正在将数千个脑部扫描拼接成科学家的3D模型。
对于赫克曼来说,垃圾邮件和HIV之间的联系归结为数学。他通过研究它们不断变化的特征之间的统计关系来分析这两种灾害。考虑一下“伟哥”这个词。有时它出现在合法的电子邮件中。通常它出现在垃圾邮件中。如果研究人员研究成千上万封电子邮件,他们可以计算出包含该词的电子邮件中有多少比例是垃圾邮件。这是一个线索。但垃圾邮件过滤机器需要知道的不止这些。电子邮件中的哪些其他特征表明它是垃圾邮件?某些字体是否特别容易被视为垃圾邮件?电子邮件地址或标点符号类型呢?关键是找出哪些特征组合可以将电子邮件识别为垃圾邮件。每个决策可能涉及数千个变量和数百万种不同的计算。
从赫克曼的角度来看,HIV就像一个狡猾的垃圾邮件发送者。在攻击一个细胞后,它注入自己的遗传物质,并继续(就像一个劫持了未保护计算机的垃圾邮件发送者)制造成千上万的病毒拷贝。它是一个臭名昭著的粗心复印机,但这增加了它的活力。每一个错误都会将突变病毒释放到系统中。许多病毒失败了。然而,有些病毒存活下来——并且抵抗药物。
HIV研究人员面临的一个挑战是找到指向感染细胞的变量。通常,第一线索——赫克曼在他的垃圾邮件研究中发现的字体和单词的变化的细胞等价物——是位于每个细胞顶部的蛋白质片段。这些蛋白质向路过的抗体军队传达细胞内部发生的事情。多年来,研究人员一直在努力找出指向HIV感染细胞的蛋白质组合。一旦他们找到,下一步就是将这些蛋白质片段包装成疫苗。理论上,这将使一个人的免疫系统认识到一整群不受欢迎的细胞,以便能够识别并攻击这些细胞。
问题是什么?复杂性和突变。HIV感染的细胞通常佩戴着免疫系统尚未学会识别的突变名称牌。从这个意义上说,疫苗就像故障的垃圾邮件过滤器,能够阻止推广“伟哥”的电子邮件,而让“V1agra”的广告轻松通过。这使得一些研究人员感到无奈。“我们已经在艾滋病疫苗上投入了数十亿,结果却一无所获,”西雅图系统生物学研究所的联合创始人勒罗伊·胡德感叹道。
但是赫克曼很乐观。他认为,通过提升计算能力并融合成千上万的新变量——包括每位患者令人眼花缭乱的基因差异——研究人员正在取得进展。他说,一个关键是绘制突变模式并将其纳入医学。这些突变,他说,似乎根据一个人的免疫系统而有所不同。如果研究人员能够找到这些模式,他们就会更接近于制造有效的疫苗。然而,如果他们得出结论认为这些突变完全是随机的,那么“我们就麻烦大了,”赫克曼说。
追寻仍在继续。没有人指望微软会带来奇迹。但在一个急需答案的研究社区中,雷德蒙德那些计算机运转的嗡嗡声是一个受欢迎的声音。
作者:斯蒂芬·贝克和杰伊·格林