谷歌在葡萄牙语中识别“种族主义”的算法是什么？ - 彭博社

bloomberg

2006-09-05

谷歌已同意向巴西当局提供关于鼓励种族主义、恐同和恋童癖的用户数据。（例如 Battelle）当然，关于隐私和言论自由有很多严肃的问题。但我想知道谷歌究竟是如何定位仇恨言论的。

这不能仅仅是寻找仇恨词汇的问题。如果是这样，对《哈克贝里·芬》进行的文学分析可能会被纳入其中。还有很多更先进的方法，可以分析文本中的句法和动词组合。这需要大量的计算能力，并且会产生很多误报。

像 Umbria Inc 这样的博客分析公司使用人工读者来挑选他们所寻找的例子。然后，他们将这些作为模板来“教”机器如何找到更多相同的内容。一些反垃圾邮件公司也使用类似的方法。正如我们所知，他们并不总是能做到正确。无论技术细节如何，我敢打赌，某个在Orkut上发布低俗笑话的巴西人，或者可能是他八岁女儿生日派对的照片，将会被谷歌的计算机识别为犯罪嫌疑人。