指纹究竟是不是独特的?本科生顶刊发文遭法医界质疑_风闻
返朴-返朴官方账号-关注返朴(ID:fanpu2019),阅读更多!昨天 11:05
此刻阅读这段文字的你,或许在点亮手机屏幕时,就已经用到了指纹识别。哲学家莱布尼茨曾说,世界上没有两片完全相同的叶子。指纹识别基于同样的信念:每个人的指纹都独一无二、与众不同;即使对来自同一人不同手指的指纹,也是如此。而现在,一名本科生带领团队在Science Advances发表论文,试图用AI挖掘它们之间的相似之处。
撰文 | 周舒义
1
缘起
“你觉得,指纹是独一无二的吗?”
三年前在和教授的一次闲聊中,Gabe Guo被这样问道。彼时他刚被哥伦比亚大学录取,正憧憬着自己的大学生活。他没有料到,正是这次闲聊,为自己后续三年的研究重心打下了伏笔。
现在, Gabe Guo试图对前述问题给出否定的回答。1月12日,计算机科学专业本科在读的他领导团队在Science Advances发表论文,证明人工智能可以判断两枚来自不同手指的指纹是否来自同一个人,揭示了同一人不同手指的指纹之间具有惊人的相似性。
乍一看,新结论似乎打破了我们对指纹的固有印象。毕竟,在流行观念中,往往更强调指纹的独一无二、不可重复,即使对来自同一人不同手指的指纹,也是如此。发轫于19世纪的现代指纹识别技术同样基于上述信念。一本出版于1921年的大学教材这样写道:
“有一点我们深信不疑,那就是:没有两枚指纹是相同的。我们可以从许多人那里提取成百上千枚指纹,但不会有两枚指纹的每个细节都毫无二致。可能会有两枚、甚至更多的指纹总体看来大致相同,但即便如此,在仔细检查后还是会发现它们之间的巨大差异。”
基于以上性质,指纹识别已成为辨别身份的重要手段。下面是一个直观的例子,可以说明指纹识别的可靠性——即使是外貌看起来极为相似的人,他们的指纹也会千差万别:
来源:Harris Hawthorne Wilder and Bert Wentworth. Personal Identification: Methods for the Identification of Individuals, Living Or Dead.
2
异中之同
黑格尔曾说:“假如一个人能够看出当前显而易见的差别,譬如,能区别一支笔与一头骆驼,我们不会说这个人有了不起的聪明。同样,另一方面,一个人能比较两个近似的东西,如橡树与槐树,或寺院与教堂,而知其相似,我们也不能说他有很高的比较能力。我们所要求的,是要能看出异中之同和同中之异。”
Gabe Guo决定找出指纹的异中之同。他带领研究团队,通过训练孪生神经网络,来比较两个指纹样本间的相似度。他们输入指纹样本,通过卷积神经网络将其转化为嵌入高维空间的表示向量,使用向量间的距离来表征样本间的差异。
模型首先使用来自MSU的PrintsGAN训练集进行预训练,这是一个由生成式对抗网络创建的人工数据集,其中包含来自35000个虚构身份的525000张合成指纹图像;接着使用多个真人数据集进行微调,其中包含来自927人的53315个指纹样本;最后使用来自133人的7703个指纹进行测试。
在训练过程中,研究人员向模型输入三组图像:一个人的指纹作为“标准答案”(锚示例,anchor,表征向量为a),来自同一人不同手指的指纹作为正例(positive,表征向量为p),来自其他人的指纹作为负例(negative,表征向量为n)。通过梯度下降来最小化三元组损失函数L(a, p, n) = max {d(a, p) − d(a, n) + α, 0} (d表示欧氏距离,α为超参数),从而在向量空间中以锚示例为锚点,“拉近”正例,“推远”负例。
训练结果显示,与不同个体指纹间的向量距离相比,同一个体指纹间的向量距离显著更短,单边t检验(α=10^(-4))P<0.0001。此外,模型“看到”的正例和负例数量相等,也就是说随机判断两枚指纹来自同一个人的正确率为50%,而在测试中神经网络表现出了77%的正确率。这意味着,同一人的不同指纹并非截然不同,而是存在相关性。
3
多次被拒
三年耕耘终于开花结果,论文发表却并非一帆风顺。他们迅速将成果发给了一家知名法医学期刊,等待几个月后,收到的却是冰冷的拒稿信。审稿人和编辑的回复斩钉截铁:“众所周知,指纹是独一无二的。”此后研究团队辗转多家期刊,屡屡碰壁。Gabe Guo没有法医背景,他回忆,“起初在法医学界有很多反对意见。”多数审稿意见认为,训练集太小,不足以质疑指纹的独特性。
研究团队没有放弃,他们扩充训练数据,多次迭代修改论文。“在头两轮修改过程中,他们说众所周知,没有两枚指纹彼此相像。我想这反而有助于改进研究,我们不断输入更多数据,直到最后证据确凿。”
在意识到法医学界持怀疑态度后,团队选择转向综合性期刊,却又碰了钉子。这一次,参与研究的哥伦比亚大学机器人专家Hod Lipson决定发起申诉,“我通常不会置喙编辑的决定,但这项研究太重要了,不容忽视。”他表示,“假设(犯罪)现场A有一组指纹,现场B有另一组指纹,它们来自不同的手指,很难将这两个现场联系起来。但通过这个系统,你就能判断这两组指纹是来自同一个人。”
“如果这些信息能成为关键力量,那么我想悬案可能会柳暗花明,甚至无辜的人可能会被无罪释放。”
Gabe Guo也认为,新发现有助于刑事调查。“最直接的应用是,对于那些犯罪现场遗留指纹和档案记录不同的悬案,它可以提供新线索。另一方面,这不仅有助于抓捕罪犯,实际上也会帮助无辜的人,让他们免于不必要的调查。”论文写道,在某些情况下,藉由新研究建立起来的联系,可将嫌疑人范围从1000人缩小到40人,这将大大提高调查效率。
他们也承认,与同指指纹匹配相比,异指匹配相当困难,新系统准确度仍明显偏低,并不适合在法庭或鉴权场合用作决定性证据。实验还显示,系统存在一定的人群偏倚,某些特定人群会比其他人更易蒙受不白之冤。
虽然准确度不足,但编辑认为,新研究有助于在模棱两可的情况下确定线索的优先顺序。几经波折,这篇论文最终被Science Advances接受发表。
4
质疑
对一篇论文而言,发表不是故事的终点。新研究面世后,遭到了多位业内专家批评。
瑞士洛桑大学法医学教授Christophe Champod表示,使用深度学习技术研究指纹很有趣,但他不认为这项工作有什么新发现。他批评道,“他们的论点是,不同手指间的指纹具有一定相关性,这早在指纹识别研究的起步阶段就已为人所知,当时是人工完成的,多年来一直有据可查。”
Champod所言非虚。在上世纪二、三十年代,就有学者观察到不同手指间的指纹具有相似性。八十年代,有研究对这种相似性进行了因子分析,从中提取出2个独立因子。2005年,学者A.S.Nagy将各手指间指纹的相似性命名为“花纹间影响”(pattern influence),即中间三枚手指(左右手食指、中指和无名指)之间的指纹花纹高度相关。
“在我看来,由于缺乏相关知识,他们的论文有些过于夸张了。我很高兴他们重新发现了一些已知的东西,但从本质上讲,这是大惊小怪。”
对此Gabe Guo回应,他们使用人工智能系统性地量化了不同手指间指纹的相似程度,此类工作前所未有。“我们首次明确指出了这种相似性来自指纹中心的嵴纹走向。此外,我们也是首次尝试匹配同一人不同手指上的指纹,至少是用自动化系统。”
密歇根州立大学的计算机科学家Anil Jain则认为,同一个人不同手指的指纹具有很强的相似性,这并不是什么新发现。因为一个人的指纹和遗传因素相关,所以和其他人的指纹相比,自体指纹相似的可能性自然会更高。
加州大学尔湾分校的犯罪学教授Simon Cole也认为新研究言过其实。“在指纹方面我们并未‘出错’。没有两枚指纹‘完全相同’——这个说法未经证实,但在直观上是正确的。发现指纹相似并不能推翻这种说法,众所周知,不管是否来自同一个人,指纹之间总是相似的。”
对于Lipson提到的,研究用于比对来自犯罪现场和警方记录的异指指纹,Simon Cole表示,这种情况很难发生,因为在采集指纹时,通常会记录所有10根手指的指纹(往往还包括掌纹)。“我不清楚他们认为执法部门在何种情况下会只记录部分指纹,而不是全部。”
以上种种质疑,指向了同一个问题:指纹是否独一无二?要回答这个问题,得从指纹的形成过程说起。
5
图灵斑图
指纹形成背后的数学机制要追溯到一个熟悉的名字——艾伦·图灵(Alan Turing)。他在1952年发表著名论文《形态形成的化学基础》(The chemical basis of morphogenesis),用反应扩散模型成功说明了某些生物体表面复杂斑纹的由来。图灵从数学角度表明,在反应扩散系统中,稳定态会在某些条件下产生空间均匀态失稳(图灵失稳),导致空间平移对称破缺,并自发产生空间定态图纹(图灵斑图)。
不光人类,灵长类动物、甚至考拉都长有指纹。| 来源:Macie Hennenberg, et al. and naturalSCIENCE
以上概念比较拗口,这并不奇怪——毕竟,生物生长发育是个复杂的过程,其中可能有数百种化学物质参与反应。不过,高度简化且抽象的模型仍然对科学直觉大有裨益。图灵先知先觉地写道:“这个模型将是简化和理想化的,因此也将是失真的。对当前知识水平下那些最为重要的特征,我希望能将其保留,并加以讨论。”
追随图灵的脚步,我们来考察最简单的一维系统。不妨假设系统中含有激活剂和抑制剂两种成分,它们之间存在相互作用:激活剂既能促进自身增长,也能促进抑制剂增长;反过来,抑制剂则会抑制激活剂增长。
从均匀初始条件开始,微小涨落导致激活剂和抑制剂的水平出现随机波动,那么总会在某处,激活剂的水平略高于常态(绿色曲线上升)。由于激活剂能促进自身增长,其在该处的水平将进一步上升(正反馈效应)。
随着激活剂水平升高,它也会促进抑制剂增长。(红色曲线上升)
然而,两种成分的扩散系数不同,抑制剂的扩散速度快于激活剂。这导致两个后果:其一,抑制剂快速扩散,向峰两侧涌入,抑制那里的激活剂水平,形成侧抑制区域,这里不会再出现新的峰;其二,峰区域的抑制剂由于扩散而水平下降,这样原来的激活剂浓度峰值就能稳定存在。
在远离峰的地方,抑制剂浓度不足,抑制效应减弱,又会形成新的峰。
峰与峰之间的距离由全局参数(例如抑制剂的扩散系数)决定。整个过程无需外部控制,系统中的各组分彼此之间相互作用,通过局部行为和反馈机制,逐步形成全局有序结构,组成了一个自组织系统。
以上过程的关键在于,系统中的两种反应物质,不仅能相互作用,还能独立扩散。事实上,图灵斑图对应的是非线性反应动力学过程与特殊扩散过程的耦合。这个扩散过程由于两种因子的扩散速度不同会发生失稳,这就是图灵斑图产生的机理。在数学上,图灵斑图可以用无量纲化的反应扩散方程组描述
其中u和ν代表两种反应物质的浓度,c和d是扩散系数,t是时间,f(u, v)和g(u, v)代表反应项。线性稳定性分析可知,图灵斑图的波长λ=(2πPD)^(1/2),其中P为体系在Hopf分岔上的振荡周期,由体系的化学反应机制决定,D是反应物的平均扩散系数。由此可见,图灵斑图的波长取决于系统的内禀性质。
6
万物皆数
将以上讨论推广至二维情形,我们能看到许多似曾相识的纹理:
事实上,从斑马纹到西瓜纹,再到风在沙丘上吹出的皱褶,自然界有数不清的图案都被认为出自图灵机制。在2021年发表于Nature Physics的一项研究中,研究人员甚至发现在金属衬底上生长铋晶体,也会出现醒目的图灵条纹:
来源:Alan Fang and Aharon Kapitulnik
在晶体生长过程中,铋原子在垂直方向(即远离平面方向)的位移充当了激活剂,在平面方向的位移充当了抑制剂。起作用的是原子位移,而不是化学分子。
此外,艺术家还利用图灵斑图来创作生成艺术(generative art):
generative art