上世纪,美国出现了一位秘密的炸弹客。 从1978年到1996年被捕,17年里,他寄出了16枚炸弹,造成了3人殒命,23人受伤。在这期间,FBI出动了500多名特工,耗费了数百万美元,也没抓到这位“炸弹客”(Unabomber)。 看起来,这是一位行事审慎的高智商犯罪者:随机选择打击目的,而且险些没有在现场留下任何可以追溯的证据,好比指纹、头发或其他纤维,包罗制作炸弹的质料,也无从追溯购买地点,好比用到的木头看起来就像是路边捡来的垃圾。 ![]() 1987年炸弹客制造的一次爆炸后的炸弹碎片丨FBI 破案的线索,终极落到了“炸弹客”的语言风格。 1995年,FBI收到一封信。寄信人说,那些炸弹都是本身寄的,而且以“制止炸弹攻击”为条件,要求登载他的一篇论文,题为《论工业社会及其将来》(Industrial Society & Its Future)。寄信人声称,这篇论文可以表明他的作案动机以及对社会弊病的见解。 ![]() 当年的论文原件丨FBI 颠末“要不要屈从于可怕分子”的辩说,FBI决定将这篇论文公开辟布,盼望有人能认出作者。 这篇论文宣称当代技能与工业化严峻腐蚀了人类社会,因此必要有人站出来制止技能进步,从而救济全人类。这些极度言论引发了广泛讨论,“炸弹客”因此被许多极度分子和无当局主义者视为“好汉”;同时,也引起了大众的留意。 很快,一位名叫大卫·卡辛斯基(David Kaczynski)的群众通过状师接洽了警方,说发现这篇论文的观点和写作风格都很像本身的兄弟泰德·卡辛斯基(Ted Kaczynski),并提供了一些旧的信件和文章素材。 FBI专家对这些质料举行了语言学分析,发现,除了“科技有罪”的论点,另有许多写作风格都和公开的炸弹客的论文符合,好比,格式、标点和独特的拼写(炸弹客的论文发布之前,FBI就留意到,论文里的“analyse”一词接纳了英式拼写)——但这些证据不敷以让他们签订查抄令。 关键证据来自一封信,内里有一句“you can’t have your cake and eat it, too”,在炸弹客的论文第185段,也利用了同样的说话。以此为突破口,警方终极在美国蒙大拿州一处偏远的小木屋中找到并逮捕了炸弹客本人,也就是泰德·卡辛斯基。 ![]() “you can’t have your cake and eat it, too” 丨参考文献[5] 资料表现,泰德·卡辛斯基的智商高达167,16岁就被哈佛大学数学系登科,25岁就成为加州大学伯克利分校汗青上最年轻的数学系助理传授——如许一位疯狂的高智商反社会炸弹客,末了败露于本身的行文风格。 ![]() “炸弹客”泰德·卡辛斯基(Ted Kaczynski)丨FBI “去目标地得打的” 在刑侦工作中,可以或许追溯一个人身份的方法有许多,好比指纹、虹膜、DNA等,都是独一份儿的身份标识。 实在,语言和写作风格也可以或许用来确认身份,好比,上文中的炸弹客就是被本身兄弟辨认出了写作风格。观察这宗案件的FBI观察员曾说:“没有两个人会写得一样(No two people write alike)。” 一个人在誊写大概打字时,会形成一些特定的词语用法,而这点小线索,就像笔墨上的指纹,可以让我们分辨这篇笔墨到底出自谁手。这种将文章誊写特性作为“指纹”来判定作者的技能,叫做“作者辨认”(Author Verification)。有一门叫做“刑侦语言学(Forensic Linguistics)”的学问,就是专门研究誊写或语言的表达方式,来分析案情中怀疑人或被害者的身份信息。 2018年,《纽约时报》登载了一篇匿名文章《我是特朗普当局中的一名反抗者》,作者自称是白宫的工作职员,对其时的美国政坛一顿品评。这可把时任总统特朗普气得不轻,表现肯定要揪出这个“内鬼”。这时,作者辨认就有了用武之地。有人发现,在这封匿名信中出现了“北极星(lodestar)”,而其时的副总统彭斯就特殊爱用这个词。后者固然赶紧出来否认。 ![]() 《纽约时报》发表的匿名文章 丨《纽约时报》发表的匿名文章 作者辨认有许多流派和本领。好比,特定年代的用语可以判定誊写者所处的年份(“你是GG照旧MM”,“你妈喊你回家用饭”,“神马都是浮云”这些当年爆火的盛行语现在已经成了期间的眼泪);一些特定词汇的利用也可以表现作者的职业(好比,总是把闭环、抓手、赋能这些词挂在嘴边的,很大大概是互联网从业职员)。 这些流派在分析时,大多以实词作为依据。实词,好比名词、动词、形容词之类,一样平常会用来表达详细的意思。但是,利用实词分析碰面临一个题目:作者在撰写差别的内容时,会用到差别体系的实词。好比,一个生物学家兼职写作言情小说。在工作时,他会用到大量的生物术语;而在夜班码字时,大概会用到许多情情爱爱的词汇。以是,用实词来判定作者时,轻易被差别文体间的转换干扰。 ![]() 作者在撰写差别的内容时,会用到差别体系的实词 丨Giphy.com 比起实词,副词、介词、连词等虚词通常就没啥确定的寄义,纵然写差别题材的文章,虚词的利用频率也大要稳定。有人做过统计,在汉语文章中,“的”字的出现频率约莫是每10字出现0.45次,是全部人都最常用的汉字之一 。同样,“地”、“得”、“吗”、“呢”之类虚词的出现频率,也险些不受文章内容的影响,更能反映作者的写作风俗。 ![]() 轻易混用的“的地得”三兄弟 在中国,最着名的作者辨认案例,当属“《红楼梦》后40回作者悬案”。《红楼梦》全书120回,现在公认的说法是曹雪芹写了前80回,高鹗续写了背面的40回。1970年,红学家赵冈,就用 “的”、“了”、“在”、“儿”、“著” 这五个字的出现频率来研究红楼梦的作者题目,得出了前80回和后40回确实出自差别人之手。 这项研究中用了5个字,此中3个都是虚词。 用算法在文学圈证实“你是你” 与曹雪芹雷同,国外也有那么几个大作家,必要后代学者来给其名下的作品掌掌眼,好比英国文豪莎士比亚。 ![]() 威廉·莎士比亚丨John Taylor / Wikimedia Commons 许多文学研究者以为莎士比亚的一些作品实在也是他人续写的,此中就包罗名作《亨利八世》。 《亨利八世》是莎翁晚期的作品。暮年的莎士比亚不停担当King’s Men剧团的剧作家,他去世后,约翰·弗莱彻接替了这个职务。因此,有人“公道”猜疑弗莱彻续写、乃至修改了《亨利八世》。 ![]() 亨利八世和家人 丨Unknown author / Wikimedia Commons 1850年,文学批评家詹姆斯·斯派丁(James Spedding)提出了一些证据:在《亨利八世》书稿中,偶然会用ye取代you,或用em取代them,而这些都是弗莱彻的行文风俗。 固然,相干的说法不停存在争议。即便是二人合著,也没法判定到底这部作品中,莎翁和弗莱彻各自贡献了多少。 然而,随着技能的进步,特殊是呆板学习算法的成熟,有人就想用新方法来解开《亨利八世》的谜题。 2019年,一位名叫彼得·普莱查(Petr Plecháč)的研究员说本身有了答案。这位来自捷克科学院的学者,利用呆板学习算法来辨认脚本的每一行笔墨,然后让呆板来判定作者是谁。 为了练习算法,得出优化模子,彼得先是翻出与《亨利八世》同时期的其他莎翁著作,包罗《冬天的故事》、《狂风雨》等。然后,他将这些著作酿成一行行数据,喂给了算法,再让步伐能辨认莎士比亚的单词和语句模式。同样,彼得也找来了不少弗莱彻所写的脚本,让算法举行学习。末了,这个颠末练习的算法就可以成为一名裁判,来分辨《亨利八世》的内容到底出自谁人之手。 ![]() S代表莎士比亚,F代表弗莱彻,带下标的数字表现给定段落的末了一行丨参考文献[8] 人工智能的分析效果证明了斯派丁的推测——弗莱彻确实到场了《亨利八世》的撰写。而且,根据算法的分析,弗莱彻贡献还不小,有一半左右的脚本都出自他笔下。乃至,算法还能准确地指出哪些段落是莎士比亚本身写的,而哪些是弗莱彻所写。好比,算法分析了第二幕第三场,前1261行是莎士比亚所写,而1261~1299行的作者则是弗莱彻,随后又转回莎士比亚。 固然,原形早已隐藏在汗青洪流之中,当代学者能做的,只是基于概率来做出公道的推测。对于成名的作家来说,纵然部门作品存在捉刀人,也不能撼动其文学职位。 不外,有些作家面对的状态就更窘迫些了,由于有后人猜疑其全部作品都不是本身写的——法国剧作家莫里哀就遭到了如许的通盘否定。 ![]() 莫里哀画像丨Pierre Mignard / Wikimedia Commons 写出过《吝啬鬼》、《伪君子》等名作的莫里哀,在法国人民气中的职位和莎士比亚在英国民气中的职位差不多。 然而,几百年后,有人开始猜疑莫里哀并没有写过脚本,说他实在是个欺世盗名之徒,来由包罗:起首,根据汗青纪录,莫里哀是其时的着名演员,一辈子险些都在观光和巡演,哪偶然间写脚本?再者,人们从没发现过莫里哀亲笔署名的原稿。 另有批评家列出了几位大概的“枪手”人选,此中呼声最高的,是一位名叫皮埃尔·科尼耶(Pierre Corneille)的剧作者。有人乃至据此脑补了一出“代笔大戏”:受过精良教诲的科尼耶,写了这些脚本,然后签上莫里哀的名字,如许可以使用莫里哀的明星效应,让脚本更受接待。 “代笔疑云”中的这些当事人早已长眠地下,没法出来对证。于是,探案工作又交到了呆板手中。 ![]() “Why Molière most likely did write his plays” 丨参考文献[9] 2019年,两位法国学者在学术期刊《科学希望》 (Science Advances)上发表了一篇论文,题为“Why Molière most likely did write his plays(为什么说莫里哀很大概写了他的脚本)”。 看论文标题,就知道这项研究肯定非常严谨。 研究者网络了莫里哀、科尼耶以及其他10位同期间作家的作品,将这些作品输入盘算机步伐,并统计了每个作者对虚词的利用频率。为了力图正确,他们还分析了词汇、词缀、语法等方方面面,终极提炼出了每个作者的行文特性。 颠末海量的数据网络、复杂的统计学分析,共同优化的呆板学习算法,这两位法国学者心满足足地敲下了论文的结论: “These conclusions strongly substantiate the idea that Molière indeed wrote his own plays。” (这些证据猛烈表明:莫里哀的脚本确实是莫里哀写的)。 参考文献 作者:圆的方块 编辑:麦芽杨 一个AI 除了“的地得警员”,“的地得”写欠好……大概也会招来真·警员。 ![]() ![]() |