历史学家借助AI揭开中世纪的秘密
英国广播公司网站5月28日发表文章,题为《密谋、情书和药方:人工智能正在揭开中世纪的秘密》,文章内容如下:
在梵蒂冈图书馆的浩瀚馆藏之中,一本画有奇特符号的神秘手卷400多年来始终无人解读。书封内侧潦草的字迹显示,这些晦涩难懂的页面显然藏有治疗“人体不适”的秘方。在那个年代,这类疗法是保密的,因为它们可能招来猜忌,甚至被指控为巫术。
这份手稿名为博尔格密码,共计408页,内容大多难以理解。它使用34个生僻符号搭配少量拉丁字母编写而成,扉页文字为阿拉伯文。过去人们一直找不到破解加密内容的密码索引。部分书页还因年代久远出现破损,让这份密码变得更加难以解读。
但借助机器学习这一人工智能技术,研究人员成功破解了这份密码。他们发现,文稿中记载了数千种奇特的疗法,比如饮用数杯优质红酒,或是将肉豆蔻放入面团中发酵来治疗痢疾。
瑞典斯德哥尔摩大学计算语言学教授贝娅塔·迈杰希是破译这份文稿的团队成员。她说:“这就像侦查工作,每一个符号、每一种规律、每一部分破解成果,都能让我们离他人的秘密和过往的历史世界更近一步。”而即便有人工智能助力,破解密码索引的过程依旧十分艰辛。
如今,迈杰希及其同事正牵头利用人工智能破解各类历史密码,有望解开大量以前无法破译的加密历史资料。
根据不完全估算,在全球各地的档案馆和图书馆中,有约1%的文献内容被全部或部分加密。目前已知最早的一些密码,可以追溯到古希腊和古罗马时期。
各类加密历史文献中藏有外交情报、秘密社团的仪式、医学知识、风流韵事,以及人们想要隐瞒的日常琐事。这些是当前历史记载中缺失的信息。在有些情况下,破译这些文献或许会改写我们对某位知名人物或是一整段历史的认知。近期就有一个例子:一批加密信件经确认是苏格兰玛丽女王被监禁在英格兰期间所写。信件揭露了她参与夺回王位的密谋,以及她和其子苏格兰国王詹姆斯六世(即后来的英格兰国王詹姆斯一世)之间的紧张关系。
历史密码相对容易破解。例如博尔格密码采用替换式密码,也就是每一个拉丁字母被替换为一个符号,以此隐藏原文内容。但其他一些密码可能极难破解。有些情况下,人们根本不知道文本的原始书写语言。此外,文本中还会加入无意义的符号作为假目标,误导试图解读文稿的人。在其他一些情况下,多个符号被用于代表同一个字母。
这可能意味着,哪怕只是解读一小段文字,往往也要开展大量工作,反复进行试验。法国计算机科学和自动化研究所的密码学家塞西尔·皮埃罗及其同事花费了六个月时间,才逐步破解神圣罗马帝国皇帝兼西班牙国王查理五世的一封有500年历史的信件。这封信件共三页,使用的密码符号多达120种。这封被破译的信件显示,这位当时权倾一时的君主终日惶恐会有人密谋害他,还担心效忠于法国国王弗朗索瓦一世的意大利雇佣军首领将对其实施暗杀。
在正式开展破译工作前,研究人员必须耐心地将手写密码文稿转换成数字文档,使其能够输入解密软件。潦草的字体和褪色的墨迹会进一步加大这项工作的难度。
皮埃罗说,仅仅将一封有两页纸、包含陌生符号的信件转写为数字文档,通常就要耗费她一整天的时间。
人工智能正在加快这一工作的进度。近期,挪威奥斯陆大学德语语言学教授米歇尔·瓦尔迪斯普尔及其同事使用一款名为Transkribus的在线人工智能平台,转写了一封秘密信件。这封信是在欧洲“三十年战争”激战正酣的1637年,由贵族西吉斯蒙德·霍伊斯纳·冯万德斯莱本写给瑞典首相阿克塞尔·奥克森谢尔纳的。
这款工具用数个世纪以来的多种语言、字母系统和手写体进行训练。工作人员将文献图片上传至该工具系统后,人工智能会先划分文本区块和独立的几行文字,再逐字扫描全文,将其内容转化为数字格式。
冯万德斯莱本的这封信件只有部分内容经过加密(加密部分使用带点分隔的数字),书写工整且间距清晰,因此尽管仍需要进行少量人工修正,但这款工具对信件的处理效果不错。信件其余内容并未加密,采用17世纪的德语字母体系书写。
现有的人工智能文字转写平台经常难以应对使用特殊字符加密的手稿,这些特殊字符包括自创符号、占星符号或写法怪异的数字。迈杰希、瓦尔迪斯普尔以及他们的同事正参与跨国解密项目,自主研发人工智能工具,将带有生僻符号或字母的手写历史文稿转化为机器可读取的文档。
加密文稿转写完成后,解读工作才能开始。目前,密码学家大多使用专门研发的非人工智能计算机软件开展工作。这类软件依靠算法判断密码类型并完成破译。对于简单密码,人们通常会统计符号的出现频率,再将其与对应语言中出现频率相近的字母进行匹配,以此完成破解。以英语为例,字母E的使用频率最高,而Z、Q和X的使用频率最低。
但冯万德斯莱本在其信件中使用了多达八种符号来代表字母E。想要逐步破解这份密码,不仅需要反复试验,还要依靠瓦尔迪斯普尔掌握的古德语知识。
瓦尔迪斯普尔说:“整个过程需要机器和人工核验员反复校验。或许未来某一天,人工智能可以独立完成全部工作。”
这份密码背后,记录着冯万德斯莱本就战争中瑞典新教同盟派系带来的威胁发出的警示。他通过密信告知奥克森谢尔纳,在得知同盟内部一些人密谋作乱后,自己被迫在战场上采取战略撤退。
目前,迈杰希及其同事正在研究,能否让人工智能完全跳过转写环节,仅通过分析页面照片来解读加密信息。该团队近期验证了这一方法对简单密码的可行性,这类密码的特点是每个字母只被替换为一种符号。
研究团队选取了一份已经完成破译的105页手稿开展测试,这份手稿详细记载了18世纪德国一个秘密社团的仪式、规章与理念。研究人员先用通用手写字体训练人工智能,再输入这份密码手稿某几行文字的照片以及对应的破译德语文本。最终,系统能够精准解读此前未曾接触过的部分内容。
如果一份密码的原始语言无从知晓,这类破译系统就能发挥极大作用。
迈杰希说:“这为研究罕见以及非标准书写系统带来了令人振奋的新可能。最终目标是把转写和解密合并为一个步骤。”
瓦尔迪斯普尔及其同事则一直在翻阅各类古老档案并收集密码文稿,以便搭建数据库。
想要训练出能够破解密码的人工智能,充足的数据至关重要。
支撑聊天生成预训练转换器(ChatGPT)这类人工智能聊天机器人的大语言模型,就是依靠书籍、文章和网站中的无数词汇完成训练的。想要为密码破解工作收集同等规模的数据,难度着实不小。
在他们收集的资料中,包含400张19世纪末至20世纪初用加密字体书写的明信片。目前破译出的少量内容显示,其中一部分是用德文书写的情书。
迈杰希的团队结合现有研究成果,打造出一款集转写与解密功能于一体的人工智能聊天机器人工具。
这款工具通过结合解密算法和大语言模型来为解密提供线索。解密算法用成对的密码符号和对应原文进行训练,而大语言模型用不同时期的历史文本进行训练,用带注释的手写体进行训练的图像识别算法也被整合进来。他们的人工智能工具还能通过整合专业使用者的修正内容来实现自我优化。
按照设计思路,研究人员乃至普通大众,都可以将加密的历史文稿输入这款聊天机器人,让它揭示其中的内容。
迈杰希及其同事还用博尔格密码对这款人工智能聊天机器人进行测试。他们发现,这款工具能用不到30分钟的时间转写并破解一段包含500个符号的节选内容。它甚至还能提供英文译文。
此外,系统会记录整个解读过程,并解释破译结果合理的原因。这一点十分关键,能够确保人工智能不会产生幻觉或者编造解读内容。
该团队近期还选用另外两份此前已被破译的密码测试了这套系统。这两份密码的历史时期、语言、加密类型和复杂程度都不一样。但该系统都迅速完成了破译,这证明它可以处理不同类型的密码。
迈杰希说:“人工智能最大的优势在于处理海量内容、提升速度、发现规律以及整合任务。”
这类人工智能工具有望破解诸多至今仍未能解开的历史密码。它们还能帮助解读那些所用文字如今已无人识读的古代文稿。例如,克里特岛4000年历史的费斯托斯圆盘和古希腊早期文字线形文字A,目前都未能破译。
迈杰希说:“让我感到兴奋的,不仅是解开某一个特定的历史谜题,而是我们有望创造出为众多研究领域的学者提供帮助的方法。”(编译/卿松竹)