2025年3月4日下午,由北京大学区域与国别研究院主办的“数智技术+人文社科”圆桌会议在北京大学燕南园66号院二层会议室召开。德国马克斯·普朗克法律史与法理论研究所所长、法兰克福大学比较法律史教授托马斯·杜斐(Thomas Duve),中国政法大学法学院副教授、法律史研究所所长李富鹏,北京大学外国语学院长聘副教授苏祺、北京大学法学院副教授胡凌、北京大学中文系助理教授李林芳及德国马普法律史与法理论研究所师生参加圆桌会议,北京大学区域与国别研究院副院长章永乐担任主持人。圆桌讨论共分为三个部分。在第一部分中,托马斯·杜斐教授首先介绍了马普法律史与法理论研究所团队在数字人文领域取得的进展。在第二部分中,苏祺副教授、胡凌副教授及李林芳助理教授分别展示了北大团队正在开发的数字人文平台。最后,与会者就共同关心的议题进行交流讨论。
在第一阶段,托马斯·杜斐教授首先介绍了马普法律史与法理论研究所团队的情况及两个主要项目。该研究所目前在数字人文领域仅设有一名中央协调员,由其负责定期邀请各学科专家就特定研究课题交流成果。之所以没有建立负责数字人文的专门团队,是因为从实际经验来看,不同项目对于技术的要求非常特殊,因此通常情况下最好采用基于项目的个别解决方案。目前,该研究所正在进行两个数字人文项目,其一为针对西班牙萨拉曼卡学派(Salamanca School)的研究项目。该项目开发的数字人文平台主要拥有两种功能:(1)使用OCR技术将有关萨拉曼卡学派的档案进行数字化。目前的问题主要集中在识别误差。尽管误差已经控制在2%之内,但对于数以百万计的字符数据而言仍然太大。目前的解决方案是使用人工转录的方式进行纠正。团队为此制定了非常详细的转录指南。(2)将数字化的档案链接到文本语料库中。当研究者打开拉丁文档案时,他还可以同时检索同一文献的西班牙文或葡萄牙文摹本。与此同时,研究者还可以对特定词语进行全文检索。该功能当前面临的主要挑战是,在拉丁文中同一单词可能具有完全不同的变位,譬如be动词的第二人称和第三人称形式就是完全不同的两个词。此外,该语料库还发挥了词典的作用,支持研究者对特定词条的含义进行搜索并自动链接到该词条所在的上下文中。这一通过数字人文将文本互联与整合的工作将为相关领域研究做出巨大贡献。
其二,该团队目前还组织了对梵蒂冈档案馆保存的特伦特大公会议委员会(Congregation of the Council of Trent)档案的整理。该委员会成立于1564年,负责对特伦特大公会议的各项决议做出解释。委员会由20名红衣主教组成,每周二和周四固定开会,直至1917年天主教会的第一部全面法典——《天主教会法》(Codex Iuris Canonici)生效。特伦特大公会议是天主教会最重要的立法之一,但在该委员会存在期间,教会禁止任何学者对决议进行学术研究。目前梵蒂冈档案馆保存了长约1.5公里的档案资料。该团队正尝试将档案数字化,建立了包含约3.5万个条目的数据库。该数据库包含了一个数据选集,研究者可以根据教区、教规、主教等多种条件对数据进行筛选。目前,团队主要的工作在于进一步优化数据选集,研究如何将非此即彼的“灰色地带”纳入选集中。譬如,如果在录入过程中不清楚某一问题来自一个教区还是另一个教区,平台就会将其标注出来,并在两个教区的搜索结果中同时呈现。与此同时,团队也注意到一些教区在地理范围上的重大变动问题。譬如在征服之初,整个拉丁美洲都属于塞维利亚教区。但在随后的几年中,塞维利亚教区失去了整个拉美,但仍保留了其名称。如何在数据中展现各教区地理范围在时间上的变化成为团队新的研究重点方向。
最后,教授指出,马普法律史与法理论研究所秉持协同工作(mutual-operatability)理念,积极与中国政法大学等国际知名学术机构展开数字人文领域的合作。李富鹏所长也表示,近来中国政法大学与马普所联合启动了“中国与全球数字法律史”项目。该项目以研究为导向,目前的主要成果包括700万晚清份教务教案档的数字化。借用此次交流,中国政法大学与马普所也希望加强与北大这一数字人文领域重镇的交流合作,以数智技术推动中欧人文社科的发展。
在第二阶段中,来自北京大学的各位数字人文领域专家分别进行了项目展示。首先,北京大学数字人文研究中心的苏祺副教授介绍了该中心目前正在进行的三个主要研究项目。其一为中国古籍的智能化处理。为支持古籍文本的智能化结构整理、实体与关系标注以及知识图谱自动生成,中心团队开发了名为“吾与点”(Widen Your Data)智能标注平台。该平台集成多种深度学习模型,通过精巧的交互设计实现高效人机协作,使研究者可以自主将材料上传到平台中,并使用团队基于大规模古籍语料训练和开发的预训练语言模型或平台中集成的多种第三方大语言模型识别文本中任何感兴趣的实体与关系等。模型将根据用户的修正进行训练,从而得到更好的结果,形成人机协同。
其二为基于大型汉语典籍的文化分析(cultural analysis)项目。该项目以互文性(intertextuality)为核心概念,识别某一术语在不同典籍中的语义关系,以追溯中国历史上文化的发展源流。在具体操作层面,该项目使用AI技术识别句子之间的相似性,并基于此计算书籍之间的相似性,分析中国历史上不同学术流派乃至佛教、儒学之间的相互渗透关系。譬如,中心研究人员已使用这一平台对儒家、道家、法家等思想流派在历史上的影响力变迁进行了分析。
其三为古代文化遗产遗失或损毁部分的修复与重建工作。该项目基于50万句中文古代语料,使用多模态多任务神经网络模型(MMRM),结合受损古文物的上下文理解与残留视觉信息,使其能够同时预测缺失字符并生成恢复的示意图。此外,该项目还尝试对历史上已经消失的文化遗产进行基于文本的图像生成。研究者只需向大模型输入文化遗产的名称或其他描述性文字信息,就可以生成对应图像。
来自北京大学法学院的胡凌副教授就数智技术在法律实践及法律教育中的应用前景进行了分析。其一,过去十年间,数智技术在法律实践中的广泛运用不论在全球层面还是中国国内都已经是无可争议的事实。一些法院很早就尝试运用初级人工智能开发可以自动生成法律判决的软件。这一趋势在新冠疫情期间进一步加速,特别是针对小型诉讼案件,原告甚至不用亲自到法院现场。如今,DeepSeek等开源生成式人工智能的出现预期将进一步推动这一趋势。譬如,中国最高法院拥有一个非常庞大的数据库,涵盖了自20世纪以来的所有法律文件案例与研究论文。如果将生成式人工智能运用于该数据库进行数据抓取,就可以使得法官快速掌握更多信息。胡凌副教授认为,将数智技术运用于法律实践并不会削弱法官的职能,因为最终法律责任还必须由法官承担。此外,这一趋势在许多律师事务所中已经先于法院进行了实践。一些大型律师事务所甚至开发了AI工具用于预测其是否有能力、有必要向法院提起诉讼。如果这些工具可以免费惠及社会公众,预期将产生积极的社会效应。
其二,在法律教育方面,胡凌副教授认为,应当在严格操作流程的前提下鼓励学生熟悉数智技术工具。既有的法律教育在法律分析的形式层面花费了太多实践,但事实上法律教育的核心应当是培养决策和分析能力。数智技术工具的运用可以帮助学生处理如法律格式等方面的形式问题,使其专注于理解利益冲突,专注于培养学生权衡不同利益以做出决定的能力。过去的法学院依靠一些免费的商业软件开发初级专家系统及小语言模型,只需要输入一些搜索关键词,就可以给出相应条款,但这些系统目前还不够智能。随着数智技术的发展与普及化,这将成为更大的趋势,高校也应当投入更多资源培养教师及学生开发个性化模型的能力。与此同时,高校还应当专注于培养学生对AI工具的批判能力。譬如,胡凌老师本人就允许学生使用AI完成作业,但要求披露相关使用信息,并帮助点评AI生成的内容,为可靠的内容增加脚注,为不可靠的内容提出相反的证据。
围绕数智技术在法律实践中的应用,托马斯·杜斐教授同样指出,将数智技术引入司法判决在欧洲也引发了热烈讨论,主要围绕对数智技术的监管模式进行。然而,事实上归根结底最重要的不是技术层面的问题,而是司法系统权威性的问题。人们之所以相信法庭,是因为法庭的判决代表了法律权威,是因为人们相信最终将由法官做出判决,而并不在于他们采用了什么技术进行判决。
△ 项目展示与交流
北京大学中文系助理教授李林芳介绍了北京大学中文系古文献专业与北京大学数据分析研究中心的项目成果;后者在中文系的领导下,开展“数字人文+古典学”研究,整合了北京大学人文社会科学、中文信息处理、计算机科学的研究力量。目前,他们围绕中文文献的阅读、整理和研究开展了多个项目,其中最主要的包括:其一,数据分析研究中心资料检索系统。该平台于3年前起正式向所有北大中文系教师开放,用户可以非常便利地在平台上阅读、搜索和共享数据及资料。目前,该平台包含60T的数据,大部分数据为txt、xml和pdf格式。该平台每日输出流量约40GB,显示出每日活跃用户数量非常大。其二,北京大学汉语史标注语料库(Tagged Corpus of Ancient Chinese)。在该语料库中,除了通用的检索方式外,用户还可以通过语法属性和语义特征轻松搜索文本,这为古汉语学习和研究提供了重要的语料及知识支持。其三,典藏之路(LiberRoad)。该项目关注中文古籍在世界范围内的流通情况,由古文献领域和计算机科学技术领域的学者们共同完成。与西方古籍一样,许多中文古籍的历史也非常悠久,问世后辗转多地。该项目旨在将每本中文古籍的生命轨迹可视化,譬如可以看到其如何起源于中国,然后流向朝鲜半岛,最后到达日本。该项目预计将对书籍史、学术史等领域的研究大有裨益。其四,李林芳老师本人正在主持一个展现书籍版本与异文历史变迁的项目。中文古籍一般有很多版本,文字内容也存在差异。因此,该项目旨在以可视化的方式呈现古籍文本的生成流变情况。最后,在教学方面,他们已尝试训练支持古汉语语料的大语言模型,以之辅助学生开展古典学相关学习和研究。该模型经过专业语料和任务训练,可以针对标点、注释和古汉语翻译等问题给出非常高质量的回答。
围绕数字人文在古籍传播轨迹可视化方面的应用,托马斯·杜斐教授指出,他们的团队也在进行类似的尝试。目前,该团队聚焦于16世纪由葡萄牙宗教改革家和神学家马丁·德·阿苏纳(Martín de Azpilcueta)编写的一本神学畅销书《忏悔手册》(Manual de Confessores y Penitentes)。该作品用葡萄牙语、拉丁语、意大利语和西班牙等出版了90余个版本。作者本人总是亲自审阅每一个版本,以根据不同地区和受众的情况做出不同回答。譬如,葡萄牙语版本就是为了在巴西传教的教士而写,其中回答了许多关于在忏悔时是否可以使用翻译的问题。该团队希望用数字人文方式呈现不同版本的差异,并将这些差异视觉化。于此同时,托马斯·杜斐教授还介绍到,许多德国的传记研究者也正试图将研究对象的足迹可视化,展示其如何从一个地方走向另一个地方,接触到了什么人,其社会关系网络是什么样。该技术的出现也推动了集体传记(collectivebiography)的发展。德国学者在集体传记领域取得了重大进展主要源于上世纪80~90年代对纳粹黑暗时期的研究兴趣,研究者们希望知道是谁主导了当时的局势。
△ 现场交流
此外,针对数字人文技术在德国乃至欧洲的运用现状,托马斯·杜斐教授评价道,虽然欧洲的许多图书都已经实现了电子化,但数字人文技术的应用仍面临许多阻碍,这些阻碍主要可以归结为以下三个方面:其一,电子书出版仍遵循印刷书的逻辑,没有形成书籍之间的关联网络。一些网站正在尝试围绕某一特定主题采用跨媒体方法提供访问路径,使研究者可以直接链接到作品来源,这将为研究者提供极大便利,但这些网站目前还有获得足够的学界和出版界的认可。其二,数字人文技术的应有需要整合大量资源,这对于人文学科的学者非常困难。而技术人员与人文学者之间的交流沟通总是存在障碍,甚至双方之间几乎没有沟通。其三,数字人文平台的学术认可度仍然不足,这需要对学术评价体系进行深度改革。
在自由讨论阶段,与会专家学者就数智技术应用于人文社科研究可能遇到的信息主权问题,行政管理挑战以及中欧法律界对数智技术的态度等进行了交流。双方一致认为,数智技术在人文社科研究与法律实践中的应用拥有广阔前景。一方面,应当进一步提升数智技术的可获得性与普惠性,方便研究者与公众更广泛地使用AI工具;但另一方面,也应当加强对数智技术的监管,培养学生与公众的反思和批判能力,使得数智技术真正推动法律研究与实践的进步。本次圆桌会议气氛热烈,讨论深入,有助于中德两国未来进一步的数字人文交流。
△ 与会师生合影