传承文脉,未来已来——徐永明教授“古籍数智化——以哈佛大学测试题和国内外平台为例”讲座后的深入思考

本贴最后更新于 282 天前,其中的信息可能已经时异事殊

image

一、讲者简介:

徐永明,浙江大学文学院教授,博士生导师。浙大文学院数字人文研究中心主任。“学术地图发布平台”和“智慧古籍平台”负责人,明代文学学会(筹)副会长、中国俗文学理事、中国古籍保护协会古籍智能开发与利用专业委员会副会长、哈佛大学 CBDB 指导委员会委员。哈佛大学燕京学社访问学者。《数字人文》《数字人文研究》期刊编委。主要研究元明清文学、数字人文。撰写、整理和编纂了《元代至明初婺州作家群研究》等著述。

二、讲座内容概览

本场讲座持续 1 小时 30 分钟,大体上分为徐永明教授的陈述环节和嘉宾对谈环节,徐教授的陈述可以分为数字人文背景介绍,古籍数字化平台和现状介绍以及人文学科的数字化前景三个方面进行。

2.1 背景介绍

在背景介绍中,徐永明教授首先点出我国古籍和文化资源丰富但是数字化发展晚于国外的现状,在此之后利用哈佛大学对于数字人文人才的招考试题指出新时代数字人文人才需要具备以五项能力:

  1. 电子化的文本分析与挖掘:在电子环境中利用目前主流的工具进行信息的聚合、检索和分析,最终实现可复用性归档。
  2. 编程语言的使用:尤其是作为主流语言的 python、C、VB 等语言,实质上是文科与计算机的学科交叉,可以更好的实现平台开发的对接,这里徐教授特别提到了正则表达式,他认为这一点对于信息管理至关重要。
  3. 数据库能力(类似 Access):这是说要将信息,不管是文本还是影像进行入库管理,为结构化数据的构建做好准备。同时人文学者还需要有数据库的应用触角,将数据库管理和分析加入研究工作流。
  4. 空间分析能力:是基于 GIS 技术的学科创新,能够利用 QGIS 这样的地理信息开源软件对于古籍文本等信息进行分析。例如类似历史地图和行迹图的分析。
  5. 网络分析(将社会关系可视化):实质上就是通过技术手段将不可捉摸的社会分析可视化,可以快速调用辅助研究。(例如基于地方志的记述分析区域权力和文化的演变)

在背景介绍的第二方面,徐永明教授结合学科前沿,谈了关于目前数字人文所涉及的计算机技术和交叉学科技术,在笔者看来这里是讲者希望与会者打破对技术的偏见,服务于之后的国内外数据平台介绍。其中所涉及的数字人文的技术前沿可见下:

kmind

2

这里特别注意第二张图,虽然徐永明教授没有明确的描述,但是从他对自己主持开发的浙江大学智慧古籍平台的论述中可以见得,我们可以把这八个技术作为分析目前平台综合性的评价层次。

在技术介绍的最后,徐教授提到对于技术的态度问题:目前的社会面临的是一个复杂型问题,尤其是在人工智能时代,我们文科生需要有一定的技术视野,这样才能在这样的数字化项目中,与专业的技术人员更好地对接。

2.2 国内外平台介绍

在具体介绍平台之前,徐永明教授大致介绍了国内外的发展情况,整体来说,国外将这种数据平台作为一种学术基础设施开发较早,国内不管是观念上还是具体开发上都比较落后,但是近年来也在不断进步,尤其是在 AI 时代中。

首先介绍的哈佛大学的中国历代人物传记资料库(CBDB),这个平台建设时间很长,最开始是用台湾专门编纂的索引,现在则是基于地方志的综合化数据系统,收录了从先秦到清代的结构化数据,并且在公益版(access 版)的基础上已经做了一些商业化尝试,是一个相当健全的大型中文数据库。

在之后徐教授又介绍了中国历史地理信息系统和 world map,前者将古代的行政区域和历史地理信息矢量化,从一个历时的方向可视化地去看;后者关于中国目前的各种数据详细到令人发指。说到这里,徐教授语气迟疑,谈到了作为数字人文学者的愧疚——第一个大型中文历史数据库和目前最完整的数据库都是在国外完成,而国内的亟需开发的资源很多,以现在的投入规模无疑是杯水车薪,必须要找到多维化的价值实现形式,探究商业化模式,推动学科健康发展。

在此之后,徐教授逐一介绍了国内外的很多平台,详细可以参考笔者另一篇概要古籍数智化讲座记述 - 链滴 (ld246.com)

2.2.1 对浙江大学古籍数字化平台的分析

在进入第三个环节之前,笔者结合讲者的介绍以及上述的八个技术层次尝试对于徐永明教授主持研发的浙江大学古籍数字化平台(以下简称“浙大古籍平台”)进行分析:

  1. 众包技术:浙大古籍平台将权限进行分级,拆分古籍的分类、标点,内容审核,平台管理等多级权限,允许全社会的能力者参与,并通过实践活动和报酬制吸引大学生,结合智能 OCR 技术不断完善电子古籍库。
  2. 图谱技术:基于文献,形成智能化社会关系图谱

image

  1. 文本处理技术:集合大语言模型,已经实现高质量翻译。
  2. 图像处理技术:这里浙大平台使用我校(bnu)研发的智能 OCR 技术,对于文献影像实现文字识别,智能标点,减少人工重复工作量。
  3. 云端技术:没有具体提到,从管理面板来看应该是使用了云服务器和云计算,减少本地资源占用和降低了数据库使用门槛。
  4. AI 技术:目前的应用仅限于智能翻译,徐教授希望通过定制化的大量训练,实现智能问答,帮助数据库的导览。
  5. 空间技术:该系统也采用和 CBDB 一样的技术逻辑,通过地方志提供的信息,对于古籍的时空信息做了标定,这一点其实在浙大另一个学术地图项目上体现更为明显。
  6. 数据处理:这个平台明显是结构化的数据,对于明代的文化,文献研究意义重大。

2.3 数字人文(人文学生)的发展前景

关于数字人文的前景徐永明教授无疑是非常看好的,首先是国内的浩如烟海的文献资源就需要大量的人力物力进行有代际传承的科学化开发,再者随着国家文化数字化战略的纵深开展,作为古典文化传承现实载体的古代文献一定会得到更加有效和科学的开发。最后,国内的数字人文与国际相比的确存在不小的发展差异所以发展数字人文项目也是补齐文化行业短板的必有路径。

最后在这里展示一张徐永明教授提到的,古籍数字化的上下游图标。国内的数字人文要想长远发展一定要考虑商业化问题,找准自身的定位才能精准构建。

  • 上游

    • 纸本文献(金石)
    • 数字化文献
  • 中游

    • 结构化数据
    • 智慧化数据
  • 下游

    • 智慧化、元宇宙、智能问答

三、深入思考

因为时间问题,笔者没有参与这次讲座的对谈环节,但是回到寝室后深入思考,不觉背后一凉。前一段时间,有一位恩师问到我:“中小学语文教学在 AI 时代保留大量的机械性记忆内容是否有必要,它们真的记得有 gpt 好吗?换一方面来说,这种基于文本的机械分析你一个 985 研究型大学学生与大专生在本质上又有多大不同?”我当时是沉默的,因为的潜意识里认为机械的记忆内容存在是合理的,但是我确实无法说出我的完全的优势和差异点。近来阅读和听了诸位学者的论述之后我产生了新的观点。

首先,机械性的记忆是必要的,因为中文的学科感知是内在的,是主观的,是审美的,只有从自己脑子里反映出来的才是你最本真的想法,这一点在基础教育中的存在也是无可置疑的。但是,我想就像“数字人文”进来成为中文二级学科一样,我们的传统需要推陈出新了。我自身接触知识管理和智能化已经有一段不短的时间,我对于它们最深的印象不是渊博的知识,因为这一点人类在一个具体的领域内也可以达到,而是那种无与伦比的连接能力和交叉能力。

关于这两种能力我举以下例子:在古代文学中有一种重要的手法是“用典”,本质上是一种借古喻今,而我们可以在分析时回归“典”的初始状态进而知其本意再结合用典者的背景重新回到“现在”的时空。而类似大模型的智能可以从文本出发,通过字段的拆分检索出这段文本的全部信息然后进行有机组合,进而产出分析结果,随着人类的不断使用,这种组合的准确性就会不断提高,最终实现如臂使指。

细究起来,这不就是一种数据的结构化运用进而产生智慧型数据?回到本身的观点,我看来在这个时代中文人必须要学除去传统技艺,就是算法和统筹,去年星火模型的技术工程师曾经说到这样一句话:“在中国用互联网训练 AI 简直是一场灾难,数据量是世界之最但是质量方面也是 ‘这个’。”所以正如二十世纪末期学界全力推进汉语信息化一样,现在的中文人需要的是汉语“智能化”,而这其中最大问题不是“输入”,而是“整理”。这种“整理”一方面是数据的归类,一方面是数据的阐释,因为漫长的文化历史使得中文的内蕴极其丰富。我想这就是“数字人文”的使命。因此,作为中文的研究者和产出者,只有懂得互联网的技术逻辑和信息的统筹逻辑才知道怎样将中文带进新时代的航船。

在目前的阶段,我们的主要精力还是集中于浩如烟海的历史文献和文化资源上,主要方式就是建立智能化的大型数据库。关于徐永明教授的数字平台笔者也从平台智能化、数据结构化、参与多元化、发展规范化、实现多样化五个方面谈谈自己的理解,

3.1 平台智能化

在 AI 时代走向智能化是必然,笔者认为智能化能带来以下三点好处:

  1. 加速我们对于历史的积累的整理,历史的原貌随着时间的流逝是越发模糊的,这变相保护了我们文化的本真属性。
  2. 降低平台的开发和使用成本,像更多的参与者和使用者,推动平台体量的健康发展。
  3. 服务于长远的技术规划,推动最终元宇宙和智能问答的技术积累。

3.2 数据结构化

这一点也是徐永明教授反复提到的,在笔者看来结构化数据之所以重要首先是它方便调用和构建联系简单的属性使得其成为目前实现智慧化的必由路径,其次是对于学术研究来说,结构化的数据可以省去学者数据收集工作的成本,服务于学术研究尤其是人文科学。最后就是对于社会文化建设来说,结构化的数据可以更好的转化为类大众文化百科的产品。

3.3 参与多元化

这一点主要是针对平台的构建来说,徐永明教授主持开发的浙大古籍平台所采用的众包技术的案例是在给笔者留下太深的印象,这无疑是一个多样化群体参与构建平台的优秀案例。在未来的平台的构建中,我想这种拆分模块的协作模式还将进一步被探索。就像近些年以飞书,语雀,airtable 为代表的协作化分布式知识管理解决方案一样。

3.4 发展规范化

这里的所谓“规范”随着我国文化数字化战略的纵深推进无疑会在发展中得到建构,笔者想谈的是一种可及性的规范化。我们现在常提的一个概念是“信息茧房”,以我自身为例,如果不是这个讲座我大概很长一段时间内不会了解数字化古籍平台的发展状态,更别说系统性的了解。人工智能时代,大家所接受的信息的个性化是不断提升的,隔阂在笔者看来是会持续增长的,所以我们这种数据平台的规范化发展之外因该探索和团结起来,建立技术的规范化,减少信息闭塞(至少是在数字人文邻域)。这也就需要平台间的良性竞争和差异化发展,甚至是数据的联通。

3.5 实现多样化

不管怎样说这种数据化平台实际上是一种文化产业,在制度上也是收到出版总署,宣传部等等文化部门的管辖的,这就要求国内的很多项目是起步阶段是一种公益性质的,而这种长久的社会效益之上的偏见导致了商业的偏见。笔者的意思是随着国内古籍数字化平台等等文化平台的构建,商业化也应该提上日程,一方面是为支持学科长远发展提供经济基础,另一方面则是使得这些高端的产品也产出一些更接近大众的副产品,减少大众的偏见为学科吸引关注和人才。

四、总结

不管是具体的古籍数字化还是扩展到数字人文,对于我们来说都是一种新兴的东西,我们需要正视差距和差异,学习习先进经验最总实现自身的腾飞。我们有着不间断的浩瀚的文化资源,他们是瑰宝不应该随着新时期的到来就埋没在时间的摧残和社会的偏见中,我想对于我这种中文和技术的双重爱好者来说“数字人文”算得上是一种浪漫,但其背后更是一种薪火相传的深邃。

5 操作
bnulwq 在 2023-10-15 02:21:28 更新了该帖
bnulwq 在 2023-10-15 02:02:57 更新了该帖
bnulwq 在 2023-10-15 02:00:47 更新了该帖
bnulwq 在 2023-10-15 01:15:06 更新了该帖 bnulwq 在 2023-10-14 23:24:31 更新了该帖

相关帖子

欢迎来到这里!

我们正在构建一个小众社区,大家在这里相互信任,以平等 • 自由 • 奔放的价值观进行分享交流。最终,希望大家能够找到与自己志同道合的伙伴,共同成长。

注册 关于
请输入回帖内容 ...