消费日报网 > 时尚生活 > 文娱

数字化为古籍研究带来怎样的“蝶变”

时间:2022-04-15 11:24:13 来源:光明日报

数字与古籍,以前像两条泾渭分明的河流。

当它们相遇后,能产生怎样的效能和反应?

循着新近出台的《关于推进新时代古籍工作的意见》所提出的“推进古籍数字化”“积极开展古籍文本结构化、知识体系化、利用智能化的研究和实践”等要求,记者采访了国内从事古籍智能化研究的学者,探一探数字化能给古籍保护与研究带来怎样的“蝶变”。

沉寂的典籍,动起来了

一幅横向流动的《千里江山图》上,标注了“涑水”“濂溪”“玉山”等若干个古地名。数百个衣袂飘飘的儒生,正在图上缓缓挪动,像是在“赶路”。他们从一个地方挪到另一个地方的行程,代表着他们的求学历程和所属学派。

这是北京大学人工智能专业学生马源和她的同学们向首届“北京大学数字人文作品展”所提交的展品——用JavaScript完成的H5习作,取名为“宋元学案传承可视化系统”。

“像《宋元学案》这样的大部头古籍,离我们的时代太遥远了。如果不是做专业研究的学者,可能根本想不起来要翻阅它。我们想通过这种像游戏界面一样的形态,吸引年轻人了解古籍。”马源说。

展览现场,同样能带来“跃动”感的,是北京大学中国古代史研究中心副主任史睿指导桑宇辰等同学制作的“朱子年谱可视化系统”,它利用GIS(地理信息系统)技术,对《朱熹年谱长编》进行了时空的可视化呈现,读者能自主点击、了解朱熹求学、游历、交友的生平。

数字技术甚至赋予古籍研究人文学科的能力,远不止让它们像游戏一样动起来。

“数字人文代表着智能信息环境下,人文社会科学研究范式的转型,从传统的文本驱动向数据驱动转型。人文研究的材料,如文献、图录、器物等,都可转化成某种形态的数据,从而使得大数据和人工智能技术也能处理它们。视觉化只是数字人文带来的附带效应,让人易于理解学术成果。而其深层逻辑,是研究范式的变化。”北京大学数字人文研究中心主任王军教授告诉记者。

展览现场有他指导的博士生王林旭对《宋元学案》《明儒学案》《清儒学案》所做的数据挖掘成果展示——

“学术关系网络图”,用正则表达式对《宋元学案》和《清儒学案》进行人物关系统计,共有“弟子”“家学”“私淑”“同调”“学侣”“讲友”“交游”“从游”“其他”9种类型,出现频次一目了然。

“通过知识图谱的重构,古籍不再是一座座文字的大山,古文里的内在结构和语义关系能在短时间内被清晰的抽绎和展示出来。”王军说。

除了中国古籍能“数”读,国外的古籍能“数”读吗?

答案是肯定的。

在北京大学外国语学院西葡意语系教师成沫对意大利诗人但丁进行的数字化研究项目中,《神曲》中重复频率最高的三行诗韵律结构valle(山谷)、spalle(肩膀)、calle(小道)被精准地提炼了出来。

不仅是“读取”,还要能“演绎”

过去的典籍研究,主要靠大师。

大师在大量阅读文献的基础上,靠一己的记忆与思辨能力,产出具有思想性的研究成果,再诉诸笔端,以文字的形态传递给大众。

机器智能辅助下的典籍研究,则是以数据为基础的。在机器智能的介入下,学者能获得瞬间处理海量资料的能力,王军分析。

清华大学中文系教授刘石和首都师范大学中国诗歌研究中心专职研究员尹小林发表的一篇文章,对先秦到清代的百部经典古籍做了大数据分析,发现颇丰。如果依赖于人工统计,这样的成果是难以在短时期内产生的。数字带给经典典籍研究的变化之一,是效率的提升。

“在诗歌研究领域,前辈学者主要通过例证,来进行分析和总结中国古典诗词的声律。后来出现了手工标注统计和基于大量诗词的定量分析统计。然而这些研究结论都来源于人工统计,单项研究的耗时长。”北京大学中文系教授杜晓勤回顾道。

有没有一个软件,能“一键”就准确标注所有中国古典诗词的声律格式和合律程度呢?

从2004年起,杜晓勤等开始建设中国古代音韵数据库和中国古代诗歌文本数据库,共录入1万多个汉字的音韵和900多万字的诗歌。在此基础上,他们研发了“中国古典诗歌声律分析系统”。这个系统,能快速、大批量标记与统计分析中国古典诗歌的声律。

利用这个系统,杜晓勤撰写了《齐梁诗歌向盛唐诗歌的嬗变》《六朝声律与唐诗体格》等多部专著,刊发了多篇论文。

在古籍数字化领域耕耘多年,王军想做的不仅仅是对古籍进行单向度的知识抽取和信息集成。

他指导唐雪梅、严承希等博士生研发的古籍自动整理系统,通过对算法的深度学习和大规模语料训练,能对古籍的句读和人名、地名、职官、书名、时间五类实体进行自动标记。其中句读平均准确率达94%,命名实体识别在史料上的准确率达98%。

“智能技术支持下的古典文献研究,是未来古籍研究的重要方向之一。”王军说。

人文学科新气象的“薪火”,从这里诞生

“昨夜星辰昨夜风,千秋灵会此宵同。一枝月桂和烟秀,人在琼楼玉宇中。”在一次公开演讲中,清华大学计算机科学与技术系教授孙茂松向听众展示了一首诗。

“你们能看出,这是一首从4篇古诗里摘录句子组成的集句诗吗?关键是,能看出这是机器人创作的吗?”孙茂松问。

通过算法和深度学习,人工智能已经能媲美人类进行摄影、画画、作曲、写诗。

创造性,这一人类所独有的领域,正逐步被机器介入,由此也产生了一些伦理问题——例如,机器通过习得而非人类在感情充沛时产生的创造物,能被称为“艺术”吗?

同样的问题,也易产生在人工智能赋能后的人文学术研究领域。

机器介入各类古籍研究后产生的结果,如各类统计数据、可视化“图谱”或者“页面”,能被认定为具有思想性的人文研究成果吗?如果能,怎样量化它们的学术价值?

“这些应该也算作成果的一种形式。在各个学界,对数据集的重视都在日益增强,以古籍研究为基础的史学、文学等人文学科不应轻视,而且要更加重视。而可视化本身,一方面可以帮助学者获得更多洞见,另一方面也能更好地向大众进行传播。有一些方式,是传统手段难以达到的,是人文学科新气象的‘薪火’,需要保护好。”北京大学智能学院教授袁晓如这样回答记者的疑问。

“无论是可视化成果本身,还是成果产生的传播效应,都是可以计量的。当然,虽然数据驱动将智能技术引入了人文学科,但是数据的使用和意义的阐释,还是需要人文学者的介入和指导。”王军说。

新近出台的《关于推进新时代古籍工作的意见》要求,“加强古籍数据流通和协同管理,实现古籍数字化资源汇聚共享”“支持古籍数字化重点单位做强做优,加强古籍数字化资源管理和开放共享”。

这背后,有着怎样的原因?

“因为古籍智能化及以其为基础的人文学术研究需要大量的资金投入。计算工具平台、数据资源、技术服务团队等,都需要投入。然而,每个研究机构的资金实力是不一致的。传统依靠一两位学者皓首穷经就能产生大量成果的研究方法,在数字化时代可能不适用了。为了弥补资金投入差别造成的学术鸿沟,就有必要加强共享。”王军谈道。

“北京大学可以肩负起建设国家基础设施的任务,同时也将这些设施对外分享,帮助偏远地区或者学术资源不足的地方开展研究。”袁晓如说。

古籍数字化保护与利用的新乐章,已经奏响了。(记者 韩寒)


消费日报网版权及免责声明:
1. 凡本网注明“来源:消费日报网” 的所有作品,版权均属于消费日报网。如转载,须注明“来源:消费日报网”。违反上述声明者,本网将追究其相关法律责任。
2. 凡本网注明 “来源:XXX(非消费日报网)” 的作品,均转载自其它媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责。
3. 任何单位或个人认为消费日报网的内容可能涉嫌侵犯其合法权益,应及时向消费日报网书面反馈,并提供相关证明材料和理由,本网站在收到上述文件并审核后,会采取相应措施。
4. 消费日报网对于任何包含、经由链接、下载或其它途径所获得的有关本网站的任何内容、信息或广告,不声明或保证其正确性或可靠性。用户自行承担使用本网站的风险。
5. 基于技术和不可预见的原因而导致的服务中断,或者因用户的非法操作而造成的损失,消费日报网不负责任。
6. 如因版权和其它问题需要同本网联系的,请在文章刊发后30日内进行。
7. 联系邮箱:xfrbw218@163.com  电话:010-67637706

标签:
编辑: 李志远
相关新闻

声在中国|庆祝中德建交50周年 音乐会《情深谊长》即将云端上演

  2022年是中德建交50周年,新华社声在中国工作室联合中央民族乐团携手德国广播爱乐乐团,打造线上音乐会《情深谊长》,并将于6月25日19点30分线上展演。  国乐与交响激情碰撞,民族室内乐与西方室内...

广电总局、文化和旅游部发文规范网络主播从业行为

  新华社北京6月22日电近日,国家广播电视总局、文化和旅游部联合印发《网络主播行为规范》。  《行为规范》明确,通过互联网提供网络表演、视听节目服务的主播人员,包括在网络平台直播、与用户...

四部门:严控未成年人当主播 禁止以打赏额度排名

  中国网5月7日讯日前,中央文明办、文化和旅游部、国家广播电视总局、国家互联网信息办公室对外发布《关于规范网络直播打赏加强未成年人保护的意见》(以下简称《意见》)。《意见》指出,网站平台...

书香充盈神州大地——记首届全民阅读大会“全民阅读成果展”

四月春光郁郁,正是读书好时节。在第27个世界读书日来到之时,首届全民阅读大会举行。一幅各方倡导和推广全民阅读、书香充盈中华大地的画卷,在“全民阅读成果展”上徐徐展开。顶层规划不断加强“读书已...

2022“新时代乡村阅读季”启动 助力乡村文化振兴

  以“阅读小康气象,奋进振兴征程”为主题的2022“新时代乡村阅读季”24日在京启动。阅读季中,将举办“农民喜爱的百种图书”推荐、“我爱阅读100天”读书打卡等8项适农乐农重点活动,助力乡村文化振兴。 ...

首届全民阅读大会将在京举办

  4月23日—25日,由中宣部出版局、北京市委宣传部主办的首届全民阅读大会将在北京举行。中国出版协会牵头组织的全民阅读活动馆,将全面展示全国各地丰富多彩的阅读活动、阅读品牌内容,以及“五个一...