《全宋词》中哪个词出现频率最高?唐代女诗人中的社交女王是谁?近年来,我国宋代学术思想史对理学大家杨时的研究较少,这一学术薄弱环节竟然是人工智能技术发现的——通过人工智能、大数据、云计算进行传统人文研究的数字人文,正在古籍学术研究和普及应用方面发挥积极作用,学科的边界正在被打破,新的知识增长点正在形成。
宋代学术史研究缺了杨时?知识图谱帮助学者发现研究薄弱环节
据有关部门统计,2011年至今,国家古籍整理出版规划实施了20余个古籍数字化的重点项目,中华书局等古籍出版单位也积极建设国际级古籍出版数字平台。古籍数字化的大量成果为数字人文研究做好了大量的基础性工作,中国数个在建的数字人文研究中心尝试用数字人文的研究方法,对典籍传承与学科融合作出新的探索。
应该说,通过数字人文知识图谱,学界在人文历史古籍整理的研究方向、呈现效果以及服务目标方面,都将获得崭新的拓展。北京大学信息管理系数字图书馆的王军教授介绍,知识图谱是人工智能领域的一个分支,也是数字人文使用较多的一种研究方法。目前,他的团队通过对240万字的宋元思想史著作构建起知识图谱,最终形成一个涵盖宋元400年间超过2000位学者信息的可视化图形产品,用户从中既能宏观地看到这个时期学术思想发展的波峰波谷,也可以细致地查询每个学派形成、发展、壮大和衰落的具体情况。
传统的古籍数字化,只是单纯地将古籍的文字内容搬上网络以便简单检索,但知识图谱却可以执行更复杂的查询。王军举例,如果要查“王安石的同乡里有没有陆九渊的门人”这样的问题,传统的检索方式根本无能为力;但是在知识图谱的帮助下,只需要先点击查出王安石的籍贯是临川,再点击查询哪些临川人是陆九渊的弟子,这个复杂查询就可以实现。
知识图谱甚至还可以帮助学者发现过往忽视的一些学术空白或薄弱环节。杨时是宋代理学大家,在宋代理学和新学的斗争中起到了关键作用,同时他也是成语故事“程门立雪”的主角。
但是通过知识图谱对宋代学术流派的梳理,并比对已发表的宋代学术史论文,王军发现研究杨时的文章只有30余篇:“我们专门请教了哲学系的老师,哲学系老师告诉我们目前中国大陆学者30年未发表关于杨时的研究,这跟杨时在历史上的贡献以及在中国学术史的贡献是不相匹配的。”
大数据重构经典古诗词,让当代人体会到古人情绪
在商业领域,通过大数据分析对用户的性别、年龄、消费数据等信息进行“画像”,商家可以对目标人群精准投放广告,这种商业模式影响着今天我们每一个人。但如果用大数据技术去研究古人的诗词作品,又会发生什么?清华大学人文学院教授刘石介绍了国家社科基金重大招标项目《基于大数据技术的中国古典文学经典文本分析与研究》,通过对历代作家生平事迹、语言风格、文体以及研究论文的大数据研究,来发现传统人工阅读方法所未能发现的问题或规律,并对以往主观性印象式的论断进行实证。
数字人文具备可视化的特点,在人文普及中也有广阔的应用场景。此前浙江大学CAD&CG国家重点实验室出品的一组可视化唐诗宋词作品在网络上引起强烈反响,该项目通过对21000首词、近1330位词人、近1300个词牌的大数据分析,呈现出描绘词人生平轨迹的时空图、描述意向以及对应情绪表达的关系图。比如用户可以发现,原来唐代诗人中的社交女王是薛涛,她与白居易、杜牧、刘禹锡等十余位诗人有直接交往。而《全宋词》中出现最多的词为“东风”“何处”“人间”,文人作品中写到“酒”时,一半是在追思,三成是开心。
通过建制化保证数字人文优秀成果持续产出
数字人文在学术研究和人文普及上都有着巨大发展空间,可以说,数字人文的未来已来。但让众多专家学者感到担忧的是,中国在数字人文领域起步较晚,发展水平与先进国家有较大差距。北京大学图书馆研究员聂华透露,截至今年10月,全世界一共有210家数字人文研究中心,其中90%以上在欧美各大名校。而我国目前只有3家,数字人文中心数量相对匮乏,建制也不够完善。耶鲁大学的数字人文中心不仅涵盖文史哲领域,还包括艺术、教育、心理学等多个学科;斯坦福建立的跨学科研究中心联结了图书馆、信息科学以及众多人文学科。
北京大学信息管理系教授张久珍也对此表达了担忧:“过去有句话说‘敦煌在国内、敦煌学在国外’,从最近几年中国的数字人文项目的发展来看,我其实有点担心‘中国学在国外’”。在张久珍看来,由于国外的数字人文研究中心起步时间早,他们的数据更全面、更可靠,并且提供的可视化工具、文本分析和功能分析都很强,可能会吸引大量中国的人文学者进驻国外的数字人文中心,而今后的研究成果也将留在国外,造成“中国学在国外”的后果。
不少专家呼吁,中国需尽快发展数字人文研究中心,通过建制化来保证数字人文的人员和经费持续投入,才能保证优秀成果的持续产出。
作者:卫中