3月18日下午,“傅璇琮学术讲座”第十九讲(第二场)在蒙民伟人文楼124室举行。首都师范大学电子文献研究所所长尹小林继继作题为“古籍数据库的建设与应用”的讲座。我院中文系副教授李飞跃主持讲座并作总结,图书馆刘蔷老师、任平老师、付佳老师及数十名校内外师生出席。
尹小林演示了古籍数据库的复杂检索和统计功能。他以庞朴先生查考《隋唐嘉话》、冯其庸先生查考《再生缘》作者以及在中国古籍中寻找文意近似的日本汉诗为例,指出今天的研究者应该既能加工、组织、挖掘数据,又能熟练使用各种检索软件和程序。古籍数字化是数据和软件的结合,在特定需求的基础上实现结果输出,方可实现数据和软件价值的最优化。
接下来,尹小林结合具体案例介绍了数据文献检索在学术研究中的应用。他通过检索“久仰”“出豁”二词,发现还有较《辞源》列举更早的用例。这也说明了数据库中数据排序的价值。经过排序后的词条可按时间展示,既方便研究者择选,也能较为准确地刻画出某一词汇在文献中的兴废、因革。尹小林还运用日记数据库,对传统谚语“八月十五云遮月,正月十五雪打灯”进行验证,揭示了节日与天气之间的联系。数字文献检索具有快捷方便,及范围广、规模大等优势,一定程度上可以帮助研究者追寻细节,发现蛛丝马迹。
大数据统计还可帮助研究者发现有意思的学术现象。尹小林列举了若干数据统计结果,如国标一二级字库中的字在唐宋绝句中的使用频率很低,四书无“字”,诗歌檃栝及成语镶嵌等。这些现象都值得研究者进一步深挖。他强调指出,文献统计需要有固定的数据源,否则统计将因标准不一而失去意义。
在交流环节,刘蔷、任平、付佳等就检索程序的使用、数据库建设者如何订立标准等问题,与尹小林作了交流探讨。尹小林认为标准的设立十分重要,古籍处理需提前设定标准,而这主要是由建库者的需求所决定的。郭华苓同学提出可否对《说文》中宋人常用而唐人又不习惯使用的字加以统计。尹小林肯定了这一想法,指出说文许多字形无法与楷体字库对应,需另建字库,并将对应字形关联,才能就用字情况有效比对。