古籍保护是延续中华文脉的一项艰巨任务。2月8日,由国家图书馆、北京大学和字节跳动公司合作推出的《永乐大典》高清影像数据库(第一辑),在古籍数字化平台“识典古籍”正式上线,免费面向公众开放。这部明成祖朱棣永乐年间编纂的大型百科全书,得以在600多年后的今天,以在线数字图书的方式和读者见面。
我国现存古籍有20万种,据不完全统计,其中已经进行数字化扫描影像的有8万种,而实现文本数字化的仅有3万种至4万种。这意味着,大量的古籍无法在网上找到,或只能阅读影像版本,无法进行内容检索,要找到所需信息,只能一页页翻阅。在业界专家学者看来,古籍保护传承应尽快推进古籍点校整理和数字化,探索多种方式活化古籍。然而当前,中国的古籍数字化还处于初级阶段,面临技术难度高、资金缺口大、人才紧张等难点。
字节跳动在古籍保护方面做出了诸多尝试。从2021年6月开始,字节跳动联合国家图书馆等机构和中国文物保护基金会等,在古籍修复、活化和数字化等领域开展了一系列合作,包括捐资1000万元,联合成立古籍保护专项基金等,定向修复百余册件珍贵古籍。2022年3月,北京大学与字节跳动合作成立“北京大学—字节跳动数字人文开放实验室”,致力于研发开放的“古籍数字化平台”,将人工智能和大数据应用在海量的古籍文献上,实现对古籍内容的智能化整理和古文本知识图谱的自动生成。2022年10月,古籍数字化平台“识典古籍”正式上线,应用了AI(人工智能)模型、分词检索技术等,向公众免费开放685部经典古籍。
过去,古籍的数字化整理主要依赖人工完成,而蓬勃发展的人工智能技术正在给古籍整理提速。在字节跳动的加持下,“识典古籍”平台主要使用了3种技术,即文字识别、自动标点、命名实体识别。文字识别技术,是对古籍的影印版文字进行单个切分、文字识别、顺序识别。自动标点技术,是通过序列标注的方式对古籍自动进行标点划分。命名实体识别,则是通过序列标注识别古籍文本中的命名实体,支持识别人名、地名、书籍、时间、官职等信息。目前行业内OCR识别准确率平均为93%至94%,“识典古籍”的准确率为96%至97%。
与其他古籍数字化平台相比,“识典古籍”具有自身的特点,页面简洁,浏览流畅,提供影印底本作为参照,还具备主题词检索和繁简体转换功能,便于专业研究人员、广大古籍爱好者使用。同时,“识典古籍”书目将持续更新,后续将上线手机移动版。未来,“识典古籍”将向全社会开放古籍阅读检索研究能力,还将实现全自动整理校对,更高效地实现存量古籍全部数字化。同时,平台也鼓励拥有文献的学者自行上传文献,用户甚至可参与再创作和再阐释,助力古籍文化传承和研究。
古籍保护下来的同时,更要推广出去,让更多人从中领略中国文脉。近年来,抖音愈发成为古籍知识传播的重要平台。《永乐大典》高清影像数据库上线期间,吸引了张宏民、刘芳菲、马家辉、三一博士等抖音达人的热烈讨论,带动#40册永乐大典首次公开 话题登上抖音热榜,播放量超过4000万。
免责声明:市场有风险,选择需谨慎!此文仅供参考,不作买卖依据。