数字版《永乐大典》上线,字节跳动未来3年将完成万种古籍智能化
《永乐大典》是明成祖(朱棣)永乐年间编纂的一部大型百科全书,大量保存了中国14世纪以前的文学、艺术、史地、哲学和应用科学等方面的丰富资料,是中华典籍瑰宝。据统计,《永乐大典》副本仅有400余册存世,总数不及原书的4%,分散于8个国家和地区的30多个公私藏家手中。国家图书馆共收藏《永乐大典》224 册,约占现存总数的一半。
此次《永乐大典》高清影像数据库(第一辑)收录了国家图书馆藏《永乐大典》40册、75卷,共涉及14个韵部、17个韵字、1800部书,除呈现《永乐大典》高精图像、整体风貌及相关知识外,还尝试对部分大典内容做了知识标引示范,为后续《永乐大典》的知识体系化、利用智能化进行探索。
为传承文脉,我国2007年启动实施中华古籍保护计划,历经10余年的不懈努力,我国古籍保护事业已取得瞩目成就。然而,受人力、技术制约而造成的古籍保护与传承困境依然存在,一方面古籍数字化的工作还任重道远;另一方面,大众并没有太多机会接触到艰涩难懂的古籍文本。
数字化、平台化、智能化成为古籍再生性保护的方向。从2021年6月开始,字节跳动联合国家图书馆等机构,在古籍修复、活化和数字化等领域开展了一系列合作,包括捐资1000万元,联合成立古籍保护专项基金等,定向修复百余册件珍贵古籍。2022年3月,北京大学与字节跳动合作成立“北京大学—字节跳动数字人文开放实验室”,致力于研发开放的“古籍数字化平台”,将人工智能和大数据应用在海量的古籍文献上,实现对古籍内容的智能化整理和古文本知识图谱的自动生成。2022年10月,古籍数字化平台“识典古籍”正式上线,应用了AI(人工智能)模型、分词检索技术等,向公众免费开放685部经典古籍。
与其他古籍数字化平台相比,“识典古籍”具有自身的特点,页面简洁,浏览流畅,提供影印底本作为参照,还具备主题词检索和繁简体转换功能,便于专业研究人员、广大古籍爱好者使用。同时,“识典古籍”书目将持续更新,后续将上线手机移动版。未来,“识典古籍”将向全社会开放古籍阅读检索研究能力,还将实现全自动整理校对,更高效地实现存量古籍全部数字化。同时,平台也鼓励拥有文献的学者自行上传文献,用户甚至可参与再创作和再阐释,助力古籍文化传承和研究。
去年,“北京大学-字节跳动数字人文开放实验室”已经制定了初步目标:在未来3年内陆续完成1万种古籍的智能化整理工作,基本覆盖儒家、道家和佛学的核心典籍目录。项目团队的技术理想是通过人工智能算法实现古籍全自动整理校对。如果能够实现这一目标,团队也非常愿意将其开放给全社会,让人们能够免费使用这一平台。