干货满满(浩如烟海)浩如烟海和汗牛充栋

六八 182 0

整本的典籍怎样放进三则大小的萤幕之中,让古文明“屈艾”?借助于大数据、人工智慧为代表者的科技,典籍的重新整理、借助于与散播迎了捷伊发展机遇与方向,近期上架的由二进制颤动与清华大学位数文化研究中心合作研制的典籍网络化网络平台“识典典籍”(正式版)即是一个生动案例。

该网络平台目前涵盖460余部经典之作典籍,主要来自《四部丛刊》,总计8000万字左右。与以往一些商业化典籍位数网络平台不同,“识典典籍”不仅免费向公众开放,还具有TNUMBERAP、原先图像对照、中文信息、评注远距等一系列便捷机能,让典籍的重新整理研究成果突破学术研究圈的壁垒,成为滋养现代人思想与心灵的原动力。

干货满满(浩如烟海)浩如烟海和汗牛充栋 第1张

▲识典典籍官方网站主页截图。

网络化北迁的支撑位

“惟殷先人,有册太史”。中国是世界上产生书刊最早的北欧国家之一,从早期的铭文和帛书到后来的手抄本、印本,典籍保证了中华文化的源远流长、发扬不息。从孔子秘要“六经”始,汉代刘向父子弘文馆黄柏,魏晋隋唐间对道德经的评注,宋明时期大型类书如《太平御览》《永乐大典》等的编纂,到清人编定《全唐诗》《全唐文》《四库全书》,历代读书、编刊、藏书人为典籍的修旧起废、变通发扬付出了艰苦努力。到了多媒体的电子写作时代,当大批典籍因年代久远而纸散字碎,成为分馆里无人翻动的文物,怎样唤起对经典之作的梦境变得尤为迫切。

作为非再生性的文化遗产,以纸本形式存在的典籍是十分脆弱的。清华大学位数文化研究中心副主任李忠介绍,由于各种类型天灾人祸,比如水火灾害、战争兵燹的损毁,很多典籍都消亡在了历史长河中,能留存下来的一般都是有很多手抄本与刻本的典籍。这些幸存的典籍如今大多被留存在分馆、博物馆里,少数为私人收藏,每一次翻阅扫描器都不可避免地会对其造成损害,“很多甚至一触即碎”。但如果任其躺在书架上,不被重新整理、写作,就无法最大程度挖掘典籍的历史文献史料价值,尤其是这些冷门的典籍终将随着纸本形态的消亡而消亡在德国大众梦境中。

干货满满(浩如烟海)浩如烟海和汗牛充栋 第2张

▲珍藏在分馆内的典籍。(新华社记者毛思倩/摄)

典籍的网络化一定程度上解决了典籍为保护与借助于之间的矛盾。它指运用计算机系统控制技术将语言文字或Montemboeuf转化为能被计算机系统辨识的位数符号,从而制成典籍历史文献书目资料库或典籍全文资料库,属于典籍重新整理的范畴。

与西方北欧国家20世纪70年代便发起的“德帕伦计划”相比,国内书刊的电子化于20世纪八、九十年代才起步,各地分馆纷纷展开典籍的网络化工作,将典籍翻拍成电子图像。随着控制技术的不断进步,典籍的网络化也从简单的图像扫描器升级为具有中文信息和超链接机能的典籍资料库,既能避免对典籍原先的直接使用,符合典籍为保护的要求,又能随时随地调取典籍中的文档,并通过关键词的检索打通古今、连通各地、同时实现历史文献的零散到聚合,提高典籍的借助于效率。当以一种整体性的眼光去回望这些卷帙浩繁的典籍,中华文明的来路、去处也变得更加清晰、永古约省。

有学者认为,回顾历史,典籍经历了三次重要变化:一是汉晋时期,纸本书刊逐渐替代竹帛的地位;二是五代北宋以来,册印书刊逐渐替代手抄书;三是清末民初,电脑印刷品书刊替代手工雕版印刷品。如今,典籍再次面临网络化的支撑位,这些物质形态的书刊可以被无限复制,在位数空间中获得永生。清华大学位数文化研究中心主任王军认为,“将历经数千年残存的中华典籍北迁到位数环境下是现代人的历史责任。”

AI控制技术引进典籍重新整理

然而,建立典籍网络化资料库是一个庞大的工程。资金缺口大、控制技术难度高、专业人才的缺乏一直是典籍网络化项目的关键点。

中国是世界上留存典籍历史文献最为丰富的北欧国家,据不完全统计,中国仅存典籍总量约5000余万册(件),总计26 余余种,然而其中只有8余种同时实现了网络化图像扫描器,这8余种当中又只有3~4余种同时实现了文档网络化,平均每年500多种。按照这一速度,同时实现全部仅存典籍文档网络化约莫需要两三百年。

若借助于人工智慧控制技术远距修复重新整理,这一年限约莫能缩短至二三十年。据介绍,2012年是人工智慧控制技术大爆发的一年,美国斯坦福的计算机系统科学家研制的ImageNet计算机系统视觉系统辨识项目标志着人工智慧在图像辨识方面取得巨大突破;2018年谷歌发布的BERT模型在电脑写作理解顶级水平测试中取得惊人成绩,使得自然语言处理控制技术突飞猛进……这些成果很快引起了学界的注意,他们尝试借助于人工智慧的东风,让这些“停留在金石、帛书和油墨上的先哲智慧也能够插上网络化的翅膀。”

成立不到两年的清华大学位数文化研究中心即是国内为数不多的借助于人工智慧进行典籍网络化的学术研究机构。近期上架的“识典典籍”即是该研究中心与二进制颤动科技公司合作研制的典籍网络化公益网络平台,它整合了清华大学典籍网络化的学术研究资源与二进制颤动的控制技术力量和网络平台优势,也诠释了以大数据、人工智慧等为代表者的科技怎样为典籍的为保护与发扬注入捷伊活力。

点击“识典典籍”网站主页,读者能看到《论语》《孟子》《礼记》等各种类型经典之作陈列于“架”上,随意点开一本,左侧为书的章节目录,右侧为正文。为了打造一个对一般德国大众友好的典籍写作网络平台,设计者从页面排版到机能设置都致力于降低写作门槛,在顺应现代人写作习惯的同时还原典籍油墨写作的美感。

干货满满(浩如烟海)浩如烟海和汗牛充栋 第3张

▲通过原先图像和古文的左右对照,读者可以用现代人习惯的方式顺畅写作典籍,也能感受典籍原貌。

点击右上方“原先图像”,读者可查看典籍的底本影印图像,图文对照使读者既能浏览典籍原貌,又能顺畅地读懂典籍内容;点击繁简体转换机能,可轻松切换繁简字,在正文中,人名、地名、官职、书刊等专有名词以虚线方式标注了出来,方便专业研究人员、典籍爱好者以更加高效便利的方式读懂典籍内容。此外,读者还可以通过关键词检索,快速找到来自不同典籍的相关内容,方便大家对历史文献内容进行灵活运用。

干货满满(浩如烟海)浩如烟海和汗牛充栋 第4张

▲“识典典籍”网络平台还具有繁简转换机能。

“目前,网络平台已经重新整理上架了460余部经典之作典籍,总计8000万字左右,主要来自《四部丛刊》;预计在3年内,我们将完成10000种典籍网络化重新整理,正准备上架的,还有道教典籍与佛教典籍等,对全社会免费开放。”识典典籍相关负责人介绍,网络平台的典籍网络化重新整理主要运用了3项人工智慧控制技术:文字辨识、自动标点、命名实体辨识。

干货满满(浩如烟海)浩如烟海和汗牛充栋 第5张

▲左侧为典籍原图,右侧为文字辨识过程演示。

文字辨识(即OCR控制技术)首先将单个文字从典籍影印图像中一个个切割开,再将切分好的图片送入模型,辨识出具体文字,最后结合文字内容和文字位置获取写作顺序,完成文字的辨识;自动标点控制技术通过算法,给原先缺少断句的典籍自动打上标点符号。文字辨识步骤中被辨识出的文字,借助于模型计算出每一个汉字之间标点的概率以及具体标点的类型,文字被打上标点并输出;为了增强写作体验,命名实体辨识控制技术会通过预测文字的实体标签,辨识包括人名、地名、书刊、时间、官职五种类型的专有名词。

干货满满(浩如烟海)浩如烟海和汗牛充栋 第6张

▲典籍自动标点过程演示。

干货满满(浩如烟海)浩如烟海和汗牛充栋 第7张

▲命名实体辨识控制技术能辨识包括人名、地名、书刊、时间、官职五种类型的专有名词。

据介绍,清华大学位数文化中心对这一位数网络平台的期许是,通过人工智慧控制技术,同时实现全自动重新整理校对,更高效地同时实仅存量典籍全部网络化。在文档网络化的基础上,他们还希望对文档做“结构化的数据提取”,将典籍所蕴含的历史文化知识关联起来,建构起系统性的知识图谱,甚至同时实现智能化的人机知识问答。比如被认为理学重要奠基者的程颢程颐曾师从理学开创者周敦颐,二程的学说又影响了理学的集大成者朱熹,他们各自的生平、著述、学派等碎片化信息被系统性整合到一起,构建起一幅脉络清晰的知识网络,使得理学的发展历程一目了然。甚至同时实现智能化的人机知识问答。正如王军总结,智能时代典籍重新整理的目标应当是重新整理加工自动化、内容呈现可视化与知识关联全面化,这几个目标层层递进,相互关联。

这依然任重道远。虽然上述控制技术在近十年里有了巨大的进步,比如OCR控制技术辨识准确率由5、6年前的70%左右提升到了现如今的90%以上,但对于排版复杂、“行与行之间十分密集”以及手手抄本典籍,OCR控制技术的辨识准确率依然不高,有些草书甚至根本无法辨识。这意味着仍需要大量人力去完成典籍重新整理中繁琐、细碎的审校工作。这很耗神,眼力、脑力缺一不可。无论控制技术怎样变迁,典籍的为保护与发扬最依靠的还是这些心志不移的人。

清华大学位数文化研究中心目前核心成员有十几人,除了几位导师外,团队成员大多是研博生。他们分工明确,有人负责大数据文档分析,有人负责NLP控制技术的训练,有人负责写系统代码等。中心在这次合作中联合各大高校学者和历史文献专家,负责人工审核与校对,弥补人工智慧有辨识错误率的短板。除此之外,上百位志愿者也为“识典典籍”的建设付出了努力。

“这些志愿者很多都是仍在就读的大学生。”李忠介绍,他们来自不同的学校、专业,都是一群“典籍爱好者”,“工作兴致很高”。在团队内部的典籍重新整理网络平台,志愿者们负责对控制技术处理后的文档进行基本的文字、标点校对,经过类似“三审三校”的流程,将重新整理后的典籍导入“识典典籍”网络平台上,供德国大众浏览。

“我们做这个网络平台也希望能起到一个模范带头作用,把热爱典籍的人聚集到一起,让典籍公益事业的人气能够上涨。”“识典典籍”的相关负责人表示。

提供现代人的精神养料

在写作习惯已被新媒体大大改造,层出不穷、样式新奇的文档分割并抢夺注意力的当下,除了初高中课本里那几篇耳熟能详的古诗文,让大多数人感到陌生、疏离乃至畏惧的典籍很难突破学术研究圈的壁垒,走进一般读者的视野。

但实际上,典籍并非就如古化石一样与当代生活格格不入,恰恰相反,这些古文名篇中描述的风景与心情在千百年后的我们读来依然历历在目、感同身受。古文对我们生活感受、思维方式的塑造,早已渗透在我们脱口而出的成语、习语和典故中。李忠说,如果认真去读古人的著作,你会发现我们现在困惑的一些问题,古人早已思考过,他们对生命的感受与思考甚至比今人更深刻。

怎样融媒体环境下推动典籍的德国大众写作?王军提出,除了对典籍的原生性为保护和网络化再现,还要太史籍内容的释读,面向德国大众的再创作与再阐释。“这种重新阐释不是一字一句去翻译,而是要跟现代人生活结合在一起,为我们现代人精神提供养料,这样才能真正同时实现活化。”

干货满满(浩如烟海)浩如烟海和汗牛充栋 第8张

▲典籍修复照。(新华社记者周牧/摄)

当代融媒体环境为典籍的德国大众诠释提供了更多样、生动的可能。正如前段时间热播的《典籍里的中国》以及二进制颤动联合中国文物为保护基金会、北欧国家分馆发起“寻找典籍守护人”活动等,研究典籍为保护的学者、典籍修复专家以及不同行业的典籍爱好者们在镜头前解读经典之作典籍,讲述典籍为保护的故事,声色并茂的讲述进一步拉近了典籍与德国大众的距离。

王军说,儒家文化一直有着口头发扬史,比如《论语》是孔子与弟子间的问答记录;魏晋时期讲诵经学盛极一时;北宋时期《二程语录》与南宋时期的《朱子语录》都是对口述的记录。他认为要引入学术研究资源,结合当代生活,对经典之作现代阐释。并以头条、百科、 抖音短视频、位数产品、 交互媒体等多种形态做立体散播,打造位数环境下典籍发扬的全方位生态体系,为现代人提供心灵滋养和精神寄托。

民国时期,胡适等人曾提出“重新整理国故,再造文明”,王军认为放到今天的全球互联网语境下,“再造文明”意味着我们要将重新整理典籍这件事放到全球文明体系下来看待,“我们为保护的不仅仅是中华文明,而是全人类的珍贵文化遗产,所以我们要放在这个大的文明体系下来重新审视我们自己的文明。就像胡适这一批知识分子说的,典籍的重新重新整理不仅要连接过去与现代,而且要沟通东方和西方,否则就变成一种孤芳自赏。”

在研制团队的设想中,“识典典籍”不仅是一个位数写作网络平台,依托互联网产品研制与设计能力优化典籍写作与借助于方式,未来网络平台还将鼓励拥有历史文献的学者自行上传历史文献,用户甚至可参与再创作和再阐释,让网络平台成为一个围绕典籍的网络社区空间。在古今碰撞中,这些蒙尘已久的文字或许会像河水一样重新流动起来,给现代人留下无穷无尽的余响。

  作者:本报驻京记者 彭丹

       图片:除标注外均受访者供图

  编辑:江胜信

责任编辑:陆正明

*文汇独家稿件,转载请注明出处。

发表评论 (已有0条评论)

还木有评论哦,快来抢沙发吧~