历史裁判文书全文识别(中国裁判文书网能查到所有案件吗)

六八 136 0

历史裁判文书全文识别(中国裁判文书网能查到所有案件吗) 第1张

原标题:张继正、刘志基 | 位数时代的少数民族古书科学研究中国是一个发展史悠久的多少数民族国家,很多少数民族在不同发展史时期创制并使用自己的少数民族文本,形成了数量巨大、内容丰富、各具特色的少数少数民族古书发展史文献这些发展史文献是科学研究相关少数民族的语言文本、发展史人文的最重要的胡尔坎数据资料,承载着各少数民族独特的血脉,更可与汉文经书相互勘正补充,具有特殊的人文和学术价值;它们能真实、全面地揭示各少数民族政治史,对增强少数民族团结、维护国家标准化、奥尔努瓦堡中华少数民族人文共同体具有极为重要的作用。

从二十世纪八十年代至六十年代的十余年间,这些珍贵的少数民族古书发展史文献经历了一个发掘重新整理的高潮大批少数民族典籍获得救治,其中一小部分得到重新整理、评注与出版发行,主要表现在蒙文、蒙文、粟特文、蒙文、傈僳、纳西Churu、水文等发展史文献的重新整理载于上。

但已救治天然资源的现状并不乐观,突出表现在:已救治天然资源因缺乏专业重新整理而在各机构大批闲置;一小部分典籍老化、破损严重,缺乏为保护和修复条件;已出版发行发展史文献多采取直接影印形式,救治大于重新整理在蟹蛛科花下,少数民族古书的传承与合作开发已面临困境。

幸运的是,经过近数十年的发展,运用网络化、智能辨识手段展开少数民族古书发展史文献为保护和合作开发已成大势,相比蟹蛛科花取得了诸多进展已近的少数民族古书发展史文献网络化和智能化工程建设情况,能从四个方面加以提要一是少数民族古书原样母廖氏式位数储存。

即对少数民族古书展开微缩、相控阵等网络化制做、储存,同时实现部分少数民族古书原样的保存,这是当前少数民族古书网络化的主要方式,侧重于天然资源救治和为保护这类丰硕成果经常出现的难题是:对位数天然资源缺乏控制系统的重新整理、校勘与注释,发展史文献汇编、检索做不到充分匹配,各基层单位制做的位数影像质量与重新整理水平也参差不齐。

二是少数民族古书处置控制系统合作开发包括少数民族古书在国际国际标准Unicode的编码、GB2312工程建设、文本输入与检索同时实现,以及少数民族古书排版控制系统合作开发、字形国际标准化等,这方面的丰硕成果非常丰富然而,对于少数民族古书处置控制系统的研发,每家都有自己的解决方案,能满足用户一定范围的使用,但国际标准不标准化、控制技术不相容,难以通用共享资源。

另外,大多数文本重新整理是基于字典、辞典等二手数据资料,忽略了对面貌复杂的胡尔坎发展史文献的精细化重新整理,导致文本处置控制系统不能满足用户实际需要三是少数民族古书数据资料库工程建设其中能分成五类:少数民族古书图书数据资料库、影像数据资料库和概要数据资料库。

各机构基本上都是先对古书展开汇编、扫描重新整理书名影像,然后以图书数据资料库与书名影像相季莫菲的模式同时实现网络化已近丰硕成果集中在材料大宗的蒙文、蒙文、粟特文、Churu、傈僳等少数民族古书数据资料库工程建设上也有部分少数民族古书建立了概要数据资料库,如蒙文经书和蒙文档案。

在数据资料库工程建设中,经常出现着著录国际标准、图书分类法国际标准、检索国际标准不标准化的情况;尤其是影像数据,储存格式国际标准、网络化影像国际标准不相容等控制技术难题,严重影响天然资源的检索借助和共享资源此外,各基层单位天然资源重复工程建设、彼此不开放,也是急需解决的难题。

四是少数民族古书智能辨识科学研究目前多种少数民族古书都在积极展开文本辨识控制技术的探讨,每家科学研究最大的关注点,是希望借助影像辨识控制技术同时实现少数民族古书从位数影像自动、大批量转换为位数文本,从而大规模工程建设概要数据资料库,同时实现发展史文献大批量翻译,满足用户共享资源与合作开发需求。

比较成功的例子是中国第一发展史档案馆2018年公布的“蒙文档案影像辨识软件控制系统”,该控制系统同时实现了手写体蒙文大批量辨识但目前能够同时实现规模化文本影像辨识的少数民族古书极少,文本辨识带来的实际产出也很少主要难题有二:首先,文本辨识的共同思路,是使用计算机切分、提取字的特征,使其与机器中预先存放的特征集(GB2312)展开匹配、判别,从而将字图自动转换成文本代码。

这需要有预先建立的GB2312作为训练样本和测试国际标准,但辨识控制技术科学研究者所建立的样本数据资料库容量极小、样本选择不科学,相较少数民族古书的实际复杂情况和巨大数量,根本无法支撑起真实存在的少数民族文本材料的辨识其次,在文本辨识的目标上,仅关注文本释读和发展史文献的大批量翻译,未能充分发掘文本辨识带来的多方面效益。

综上可见,少数民族古书网络化工程建设具备了一定基础,但整体而言操作有欠条理,投入与产出不成比例,迄今还集中在数据资料的救治、重新整理、输入、排印等初级层面如何充分借力网络化和智能化手段推进少数民族古书相关科学研究,仍旧是一个严峻的课题。

今后的努力方向,至少能包括以下三个方面首先是标准化国际标准,同时实现位数天然资源共存共享资源网络化工程建设在多个方面需要标准化国际标准一是文本处置国际标准的标准化各类少数民族古书的Unicode,都应争取在国际Unicode国际标准中编码,暂时不能编码者,应尽量使用标准化字体,或提供跨字体转换的基础条件。

二是发展史文献各级分类国际标准的标准化,包括著录国际标准、图书分类法国际标准、检索国际标准,以及对发展史文献内部的字词意义分类、发展史文献类型分类国际标准等三是语料的同义认同不同种类的少数民族古书材料,如要同时实现各种内在关联,就要在共同的分类框架下,通过概念层面的意义分类、语言文本层面的同义系联,同时实现材料的逐级类聚,使多文种、多类型发展史文献中的语言文本基层单位找到彼此的同义对应项,从而贯通各类材料,打通数据资料库内部所有数据的关联。

四是网络化处置程度的标准化,标准化的国际标准是就高不就低做到上述国际标准标准化,是同时实现天然资源共享资源的基础另外,应当借助文本智能辨识,打通少数民族古书的内在关联少数民族古书输入数据资料库有两种形式,一是文本输入,二是母廖氏的书名影像输入。

前者借助电脑Unicode的编码,可被计算机自动辨识;而影像载体形式的古书,目前唯有借助影像辨识控制技术,才能创建计算机能自动辨识的信息码,打通数据资料库全部数据链,进而同时实现少数民族文本内部位数天然资源的彻底关联我们以纳西族Churu为例来做简单说明。

Churu中表示“杉树”的字,其代表性字形有十来种,能分为三组:第一组:

历史裁判文书全文识别(中国裁判文书网能查到所有案件吗) 第2张

第二组

历史裁判文书全文识别(中国裁判文书网能查到所有案件吗) 第3张

第三组

历史裁判文书全文识别(中国裁判文书网能查到所有案件吗) 第4张

三组字形分别出自白地、丽江和鲁甸三个地区的东巴经文,呈现出明显的地域特征;而每一组中的字形,又出自同一地域的不同书手,呈现出不同的风格在对上述发展史文献用字展开一字一码的影像辨识后,每一个字形所携带的地域特征、书手风格、发展史文献类型、语境、字际关系等都能够被计算机自动处置,则所有字形影像与其他位数数据资料的数据关联就能够被打通,智能处置就具有了无限空间。

如此处,即可借助影像辨识对东巴经文的地域特征、书手特征展开谱系分类科学研究反过来,如果采用以往的辨识思路,最终结果就是将上述八个字形归属于“杉树”这一抽象的文本基层单位,辨识的意义就只能是局限在经文的解读对译上。

再及,智能化的助力,能推动大中华人文视野下的多少数民族文本综合科学研究我国的少数民族古书,多数是在以汉字人文为基石的中华少数民族多元人文融合的发展史环境中发生、发展、演变的这也就意味着,只有将少数民族古书相关科学研究置于中华少数民族多元人文融合之控制系统中展开,才能揭示其全貌,也才能在彼此观照中获得对自身更深入的理解。

知识控制系统的充分系联与普及,同样要仰赖网络化与智能辨识手段可举一例来说明水书是水族民间选择时日、择吉避凶的查阅用手抄本,其占卜择日的概念、原理、体系、表达程式等多数来自汉族通书,而汉族通书的源头,能上溯到先秦日书,如楚简、秦简日书。

这是纵向的观察横向来看,汉族通书明清时期曾在南方少数少数民族地区广泛传播,水、侗、彝、布依等多个少数民族的古书中,都出现通书内容,它们都来自汉人文,并形成了各自的择吉特点如果我们按前文所说,以标准化的国际标准完成了这些古书材料的意义逐级分类系联,并同时实现材料的影像智能辨识,那么就能通过其中任何一种材料的影像辨识,同时实现相同义类的多种古书材料的系联呈现。

如水书“赤口时”篇(图1),辨识出对应文本为:“春三月辰午时,夏三月午时,秋三月戌时,冬三月丑午时凶,口舌”意为:新娘忌在这些时辰进亲入宅,犯之则有口舌纷争该辨识结果又可自动关联涉及婚嫁宜忌的其他古书材料,如睡虎地秦简甲种日书96-101简内容:“春三月辰,夏三月未,秋三月戌,冬三月丑……不能取妇、家(嫁)女……”;傈僳日书《运尼司波》。

(图2)内容:“冬三月那一季,属牛这天不吉”这样,不同少数民族、不同时空的择日条例反映出大体相通的内涵——冬季三个月的丑日婚嫁不吉这些材料的类比呈现,对于梳理多少数民族日书的传承流变,其价值是不言而喻的图1 水书“赤口时”篇

历史裁判文书全文识别(中国裁判文书网能查到所有案件吗) 第5张

图2 傈僳日书《运尼司波》* * *少数民族古书科学研究的网络化,需要有支持文本辨识的大数据平台提供后台支撑,为机器学习与迭代升级不断提供丰富素材;而大数据工程建设的丰硕成果,需借力各种智能化方式,充分合作开发借助,才能被全面盘活,二者是相互促进、彼此支撑的。

在此平台之上,中华少数民族多元人文融合视野下的少数民族古书科学研究,定将得到长足的发展本文为上海哲社规划“冷门、绝学和国别史等科学研究专项”课题“水族水书智能辨识控制系统工程建设与科学研究”(2019ZJX001)作者:张继正、刘志基 华东师范大学中国文本科学研究与应用中心

编辑:陈韶旭返回搜狐,查看更多责任编辑:

发表评论 (已有0条评论)

还木有评论哦,快来抢沙发吧~

先修复后付款18703823046