论文网首页|会计论文|管理论文|计算机论文|医药学|经济学论文|法学论文|社会学论文|文学论文|教育论文|理学论文|工学论文|艺术论文|哲学论文|文化论文|外语论文|论文格式
中国论文网

用户注册

设为首页

您现在的位置: 中国论文网 >> 医药学论文 >> 医学论文 >> 西医学论文 >> 正文 会员中心
 中医学论文   西医学论文   基础医学论文   医学论文
中医古籍书目数据库标注中若干问题的探讨

                  作者:孙海舒,李斌,王蕊,符永驰 

【关键词】  中医古籍;书目数据库;古籍标注

以往中医古籍整理研究采用的传统方式受到技术条件的制约,虽然在中医古籍的保存方面取得了很大成就,但是在利用方面效果并不显著。虽然目前国内对古籍数字化的研究开展了很多项目,而且诸多企业也在积极参与,但由于商业运作模式的不同,各个软件之间很难兼容,而且我们对软件只有使用权,没有修改权,这在很大程度上制约了古籍数字化、智能化的发展。目前,我们采用具有自主知识产权的古籍标注软件以及相应的发布器,古籍标注软件(古籍编辑器)的作用是通过在原始图像上增加一些置标信息,以便加工后的图像可以被有效地检索。它可以输出中医古籍电子书,电子书包含如下信息:置标信息,可用于全文检索和浏览;原扫描图像,可和文本信息对照使用;包括书目的元数据信息,如分类、成书年(出版年代)、作者、版本、馆藏地、内容提要、书籍特征、保管措施、复制状况等。通过使用古籍编辑器和发布器,不仅实现了中国中医科学院图书馆部分馆藏古籍的数字化,而且赋予了这些古籍智能化的特点。因此,通过标注,彻底改变了这些古籍的传播和使用方式,展现出了大量隐含的有用信息。由于我们对软件具有修改权,为古籍有效信息的深度发掘开拓了巨大的空间,并且为今后古籍数字化、智能化积累了一些可以借鉴的经验。wWW.11665.Com
   
  古籍标注分为语义标注和引导标注,目前我们的工作是引导标注。主要工作是抽取已经图片化古籍中隐含的有效信息,将其文本化,便于检索,有别于全文文本化。从某种意义上来讲,实际上是对古籍目录的扩充。通过对古代医籍的标注,发现了其中一些问题,并且试图找到解决问题的方法。

  1  研究意义
  
  中医药古代文献记录了中医学数千年来积累的丰富理论知识和临床经验,不仅具有珍贵的史学价值,而且具有重要的学术研究和开发利用的实用价值,因此,中医古籍在中医学的发展过程中占有极其重要的地位。中医古籍不仅在古代是中医学理论发展和实践探索的源泉和动力,而且对现代中医学的发展和实践也具有启发和指导作用。例如,获得国家科技成果奖的中药“青蒿素”的研制开发,就是受到中医古籍有关“青蒿截疟”记载的启迪。因此,加强对中医古籍内容的深入研究,将会促进中医现代化进程的发展。考虑临床医生、科研人员、医学生等在阅读古籍时确实有很多实际困难,受到时间、空间等多种因素的限制,制约了对古代医籍内容的深度开发,即使有了古籍的电子版本,解决了时间与空间的一般困难,但是要在浩如烟海的众多古籍中找到所需要的信息,仍然是很大的工作量,那么能够检索文本和图片的古籍阅读器将使这个难题迎刃而解,所以针对古籍内容有效信息的抽取将直接影响专业人员对古籍的应用,信息点的取舍直接影响检索结果,所以古籍标注标准解决得当与否决定着古籍阅览器的应用程度,长远来看,影响着专业人员对古籍的深度发掘,进而影响中医事业的健康发展。

  2  遇到的问题
   
  古籍标注质量的优劣直接影响专业读者的检索,进而影响对古籍价值的深度发掘与利用,所以探索适合中医古籍的标注标准是十分必要的。首先考虑的问题是古籍标注的深度,以“临证各科”类古籍为例,仅仅按照目录来进行有用信息的提取是远远不能满足专业检索需求的,因为许多有意义的信息点并未包含在目录中,这类书的目录仅编写到“疾病门”,而其中疾病的具体分类、症状、方剂、自拟方的加减、服药宜忌等内容同样是重要的信息点,对这些内容的取舍直接关系到标注细节问题。其次,如何规范字形也是问题之一。古籍标注的基本原则是尊重原文,但是如何处理繁体字,还有诸如通借、古今、异体等文字,对这项工作就要有一个适当的尺度。还有就是针对一些大型著作,如何处理各类“序”、“叙”、“跋”,也是需要慎重处理的问题。

  3  标注方法探讨
   
  古籍标注基本分为两大部分,一部分是古籍的自然状况,比如分类、成书年(出版年代)、作者、版本、馆藏地、内容提要、书籍特征、保管措施、复制状况等,这一部分需要专人进行标注。本文针对的主要是古籍内容的标注。

  3.1  预览概况
   
  在正式标注之前,应用读图软件对古籍进行浏览,确定书的分册情况,章节信息,有的书目还要留意其具体内容的分类,比如内科杂症类的书籍,除了内科以外,还分别列出妇科、儿科等等;“分科”之下又分“门”、“门”下列“类”,“类”中还根据辨证的差别而继续分列出“阴”、“阳”、“表”、“里”等证。为了利于划分书的清晰层次结构,要根据内容建立不同级别的文件夹,这种结构暂时命名为树状结构。根据数字序列命名,比如一级文件夹为01,二级文件夹则为001,三级文件夹为0001,以此类推,进入编辑界面后可以根据文件夹内容重新命名,但前提是这些分类不能互相跨越。举个例子,如果卷一中的“中风门”跨越到了卷二,那么将不再建下一级文件夹,文件夹仅涉及至“卷”这一级别。建好文件夹后通过“添加”直接进入编辑界面,但文件夹不能以“卷一”、“卷二”这种形式命名,转入编辑器后出现自动排序,需要人工调整,费时费力。预览的主要目的是通过浏览文献的全貌,建立清晰的目录结构,既利于掌握该书的基本结构,又加快了标注速度。需要指出的是,就目前情况而言,新建的树状结构最多不超过3级。

  3.2  遵照原文
   
  即标注的内容要符合古书的原貌,比如《孙丰年先生幼科三卷》,第一卷中有这样一页内容,“幼儿杂症说要 治幼首重望闻二诊”,标注时,这段话看作是两个特征,分别标注为“幼儿杂症说要”、“治幼首重望闻二诊”,虽然这两个特征不符合现代语义特征,但是保留了古籍的原貌;从检索角度讲,可以通过不同的检索式来控制检出数量,通过图片来补充、对照相关的内容。

  3.3  优先标注的原则
   
  在古籍标注中我们制定了标注中的优先原则。根据书名和目录,凡是目录中存在的,必须优先标注出来;凡是单独以标题形式出现的信息,必须优先标注出来。但是,特征提取如果仅仅局限于这些方面,将会遗漏很多有意义的信息,所以,虽然不以标题形式出现的、具有概括意义的词语也纳入优先标注的范畴。比如《丹溪先生医说》其中的“中风门”,“中风有汗”不是以标题形式出现,但书中还有“中风无汗”,并且有相应的方药,那么,“中风有汗”、“中风无汗”都要作为特征标示出来。优先标注的原则主要还是取决于书目的题目和分类,比如本草类的古籍,除了建立清晰的树状结构之外,主要标示出药品名称,如果该书具备功效分类,那么也要相应标出。至于医案类、杂类的标示,除了依据目录外,在选取信息特征时,要参考以下几个特性:独立性,唯一性,完整性,单一性。比如《农经酌雅》,属于本草类的杂著,其内容和作用近似于工具书,书中汇集了29种本草类书籍所记载的本草别名,没有记载功效,这种情况下只能标注本草的正名,其他一律不予标注。

  就《全国中医图书联合目录》来讲,“医经”和“基础理论”属于一类,基本按照目录标注,由于这类书的主要内容都是集中论述。“诊法”与“针灸推拿”列为一类,除目录以外,还要将书内所涉及的疾病名等列出。“本草”自成一类,主要以建立树状结构为主,标注出书中所列的每一味药;如果有功效分类,也要标示;但功效分类中再次出现的中药不必标示;“伤寒金匮”与“方书”视为一类,除建立树状结构和一般标注外,增加的内容比较多,“门”、“类”以及有实义方名的方剂必须标示,同方异治、同病异方也要标注,避免漏检,但是疾病的症状、方剂的加减、无名自拟方不必做出标示。“养生”、“医案医话医论”、“医史”和综合性著作同属一类,由于体例、内容等比较繁杂,尚无规律可循。
   
  古籍标注目前还不是全文文本化,不可能将所有信息标示出来,依据文献自身的特点、分类而有所取舍。所以,目前针对提取古籍信息这项工作,必须具体问题具体分析。

  3.4  正字规范
   
  古籍标注虽然不同于校斟学,但在实际操作中还是会遇到很多棘手的问题。在抽取有效信息点时,常常会遇到各种繁体字、区别字、异体字等古籍中特有的汉字现象,这一部分在概念的定义上一直是激烈争论的焦点,但如果从检索角度来讲,可以归避部分错误的出现。在提取特征信息时,尽可能使用简体字,这一点是从检索角度出发的,因为就软件本身而言,暂时不能解决繁体字和简体字互相转化的问题,所以考虑到普遍性的原则,尽可能以简体字标示,比如“鬱金”,应该标注为“郁金”,比如“芎藭”,应该标示成“川芎”,又比如“藏府”,标注为“脏腑”,“四支”标注为“四肢”,“药齐”标注为“药剂”,“文理”标注为“纹理”,“金丝艸”标注为“金丝草”。采取这种方法进行标注,还是有一些汉字无法处理,如果遇到因年代问题而丢失的文字,可以用简体版来补充;利用“逍遥笔”、“金山词霸”等软件查找生僻字,再经过正式出版的字典加以对照。上述方法都不能辨认的字,则需要专家进行校斟。所以在实际操作当中,标注者都必须建立“工作日志”,以便记录无法解决的难题,汇总后统一处理。

  3.5  其它

    针对大型著作中出现比较多的“序”、“叙”、“跋”,如果作者不同,直接标示,如“黄序”、“李序”;如果有时间标志,则按照“先序”、“后序”标注;如果没有任何标志,可以标注为“序一”、“序二”,其余依此类推。

  4  结语

  利用计算机技术对文献进行加工处理已经有很长的历史了,但对文献内容本身进行数字化仅仅只有二十多年的历史。中国古籍的数字化最早是从计算机事业最发达的国外开始的。就目前的资料来看,业内的标准尚没有统一,没有可以依据的“权威档”对文献进行规范控制,我们仅是根据实际工作中遇到的具体情况而对古籍进行标注。但是,由于古籍的数字化同文献编目不同,也不是全文文本化的语义标注。所以抽取文献的某些特征进行标注,关键在于对各种信息的取舍。这些可以被有效利用的信息包括文本、音频、视频,甚至可以将有代表性的古医籍用数字化的动画进行模拟演示,而使枯燥无味的古籍内容变得有声有色、形象直观。可以说这是用数字化的方式对古籍内容进行知识重组。我们认为,古籍数字化应该根据古籍的特点来进行,数字化的过程是一个信息重组并上升为知识的过程,信息是知识的外部特征,知识是信息的内容本质,信息与知识相互依存。如何能将中医古籍中隐含的知识变成可以有效利用的信息,将是中医信息学发展的方向之一。

  • 上一个医药学论文:
  • 下一个医药学论文:
  •  作者:孙海舒,李斌,王蕊,符永驰 [标签: 数据库 标注 问题 ]
    姓 名: *
    E-mail:
    评 分: 1分 2分 3分 4分 5分
    评论内容:
    发表评论请遵守中国各项有关法律法规,评论内容只代表网友个人观点,与本网站立场无关。
    湖南中医药大学学报
    中医专业本科生西医内科综合评估考核模式研
    《走进中医一现代人认识中医的8堂必修课》等
    罗定地区冠心病患者中医体质特点分析及中医
    穴位按摩护理技术在中医外科和中医骨伤科的
    从社区老年人的生活状况到老年中医护理及人
    实行中医专科三级护理查房提升中医护理水平
    不必硬把中医往唯物上靠警惕科学霸权损害中
    改革中医妇科教学模式 注重中医经典学习
    又是一年春节来,中医帮您把把脉——中医妙
    慢性心力衰竭的中医研究进展
    骨碎补在中医骨伤科的应用
    | 设为首页 | 加入收藏 | 联系我们 | 网站地图 | 手机版 | 论文发表

    Copyright 2006-2013 © 毕业论文网 All rights reserved 

     [中国免费论文网]  版权所有