【关键词】 中药本体;数据挖掘;自然属性分类法
中医药学有着丰富的理论知识和临床治病经验,具有重要的学术价值和开发利用的实用价值。但其传统的知识组织方式不能适应现代社会信息获取的需求,阻碍了对中医药学知识与信息的有效利用。随着计算机技术及其相关理论的发展,利用先进的现代科技对中医药知识信息进行重组和利用已得到认同,相关研究也取得一定成果。将计算机领域先进的本体理论与技术引入到中医药知识组织研究中,构建中药本体,实现中药信息的知识化重组,可为中药领域的数据挖掘和知识发现提供数据基础[1]。
中医药学知识信息对现代生物医学的医疗实践和科研都有重要的意义。随着计算机技术的发展,医学信息研究工作也随之逐步深入,例如在数据挖掘领域,医学信息数据挖掘是比较活跃的领域之一,同样在中医领域也受到广泛重视。但目前的医学信息组织方式与数据挖掘之间存在着诸多“瓶颈”,尤其是中医领域的数据挖掘研究,仅仅得到诸如“石膏与知母具有配对相关性”、“六味地黄丸可治疗阴虚”等数据挖掘的结果,只是对简单知识的简单认证,而其结果无法解释。究其原因,“数据整理”是中医药数据挖掘研究的瓶颈。近年来,领域本体构建技术已逐渐成熟,并迅速在各个领域形成研究热点。构建领域本体(ontology)可以从数据整理与信息组织方面更好地实现数据挖掘与知识发现。在客观需求和条件具备的双重推动下,在中医药领域内开展中药本体构建工作切实可行。wwW.11665.cOm
1 本体的概念及特点
ontology是一个哲学概念,用于描述客观事物的本质,通常译为本体或本体论(在本文中称为“本体”)。本体论与认识论在哲学上是两个相对的理论,认识论指人对客观存在的主观认识,而本体论则指客观存在本身。
自20世纪90年代,ontology引入计算机人工智能领域后,在计算机及相关领域迅速形成一个研究热点。作为一种能在语义和知识层次上描述信息系统的概念模型建模工具,已被广泛应用于知识工程、系统建模、信息处理、数字图书馆、自然语言理解、语义web等领域之中[2]。研究人员从各自的专业角度出发对本体的理论和应用进行了深入研究,取得了丰富的研究成果,本体理论与技术也随之日趋成熟。
目前得到普遍认同的关于本体的定义是:本体是共享概念模型的、明确的、形式化的规范说明[3]。这个定义包含了概念模型、形式化、明确、共享4层含义。即本体的目标是捕获相关领域的知识,提供对该领域知识的共同理解,确定该领域内共同认可的概念或术语,并从不同层次的形式化模式上给出这些概念及概念间相互关系的明确定义。
本体不仅描述概念、术语,而且对概念、术语间的关系描述得更为广泛、细致和全面。即,本体不仅明确了概念,同时也明确了概念间的属性及属性间的关系,它是从“属性”的角度出发去确定一个概念,能够在语义和知识层次上描述信息,从而真正达到知识理解的目的。这也是本体作为知识组织方式的最重要的特点。可以看出,与传统的mesh表相比,本体描述的概念关系是网状、立体的。在本体中可以描述的概念间关系有反义关系、上位关系、下位关系、整体-部分关系、部分-整体关系、转指关系、近义关系、同义关系、动作关系等,而不仅是传统的信息组织工具mesh中所描述的参照、用代、隶属关系[4]。
在中医药领域中,中药的概念术语相对较明确,选择中药作为突破点,首先构建中药本体,逐步实现中医药医学信息的知识组织与构建。
2 构建意义
本体建设的目的是应用,这方面的研究遍布人工智能、信息管理、知识管理相关的各个领域:①基于语义的信息检索,特别是网络搜索引擎和数字化图书馆。②基于本体的数据集成、机器学习等。③领域本体的应用,比如,在生物信息学中已建成的geneontology,尽管只包括了part of等简单的关系,但是对生物信息学界已经有巨大的影响。④语义web服务。⑤在线元数据管理和自动信息发布。⑥非相关文献知识发现[5]。
中药本体作为领域本体的一种,通过概念及概念间的关系全面描述中药的本质,揭示中药本身及中药间复杂的功效与物质关系,澄清中药的知识结构,为中药的知识表达提供数据基础。例如:可以提供基于语义的信息服务,通过语义检索,为用户提供知识层面的语义检索服务;定题服务,进行相关的数据挖掘,帮助人们发现隐含的知识,如通过数据挖掘分析研究,揭示药性、药效、物质基础间的关系,归纳构建基于现代科学语言的中药药性表征理论体系等应用型研究。中药本体既具有专业领域性,亦具有普遍性,可应用于其他信息工程与知识管理等方面。
3 中药本体概念关系体系的构建
3.1 构建原则
领域本体的构建至今没有一个统一的标准, gruber在1995年提出的5条规则[6]得到较广泛的公认。中药本体的构建同样遵循以下5条原则:①明确性和客观性。ontology应该用自然语言对术语给出明确、客观的语义定义。②完整性。所给出的定义是完整的,能表达特定术语的含义。③一致性。知识推理产生的结论与术语本身的含义不会产生矛盾。④最大单向可扩展性。向ontology中添加术语时,通常不需修改已有内容。⑤最少约束。对待建模对象应该尽可能少列出限定约束条件。
3.2 构建方法
目前,利用现有的领域内公认的知识以及领域专家的参与,是一致认同的构建领域本体的最优方式[7]。
构建中药本体,首先需要解决的问题是概念关系体系的确立。在注重知识结构关系的原则上,可借助已有的中药分类法。中药分类方法主要有按药物功能、药用部分、有效成分、药材自然属性和亲缘关系分类等。中药本体概念关系体系的构建采用比较成熟的自然属性分类法(主要参照《中华本草》[8]的现代自然属性分类法),即采用植物学分类法、动物学分类法,能够更好地反映中药之间的内在联系及其变异特征。此外,该分类法还有以下优点:对药物来源、属性、药物部位等一目了然,条理清晰便于查检,便于更新和修改,便于不同专业的人操作中药本体的建设工具。
各个中药类目下设定27个属性,属性设置包括:正名、异名、释名、品种考证、发生发展史、产地、原植(动、矿)物、栽培(养殖)要点、采收加工、贮藏、药材及产销、药材鉴别、化学成分、药理、炮制、药性、功能与主治、应用与配伍、用法用量、使用注意、附方、制剂、现代临床研究、药论、集解、附注、参考文献。中药的属性可以根据需要与新发现进行修改。
通过属性参数,从各个角度尽可能全面地描述中药,更精确、全面地确定概念,并显示概念间的关系。其中,中药药性、药理的研究有助于阐明中药理论的科学实质,为中药药性研究提供数据挖掘的基础资源,实现中药药性的知识发现与理论创新。
4 结语
领域本体的开发和完善是一个反复叠加的过程,没有一种“唯一”的途径或方法,但无论从客观世界具体的角度或者是从逻辑抽象的角度出发,领域本体中概念的设计都应该贴近于研究者要研究的专业领域中客观对象和对象间的关系法则[9]。因此,中药本体构建模式是一种探索,建成之后仍然需要维护和不断进化。据此还可以继续构建中医本体,实现中医药领域内知识信息的知识化组织与利用。
【参考文献】
[1] 刘 耀,段慧明,穗志方.非相关文献知识发现的数据基础研究——以中医药古文献语言知识库的构建为例[j].情报杂志,2006,(9):21―26.
[2] 曹树金,马利霞.论本体与本体语言及其在信息检索领域的应用[j].情报理论与实践,2004,(6):632―637.
[3] studer r, benjamins vr, fensel d. knowledge engineering, principles and methods[j]. data and knowledge engineering,1998, 25(1-2):161―197.
[4] 牟冬梅,崔艳玲.mesh、本体论在医学知识组织中的作用[j].情报杂志, 2005,(7):120-122.
[5] 袁 媛.领域本体建设的方法论和工具研究[d].中国人民大学硕士学位论文,2004.
[6] peter d karp, thomas r gruber. a generic knowledge-base access protocol[a]. proceedings of the international joint conferences on artificial intelligence[c]. montreal,1995.
[7] 刘 耀,穗志方.领域ontology概念描述体系构建方法研究[j].大学图书馆学报,2006,(5):28-33.
[8] 国家中医药管理局《中华本草》编委会.中华本草[m].上海:上海科技出版社,2006.10.
[9] 李 景,孟连生.构建知识本体方法体系的比较研究[j].现代图书情报技术,2004,(7):17-22