论文网首页|会计论文|管理论文|计算机论文|医药学|经济学论文|法学论文|社会学论文|文学论文|教育论文|理学论文|工学论文|艺术论文|哲学论文|文化论文|外语论文|论文格式
中国论文网

用户注册

设为首页

您现在的位置: 中国论文网 >> 教育论文 >> 教育理论论文 >> 正文 会员中心
 教育理论论文   基础教育论文   中等教育论文   高等教育论文   职业教育论文   心理学论文   学科教育论文   素质教育   教学管理
 德育管理   体育论文   地理论文   教育期刊
国家知识产权文献数据库系统设计方案与思路
  〔摘要〕总结了目前国内知识产权文献数据库的不足,提出了国家知识产权文献数据库系统设计的目标、数据库构成及概念结构。为了实现“快速、全面、准确”的检索目标,需要建立元数据实现数据库的标准化,采用科学的分类体系实现族性检索,开发知识产权领域本体扩展用户检索入口词汇,通过搜索引擎实现全文检索。最后提出了系统的实现方式。
  〔关键词〕知识产权;文献数据库;本体;分类体系;众包
  〔中图分类号〕g250.74〔文献标识码〕a〔文章编号〕1008-0821(2013)02-0052-04
  知识产权文献数据库的建设已经影响到企业、国家的发展战略。以专利文献为例,欧洲专利局(epo)每年要驳回50%的专利申请;美国专利商标局(uspto)每年要驳回54%的申请;日本专利局(jpo)每年要驳回62.5%的专利申请;工业领域每年约有60亿美元浪费在专利法律和申请费用上[1]。专利被驳回说明相关的技术已经发明出来了,由于在研究之前未能检索出相关文献,导致重复研究开发,造成大量的资源浪费。要全面、准确地检索相关知识产权文献,需要建立高质量的国家知识产权文献数据库系统。这既是强化政府在科技、商业等领域的公共管理与服务职能的重要体现,也是企事业单位、公民个人进行科技、商业领域的创新与发展的重要保障。
  1国内现有知识产权文献数据库的不足
  1.1数据库内容建设的不足
  国内现有知识产权文献数据库内容的不足之处体现在以下两个方面:第一,数据收录不全。以专利文献为例,国内大多数的专利数据库的回溯年限都是1985年。wWw.11665.cOM知识产权法律法规文献的信息也不完整,例如全国人大法律法规数据库、国务院法制办公室数据库等专门的法律数据库以及知识产权相关行政机关的政策信息只公布法律或者政策文本,对知识产权相关法律的释义和法律问答,以及所涵盖的法律条文解读非常有限,导致对执法过程准确解释或者适用法律指导意义不强。第二,数据内容分散。知识产权文献信息分散在不同主管部门所建立的数据库中。其中国家知识产权局与国家工商行政管理总局分别建立了专利与商标文献数据库,信息相对丰富的国家立法与政策文献及信息资料库则由第三方构建。这些分散的数据,给用户的集中检索带来了不便。
  1.2检索方法的不足
  国内很多知识产权文献检索系统,往往是从数据库本身的特点出发,将数据库中的主题词、发明名称、公开号、主分类号、代理人等作为检索入口。这种基于关键词或者分类号的检索方式有很大的局限。以专利为例,专利文献是技术文件和法律文件的结合物,需要按照专利法的有关规定撰写,内容会显得重复、繁琐。而且申请人为了获得尽可能大的保护范围,往往会采用概括性很大的术语,如把钢笔概括为书写工具,把梯子概括为攀登工具,把筛子叫做分离装置[2];除此以外,汉语本身一词多义,多词同义的特点,进一步影响了关键词检索的效率。从分类号检索来看,虽然国际专利分类法(ipc)在各个国家都有使用,但是同一专利、相近的技术主题在不同的国家的专利分类体系下存在一定的差异。而且不同体系的专利分类详略不同,ipc有631个子类,7 392个主组,62 493个分组。美国专利分类体系已(us-ipc)发展到450多个大类,15万多个小类。有人做过调查,18.7%以上的美国专利分类号和欧洲专利分类号在部的分类上就存在差异。而且专利分类体系在不断修订,每一次分类都会导致分类技术主题词与分类号的变化,例如修订后12%的us-ipc号发生了变化,4%的ep-ipc分类号变化[3]。
  现有知识产权文献数据库大多缺乏深度标引和加工,信息挖掘程度偏低,质量有待提高。例如现有的专题专利数据库对同族专利、法律状态和引证专利等特定信息的揭示远远不够,只有69%的包含有法律状态信息,49%的包含有同族专利信息,仅有18%的包含有引证专利信息,还有28%的没有提供以上任何一种信息[4]。目前国内只有中国药物专利数据库进行了深度加工标引,加工内容包括:专利发明主题标引、医疗应用标引、范畴分类、文摘重新撰写、化学物质信息标引、中药方剂信息标引,并同时建成了中药材名称数据库,化学物质登记文档数据库等两个辅助数据库系统[5]。以专利文摘为例,201110060757号专利申请书中的摘要只有150字左右,在网站检索到的摘要内容扩大了1倍,达到300多字(见表1)。通过重写摘要,加入专

中使用的每一种药材、化学成分等具有检索意义的内容,大大提高了检全率和检准率。
  表1中国药物专利数据库的数据加工实例
  原始摘要1111改写后的摘要本发明属于医药或保健食品领域,本发明公开了一种具有提高免疫力的药物组合物,其特征在于药物组合物包括发酵虫草菌粉、维生素和矿物质或药物组合物包括虫草多糖、维生素和矿物质,其中发酵虫草菌粉或虫草多糖0.1~1重量份,维生素0.005~3重量份,矿物质0.05~3重量份。药理实验表明,本发明药物组合物具有很好的提高免疫力的作用。11〖〗一种药物或保健食品组合物。它是由中药发酵虫草菌粉或虫草多糖、维生素、矿物质,及其番茄红素、低聚果糖组成,并按常规方法制得的饮料、奶粉或乳粉;其中维生素是由维生素a、维生素b1、维生素b2、维生素b6、维生素c、维生素e、叶酸、维生素b12、维生素d、维生素k、维生素h、维生素p、维生素pp、维生素m、维生素t、维生素u、生物素、水溶性维生素、烟酰胺、泛酸中的一种或几种组成;矿物质是由钙、铁、锌、硒、磷、钾、氯、镁、铜、锰、碘、铬、钼、镍、锡、硅、钒、钴、硫、钠、氟、锶中的一种或几种组成;中药还包括杜仲、枸杞(枸杞子)、麦冬、川贝母、枇杷叶、西洋参、雪莲花、灵芝和花粉中的一种或几种。该组合物具有提高免疫力的作用。
  1.4数据库共建共享的不足
  知识产权管理机构和信息服务机构之间缺乏有效合作机制,不能优势互补。没有把资源优势、人才优势、技术优势结合起来,造成国内已建的知识产权文献数据库有的收录数据不全面,有的服务内容与功能单一,缺乏既具有权威数据、又具有强大功能的实用性知识产权文献数据库,难以满足用户的创新需求。反观国外的经验,一般由专业领域的数据提供商、科技信息服务提供商和知识产权信息服务机构进行互补性合作,采用多元化的运作模式,提供专利信息、商标信息、科技信息、市场信息等综合服务,服务内容涉及数据加工、数据提供、专利分析、软件开发、咨询服务等方面,例如国际三大联机检索系统都集专利与科技信息、行业信息、法律法规、市场商情信息服务于一体,提供全方位、一站式的综合服务[4]。   2国家知识产权文献数据库系统设计
  2.1系统目标
  企事业单位、公民个人利用知识产权文献进行研究开发、专利分析、加强知识产权的管理,都要以快速、全面、准确的数据库访问为基础,这也是本系统设计的目标。
  “快速”有两个方面的要求:一是最新的信息能检索出来,这需要及时更新数据库来实现,即数据库系统应该提供方便的数据更新机制。二是查询信息的响应时间比较短,这与系统的检索性能、isp的服务能力等因素有关系。
  “全面”一方面要求搜集的信息要全。根据项目计划,数据库会收录知识产权政策文献资料、专利文献信息资料、知识产权行政确权和执法文献资料、知识产权司法判决文献、相关网络资源、知识产权名人与大事等资料。与现有的知识产权数据库相比,本项目的内容是最全的。另一方面要求系统的“检全率”达到要求,能把跟检索需求相关的所有信息检索出来。检全率除了要有收录齐全的原始数据支持之外,然后还要求系统提供合理的检索策略和手段,例如提供全文检索功能等。
  “准确”主要是指检准率。即从数据库中检索出来的文献,应该与检索要求密切相关。这主要取决于数据库的数据质量。数据质量不高,会导致检索结果不准,从而造成重复研究与开发。根据欧洲专利局的信息,2008年仅在欧洲就有200亿欧元浪费在已授权专利的产品研究与开发中,由此引发的专利诉讼也会浪费大量的时间和金钱。其中eolas起诉微软的浏览器侵权,花了8年时间才结束,赔偿5.21亿美元[6]。
  2.2数据库设计
  根据项目研究内容结合用户需求分析,从内容上来看,本系统共包括知识产权研究资料库、知识产权网络资源库、知识产权法律法规文献库、知识产权确权与登记资料库、知识产权司法与执法资料库、知识产权机构与人物、知识产权大事记等七大数据库。为了实现“快速、全面、准确”的检索要求,提供专利分析、引文分析等增值服务,每个资料库需要有目录数据库、全文数据库、引文数据库、分类表、主题词表、关联词表的支持。其结构如图1所示:
  11图1国家知识产权文献数据库结构11
  2.3系统的概念结构

r>  国家知识产权文献数据库系统需要提供元数据管理、分类体系维护、知识产权本体管理以及全文搜索等功能,其概念结构如图2所示。
  其中,元数据用于指导数据库的标准化建设,元数据
  11图2国家知识产权文献数据库系统的概念结构11
  标准的建立,可以保证整个项目七大数据库的统一、规范。分类体系用于实现知识产权文献的族性检索。领域专家在本体开发工具的支持下构建的知识产权领域本体,可以用于构建关联词表,扩展用户提出的检索入口词汇,最终实现基于语义的检索功能。搜索引擎实现知识产权文献的全文检索。
  3国家知识产权文献数据库系统的实现思路
  3.1开发方式
  系统开发的方式一般有4种:自主开发,合作开发、外包和众包。自主开发是指由项目组自行开发所有的数据库和相关软件。合作开发是指由项目组、相关的主管部门、企事业单位合作开发。外包是指将项目中部分功能模块的开发委托给相关专业机构,例如国外很多软件公司就把很多需要大量人力的开发任务外包给人力成本低廉的中国和印度。众包是美国《连线》杂志记者杰夫·豪在2006年提出来的概念,指企事业单位、机构乃至个人把过去由员工执行的工作任务,以自由自愿的形式外包给非特定的社会大众群体解决或承担的做法[7]。网上很多项目都采用众包的开发形式,例如维基百科、百度百科,把一个项目分成很多小任务,通过志愿者的努力实现。
  鉴于本项目需要整合大量的数据资源,因此,可以采用自主开发、合作开发与众包相结合的方式。项目组的大部分成员是知识产权领域的核心专家,可以承担知识产权领域本体开发和分类体系的维护工作;对于商标、专利等知识产权数据库的建设,可以与相关的主管部门和知识产权信息服务机构合作开发;全文搜索引擎的开发,可以借鉴百度与中国专利信息中心合作的经验,将其外包给专业的搜索服务机构,减少开发成本,提高开发效率;对于法律信息以及判决案例、知识产权名人与大事、知识产权网络信息等数据,则可以采用面向信息内容的众包模式,由用户在使用过程中不断补充。
  3.2开发步骤
  系统开发能不能一次实现“快速、全面、准确”检索的目标呢?笔者认为系统开发需要分步骤、分阶段实现这些目标。国外很多数据库系统的开发也是分阶段逐步完善的。如德温特世界专利索引数据库(wpi),截止到2010年10月,已经收录了1 975万条记录。德温特公司对所收集的数据进行了严格的规范整理和深度的综合加工,这些加工过程分为5个阶段:1966-1970年的标题字段只包括主标题,1971-1984年录入了副标题,1985-1995年在文摘中加入了用途/优点(use/advantage)部分,1996-1998年对摘要中的用途(use)和优点(advantage)进行了分开撰写,1999-2010年在摘要中分别列出新颖性(novelty)、用途(use)和优点(advantage)等部分,增加了单独的附图部件和标号之间的关系说明[8]。
  通过借鉴国外的成功经验,中国国家知识产权文献数据库的开发,可以先实现收集齐全的目标,将知识产权文献的覆盖范围扩大到新中国成立后所有的知识产权文献,同时对文献内容进行全面标引。例如专利文献要对申请号、公开号、申请人、发明人、专利分类号、发明名称、文摘、申请日、公开日等所有的特征项目进行标引,商标文献要对分类号、申请者、注册日期、权利人、形式(文字、颜色、字母、形状等)等进行全面揭示。然后实现检索准确的目标。主要任务是建立著录标引的规范,开发知识产权领域的本体,建立同义词表、关联词表等等。最后实现快速检索的目标。主要任务是优化搜索引擎,提高检索的响应速度。每一个分目标,也可以分阶段实现。例如数据收录全面的目标,由于本项目的目标非常宏大,在短短的几年时间采集齐全所有的数据有很大的难度,可以根据用户的信息需求,先重点收集、再全面收集,最终实现收录范围的全面覆盖。
  参考文献
  [1]pantros ip patent analytics and strategic patent portfolio management solutions for enterprise[eb/ol].http:∥www.pantrosip.com,2012-05-01.
  [2]江镇华.怎样检索中外专利信息[m].北京:知识产权出版社,2007:333.
  [3]左晶.ipc和usc分类体系下专利检索的对比分析[j].现代情报,130-132.
  [4]孙旭华,揭玉斌,王武,等.关于我国专题专利数据库的思

[j].创新科技,2010,(11):26-27.
  [5]鲁程.三大中文专利全文数据库的比较研究[j].农业图书情报学刊,2006,(11):109-111.
  [6]brünger-weilandt s,gei d,herlan g,et al.quality-key factor for high value in professional patent,technical and scientific information[j].world patent information,2011,33(3):230-234.
  [7]魏拴成,邬适融.众包的产生、发展以及构建众包商业模式应遵循的路径[j].上海管理科学,2010,(1):55-58.
  [8]许敏,黄非,王锐.利用wpi数据库提高专利文献检索效率[j].中国发明与专利,2011,(6):72-75.
  • 上一个教育论文:
  • 下一个教育论文:
  •  作者:佚名 [标签: 文献数据库 设计方案 数据库系统 工程师 ]
    姓 名: *
    E-mail:
    评 分: 1分 2分 3分 4分 5分
    评论内容:
    发表评论请遵守中国各项有关法律法规,评论内容只代表网友个人观点,与本网站立场无关。
    从政治经济一体化看国家政治制度对经济发展…
    《马背上的法庭》:民间风俗与国家法律的交…
    20世纪中国电影中的国家形象塑造略述
    基于知识转型的高师音乐课程改革
    “小伙想当国家领导人”,是耶,非耶
    东盟国家与云南省国际通道建设研究
    转型国家制度因素对FDI影响的实证分析
    对加强税务人员会计知识培训的几点思考
    民营医疗机构医务人员传染病报告知识行为调…
    金岳霖的知识论概念及其当代比较
    图书馆内及与外界知识流动的相关因素研究
    中国经济发展的“瓶颈约束”——知识产权约…
    | 设为首页 | 加入收藏 | 联系我们 | 网站地图 | 手机版 | 论文发表

    Copyright 2006-2013 © 毕业论文网 All rights reserved 

     [中国免费论文网]  版权所有