论文网首页|会计论文|管理论文|计算机论文|医药学|经济学论文|法学论文|社会学论文|文学论文|教育论文|理学论文|工学论文|艺术论文|哲学论文|文化论文|外语论文|论文格式
中国论文网

用户注册

设为首页

您现在的位置: 中国论文网 >> 社会学论文 >> 档案管理论文 >> 正文 会员中心
 农村研究论文   人口问题论文   伦理道德论文   其他相关论文   档案管理论文   新闻传播论文   社科期刊
浅谈网页长期保存的策略与方法探讨
 摘要:网页作为网络信息的重要表现形式,承载了海量的信息资源,有着非常大的价值。但是网页自身却非常容易变更或者消失,给网络信息资源的安全造成了威胁。有必要对网页进行长期保存,以保护网络信息资源。笔者通过对国内外众多网页长期保存项目的对比分析,提出了我国在网页长期保存上的策略以及评估、选择、收集、整理、存储和利用的方法,以期对我国的网页长期保存项目提供建设性意见。
  关键词:网页;长期保存;策略;方法
  
  网络信息作为数字信息的一种,随着互联网技术的应用和发展而飞速地增长。网页对于网络信息而言,具有非常重要的作用。如何妥善地保存和维护这些网页,使这些含有海量信息的网页能够长久地存在,并能被人们获取利用,是摆在我们面前的一道难题。
  
  1 网页长期保存的必要性
  
  1.1 网页数量骤增
  据

 2.7 法国的bnf项目:开始于2001年,法国国家图书馆对法国范围内的所有网站进行收集,采用自动获取和手工方法相结合的采集策略。其目标是存储和管理网络文献,为未来提供特定历史时期具有代表性的网络资源。到2002年,该项目收集了法国的1900个网站数据。
  2.8 瑞典的kulturarw项目:开始于1996年,由瑞典国家图书馆领导,使用非选择性采集网站所有信息的方法,对瑞典全国的网络信息资源进 行了采集。WWW.11665.cOm其目的是测试瑞典在线文献的收集、保存和提供读取的方法。到目前共收集了34tb的数据,包括1.3亿的文件。
  2.9 挪威的paradigma项目:2001年开始,挪威国家图书馆对挪威网站上所有可公开获取的数字文件及其他网络资源,使用软件以半人工的方式进行采集。以便选择、采集、描述、标志、存储各类数字文件。预计第一轮全采集能达到1000万的url,达]tb的容量。
  2.10 日本的warp项目:开始于2002年,日本国立国会图书馆针对日本国内的政策信息和学术信息,开始了收集网页快照并对该部分资源进行存储方案的测试,其目的在于收集与归档网络资源,为未来日本保存网络文化遗产。2004年6月,该项目对600个网站和1100多个电子期刊进行了收集。
  
  3 网页长期保存的策略
  
  通过借鉴国外关于网页保存的实践探索,笔者认为需要制定网页长期保存的策略来合理有效地保存网页。
  
  3.1 多方合作共同参与实践项目
  综观国外的相关实践,极少项目是由单独主体参与并完成的,往往是在行政部门的支持下,由国家图书馆联合国家档案馆、高校、网络中心或者信息中心以及商业部门和公益性机构,共同参与到项目之中。如澳大利亚的pandora项目,就是由澳大利亚国家图书馆与其他九家澳大利亚图书馆和文化收集机构合作,奥地利的aola项目,是由奥地利国家图书馆与维也纳科技大学软件学院合作……多方合作的好处是可以达到强强联合、优势互补,提高网页收集、保存和利用的效率。因此,在进行网页长期保存的实践活动中,有必要联合各方资源,共同参与到项目之中。如可以由国家图书馆或国家档案馆进行领导协调,由院校科研机构或软件公司提供网页收集分析工具,由网站、网络出版商或其他网络服务器托管商提供资源支持,由图书馆和档案馆提供存储场所并对外提供利用。
  
  3.2 获取政府支持保证项目顺利实施
  包括争取政府的资金支持和政策支持。由于网页增长的速度非常快,网页长期保存项目也需要进行长期不懈的努力,这需要先进的网页收集工具、完善的信息传输系统、海量的数字存储空间以及便捷的检索利用系统,因此网页长期保存项目必须得到不间断的资金支持。但是目前国际上很多项目都是用图书馆的预算资金,如法国的bnf项目、瑞典的kulturarw项目等。这些资金相当有限而且无法保证其连续性,一定程度上限制了项目的开展。政府的持续投入变得相当有必要。在英国的ukwa(uk web archive)项目中,由于很多网站所有者并未积极响应,该项目对征求网站所有者的归档许可不仅花费巨大,而且困难重重。因此项目组不得不转而游说相关的管理部门,使其能自动收集所有境内的网站。从这个案例中可以看出,在法律许可之外,政府管理部门的支持对保证项目的顺利进行起着非常重要的作用。政府管理部门应该设立专项资金,并积极制定相关政策或提供授权,方便网页长期保存项目的开展。
  
  3.3 促进立法为项目提供法律保障
  在网页的收集与保存过程中会产生很多法律问题,最主要的便是知识产权问题,如网页资源的下载、复制、编辑、转换、保存、利用等活动按法律要求都应有相关著作权人的授权。但事实上,由于网页数量多且内容复杂,在项目的进行中往往无法保证不对著作权人的权利造成损害。目前国际的通行做法是制定法律或者发布免责声明。如丹麦net archive项目中,其国家法律规定允许皇家图书馆使用网络机器人(网页收集软件)直接收集网页材料,而无需征得发布人的同意。又如美国ia项目,其采集互联网中有研究价值的全部网页,但是严格遵守机器人排除协议,即网络机器人对于被robot.txt文件保护的网页不予采集。国外的做法给我们的启示是,国家应该加强网络信息资源或者是国家数字遗产以及存储方面的立法,对于为了公共的利益,出于保护国家网络信息资源或者是数字遗产方面的行为,应该积极鼓励和支持,享有法定豁免权。
  
  3.4 加深有关网页长期保存的理论研究
  国外有关网页长期保存的理论研究和实践研究开始得较早,实践活动在1996年便开展起来了,而我国最早的实践研究开始于2003年——国家图书馆的wicp和odbn项目。而相关的理论研究起步也较晚。研究网页长期保存,不仅需要研究网页的生命周期、网页的变化,还要针对网页的价值评估、选择范围、收集手段、整理方法、安全存储和高效利用方面进行深入研究。对我国学者来说,这项工作任重而道远。可喜的是,近年越来越多的人认识到了网页长期保存的价值,正逐渐加入到研究的队伍中来。
  
  4 网页长期保存的方法
  
  网页的长期保存按照其过程,可分为评估、选择、收集、整理、存储、利用等六个步骤。
  
  4.1 网页评估阶段
  所谓“评估”,就是对网页的价值进行评价分析,以便确认该网页是否有价值以及价值大小,从而为长期保管提供建议。评估的标准为是否具有重大的社会经济、历史人文及科学研究价值。从各国的实践来看,一般首选的是本国范围内具有重要研究价值的网页,包括重大的政治事件、重要的社会活动、大型网站或者一些在线出版物等网页信息。
  
  4.2 网页选择阶段
  网页选择是指确定长期保管的网页范围。由于大型网站或者某一事件的相关网页数量众多,有时可能无法全部收集,而只能选择性收集一些有重大价值的、不可替代的网页。一般而言,网页的采集范围有两种:
  4.2.1 全采集:把网站上的所有网页信息全部收集起来。采用此方式的有瑞典的kulturarw网络信息资源收集项目,该项目是世界上最早的网络信息资源收集项目之一,以瑞典全国的网络信息资源为对象,制定了“一揽子收集”的策略,通过网络机器人无限收集数据。还有如芬兰的eva计划、奥地利的aola项目等。
  4.2.2 选择性采集:强调不把有限的存储空间用来保存垃圾信息,而是有选择性地将网页进行归档保存,一般都是具有历史文化或者社会经济价值的网页信息。采用此方式的有澳大利亚国家图书馆的pandora项目,提出了《保存网上出版物的选择方针》并确定了15个大的归档主题。还有美国国会图书馆的minerva项目等。

4.3 网页收集阶段
  网页收集是指利用软件工具自动获取或者人工的方式收集网络上的网页信息。自动检索和获取网页的软件一般称为“网络爬行器”或“网络收割机”,这种软件功能非常强大,能在预定的时间和范围内收集所有网页并记录下网页基本信息。网页收集一般有两种方式:
  4.3.1 保存网页。就是将需要归档的网页复制一份完全一样的,包括文字、图片、声音、视频等,这种方式花费的时间较多,用来保存网页的存储空间

要求也很高,但无疑这是最完善的保存网页的方法。
  4.3.2 保留快照。网页快照也是网页的一个备份,但大多是文本形式的,或者是只保留了网页的html部分,因此使用这种方法比较便捷,同时也很经济。但缺点是可能无法保存网页的全部内容。美国ia项目和英国的ukwa项目都是采用保存网页快照的方式来收集网页。
  
  4.4 网页整理阶段
  网页整理就如同档案整理归档一样,需要对收集到的网页进行分析、索引和归档。开发一套高效和便捷的整理系统对于网页的保存和利用都会起到极大的促进作用。美国国会图书馆在minerva项目中研发了适用于网页资源存储与访问的元数据描述框架mods(metadata object description schema)。澳大利亚在pandora项目中,开发了pandas(pandora数字归档系统)用来登记所收集的网页资料,并记录管理元数据、划分保管期限表以及加工、提供阅览等,此外,该系统也管理访问权限并提供管理报告。
  
  4.5 网页存储阶段
  网页存储是指对收集整理后的网页进行安全存储。目前来说,网页的安全存储还是个难题,因为大量的网页需要巨大的存储空间。同时,还要保证网页信息的安全一一存储载体的破坏或者存取技术的落后都有可能对网页信息造成不可挽回的损害。为了让网页信息得到安全存储并长久可读,除了采取更为先进的存储介质和压缩方法外,还有四种比较安全的存储方法可供选择。
  4.5.1 迁移:将网页信息从一种技术环境转换到另一种技术环境,来保证存取网页信息的技术“永不过时”。
  4.5.2 仿真:制造一个能运行过时软硬件的计算机软件,来模仿原软硬件运行环境来支持网页信息的存取,以防止过时的技术导致网页信息无法读取的尴尬。
  4.5.3 更新:是针对载体磨损或老化而采用的方法,将网页信息转移到新的载体上,保护网页信息本身不受存储载体质量恶化的影响。
  4.5.4 备份:将网页信息同时复制若干份,在不同地方进行保存。以保证信息不因载体的损坏或遗失而丢失。
  
  4.6 网页利用阶段
  对网页进行长期保存的最终目的是为了利用,如同ia提出的“离开了利用谈保存是没有意义的”一样,在提供网页信息的利用上,应在法律允许的前提下,尽可能地开发系统、网站或者平台供人们检索使用。虽然目前有些国家的网页长期保存项目的成果仅限内部使用,或者仅限研究者使用,但是网页信息资源作为国家和人类的数字遗产,必将有益于大众。美国的ia在其网站上提供了一个名叫“mayback machine”的“时光机器”:它可以浏览自1996年至今的1500亿个网页。此外,ia还建立了一个流动图书馆(internet archive bookmobile),它能从网上下载公共领域的书籍,而且可以在任何地方、任何时间为人们提供印刷服务。澳大利亚的pandora项目提供15个专题的免费检索与浏览服务,美国的minerva项目现在提供13个专题的浏览。
  
  5 小结
  
  为了保护这些珍贵的信息资源,我们有必要对网页进行长期的保存,以便提供给将来利用。可喜的是,越来越多的人注意到这个事实并且参与到保护网页的行动中。各个国家也都积极行动起来,制定策略,研究方法,并在具体的实践项目中获得了珍贵的经验。
  对此,我国对于网页的长期保存的研究还处于探索阶段,笔者希望在通过借鉴国外众多项目经验的基础上,提出相应的网页长期保存策略和方法,以期为我国的网络信息资源和数字遗产的长期保存贡献绵薄之力。

  • 上一篇社会学论文:
  • 下一篇社会学论文:
  •  作者:龙正义 [标签: 网页 方法 ]
    姓 名: *
    E-mail:
    评 分: 1分 2分 3分 4分 5分
    评论内容:
    发表评论请遵守中国各项有关法律法规,评论内容只代表网友个人观点,与本网站立场无关。
    浅谈当今电视综艺节目中的明星消费
    由《百姓故事》浅谈纪录片的可视性
    浅谈以创新推动电视新闻的发展
    浅谈基层射击训练体会
    浅谈小学数学教师在创新教育中的作用
    浅谈幼儿教师肢体语言在教学中应用
    浅谈“科技+制度”的创新,是基层工商机关党…
    浅谈外国广告的“伪叙事”特征
    浅谈网络伦理道德问题
    浅谈幼儿舞蹈创编课的几点体会
    浅谈建筑安全管理
    浅谈建筑工程地下室后浇带设置与施工技术
    | 设为首页 | 加入收藏 | 联系我们 | 网站地图 | 手机版 | 论文发表

    Copyright 2006-2013 © 毕业论文网 All rights reserved 

     [中国免费论文网]  版权所有