论文网首页|会计论文|管理论文|计算机论文|医药学|经济学论文|法学论文|社会学论文|文学论文|教育论文|理学论文|工学论文|艺术论文|哲学论文|文化论文|外语论文|论文格式
中国论文网

用户注册

设为首页

您现在的位置: 中国论文网 >> 计算机论文 >> 计算机理论论文 >> 正文 会员中心
 计算机应用论文   计算机理论论文   计算机网络论文   电子商务论文   软件工程论文   操作系统论文   通信技术论文
基于后缀数组的分布式串匹配算法

摘要:文章提出的uniformedsoffixarraysass谊n算法通过采取均匀的后级分配方式,使各个处理器可以独立地构造后缀数组,并提出通过播送最长后缀长度(maxsuffixlen)来降低处理段间匹配时的通信复杂度。算法在构造后级数组时的平均复杂度为o((n/p)(109109(n/p))),通信复杂度为0(1)。通过实验分析得出,在(n/p)m的情况下,usaa算法可以在保持计算复杂度的同时大大降低在构造后缀数组过程中的通信消耗。其中n,m分别为文本串和模式申的长度,p为处理器数。
 关键词:后缀数组分布式存储串匹配
 1引言
键,在分布式环境下加速后缀数组的构造需要充分考虑到通信对算法性能的影响。串匹配问题是计算机科学中研究得最广泛的问题之一,在文字编辑与处理、图像处理、信息检索、分子生物学等领域都有很广泛的应用。本文解决的是分布式存储环境下的精确串匹配问题。在串匹配的许多实际应用中一个确定的文本常常被查询很多次(比如对非常长的基因序列的查询)。针对这种情况,manber.u和e.w.myers提出建立后缀数组(suffixarrays)〔1〕来提高查询的性能,而后缀数组最大的不足是它的构造时间过长。因此一直以来,如何快速有效地构造后缀数组成了提高基于后缀数组的串匹配算法性能的关
2usaa算法
假设n,m为文本串和模式串的长度,p为处理器数,算法设计思路如下:
(1)将长为n的文本串a均匀划分成互不重盛的p段,分布于处理器。www.11665.com~(p一l)中,且使相邻的文本段分布在相邻的处理器中,显然每个处理器中局部文本段的长度为〔n/p〕。
(2)除了处理器o外,其它每个处理器利用kmp算法计算分配到自己的文本串的头个字符与模式串,基金项目:国家自然科学基金重点项目(60533020) 的匹配信息。如果存在匹配情况,就向相邻的前一个处理器发送最大匹配后缀长度maxsuffixlen,否则就发送一个负数。每个处理器可独立地计算和发送该值,所以这一步的计算复杂度为o(m),通信复杂度为o(1)。
(3)处理器1~(p-l)接收前一个处理器的信息。
(4)利用manber.u和e.w.myers在文献〔〔1〕中的算法各处理器并行地构造局部文本段的后缀数组。
(5)利用manber.u和e.w.myers在文献〔1〕中的算法各处理器并行地进行模式申的匹配。算法的计算复杂度为o((n/p(109109(n/p))),通信复杂度为0(1),大大降低了通信复杂度。
3实验结果及分析
我们在基于分布存储的32节点hprx2600高性能机群系统上测试了上述算法,比较了usaa和目前理论值最好的mmsortlz〕算法之间的性能,其计算复杂度为,通信复杂度为。
图1给出了当m一16、p~2时,n的取值对算法执行时间的影响。从图中看出当时,由于n、p的取值成了影响算法复杂度的主项,因此在实际应用中usaa算法比mmsort算法表现要好。
图2给出了当n变大时,usaa算法和mmsort算法的通信时间比较。可以看出,随着文本串的规模变大,由于处理器间需要进行的通信量增加,mmsort算法的通信时间有明显的上升,而usaa算法的上升幅度要显著小于mmsort。
4结论
本文提出的usaa算法通过采取均匀的后缀分配方式来降低处理段间匹配时的通信消耗,在(n/p)m的情况下使算法在保持计算复杂度的同时大大降低了通信复杂度。通过实验结果可以看到,usaa算法很好地解决了在分布式存储环境下降低后级数组构造中的通信复杂度的问题。
参考文献
[1]u.manber,g.myers.suffixarrays:anewmethodforon-linestringsearehes[c〕.inproeeedingsofthe
lstannualacm一siamsymposiumon压seretealgorithms.1990:319一327.
[2]kitajima,j.p.,navarro,g.afastdistributedsuffix arraygenerationalgorithm〔c」.stringproeessingand informationretrievalsymposium,1999sept,1999:22-24,97一104.

  • 上一个计算机论文:
  • 下一个计算机论文:
  •  作者:佚名 [标签: 后缀 数组 分布 串匹配 算法 ]
    姓 名: *
    E-mail:
    评 分: 1分 2分 3分 4分 5分
    评论内容:
    发表评论请遵守中国各项有关法律法规,评论内容只代表网友个人观点,与本网站立场无关。
    课堂教学中的讨论现象—基于群体动力学理论
    基于远程虚拟数字电路实验仿真技术的研究
    基于Si4432的散射式大气低能见度仪设计
    基于AT89C2051倒车防撞超声波报警系统设计
    基于ARM控制的1KW零电压零电流全桥DC/DC变换
    基于AHP的特殊电梯开发项目风险评价
    电网运行基于精细化管理的方式探讨
    基于公平视角的买方垄断市场信任机制实证研
    论基于Intranet技术的计算机通信网络的即时
    中国区域消费价格水平差异研究:基于面板门
    基于项目驱动模式下的“软件工程”教学改革
    基于软件工程开发的企业本体构建研究
    | 设为首页 | 加入收藏 | 联系我们 | 网站地图 | 手机版 | 论文发表

    Copyright 2006-2013 © 毕业论文网 All rights reserved 

     [中国免费论文网]  版权所有