论文网首页|会计论文|管理论文|计算机论文|医药学|经济学论文|法学论文|社会学论文|文学论文|教育论文|理学论文|工学论文|艺术论文|哲学论文|文化论文|外语论文|论文格式
中国论文网

用户注册

设为首页

您现在的位置: 中国论文网 >> 计算机论文 >> 计算机应用论文 >> 正文 会员中心
 计算机应用论文   计算机理论论文   计算机网络论文   电子商务论文   软件工程论文   操作系统论文   通信技术论文
试论中文信息处理的主流技术
论文关键词:信息处理 n元模型 语音识别 句法分析 
  论文摘要:本文分析了中文信息处理的主流技术,尤其是几个重要的部分,即n元模型、语音识别和句法分析技术。 
   
  一、中文信息处理的特点 
  (一)汉字的特殊性 
  我们都知道,英语在计算机信息处理方面的优势就是其字母数量有限,因而可以很容易的进行输入输出以及信息的加工和处理,而中文的汉字则数量庞大,且字形相对复杂,这就给汉字的编码带来了不小的困扰。因此我们根据汉字信息处理过程中的不同要求对汉字进行了不同形式的编码,总结来说有以下几种方案,即汉字输入编码,汉字标准编码,汉字内码和汉字形码。 
  (二)书面汉语的特殊性 
  汉语的另一个特征是在书面表达中,词语和记号之间没有明显的分隔标记,这就使自动分词在书面汉语分析中成立一个难题。分词需要将连续的字按照一定的规范进行有序的组合,比较英文我们会发现,英文单词之间都是用空格来做分隔符,而中文则是习惯通过字、整句以及段落进行简单的划分,而这其中的一个难点就是对词语的划分,我们都知道,英语中也有短语划分的问题,但是由于中文的词语远比英语的数量和范围要庞大,因而处理起来更为困难。 
  (三)汉语语音的特殊性 
  在语音方面,汉语的特征是音节结构相对简单,音节划分界限比较清晰,但是声调和变调是中文与英文的显著区别,因而在语音识别和语音合成方面来讲这是一个劣势,但是总体上来说汉语语音的处理比之其他方面来说还是相对容易的。WWw.11665.cOM 
  (四)汉语语法的特殊性 
  在语法方面,汉语词汇的句法功能相对来说难以判断,这与英语语言上的多变形态有着截然不同的表现。汉语主要依靠词序和虚词来表达不同的含义,因此如果不能很好的掌握句法,就特别容易产生歧义,因此汉语语句自动分析这一重要技术是一项难以攻克的技术。 
  二、中文信息处理的若干技术 
  (一)n元模型 
  设wi是文本中的任意一个词,如果已知它在该文本中的前两个词wi-2w-1,便可以用条件概率p(wi|wi-2w-1)来预测wi出现的概率。这就是统计语言模型的概念。一般来说,如果用变量w代表文本中一个任意的词序列,它由顺序排列的n个词组成,即w=w1w2。。。wn,则统计语言模型就是该词序列w在文本中出现的概率p(w)。利用概率的乘积公式,p(w)可展开为:p(w)=p(w1)p(w2|w1)p(w3|w1 w2)。。。p(wn|w1 w2。。。wn-1)不难看出,为了预测词w n的出现概率,必须知道它前面所有词的出现概率。从计算上来看,这种方法太复杂了。如果任意一个词wi的出现概率只同它前面的两个词有关,问题就可以得到极大的简化。这时的语言模型叫做三元模型(tri-gram):p(w)≈p(w1)p(w2|w1)∏i(i=3,。。。,np(wi|wi-2w-1) 

  符号∏i i=3,…,n p(…)表示概率的连乘。一般来说,n元模型就是假设当前词的出现概率只同它前面的n-1个词有关。重要的是这些概率参数都是可以通过大规模语料库来计算的。比如三元概率有p(wi|wi-2wi-1)≈count(wi-2wi-1wi)/count(wi-2wi-1)式中count(…)表示一个特定词序列在整个语料库中出现的累计次数。 
  (二)语音识别 
  语音识别的最终目标是使人类与计算机之间实现真正意义上的自由交流,使机器听懂人类的语言,并及时的做出准确的反馈。语音识别技术包括了信号处理、模式识别、概率论和信息论、发声机原理和听觉原理、人工智能等主要内容。语音识别技术主要包括特征提取技术、模式匹配准则和模型训练技术3个方面,另外还涉及到语音识别单元的选取,在这个问题上我们通常采用的是以音节为识别单元。另外,在特征参数的提取技术方面,由于语音符号中含有大量的信息,它们通常被称为声学特征。特征参数是决定语音识别质量的关键技术,因此我们应该极可能的采集所要传播语言的语义信息,剔除掉说话人的个人信息干扰,这样才能保证特征参数的有效性和准确性。 
  (三)句法分析 
  句法分析是以汉语的语法特征为分析方法,对句子、段落中的短语结构树进行各个句子成分关系的分析,分析的主要内容包括:句子中所有的单句,每个单句在句法中的作用是什么,在单句以上更大的语法结构是什么,句子中的短语或词组类型是什么,在句子中起了什么作用,最后,所有这些成分是如何有机组合或附着在整个句子中的,这些就是句法结构分析的主要内容,这叫做线图分析法。值得说明的是,英语语言结构中主语必须置于谓语之前,否则所表达的意思就完全变化了,当然,在一些特定情况下,如倒装句结构中这种情况还是普遍存在的。这一点是与汉语有着显著的区别的。 
  三、结语 
  中文信息处理技术有着重要的意义,它是语言学与信息技术的有机融合,旨在对中文的音、形、义等输入计算机,进而进行必要的信息加工与处理,在这一过程中涉及到了计算机科学、信息学、声学等大量学科的交叉知识。具体来说,语言信息处理是将自然语言的各个部分,包括词语、句子、段落以至篇章进行文本、声音和图像各种方式的信息化加工,然后对这些信息进行输入输出、压缩、存储以及检索等等各项处理。我们都知道,自然语言是我们日常最重要的交流沟通工具,是人类进行思维活动、文化传播的有效载体,因此语言信息处理这种技术有着重要的意义,本文专门分析了利用计算机处理中文信息,即汉语信息处理技术,希望本文能够对同行们有所启示,还望能够多多交流学习,更好的完善这项技术。 
   
  参考文献: 
  [1]曹邦伟,高传善.计算机与信息处理[m].上海:复旦大学出版社,2001. 
  [2]陈小荷.中文信息处理概述[j].南京师范大学文学院学报,2002,(1). 
  [3]冯志伟.汉字和汉语的计算机处理[j].当代语言学,2001,(1). 
  • 上一个计算机论文:
  • 下一个计算机论文:
  •  作者:马超 [标签: 中文信息处理 技术 ]
    姓 名: *
    E-mail:
    评 分: 1分 2分 3分 4分 5分
    评论内容:
    发表评论请遵守中国各项有关法律法规,评论内容只代表网友个人观点,与本网站立场无关。
    试论对国企员工的心理疏导方法
    试论系统功能语法及物性分析中的语态建构
    试论“关中本位”政策对唐朝审美观的影响
    试论计算机通信网络安全问题及防护措施
    《中文Windows 2003操作系统》教案
    试论当前分税制财政体制的利弊与改进方向
    试论规范税收管理,构建和谐地税
    试论我国目前船舶电子类人才的培养
    试论网络布线中应该注意的有关问题
    试论怎样才能使自己成为一名称职的体育教师
    试论光通信技术在用户接入网中的应用
    试论中职计算机理论与实践的优化与整合
    | 设为首页 | 加入收藏 | 联系我们 | 网站地图 | 手机版 | 论文发表

    Copyright 2006-2013 © 毕业论文网 All rights reserved 

     [中国免费论文网]  版权所有