正当时......

学术咨询服务
当前位置:职称论文发表咨询网电子信息职称》计算机信息处理论文浅谈中文信息处理的主流技术

计算机信息处理论文浅谈中文信息处理的主流技术

来源:职称论文发表咨询网作者:王编辑时间:2016-01-12 17:04
扫码咨询

  本文是一篇计算机信息处理论文,发表在《计算机工程与设计》上,杂志创刊于1980年,由中国航天科工集团第二研究院706所主办,是中国计算机学会会刊、北京计算机学会会刊和中国宇航学会会刊,是全国中文核心期刊、中国科技核心期刊。该刊是《中国科技引文数据库》、《中国学术期刊综合评价数据库》、《中文科技期刊数据库》来源期刊,是中国学术期刊文摘(中文版)、电子科技文献数据库、中文科技期刊数据库收录期刊,是中国科技论文统计与分析用刊,在“万方数据-数字化期刊群”全文上网,并由《中国学术期刊(光盘版)》和《中国期刊网》全文收录。

  论文关键词:信息处理,N元模型,语音识别,句法分析,计算机信息处理论文

  论文摘要:本文是计算机信息处理论文,分析了中文信息处理的主流技术,尤其是几个重要的部分,即N元模型、语音识别和句法分析技术。

  一、中文信息处理的特点

  (一)汉字的特殊性

  我们都知道,英语在计算机信息处理方面的优势就是其字母数量有限,因而可以很容易的进行输入输出以及信息的加工和处理,而中文的汉字则数量庞大,且字形相对复杂,这就给汉字的编码带来了不小的困扰。因此我们根据汉字信息处理过程中的不同要求对汉字进行了不同形式的编码,总结来说有以下几种方案,即汉字输入编码,汉字标准编码,汉字内码和汉字形码。

  (二)书面汉语的特殊性

  汉语的另一个特征是在书面表达中,词语和记号之间没有明显的分隔标记,这就使自动分词在书面汉语分析中成立一个难题。分词需要将连续的字按照一定的规范进行有序的组合,比较英文我们会发现,英文单词之间都是用空格来做分隔符,而中文则是习惯通过字、整句以及段落进行简单的划分,而这其中的一个难点就是对词语的划分,我们都知道,英语中也有短语划分的问题,但是由于中文的词语远比英语的数量和范围要庞大,因而处理起来更为困难。

  (三)汉语语音的特殊性

  在语音方面,汉语的特征是音节结构相对简单,音节划分界限比较清晰,但是声调和变调是中文与英文的显着区别,因而在语音识别和语音合成方面来讲这是一个劣势,但是总体上来说汉语语音的处理比之其他方面来说还是相对容易的。

  (四)汉语语法的特殊性

  在语法方面,汉语词汇的句法功能相对来说难以判断,这与英语语言上的多变形态有着截然不同的表现。汉语主要依靠词序和虚词来表达不同的含义,因此如果不能很好的掌握句法,就特别容易产生歧义,因此汉语语句自动分析这一重要技术是一项难以攻克的技术。

  二、中文信息处理的若干技术

  (一)N元模型

  设wi是文本中的任意一个词,如果已知它在该文本中的前两个词wi-2w-1,便可以用条件概率P(wi|wi-2w-1)来预测wi出现的概率。这就是统计语言模型的概念。一般来说,如果用变量W代表文本中一个任意的词序列,它由顺序排列的n个词组成,即W=w1w2。。。wn,则统计语言模型就是该词序列W在文本中出现的概率P(W)。利用概率的乘积公式,P(W)可展开为:P(W)=P(w1)P(w2|w1)P(w3|w1 w2)。。。P(wn|w1 w2。。。wn-1)不难看出,为了预测词w n的出现概率,必须知道它前面所有词的出现概率。从计算上来看,这种方法太复杂了。如果任意一个词wi的出现概率只同它前面的两个词有关,问题就可以得到极大的简化。这时的语言模型叫做三元模型(tri-gram):P(W)≈P(w1)P(w2|w1)∏i(i=3,。。。,nP(wi|wi-2w-1)

  《计算机周刊》Computer Weekly(周刊)曾用刊名:上海微型计算机;计算机,1982年创刊,本刊集权威性、理论性与专业性于一体,具有很高的学术价值,是作者科研、晋级等方面的权威依据,欢迎广大作者积极撰写论文,踊跃投稿!征稿对象:全国高等学校、科研及推广院所站、各级党政机关、企事业单位的广大专家学者、工程技术人员、硕士博士研究生、管理人员等。《计算机周刊》主管单位:长江计算机(集团)公司,主办单位:长江计算机(集团)公司,国内统一刊号:31-1427/TP,国际标准刊号:1007-466X


《计算机信息处理论文浅谈中文信息处理的主流技术》
上一篇:计算机网络安全论文计算机通信安全与防护要点
下一篇:职称论文发表浅谈信息化在标准化实施中的服务功能
更多>>

期刊目录