中级职称论文范文基于GATE的中文领域信息
摘 要:为了准确快速地抽取出用户感兴趣的信息,本文提出基于GATE的领域信息抽取。本文以“教育”领域为例,修改GATE的中文抽取插件Lang_chinese,精准快速地抽取出该领域的学校名、专业名、人名,为进一步提高中文信息抽取的准确率和召回率提供了研究基础。
关键词:GATE;领域抽取
随着现代通信和传播技术的不断发展,信息巨量生产、高速传播,人们被大量汹涌而来的信息所包围。怎么从浩瀚如烟的信息海洋中快速、准确地找到所需要的信息成为当前信息处理的研究重点。
1 信息抽取与GATE框架
1.1 信息抽取。信息抽取(Information Extraction,简称IE)是指从文本中直接抽取用户感兴趣的信息,以结构化的形式存入数据库中,可供用户直接使用或进行下一步的信息处理[1]。信息抽取是领域相关的,只能抽取特定领域或某些范围内有限种类的信息。当有大量的文本需要阅读处理的时候,信息抽取可以高效、精准地提取出所需要的领域信息。
1.2 GATE框架。GATE(General Architecture for Text Engineering)是英国Sheffield大学开发的,应用非常广泛的开源性自然语言处理框架。GATE框架为信息抽取提供了基本平台[2]。针对英文信息抽取,已经开发了基于该框架的应用实例插件ANNIE。ANNIE在英文信息抽取的准确率和召回率方面均已达到较高水准,并被一些商业公司使用,如惠普、大英电信等。
2 基于GATE的中文领域信息抽取
2.1 GATE中自带的中文信息抽取插件。GATE平台除了提供英文信息抽取插件ANNIE,也提供了中文信息抽取插件Lang_Chinese,但其设计比较简单。以中文插件Lang_Chinese的默认设置对文本进行抽取时,如希望能抽取出需要的领域信息,如在“教育”领域希望抽取出“学校”等组织单位,“校长”等人员信息,则结果不能让人满意。
分析其中的原因,主要有以下几点:(1)中文分词处理不够专业。(2)缺乏针对专业领域构造的中文词表库。(3)GATE中自带的JAPE抽取规则,多是针对英文命名实体识别编写,对中文支持不够,导致相当部分的中文不能被识别到。
2.2 改进的GATE中文领域信息抽取。本研究选取Gate7.1为开发平台,针对其中文信息抽取插件Lang_Chinese的不足,面向“教育”领域,研究了改进的方法。下面就其中的关键技术予以介绍:(1)文档预处理。本研究采用中科院计算技术研究所开发的ICTCLAS分词系统对文档进行分词预处理。本研究将分词后的文档删去词性信息,将分开的词组使用空格隔开,这样就和英文的格式相同,每个分开后的词语可做为一个Token,便于GATE抽取。(2)增加领域词表。词表是GATE进行信息抽取的重要资源,词表的丰富完整影响着命名实体的识别效果。Gate中的词表用.lst文件表示,中文组件中自带有城市名、组织名、公司名等。然后这些词表名存在.def索引文件中供匹配访问。(3)修改JAPE规则。GATE中使用JAPE规则来实现命名实体的识别。本文针对中文“教育”领域,编写对应的JAPE规则,使得该领域的命名实体能够得到准确的识别抽取。
学校识别。GATE7.1中可以使用自带unversity.lst词表将部分大中专院校识别为组织(organization),但对众多的中小学无法识别。并且组织标注集含义广泛,学会、公司、政府机构等都会被识别为组织。为了更有针对性的进行识别,本研究新增学校(school)标注,并分别针对中小学、本专科院校及其他各类学校撰写相应的规则。
Macro:PRIMARY_HIGH //定义识别中小学的宏
({Token.string=="小学"}|{Token.string=="附小"}|{Token.string=="中学"}|{Token.string=="附中"}|{Token.string=="小"}|{Token.string=="中"})
Rule:primary_high
//识别中小学名,如北京第一师范小学,南京琅琊路小学,山东师大附中等
(
({Lookup.majorType==location,Lookup.minorType==county_abbrev})
//county_abbrev.lst中存放了大量的地区名
({Token})
({Token})
({Token})
//分词后在地区和中小学之间可能出现0个、1个、2个或3个任意词组
({Token.string=="师范"}|{Token.string=="师范附属"})
(PRIMARY_HIGH)
):school
-->
:school.school={kind=inferred,rule="primary_high"}
Rule:university
//识别本专科院校,如上海水产大学等
(
{Lookup.majorType == organization,Lookup.minorType == university}
):school
-->
:school.school={rule="unversity"}
Rule:school
//识别其他各类学校,如幼儿园,成人夜校等
小编推荐优秀的电子类期刊 电子设计工程
《电子设计工程》(半月刊)创刊于1993年,由西安三才科技实业有限公司主办。中国科技核心期刊(科技论文统计源期刊),原名《国外电子元器件》,主要介绍具有较高学术水平的、电子领域相关的理论、技术、方法的专业性技术期刊。
《中级职称论文范文基于GATE的中文领域信息》
- 职称论文刊发主体资格的
- 政法论文浅析工会法主体
- 化学在初中教学中的情感
- 中学教育论文思想政治方
- 法治论文投稿法治型市场
- 杂志社论文发表浅析推动
- 新疆教育报投稿浅析学生
- 分男女招生录取的合宪性
最新优质论文
- 如何提供职称论文的知网
- 浙江师范大学学报编辑部
- 教师类职称论文一般多少
- 职称评定需要发表什么样
- 职称晋级论文检索才认可
- 论文发表三步曲
- 新闻专业有哪些职称
- 医学领域cscd期刊怎么查找
论文发表问题热点
- 电力系统职称核心期刊怎
- 简述机械工程师基础考试
- 博士生毕业论文答辩技巧
- 硕士从助工晋升中级职称
- 发表职称论文如何鉴别期
- 工程管理专业论文摘要准
- 毕业及职称论文发表需要
- 《教育探索》核心级教育