您当前位置:毕业设计网
| 名称:基于CFN教材内容提要信息抽取研究 | ||||
|
作品名称 |
||||
|
开发语言 |
简体中文 | |||
|
运行平台 |
WIN9X/WIN2000/WINXP/2003 | |||
|
论文字数 |
2万以上 | |||
|
论文页数 |
37P | |||
|
开题报告 |
无 | |||
|
答辩稿 |
无 | |||
|
整理时间 |
10-01-28 00:00:00 | |||
|
推荐指数 |
| |||
|
作品价格 |
具体与网站客服QQ联系:616837397 参考价格:200元rmb | |||
|
购买说明 |
银行汇款方式 | |||
| 作品简介: | ||||
| 摘要 本文在分析信息抽取现有方法的基础上,提出了一种基于神经网络、CFN语言语义和结构特征的信息抽取方法。用这些特征构成句子向量表示,并用神经网络和最小二乘的方法对其进行训练得到信息抽取规则,从而把信息抽取转换为分类问题。实验表明,该方法具有较好的信息抽取效果。 关键词:信息抽取;CFN;语义相关度; 自然语言理 目录 摘要 1 Abstract 2 第一章 绪论 5 1.1 课题开展的背景及意义 5 1.2 信息抽取技术发展状况 5 1.2.1 国外发展状况 6 1.2.2 国内发展状况 7 1.3 论文的主要内容和结构 8 1.4小结 8 第二章 中文语义框架的优势 8 2.1 CFN概论 8 2.2 CFN相关标准 9 2.3信息抽取模型分析 9 2.4 CFN的优势 10 2.5 小结 12 第三章 基于CFN的语义框架 12 3.1 语义框架模型分析 12 3.2 语义特征向量的相关概念 14 3.3 CFN语义向量提取 15 3.3.1 输出目标框架的建模 15 3.3.2 句子特征向量的提取 16 3.4 小结 17 第四章 最小二乘神经网络算法 17 4.1 最小二乘相关概念 17 4.2 神经网络技术 18 4.2.1神经元技术概述 18 4.2.2 神经网络的设计实现 19 4.2.3学习算法 20 4.3 CFN语料库在信息抽取中的作用 22 4.4 语义特征向量的识别 23 4.4.1规则的构造 23 4.4.2框架信息的抽取 26 4.5 小结 26 第五章 信息抽取实验 27 5.1 实验系统的构造 27 5.1.1 实验系统的设计平台 27 5.1.2 实验系统的设计 28 5.1.3 设计结果 29 5.2 学习训练分析 32 5.2.1 问题描述 32 5.2.2 学习训练效果 33 5.3 样本因素对抽取效果的影响 34 5.2 小结 34 第六章 结论 34 致谢 35 参考文献 36 第一章 绪论 1.1 课题开展的背景及意义 随着因特网的普及和发展,社会的信息总量呈指数级增长。信息总量的量级,从20世纪90年代初的MB(10)过渡到GB(10 )再到现在的TB(10 )。进入21世纪后,全世界信息总量更是以每三年增加一倍的速度递增。据统计,在这些海量信息中,有60% 一70%是以电子文档的形式存在。为了应对信息爆炸带来的挑战,迫切需要一些自动化的技术帮助人们在海量信息中迅速找到自己真正需要的信息。 信息抽取(Information Extraction: IE)是把文本里包含的信息进行结构化处理,变成表格一样的组织形式。信息抽取从一段文本中抽取指定的事件、事实等信息,形成结构化的数据并填入一个数据库中供用户查询使用的过程.信息以统一的形式集成在一起的好处是方便检查和比较,例如比较不同的招聘和商品信息,还有一个好处是能对数据作自动化处理,例如用数据挖掘方法发现和解释数据模型。信息抽取与信息检索相比,突破了信息检索中必须由人来阅读、理解、抽取信息的局限性,实现了信息的自动查找、理解和抽取。信息抽取能进一步精化信息检索的结果,可以用来提高信息检索系统的性能,二者的结合能够更好地服务于用户的信息处理需求。 信息抽取输入信息抽取系统的是原始文本,输出的是固定格式的信息点。信息点从各种各样的文档中被抽取出来,然后以统一的形式集成在一起。这就是信息抽取的主要任务。信息抽取作为一种新兴的技术,通过抽取、过滤无关信息,使文本信息以用户关心的形式得以再组织,实现高效重组。将结构松散的自然语言信息,通过抽取转为结构严谨、语义明确的表现形式,利用计算机进行高效存储并加以利用。这样我们就可以在无数的信息中取得我们所要的信息。 1.2 信息抽取技术发展状况 从自然语言文本中获取结构化信息的研究最早开始于20世纪60年代中期,美国纽约大学开展的Linguistic String项目开始于60年代中期并一直延续到80年代。从20世纪80年代末开始,信息抽取研究蓬勃开展起来,这主要得益于消息理解系列会议(MUC,Message Understanding Conference)的召开。正是MUC系列会议使信息抽取发展成为自然语言处理领域一个重要分支,并一直推动这一领域的研究向前发展。 信息抽取处理的文本类型分为结构化、半结构化及无结构文本。结构和结构化文本通常可以由程序产生,如在线简历、房屋租赁等。无结构文本有较强语法,如网上新闻报道等。对于无结构的文本(即自由文本),传统的信息抽取方法主要有基于规则的抽取方法及基于统计的抽取方法。 基于规则的信息抽取是一个学习和应用的两阶段过程:规则的学习和应用规则获取目标信息。利用规则抽取信息的特点是对于特定的文本,手工就可以根据需要构造一些规则。这种方式的缺点是需要人工构造大量规则,而且可移植性较差。 基于统计的方法主要包括隐马尔科夫(HMM)和概率上下文无关(PCFG)。基于HMM的方法因其简洁性和参数可通过未标注的训练集获取而成为研究的重点。HMM的优势在于具有较强的统计理论基础,已形成健全的训练算法,能健壮地处理新数据,适于处理自然语言的任务。弱点是必须预先提供HMM的拓扑结构,并要有大量的训练数据。 1.2.1 国外发展状况 在国外 , 信息抽取的研究己经在某些特定领域可以达到实用化,目前已经有不少信息抽取技术产品,本节主要详细介绍以下三个信息抽取系统: 1)SRV系统 D. Freitag 开发的SRV系统,带确认功能的次序规则)用于讲座信息的抽取,把讲者、地点、时间等信息抽取出来.SRV采 用 一种自上而下、关系型的信息抽取算法。其输入是一系列的网页,上面标记了待抽取区域的实例(instance ),以及一系列基于字串(token)的特征,输出是一系列的抽取规则。SRV 利 用 的特征分两种:简单特征和关系特征。字词的长度、类型、拼写、词性等,属于简单特征。关系特征反映字词的相邻度,正是这一特征使SRV具有关系型的特点。SR V 的学 习素材包括训练集文档中与最短实例区(field instance)一样长(以词的个数计算)的字串,但不能长过最长的实例。抽取过程即是检验长度适合的字串是否与规则匹配的过程。 2)STALKER系统 Muslea, S .开发的STALKER系统被用来抽取不同网站上的餐厅信息,如餐厅名称、菜肴种类、价格、烹调方法、地址、电话和评价。STALKER系统采用指导学习的算法归纳抽取规则,训练例子由用户提供,用户需选择若干样例页面并把有用的数据(即所谓"EC树”的叶子)标记出来。页面被标记好后,系统可生成一个符号序列(the sequence of tokens),用来表示页面的内容,还生成代表信息点开始的符号索引.符号系列(字、HTML标记)和通配符被作为定位标志,用于找到页面上的数据。分装器归纳算法产生抽取规则并表示为简单的标志语法(landmark-grammars),此法可处理文本,但不能处理链接信息。STALKER采用线性覆盖算法(sequentialco veringa lgorithm),首先生成线性标志自动机(landmarkau tomata),这些自动机能产生尽可能多的训练正例(positive training examples),该自动机实际上是一个“非确定有限自动机”,其状态的变化只有在字符串输入为了目前状态与下一状态间的转换而被接受时才发生,然后系统试图生成新的自动机以覆盖剩余的例子,一直到所有的训练例子都被覆盖为止。这时,ALKER返回一个被称之为SLG(简单标记语法)的解决方法,其每个分支都对应一个学习获得的标记自动机。STALKER采用EmbeddedC ataloeT ree(E CT)来帮助描述文件的组织结构,以及抽取任务的输出模式。网页文档用所谓的“内嵌目录”(Embedded Catalog)表示,那是一个树形结构,其内部节点或是同构的(homogeneous)信息点列表,或是异构信息点元组( tuples )。根节点是整篇文档,任一节点的内容代表其父节点内容的一个接续(subsequence).末节点即是用户需要抽取的数据. 3)PALKA系统 Kim.J等开发的PALKA系统用于恐怖袭击事件和招聘广告的信息抽取,PALKA系统的抽取模式是用语义框架模式结构,简称“FP结构”。一个FP结构是由一个语义框架和一个短语模式组成,语义框架中的每个槽定义了待抽取的项以及对它的语义约束(例如爆炸事件的目标target项必须是一个物理实体),而短语模式定义了词汇入口的顺序和从事先定义的概念体系中挑选出来的语义种类.FP结构通过语义框架中的槽和短语模式中的元素对应而将语义框架和短语模式结合起来。将FP结构应用到句子中是一个很简单的过程:如果短语模式和句子匹配,那么FP结构被激活,相应的语义框架也被准确地用于多槽抽取。 信息抽取在国外还有其它研究。如Cymfony公司的InfoXtract系统是一个领域独立、可定制、可移动的中间级的信息抽取引擎,它把语法规范和机器学习融为一体,代表了信息抽取的一个超级模型,并支持开放领域的问题回答。美国纽约大学的Proteus系统由三个主要部分组成:语法分析器、语义分析器、模板生成器。在1995年的MUC-6系统通过增加几套有限状态模型代替了原来系统的解析器和语法解释器。在MUC-7评估的系统中,又增加了一个图形用户接口,通过这个接口用户可以跟Proteus抽取引擎进行交互,实现系统的定制。WHISK系统通过多格的“格框架”(Case Frame),把有关的信息联系在一起。WHISK与SRV,R APIER[ 10 ]也不同,操作的对象不是整个文档,而是句子或类似长度的文本。用于招聘广告的信息抽取WHISK系统,抽取的信息包括职位名称、工资、地点,并且,WHISK曾被实验从一堆华尔街金融杂志的文章中分析出公司管理层的人事更迭事件,目标是抽取出公司名称、职位、新任人员的姓名、卸任人的姓名。 此设计为本站原创作品。其中包括:源程序,可执行文件,论文,录像。 | ||||
| 本作品为本站原创作品,禁止转载,否则追究法律责任,若你对本作品有兴趣,请与本站客服联系。原创作者:计算机毕业设计 | ||||
|
||||
暂无相关内容
毕业设计客服咨询
本站提供的所有毕业设计和毕业论文作品均出自原创,集多年从事毕业设计工作的经验及资料,结合强劲的毕业设计开发管理团队,全面面向高校学生提供毕业设计和毕业论文代理以及快速的计算机毕业设计定制服务。
616837397
857982385
616837397
咨询热线:15908152159 蒋老师
服务邮箱:857982385@qq.com
最新计算机毕业设计









