浏览记录

   
查看大图

论坛热点话题发现系统

  • 商品编号:php027
  • 货  号:php027
  • 品  牌:jgyc
  • 开发语言: php
  • 数据库: mysql
  • 论文字数: 28396
  • 编程工具/运行环境: PHP+MySQL
  • 市场价: ¥300.00
  • 销售价: ¥200.00
  • 节省: ¥100.00

以下是介绍(不过多网上展示为了防止查重),如需要完整的请联系客服qq购买.提示:本资料已审核通过,内容严格保密,格式标准,质量保证,软件类的包调试成功. 需要这份设计请添加QQ303563675.团购或代理了解

Ctrl+D收藏此篇
app hook

【摘 要】话题发现技术作为话题检测与追踪的重要组成部分,目的是为了解决从文本信息流中自动识别各个未知话题,并且能够在线发现新话题。在话题检测技术中,热点话题检测是为了识别特定时间段内报道频繁、适时、重要的话题。传统的话题检测技术大多面向新闻网站语料进行所有话题的检测,而本文主要研究面向网络论坛的热点话题检测。本文对网络论坛的文本组织形式进行分析,重点研究面向网络论坛话题检测的文本预处理方法和网络论坛热点话题检测算法,取得了以下几个方面的研究成果:

(1) 提出一种基于文档树的帖子信息抽取算法。通过研究常用的信息抽取算法,并分析了网络论坛帖子的页面结构,给出了帖子文档树的构建方法和帖子信息抽取的规则描述。

(2) 提出一种面向网络论坛短文本的特征选择算法。针对网络论坛短文本的特点,提出了基于 TF*PDF 的特征选择算法。

(3) 提出一种基于时间线分析的增量聚类算法。与传统的聚类算法相比,该算法在文本聚类的过程中结合了话题生存周期模型。

(4) 提出一种基于话题关注度和用户参与度的热度评分算法。通过在热度评分算法中融入了话题关注度和用户参与度的计算,有效地与文本聚类算法进行结合。基于上述研究成果,本文设计了网络论坛热点话题检测系统,能够有效地对网络论坛进行舆情监控、及时掌握各个时期民众关心的热点话题。

【关键词】网络论坛 信息抽取 特征选择 文本聚类 热点话题检测

研究背景和意义  

研究背景:

本课题源于国家 863 计划资助项目“主题驱动的 Blog 社区发现与博客特征提取技术”(项目资助号:2007AA01Z436)。

研究意义:

随着国内网络不断地发展,网络信息越来越发达,人们开始习惯从互联网上获取信息,进行在线交流以及发表对热点事情的看法和评论。在这种情况下,信息的来源已不再是问题,关键是如何有效地、准确地获取有用的信息。因此,有效地组织和分析信息已经成为信息时代迫切需要解决的主要问题之一。话题检测与跟踪(Topic Detection and Tracking, TDT)技术正是在上述的应用背景下产生并发展起来的,其目的在于通过对文章主题的发现与跟踪,把各种分散的信息有效的进行汇集并组织成线索,以提供给用户进行查阅,清理一个主题事件的来龙去脉,把握整个事件的整体细节。同时,这项技术也是为了应对信息过载问题而提出的一项应用研究。通过 TDT 技术,人们可以将关于话题的分散信息有效地汇集并组织起来,从而用户可以对话题之间的相互演化及其发展趋势进行分析,为用户提供更高层次的服务。与信息检索、信息抽取、文本分类、文本过滤等几个相关研究相比,话题检测与跟踪技术更强调对新信息的发现能力,关心涉及的是某个特定话题而不是相对广泛的主题类别的信息。另外,话题检测与跟踪的处理对象是随时间动态变化的新闻数据流,而不是静态的、封闭的文本集合。这类新技术是现实中急需的。另外,还可以找出用户某一感兴趣话题的所有报道,研究这一话题的发展历程等等。

近年来,随着网络的普及和 Web2.0 的发展,网络内容渐渐趋向于(编辑-新闻)模式和(用户-发言)模式两者的结合,大大改变了人们过去在网络上只哈尔滨工业大学工学硕士学位论文是浏览信息的习惯,增加了用户的参与性。可以看出,人们越来越不满足被动地在网络上查阅自己需要的信息,而是希望主动表达自己的观点和看法。因此,众多基于 Web 的应用系统应运而生,例如网络论坛和博客等。其中网络论坛(简称 BBS)作为一个重要的网络媒介,在民众意见表达的方面起到了举足轻重的作用。如果可以从 BBS 这个渠道了解到对各种事件的民意情况,那么对相关部门及时疏导民意或采取相应措施都将给予极大的帮助。所以如何从在各种 BBS 发表的大量信息中及时地获取最新的热点讨论话题,成为了一个关键的问题。传统的话题检测算法一般是基于比较正式的文本,如报纸杂志、新闻报道、社论专栏等,或者是专业性比较强的论文、报告之类的。与之相比,在 BBS 上发表的文章专业性不强,具有极大的随意性,多则几千上万字,少则寥寥几句。而且涉及内容相当广泛,几乎可以触及到社会的各个方面。传统的话题检测算法难以直接运用到基于 BBS 语料的话题检测上,因此需要针对 BBS 语料的特点设计更合适的话题检测算法。本文根据自然语言处理方面的相关技术,从论坛发表的帖子内容上的联系出发,提出一种基于聚类分析的网络论坛热点话题检测方法,通过对帖子线索按照相似度进行聚类分析,发现 BBS 的热点话题。这有助于政府和网管部门对 BBS 进行舆情监控、及时掌握各个时期民众关心的热点话题,并了解民众对这些热点话题的观点和态度,从而做出正确、科学的决策。因此,本课题的研究具备较好的应用前景和实用价值。

1.2本文主要研究内容和论文结构

本文主要涉及的问题是:网络论坛数据特征分析,论坛网页信息的抽取,面向论坛热点话题检测的文本特征提取算法、聚类算法及热点话题评分算法。围绕这些问题,本文组织结构如下:

第一章介绍课题的研究背景,阐述研究意义,对所要研究的领域进行了国内外相关工作的综述介绍,分别介绍了各项技术的研究现状。最后概述了本论文的研究内容和结构。

第二章中介绍了网络论坛话题检测的基本概念、话题检测的关键技术。介绍了传统的文本表示模型,特征选择方法以及常用的话题检测聚类算法。本章是后续工作的基础。

第三章则围绕着话题检测文本预处理方法展开。首先,提出了基于文档树的帖子信息抽取方法,接着提出面向网络论坛短文本特征选择算法。通过实验,证明了针对网络论坛文本改进的信息抽取算法和特征选择算法的有效性。本章工作是第四章工作的基础。

第四章首先定义了话题模型,采用基于时间线的增量聚类算法进行话题检测。同时,提出基于话题关注度和用户参与度的话题热度评分算法。实验结果表明,由于引入话题生存周期模型和结合网络论坛帖子相关信息,网络论坛热点话题检测结果更为准确。

第五章讨论了网络论坛热点话题检测系统的设计目标和体系结构,细化各功能模块,指出实现各个模块时遇到的细节问题,并编程实现了这个原型系统。

如果您对本商品有什么问题,请提问咨询!

发表咨询

标题:
*咨询内容:
联系方式: (可以是电话、email、qq等)
*验证码:   看不清楚?换个图片
如果您对本商品有什么评价或经验,欢迎分享!

发表评论

标题:
*评论内容:
联系方式: (可以是电话、email、qq等).
*验证码:   看不清楚?换个图片
<