4.1研究内容
(1)网页中文献信息的抓取,需要把文献的基本信息抓取下来。包括<标题>、<作者>、<机构>、<关键字>、<摘要>、<Author>、<发表时间>、<发表所属期刊、会议等>、<基金>、<原文链接>等字段信息。由于每一个期刊进行自己库内的文献搜索的方式及展示结果不尽相同,需要设计一个通用的指令给信息抓取程序,让其抓取程序可以不同库中抓取相同的字段信息。
(2)分析抓取下来的格式化数据。抓取下来的数据将保存在本地,根据用户需求进行筛选统计。
(3)设计良好的用户交互界面。尽量简便操作方式。
(4)关键字搜索的与、或设计。由于工具支持一组关键字的检索,需要研究通过一定的方式可以实现多个关键词与的搜索及或的搜索。
4.2技术方案:
(1)了解各个核心期刊的搜索格式,使用编程语言建立通用命令传送给网络爬虫,得到命令的爬虫可以所需网页进行信息获取。
(2)抓取网站页面或格式化数据
抓取页面是使用一种叫蜘蛛的程序,网站通过URL关联起来。蜘蛛就是通过一个页面的URL找到另一个页面再找到另一个页面,把所有能链到的页面遍历一边,记录下来,保存到自身数据库。本案例将采用nutch爬虫对网页内容进行抓取,Nutch 是apache旗下一个开源Java 实现的开源爬虫。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬虫,并可以很容易地与Lucene套件链接完成更多功能的检索。
(3)建立索引
建立索引结构,和中英文分词系统。索引结构的建立将采用Lucene完成。
(4)响应用户需求
根据用户搜索要求进行检索,一般多个关键字之间的空格 默认代表的是 或运算的关系。在呈现结果的排序上做文章,通过多种算法计算出相关性最高的文章排在前面,相关性弱的排在后面。这样可以帮助用户发掘到更多 关联性内容,结果呈现也更人性化。这是通常定义下的 站内全文检索 的一个重要特征。也是区别于数据库搜索的技术优势。
此外响应用户搜索条件的时候 还有字段匹配及权重的问题,一篇doc 可能有标题、摘要、正文、tag、作者等多字段信息存在doc索引库里。Keyword是出现在标题、摘要还是正文中时,权重是不一样的。
(5)对搜索结果页面进行排序,对排序结果进行优化。
成品毕业设计 可以根据自己的要求, 自行浏览选购, 可以参考是否符合自己要求,找到满意的成品毕业设计 , 直接发送成品编号联系发你网址的工作人员进行交易, 我们会从QQ或者邮箱等方式发送毕业设计程序。
我们团队 , 可以根据用户的功能要求量 身定制毕业设计程序 (同样联系发你网址的 工作人员) , 需要用户提供详细的 , 功能要 求.开发技术要求(开发语言、开发工具、框 架等 ) . 我们会根据用户毕业设计的难易程 度 , 工作量大小等, 具体的给出一个报价,价格 协商一致过后,付下40%定金.我们开始开 发毕业设计, 做好过后先发送设计桌面演示录像 , 用户看后 满意付尾款, 我们再发程序源码压缩包!