(人工智能)基于Lucene与Heritrix的搜索引擎构建(7)
来源:56doc.com 资料编号:5D4015 资料等级:★★★★★ %E8%B5%84%E6%96%99%E7%BC%96%E5%8F%B7%EF%BC%9A5D4015
资料介绍
进行资源抓取。 (2) 在分词模块,使用中科院分词器、JE和StandardAnalyzer分析器,实现了的中文分词,能够更有效的索引于网页、影视及图片相关的信息。 (3) 充分使用了自己设计的系统框架,将数据和业务分离,提高系统的可扩展性和操作性。 (4) 开发了基于Ajax技术的用户接口子系统,有效、快捷的完成搜索任务。 虽然在搜索结果的精确度和索引的存储方式上有待进一步的细化和完善,但基本实现了本系统的设计思想和实现方法,能够对经过抓取的网页上进行有效的搜索。而且由于系统的设计和实现都采用了面向对象的方法,在系统的可继承性和重用性方面都有利于将来的完善和改进。 由于时间紧迫,而且整个系统涵盖的范围很大,涉及到的技术细节很多,有部分细节上的实现采用了比较简单的方法,以便于整个系统的顺利实现。因此,还需要进行深入的研究,以提高整个系统的性能。 参 考 文 献 [1] 李刚,宋伟,邱哲.征服Ajax+Lucene构建搜索引擎.北京:人民邮电出版社,2006. [2] 邱哲,符滔滔.开发自己的搜索引擎-Lucene2.0+Heritrix.北京:人民邮电出版社,2007. [3] 孙承杰.基于统计的网页正文信息抽取方法的研究.中文信息学报,2004,18(5):17-22. [4] 蒲宇达,关毅,王强.基于数据挖掘思想的网页正文抽取方法的研究.第三届学生计算语言学研讨会论文集,沈阳,2006:246-250. [5] 朱明.数据挖掘.合肥:中国科学技术大学出版社,2002. [6] Hu Y H, Li H, Cao Y B et al. Automatic extraction of titles from general documents using machine learning. Information Processing and Management, 2005, 42 (5):1276-1293. [7] 王德峰,李东.搜索引擎Google的体系结构及其核心技术研究.哈尔滨商业大学学报(自然科学版),2006,(01). [8] 吕平.基于Ajax的IP网络管理系统的研究与实现:(硕士学位论文).北京:北京交通大学, 2007. [9] 陈兵国.基于AJAX的网站设计与实现.福建电脑,2007,(12). [10] 张校乾,金玉玲,侯丽波.一种基于Lucene检索引擎的全文数据库的研究与实现.现代图书情报技术,2005. [11] 杨海东.基于Ajax技术的异步搜索引擎研究与实现:(硕士学位论文).南京信息工程大学,2007. [12] 周珍娟,张字平,陆玲.基于Lucene2.0的电子文献全文检索系统.电脑知识与技术(学术交流),2007. [13] 朱永盛,武港山.基于Web的新闻信息抽取.计算机工程,2006,32(10):74-76. [14] 刘迁,贾惠波.中文信息处理中自动分词技术的研究与展望.计算机工程与应用,2006. [15] 丁承.基于字表的中文搜索引擎分词系统的设计与实现.计算机工程,2001. 致 谢 毕业设计的这段时间里,无论是在学习上还是生活上我都收获了很多,这离不开老师和同学们的关心和帮助。 首先,衷心感谢我的导师赵晶莹老师。从选题、开发直到论文的完成,赵老师都给予我精心的指导,使我在搜索引擎分析开发上有了长足的进步。赵老师热情的为人、严谨的治学态度以及强烈的责任心,都是我学习的楷模,对于我的学习和将来的工作生活都将是一笔宝贵的财富。在此向赵老师表示诚挚的谢意! 其次,要感谢我的同学们,在我的生活上对我的照顾,学习上对我的帮助,他们每个人的身上都有值得我学习的优点,在这里尤其要感谢卢晓伟、韩嘉、马永飞、李楠等同学,和他们渡过的每一寸开心时光都会成为我一生的美好回忆,愿他们都能拥有一个美丽的人生。 最后要感谢我的父母,是他们在我身后一直支持我,给我爱与关怀,在我遇到困难的时候鼓励我,在我有收获时为我高兴。他们是我生活的动力、一生的财富,愿他们平安、健康、幸福! |