主题网络爬虫关键技术研究

来源：56doc.com 资料编号：5D17292 资料等级：★★★★★ %E8%B5%84%E6%96%99%E7%BC%96%E5%8F%B7%EF%BC%9A5D17292

资料以网页介绍的为准,下载后不会有水印.资料仅供学习参考之用. 密保惠帮助

资料介绍

主题网络爬虫关键技术研究(论文18000字)
摘要
随着互联网的迅速发展，Web的信息量越来越大。为了在网络中，快、准、全地找到相关信息变得越来越困难。因此，搜索引擎应运而生。以往的搜索引擎很大程度上帮助人们在互联网上查找信息更加方便，然而，慢慢地也暴露了很多弊端，不能提供专业化的信息搜索，查准率偏低、内容陈旧等。于是面向主题搜索的第四代搜索引擎应运而生。主题搜索引擎，专门面向特定的对象、能够满足特定领域及特定人群的要求。
本文的研究对象是主题搜索引擎中的主题爬虫。首先概述了主题网络爬虫的研究现状；然后分析了主题网络爬虫的体系结构，将其分为：数据存储、下载模块、网页主题识别和链接分析，并阐述各部分的功能。主要研究内容如下：
（1）主题内容的抽取是网页主题识别的重要步骤，本文结合网页内容分布特征以及主题内容的相关特征，设计了一种网页主题内容抽取方法。
（2）提出了一种基于实体链接的主题识别算法，去识别网页的主题。将基于知识库的实体链接方法运用于特征抽取，实验表明该方法提高了主题网页识别的准确率。
（3）提出了一种基于Best-First算法的主题搜索策略。主题搜索策略是指导主题网络爬虫抓取网页的关键，本文采用基于Best-First算法的主题搜索策略。
关键词：主题网络爬虫，实体链接，Best-First算法，主题搜索策略

目录
摘要    II
第一章绪论    1
1.1 背景与意义    1
1.2 主题网络爬虫的国内外研究现状    1
1.2.1 主题识别算法及主题搜索策略    2
1.2.2 主题爬虫系统    3
1.3 本文的研究内容    3
第二章主题网络爬虫的体系结构    5
2.1 组成部分及基本流程    5
2.1.1 基本组成    5
2.1.2 基本流程    6
2.2 主题页面的分布特性    7
2.2.1 Hub/Authority特性    7
2.2.2 Linkage/Sibling Locality特性    7
2.2.3 站点的主题特性    7
2.2.4 隧道特性    8
2.3 搜索策略以及链接提取    8
2.3.1 robots协议和相对链接的转换    8
2.3.2 搜索策略概述    9
2.4 本章小结    9
第三章网页主题内容抽取    10
3.1 HTML简介    10
3.2 网页文件解析    11
3.3 网页去噪    12
3.3.1 利用统计学去噪    14
3.4 主题内容的抽取    15
3.5 文本分词    15
3.6 本章小结    16
第四章基于实体链接的主题识别算法    17
4.1 实体链接简介    17
4.2 CN-DBpedia    17
4.3 基于实体链接的特征抽取    18
4.3.1 候选特征集合抽取    18
4.3.2 常见特征抽取算法    20
4.3.3 最终特征抽取    22
4.4 基于朴素贝叶斯算法的分类器    23
4.5 实验分析    25
4.6 本章小结    26
第五章基于Best-First算法的主题搜索策略    27
5.1 通用搜索策略    27
5.2 常用主题搜索策略    28
5.2.1 基于内容评价的搜索策略    28
5.2.1 基于链接结构评价的搜索策略    29
5.3 基于Best-First算法的主题搜索策略    30
5.3.1 链接价值评估    30
5.3.1 主题搜索策略    31
5.3.2 实验分析    33
5.4 本章小结    33
第六章总结与展望    35
6.1 总结    35
6.2 展望    35