基于分布式搜索引擎的研究与实现.docx[原创毕业论文]

需要金币：1000 个金币	资料包括：完整论文
转换比率：金额 X 10=金币数量，例100元=1000金币	论文字数：24397
折扣与优惠：团购最低可5折优惠 - 了解详情	论文格式：Word格式(*.doc)

上一篇：机器学习在量化投资中的应用.docx

下一篇：假设法在小学数学解题中的应用.docx

摘要：随着网页数量的呈指数型上升趋势，数据信息已经成为用户在互联网上获取的有效资源，将网页上采集的数据信息进行大数据分析，能够对当今社会产生巨大的价值，这时如何从海量的网页中提取出有效数据成为我们亟待解决的问题。搜索引擎的技术越来越融入人们的生活，网络爬虫的渗透也逐步深入，本文基于网络爬虫技术的基本原理和相关技术，运用python第三方库实现了对豆瓣电影排名信息的爬取，以及运用Scrapy框架对新浪微博热搜排行榜的网页数据信息进行爬取。

随着电影行业的发展，看电影成为人们生活中不可缺少的娱乐活动。本文基于豆瓣电影排名的网络爬虫无框架的设计与实现，通过对网络爬虫相关技术的学习，运用BeautifulSoup库和Xpath两种不同的网页解析方法，对豆瓣电影排名网页进行解析，并且运用正则表达式的提取方法对解析出的信息进行处理，对网页的电影排名、电影名称、电影星级、电影评分以及评价人数的数据信息进行提取并生成 json文件和excel文件。

微博舆论的话题越来越成为人们关注的焦点，本文也基于新浪微博热搜排行榜的Scrapy爬虫框架，构建网络爬虫的数据抓取及解析、数据处理、全局配置、数据存储等模块，运用python语言对网络爬虫代码进行编写，将新浪微博网页热搜排行和标题数据信息进行提取并生成json文件和excel文件。

关键词：网络爬虫 Scrapy框架 json Robots协议

摘要

Abstract

1. 绪论-1

1.1. 研究背景与意义-1

1.2. 网络爬虫研究历史-1

1.3. 本文所研究内容-2

2. 网络爬虫的相关技术介绍-3

2.1. HTTP工作原理-3

2.2. 网页基础-5

2.3. 网络爬虫基本原理-8

2.4. Robots协议的使用-8

2.5. 网页解析库使用-9

3. 基于豆瓣电影排名的爬虫无框架设计与实现-11

3.1. 豆瓣网站的请求与响应-11

3.2. 豆瓣电影的网页获取与分析-14

3.3. 豆瓣电影排行数据信息提取-17

3.4. 豆瓣电影网络爬虫代码实现-20

4. 基于新浪微博热搜排行的Scrapy爬虫框架设计与实现-27

4.1. Scrapy爬虫框架介绍-27

4.2. Scrapy框架的网络爬虫设计-29

4.3. Scrapy框架模块设计-30

4.4. Scrapy框架模块设计代码实现-32

4.5. 代码运行结果-35

4.6. Scrapy框架网络爬虫的测试-37

5. 总结-41

5.1. 全文总结-41

5.2. 不足与展望-41

参考文献-42

附录-43

致谢-74

斗鱼网络直播平台营销的现状分析.doc	我国推行以房养老模式的可行性分析.do	管理层变更对上市公司业绩的影响研究
我国中药出口贸易的问题及对策分析.do	某品牌汽车C系列微博营销策划方案.rar	ST大控偿债能力分析.docx
初中生违反纪律行为的心理学分析--基于	全域旅游视角下南通旅游发展研究.docx	试述我国会计监督的现状及发展.docx
曼迪利银行内审模式对我国商业银行内部	我国商业健康保险发展的问题与对策.do	资源薄弱型城市旅游开发模式探讨--以江