基于分布式搜索引擎的研究与实现.docx

资料分类:精选论文 上传会员:螺蛳粉50g 更新时间:2024-01-17
需要金币1000 个金币 资料包括:完整论文 下载论文
转换比率:金额 X 10=金币数量, 例100元=1000金币 论文字数:24397
折扣与优惠:团购最低可5折优惠 - 了解详情 论文格式:Word格式(*.doc)

摘要:随着网页数量的呈指数型上升趋势,数据信息已经成为用户在互联网上获取的有效资源,将网页上采集的数据信息进行大数据分析,能够对当今社会产生巨大的价值,这时如何从海量的网页中提取出有效数据成为我们亟待解决的问题。搜索引擎的技术越来越融入人们的生活,网络爬虫的渗透也逐步深入,本文基于网络爬虫技术的基本原理和相关技术,运用python第三方库实现了对豆瓣电影排名信息的爬取,以及运用Scrapy框架对新浪微博热搜排行榜的网页数据信息进行爬取。

随着电影行业的发展,看电影成为人们生活中不可缺少的娱乐活动。本文基于豆瓣电影排名的网络爬虫无框架的设计与实现,通过对网络爬虫相关技术的学习,运用BeautifulSoup库和Xpath两种不同的网页解析方法,对豆瓣电影排名网页进行解析,并且运用正则表达式的提取方法对解析出的信息进行处理,对网页的电影排名、电影名称、电影星级、电影评分以及评价人数的数据信息进行提取并生成 json文件和excel文件。

微博舆论的话题越来越成为人们关注的焦点,本文也基于新浪微博热搜排行榜的Scrapy爬虫框架,构建网络爬虫的数据抓取及解析、数据处理、全局配置、数据存储等模块,运用python语言对网络爬虫代码进行编写,将新浪微博网页热搜排行和标题数据信息进行提取并生成json文件和excel文件。

关键词:网络爬虫  Scrapy框架  json  Robots协议

 

目录

摘要

Abstract

1. 绪论-1

1.1. 研究背景与意义-1

1.2. 网络爬虫研究历史-1

1.3. 本文所研究内容-2

2. 网络爬虫的相关技术介绍-3

2.1. HTTP工作原理-3

2.2. 网页基础-5

2.3. 网络爬虫基本原理-8

2.4. Robots协议的使用-8

2.5. 网页解析库使用-9

3. 基于豆瓣电影排名的爬虫无框架设计与实现-11

3.1. 豆瓣网站的请求与响应-11

3.2. 豆瓣电影的网页获取与分析-14

3.3. 豆瓣电影排行数据信息提取-17

3.4. 豆瓣电影网络爬虫代码实现-20

4. 基于新浪微博热搜排行的Scrapy爬虫框架设计与实现-27

4.1. Scrapy爬虫框架介绍-27

4.2. Scrapy框架的网络爬虫设计-29

4.3. Scrapy框架模块设计-30

4.4. Scrapy框架模块设计代码实现-32

4.5. 代码运行结果-35

4.6. Scrapy框架网络爬虫的测试-37

5. 总结-41

5.1. 全文总结-41

5.2. 不足与展望-41

参考文献-42

附录-43

致谢-74

相关论文资料:
最新评论
上传会员 螺蛳粉50g 对本文的描述:无框架网络爬虫数据信息提取:运用python的库获取豆瓣电影网页的URL,用BeautifulSoup库和XPath对豆瓣服务器返回的网页内容进行有效提取,并且用正则表达式对所提取的内容进行处理,提......
发表评论 (我们特别支持正能量传递,您的参与就是我们最好的动力)
注册会员后发表精彩评论奖励积分,积分可以换金币,用于下载需要金币的原创资料。
您的昵称: 验证码: