需要金币:![]() ![]() |
资料包括:完整论文 | ![]() |
![]() |
转换比率:金额 X 10=金币数量, 例100元=1000金币 | 论文字数:24397 | ![]() | |
折扣与优惠:团购最低可5折优惠 - 了解详情 | 论文格式:Word格式(*.doc) | ![]() |
摘要:随着网页数量的呈指数型上升趋势,数据信息已经成为用户在互联网上获取的有效资源,将网页上采集的数据信息进行大数据分析,能够对当今社会产生巨大的价值,这时如何从海量的网页中提取出有效数据成为我们亟待解决的问题。搜索引擎的技术越来越融入人们的生活,网络爬虫的渗透也逐步深入,本文基于网络爬虫技术的基本原理和相关技术,运用python第三方库实现了对豆瓣电影排名信息的爬取,以及运用Scrapy框架对新浪微博热搜排行榜的网页数据信息进行爬取。 随着电影行业的发展,看电影成为人们生活中不可缺少的娱乐活动。本文基于豆瓣电影排名的网络爬虫无框架的设计与实现,通过对网络爬虫相关技术的学习,运用BeautifulSoup库和Xpath两种不同的网页解析方法,对豆瓣电影排名网页进行解析,并且运用正则表达式的提取方法对解析出的信息进行处理,对网页的电影排名、电影名称、电影星级、电影评分以及评价人数的数据信息进行提取并生成 json文件和excel文件。 微博舆论的话题越来越成为人们关注的焦点,本文也基于新浪微博热搜排行榜的Scrapy爬虫框架,构建网络爬虫的数据抓取及解析、数据处理、全局配置、数据存储等模块,运用python语言对网络爬虫代码进行编写,将新浪微博网页热搜排行和标题数据信息进行提取并生成json文件和excel文件。 关键词:网络爬虫 Scrapy框架 json Robots协议
目录 摘要 Abstract 1. 绪论-1 1.1. 研究背景与意义-1 1.2. 网络爬虫研究历史-1 1.3. 本文所研究内容-2 2. 网络爬虫的相关技术介绍-3 2.1. HTTP工作原理-3 2.2. 网页基础-5 2.3. 网络爬虫基本原理-8 2.4. Robots协议的使用-8 2.5. 网页解析库使用-9 3. 基于豆瓣电影排名的爬虫无框架设计与实现-11 3.1. 豆瓣网站的请求与响应-11 3.2. 豆瓣电影的网页获取与分析-14 3.3. 豆瓣电影排行数据信息提取-17 3.4. 豆瓣电影网络爬虫代码实现-20 4. 基于新浪微博热搜排行的Scrapy爬虫框架设计与实现-27 4.1. Scrapy爬虫框架介绍-27 4.2. Scrapy框架的网络爬虫设计-29 4.3. Scrapy框架模块设计-30 4.4. Scrapy框架模块设计代码实现-32 4.5. 代码运行结果-35 4.6. Scrapy框架网络爬虫的测试-37 5. 总结-41 5.1. 全文总结-41 5.2. 不足与展望-41 参考文献-42 附录-43 致谢-74 |