基于python的网页爬虫的设计与实现.docx[原创毕业论文]

需要金币：1000 个金币	资料包括：完整论文
转换比率：金额 X 10=金币数量，例100元=1000金币	论文字数：9749
折扣与优惠：团购最低可5折优惠 - 了解详情	论文格式：Word格式(*.doc)

上一篇：基于PHP和MySQL的个人博客系统的设计与实现.doc

下一篇：基于Qt的点歌系统的设计与实现.docx

摘要：随着私人电脑的发展互联网的发展也大大加快，各种各样的网站开始出现在互联网上。伴随着这些网站一同出现的还有数以亿计的各种信息。在私人电脑刚出现的时候互联网上的信息并不是很多，当用户想要查询某个信息的时候很容易就能找到，但现在用户想要在庞大的互联网上查询某个信息是时就如同大海捞针一样艰难。这时候搜索引擎就被开发出来了，这大大的增加了人们查询信息的效率。在搜索引擎频繁被使用的时候人们发现当我们在搜索引擎中寻找到的信息有很多，而且有的信息很长，我们想把所有的信息摘下来很费时间，因此“爬虫”这个技术就出现了。

本文我们就通过以“腾讯招聘”的例子来讲述以python语言为基础开发的爬虫。本文主要阐述了在python语言基础下开发爬虫的一些主要问题。例如：如何在scrapy框架下开发爬虫；如何将爬取的数据存入mysql数据库中；编写爬虫过程中如何做到匹配字符串来获取信息。通过这个爬虫我们可以获取到“腾讯招聘”网站上的招聘信息。

关键字：爬虫；python；scrapy；mysql

摘要

Abstract

1 概述-1

1.1课题研究的背景。-1

1.2 爬虫的发展情况-1

1.3 课题研究的意义-2

1.4 课题研究的目标-2

1.5 课题研究的重点-2

1.6 论文的整体结构-2

2 网页爬虫的基本工作原理及其特性介绍-4

2.1 爬虫的工作原理-4

2.2爬虫的分类-5

2.3 cookie的介绍及其作用-5

2.4 Robot协议在爬虫开发过程中的影响-5

2.4.1什么是robot协议-5

2.4.2 Robot协议对爬虫开发的影响-6

3 scrapy框架在网页爬虫开发中的应用-7

3.1 scrapy介绍及其作用-7

3.2 scrapy用到的数据库介绍-7

4 网页爬虫开发的具体实现-8

4.1 网页爬虫的总体设计-8

4.1.1爬虫总体设计-9

4.1.2开发环境和开发目标-9

4.1.3爬虫的运行流程-9

4.2 爬虫的详细设计-10

4.2.1 URL管理器的详细设计-10

4.2.2 网页下载器详细设计-11

4.2.3网页解析器详细设计-12

4.2.4 自动构造URL详细设计-13

4.2.5 数据库详细设计-13

4.3关键问题的处理-15

5 网页爬虫的实现与测试-17

5.1 实现环境的搭建与代码实现-17

5.2项目测试-17

总结-19

参考文献-20

致谢-21

中小型企业网络规划与设计.doc	基于Django的个人博客网站的设计与开发	基于51单片机的超声波测距系统的设计和
手机安卓平台跳伞记录app.docx	中小型企业局域网组建与管理.doc	基于android的习题管理APP设计与实现.doc
基于Java EE的仓库管理系统的设计与实现	基于jsp框架的XX方剂管理系统.doc	基于WEB的交友博客网站设计与实现.doc
校园闲置物品交易网站的设计与实现.do	大学生网络消费行为特征研究.doc	RPL路由协议能耗问题研究.doc