基于python的网页爬虫的设计与实现.docx

资料分类:计算机信息 上传会员:紫色烟火 更新时间:2022-06-13
需要金币1000 个金币 资料包括:完整论文 下载论文
转换比率:金额 X 10=金币数量, 例100元=1000金币 论文字数:9749
折扣与优惠:团购最低可5折优惠 - 了解详情 论文格式:Word格式(*.doc)

摘要:随着私人电脑的发展互联网的发展也大大加快,各种各样的网站开始出现在互联网上。伴随着这些网站一同出现的还有数以亿计的各种信息。在私人电脑刚出现的时候互联网上的信息并不是很多,当用户想要查询某个信息的时候很容易就能找到,但现在用户想要在庞大的互联网上查询某个信息是时就如同大海捞针一样艰难。这时候搜索引擎就被开发出来了,这大大的增加了人们查询信息的效率。在 搜索引擎频繁被使用的时候人们发现当我们在搜索引擎中寻找到的信息有很多,而且有的信息很长,我们想把所有的信息摘下来很费时间,因此“爬虫”这个技术就出现了。

本文我们就通过以“腾讯招聘”的例子来讲述以python语言为基础开发的爬虫。本文主要阐述了在python语言基础下开发爬虫的一些主要问题。例如:如何在scrapy框架下开发爬虫;如何将爬取的数据存入mysql数据库中;编写爬虫过程中如何做到匹配字符串来获取信息。通过这个爬虫我们可以获取到“腾讯招聘”网站上的招聘信息。

 

关键字:爬虫;python;scrapy;mysql

 

目录

摘要

Abstract

1  概述-1

1.1课题研究的背景。-1

1.2 爬虫的发展情况-1

1.3 课题研究的意义-2

1.4 课题研究的目标-2

1.5 课题研究的重点-2

1.6 论文的整体结构-2

2 网页爬虫的基本工作原理及其特性介绍-4

2.1 爬虫的工作原理-4

2.2爬虫的分类-5

2.3 cookie的介绍及其作用-5

2.4 Robot协议在爬虫开发过程中的影响-5

2.4.1什么是robot协议-5

2.4.2 Robot协议对爬虫开发的影响-6

3 scrapy框架在网页爬虫开发中的应用-7

3.1 scrapy介绍及其作用-7

3.2 scrapy用到的数据库介绍-7

4 网页爬虫开发的具体实现-8

4.1 网页爬虫的总体设计-8

4.1.1爬虫总体设计-9

4.1.2开发环境和开发目标-9

4.1.3爬虫的运行流程-9

4.2 爬虫的详细设计-10

4.2.1 URL管理器的详细设计-10

4.2.2 网页下载器详细设计-11

4.2.3网页解析器详细设计-12

4.2.4 自动构造URL详细设计-13

4.2.5 数据库详细设计-13

4.3关键问题的处理-15

5 网页爬虫的实现与测试-17

5.1 实现环境的搭建与代码实现-17

5.2项目测试-17

总结-19

参考文献-20

致谢-21

相关论文资料:
最新评论
上传会员 紫色烟火 对本文的描述:而本文所讲述的爬虫就是属于搜索引擎的一种.那么什么叫做爬虫呢? 在搜索引擎相关的书籍中是这么介绍的:爬虫也叫(Robots 机器人)或者(Wanderers 漫步者),我们常用的百度搜索引擎其实就是......
发表评论 (我们特别支持正能量传递,您的参与就是我们最好的动力)
注册会员后发表精彩评论奖励积分,积分可以换金币,用于下载需要金币的原创资料。
您的昵称: 验证码: