需要金币:![]() ![]() |
资料包括:完整论文 | ![]() |
![]() |
转换比率:金额 X 10=金币数量, 例100元=1000金币 | 论文字数:9749 | ![]() | |
折扣与优惠:团购最低可5折优惠 - 了解详情 | 论文格式:Word格式(*.doc) | ![]() |
摘要:随着私人电脑的发展互联网的发展也大大加快,各种各样的网站开始出现在互联网上。伴随着这些网站一同出现的还有数以亿计的各种信息。在私人电脑刚出现的时候互联网上的信息并不是很多,当用户想要查询某个信息的时候很容易就能找到,但现在用户想要在庞大的互联网上查询某个信息是时就如同大海捞针一样艰难。这时候搜索引擎就被开发出来了,这大大的增加了人们查询信息的效率。在 搜索引擎频繁被使用的时候人们发现当我们在搜索引擎中寻找到的信息有很多,而且有的信息很长,我们想把所有的信息摘下来很费时间,因此“爬虫”这个技术就出现了。 本文我们就通过以“腾讯招聘”的例子来讲述以python语言为基础开发的爬虫。本文主要阐述了在python语言基础下开发爬虫的一些主要问题。例如:如何在scrapy框架下开发爬虫;如何将爬取的数据存入mysql数据库中;编写爬虫过程中如何做到匹配字符串来获取信息。通过这个爬虫我们可以获取到“腾讯招聘”网站上的招聘信息。
关键字:爬虫;python;scrapy;mysql
目录 摘要 Abstract 1 概述-1 1.1课题研究的背景。-1 1.2 爬虫的发展情况-1 1.3 课题研究的意义-2 1.4 课题研究的目标-2 1.5 课题研究的重点-2 1.6 论文的整体结构-2 2 网页爬虫的基本工作原理及其特性介绍-4 2.1 爬虫的工作原理-4 2.2爬虫的分类-5 2.3 cookie的介绍及其作用-5 2.4 Robot协议在爬虫开发过程中的影响-5 2.4.1什么是robot协议-5 2.4.2 Robot协议对爬虫开发的影响-6 3 scrapy框架在网页爬虫开发中的应用-7 3.1 scrapy介绍及其作用-7 3.2 scrapy用到的数据库介绍-7 4 网页爬虫开发的具体实现-8 4.1 网页爬虫的总体设计-8 4.1.1爬虫总体设计-9 4.1.2开发环境和开发目标-9 4.1.3爬虫的运行流程-9 4.2 爬虫的详细设计-10 4.2.1 URL管理器的详细设计-10 4.2.2 网页下载器详细设计-11 4.2.3网页解析器详细设计-12 4.2.4 自动构造URL详细设计-13 4.2.5 数据库详细设计-13 4.3关键问题的处理-15 5 网页爬虫的实现与测试-17 5.1 实现环境的搭建与代码实现-17 5.2项目测试-17 总结-19 参考文献-20 致谢-21 |