基于python的XX网络爬虫系统.doc

资料分类:计算机信息 上传会员:狂奔的小猪 更新时间:2021-11-19
需要金币1000 个金币 资料包括:完整论文 下载论文
转换比率:金额 X 10=金币数量, 例100元=1000金币 论文字数:9403
折扣与优惠:团购最低可5折优惠 - 了解详情 论文格式:Word格式(*.doc)

摘要: 在大数据和人工智能快速发展的背景下,无论是前者还是后者所依托的机器学习都需要庞大的数据。这就给网络爬虫的提供了广阔的市场。由于常见的搜索引擎会给用户反馈一些多余的数据和广告,基于python的网络爬虫系统将重点解决上述问题。本文除了简单介绍python和网络爬虫的发展和应用前景外,对应用广泛和简单的基于python地方三方库(Requests库)开发的网络爬虫为主要内容进行论述,同时在对网络爬虫时可能遇到的骚扰,法律和隐私问题以及为避免这些问题而普遍采用的Robot协议等方面的内容进行了阐述。系统通过用户提交的信息确定将爬取网页的统一资源定位符后,通过Requests库的get方法对网页内容进行爬取并写入本地文件。针对可能遇到的反爬虫网站,则对部分反反爬虫的技术做了介绍和实现如冒充浏览器访问和更改IP地址等。最后采用黑白盒测试的方法通过对教育相关的数据的爬取测试了系统的性能。

 

关键词: 网络爬虫;网页内容;数据展示;反反爬虫

 

目 录

摘 要

Abstract

1  绪论-1

1.1 目的与意义-1

1.2 现状与趋势及分类-1

1.2.1现状和趋势-1

1.2.2网络爬虫的分类-2

1.3 开发技术和工具-2

1.3.1 B/S架构简介-2

1.3.2 PyCharm简介-3

1.3.3 python语言简介-3

1.4  网络爬虫盗亦有道-4

1.4.1网络爬虫引发的问题-4

1.4.2 Robots协议-5

2  系统分析-6

2.1 可行性分析-6

2.2 网络爬虫系统的性能需求-6

3  系统设计-7

3.1 总体设计-7

3.2用户登陆-8

3.3数据爬取模块-8

3.4数据展示模块-8

4  系统实现-10

4.1 前端界面模块实现-10

4.1.1用户登陆界面-10

4.1.2爬取数据界面-11

4.1.3数据展示界面-13

4.2 后端爬取-14

5  系统测试-17

5.1安装与配置-17

5.2 软件测试-17

结        论-20

谢        辞-21

参考文献-22

相关论文资料:
最新评论
上传会员 狂奔的小猪 对本文的描述:基于python的任取网络爬虫系统的设计与实现在PyCharm平台上完成代码开发,后台编码使用python语言。由于网络爬虫到的数据可能会包含结构化的和非结构化的数据,因此在数据的保存上并......
发表评论 (我们特别支持正能量传递,您的参与就是我们最好的动力)
注册会员后发表精彩评论奖励积分,积分可以换金币,用于下载需要金币的原创资料。
您的昵称: 验证码: