需要金币:![]() ![]() |
资料包括:完整论文 | ![]() |
![]() |
转换比率:金额 X 10=金币数量, 例100元=1000金币 | 论文字数:9403 | ![]() | |
折扣与优惠:团购最低可5折优惠 - 了解详情 | 论文格式:Word格式(*.doc) | ![]() |
摘要: 在大数据和人工智能快速发展的背景下,无论是前者还是后者所依托的机器学习都需要庞大的数据。这就给网络爬虫的提供了广阔的市场。由于常见的搜索引擎会给用户反馈一些多余的数据和广告,基于python的网络爬虫系统将重点解决上述问题。本文除了简单介绍python和网络爬虫的发展和应用前景外,对应用广泛和简单的基于python地方三方库(Requests库)开发的网络爬虫为主要内容进行论述,同时在对网络爬虫时可能遇到的骚扰,法律和隐私问题以及为避免这些问题而普遍采用的Robot协议等方面的内容进行了阐述。系统通过用户提交的信息确定将爬取网页的统一资源定位符后,通过Requests库的get方法对网页内容进行爬取并写入本地文件。针对可能遇到的反爬虫网站,则对部分反反爬虫的技术做了介绍和实现如冒充浏览器访问和更改IP地址等。最后采用黑白盒测试的方法通过对教育相关的数据的爬取测试了系统的性能。
关键词: 网络爬虫;网页内容;数据展示;反反爬虫
目 录 摘 要 Abstract 1 绪论-1 1.1 目的与意义-1 1.2 现状与趋势及分类-1 1.2.1现状和趋势-1 1.2.2网络爬虫的分类-2 1.3 开发技术和工具-2 1.3.1 B/S架构简介-2 1.3.2 PyCharm简介-3 1.3.3 python语言简介-3 1.4 网络爬虫盗亦有道-4 1.4.1网络爬虫引发的问题-4 1.4.2 Robots协议-5 2 系统分析-6 2.1 可行性分析-6 2.2 网络爬虫系统的性能需求-6 3 系统设计-7 3.1 总体设计-7 3.2用户登陆-8 3.3数据爬取模块-8 3.4数据展示模块-8 4 系统实现-10 4.1 前端界面模块实现-10 4.1.1用户登陆界面-10 4.1.2爬取数据界面-11 4.1.3数据展示界面-13 4.2 后端爬取-14 5 系统测试-17 5.1安装与配置-17 5.2 软件测试-17 结 论-20 谢 辞-21 参考文献-22 |