需要金币:![]() ![]() |
资料包括:完整论文 | ![]() |
![]() |
转换比率:金额 X 10=金币数量, 例100元=1000金币 | 论文字数:7926 | ![]() | |
折扣与优惠:团购最低可5折优惠 - 了解详情 | 论文格式:Word格式(*.doc) | ![]() |
摘要:伴随着电子信息技术的飞速发展,人们获取信息的手段日益增多,互联网逐渐成为信息获取的主流手段,相比于传统的报纸、电视、书刊来讲,互联网的信息更为实时、准确、丰富,但同时其内容也更加的斑驳,各种信息也是良莠不齐,人们对信息的获取需要与之相匹配的手段,才能在海量的信息中真正获得自己想要的,获得对自己有益的信息,因此网络爬虫技术应运而生。但随着人们对信息的需求加大,更加复杂的网页技术也产生了,传统的爬虫技术无法解决,网页动态加载信息的问题,因此产生了多线程动态网络数据采集程序。 基于Python多线程动态网络数据采集程序的主要功能可以实现对使用动态加载网页技术的网站进行信息采集工作,可以实现对目标网页的信息全收集,存储,以及集中展示的功能。 本系统在windows8的系统环境下,采用的开发工具为Pycharm,将MySQL5.6作为后台数据库,采用的编程语言为Python,该系统的功能可以解决大部分网页内容的获取,较为实用。 经过测试,本系统可以实现动态加载网页内容获取功能的基本要求,避免了传统爬虫无法正确获取Jason中的数据问题;对于使用者而言,减少了人工获取网页内容的繁琐复杂。 关键词:爬虫;动态网页;多线程;
目录 摘要 ABSTRACT 第1章 前言- 1 - 1.1万维网发展的趋势- 1 - 1)高速度大容量- 1 - 2)集成化和平台化- 1 - 3)以人为本- 1 - 1.2静态网页爬虫缺陷- 1 - 1.3单线程程序的落后- 2 - 1.4理论意义和实践意义- 2 - 1.4.1理论意义- 2 - 1.4.2实践意义- 2 - 第2章 程序可行性分析- 3 - 2.1技术可行性分析- 3 - 2.2经济可行性- 3 - 2.3操作可行性- 3 - 2.4管理可行性- 3 - 第3章 采集网页结构介绍- 4 - 3.1动态网页技术介绍- 4 - 3.2目标网页首页介绍- 4 - 第4章 程序的设计- 9 - 4.1网络请求模块的设计- 9 - 4.2IP代理模式实现设计- 10 - 4.2.1抓取代理IP- 10 - 4.3.2验证代理IP的有效性- 10 - 4.2.3多线程验证- 11 - 4.3内容分析提取模块的设计- 11 - 4.4数据保存模块的设计- 12 - 4.5多线程执行模块的设计- 12 - 4.6GUI界面模块- 13 - 第5章 程序测试结果展示- 16 - 5.1爬虫程序执行界面展示- 16 - 5.2爬取文件内容展示- 16 - 5.3数据库中展示- 17 - 总结与展望- 18 - 参考文献- 20 - 致谢- 22 - |