基于MongoDB分布式数据采集系统的设计与实现.docx

资料分类:计算机信息 上传会员:翩翩起舞 更新时间:2022-05-09
需要金币1000 个金币 资料包括:完整论文 下载论文
转换比率:金额 X 10=金币数量, 例100元=1000金币 论文字数:16209
折扣与优惠:团购最低可5折优惠 - 了解详情 论文格式:Word格式(*.doc)

摘要:本篇论文主要围绕基于MongoDB分布式数据采集系统的设计与实现。

首先通过构建三个MongoDB复制集,然后将其中两个副本集转为分片,用于存储数据;第三个转化为Config severs;用于保存分布式MongoDB的配置信息,最后以mongos作为数据读写的出口,构建MongoDB分布式。

数据采集系统是通过Python语言,通过requests包获取网页源代码,用re包从网页源码中提取所需信息,以pymongo为数据采集和数据存储的桥梁,使数据顺利读写MongoDB。

最后通过使用Python web框架中的tornado框架,搭建网站,也是以pymongo为数据采集和数据存储的桥梁,完成网站和MongoDB之间数据交流。

最终,经历了三个月成功的实现了这个系统,其中最终测试时使用三台电脑构建MongoDB分布式,分别在这三台电脑上进行对当当网的数据采集,最后成功将当当商品信息和评论等写入MongoDB。

无论未来如何发展,单一靠提升硬件水平的纵向的数据库拓展是无法满足日益暴增的存储,在一定硬件水平下,实现数据库的横向拓展才是循序发展之路。

 

目录

摘要

ABSTRACT

第1章 绪论-1

1.1课题简介-1

1.2课题背景-1

1.3课题研究现状-2

1.3.1国外研究现状-2

1.3.2国内研究现状-3

第2章基于MongoDB分布式数据采集系统开发的相关技术-4

2.1系统运行环境简介-4

2.2系统开发语言Python简介-5

2.3所使用Python第三方库简介-6

2.4系统开发环境PyCharm简介-7

2.5系统开发所用数据库MongoDB简介-7

第3章基于MongoDB分布式数据采集系统的需求分析-9

3.1开发的可行性研究-9

3.1.1技术可行性分析-9

3.1.2运行可行性分析-10

3.1.3操作可行性分析-10

3.2系统的综合需求-11

3.2.1系统功能性需求-11

3.2.2系统性能性需求-11

3.3系统流程图-13

3.4数据流图-14

第4章基于MongoDB分布式数据采集系统的设计-15

4.1系统的结构框架-15

4.2系统的主要结构模型-16

4.3存储模块-18

4.3.1MongoDB分布式应用原理-18

4.3.2MongoDB分布式部署方式-22

4.3.3MongoDB复制集搭建-23

4.3.4MongoDB集群搭建-27

4.4采集模块-29

4.4.1静态网页数据采集-29

4.4.2动态网页数据采集-32

4.4.3Python与MongoDB的连接-34

4.5查询模块-35

4.5.1基于Tornado Web框架的网站设计-35

第5章基于MongoDB分布式数据采集系统的实现-37

5.1系统代码展示-37

5.2运行界面展示-47

第6章 基于MongoDB分布式数据采集系统的测试-52

6.1系统测试内容-52

6.2系统各功能测试-52

第7章 总结与展望-54

参考文献-55

致谢-56

附录-57

相关论文资料:
最新评论
上传会员 翩翩起舞 对本文的描述:MongoDB的分布式便成功的解决了上述问题,MongoDB的分布式由分布于多个计算机结点上的若干个由复制集组成的Shard(片)组成,mongos(路由进程)负责路由和协调操作每个Shard。......
发表评论 (我们特别支持正能量传递,您的参与就是我们最好的动力)
注册会员后发表精彩评论奖励积分,积分可以换金币,用于下载需要金币的原创资料。
您的昵称: 验证码: