基于Hive+Hadoop+Palo的大数据分析处理系统.doc

资料分类:计算机信息 上传会员:紫色烟火 更新时间:2022-06-04
需要金币1000 个金币 资料包括:完整论文 下载论文
转换比率:金额 X 10=金币数量, 例100元=1000金币 论文字数:9681
折扣与优惠:团购最低可5折优惠 - 了解详情 论文格式:Word格式(*.doc)

摘要:在顺应移动互联网的发展,公司内部对PC、WAP流量分成也需要一个严格的判断标准。UCRM是公司内部PC、WAP分成、非标合同计算、业务业绩报表展示的一个平台,现在需要对PC、WAP流量进行严格地区分。UCRM的数据来源有union、ubi(两个产出数据的平台)等平台,UCRM平台的功能都是在基于Hive+Hadoop+Palo的大数据分析处理系统上进行处理的。

-由于原有的PC、WAP数据拆分逻辑达不到预期的效果,需要对拆分逻辑进行修改才能适应业务的发展。在整个数据表的数据全量清空和全量导入的过程中,由于受到硬件资源和其他因素的影响,也会出现全量刷新任务执行失败的情况,这将导致业务数据表数据量为空,重新执行全量刷新任务需要很长的时间,会对业务造成非常大的影响。该毕业设计就是对这些问题进行改进和优化,主要采用Shell脚本通过HiveQL语言来调度Hadoop执行数据拆分和汇总的任务,同时采用临时表切换对全量刷新任务进行优化。经过改进和优化之后,PC、WAP数据拆分和现有业务逻辑一致,即使全量刷新任务执行失败,对用户来说,也是无感知的,达到了预期的效果。

 

关键词:大数据;Hadoop;Palo;Hive

 

目录

摘要

Abstract

1 引言-1

1.1课题背景-1

1.2系统设计目标-1

1.3技术手段及技术设计路线-2

2 系统分析-3

2.1 可行性分析-3

2.1.1 技术可行性-3

2.1.2 经济可行性-3

2.1.3 开发可行性-3

2.2 需求分析-3

2.2.1 数据来源-3

2.2.2 用户需求-4

3 系统设计与实现-5

3.1 系统安装和平台的搭建-5

3.1.1 底层操作系统的安装-5

3.1.2 Hadoop集群的安装-5

3.1.3 Hive数据仓库的安装-9

3.2 系统设计-12

3.2.1 PC WAP 数据拆分-12

3.2.2 union 任务全量刷新优化-18

4 平台和系统测试-22

4.1 平台稳定性测试-22

4.2 系统数据准确性测试-22

结    论-23

参 考 文 献-24

致    谢-25

相关论文资料:
最新评论
上传会员 紫色烟火 对本文的描述: HDFS对分布式文件的使用方法类似于Linux ext文件系统,所以只要会Linux基本操作,使用HDFS也不难。Hadoop底层采用Java开发,用Java 底层API调用MapReduce任务具有一定的难度。但通过Hive SQL来调......
发表评论 (我们特别支持正能量传递,您的参与就是我们最好的动力)
注册会员后发表精彩评论奖励积分,积分可以换金币,用于下载需要金币的原创资料。
您的昵称: 验证码: