需要金币:![]() ![]() |
资料包括:完整论文 | ![]() |
![]() |
转换比率:金额 X 10=金币数量, 例100元=1000金币 | 论文字数:9681 | ![]() | |
折扣与优惠:团购最低可5折优惠 - 了解详情 | 论文格式:Word格式(*.doc) | ![]() |
摘要:在顺应移动互联网的发展,公司内部对PC、WAP流量分成也需要一个严格的判断标准。UCRM是公司内部PC、WAP分成、非标合同计算、业务业绩报表展示的一个平台,现在需要对PC、WAP流量进行严格地区分。UCRM的数据来源有union、ubi(两个产出数据的平台)等平台,UCRM平台的功能都是在基于Hive+Hadoop+Palo的大数据分析处理系统上进行处理的。 -由于原有的PC、WAP数据拆分逻辑达不到预期的效果,需要对拆分逻辑进行修改才能适应业务的发展。在整个数据表的数据全量清空和全量导入的过程中,由于受到硬件资源和其他因素的影响,也会出现全量刷新任务执行失败的情况,这将导致业务数据表数据量为空,重新执行全量刷新任务需要很长的时间,会对业务造成非常大的影响。该毕业设计就是对这些问题进行改进和优化,主要采用Shell脚本通过HiveQL语言来调度Hadoop执行数据拆分和汇总的任务,同时采用临时表切换对全量刷新任务进行优化。经过改进和优化之后,PC、WAP数据拆分和现有业务逻辑一致,即使全量刷新任务执行失败,对用户来说,也是无感知的,达到了预期的效果。
关键词:大数据;Hadoop;Palo;Hive
目录 摘要 Abstract 1 引言-1 1.1课题背景-1 1.2系统设计目标-1 1.3技术手段及技术设计路线-2 2 系统分析-3 2.1 可行性分析-3 2.1.1 技术可行性-3 2.1.2 经济可行性-3 2.1.3 开发可行性-3 2.2 需求分析-3 2.2.1 数据来源-3 2.2.2 用户需求-4 3 系统设计与实现-5 3.1 系统安装和平台的搭建-5 3.1.1 底层操作系统的安装-5 3.1.2 Hadoop集群的安装-5 3.1.3 Hive数据仓库的安装-9 3.2 系统设计-12 3.2.1 PC WAP 数据拆分-12 3.2.2 union 任务全量刷新优化-18 4 平台和系统测试-22 4.1 平台稳定性测试-22 4.2 系统数据准确性测试-22 结 论-23 参 考 文 献-24 致 谢-25 |