需要金币:![]() ![]() |
资料包括:完整论文 | ![]() |
![]() |
转换比率:金额 X 10=金币数量, 例100元=1000金币 | 论文字数:9987 | ![]() | |
折扣与优惠:团购最低可5折优惠 - 了解详情 | 论文格式:Word格式(*.doc) | ![]() |
内容摘要:如今电子商务行业发展迅速,在该行业中产生的数据也日益增长,并且是飞速地增长。在大量的数据中必然存在着值得挖掘的信息和价值,如何有效对海量数据进行处理成为许多电商企业的需求。本文设计并实现了一个基于Hive的电商数据统计分析系统,Hive是基于大数据框架Hadoop的数据仓库工具,Hadoop的产生是为了解决大数据存储和计算问题。 本文中ETL过程和OLAP为该系统的两个核心部分,其中ETL包括了数据抽取、数据转换以及数据加载。本文根据业务需求使用ETL工具Kettle对存储在MySQL的数据进行抽取、转换,再利用Sqoop将数据导入到Hive中,在Hive中做OLAP分析,并使用一款开源的BI工具Superset对分析的结果做可视化。 □□ 关键词: Hadoop;Hive;数据仓库;ETL;电商
目录 内容摘要 Abstract 1绪论-1 1.1选题背景和意义-1 1.2国内外研究现状-2 1.3论文主要工作-2 1.4论文组织架构-3 2理论基础与相关技术-4 2.1 Hadoop架构-4 2.1.1 HDFS原理-4 2.1.2 MapReduce计算框架-5 2.2 Hive架构-6 2.3 Sqoop-7 2.4 Superset-7 2.5数据ETL-8 3需求分析-9 3.1电商BI系统看板-9 3.2 系统业务流程分析-12 4 系统的实现-13 4.1 环境部署-13 4.1.1 Hadoop安装部署-13 4.1.2 Hive安装部署-17 4.1.3 Sqoop安装部署-18 4.2 ETL的实现-19 4.3 OLAP-21 5 结果分析-24 5.1 数据可视化-24 5.2 数据分析-25 6 总结与展望-28 参 考 文 献-29 致 谢 |