- 无标题文档
查看论文信息

中文题名:

 大数据量下的业务管理与报表系统的设计与实现    

姓名:

 王学瑞    

学号:

 1049731603225    

保密级别:

 公开    

论文语种:

 chi    

学科代码:

 081001    

学科名称:

 通信与信息系统    

学生类型:

 硕士    

学位:

 工程硕士    

学校:

 武汉理工大学    

院系:

 信息工程学院    

专业:

 电子与通信工程    

研究方向:

 电子技术与应用    

第一导师姓名:

 朱健春    

第一导师院系:

 武汉理工大学    

完成日期:

 2018-05-08    

答辩日期:

 2018-05-12    

中文关键词:

 大数据 ; Hadoop ; HTML5 ; 业务管理 ; 报表    

中文摘要:

随着互联网的快速发展,企业中业务的类型和规模也在逐渐地增加和变大,企业的业务中又包含有许多环节。在以上背景下,企业通过用户的行为收集用户的数据,由此而带来就是企业的业务数据井喷式的增长,业务数据已达TB级甚至更上。怎样对海量数据进行有条理地管理以及在其中提取有价值的信息成为现代企业所面临的问题。这使得企业的各级人员逐渐从数据的统计转变到面向主题式的信息统计,进而得到有价值的信息支持企业的决策。

本文在研究学习了数据仓库技术、Hadoop生态系统、数据仓库的基础框架Hive、新型查询系统Impala和HTML5技术的基础上,设计并实现了大数据量下的业务管理与报表系统,具体的工作内容如下:

(1)在对大数据量下的业务管理与报表系统需求分析的基础上,得出需要对海量数据进行处理的需求、PC端实现管理的需求、移动端实现便捷访问的需求。在以上的需求下,提出基于Hadoop+Hive+Impala的数据处理与查询方案,在PC端以业务模块管理为中心,在移动端使用HTML5技术结合Echarts的数据可视化方式,设计和实现以业务管理和报表展示为核心功能的系统方案。

(2)针对海量数据的备份以提高系统容错性的问题,本文对Hadoop分布式文件系统(Hadoop Distributed File System,HDFS)副文本放置策略的原理进行分析。HDFS默认的副文本放置策略,极易造成节点的副文本放置不均衡。对副文本放置策略进行改进,以达到集群中节点的负载均衡。

(3)针对移动端跨终端的显示问题,本文对混合适配和根元素字体相对单位(Font Size of the Root Element,REM)的适配方案进行分析、对比以及改进。混合适配以文字流式、控件弹性、图片百分比缩放为主。REM适配则通过当前设备的屏幕尺寸来设置网页文档的根元素的大小,来达到终端适配的效果。在不同的设备下,对两种适配方案进行效果的比对,选取效果好的适配方案。针对不同系统下字体放大的显示问题,对选取的方案进行改进,处理字体放大的问题。

(4)针对海量数据的查询以实现实时性查看业务数据的问题,本文对Hive和Impala查询引擎进行分析和对比。Hive查询过程中依赖于Hadoop,以面向数据的批处理为主。Impala抛弃了MapReduce,使用类似于传统的数据库技术MPP。在原理分析对比完成之后,对二者进行海量数据查询的实验对比。在不同的数量级以及不同的查询条件下,完成数据的查询,对实验的结果进行比对,选取效率更高的查询引擎。

参考文献:

[1]Kari Venkatram,Mary A. Geetha. Review on Big Data & Analytics – Concepts, Philosophy, Process and Applications[J]. Cybernetics and Information Technologies,2017,17(2).

[2]顾荣. 大数据处理技术与系统研究[D].南京大学,2016.

[3]林海伦,王元卓,贾岩涛, 等.面向网络大数据的知识融合方法综述[J].计算机学报,2017,40(01):1-27.

[4]Albrecht Wirthmann. Big Data within the European Statistical System[J]. AStA Wirtschafts- und Sozialstatistisches Archiv,2016,10(2-3).

[5]马妍娇. 海量广告数据的报表系统的设计与实现[D].哈尔滨工业大学,2016.

[6]刘沐,谢素萍,申艳菊, 等.清华大学科研统计报表系统的设计与实践[J].武汉大学学报(理学版),2012,58(S1):323-326.

[7]黄晓颖,李亚芬,王普.基于数据仓库的学科建设决策支持系统的设计[J].计算机工程与设计,2010,31(23):4995-4998.

[8]Hamza Zafar,Farrukh Aftab Khan,Bryan Carpenter, et al. MPJ Express Meets YARN: Towards Java HPC on Hadoop Systems[J]. Procedia Computer Science,2015,51.

[9]周豪. 大数据量下的实时数据报表系统的设计与实现[D].北京交通大学,2016.

[10]K.W Chau,Ying Cao,M Anson, et al. Application of Data Warehouse and Decision Support System in Construction Management[J]. Automation in Construction,2003,12(2).

[11]龙新征,李丽,彭一明, 等.基于数据仓库的高校数据统计服务平台研究[J].通信学报,2013,34(S2):163-169.

[12]吕海燕,车晓伟.数据仓库中数据粒度的划分[J].计算机工程与设计,2009,30(09):2323-2325+2328.

[13]Jesús Pardillo,Jose-Norberto Mazón,Juan Trujillo. Extending OCL for OLAP Querying on Conceptual Multidimensional Models of Data Warehouses[J]. Information Sciences,2009,180(5).

[14]Meenakshi Arora,Anjana Gosain. Schema Evolution for Data Warehouse: A Survey[J]. International Journal of Computer Applications,2011,22(6).

[15]McKendrick, Joe. Data Warehouses' New Role in the Big Data Revolution[J]. Database Trends and Applications,2014,28(1).

[16]黎宏剑,刘恒,黄广文, 等. 基于Hadoop的海量电信数据云计算平台研究[J]. 电信科学,2012,28(08):80-85.

[17]夏靖波,韦泽鲲,付凯, 等.云计算中Hadoop技术研究与应用综述[J]. 计算机科学,2016,43(11):6-11+48.

[18]Can Uzunkaya,Tolga Ensari,Yusuf Kavurucu. Hadoop Ecosystem and Its Analysis on Tweets[J]. Procedia - Social and Behavioral Sciences,2015,195.

[19]谢恒,王梅,乐嘉锦, 等.基于Hive的计算结果特征提取与重用策略[J].计算机研究与发展,2015,52(09):2014-2024.

[20]王有为,王伟平,孟丹.基于统计方法的Hive数据仓库查询优化实现[J].计算机研究与发展,2015,52(06):1452-1462.

[21]王猛. 大数据分析仓库Hive存储结构扩展的设计和实现[D].上海交通大学,2015.

[22]Jiaoyang Ma,Ling Chen,Mingqi Lv, et al. Logical Query Optimization for Cloudera Impala System[J]. The Journal of Systems & Software,2017,125.

[23]Sahithi Tummalapalli,Venkata rao Machavarapu. Managing Mysql Cluster Data Using Cloudera Impala[J]. Procedia Computer Science,2016,85.

[24]Junyang Bai,Weiping Wang,Mingming Lu, et al. TD‐WS: a Threat Detection Tool of WebSocket and Web Storage in HTML5 Websites[J]. Security and Communication Networks,2016,9(18).

[25]仲媛,王菁,韩燕波, 等.HTML5混合式移动社交应用中缓存管理机制的研究[J].计算机科学,2017,44(02):82-87+111.

[26]王淑庆,韩勇,张小垒, 等.基于HTML5的时空轨迹动态可视化方法[J].计算机工程与设计,2015,36(12):3317-3323.

[27]Mohd Rehan Ghazi,Durgaprasad Gangodkar. Hadoop, MapReduce and HDFS: A Developers Perspective[J]. Procedia Computer Science,2015,48.

[28]Yu Shyang Tan,Jiaqi Tan,Eng Siong Chng, et al. Hadoop Framework: Impact of Data Organization on Performance[J]. Software: Practice and Experience,2013,43(11).

[29]Mohd Usama,Mengchen Liu,Min Chen. Job Schedulers for Big Data Processing in Hadoop Environment: Testing Real-life Schedule with Benchmark Programs[J]. Digital Communications and Networks,2017.

[30]Bo Dong,Qinghua Zheng,Feng Tian, et al. Performance Models and Dynamic Characteristics Analysis for HDFS Write and Read Operations: A Systematic View[J]. The Journal of Systems & Software,2014,93.

[31]S. Ranjitha,P. Sudhakar,K.S. Seetharaman. A Novel and Efficient De-duplication System for HDFS[J]. Procedia Computer Science,2016,92.

[32]刘永增. 基于Hadoop/Hive的海量web日志处理系统的设计与实现[D].大连理工大学,2011.

[33]叶文宸. 基于hive的性能优化方法的研究与实践[D].南京大学,2011.

[34]郭超,刘波,林伟伟.基于Impala的大数据查询分析计算性能研究[J].计算机应用研究,2015,32(05):1330-1334.

[35]赵龙,江荣安.基于Hive的海量搜索日志分析系统研究[J].计算机应用研究,2013,30(11):3343-3345.

[36]庞超. 基于Spark和Hive的网易移动大数据支持平台的设计与实现[D].北京交通大学,2017.

[37]贾文娟. 基于hive分布式计算与数据挖掘的关联性营销的设计与实现[D].北京交通大学,2011.

[38]王伟. 基于Hive的物流数据仓库研究与实现[D].东华大学,2016.

[39]刘越,李锦涛,虎嵩林.基于代价估计的Hive多维索引分割策略选择算法[J].计算机研究与发展,2016,53(04):798-810.

[40]马骄阳,陈岭,赵宇亮, 等.基于浓密树和改进McCHyp算法的Impala查询优化[J].计算机研究与发展,2014,51(S2):39-47.

[41]周强,陈岭,马骄阳, 等.基于改进DPhyp算法的Impala查询优化[J].计算机研究与发展,2013,50(S2):114-120.

中图分类号:

 TP311.52    

馆藏号:

 TP311.52/3225/2018    

备注:

 403-西院分馆博硕论文库;203-余家头分馆博硕论文库    

无标题文档

   建议浏览器: 谷歌 火狐 360请用极速模式,双核浏览器请用极速模式