- 无标题文档
查看论文信息

中文题名:

 Hadoop平台下文件副本存储改进及小文件合并存取优化的研究     

姓名:

 李宇文    

学号:

 1049721201387    

保密级别:

 公开    

论文语种:

 chi    

学科代码:

 0835    

学科名称:

 软件工程    

学生类型:

 硕士    

学位:

 工学硕士    

学校:

 武汉理工大学    

获奖论文:

 校优秀硕士学位论文    

院系:

 计算机科学与技术学院    

专业:

 软件工程    

研究方向:

 计算机应用支撑技术    

第一导师姓名:

 李玉强    

第一导师院系:

 武汉理工大学    

完成日期:

 2015-04-06    

答辩日期:

 2015-05-21    

中文关键词:

 

Hadoop ; HDFS ; 串行存储 ; 并行存储 ; B+树 ; SequenceFile

    

中文摘要:

       近年来,“大数据”技术已经逐渐成为学术界和工业界关注的热点问题。而Hadoop作为处理大数据的开发平台之一,不仅给我们带来了廉价的处理大数据的能力,同时还实现了代码开源化。其中,HDFS作为Hadoop最底层的分布式文件系统,存储着集群中所有存储节点的数据,它除了为MapReduce提供了高效的读写性能外,还有着高容错性和高吞吐量的特点。但是,HDFS对于这种多副本的存储设计采用了串行流水线式的存储方式,其制约了副本在HDFS中的存储性能。同时,随着互联网技术的不断发展,海量小文件的数据急剧增多,Hadoop秉承存储海量大文件的设计理念,在海量小文件的处理上严重制约了其存取性能。为此,本文针对上述两个问题展开了深入的研究,主要的工作内容及创新点总结如下:

       本文针对HDFS中副本的串行存储方式所表现出来存储效率低下的问题,并根据相关研究人员提出的并行化存储方法,提出一种新的设计方案。结合该方案的优化设计思想,深入详细地分析了HDFS下的存储架构,以及相关类和数据块的结构,找到需要改进之处。通过创建与pipeline管道中所有DataNode节点的socket连接,实现了文件副本的并行存储。

       针对海量小文件严重制约Hadoop的I/O性能的问题,本文提出在基于Hadoop下自带的SequenceFile合并方案的基础上,实现基于B+树索引的小文件读取方案,在提高小文件查找效率的同时,降低了小文件的元数据对NameNode节点内存空间的占用率,从而提高小文件的读取效率。在该方案的实现中,本文首先给出了B+树索引结构的设计。其次,针对B+树索引的构建与查找功能做了详细的分析与实现。最后,结合对HDFS文件读取过程的分析,实现了SequenceFile下基于B+树索引的小文件读取过程。

       最后,搭建Hadoop系统集群,通过一系列的仿真实验,验证了本文所提出的两个设计方案在文件的存储速率和小文件的读取速率上是有效的。

参考文献:

[1] 肖飞,齐立磊. 大数据处理技术与探索[J]. 计算机与现代化,2013,09:75-77.

[2] 孟小峰,慈祥. 大数据管理:概念、技术与挑战[J]. 计算机研究与发展,2013,01:146-169.

[3] 汪璐,李莎,闫庞勇. 云存储技术在高能物理计算中的应用研究[J]. 科研信息化技术与应用,2013,06:55-63.

[4] 王元卓,靳小龙,程学旗. 网络大数据:现状与展望[J]. 计算机学报,2013,06:1125-1138.

[5] Qiang Liu, Bing Li, Meina Song. The optimization of HDFS based on small files[C]. IC-BNMT,IEEE 2010:912-915.

[6] Xin Wang, Jun Ma. Storage Mechanism of Processing Magnanimity Small Files Applying HDFS Architecture[J]. Advanced Materials Research, 2013(765):1614-1617.

[7] Yang Zhang, Dan Liu. Improving the Efficiency of Storing for Small Files in HDFS[C]. CSSS, IEEE 2012:2239-2241.

[8] Jilan Chen, Dan Wang, Lihua Fu, et al. An Improved Small File Processing Method for HDFS[J]. International Journal of Digital Content Technology and its Applications, 2012(6): 296-304.

[9] Azzini A, Ceravolo P. Consistent Process Mining Over Big Data Triple Stores[C]. BigData '13, IEEE 2013:54-61.

[10] Dittrich J, Quiané-Ruiz J A. Efficient Big Data Processing in Hadoop MapReduce[J]. Proceedings of the VLDB Endowment,2012,5(12):2014-2015.

[11] Zhenxin Qu. Semantic Processing on Big Data[C]. MSEC,Springer 2012,172:43-48.

[12] Xiaodong Shao, Qiang Li. A Strategy for Continuously Big Capacity Data Transmit/Receive Process Handling in Real-time[C]. ICACC, IEEE 2010:37-40.

[13] Sukumar S R, Ferrell R K. ‘Big Data’ collaboration: Exploring, recording and sharing enterprise knowledge[J]. Information Services and Use,2013:257-270.

[14] Dean J, Ghemawat S. MapReduce: simplified data processing on large clusters[J]. Communications of the ACM,2008,51(1):107-113.

[15] Cohen J, Dolan B, Dunlap M, et al. MAD skills: new analysis practices for big data[J]. Proceedings of the VLDB Endowment,2009,2(2):1481-1492.

[16] Khaneghah E M, Mirtaheri S L, et al. A Dynamic Replication Mechanism to Reduce Response-Time of I/O Operations in High Performance Computing Clusters[C]. SocialCom, IEEE 2013:738-743.

[17] Higai A., et al. A Study of Effective Replica Reconstruction Schemes at Node Deletion for HDFS[C]. CCGrid,IEEE 2014:512-521.

[18] Islam Nusrat S, et al. Can Parallel Replication Benefit Hadoop Distributed File System for High Performance Interconnects[C]. HOTI,IEEE 2013:75-78.

[19] Patel Neha M, Patel Narendra M, et al. Improving HDFS Write Performance Using Efficient Replica Placement[C]. The Next Generation Information Technology Summit,2014:36-39.

[20] Mackey G, Sehrish S, Jun W. Improving Metadata Management for Small Files in HDFS[C]. CLUSTER,IEEE 2009:1~4.

[21] Chatuporn V, Natawut N. Improving Performance of Small-File Accessing in Hadoop[C]. JCSSE,IEEE 2014:200-205

[22] Xuhui Liu, Jizhong Han, Yunqin Zhong, et al. Implementing WebGIS on Hadoop: A Case Study of Improving Small File I/O Performance on HDFS[C]. Cluster,IEEE 2009:1-8.

[23] Bo Dong, Jie Qiu, Qinghua Zheng, et al. A Novel Approach to Improving the Efficiency of Storing and Accessing Small Files on Hadoop: a Case Study by PowerPoint Files[C]. SCC, IEEE 2010:65-72.

[24] Zhang Shuo, Miao Li, et al. A Strategy to Deal with Mass Small Files in HDFS[C]. IHMSC, IEEE 2014:331-334.

[25] B+树结构的选用[EB/OL]. http://www.360doc.com/content/11/1103/13/ 6938655_161335261.shtml. 2014-04-27.

[26] 李林. 基于hadoop的海量图片存储模型的分析和设计[D]. 浙江: 杭州电子科技大学,2011.

[27] 董其文. 基于HDFS的小文件存储方法的研究[D]. 辽宁: 大连海事大学,2013.

[28] 张兴. 基于Hadoop的云存储平台的研究与实现[D]. 四川: 电子科技大学,2013.

[29] 高蓟超. Hadoop平台存储策略的研究与优化[D]. 北京: 北京交通大学,2012.

[30] 江柳. HDFS下小文件存储优化相关技术研究[D]. 北京: 北京邮电大学,2011.

[31] 张丹. HDFS中文件存储优化的相关技术研究[D]. 江苏: 南京师范大学,2013.

[32] 邰建华. Hadoop平台下的海量数据存储技术研究[D]. 黑龙江: 东北石油大学,2012.

[33] Aishwarya K, Arvind Ram A, Sreevatson M C, et al. Efficient Prefetching Technique for Storage of Heterogeneous small files in Hadoop Distributed File System Federation[C]. ICoAC 2013,523-530.

[34] SequenceFile[EB/OL]. http://blog.csdn.net/xhh198781/article/details/7693358. 2015-3-1

[35] HDFS之SequenceFile和MapFile[EB/OL]. http://blog.csdn.net/javaman_chen/article/details /7241087. 2015-3-1.

[36] Lu Kun, Dai Dong, Sun Mingming. HDFS+: Concurrent Writes Improvements for HDFS[C]. CCGrid 2013:182-183.

[37] Mohandas Neethu, Thampi Sabu M. Improving Hadoop Performance in Handling Small Files[C]. ACC 2011:187-194.

[38] Jiang D, Ooi B C, Shi L, et al. The performance of MapReduce: an in-depth study[J]. Proceedings of the VLDB Endowment,2010,3(1):472-483.

[39] MapReduce开发多文件输出[EB/OL]. http://www.java123.net/v/892694.html. 2015-3-3.

[40] B树的结构及效率[EB/OL]. http://www.cnblogs.com/Arlen/articles/1760451.html. 2014-04-27.

[41] 代崴, 周剑锋. B+树索引文件研究与应用[J]. 软件导刊,2006(21):38-40.

[42] Chandrasekar S, Dakshinamurthy R, et al. A Novel Indexing Scheme for Efficient Handling of Small Files in Hadoop Distributed File System[C]. ICCCI 2013:1-8.

[43]洪旭升,林世平. 基于MapFile的HDFS小文件存储效率问题[J]. 计算机系统应用, 2012,21(11):179-182.

中图分类号:

 TP316.4    

馆藏号:

 TP316.4/1387/2015    

备注:

 403-西院分馆博硕论文库;203-余家头分馆博硕论文库    

无标题文档

   建议浏览器: 谷歌 火狐 360请用极速模式,双核浏览器请用极速模式