- 无标题文档
查看论文信息

中文题名:

 基于Hadoop的基础教育资源的存储和处理    

姓名:

 方金卫    

学号:

 1049721201333    

保密级别:

 公开    

论文语种:

 chi    

学科代码:

 0812    

学科名称:

 计算机科学与技术(可授工学、理学学位)    

学生类型:

 硕士    

学位:

 工学硕士    

学校:

 武汉理工大学    

院系:

 计算机科学与技术学院    

专业:

 计算机科学与技术    

研究方向:

 人工智能与机器学习    

第一导师姓名:

 熊盛武    

第一导师院系:

 武汉理工大学    

完成日期:

 2015-04-01    

答辩日期:

 2015-05-17    

中文关键词:

 基础教育资源 ; 小文件存储 ; 行块分布函数    

中文摘要:

基础教育资源中蕴含了丰富的知识,研究如何从海量的基础教育资源中获取丰富的语义信息,构建基础教育知识图谱,对扩展类人智能系统的知识库以及提高其智能水平具有重要意义。为了构建基础教育知识图谱,需要有海量的基础教育资源数据作为支撑,因此构建一个基础教育资源数据库是构建基础教育知识图谱的基础和关键。本文依托于863项目《面向基础教育的类人智能知识理解与推理关键技术》(2015AA015403)主要围绕基础教育资源数据的获取、存储和处理这三个方面进行了研究,其主要工作如下:

1)构建了一个基础教育资源数据库。利用设计的基于Scrapy框架的简单分布式网络爬虫从互联网上获取基础教育资源数据,并在MapReduce框架中对获取的基础教育资源数据进行处理,最后将处理后的数据存入HBase数据库中,构建一个基础教育资源数据库。

2)提出了适合基础教育资源在HDFS中的存储方案。基础教育资源具有小文件特性且数量较多,不适合直接存储到HDFS中。本文提出了一种适合这些资源小文件存储的存储方案,该方案首先将这些资源文件在内容上进行合并为较大文件,然后使用Sequence File技术将这些较大文件存储到HDFS中。实验结果表明,本文提出的存储方案有利于节省存储空间以及提高对这些基础教育资源的处理效率。

3)改进了基于行块分布函数的网页正文提取算法。基于行块分布函数的网页正文提取算法会错误地将网页中包含的链接块当作正文信息提取出来。针对这个问题,本文对该算法进行了改进。在提取正文信息的过程中,增加了对标点符号的个数和链接文本个数与总字符个数的比例这两个限制条件地判断,并增加了对压缩型文件地处理。实验结果表明,改进后的算法能较好的解决错误提取链接块的问题。

参考文献:

[1] 相海泉. 迎接大数据时代[J].中国信息界(e医疗),2013,(第5期)

[2] Viktor Mayer-Sch?nberger, Kenneth Cukier. Big Data:A Revolution That Will Transform How We Live, Work, and Think[M].Houghton Mifflin Harcourt.2013

[3] Tom White. Hadoop: The Definitive Guide[M].O’Reilly Media.2012

[4] 刘鹏.实战Hadoop-开启通往云计算的捷径[M]. 北京:电子工业出版社.2011

[5] 韩翼中 译.Hadoop实战[M].北京:人民邮电出版社.2011

[6] 陆嘉恒.Hadoop实战[M]. 北京:机械工业出版社.2011

[7] 尼古拉?琼斯,赵旭丹.深度学习:人工智能新篇章[J].环球科学,2014,(第3期).

[8] 马维莫.大数据与人工智能[J].数字商业时代,2014,(第1期).

[9] 付冰漪.IBM组建沃森业务集团[N].人民邮电,2014-1-14(006)

[10] 程彦博.Watson云化加速商用进程[N].中国计算机报,2013-12-23(006)

[11] 陈光景.Hadoop小文件处理技术的研究和实现[D].南京:南京邮电大学.2013

[12] 泰冬雪.基于Hadoop的海量小文件处理方法的研究[D].辽宁:辽宁大学.2011

[13] Bo Dong, Jie Qiu, Qinghua Zheng, Xiao Zhong, Jingwei Li, Ying Li. A Novel Approach to Improving the Efficiency of Storing and Accessing Small Files on Hadoop: A Case Study by PowerPoint Files. In Proceedings of IEEE SCC’2010. pp.65~72

[14] Chandrasekar S.A novel indexing schema for efficient handling of small files in Hadoop Distributed File System[J]. Computer Communication and Information (ICCCI),2013 International Conference

[15] Xuhui Liu, Jizhong Han, Yunqin Zhong, Chengde Han, Xubin He: Implementing WebGIS on Hadoop: A case study of improving small file I/O performance on HDFS. CLUSTER 2009: 1-8

[16] 孔鑫.基于Hadoop的海量小型XML数据文件处理技术的设计和实现[D].西安:西安电子科技大学.2014

[17] 张志刚,陈静,李晓明.一种HTML网页净化方法[J].情报学报,2004,23(4):387-393

[18] Rahman A, Alam H, Hartono R. Content Extraction from HTML Document[C]. Proc. Of the 1st International Workshop on Web Document Analysis. New York, USA: ACM Press, 2001

[19] 熊忠阳,蔺显强,张玉芳,牙漫.结合网页结构与文本特征的正文提取方法[J].计算机工程,2013,12(39)

[20] 赵欣欣,索红光,刘玉树.基于标记窗的网页正文信息提取方法[J]. 计算机应用研究.2007,24(3)

[21] 李蕾,王劲松,白鹤,胡晶晶.基于FFT的网页正文提取算法研究与实现[J]. 计算机工程与应用.2007,43(30):148-151

[22] 孙皓,董守斌.基于标签密度的自适应正文提取方法[J].郑州大学学报(理学版).2009,41(1):44-47

[23] 王琦,唐世渭,杨冬青,王腾蛟.基于DOM的网页主题信息自动提取[J].计算机研究与发展.2004,41(10):1786-1792

[24] 孙承杰,关毅. 基于统计的网页正文信息抽取方法的研究[J].中文信息学报.2004,5(18):17-22

[25] 黄文蓓,杨静,顾君忠.基于分块的网页正文信息提取算法研究[J].计算机应用.2007,27:24-26

[26] 黄玲,陈龙.基于网页分块的正文信息提取方法[J].计算机应用.2008,28:326-328

[27] 于满泉,陈铁睿,徐洪波.基于分块的网页信息解析器的研究与设计[J].计算机应用.2005,25(4):974-976

[28] 陈鑫.基于行块分布函数的通用网页正文抽取算法[OL].http://code.google.com/p/cx-extractor

[29] DENG C,YU SP,WEN JR. VIPS: A Vision-Based Page Segmentation, MSR-TR-2003-79[R]

.2003

[30] 安增文,徐杰锋.基于视觉特征的网页正文提取方法研究[J].微型机与应用.2010,29(3):38-41

[31] 蒲宇达,关毅,王强.基于数据挖掘思想的网页正文抽取方法的研究[A].第三届学生计算语言学研讨会[C].沈阳:中国中文信息学会,2006:246-250

[32] Ashish N,Knob lock C.Wrapper generation for semi-structured internet sources[A] .In:Proceeding of Workshop on Management of Semi-Structured Data,Tucson,Arizona,1997:10-17

[33] Moorn L.Record-Boundary Discovery in Web-Document[C]. Proc. Of the 1999 ACM SIGMOD, Philadelphia, Pennsylvania, USA, 1999

[34] 欧健文,董守斌,蔡斌.模板化网页主题信息的提取方法[J].清华大学学报,2005,45(S1):1743-1747

[35] Shane Evans, Pablo Hoffman,et al. Scrapy 0.25 documentation[Z].2015

[36] 孙立伟,何国辉,吴礼发.网络爬虫技术的研究[J].电脑知识与技术,2010,6(15):4112-4115

[37] 罗刚.自己动手写网络爬虫[M].北京:清华大学出版社.2010

[38] 张俊林.这就是搜索引擎-核心技术详解[M]. 北京:电子工业出版社.2012

[39] 周德懋,李舟军.高性能网络爬虫:研究综述[J].计算机科学,2009,(第8期).

[40] 赵茉莉.网络爬虫系统的研究与实现[D].成都:电子科技大学.2013

[41] 苏璇.分布式网络爬虫技术的研究与实现[D].哈尔滨:哈尔滨工业大学.2006

[42] 王毅桐.分布式网络爬虫技术研究与实现[D].成都:电子科技大学.2012

[43] 吕阳.分布式网络爬虫系统的设计与实现[D].成都:电子科技大学.2013

[44] 王博文.基于Hadoop的分布式网络爬虫技术[D].哈尔滨:哈尔滨工业大学.2011

[45] 吴建强.垂直搜索引擎爬虫系统的研究与实现[D].贵阳:贵州大学.2008

[46] 蔡斌,陈湘萍.Hadoop技术内幕:深入解析Hadoop Common和HDFS架构设计与实现原理[M].北京:机械工业出版社.2013

[47] 董西成.Hadoop技术内幕:深入解析MapReduce架构设计与实现原理[M].北京:机械工业出版社.2013

[48] 聂卉,张津华.分块布局下的主题型网页的内容抽取[J].情报学报,2012,31(1):31-39

[49] Jeffrey Dean, Sanjay Ghemawat. MapReduce: Simplified Data Processing On Large Clusters[J].6th Symposium on Operating Systems Design and Implementation, 2004:137-149

[50] Fay Change, Jeffrey Dean, Sanjay Ghemawat, et al. BigTable : A Distributed Storage System from Structured Data[J]. 7th Symposium on Operating Systems Design and Implementation,2006:205-218

中图分类号:

 TP333    

馆藏号:

 TP333/1333/2015    

备注:

 403-西院分馆博硕论文库;203-余家头分馆博硕论文库    

无标题文档

   建议浏览器: 谷歌 火狐 360请用极速模式,双核浏览器请用极速模式