基础教育资源中蕴含了丰富的知识,研究如何从海量的基础教育资源中获取丰富的语义信息,构建基础教育知识图谱,对扩展类人智能系统的知识库以及提高其智能水平具有重要意义。为了构建基础教育知识图谱,需要有海量的基础教育资源数据作为支撑,因此构建一个基础教育资源数据库是构建基础教育知识图谱的基础和关键。本文依托于863项目《面向基础教育的类人智能知识理解与推理关键技术》(2015AA015403)主要围绕基础教育资源数据的获取、存储和处理这三个方面进行了研究,其主要工作如下:
1)构建了一个基础教育资源数据库。利用设计的基于Scrapy框架的简单分布式网络爬虫从互联网上获取基础教育资源数据,并在MapReduce框架中对获取的基础教育资源数据进行处理,最后将处理后的数据存入HBase数据库中,构建一个基础教育资源数据库。
2)提出了适合基础教育资源在HDFS中的存储方案。基础教育资源具有小文件特性且数量较多,不适合直接存储到HDFS中。本文提出了一种适合这些资源小文件存储的存储方案,该方案首先将这些资源文件在内容上进行合并为较大文件,然后使用Sequence File技术将这些较大文件存储到HDFS中。实验结果表明,本文提出的存储方案有利于节省存储空间以及提高对这些基础教育资源的处理效率。
3)改进了基于行块分布函数的网页正文提取算法。基于行块分布函数的网页正文提取算法会错误地将网页中包含的链接块当作正文信息提取出来。针对这个问题,本文对该算法进行了改进。在提取正文信息的过程中,增加了对标点符号的个数和链接文本个数与总字符个数的比例这两个限制条件地判断,并增加了对压缩型文件地处理。实验结果表明,改进后的算法能较好的解决错误提取链接块的问题。