中文题名: | 在大数据环境下基于数据流的数据挖掘技术研究 |
姓名: | |
学号: | 1049721201363 |
保密级别: | 公开 |
论文语种: | chi |
学科代码: | 0835 |
学科名称: | 软件工程 |
学生类型: | 硕士 |
学位: | 工学硕士 |
学校: | 武汉理工大学 |
院系: | |
专业: | |
研究方向: | 软件工程理论与技术 |
第一导师姓名: | |
第一导师院系: | |
完成日期: | 2015-05-15 |
答辩日期: | 2015-05-16 |
中文关键词: | |
中文摘要: |
在互联网发展与电子商务崛起的历程中,数据呈爆炸性增长,现已是大数据时代。在传感器数据传输、Web登录日志采集与移动手机数据交互等多领域中,均对数据管理与分析提出新要求,其实质是对数据流管理与分析。如何可以快速、准确、低成本从海量数据中挖掘对企业有用数据,已成为大数据环境下数据挖掘技术面临的全新课题。同时随着电子商务普及,使人们从线下购物转到线上购物,推荐系统在这样环境下应运而生,推荐系统的产生也充分说明信息过载问题的出现。 本文围绕两方面问题进行分析:(1)数据流的频繁元素挖掘方法;(2)用户推荐信息挖掘的并行化处理。这两方面为数据挖掘领域中热点问题,采用传统串行算法求解时,由于内存计算能力与物理存储能力限制,随着数据量增长,效率急剧下降。 本文重点对传统算法进行分析改进,并通过实验数据进行比较分析。 (1)在数据流的频繁元素挖掘方法方面,重点分析了如何以数据流的形式对最常见元素问题和最流行元素问题求解。最常见元素问题采用改进DGIM算法与基于Hadoop分布式平台算法求解;最流行元素问题采用改进指数衰减窗口模型求解。改进DGIM算法通过调整相同大小的数据桶个数,将错误率上界收敛于任意小值;改进指数衰减窗口模型通过增加筛选阈值,提高计算效率; (2)在用户推荐信息挖掘的并行化处理方面,重点分析了关联规则挖掘的并行化处理与协同过滤推荐的并行化处理。在关联规则挖掘中,利用Hadoop分布式平台对传统Apriori算法并行改进,通过引入局部候选项集,大大降低了算法迭代次数,挖掘全局频繁项集时仅需两次遍历数据集,更加适用于大数据环境下的关联规则挖掘。在协同过滤推荐中,通过Hadoop分布式平台对传统的相似度计算进行并行改进,将计算量分布到各机器节点中,使用基于Hadoop改进的共词分析法实现效用矩阵填充,无需将巨大的效用矩阵全部加载内存,通过行列向量变换方便MapReduce以行向量进行计算,使算法时间复杂度从O(m3n)降低到O(mn),更加适用于大数据环境下的推荐。在算法实验与分析中,提出双平台架构设计,并对用户推荐过程进行模拟,Hadoop计算平台为数据运算提供良好支持。 |
中图分类号: | TP311.13 |
馆藏号: | TP311.13/1363/2015 |
备注: | 403-西院分馆博硕论文库;203-余家头分馆博硕论文库 |