中文题名: | 基于数据挖掘的商务智能技术研究与实现 |
姓名: | |
学号: | 104972103112 |
保密级别: | 公开 |
论文语种: | chi |
学科代码: | 081002 |
学科名称: | 信号与信息处理 |
学生类型: | 硕士 |
学位: | 工学硕士 |
学校: | 武汉理工大学 |
院系: | |
专业: | |
研究方向: | 信号与信息处理 |
第一导师姓名: | |
第一导师院系: | |
完成日期: | 2012-04-15 |
答辩日期: | 2012-04-15 |
中文关键词: | |
中文摘要: |
随着企业业务复杂度不断提升,数据规模不断扩大,商务智能系统已经成为各大行业智能信息分析处理的热点,它不仅从结构上改变了传统模式的信息系统,而且在技术上,它结合着计算机分布式计算、数据仓库、多维度数据库以及数据挖掘等技术,其实现难度比传统信息系统高出很多。本文基于作者实习公司自主研发的BI(Business Intelligence, 商务智能)系统,分析其特有的分布式数据仓库体系结构,它能够满足高度可扩展性和灵活性,而且易于管理,满足软件即服务模式系统的潜在要求。在此基础上,本文从BI系统的实际需求出发,分析了系统在数据分析方法以及多维数据集的度量方法上的需求,它们都需要对存储在数据仓库中的历史数据进行分析和挖掘。根据零售行业的销售数据的特点,基于概率统计的数据挖掘方法以及根据零售规则提取的检测分析方法是最有效的数据挖掘途径。本文基于传统的Box-Jenkins方法学,对ARIMA时间序列分析及预测方法进行了实现,证明了该分析及预测方法的可行性,同时由于人为因素以及一些不可控的自然因素,预测精度受到很大影响。面对此难题,本文分析并实现了基于传统的Box-Jenkins理论的Baseline(销售基线)处理算法,该算法主要目的是排除促销、脱销、季节更换、人为及非人为因素引起的随机变化,获取最符合销售数据实际变化规律的基线。在对该理论进行改进、实现Baseline算法的过程中,实现了基于规则及概率模型的数据挖掘:脱销检测、促销分析,以及根据实际销售模型满足泊松分布的概率分布特点实现的损失估计。Baseline算法的计算结果可直接用于促销评估,同时也作为趋势预测的源数据。文中数据挖掘的另一部分为基于Baseline结果集的趋势预测,使用Rob J Hyndman等人用R统计分析语言编写的开源算法包forecast中的自动ARIMA建模方法,对海量历史数据进行了自动模型识别和分析,并基于识别模型对趋势进行了预测,由于Baseline的实现,预测结果可信度有了很大的提高。在文章的最后,本文给出了联机分析处理报表的设计和实现,将数据挖掘的结果载入多维数据库作为计量方法,并通过浏览器进行报表的创建和运行。
﹀
|
中图分类号: | TP311.13 |
馆藏号: | TP311.13/3112/2013 |
备注: | 403-西院分馆博硕论文库;203-余家头分馆博硕论文库 |