目前主要的访问权限控制机制为:DAC(Discretionary Access Control)、MAC(Mandatory Access Control)、RBAC(Role- based Access Control)。本文旨在研究运用机器学习方法,建立一个雇员访问权限自动化配置的模型。
本文由原始的数据集生成了新的数据集、特征集,介绍了几种机器学习算法:逻辑回归、梯度提升决策树、随机森林。用上述三种算法在数据集、特征集组合成的训练集上训练产生了很多分类器模型。最后在上述几种典型分类器模型的基础上,研究了两种常用的集成学习算法,并用两种集成学习算法集成了上述几种分类器模型。
具体来说,本文的工作主要体现在以下几个方面:
(1)雇员权限数据收集和分析,雇员被授予权限分类标识为1,雇员被拒绝分类标识为0。在原始数据集的基础上,生成了4个新的数据集、5个新的特征集。尤其是在产生数据集时,本文2.1.2小节中利用贪婪前向选择的最优集选择算法从繁杂的数据集合中选择了最优子集,本文中称之为greedy数据集。
(2)首先本文用三种算法在原始数据集上训练,预测原始数据集上的表现,然后分别在组合的训练集上训练,最终选择了14个典型分类器模型(五个逻辑回归模型、四个梯度提升决策树模型、五个随机森林模型)。并用上述三个算法在三个数据集上分别训练,比较了各个算法在三个数据集上的表现。逻辑回归在含有greedy数据集的训练集中表现不错,而梯度提升决策树和随机森林在含有tuples数据集的训练集中表现不错。总体上,逻辑回归算法,在训练集上的表现是比较好的。
(3)在上述分类模型的基础上,本文介绍了投票表决和stacked generation集成学习算法,对14种典型分类器模型进行集成,堆叠泛化的第二级的分类算法,分别选用岭回归、非负限制的回归系数的线性回归、普通线性回归等算法试验,最后本文选用了岭回归作为二级分类器。最终投票表决集成模型的AUC达到了0.9244,比上述14个分类器模型的最大AUC,提高了0.0048,而stacked generation集成模型的AUC达到了0.9247,提高了0.0051。同原始数据集上三种算法的表现比较,集成模型AUC平均提高了0.05。