21世纪以来,互联网进入了迅猛发展时期,海量信息充斥在人们面前,杂乱而且繁复。如何从这些信息中查找出目标信息,是信息挖掘的研究方向。作为信息挖掘领域中的研究重点,聚类技术备受科研人员关注。
在聚类研究中,需要面对两点困难:第一、聚类数据预处理中原始类群的初始化,以及初始聚类点数目的选择存在一定难度;第二、如何将高维数据信息展示出来,存在较大问题。综合以上两点,本文使用混合主题模型求解最优主题数,作为聚类算法初始类群个数,同时生成特征空间向量,并降低特征向量的维数,作为聚类算法的初始类群,利用k-means算法进行聚类,最后展示聚类结果的分布情况。
本文的研究工作有以下几点:
(1)详细对比聚类发展的历程,描述聚类发展现状和趋势,研究现阶段聚类发展的问题和不足;
(2)详细说明聚类流程中包含的方法和理论,主要有信息预处理、信息的数学表示方法和聚类算法。通过优化算法流程,提升信息聚类效果;
(3)提出混合主题模型,深层次处理文本信息。通过文本词语的概率分布,利用LDA主题模型对文本数据进行最优主题数求解,并利用向量空间模型剔除低频词和搭建词语向量空间,借助python语言,实现利用混合主题模型优化的k-means算法。
相关实验表明,本文的算法优化方式相比于单纯的LDA主题模型,可以极大提升聚类系统的精准性,对信息内容的描述更为清晰,并且优化算法的自动化处理信息数据的效率更高。