- 无标题文档
查看论文信息

中文题名:

 

基于混合主题模型的文本聚类算法研究

    

姓名:

 刘云才    

学号:

 1049721704313    

保密级别:

 公开    

论文语种:

 chi    

学科代码:

 081100    

学科名称:

 控制科学与工程    

学生类型:

 硕士    

学位:

 工学硕士    

学校:

 武汉理工大学    

院系:

 自动化学院    

专业:

 控制科学与工程    

研究方向:

 数据挖掘    

第一导师姓名:

 王攀    

第一导师院系:

 武汉理工大学    

完成日期:

 2020-03-30    

答辩日期:

 2020-05-19    

中文关键词:

 

文本聚类 ; 混合主题模型 ; LDA主题模型 ; 向量空间模型

    

中文摘要:

21世纪以来,互联网进入了迅猛发展时期,海量信息充斥在人们面前,杂乱而且繁复。如何从这些信息中查找出目标信息,是信息挖掘的研究方向。作为信息挖掘领域中的研究重点,聚类技术备受科研人员关注。

在聚类研究中,需要面对两点困难:第一、聚类数据预处理中原始类群的初始化,以及初始聚类点数目的选择存在一定难度;第二、如何将高维数据信息展示出来,存在较大问题。综合以上两点,本文使用混合主题模型求解最优主题数,作为聚类算法初始类群个数,同时生成特征空间向量,并降低特征向量的维数,作为聚类算法的初始类群,利用k-means算法进行聚类,最后展示聚类结果的分布情况。

本文的研究工作有以下几点:

(1)详细对比聚类发展的历程,描述聚类发展现状和趋势,研究现阶段聚类发展的问题和不足;

(2)详细说明聚类流程中包含的方法和理论,主要有信息预处理、信息的数学表示方法和聚类算法。通过优化算法流程,提升信息聚类效果;

(3)提出混合主题模型,深层次处理文本信息。通过文本词语的概率分布,利用LDA主题模型对文本数据进行最优主题数求解,并利用向量空间模型剔除低频词和搭建词语向量空间,借助python语言,实现利用混合主题模型优化的k-means算法。

相关实验表明,本文的算法优化方式相比于单纯的LDA主题模型,可以极大提升聚类系统的精准性,对信息内容的描述更为清晰,并且优化算法的自动化处理信息数据的效率更高。

参考文献:

[1] 李尚昊,朝乐门.文本挖掘在中文信息分析中的应用研究述评[J].情报科学,2016,34(08): 153-159.

[2] 曹晓.文本聚类研究综述[J].情报探索,2016,(01):131-134.

[3] 许振豪.基于词嵌入的流形主题模型的文本聚类研究[D].广东工业大学,2019.

[4] Dawei Zhao. Construction of Implicit Semantic Multi-label Text Fast Clustering Model based on Big Data[C]. International Information and Engineering Association. Proceedings of 2018 International Conference on Data Processing, Artificial Intelligence, and Communications (DPAIC 2018). International Information and Engineering Association: 计算机科学与电子技术国际学会(Computer Science and Electronic Technology International Society), 2018: 159-162.

[5] 王方,成颖,柯青.基于混合模型的文本聚类研究综述[J].情报学报, 2015,34(05): 536-548.

[6] 徐戈,王厚峰.自然语言处理中主题模型的发展[J].计算机学报, 2011,(08): 1423-1436.

[7] Victor Hugo Andrade Soares, Ricardo J. G. B. Campello, Seyednaser Nourashrafeddin, Evangelos Milios, Murilo Coelho Naldi. Combining semantic and term frequency similarities for text clustering[J]. Knowledge and Information Systems, 2018, 61(3).

[8] Energy - Energy Conversion; Study Data from H.C. Moon et al Provide New Insights into Energy Conversion (A Robust Deadbeat Finite Set Model Predictive Current Control Based on Discrete Space Vector Modulation for a Grid-Connected Voltage Source Inverter) [J]. Energy Weekly News, 2018.

[9] 殷功俊.基于词向量的向量空间模型的改进[J].现代计算机, 2018,(36): 32-35+41.

[10] 王宇.基于统计学习方法的高斯LDA模型的文本聚类研究[D].华侨大学, 2017.

[11] 伍育红.聚类算法综述[J].计算机科学, 2015,42(S1): 491-499+524.

[12] 牛海燕. 模糊谱聚类分割策略在文本聚类中的应用研究[D].贵州大学, 2016.

[13] Guha S, Rastogi R, Shim K . Cure: An?Efficient?Clustering?Algorithm?for?Large?Database. In: Proceedings of the 1996 ACM SIGMOD International Conference on Management of Data, Seattle, Washington, 1998. 73-84

[14] Deneubourg, J. L., Aron, S., Goss, S. and Pasteels, M. (1990) The Self-Organising Exploratory Patterns of the Argentine Ants. Journal of Insects Behaviour, 3, 159-168.

[15] Arwar?B.Karypls?G.Konstan?J?Item-based?collaborative?filtering?recommendation?algorithms?2001.

[16] 申丹丹. 改进的粒子群算法及在图像聚类的应用[D].湘潭大学, 2014.

[17] David M Blei, Andrew Y Ng, Michael I Jordan. Latent Dirichlet Allocation [J]. Journal of Machine Learning Research, 2003, 3(33): 993-1022.

[18] Hofmann T. Probabilistic latent semantic indexing[C]// International ACM SIGIR Conference on Research and Development in Information Retrieval. ACM, 1999: 50-57.

[19] David M Blei, Andrew Y Ng, Michael I Jordan. Latent dirichlet allocation [J].Journal of Machine Learning Research, 2003, 3(33): 993-1022.

[20] 李慧宗,胡学钢,杨恒宇,林耀进,何伟.基于LDA的社会化标签综合聚类方法[J].情报学报,2015,34(02):146-155.

[21] Wang W Y, Yang D. That's So Annoying!!!: A Lexical and Frame-Semantic Embedding Based Data Augmentation Approach to Automatic Categorization of Annoying Behaviors using pet peeve Tweets[C] Conference on Empirical Methods in Natural Language Processing. 2015: 2557-2563.

[22] 侯汉清.嵌套短语索引系统评介[J].图书馆理论与实践, 1988,(02): 17-23.

[23] 李彦平,张佳骥.文本聚类中的降维技术研究[J].无线电工程, 2005,(06): 51-53+56.

[24] 冷伏海,白如江,祝清松.面向科技文献的混合语义信息抽取方法研究[J].图书情报工作, 2013,57(11): 112-119.

[25] 杨中国,李洪奇,朱丽萍,刘蔷.基于语义模式和引用分布的科技文献信息抽取[J].山东大学学报(理学版),2015,50(03): 11-19.

[26] 孙昭颖,刘功申.面向短文本的神经网络聚类算法研究[J].计算机学,2018,45(S1):392-395.

[27] 许振豪.基于词嵌入的流形主题模型的文本聚类研究[D].广东工业大学, 2019.

[28] 马琼琼.基于语义的文本聚类算法研究[D].北京交通大学, 2017.

[29] 闫玉华.面向互联网新闻的文本聚类算法研究与实现[D].西安电子科技大学, 2017.

[30] 秦赞.中文分词算法的研究与实现[D].吉林大学, 2016.

[31] 汪文妃,徐豪杰,杨文珍,吴新丽.中文分词算法研究综述[J].成组技术与生产现代化,2018, 35(03): 1-8.

[32] 徐晓芳.基于条件随机场的中文分词技术的研究与实现[D].南京邮电大学, 2018.

[33] 彭晨.大数据环境下基于条件随机场的中文分词方法研究[D].湖南大学, 2017.

[34] Renchu Guan, Chen Yang, Maurizio Marchese, Yanchun Liang, Xiaohu Shi. Full text clustering and relationship network analysis of biomedical publications.[J]. PLoS ONE, 2017, 9(9).

[35] 官琴,邓三鸿,王昊.中文文本聚类常用停用词表对比研究[J].现代图书情报技术,2017, 1(03): 72-80.

[36] He Zhao, Salman Salloum, Yeshou Cai, Joshua Zhexue Huang. Ensemble subspace clustering of text data using two-level features[J]. International Journal of Machine Learning and Cybernetics, 2017, 8(6).

[37] Shah N, Mahajan S. Document Clustering: A Detailed Review[J]. International Journal of Applied Information Systems, 2012, 4(5): 30-38.

[38] 张磊.文本分类及分类算法研究综述[J].电脑知识与技术, 2016, 12(34): 225-226+232.

[39] Leonardo A. A. Terra, Carla A. A. Ventura, Mirna L. Medeiros, Jo?o L. Passador. Strategies for the Distribution of Power in Brazil: A Proposal from the Perspective of the Viable System Model (VSM)[J]. Systems Research and Behavioral Science, 2016, 33(2).

[40] Stephen A. Harwood. A question of interpretation: The Viable System Model (VSM)[J]. European Journal of Operational Research, 2018.

[41] 崔金栋,杜文强,关杨.基于大数据与LDA融合的微博信息推荐方法研究[J].情报科学, 2018, 36(09): 27-31+76.

[42] 王鹏,高铖,陈晓美.基于LDA模型的文本聚类研究[J].情报科学, 2015,(01): 63-68.

[43] 李帅彬,李亚星,冯旭鹏,刘利军,黄青松.基于词向量的微博话题发现方法[J].计算机应用与软件, 2017, 34(12): 47-52.

[44] Correlation Analysis; Data on Correlation Analysis Reported by Researchers at Harbin Institute of Technology (Improving Vector Space Word Representations Via Kernel Canonical Correlation Analysis)[J]. Science Letter, 2018.

[45] 夏冰,李宝安,吕学强.综合词位置和语义信息的专利文本相似度计算[J].计算机工程与设计, 2018, 39(10): 3087-3091.

[46] 李红梅,郝文宁.基于改进LSH的协同过滤推荐算法[J].计算科学, 2015, 42(10): 256-261.

[47] Hossein Saberi, Alireza Rahai, Farzad Hatami. A fast and efficient clustering based fuzzy time series algorithm (FEFTS) for regression and classification[J]. Applied Soft Computing, 2017, 61.

[48] Ismkhan H. k-means++: An Iterative Clustering Algorithm Based on an Enhanced Version of the k-means[J]. Pattern Recognition, 2018(79): 402-413.

[49] Kang S H, Sandberg B, Yip A M. A regularized k-means and multiphase scale segmentation[J]. Inverse Problems & Imaging, 2017, 5(2): 407-429.

[50] Peter Haddawy, Myat Su Yin, Tanawan Wisanrakkit,Rootrada Limsupavanich, Promporn Promrat, Saranath Lawpoolsri, Patiwat Sa-angchai. Complexity-Based Spatial Hierarchical Clustering for Malaria Prediction[J]. Journal of Healthcare Informatics Research, 2018,2(4).

[51] Anna D. Peterson, Arka P. Ghosh, Ranjan Maitra. Merging K ‐means with hierarchical clustering for identifying general‐shaped groups[J]. Stat, 2018,7(1).

[52] Chunyan Qiu. Research on Density Peak Clustering Algorithm Based on Artificial Bee Colony Optimization[C]. International Information and Engineering Association. Proceedings of 2018 1st International Conference on Engineering, Communication and Computer Sciences(ICECCS 2018). International Information and Engineering Association:计算机科学与电子技术国际学会(Computer Science and Electronic Technology International Society), 2018: 62-66.

[53] Roberto Ferrara, Salvatore G.P. Virdis, Andrea Ventura, Tiziano Ghisu, Pierpaolo Duce, Grazia Pellizzaro. An automated approach for wood-leaf separation from terrestrial LIDAR point clouds using the density based clustering algorithm DBSCAN[J]. Agricultural and Forest Meteorology, 2018, 262.

[54] 张雄.聚类分析中最佳聚类数确定方法研究[D].南京邮电大学, 2018.

[55] Ren chu Guan, Chen Yang, Maurizio Marchese, Yan chu Liang, Xiao hu Shi. Full text clustering and relationship network analysis of biomedical publications[J]. PLoSONE, 2017, 9(9).

[56] 海沫.大数据聚类算法综述[J].计算机科学, 2016, 43(S1): 380-383.

[57] 邹晓辉. LDA主题模型在文本聚类中的应用[J].数字技术与应用, 2017,(12): 76-77.

[58] Volker Stich, Marcel Groten. Design and Simulation of a Logistics Distribution Network Applying the Viable System Model (VSM)[J]. Procedia Manufacturing, 2015, 3.

[59] Richard A. Norton, J. Andrés Christen, Colin Fox. Sampling hyperparameters in hierarchical models: Improving on Gibbs for high-dimensional latent fields and large datasets[J]. Communications in Statistics - Simulation and Computation, 2018, 47(9).

[60] J. A. Hartigan and M. A. Wong. Algorithm AS 136: A K-Means Clustering Algorithm[J]. Journal of the Royal Statistical Society, 28(1): 100-108.

[61] 张琳,牟向伟.基于Canopy+ K-means的中文文本聚类算法[J].图书馆论坛,2018,(06): 113-119.

[62] Kolay S, Ray K S. K+ Means: An Enhancement Over K-means Clustering Algorithm[J]. 2017.

[63] Maaten, L., & Hinton, G. (2008). Visualizing data using t-SNE. Journal of Machine Learning Research.

中图分类号:

 TP391.1    

馆藏号:

 TP391.1/4313/2020    

备注:

 403-西院分馆博硕论文库;203-余家头分馆博硕论文库    

无标题文档

   建议浏览器: 谷歌 火狐 360请用极速模式,双核浏览器请用极速模式