- 无标题文档
查看论文信息

中文题名:

 文本分类算法研究及其在校园招聘管理系统的实现    

姓名:

 邱馨亚    

学号:

 1049721202885    

保密级别:

 公开    

论文语种:

 chi    

学科代码:

 080902    

学科名称:

 电路与系统    

学生类型:

 硕士    

学位:

 工学硕士    

学校:

 武汉理工大学    

院系:

 信息工程学院    

专业:

 电子科学与技术    

研究方向:

 文本数据挖掘    

第一导师姓名:

 吕锋    

第一导师院系:

 武汉理工大学    

完成日期:

 2015-04-10    

答辩日期:

 2015-05-04    

中文关键词:

 文本分类 ; IG ; SVM ; C4.5决策树 ; 校园招聘    

中文摘要:

随着时代的发展,现代办公环境对自动化、无纸化的去人工管理方法需求越来越大。某些大型公司都纷纷建立起了自己的招聘系统,求职者通过在其系统上提交自己的电子简历来争取面试的机会。随着公司规模的扩大和求职者数量的增多,电子简历的管理和筛选分类逐渐成为需要消耗大量人力所完成的工作。为了增强简历管理和筛选分类工作的自动化强度,本文设计并实现了基于文本分类算法的校园招聘管理系统,并在某大型公司的招聘中得到了应用。

本文主要工作有:

1. 研究了IG特征选择算法,并对其进行了改进。通过在IG特征选择算法评估函数中引入了频度和分散度,改进了IG特征选择算法,弥补了原有IG算法偏好低频词的缺点,通过实验证明此改进方式提高了IG特征选择算法的性能。研究了CHI特征选择算法以及针对CHI算法的改进策略,通过实验对改进的CHI算法进行了性能验证,并进对改进的IG特征选择算法和改进的CHI特征选择算法性能对比分析。

2. 研究实现了C4.5决策树算法和SVM分类算法。对C4.5决策树算法信息增益率属性选择与悲观剪枝分析,并在Weka软件上进行了算法实现,得到了C4.5决策树算法分类结果;对SVM分类算法原理进行了研究,对SVM核函数和惩罚参数进行了分析,通过实验对SVM分类算法的核函数、惩罚参数进行了寻优,最终确定了针对简历文本分类的SVM最优核函数、最优惩罚参数。

3. 设计了基于改进文本分类的校园招聘管理系统。设计了系统的总体功能、开发体系结构和开发框架;重点设计了结合改进文本分类算法的3个创新模块,即:学生简历管理模块、简历匹配模块和评星管理模块。

4. 实现了学生简历管理、简历匹配和评星管理3个主要模块:系统学生简历Excel导出功能、优化SVM分类器预测结果Excel导入功能、预测结果匹配功能以及C4.5决策树结果定义评星标准的功能。运行改进的校园招聘管理系统各个模块后表明系统中的各模块运行稳定、操作简单、通过结合优化SVM分类器预测,增强了系统的功能性和指导性。

参考文献:

[1] 李湘东,何海红,曹环,等. 针对训练集分布偏斜问题的数字资源文本分类方法[J]. 现代图书情报技术, 2014, 30(7/8): 24-33.

[2] 黄莉,李湘东,曹环. 文本分类中训练集相关数量指标的影响研究[J]. 计算机应用研究, 2014, 31(11): 3324-3327.

[3] 彭俊杰, 陈丹敏. 基于改进 BoS 的 Web 文本分类研究[J]. 南京邮电大学学报: 自然科学版, 2013 (1): 79-83.

[4] 赵文娟. 基于 Hadoop 的 Web 文本分类系统设计研究[J]. 兰州大学学报 (自然科学版), 2014, 50(6).892-896.

[5] Adeva J J G, Atxa J M P, Carrillo M U, et al. Automatic text classification to support systematic reviews in medicine[J]. Expert Systems with Applications, 2014, 41(4): 1498-1508.

[6] 伍岳.基于SVM的文本分类应用研究[D].成都:电子科技大学, 2014.

[7] Rashedi E, Nezamabadi-Pour H, Saryazdi S. Long term learning in image retrieval systems using case based reasoning[J]. Engineering Applications of Artificial Intelligence, 2014, 35: 26-37.

[8] Pircalabelu E, Claeskens G, Waldorp L. A focused information criterion for graphical models[J]. Statistics and Computing, 2014: 1-22.

[9] Guan R, Yang C, Marchese M, et al. Full Text Clustering and Relationship Network Analysis of Biomedical Publications[J]. PloS one, 2014, 9(9): e108847.

[10] D’Orazio V, Landis S T, Palmer G, et al. Separating the wheat from the chaff: Applications of automated document classification using support vector machines[J]. Political Analysis, 2014, 22(2): 224-242.

[11] Sun C, Rampalli N, Yang F, et al. Chimera: Large-scale classification using machine learning, rules, and crowdsourcing[J]. Proceedings of the VLDB Endowment, 2014, 7(13).

[12] Liangxiao Jiang, Zhihua Cai, Dianhong Wang, Harry Zhang. Bayesian Citation-KNN with distance weighting[J]. International Journal of Machine Learning and Cybernetics, 2014, 5(2):193-199.

[13] 王莉丽, 朱焱, 马永强. 基于朴素贝叶斯的伪装型垃圾网页检测[J]. 计算机应用, 2013, 33(A01): 102-103.

[14] Ozan ?rsoy, Ethem Alpayd?n. Distributed Decision Trees[J].Statistics, 2014, 7(4):21-34.

[15] Benevenuto F, Rodrigues T, Veloso A, et al. Practical detection of spammers and content promoters in online video sharing systems[J]. Systems, Man, and Cybernetics, Part B: Cybernetics, IEEE Transactions on, 2012, 42(3): 688-701.

[16] Yarveicy H, Moghaddam A K, Ghiasi M M. Practical use of statistical learning theory for modeling freezing point depression of electrolyte solutions: LSSVM model[J]. Journal of Natural Gas Science and Engineering, 2014, 20: 414-421.

[17] 顾嘉运,刘晋飞,陈明. 基于SVM的大样本数据回归预测改进算法[J]. 计算机工程, 2014, (1):161-166. DOI:10.3969/j.issn.1000-3428.2014.01.034.

[18] Liangxiao Jiang, Zhihua Cai, Dianhong Wang, Harry Zhang. Bayesian Citation-KNN with distance weighting[J]. International Journal of Machine Learning and Cybernetics, 2014, 5(2):193-199.

[19] 姚程宽,许建华.双正则化参数的L_2-SVM参数选择[J]. 计算机工程与应用.2014, (8):99-102.

[20] Shibuya N, Nukala B T, Rodriguez A I, et al. A real-time fall detection system using a wearable gait analysis sensor and a Support Vector Machine (SVM) classifier[C]. Mobile Computing and Ubiquitous Networking (ICMU), 2015 Eighth International Conference on. IEEE, 2015: 66-67.

[21] Nukala B T, Shibuya N, Rodriguez A, et al. An Efficient and Robust Fall Detection System Using Wireless Gait Analysis Sensor with Artificial Neural Network (ANN) and Support Vector Machine (SVM) Algorithms[J]. Open Journal of Applied Biosensor, 2015, 3(04): 29-35.

[22] Noé L, Martin D E K. A Coverage Criterion for Spaced Seeds and Its Applications to Support Vector Machine String Kernels and k-Mer Distances[J]. Journal of Computational Biology, 2014, 21(12): 947-963.

[23] 张爱科, 符保龙, 李辉. 基于改进的模糊聚类 RBF 网络集成的文本分类方法[J]. 四川大学学报 (自然科学版), 2012, 6: 014.

[24] 杨宏晖, 王芸, 孙进才, 等. 融合样本选择与特征选择的 AdaBoost 支持向量机集成算法[J]. 西安交通大学学报, 2014, 12: 1-10.

[25] 陈艳秋, 孙培立. 一种基于类别强信息特征和贝叶斯算法的中文文本分类器[J]. 计算机应用与软件, 2014, 31(8),330-333.

[26] 边肇祺.模式识别(第二版)[M].北京:清华大学出版社,2005:284-285[20] 郭崇慧,孙建涛.广义支持向量机优化问题的极大熵方法研究[J].系统工程理论与实践,2005, 25(6):27-32.

[27] 宋胜利, 王少龙, 陈平. 面向文本分类的中文文本语义表示方法[J]. 西安电子科技大学学报, 2013 (2): 89-97. 53.

[28] 沈佳杰, 江红, 王肃. 基于关键词的云计算语义文本自适应分类[J]. 计算机工程, 2014, 40(7): 247-2.

[29] 丁泽亚, 张全. 利用概念知识的文本分类[J]. 应用科学学报, 2013, 31(2).197-203.

[30] 许智宏, 张月梅, 王一. 一种改进的中文分词在主题搜索中的应用[J]. 郑州大学学报 (工学版), 2014, 11(5).44-48.

[31] 李勤,导师:韦卫. 基于CRF的中文词法分析的应用研究.[D].2013.北京航空航天大学.

[32] 杨凯峰, 张毅坤, 李燕. 基于文档频率的特征选择方法[J]. 计算机工程, 2010, 36(17): 33-35.

[33] 吕建新, 郑伟. 互信息特征选择方法的研究与改进[J]. 情报科学, 2014, 14(8).82-84.

[34] 黄志艳. 一种基于信息增益的特征选择方法[J]. 山东农业大学学报: 自然科学版, 2013, 44(2): 252-256.

[35] Fisher D H, Schlimmer J C. Concept simplification and prediction accuracy[C]//Proceedings of the Fifth International Conference on Machine Learning. 2014: 22-28.

[36] 李建军,吴文亮. 基于决策树算法的高校科研管理评估研究[J]. 科技通报, 2014, 30(3): 180-183.

[37] 粱凤兰. 优化决策树改进挖掘算法仿真[J]. 计算机仿真, 2013, 30(11): 264-267.

[38] Lapin M, Hein M, Schiele B. Learning using privileged information: SVM plus and weighted SVM[J].Neural Networks, 2014, 53(2):95-108.

[39] 谷文成,柴宝仁,韩俊松. 基于支持向量机的垃圾信息过滤方法[J].北京理工大学学报, 2013(10):1062-1066,1071.

[40] 张凯军,梁循. 一种改进的显性多核支持向量机[J].自动化学报, 2014(10):2288-2294.

[41] 查修齐, 吴荣泉, 高元钧. C/S 到 B/S 模式转换的技术研究[J]. 计算机工程, 2014, 40(1): 263-267.

[42] 丁亮, 许舒人. 基于 SSH 框架的 java 代码自动生成[J]. 计算机系统应用, 2014, 23(9): 72-77.

中图分类号:

 TP301.6    

馆藏号:

 TP301.6/2885/2015    

备注:

 403-西院分馆博硕论文库;203-余家头分馆博硕论文库    

无标题文档

   建议浏览器: 谷歌 火狐 360请用极速模式,双核浏览器请用极速模式