Publication details

Information-theoretic feature selection algorithms for text classification

Conference Paper (international conference)

Novovičová Jana, Malík Antonín


serial: Proceedings of the International Joint Conference on Neural Networks, p. 3272-3277

action: International Joint Conference on Neural Networks, (Montreal, CA, 31.07.2005-04.08.2005)

research: CEZ:AV0Z10750506

project(s): IAA2075302, GA AV ČR, GA102/03/0049, GA ČR, KSK1019101, GA AV ČR, 1M0572, GA MŠk

keywords: text classification, feature selection, mutual information

abstract (eng):

Four new algorithms for feature/word selection for the purpose of text classification are presented. Sequential forward selection method based on improved mutual information criterion functions is used. The performance of the proposed criteria compared to the information gain which evaluate features individually is discussed. Experimental results using naive Bayes classifier based on multinomial model, linear support vector machine and k-nearest neighbor classifiers on the Reuters data are analyzed.

abstract (cze):

Byly navrženy nové algoritmy pro výběr příznaků/slov pro řešení problému klasifikace textových dokumentů. Byl použit sekvenční "dopředný" algoritmus založený na několika modifikacích kriteria vzájemné informace. Účinnost navržených kriterií byla porovnána s nejčastěji používanými kriterii pro výběr slov (vzájemná informace, chí-kvadrát statistika, odds ratio) při použití Bayesova klasifikátoru, lineárního support vector machine a k-nejbližších sousedů na Reuters-21578 datových souborech.

Cosati: 09K, 09J, 12B

RIV: BB