Publication details

Feature selection using improved mutual information for text classification

Conference Paper (international conference)

Novovičová Jana, Malík Antonín, Pudil Pavel


serial: Structural, Syntactic, and Statistical Pattern Recognition. Joint IAPR International Workshops SSPR 2004 and SPR 2004. Proceedings, p. 1010-1017

action: Joint IAPR International Workshops SSPR 2004 and SPR 2004, (Lisbon, PT, 18.08.2004-20.08.2004)

research: CEZ:AV0Z1075907

project(s): IAA2075302, GA AV ČR, KSK1019101, GA AV ČR

keywords: text classification, text categorization, feature selection

abstract (eng):

Two algorithms for feature (word) selection for the purpose of text classification are proposed. The algorithms use the feature evaluation functions based on improved mutual information that takes into consideration how features work together. The performance of these evaluation functions compared to the information gain which evaluate features individually is discussed. Experimental results from various perspectives(F1-measure, precision and recall) are analyzed.

abstract (cze):

Navržena dvě nová kriteria pro výběr příznaků/slov pro řešení problému klasifikace textových dokumentů. Obě kriteria jsou modifikace v této oblasti používaného kriteria vzájemné informace. Účinnost navržených kriteriálních funkcí byla porovnána s kriteriem vzájemné informace použitím multinomického modelu proreprezentaci dokumentů, naivního Bayesova klasifikátoru a Reuters-21578 datových souborů. Experimentální výsledky (analyzované pomocí F1- míry, precision a recall měr) indikují efektivitu navržených algoritmů pro výběr příznaků

Cosati: 09K, 12B

RIV: BB