Publication details

Conditional Mutual Information Based Feature Selection for Classification Task

Journal Article

Novovičová Jana, Somol Petr, Haindl Michal, Pudil Pavel


serial: Lecture Notes in Computer Science vol.45, 4756 (2007), p. 417-426

research: CEZ:AV0Z10750506

project(s): 507752, , 2C06019, GA MŠk, 1M0572, GA MŠk, IAA2075302, GA AV ČR

keywords: Pattern classification, feature selection, conditional mutual information, text categorization

abstract (eng):

We propose a sequential forward feature selection method to find a subset of features that are most relevant to the classification task. Our approach uses novel estimation of the conditional mutual information between candidate feature and classes, given a subset of already selected features which is utilized as a classifier independent criterion for evaluation of feature subsets. The proposed mMIFS-U algorithm is applied to text classification problem and compared with MIFS method and MIFS-U method proposed by Battiti and Kwak and Choi, respectively. Our feature selection algorithm outperforms MIFS method and MIFS-U in experiments on high dimensional Reuters textual data.

abstract (cze):

Byl navržen mMIFS-U algoritmus pro výběr příznaků, založený na novém odhadu kriteria podmíněné vzájemné informace. Algoritmus byl aplikován na problém klasifikace textových dokumentů a porovnán s dříve navrženými algoritmy MIFS a MIFS-U. Účinnost navrženého kriteria byla porovnána při použití naivního Bayesova klasifikátoru pro multinomický model textového dokumentu, lineárního support vektor machine klasifikátoru a k-nejbližších sousedů na Reuters-21578 textových souborech s vysokou dimensionalitou. Klasifikační metody při použití příznaků vybraných pomocí navrženého algoritmu mMIFS-U vykazuje vyšší přesnost klasifikace oproti výše zmíněným algoritmům.

RIV: BB