Publication details

Oscillating feature subset search algorithm for text categorization

Journal Article

Novovičová Jana, Somol Petr, Pudil Pavel


serial: Lecture Notes in Computer Science vol.44, 4225 (2006), p. 578-587

research: CEZ:AV0Z10750506

project(s): IAA2075302, GA AV ČR, 507752, , 2C06019, GA MŠk

keywords: text classification, feature selection, oscillating search algorithm, Bhattacharyya distance

abstract (eng):

The usability of the Oscillating Search algorithm for feature/word selection (FS) in text categorization is explored. The multiclass Bhattacharyya distance for multinomial model as the global feature subset selection criterion for reducing the dimensionality of the bag of words vector document represenation is used. This criterion takes into consideration inter-feature relationships. The experiments illustrate that using a non-trivial FS algorithm brings substantial improvement in classification accuracy.

abstract (cze):

Prozkoumána použitelnost oscilačních vyhledávacích algoritmů pro výběr příznaků/slov v problému kategorizace textových dokumentů. Byla použita vícetřídní Bhattacharyya vzdálenost pro multinomický model jako globální kriterium pro výběr podmnožiny slov za účelem snížení dimensionality reprezentace dokumentů na základě "balíku slovů". Toto kriterium bere v úvahu vzájemné vztahy mezi slovy v dokumentu. Experimenty ilustrují, že použití netriviálních oscilačních metod pro výběr slov vede k podstatnému zlepšení klasifikační přesnosti.

Cosati: 09K, 12B

RIV: BB