Institute of Information Theory and Automation

You are here

Bibliography

Journal Article

Oscillating feature subset search algorithm for text categorization

Novovičová Jana, Somol Petr, Pudil Pavel

: Lecture Notes in Computer Science vol.44, 4225 (2006), p. 578-587

: CEZ:AV0Z10750506

: IAA2075302, GA AV ČR, 507752, EC, 2C06019, GA MŠk

: text classification, feature selection, oscillating search algorithm, Bhattacharyya distance

(eng): The usability of the Oscillating Search algorithm for feature/word selection (FS) in text categorization is explored. The multiclass Bhattacharyya distance for multinomial model as the global feature subset selection criterion for reducing the dimensionality of the bag of words vector document represenation is used. This criterion takes into consideration inter-feature relationships. The experiments illustrate that using a non-trivial FS algorithm brings substantial improvement in classification accuracy.

(cze): Prozkoumána použitelnost oscilačních vyhledávacích algoritmů pro výběr příznaků/slov v problému kategorizace textových dokumentů. Byla použita vícetřídní Bhattacharyya vzdálenost pro multinomický model jako globální kriterium pro výběr podmnožiny slov za účelem snížení dimensionality reprezentace dokumentů na základě "balíku slovů". Toto kriterium bere v úvahu vzájemné vztahy mezi slovy v dokumentu. Experimenty ilustrují, že použití netriviálních oscilačních metod pro výběr slov vede k podstatnému zlepšení klasifikační přesnosti.

: 09K, 12B

: BB

2019-01-07 08:39