Publication details

Text document classification based on mixture models

Journal Article

Novovičová Jana, Malík Antonín


serial: Kybernetika vol.40, 3 (2004), p. 293-304

research: CEZ:AV0Z1075907

project(s): IAA2075302, GA AV ČR, GA102/03/0049, GA ČR, KSK1019101, GA AV ČR

keywords: text classification, text categorization, multinomial mixture model

abstract (eng):

Finite mixture modelling of class-conditional distributions is a standard method in a statistical pattern recognition. This paper, using bag-of-words vector document representation, explores the use of the mixture of multinomial distributions as a model for class-conditional distribution for multiclass text document classification task. Experimental comparison of the proposed models was performed using Reuters-21578 and Newsgroups data sets.

abstract (cze):

Použití směsi multinomických rozdělení jako modelu pro podmíněná rozdělení pravděpodobností pro Bayesův klasifikátor je uvedeno. Výsledky experimentů s použitím Reuters 21578 a Newsgroups datových souborů indikují efektivnost použitého multinomického směsového modelu v otázkách klasifikace textových dokumentů. Bylo ukázáno, že přesnost Bayesova klasifikátoru může být zvýšena při použití navrženého modelu v porovnání s Bayesovým klasifikátorem založeným jednak na standardních modelech (vícerozměrný Bernoulliho model, multinomický model), jednak na směsovém Bernoulliho modelu

Cosati: 09K, 12B

RIV: BB