Publication details

EM cluster analysis for categorical data

Journal Article

Grim Jiří


serial: Lecture Notes in Computer Science vol.44, 4109 (2006), p. 640-648

action: Joint IAPR International Workshops SSPR 2006 and SPR 2006, (Hong Kong, CN, 17.08.2006-19.08.2006)

research: CEZ:AV0Z10750506

project(s): 507752, , 1ET400750407, GA AV ČR, 1M0572, GA MŠk

keywords: cluster analysis, categorical data, EM algorithm

abstract (eng):

Distribution mixtures with product components have been applied repeatedly to determine clusters in multivariate data. Unfortunately for categorical variables the mixture parameters are not uniquely identifiable and therefore the result of cluster analysis may become questionable. We prove that any non-degenerate discrete product mixture can be equivalently described by infinitely many diferent parameter sets. A unique result of cluster analysis can be guaranteed by additional constrains.

abstract (cze):

Nevýhodou shlukování diskrétních mnohorozměrných dat na základě odhadu součinové distribuční směsi je nejednoznačná identifikace parametrů směsi. V práci je popsán jednoduchý důkaz neidentifikovatelnosti diskrétní distribuční směsi a je navržena modifikace EM algoritmu, která zaručuje jednoznačný výsledek odhadu směsi.

Cosati: 09K

RIV: BB