Különbség a hierarchikus és a részleges klaszterezés között

Anonim

Hierarchikus vs Partial Clustering

A fürtözés egy gépi tanulási technika az adatok elemzéséhez és a hasonló adatok csoportjainak elosztásához. Ezek a csoportok vagy hasonló adatok csoportjai klaszterként ismertek. A klaszterelemzés olyan klaszterezési algoritmusokra vonatkozik, amelyek automatikusan azonosítják a klasztereket. A hierarchikus és a részleges a klaszterezési algoritmusok két ilyen csoportja. A hierarchikus klaszterezési algoritmusok feltörik az adatokat a klaszterek hierarchiájába. A parciális algoritmusok osztják az adatkészletet kölcsönösen diszjunktív partíciókba.

Mi a hierarchikus klaszterezés?

A hierarchikus klaszterezési algoritmusok megismétlik azt a ciklust, hogy kisebb klasztereket egyesítenek a nagyobbakba, vagy nagyobb klasztereket osztanak kisebbbe. Akárhogy is, létrehoz egy dendogrammal elnevezett klaszterek hierarchiáját. Az agglomeratív klaszterezési stratégia a klaszterek egyesítésének alulról felfelé irányuló megközelítését alkalmazza a nagyobbakra, míg a megosztó klaszterezési stratégia a felsö lefelé irányuló megközelítést alkalmazza a kisebbekre. Általában a kapzsi megközelítést használják annak eldöntésére, hogy melyik nagyobb / kisebb klasztereket használják az egyesítéshez / megosztáshoz. Az euklideszi távolság, a Manhattan távolság és a koszinusz-hasonlóság a numerikus adatok leggyakrabban használt hasonlósági mutatói. Nem numerikus adatok esetén olyan mérőszámokat alkalmaznak, mint a Hamming távolság. Fontos megjegyezni, hogy a tényleges megfigyelések (példák) nem szükségesek a hierarchikus klaszterezéshez, mivel csak a távolságok mátrixa elegendő. A dendogram a klaszterek vizuális ábrázolása, amely a hierarchiát nagyon világosan mutatja. A felhasználó különféle klasztereket kaphat, attól függően, hogy milyen szintű a dendogram.

Mi a részleges klaszterezés?

A részleges klaszterezési algoritmusok különböző partíciókat generálnak, majd bizonyos kritériumokkal értékelik őket. Ezeket nem hierarchikusnak is nevezik, mivel minden egyes példány pontosan egymást kizáró klaszterek egyikébe kerül. Mivel csak egy csoport klaszter egy tipikus partíciós klaszterezési algoritmus kimenete, a felhasználónak meg kell adnia a kívánt számú klasztert (általában k). Az egyik leggyakrabban használt partíciós klaszterezési algoritmus a k-eszköz klaszterezési algoritmus. A felhasználónak meg kell adnia a klaszterek számát (k) az indítás előtt, és az algoritmus először a k partíciók központjait (vagy centroidjait) kezdeményezi. Dióhéjban a k-means klaszterezési algoritmus a tagokat a jelenlegi központok alapján és a jelenlegi tagok alapján újra becslések alapján hozzárendeli. Ezt a két lépést meg kell ismételni mindaddig, amíg egy bizonyos klaszterközi hasonlóság-objektum és a klaszter-különbségek objektumfunkciója nem optimalizálódik.Ezért a központok értelmes inicializálása nagyon fontos tényező a részleges klaszterezési algoritmusok minőségi eredményeinek elérésében.

Mi a különbség a hierarchikus és a részleges klaszterezés között?

A hierarchikus és a részleges klaszterezés kulcsfontosságú különbségeket mutat a futási idő, a feltételezések, a bemeneti paraméterek és a keletkező klaszterek között. Általában a partíciós csoportosítás gyorsabb, mint a hierarchikus klaszterezés. A hierarchikus klaszterezéshez csak egy hasonlóságra van szükség, míg a partíciók csoportosításához erősebb feltevésekre van szükség, mint például a klaszterek száma és a kezdeti központok száma. A hierarchikus fürtözés nem igényel bemeneti paramétereket, míg a partíciók klaszterezési algoritmusai megkövetelik, hogy a klaszterek száma elinduljon. A hierarchikus klaszterek a klaszterek sokkal jelentősebb és szubjektív megosztottságát eredményezik, de a részleges klaszterezés pontosan k klasztereket eredményez. A hierarchikus klaszterezési algoritmusok jobban megfelelnek a kategorikus adatoknak, mindaddig, amíg a hasonlóság mértékét megfelelően meg lehet határozni.