Különbség Központi tendencia és diszperzió között

Anonim

Központi tendencia vs diszperzió

adatkészletének leírása A leíró és inferenciális statisztikákban több mutatót használnak a központi tendencia, diszperzió és hajlékonyság: a három legfontosabb tulajdonság, amelyek meghatározzák az adatkészlet eloszlásának viszonylagos formáját.

Mi a központi tendencia?

A központi tendencia az értékmegosztás középpontját jelenti és azonosítja. Az átlag, a mód és a medián a leggyakrabban használt mutatók az adatkészlet központi tendenciájának leírásában. Ha egy adatkészlet szimmetrikus, akkor mind az adatkészlet mediánja, mind középértéke egybeesik egymással.

Az adatkészletet figyelembe véve az átlag kiszámítása az összes adatérték összegének kiszámításával történik, majd az adatok számával való elosztásával. Például a 10 fő tömege (kilogrammban) 70, 62, 65, 72, 80, 70, 63, 72, 77 és 79 mérhető. Ezután a tíz ember súlyát (kilogrammban) az alábbiak szerint számítva. A súlyok összege 70 + 62 + 65 + 72 + 80 + 70 + 63 + 72 + 77 + 79 = 710. Átlagos = (összeg) / (adatok száma) = 710/10 = 71 (kilogrammban). Magától értetődő, hogy az outlierek (az általános irányú trendektől eltérõ adatpontok) hatással vannak az átlagra. Így a "outliers" egyedüli jelenléte nem ad helyes képet az adatkészlet középpontjáról.

A medián az adatpont az adatkészlet pontos pontján található. A középérték kiszámításának egyik módja, hogy növekvő sorrendben rendelje meg az adatpontokat, majd keresse meg az adatpontot középen. Például, ha egyszer elrendelte az előző adatkészletet, 62, 63, 65, 70, 70, 72, 72, 77, 79, 80. Ezért (70 + 72) / 2 = 71 középen van. Ebből látható, hogy a mediánnak nem kell az adatkészletben lennie. A mediánra nincs hatással az outlierek jelenléte. Ezért a medián a központi irányzat jobb mércéjeként szolgál a kiugró értékek jelenlétében.

Az adatkészletben az üzemmód a leggyakrabban előforduló érték. Az előző példában a 70-es és a 72-es érték kétszer fordul elő, így mindkettő mód. Ez azt mutatja, hogy bizonyos terjesztéseknél több modális érték van. Ha csak egy mód van, akkor az adatkészlet unimodálisnak mondható, ebben az esetben az adatkészlet bimodális.

Mi a diszperzió?

A diszperzió az eloszlás közepére vonatkozó adatok terjedése. A diszperzió leggyakrabban használt mérési és szórási tartománya.

A tartomány egyszerűen a legmagasabb érték, amely a legalacsonyabb értéket jelenti. Az előző példában a legmagasabb érték 80, a legalacsonyabb érték pedig 62, tehát a tartomány 80-62 = 18. A tartomány azonban nem nyújt elegendő képet a diszperzióról.

A standard szórás kiszámításához először az adatértékek átlagtól való eltérését kell kiszámítani. Az eltérések gyökér négyzetes átlagát standard deviációnak nevezik. Az előző példában az eltérés az átlagtól (70-71) = -1, (62-71) = -9, (65-71) = -6, (72-71) = 1, (80 - 71) = 9, (70-71) = -1, (63-71) = -8, (72-71) = 1, (77-71) = 6 és (79-71) az eltérés négyzetek (-1) 2 + (-9) 2 + (-6) 2 + 1 2 + 9 + 2 + 6 2 + (-8) 2 + (-1) 8 2 = 366. A standard eltérés √ (366/10) = 6. 05 (kilogrammban). Hacsak az adatkészlet nagy mértékben elhajlik, ebből arra következtethetünk, hogy az adatok többsége 71 ± 6 intervallumban van. 05, és valóban ez a konkrét példa. Mi a különbség a központi tendencia és a diszperzió között? • Központi tendencia az értékmegosztás középpontját jelöli és azonosítja • A diszperzió az adathalmaz közepére vonatkozó adatok terjedése.