Cum se calculează mediana datelor clusterate

Autor: Peter Berry
Data Creației: 14 August 2021
Data Actualizării: 22 Aprilie 2024
Anonim
StatQuest: K-means clustering
Video: StatQuest: K-means clustering

Conţinut

Mediana este punctul central al unui set de date ordonate. De exemplu, setul (2,4,7,9,10) are o valoare mediană de 7. Datele comandate sunt agregate în categorii, cu detaliile exacte ale fiecărui punct de pierdere a datelor. Prin urmare, mediana exactă nu poate fi cunoscută numai din datele grupate. Cu toate acestea, dacă cunoașteți numărul de date din fiecare interval, puteți afla care este "intervalul de mijloc", adică ceea ce conține punctul care este mediana. Putem rafina în continuare estimarea punctului median printr-o formulă, pe baza ipotezei că punctele de punct intermediar sunt distribuite uniform.


instrucțiuni de ghidare

Aflați cum să calculați mediana unui grup de date este o sarcină simplă (Hemera Technologies / AbleStock.com / Getty Images)
  1. Grupați valorile în intervale, dacă acestea nu sunt deja. Determinați intervalul care trebuie să conțină punctul intermediar.

    În scop didactic, luați în considerare setul de date (1,2,4,5,6,7,7,7,9). Mediana aici este 6. Puteți grupa setul în lățimi egale cu 4, de exemplu. Distribuția lor de frecvență poate fi, de exemplu: 1-4: 3 5-8: 5 9-12: 1 În datele non-centralizate, media este clar în categoria 5-8. Puteți chiar să spuneți acest lucru fără a vedea setul de date original.

  2. Calculați diferența dintre numărul de puncte de date deasupra medianului și jumătate din numărul total de puncte de date.

    Conform celor menționate, acest lucru este egal cu 9/2 - 3 = 1,5. Acest calcul estimează cât de departe de intervalul mediu ar trebui să fie găsit mediana.


  3. Împărțiți după numărul de puncte din intervalul de mijloc.

    Continuând cu exemplul, 1,5 / 5 = 0,3. Acest lucru oferă o rată a gradului mediu de mediană.

  4. Înmulțiți valoarea obținută mai sus cu lățimea intervalului de mijloc.

    Continuând cu exemplul, 0.3 x 4 = 1.2. Aceasta convertește raportul în intervalul într-o creștere a datelor efectivă.

  5. Adăugați rezultatul de mai sus la valoarea dintre intervalul mediu și intervalul inferior.

    Deoarece tăierea dintre intervalul mediu și cel inferior este de 4,5, obținem ecuația 4,5 + 1,2 = 5,7, care poate avea rezultatul rotunjit la 6, răspunsul corect.

sfaturi

  • De fapt, calculul de mai sus este același ca și în formula "L + (n / 2 - c) / fxw", unde L este numărul dintre intervalul mediu și următorul interval inferior, n este numărul total de puncte de date, c este numărul total de puncte sub mediană, f este numărul de puncte de date din intervalul mediu și w este lățimea.