Medijan. Detaljna teorija s primjerima. Medijan skupa brojeva je Kako pronaći najveći medijan trokuta

Središnja tendencija podataka može se smatrati ne samo vrijednošću s nultim ukupnim odstupanjem (aritmetička sredina) ili maksimalnom učestalošću (mod), već i kao neka oznaka (agregatna vrijednost) koja dijeli rangirane podatke (poređane uzlaznim ili silaznim redoslijedom) na dva jednaka dijela. Pola izvornih podataka manje je od ove oznake, a pola više. To je ono što je medijan.

Dakle, medijan u statistici je razina indikatora koja dijeli skup podataka na dvije jednake polovice. Vrijednosti u jednoj polovici manje su od medijana, au drugoj polovici su veće od medijana. Kao primjer, pogledajmo skup nasumičnih brojeva.

Očito, sa simetričnom raspodjelom, sredina, koja dijeli populaciju na pola, bit će smještena u samom središtu - na istom mjestu kao i aritmetička sredina (i način). To je, da tako kažemo, idealna situacija kada se mod, medijan i aritmetička sredina podudaraju i sva njihova svojstva padaju na jednu točku - maksimalna frekvencija, prepolovljenje, nulti zbroj odstupanja - sve na jednom mjestu. Međutim, život nije tako simetričan kao normalna distribucija.

Recimo da se radi o tehničkim mjerenjima odstupanja od očekivane vrijednosti nečega (sadržaj elemenata, udaljenost, razina, masa itd. itd.). Ako je sve u redu, tada će odstupanja najvjerojatnije biti raspoređena prema zakonu bliskom normalnom, otprilike kao na gornjoj slici. Ali ako u procesu postoji važan i nekontroliran čimbenik, tada se mogu pojaviti nepravilne vrijednosti koje će značajno utjecati na aritmetičku sredinu, ali teško da će utjecati na medijan.

Medijan uzorka je alternativa aritmetičkoj sredini, jer otporan je na abnormalna odstupanja (outliers).

Matematički svojstvo medijane je da zbroj apsolutnih (modulo) odstupanja od srednje vrijednosti daje najmanju moguću vrijednost u usporedbi s odstupanjima od bilo koje druge vrijednosti. Čak i manje od aritmetičkog prosjeka, o kako! Ova činjenica nalazi svoju primjenu, na primjer, pri rješavanju transportnih problema, kada je potrebno izračunati gradilište objekata u blizini ceste na način da ukupna duljina letova do njega s različitih mjesta bude minimalna (stajališta, benzinske postaje). , skladišta itd. itd.).

Formula medijana u statistici za diskretna data donekle podsjeća na modnu formulu. Naime, jer formula kao takva ne postoji. Srednja vrijednost odabire se iz dostupnih podataka i samo ako to nije moguće, provodi se jednostavan izračun.

Prije svega, podaci se rangiraju (sortiraju silaznim redoslijedom). Zatim postoje dvije opcije. Ako je broj vrijednosti neparan, tada će medijan odgovarati središnjoj vrijednosti niza, čiji se broj može odrediti formulom:

Ne ja– broj vrijednosti koji odgovara medijanu,

N– broj vrijednosti u skupu podataka.

Tada se medijan označava kao

Ovo je prva opcija kada postoji jedna središnja vrijednost u podacima. Druga opcija se javlja kada je broj podataka paran, odnosno kada umjesto jedne postoje dvije središnje vrijednosti. Rješenje je jednostavno: uzmite aritmetičku sredinu dviju središnjih vrijednosti:

U intervalni podaci Nije moguće odabrati određenu vrijednost. Medijan se izračunava prema određenom pravilu.

Za početak (nakon rangiranja podataka), pronađite srednji interval. Ovo je interval kroz koji prolazi željena srednja vrijednost. Određeno pomoću akumuliranog udjela rangiranih intervala. Tamo gdje je akumulirani udio prvo premašio 50% svih vrijednosti, postoji srednji interval.

Ne znam tko je smislio formulu medijana, ali oni su očito pošli od pretpostavke da je distribucija podataka unutar intervala medijana ujednačena (tj. 30% širine intervala je 30% vrijednosti, 80% širina je 80% vrijednosti itd.) . Odavde, znajući broj vrijednosti od početka srednjeg intervala do 50% svih vrijednosti u populaciji (razlika između polovice broja svih vrijednosti i akumulirane učestalosti predmedijalnog intervala ), možete saznati koji udio zauzimaju u cijelom srednjem intervalu. Taj se udio točno prenosi na širinu srednjeg intervala, označavajući određenu vrijednost, kasnije nazvanu medijan.

Pogledajmo vizualni dijagram.

Ispalo je malo glomazno, ali sada je, nadam se, sve jasno i razumljivo. Da biste izbjegli crtanje takvog grafikona svaki put kada izračunate, možete koristiti gotovu formulu. Formula medijana je sljedeća:

Gdje xJa- donja granica srednjeg intervala;

ja ja- širina srednjeg intervala;

∑f/2- broj svih vrijednosti podijeljen s 2 (dva);

S(Me-1)- ukupan broj opažanja koja su akumulirana prije početka srednjeg intervala, tj. akumulirana učestalost predmedijalnog intervala;

fMe- broj opažanja u srednjem intervalu.

Kao što je lako vidjeti, formula medijana sastoji se od dva člana: 1 – vrijednost početka intervala medijana i 2 – sam dio koji je proporcionalan nedostajućem akumuliranom udjelu do 50%.

Na primjer, izračunajmo medijan pomoću sljedećih podataka.

Treba pronaći srednju cijenu, odnosno cijenu koja je jeftinija i skuplja od polovine količine robe. Za početak ćemo napraviti pomoćne izračune akumulirane frekvencije, akumuliranog udjela i ukupnog broja robe.

Koristeći posljednji stupac "Akumulirani udio" određujemo srednji interval - 300-400 rubalja (akumulirani udio je prvi put veći od 50%). Širina intervala - 100 rub. Sada sve što preostaje je zamijeniti podatke u gornjoj formuli i izračunati medijan.

Odnosno, jedna polovica robe ima cijenu nižu od 350 rubalja, a druga polovica ima višu cijenu. Jednostavno je. Aritmetički prosjek, izračunat na temelju istih podataka, jednak je 355 rubalja. Razlika nije značajna, ali postoji.

Izračunajte medijan u Excelu

Lako je pronaći medijan za numeričke podatke pomoću Excel funkcije koja se zove - MEDIJAN. Intervalni podaci su druga stvar. Ne postoji odgovarajuća funkcija u Excelu. Stoga morate koristiti gornju formulu. Što možeš učiniti? Ali to nije baš tragično, budući da je izračunavanje medijana iz podataka intervala rijedak slučaj. Jednom možete izračunati na kalkulatoru.

Na kraju, nudim problem. Postoji skup podataka. 15, 5, 20, 5, 10. Koliki je prosjek? Četiri opcije:

Modus, medijan i srednja vrijednost uzorka različiti su načini određivanja središnje tendencije u uzorku.

  • Osim prosjeka snage u statistici, za relativnu karakterizaciju vrijednosti varirajućeg obilježja i unutarnje strukture serije distribucije koriste se strukturni prosjeci, koji su uglavnom predstavljeni moda i medijan.

    Moda- Ovo je najčešća varijanta serije. Moda se koristi, primjerice, pri određivanju veličine odjeće i obuće koji su najtraženiji među kupcima. Način rada za diskretnu seriju je onaj s najvećom frekvencijom. Prilikom izračunavanja moda za niz varijacija intervala, prvo morate odrediti modalni interval (na temelju maksimalne frekvencije), a zatim vrijednost modalne vrijednosti atributa pomoću formule:

    Medijan - ovo je vrijednost atributa koji je u osnovi rangirane serije i dijeli ovu seriju na dva jednaka dijela.

    Za određivanje medijana u diskretnoj seriji ako su frekvencije dostupne, prvo izračunajte poluzbroj frekvencija, a zatim odredite koja vrijednost varijante pada na nju. (Ako sortirani niz sadrži neparan broj značajki, tada se srednji broj izračunava pomoću formule:

    M e = (n (ukupan broj značajki) + 1)/2,

    u slučaju parnog broja obilježja, medijan će biti jednak prosjeku dvaju obilježja u sredini reda).

    Pri računanju medijana za niz intervalnih varijacija Najprije odredite interval medijana unutar kojeg se nalazi medijan, a zatim odredite vrijednost medijana pomoću formule:

    Primjer. Pronađite modus i medijan.

    Riješenje:
    U ovom primjeru modalni interval je unutar dobne skupine od 25-30 godina, budući da ovaj interval ima najveću učestalost (1054).

    Izračunajmo veličinu moda:

    To znači da je modalna dob učenika 27 godina.

    Izračunajmo medijan. Interval medijana je u dobnoj skupini od 25-30 godina, jer unutar ovog intervala postoji opcija koja populaciju dijeli na dva jednaka dijela (Σf i /2 = 3462/2 = 1731). Zatim zamijenimo potrebne numeričke podatke u formulu i dobijemo srednju vrijednost:

    To znači da je polovica studenata mlađa od 27,4 godine, a druga polovica starija od 27,4 godine.

    Osim moda i medijana, mogu se koristiti pokazatelji kao što su kvartili, koji dijele rangirani niz na 4 jednaka dijela, decili -10 dijelova i percentili - na 100 dijelova.

    Mod i medijan– posebna vrsta prosjeka koji se koriste za proučavanje strukture varijacijskog niza. Ponekad se nazivaju strukturnim prosjecima, za razliku od prethodno razmatranih prosjeka snage.

    Moda– to je vrijednost karakteristike (varijante) koja se najčešće nalazi u određenoj populaciji, tj. ima najveću frekvenciju.

    Moda ima veliku praktičnu primjenu iu nekim slučajevima samo moda može karakterizirati društvene pojave.

    Medijan- ovo je varijanta koja je u sredini uređenog niza varijacija.

    Medijan pokazuje kvantitativnu granicu vrijednosti varirajuće karakteristike, koju je dosegla polovica jedinica u populaciji. Korištenje medijana uz prosjek ili umjesto njega preporučljivo je ako postoje otvoreni intervali u nizu varijacija, jer za izračunavanje medijana nije potrebna uvjetna uspostava granica otvorenih intervala, pa stoga nedostatak informacija o njima ne utječe na točnost izračuna medijana.

    Medijan se također koristi kada su pokazatelji koji će se koristiti kao ponderi nepoznati. Medijan se koristi umjesto aritmetičke sredine u statističkim metodama kontrole kvalitete proizvoda. Zbroj apsolutnih odstupanja opcija od medijana manji je nego od bilo kojeg drugog broja.

    Razmotrimo izračun modusa i medijana u diskretnom nizu varijacija :

    Odredite modus i medijan.

    Moda Mo = 4 godine, jer ova vrijednost odgovara najvećoj frekvenciji f = 5.

    Oni. najveći broj radnika ima 4 godine iskustva.

    Kako bismo izračunali medijan, prvo pronalazimo polovicu zbroja frekvencija. Ako je zbroj frekvencija neparan broj, tada ovom zbroju prvo dodamo jedan, a zatim podijelimo na pola:

    Medijan će biti osma opcija.

    Kako bismo pronašli koja će opcija biti osma po broju, skupljat ćemo frekvencije dok ne dobijemo zbroj frekvencija jednak ili veći od polovice zbroja svih frekvencija. Odgovarajuća opcija bit će medijan.

    Meh = 4 godine.

    Oni. pola radnika ima manje od četiri godine staža, pola više.

    Ako je zbroj akumuliranih frekvencija prema jednoj opciji jednak polovici zbroja frekvencija, tada se medijan definira kao aritmetička sredina ove i sljedeće opcije.

    Izračun moda i medijana u serijama intervalnih varijacija

    Modus u nizu intervalnih varijacija izračunava se formulom

    Gdje x M0- početna granica modalnog intervala,

    hm 0 – vrijednost modalnog intervala,

    fm 0 , fm 0-1 , fm 0+1 – učestalost modalnog intervala koji prethodi odnosno slijedi modalnom intervalu.

    Modalni Naziva se interval kojemu odgovara najveća frekvencija.

    Primjer 1

    Grupe po iskustvu

    Broj radnika, ljudi

    Akumulirane frekvencije

    Odredite modus i medijan.

    Modalni interval, jer odgovara najvišoj frekvenciji f = 35. Tada:

    Hm 0 =6, fm 0 =35

    hm 0 =2, fm 0-1 =20

    fm 0+1 =11

    Zaključak: Najveći broj radnika ima cca 6,7 ​​godina staža.

    Za intervalni niz, Me se izračunava pomoću sljedeće formule:

    Gdje Hm e– donja granica medijalnog intervala,

    hmm e– veličina medijalnog intervala,

    – polovica zbroja frekvencija,

    fm e– učestalost srednjeg intervala,

    Sm e-1– zbroj akumuliranih frekvencija intervala koji prethodi medijanu.

    Srednji interval je interval koji odgovara kumulativnoj frekvenciji jednakoj ili većoj od polovine zbroja frekvencija.

    Odredimo medijan za naš primjer.

    budući da je 82>50, tada je srednji interval .

    Hm e =6, fm e =35,

    hmm e =2, Sm e-1 =47,

    Zaključak: Polovica radnika ima manje od 6,16 godina staža, a polovica više od 6,16 godina staža.

    Kratka teorija

    U statistici se najviše koriste strukturne sredine, koje uključuju mod i medijan (neparametarske sredine).

    Moda- vrijednost karakteristike (varijante) koja se javlja u seriji distribucije s najvećom učestalošću (težinom). Moda (Mo) se koristi za identifikaciju vrijednosti karakteristike koja je najrasprostranjenija (cijena na tržištu po kojoj je ostvaren najveći broj prodaja određenog proizvoda, broj cipela koji ima najveću potražnju među kupcima itd. .). Način se koristi samo u populacijama velikog broja. U diskretnom nizu mod se nalazi kao varijanta koja ima najveću frekvenciju. U nizu intervala prvo je modalni interval, odnosno interval s najvećom frekvencijom, a zatim - približna vrijednost modalne vrijednosti atributa prema formuli:

    – donja granica modalnog intervala

    - vrijednost modalnog intervala

    – učestalost intervala koji prethodi modalnom

    – frekvencija modalnog intervala

    – učestalost intervala nakon modalnog

    Kvantili- veličine koje dijele skup na određeni broj jednakih dijelova elemenata. Najpoznatiji kvantil je medijan koji populaciju dijeli na dva jednaka dijela. Osim medijana, često se koriste kvartili koji dijele rangirani niz na 4 jednaka dijela, decili - 10 dijelova, a percentili - na 100 dijelova.

    Medijan- vrijednost atributa za jedinicu koja se nalazi u sredini rangirane (poređene) serije. Ako je serija distribucije predstavljena određenim vrijednostima karakteristike, tada se medijan (Me) nalazi kao srednja vrijednost karakteristike.

    Ako je serija distribucije diskretna, tada se medijan nalazi kao srednja vrijednost atributa (na primjer, ako je broj vrijednosti neparan - 45, tada odgovara 23. vrijednosti atributa u nizu vrijednosti poredani uzlaznim redoslijedom, ako je broj vrijednosti paran - 44, tada medijan odgovara polovici zbroja 22 i 23 karakteristične vrijednosti).

    Ako je serija distribucije intervalna, tada najprije pronađite srednji interval koji sadrži jedinicu koja se nalazi u sredini rangirane serije. Za određivanje tog intervala zbroj frekvencija se podijeli na pola i na temelju sekvencijalnog zbrajanja (zbrajanja) intervalnih frekvencija, počevši od prve, pronađe se interval u kojem se nalazi medijan. Srednja vrijednost u nizu intervala izračunava se pomoću formule:

    - donja granica srednjeg intervala

    - vrijednost srednjeg intervala

    Zbroj serija frekvencija

    – zbroj akumuliranih frekvencija u intervalima koji prethode medijanu

    – učestalost srednjeg intervala

    Kvartili- ovo su vrijednosti obilježja u rangiranoj seriji, odabrane na takav način da će 25% jedinica u populaciji biti manje od vrijednosti, 25% jedinica će biti između i; 25% je između i , preostalih 25% premašuje . Kvartili se određuju pomoću formula sličnih formuli za izračun medijana. Za intervalne serije:

    Decile je strukturna varijabla koja dijeli distribuciju na 10 jednakih dijelova prema broju jedinica u populaciji. Postoji 9 decila i 10 decilnih skupina. Decili se određuju pomoću formula sličnih formuli za izračun medijana i kvartila.

    Općenito, opća formula za izračunavanje kvantila u nizu intervala je sljedeća:

    – redni broj kvantila

    – kvantilna dimenzija (na koliko dijelova ti kvartili dijele populaciju)

    – donja granica kvantilnog intervala

    – širina kvantilnog intervala

    Kumulativna učestalost pretkvantilnog intervala

    Za diskretnu seriju kvantilni broj može se pronaći pomoću formule:

    Primjer rješenja problema

    Uvjet zadatka 1 (diskretno rangirani niz)

    Kao rezultat istraživanja utvrđeni su prosječni mjesečni prihodi stanara jednog ulaza:

    Definirati:

    Modalni i srednji dohodak, kvantili i decili dohotka.

    Rješenje problema

    Već imamo rangiranu seriju - vrijednosti prihoda stanovnika raspoređene su uzlaznim redoslijedom.

    Moda je najčešće značenje. U ovom slučaju imamo seriju s dva načina.

    Medijan je vrijednost atributa koja dijeli uređeni skup podataka na pola.

    Kvartili su vrijednosti karakteristike u rangiranoj seriji, odabrane na takav način da će 25% jedinica u populaciji biti manje od vrijednosti; 25% jedinica bit će sadržano između i ; 25% - između i ; preostalih 25% su superiorni.

    Dicili podijelite red na 10 jednakih dijelova:

    Ako vam pomoć sada nije potrebna, ali će vam možda trebati u budućnosti, kako ne biste izgubili kontakt, pridružite se VK grupi.

    Uvjet problema 2 (intervalni niz)

    Za određivanje prosječne veličine depozita u kreditnoj instituciji dobiveni su sljedeći podaci:

    Izračunajte strukturne sredine (mod, medijan, kvartile).

    Rješenje problema

    Izračunajmo način veličine doprinosa:

    Način je opcija koja odgovara najvišoj frekvenciji.

    Modus se izračunava po formuli:

    Početak modalnog intervala

    Veličina intervala

    Učestalost modalnog intervala

    Učestalost intervala koji prethodi modalnom

    Učestalost intervala koji slijedi nakon modala

    Tako je najveći broj depozita u iznosu od 30,7 tisuća rubalja.

    Medijan je opcija koja se nalazi u sredini serije distribucije.

    Medijan se izračunava pomoću formule:

    Početak (donja granica) srednjeg intervala

    Veličina intervala

    Zbroj svih frekvencija niza

    Srednja frekvencija intervala

    Zbroj akumuliranih učestalosti varijanti do medijana

    Dakle, polovica depozita iznosi do 28 tisuća rubalja, druga polovica više od 28 tisuća rubalja.

    Izračunajmo kvantile:

    Tako je 25% depozita manje od 20,8 tisuća rubalja, 25% depozita je u rasponu od 20,8 tisuća rubalja. do 28 tisuća rubalja, 25% leži u rasponu od 28 tisuća rubalja. do 33 tisuće rubalja, 25% više od vrijednosti od 33 tisuće rubalja.

    Stanje problema 3

    Konstruirajte grafove za niz varijacija. Prikažite mod, medijan, srednju vrijednost i kvartile na grafikonu.

    Rješenje problema 3

    Izračunajmo prosjek: Da biste to učinili, zbrojite umnoške srednjih točaka intervala i odgovarajućih frekvencija i podijelite dobiveni zbroj sa zbrojem frekvencija.

    Medijan- ovo je vrijednost atributa koja dijeli rangirani niz distribucije na dva jednaka dijela - s vrijednostima atributa manjim od medijana i s vrijednostima atributa većim od medijana. Da biste pronašli medijan, morate pronaći vrijednost atributa koja je u sredini uređenog niza.

    Pogledajte rješenje problema nalaženja modusa i medijana Možeš

    U rangiranim nizovima, negrupirani podaci za pronalaženje medijana svode se na traženje rednog broja medijana. Medijan se može izračunati pomoću sljedeće formule:

    gdje je Xm donja granica srednjeg intervala;
    im - srednji interval;
    Sme je zbroj opažanja koja su akumulirana prije početka srednjeg intervala;
    fme je broj opažanja u srednjem intervalu.

    Svojstva medijana

    1. Medijan ne ovisi o onim vrijednostima atributa koji se nalaze s obje strane.
    2. Analitičke operacije s medijanom vrlo su ograničene, pa je pri kombiniranju dviju distribucija s poznatim medijanima nemoguće unaprijed predvidjeti vrijednost medijana nove distribucije.
    3. Medijan ima svojstvo minimalnosti. Njegova bit leži u činjenici da je zbroj apsolutnih odstupanja x vrijednosti od medijana minimalna vrijednost u usporedbi s odstupanjem X od bilo koje druge vrijednosti

    Grafička definicija medijana

    Za određivanje medijani grafičkom metodom Oni koriste akumulirane frekvencije iz kojih se konstruira kumulativna krivulja. Vrhovi ordinata koji odgovaraju akumuliranim frekvencijama povezani su ravnim segmentima. Dijeljenjem posljednje ordinate na pola, što odgovara ukupnom zbroju frekvencija, i povlačenjem okomitog sjecišta s kumulativnom krivuljom na nju, nalazi se ordinata željene srednje vrijednosti.

    Definicija mode u statistici

    Moda – vrijednost atributa, koji ima najveću učestalost u nizu statističke distribucije.

    Definicija mode se proizvodi na različite načine, a to ovisi o tome je li promjenjiva karakteristika predstavljena u obliku diskretne ili intervalne serije.

    Pronalaženje mode a medijan se radi jednostavnim gledanjem u stupac učestalosti. U ovom stupcu pronađite najveći broj koji karakterizira najveću učestalost. Odgovara određenoj vrijednosti atributa, koji je mod. U nizu varijacija intervala, mod se približno smatra središnjom varijantom intervala s najvećom frekvencijom. U takvoj seriji raspodjele mod se izračunava formulom:

    gdje je XMo donja granica modalnog intervala;
    imo - modalni interval;
    fm0, fm0-1, fm0+1 - frekvencije u modalnim, prethodnim i sljedećim modalnim intervalima.

    Modalni interval određen je najvećom frekvencijom.

    Moda se široko koristi u statističkoj praksi pri analizi potražnje potrošača, bilježenju cijena itd.

    Odnosi između aritmetičke sredine, medijana i modusa

    Za unimodalni simetrični niz, distribucije , medijan i moda se podudaraju. Za asimetrične distribucije oni nisu isti.

    K. Pearson je na temelju poravnanja različitih tipova krivulja utvrdio da za umjereno asimetrične distribucije vrijede sljedeći približni odnosi između aritmetičke sredine, medijana i mode: