Medián. Podrobná teória s príkladmi. Medián množiny čísel je Ako nájsť najväčší medián trojuholníka

Centrálnu tendenciu údajov možno považovať nielen za hodnotu s nulovou celkovou odchýlkou ​​(aritmetický priemer) alebo maximálnou frekvenciou (režim), ale aj za určitú značku (súhrnnú hodnotu), ktorá rozdeľuje zoradené údaje (zoradené vzostupne alebo zostupne) na dve rovnaké časti. Polovica pôvodných údajov je nižšia ako táto značka a polovica viac. Tak to je medián.

Medián v štatistike je teda úroveň ukazovateľa, ktorý rozdeľuje súbor údajov na dve rovnaké polovice. Hodnoty v jednej polovici sú menšie ako medián a v druhej polovici sú väčšie ako medián. Ako príklad sa pozrime na množinu náhodných čísel.

Je zrejmé, že pri symetrickom rozdelení bude stred, ktorý rozdeľuje populáciu na polovicu, umiestnený v samom strede - na rovnakom mieste ako aritmetický priemer (a režim). Ide takpovediac o ideálny stav, keď sa modus, medián a aritmetický priemer zhodujú a všetky ich vlastnosti spadajú do jedného bodu – maximálna frekvencia, polovičné, nulový súčet odchýlok – všetko na jednom mieste. Život však nie je taký symetrický ako normálne rozdelenie.

Povedzme, že máme do činenia s technickými meraniami odchýlok od očakávanej hodnoty niečoho (obsah prvkov, vzdialenosť, hladina, hmotnosť atď. atď.). Ak je všetko v poriadku, odchýlky budú s najväčšou pravdepodobnosťou rozdelené podľa zákona blízkeho normálu, približne ako na obrázku vyššie. Ak je však v procese dôležitý a nekontrolovateľný faktor, môžu sa objaviť anomálne hodnoty, ktoré výrazne ovplyvnia aritmetický priemer, ale sotva ovplyvnia medián.

Medián vzorky je alternatívou k aritmetickému priemeru, pretože je odolný voči abnormálnym odchýlkam (odľahlým hodnotám).

Matematické vlastnosť mediánu je, že súčet absolútnych (modulo) odchýlok od strednej hodnoty dáva minimálnu možnú hodnotu v porovnaní s odchýlkami od akejkoľvek inej hodnoty. Ešte menej ako aritmetický priemer, ach ako! Táto skutočnosť nachádza svoje uplatnenie napríklad pri riešení dopravných problémov, kedy je potrebné vypočítať stavenisko objektov v blízkosti cesty tak, aby celková dĺžka letov k nej z rôznych miest bola minimálna (zastávky, čerpacie stanice , sklady atď., atď.).

Stredný vzorec v štatistike pre diskrétneúdaje trochu pripomínajú módny vzorec. Totiž preto, že žiadny vzorec ako taký neexistuje. Stredná hodnota sa vyberie z dostupných údajov a iba ak to nie je možné, vykoná sa jednoduchý výpočet.

V prvom rade sú údaje zoradené (zoradené v zostupnom poradí). Ďalej sú dve možnosti. Ak je počet hodnôt nepárny, potom bude medián zodpovedať centrálnej hodnote série, ktorej počet možno určiť podľa vzorca:

Nie mne– číslo hodnoty zodpovedajúcej mediánu,

N– počet hodnôt v súbore údajov.

Potom je medián označený ako

Toto je prvá možnosť, keď je v údajoch jedna centrálna hodnota. Druhá možnosť nastáva, keď je počet údajov párny, to znamená, že namiesto jednej sú dve centrálne hodnoty. Riešenie je jednoduché: zoberte aritmetický priemer dvoch centrálnych hodnôt:

IN intervalové údaje Nie je možné vybrať konkrétnu hodnotu. Medián sa vypočíta podľa určitého pravidla.

Na začiatok (po zoradení údajov) nájdite stredný interval. Toto je interval, cez ktorý prechádza požadovaná stredná hodnota. Určené pomocou akumulovaného podielu zoradených intervalov. Tam, kde akumulovaný podiel prvýkrát prekročil 50 % všetkých hodnôt, existuje mediánový interval.

Neviem, kto vymyslel vzorec mediánu, ale jednoznačne vychádzali z predpokladu, že rozdelenie údajov v rámci intervalu mediánu je rovnomerné (t.j. 30 % šírky intervalu je 30 % hodnôt, 80 % šírka je 80 % hodnôt atď.). Odtiaľ, poznať počet hodnôt od začiatku stredného intervalu až po 50 % všetkých hodnôt v populácii (rozdiel medzi polovičným počtom všetkých hodnôt a akumulovanou frekvenciou predstredného intervalu ), môžete zistiť, aký podiel zaberajú v celom strednom intervale. Tento podiel je presne prenesený do šírky mediánového intervalu, označujúci konkrétnu hodnotu, následne nazývanú medián.

Pozrime sa na vizuálny diagram.

Ukázalo sa to trochu ťažkopádne, ale teraz je, dúfam, všetko jasné a zrozumiteľné. Aby ste sa vyhli nakresleniu takéhoto grafu zakaždým pri výpočte, môžete použiť hotový vzorec. Stredný vzorec je nasledujúci:

Kde xMe- spodná hranica stredného intervalu;

ja Ja- šírka stredného intervalu;

∑f/2- počet všetkých hodnôt delený 2 (dve);

S(Ja-1)- celkový počet pozorovaní, ktoré boli nazhromaždené pred začiatkom stredného intervalu, t.j. akumulovaná frekvencia premediánového intervalu;

fMe- počet pozorovaní v strednom intervale.

Ako je zrejmé, vzorec mediánu pozostáva z dvoch členov: 1 – hodnota začiatku intervalu mediánu a 2 – práve tá časť, ktorá je úmerná chýbajúcemu akumulovanému podielu až do 50 %.

Napríklad vypočítajme medián pomocou nasledujúcich údajov.

Musíte nájsť strednú cenu, teda cenu, ktorá je lacnejšia a drahšia ako polovičné množstvo tovaru. Na začiatok si urobíme pomocné výpočty kumulovanej frekvencie, kumulovaného podielu a celkového počtu tovarov.

Pomocou posledného stĺpca „Akumulovaný podiel“ určíme stredný interval - 300-400 rubľov (akumulovaný podiel je prvýkrát viac ako 50%). Šírka intervalu - 100 rub. Teraz už zostáva len dosadiť údaje do vyššie uvedeného vzorca a vypočítať medián.

To znamená, že jedna polovica tovaru má cenu nižšiu ako 350 rubľov a druhá polovica má vyššiu cenu. Je to jednoduché. Aritmetický priemer vypočítaný pomocou rovnakých údajov sa rovná 355 rubľov. Rozdiel nie je výrazný, ale je.

Vypočítajte medián v Exceli

Je ľahké nájsť medián pre číselné údaje pomocou funkcie Excel s názvom - MEDIAN. Intervalové údaje sú iná vec. V Exceli neexistuje žiadna zodpovedajúca funkcia. Preto musíte použiť vyššie uvedený vzorec. Čo môžeš urobiť? To však nie je príliš tragické, keďže výpočet mediánu z intervalových údajov je ojedinelý prípad. Môžete to spočítať raz na kalkulačke.

Na záver ponúkam problém. Existuje súbor údajov. 15, 5, 20, 5, 10. Aký je priemer? Štyri možnosti:

Modus, medián a priemer vzorky sú rôzne spôsoby určenia centrálnej tendencie vo vzorke.

  • Okrem mocninových priemerov v štatistike sa na relatívnu charakterizáciu hodnoty premennej charakteristiky a vnútornej štruktúry distribučných radov používajú štrukturálne priemery, ktoré sú reprezentované najmä móda a medián.

    Móda- Toto je najbežnejší variant série. Móda sa používa napríklad pri určovaní veľkosti oblečenia a obuvi, ktoré sú medzi kupujúcimi najžiadanejšie. Režim pre diskrétnu sériu je režim s najvyššou frekvenciou. Pri výpočte režimu pre sériu variácií intervalu musíte najprv určiť modálny interval (na základe maximálnej frekvencie) a potom hodnotu modálnej hodnoty atribútu pomocou vzorca:

    Medián - toto je hodnota atribútu, ktorý je základom hodnotenej série a rozdeľuje túto sériu na dve rovnaké časti.

    Na určenie mediánu v diskrétnej sérii ak sú k dispozícii frekvencie, najprv vypočítajte polovičný súčet frekvencií a potom určte, ktorá hodnota variantu na ňu pripadá. (Ak triedená séria obsahuje nepárny počet prvkov, potom sa stredný počet vypočíta pomocou vzorca:

    M e = (n (celkový počet prvkov) + 1)/2,

    v prípade párneho počtu prvkov sa medián bude rovnať priemeru dvoch prvkov v strede riadku).

    Pri výpočte mediánu pre intervalové variačné série Najprv určte interval mediánu, v ktorom sa medián nachádza, a potom určte hodnotu mediánu pomocou vzorca:

    Príklad. Nájdite režim a medián.

    Riešenie:
    V tomto príklade je modálny interval vo vekovej skupine 25-30 rokov, pretože tento interval má najvyššiu frekvenciu (1054).

    Vypočítajme veľkosť režimu:

    To znamená, že modálny vek študentov je 27 rokov.

    Vypočítajme medián. Medián intervalu je vo vekovej skupine 25-30 rokov, keďže v rámci tohto intervalu existuje možnosť, ktorá rozdeľuje populáciu na dve rovnaké časti (Σf i /2 = 3462/2 = 1731). Ďalej do vzorca nahradíme potrebné číselné údaje a získame strednú hodnotu:

    To znamená, že polovica študentov má menej ako 27,4 rokov a druhá polovica má viac ako 27,4 rokov.

    Okrem režimu a mediánu možno použiť ukazovatele, ako sú kvartily, ktoré rozdeľujú zoradené série na 4 rovnaké časti, decily -10 častí a percentily - na 100 častí.

    Režim a medián– špeciálny druh priemerov, ktoré sa používajú na štúdium štruktúry variačných radov. Niekedy sa nazývajú štrukturálne priemery, na rozdiel od predtým diskutovaných priemerov výkonu.

    Móda– ide o hodnotu charakteristiky (variantu), ktorá sa v danej populácii najčastejšie nachádza, t.j. má najvyššiu frekvenciu.

    Móda má veľké praktické uplatnenie a v niektorých prípadoch len móda môže charakterizovať spoločenské javy.

    Medián- ide o variant, ktorý je v strede objednanej variačnej série.

    Medián znázorňuje kvantitatívnu hranicu hodnoty premennej charakteristiky, ktorú dosiahla polovica jednotiek v populácii. Použitie mediánu spolu s priemerom alebo namiesto neho je vhodné, ak sú v sérii variácií otvorené intervaly, pretože na výpočet mediánu sa nevyžaduje podmienené stanovenie hraníc otvorených intervalov, a preto nedostatok informácií o nich nemá vplyv na presnosť výpočtu mediánu.

    Medián sa používa aj vtedy, keď nie sú známe ukazovatele, ktoré sa majú použiť ako váhy. V štatistických metódach kontroly kvality produktov sa namiesto aritmetického priemeru používa medián. Súčet absolútnych odchýlok opcií od mediánu je menší ako od akéhokoľvek iného čísla.

    Zoberme si výpočet modusu a mediánu v diskrétnom variačnom rade :

    Určte režim a medián.

    Fashion Mo = 4 roky, keďže táto hodnota zodpovedá najvyššej frekvencii f = 5.

    Tie. najväčší počet pracovníkov má 4 roky praxe.

    Aby sme vypočítali medián, najprv nájdeme polovicu súčtu frekvencií. Ak je súčet frekvencií nepárne číslo, potom k tomuto súčtu najprv pripočítame jednotku a potom rozdelíme na polovicu:

    Medián bude ôsmou možnosťou.

    Aby sme zistili, ktorá možnosť bude ôsma podľa čísla, budeme hromadiť frekvencie, kým nedostaneme súčet frekvencií rovný alebo väčší ako polovica súčtu všetkých frekvencií. Zodpovedajúca možnosť bude medián.

    Meh = 4 roky.

    Tie. polovica pracovníkov má menej ako štyri roky praxe, polovica viac.

    Ak sa súčet akumulovaných frekvencií voči jednej možnosti rovná polovici súčtu frekvencií, potom je medián definovaný ako aritmetický priemer tejto možnosti a nasledujúcej možnosti.

    Výpočet módu a mediánu v intervalových variačných sériách

    Režim v sérii variácií intervalov sa vypočíta podľa vzorca

    Kde X M0- počiatočná hranica modálneho intervalu,

    hm 0 – hodnotu modálneho intervalu,

    fm 0 , fm 0-1 , fm 0+1 – frekvencia modálneho intervalu pred a po modálnom intervale.

    Modálny Interval, ktorému zodpovedá najvyššia frekvencia, sa nazýva.

    Príklad 1

    Skupiny podľa skúseností

    Počet robotníkov, ľudí

    Akumulované frekvencie

    Určte režim a medián.

    Modálny interval, pretože zodpovedá najvyššej frekvencii f = 35. Potom:

    Hm 0 =6, fm 0 =35

    hm 0 =2, fm 0-1 =20

    fm 0+1 =11

    Záver: Najväčší počet pracovníkov má približne 6,7 ročnú prax.

    Pre intervalový rad sa Me vypočíta pomocou nasledujúceho vzorca:

    Kde Hm e– spodná hranica mediálneho intervalu,

    hmm e- veľkosť mediálneho intervalu,

    – polovičný súčet frekvencií,

    fm e- frekvencia stredného intervalu,

    Sm e-1– súčet akumulovaných frekvencií intervalu predchádzajúceho mediánu.

    Stredný interval je interval, ktorý zodpovedá kumulatívnej frekvencii, ktorá sa rovná alebo je väčšia ako polovica súčtu frekvencií.

    Určme medián pre náš príklad.

    keďže 82>50, potom je medián intervalu .

    Hm e =6, fm e =35,

    hmm e =2, Sm e-1 =47,

    Záver: Polovica pracovníkov má prax menej ako 6,16 rokov a polovica viac ako 6,16 rokov.

    Stručná teória

    Najpoužívanejšie v štatistike sú štrukturálne prostriedky, ktoré zahŕňajú modus a medián (neparametrické priemery).

    Móda- hodnota charakteristiky (variantu), ktorá sa vyskytuje v distribučnom rade s najvyššou frekvenciou (váhou). Móda (Mo) sa používa na identifikáciu hodnoty vlastnosti, ktorá je najrozšírenejšia (cena na trhu, za ktorú sa uskutočnil najväčší počet predajov daného produktu, počet topánok, po ktorých je medzi kupujúcimi najväčší dopyt atď. .). Režim sa používa iba v populáciách veľkého počtu. V diskrétnej sérii sa režim nachádza ako variant, ktorý má najvyššiu frekvenciu. V intervalovom rade je najprv modálny interval, to znamená interval s najvyššou frekvenciou, a potom - približná hodnota modálnej hodnoty atribútu podľa vzorca:

    – spodná hranica modálneho intervalu

    - hodnota modálneho intervalu

    – frekvencia intervalu pred modálom

    – frekvencia modálnych intervalov

    – frekvencia intervalu nasledujúceho po spôsobe

    Kvantily- veličiny, ktoré rozdeľujú množinu na určitý počet rovnakých častí prvkov. Najznámejším kvantilom je medián, ktorý rozdeľuje populáciu na dve rovnaké časti. Okrem mediánu sa často používajú kvartily, ktoré rozdeľujú zoradené série na 4 rovnaké časti, decily - 10 častí a percentily - na 100 častí.

    Medián- hodnota atribútu pre jednotku umiestnenú v strede zoradeného (usporiadaného) radu. Ak je distribučný rad reprezentovaný špecifickými hodnotami charakteristiky, potom sa ako stredná hodnota charakteristiky zistí medián (Me).

    Ak je distribučný rad diskrétny, potom sa medián zistí ako stredná hodnota atribútu (ak je napríklad počet hodnôt nepárny - 45, potom zodpovedá 23. hodnote atribútu v rade hodnôt ​​zoradené vzostupne, ak je počet hodnôt párny - 44, potom medián zodpovedá polovici súčtu 22 a 23 charakteristických hodnôt).

    Ak je distribučný rad interval, potom najprv nájdite stredný interval, ktorý obsahuje jednotku umiestnenú v strede zoradeného radu. Na určenie tohto intervalu sa súčet frekvencií rozdelí na polovicu a na základe postupnej akumulácie (sčítania) intervalových frekvencií, počnúc od prvej, sa zistí interval, kde sa nachádza medián. Stredná hodnota v intervalovej sérii sa vypočíta pomocou vzorca:

    - spodná hranica stredného intervalu

    - hodnota stredného intervalu

    Súčet frekvenčných radov

    – súčet akumulovaných frekvencií v intervaloch predchádzajúcich mediánu

    – frekvencia stredného intervalu

    Kvartily- sú to hodnoty charakteristiky v zoradenej sérii, vybrané tak, že 25 % jednotiek v populácii bude menších ako hodnota, 25 % jednotiek bude medzi a; 25 % je medzi a , zvyšných 25 % presahuje . Kvartily sa určujú pomocou vzorcov podobných vzorcu na výpočet mediánu. Pre intervalovú sériu:

    Decile je štrukturálna premenná, ktorá rozdeľuje rozdelenie na 10 rovnakých častí podľa počtu jednotiek v populácii. Existuje 9 decilov a 10 decilových skupín. Decily sa určujú pomocou vzorcov podobných vzorcu na výpočet mediánu a kvartilov.

    Vo všeobecnosti platí, že všeobecný vzorec na výpočet kvantilov v intervalovom rade je takýto:

    – poradové číslo kvantilu

    – kvantilová dimenzia (na koľko častí tieto kvartily rozdeľujú populáciu)

    – spodná hranica kvantilového intervalu

    – šírka kvantilového intervalu

    Kumulatívna frekvencia prekvantilového intervalu

    Pre diskrétny rad možno kvantilové číslo nájsť pomocou vzorca:

    Príklad riešenia problému

    Podmienka úlohy 1 (samostatná hodnotená séria)

    Výsledkom výskumu bol priemerný mesačný príjem obyvateľov jedného vchodu:

    Definuj:

    Modálny a mediánový príjem, kvantily a decily príjmu.

    Riešenie problému

    Už máme zoradenú sériu - hodnoty príjmov obyvateľov sú rozdelené vzostupne.

    Móda je najbežnejší význam. V tomto prípade máme sériu s dvoma režimami.

    Medián je hodnota atribútu, ktorý rozdeľuje usporiadanú množinu údajov na polovicu.

    Kvartily sú hodnoty charakteristiky v zoradenej sérii, vybrané tak, že 25 % jednotiek v populácii bude menších ako hodnota ; 25 % jednotiek bude obsiahnutých medzi a ; 25 % - medzi a ; zvyšných 25 % je lepších.

    Dicili rozdeľte riadok na 10 rovnakých častí:

    Ak nepotrebujete pomoc teraz, ale možno ju budete potrebovať v budúcnosti, potom, aby ste nestratili kontakt, pripojiť sa k skupine VK.

    Problémový stav 2 (intervalové série)

    Na určenie priemernej veľkosti vkladu v úverovej inštitúcii sa získali tieto údaje:

    Vypočítajte štrukturálne priemery (modus, medián, kvartily).

    Riešenie problému

    Vypočítajme režim veľkosti príspevku:

    Režim je možnosť, ktorá zodpovedá najvyššej frekvencii.

    Režim sa vypočíta podľa vzorca:

    Začiatok modálneho intervalu

    Veľkosť intervalu

    Frekvencia modálneho intervalu

    Frekvencia intervalu pred modálom

    Frekvencia intervalu nasledujúceho za modálom

    Najväčší počet vkladov je teda vo výške 30,7 tisíc rubľov.

    Medián je možnosť, ktorá sa nachádza v strede distribučnej série.

    Medián sa vypočíta podľa vzorca:

    Začiatok (dolná hranica) stredného intervalu

    Veľkosť intervalu

    Súčet všetkých frekvencií série

    Stredná intervalová frekvencia

    Súčet akumulovaných frekvencií variantov k mediánu

    Polovica vkladov je teda do 28 tisíc rubľov, druhá polovica je viac ako 28 tisíc rubľov.

    Vypočítajme kvantily:

    25% vkladov je teda menej ako 20,8 tisíc rubľov, 25% vkladov je v rozmedzí 20,8 tisíc rubľov. do 28 tisíc rubľov, 25 % leží v rozmedzí od 28 tisíc rubľov. až 33 tisíc rubľov, o 25 % viac ako hodnota 33 tisíc rubľov.

    Problémový stav 3

    Zostrojte grafy pre variačné série. Zobrazte na grafe režim, medián, priemer a kvartily.

    Riešenie problému 3

    Vypočítajme priemer: Na tento účel spočítajte súčin stredov intervalov a zodpovedajúcich frekvencií a výsledný súčet vydeľte súčtom frekvencií.

    Medián- toto je hodnota atribútu, ktorý rozdeľuje zoradené série distribúcie na dve rovnaké časti - s hodnotami atribútov menšími ako medián a s hodnotami atribútov väčšími ako medián. Ak chcete nájsť medián, musíte nájsť hodnotu atribútu, ktorý je v strede zoradeného radu.

    Pozrite si riešenie problému s nájdením módu a mediánu Môžeš

    V zoradených sériách nezoskupené údaje pre nájdenie mediánu sa zredukujú na hľadanie poradového čísla mediánu. Medián možno vypočítať pomocou nasledujúceho vzorca:

    kde Xm je spodná hranica stredného intervalu;
    im - stredný interval;
    Sme je súčet pozorovaní, ktoré boli nazhromaždené pred začiatkom stredného intervalu;
    fme je počet pozorovaní v strednom intervale.

    Vlastnosti mediánu

    1. Medián nezávisí od hodnôt atribútov, ktoré sa nachádzajú na oboch jeho stranách.
    2. Analytické operácie s mediánom sú veľmi obmedzené, takže pri kombinácii dvoch rozdelení so známymi mediánmi nie je možné vopred predpovedať hodnotu mediánu nového rozdelenia.
    3. Medián má vlastnosť minimality. Jeho podstata spočíva v tom, že súčet absolútnych odchýlok hodnôt x od mediánu je minimálna hodnota v porovnaní s odchýlkou ​​X od akejkoľvek inej hodnoty.

    Grafická definícia mediánu

    Na určenie mediánov grafickou metódou Využívajú akumulované frekvencie, z ktorých je zostrojená kumulatívna krivka. Vrcholy súradníc zodpovedajúce akumulovaným frekvenciám sú spojené priamymi segmentmi. Vydelením poslednej ordináty na polovicu, čo zodpovedá celkovému súčtu frekvencií, a nakreslením kolmého priesečníka s kumulatívnou krivkou k nej sa nájde ordináta požadovanej strednej hodnoty.

    Definícia módy v štatistike

    Móda – hodnota atribútu, ktorá má najvyššiu frekvenciu v štatistickom distribučnom rade.

    Definícia módy sa vyrába rôznymi spôsobmi, a to závisí od toho, či je premenlivá charakteristika prezentovaná vo forme diskrétneho alebo intervalového radu.

    Hľadanie módy a medián sa robí jednoduchým pohľadom na stĺpec frekvencie. V tomto stĺpci nájdite najväčšie číslo charakterizujúce najvyššiu frekvenciu. Zodpovedá určitej hodnote atribútu, ktorým je režim. V sérii intervalových variácií sa režim považuje približne za centrálny variant intervalu s najvyššou frekvenciou. V takejto distribučnej sérii režim sa vypočíta podľa vzorca:

    kde XMo je spodná hranica modálneho intervalu;
    imo - modálny interval;
    fм0, fм0-1, fм0+1 - frekvencie v modálnom, predchádzajúcom a nasledujúcom modálnom intervale.

    Modálny interval je určený najvyššou frekvenciou.

    Móda je široko používaná v štatistickej praxi pri analýze spotrebiteľského dopytu, zaznamenávaní cien atď.

    Vzťahy medzi aritmetickým priemerom, mediánom a módom

    Pre unimodálne symetrické série sa distribúcie, medián a modus zhodujú. Pre asymetrické distribúcie nie sú rovnaké.

    K. Pearson na základe zarovnania rôznych typov kriviek určil, že pre stredne asymetrické rozdelenia platia nasledujúce približné vzťahy medzi aritmetickým priemerom, mediánom a modusom: