Mediano. Teoria dettagliata con esempi. La mediana di un insieme di numeri è come trovare la mediana più grande di un triangolo

La tendenza centrale dei dati può essere considerata non solo come un valore con deviazione totale pari a zero (media aritmetica) o frequenza massima (modalità), ma anche come un segno (valore aggregato) che divide i dati classificati (ordinati in ordine ascendente o discendente) in due parti uguali. La metà dei dati originali è inferiore a questo segno e l'altra metà è superiore. Questo è quello che è mediano.

Pertanto, la mediana nelle statistiche è il livello dell’indicatore che divide il set di dati in due metà uguali. I valori in una metà sono inferiori alla mediana e nell'altra metà sono superiori alla mediana. Ad esempio, consideriamo un insieme di numeri casuali.

Ovviamente, con una distribuzione simmetrica, il centro, che divide la popolazione a metà, si troverà proprio al centro, nello stesso posto della media aritmetica (e della moda). Questa è, per così dire, una situazione ideale in cui la moda, la mediana e la media aritmetica coincidono e tutte le loro proprietà cadono su un punto - frequenza massima, dimezzamento, somma zero delle deviazioni - tutto in un unico posto. Tuttavia, la vita non è simmetrica come una distribuzione normale.

Diciamo che abbiamo a che fare con misurazioni tecniche di deviazioni dal valore atteso di qualcosa (contenuto di elementi, distanza, livello, massa, ecc., ecc.). Se tutto va bene, molto probabilmente le deviazioni saranno distribuite secondo una legge vicina alla normalità, approssimativamente come nella figura sopra. Ma se c'è un fattore importante e incontrollabile nel processo, allora potrebbero apparire valori anomali che influenzeranno in modo significativo la media aritmetica, ma difficilmente influenzeranno la mediana.

La mediana campionaria è un'alternativa alla media aritmetica, perché è resistente alle deviazioni anomale (outlier).

Matematico proprietà della medianaè che la somma delle deviazioni assolute (modulo) dal valore mediano fornisce il valore minimo possibile se confrontato con le deviazioni da qualsiasi altro valore. Anche meno della media aritmetica, oh come! Questo fatto trova la sua applicazione, ad esempio, quando si risolvono problemi di trasporto, quando è necessario calcolare il cantiere di oggetti vicino alla strada in modo tale che la lunghezza totale dei voli da luoghi diversi sia minima (fermate, stazioni di servizio , magazzini, ecc., ecc.).

Formula mediana nelle statistiche per discreto i dati ricordano in qualche modo una formula di moda. Vale a dire perché non esiste una formula in quanto tale. Il valore mediano viene selezionato tra i dati disponibili e solo se ciò non è possibile viene effettuato un semplice calcolo.

Innanzitutto i dati vengono classificati (ordinati in ordine decrescente). Successivamente ci sono due opzioni. Se il numero di valori è dispari, la mediana corrisponderà al valore centrale della serie, il cui numero può essere determinato dalla formula:

No, io– numero del valore corrispondente alla mediana,

N– il numero di valori nel set di dati.

Quindi la mediana viene indicata come

Questa è la prima opzione quando nei dati è presente un valore centrale. La seconda opzione si verifica quando il numero di dati è pari, cioè invece di uno ci sono due valori centrali. La soluzione è semplice: prendi la media aritmetica dei due valori centrali:

IN dati dell'intervallo Non è possibile selezionare un valore specifico. La mediana viene calcolata secondo una determinata regola.

Per cominciare (dopo aver classificato i dati), trova intervallo mediano. Questo è l'intervallo attraverso il quale passa il valore mediano desiderato. Determinato utilizzando la quota accumulata di intervalli classificati. Laddove la quota accumulata supera per la prima volta il 50% di tutti i valori, esiste un intervallo mediano.

Non so chi abbia inventato la formula della mediana, ma è chiaro che è partito dal presupposto che la distribuzione dei dati all'interno dell'intervallo mediano sia uniforme (cioè il 30% dell'ampiezza dell'intervallo è il 30% dei valori, l'80% della larghezza dell'intervallo la larghezza è l'80% dei valori, ecc.). Da qui, conoscendo il numero di valori dall'inizio dell'intervallo mediano al 50% di tutti i valori nella popolazione (la differenza tra la metà del numero di tutti i valori e la frequenza accumulata dell'intervallo pre-mediano ), puoi trovare quale proporzione occupano nell'intero intervallo mediano. Questa quota viene trasferita esattamente alla larghezza dell'intervallo mediano, indicando un valore specifico, successivamente chiamato mediana.

Diamo un'occhiata al diagramma visivo.

Si è rivelato un po 'complicato, ma ora, spero, tutto è chiaro e comprensibile. Per evitare di disegnare un grafico del genere ogni volta che si esegue il calcolo, è possibile utilizzare una formula già pronta. La formula mediana è la seguente:

Dove x Io- limite inferiore dell'intervallo mediano;

io Io- larghezza dell'intervallo mediano;

∑f/2- il numero di tutti i valori diviso per 2 (due);

S(Io-1)- il numero totale di osservazioni accumulate prima dell'inizio dell'intervallo mediano, vale a dire frequenza accumulata dell'intervallo premediano;

f Io- numero di osservazioni nell'intervallo mediano.

Come è facile vedere, la formula mediana è composta da due termini: 1 – il valore dell'inizio dell'intervallo mediano e 2 – proprio la parte proporzionale alla quota accumulata mancante fino al 50%.

Ad esempio, calcoliamo la mediana utilizzando i seguenti dati.

È necessario trovare il prezzo medio, ovvero il prezzo più economico e più costoso della metà della quantità di merce. Per cominciare, effettueremo calcoli ausiliari della frequenza accumulata, della quota accumulata e del numero totale di beni.

Utilizzando l'ultima colonna "Quota accumulata" determiniamo l'intervallo medio - 300-400 rubli (la quota accumulata per la prima volta è superiore al 50%). Larghezza dell'intervallo – 100 sfregamenti. Ora non resta che sostituire i dati nella formula sopra e calcolare la mediana.

Cioè, metà della merce ha un prezzo inferiore a 350 rubli e l'altra metà ha un prezzo più alto. È semplice. La media aritmetica, calcolata utilizzando gli stessi dati, è pari a 355 rubli. La differenza non è significativa, ma c’è.

Calcola la mediana in Excel

È facile trovare la mediana dei dati numerici utilizzando una funzione di Excel chiamata - MEDIANO. I dati sugli intervalli sono un'altra questione. Non esiste una funzione corrispondente in Excel. Pertanto, è necessario utilizzare la formula sopra. Cosa sai fare? Ma questo non è molto tragico, poiché il calcolo della mediana dai dati dell'intervallo è un caso raro. Puoi fare i calcoli una volta su una calcolatrice.

Infine, propongo un problema. C'è un set di dati. 15, 5, 20, 5, 10. Qual è la media? Quattro opzioni:

La moda, la mediana e la media campionaria sono modi diversi per determinare la tendenza centrale in un campione.

  • Oltre alle medie di potenza in statistica, per la caratterizzazione relativa del valore di una caratteristica variabile e la struttura interna delle serie di distribuzione, vengono utilizzate le medie strutturali, rappresentate principalmente da moda e mediana.

    Moda- Questa è la variante più comune della serie. La moda viene utilizzata, ad esempio, per determinare la taglia dei vestiti e delle scarpe più richieste dagli acquirenti. La modalità per una serie discreta è quella con la frequenza più alta. Quando si calcola la moda per una serie di variazioni di intervallo, è necessario prima determinare l'intervallo modale (basato sulla frequenza massima), quindi il valore del valore modale dell'attributo utilizzando la formula:

    Mediano - questo è il valore dell'attributo che sta alla base della serie classificata e divide questa serie in due parti uguali.

    Per determinare la mediana in una serie discreta se le frequenze sono disponibili, calcola prima la metà della somma delle frequenze, quindi determina quale valore della variante ricade su di essa. (Se la serie ordinata contiene un numero dispari di elementi, il numero mediano viene calcolato utilizzando la formula:

    M e = (n (numero di caratteristiche in totale) + 1)/2,

    nel caso di un numero pari di caratteristiche, la mediana sarà pari alla media delle due caratteristiche al centro della riga).

    Quando si calcola la mediana per le serie a variazione di intervallo Innanzitutto, determinare l'intervallo mediano entro il quale si trova la mediana, quindi determinare il valore della mediana utilizzando la formula:

    Esempio. Trova la moda e la mediana.

    Soluzione:
    In questo esempio, l'intervallo modale rientra nella fascia di età 25-30 anni, poiché questo intervallo ha la frequenza più alta (1054).

    Calcoliamo l'entità della moda:

    Ciò significa che l’età modale degli studenti è di 27 anni.

    Calcoliamo la mediana. L'intervallo mediano è nella fascia di età 25-30 anni, poiché all'interno di questo intervallo esiste un'opzione che divide la popolazione in due parti uguali (Σf i /2 = 3462/2 = 1731). Successivamente, sostituiamo i dati numerici necessari nella formula e otteniamo il valore mediano:

    Ciò significa che la metà degli studenti ha meno di 27,4 anni e l'altra metà ha più di 27,4 anni.

    Oltre alla moda e alla mediana, è possibile utilizzare indicatori come i quartili, dividendo la serie classificata in 4 parti uguali, decili -10 parti e percentili - in 100 parti.

    Moda e mediana– un tipo speciale di medie che vengono utilizzate per studiare la struttura delle serie di variazioni. A volte vengono chiamate medie strutturali, in contrasto con le medie di potenza precedentemente discusse.

    Moda– questo è il valore di una caratteristica (variante) che si trova più spesso in una data popolazione, cioè ha la frequenza più alta.

    La moda ha una grande applicazione pratica e in alcuni casi solo la moda può caratterizzare i fenomeni sociali.

    Mediano- questa è una variante che si trova al centro di una serie di varianti ordinate.

    La mediana rappresenta il limite quantitativo del valore di una caratteristica variabile, che è stato raggiunto dalla metà delle unità della popolazione. Usare la mediana insieme alla media o al suo posto è consigliabile se ci sono intervalli aperti nella serie di variazioni, perché per calcolare la mediana, non è necessaria la definizione condizionale dei confini degli intervalli aperti, e pertanto la mancanza di informazioni su di essi non influisce sull'accuratezza del calcolo della mediana.

    La mediana viene utilizzata anche quando non sono noti gli indicatori da utilizzare come pesi. La mediana viene utilizzata al posto della media aritmetica nei metodi statistici di controllo della qualità del prodotto. La somma delle deviazioni assolute delle opzioni dalla mediana è inferiore a quella di qualsiasi altro numero.

    Consideriamo il calcolo della moda e della mediana in una serie di variazioni discrete :

    Determinare la moda e la mediana.

    Moda Mo = 4 anni, poiché questo valore corrisponde alla frequenza più alta f = 5.

    Quelli. la maggior parte dei lavoratori ha 4 anni di esperienza.

    Per calcolare la mediana, troviamo prima la metà della somma delle frequenze. Se la somma delle frequenze è un numero dispari, prima aggiungiamo uno a questa somma e poi dividiamo a metà:

    La mediana sarà l’ottava opzione.

    Per trovare quale opzione sarà l'ottava per numero, accumuleremo le frequenze finché non otterremo una somma di frequenze pari o superiore alla metà della somma di tutte le frequenze. L'opzione corrispondente sarà la mediana.

    Mah = 4 anni.

    Quelli. la metà dei lavoratori ha meno di quattro anni di esperienza, la metà di più.

    Se la somma delle frequenze accumulate rispetto a un'opzione è pari alla metà della somma delle frequenze, allora la mediana è definita come la media aritmetica di questa opzione e di quella successiva.

    Calcolo della moda e della mediana nelle serie a variazione di intervallo

    La modalità nella serie di variazioni di intervallo viene calcolata dalla formula

    Dove X M0- confine iniziale dell'intervallo modale,

    HM 0 – il valore dell'intervallo modale,

    FM 0 , FM 0-1 , FM 0+1 – frequenza dell'intervallo modale rispettivamente precedente e successivo all'intervallo modale.

    Modale Viene chiamato l'intervallo a cui corrisponde la frequenza più alta.

    Esempio 1

    Gruppi per esperienza

    Numero di lavoratori, persone

    Frequenze accumulate

    Determinare la moda e la mediana.

    Intervallo modale, perché corrisponde alla frequenza più alta f = 35. Quindi:

    Uhm 0 =6, FM 0 =35

    HM 0 =2, FM 0-1 =20

    FM 0+1 =11

    Conclusione: la maggior parte dei lavoratori ha circa 6,7 ​​anni di esperienza.

    Per una serie di intervalli, Me viene calcolato utilizzando la seguente formula:

    Dove Uhm e– bordo inferiore dell’intervallo mediale,

    Hmm e– la dimensione dell’intervallo mediale,

    – metà della somma delle frequenze,

    FM e– frequenza dell’intervallo mediano,

    Sm e-1– la somma delle frequenze accumulate dell'intervallo precedente la mediana.

    L'intervallo mediano è un intervallo che corrisponde a una frequenza cumulativa pari o superiore alla metà della somma delle frequenze.

    Determiniamo la mediana per il nostro esempio.

    da 82>50, allora l'intervallo mediano è .

    Uhm e =6, FM e =35,

    Hmm e =2, Sm e-1 =47,

    Conclusione: la metà dei lavoratori ha meno di 6,16 anni di esperienza e l'altra metà ha più di 6,16 anni di esperienza.

    Breve teoria

    Le più utilizzate in statistica sono le medie strutturali, che includono la moda e la mediana (medie non parametriche).

    Moda- il valore di una caratteristica (variante) che ricorre nella serie di distribuzione con la frequenza (peso) più alta. Moda (Mo) viene utilizzato per identificare il valore di una caratteristica più diffusa (il prezzo sul mercato al quale sono state effettuate il maggior numero di vendite di un dato prodotto, il numero di scarpe più richieste dagli acquirenti, ecc.) .). La modalità viene utilizzata solo in popolazioni numerose. In una serie discreta, la modalità si trova come la variante che ha la frequenza più alta. Nella serie di intervalli, prima c'è un intervallo modale, cioè l'intervallo con la frequenza più alta, quindi il valore approssimativo del valore modale dell'attributo secondo la formula:

    – limite inferiore dell'intervallo modale

    - il valore dell'intervallo modale

    – frequenza dell'intervallo che precede il modale

    – frequenza dell'intervallo modale

    – frequenza dell'intervallo successivo al modale

    Quantili- quantità che dividono un insieme in un certo numero di elementi in parti uguali. Il quantile più famoso è la mediana, che divide la popolazione in due parti uguali. Oltre alla mediana, vengono spesso utilizzati i quartili, che dividono la serie classificata in 4 parti uguali, i decili - 10 parti e i percentili - in 100 parti.

    Mediano- il valore dell'attributo per un'unità situata al centro della serie classificata (ordinata). Se una serie di distribuzione è rappresentata da valori specifici di una caratteristica, la mediana (Me) si trova come valore medio della caratteristica.

    Se la serie di distribuzione è discreta, la mediana viene trovata come valore medio dell'attributo (ad esempio, se il numero di valori è dispari - 45, corrisponde al 23esimo valore dell'attributo in una serie di valori disposti in ordine crescente, se il numero di valori è pari - 44, la mediana corrisponde alla metà della somma di 22 e 23 valori caratteristici).

    Se la serie di distribuzione è intervallata, trovare inizialmente l'intervallo mediano, che contiene un'unità situata al centro della serie classificata. Per determinare tale intervallo si divide a metà la somma delle frequenze e, in base all'accumulo sequenziale (somma) delle frequenze intervallari, a partire dalla prima, si trova l'intervallo in cui si trova la mediana. Il valore mediano in una serie di intervalli viene calcolato utilizzando la formula:

    - limite inferiore dell'intervallo mediano

    - il valore dell'intervallo mediano

    Somma delle serie di frequenze

    – la somma delle frequenze accumulate negli intervalli precedenti la mediana

    – frequenza dell'intervallo mediano

    Quartili- questi sono i valori della caratteristica nella serie classificata, selezionati in modo tale che il 25% delle unità della popolazione sarà inferiore al valore, il 25% delle unità sarà compreso tra e; Il 25% è compreso tra e , il restante 25% supera . I quartili vengono determinati utilizzando formule simili alla formula per il calcolo della mediana. Per una serie di intervalli:

    Decileè una variabile strutturale che divide la distribuzione in 10 parti uguali a seconda del numero di unità della popolazione. Esistono 9 decili e 10 gruppi di decili. I decili vengono determinati utilizzando formule simili a quella per il calcolo della mediana e dei quartili.

    In generale, la formula generale per calcolare i quantili in una serie di intervalli è la seguente:

    – numero ordinale del quantile

    – dimensione quantile (in quante parti questi quartili dividono la popolazione)

    – limite inferiore dell'intervallo quantile

    – larghezza dell'intervallo quantilico

    Frequenza cumulativa dell'intervallo prequantile

    Per una serie discreta, il numero quantile può essere trovato utilizzando la formula:

    Esempio di soluzione del problema

    Condizione dell'attività 1 (serie classificate discrete)

    Come risultato della ricerca, è stato stabilito il reddito medio mensile dei residenti di un ingresso:

    Definire:

    Reddito modale e mediano, quantili e decili di reddito.

    La soluzione del problema

    Disponiamo già di una serie classificata: i valori dei redditi dei residenti sono distribuiti in ordine crescente.

    La moda è il significato più comune. In questo caso abbiamo una serie con due modalità.

    La mediana è il valore dell'attributo che divide a metà l'insieme ordinato di dati.

    I quartili sono i valori di una caratteristica in una serie ordinata, selezionati in modo tale che il 25% delle unità della popolazione sia inferiore al valore; Il 25% delle unità sarà contenuto tra il e il ; 25% - tra e ; il restante 25% è superiore.

    Dicili dividono la riga in 10 parti uguali:

    Se non hai bisogno di aiuto adesso, ma potresti averne bisogno in futuro, per non perdere i contatti, unisciti al gruppo VK.

    Condizione del problema 2 (serie di intervalli)

    Per determinare la dimensione media del deposito presso un istituto di credito, sono stati ottenuti i seguenti dati:

    Calcolare le medie strutturali (modalità, mediana, quartili).

    La soluzione del problema

    Calcoliamo la modalità della dimensione del contributo:

    La modalità è l'opzione che corrisponde alla frequenza più alta.

    La modalità si calcola con la formula:

    Inizio dell'intervallo modale

    Dimensione dell'intervallo

    Frequenza dell'intervallo modale

    Frequenza dell'intervallo che precede il modale

    Frequenza dell'intervallo successivo al modale

    Pertanto, il maggior numero di depositi ammonta a 30,7 mila rubli.

    La mediana è un'opzione situata al centro della serie di distribuzione.

    La mediana si calcola utilizzando la formula:

    Inizio (limite inferiore) dell'intervallo mediano

    Dimensione dell'intervallo

    Somma di tutte le frequenze della serie

    Frequenza dell'intervallo mediano

    Somma delle frequenze accumulate delle varianti rispetto alla mediana

    Pertanto, la metà dei depositi ammonta a 28mila rubli, l'altra metà supera i 28mila rubli.

    Calcoliamo i quantili:

    Pertanto, il 25% dei depositi è inferiore a 20,8 mila rubli, il 25% dei depositi è compreso tra 20,8 mila rubli. fino a 28mila rubli, il 25% è compreso tra 28mila rubli. fino a 33mila rubli, il 25% in più rispetto al valore di 33mila rubli.

    Condizione problematica 3

    Costruire grafici per le serie di variazioni. Mostra la moda, la mediana, la media e i quartili sul grafico.

    Soluzione al problema 3

    Calcoliamo la media: per fare ciò, somma i prodotti dei punti medi degli intervalli e delle frequenze corrispondenti e dividi la somma risultante per la somma delle frequenze.

    Mediano- questo è il valore dell'attributo che divide la serie classificata della distribuzione in due parti uguali - con valori degli attributi inferiori alla mediana e con valori degli attributi superiori alla mediana. Per trovare la mediana, devi trovare il valore dell'attributo che si trova al centro della serie ordinata.

    Visualizza la soluzione al problema di trovare la moda e la mediana Puoi

    Nelle serie classificate, dati separati per trovare la mediana si riducono alla ricerca del numero seriale del mediano. La mediana può essere calcolata utilizzando la seguente formula:

    dove Xm è il limite inferiore dell'intervallo mediano;
    im - intervallo mediano;
    Sme è la somma delle osservazioni accumulate prima dell'inizio dell'intervallo mediano;
    fme è il numero di osservazioni nell'intervallo mediano.

    Proprietà della mediana

    1. La mediana non dipende dai valori degli attributi che si trovano su entrambi i lati di essa.
    2. Le operazioni analitiche con la mediana sono molto limitate, per cui quando si combinano due distribuzioni con mediane note, è impossibile prevedere in anticipo il valore della mediana della nuova distribuzione.
    3. La mediana ha proprietà della minimalità. La sua essenza sta nel fatto che la somma delle deviazioni assolute dei valori x dalla mediana è il valore minimo rispetto alla deviazione di X da qualsiasi altro valore

    Definizione grafica di mediana

    Per determinare mediane con il metodo grafico Usano frequenze accumulate da cui viene costruita una curva cumulativa. I vertici delle ordinate corrispondenti alle frequenze accumulate sono collegati da segmenti rettilinei. Dividendo a metà l'ultima ordinata, che corrisponde alla somma totale delle frequenze, e tracciando un'intersezione perpendicolare con la curva cumulativa ad essa, si trova l'ordinata del valore mediano desiderato.

    Definizione di moda in statistica

    Moda: il valore dell'attributo, che ha la frequenza più alta nelle serie di distribuzione statistica.

    Definizione di moda viene prodotto in modi diversi, e ciò dipende dal fatto che la caratteristica variabile sia presentata sotto forma di serie discreta o intervallata.

    Trovare la moda e la mediana viene calcolata semplicemente osservando la colonna della frequenza. In questa colonna, trova il numero più grande che caratterizza la frequenza più alta. Corrisponde a un certo valore dell'attributo, che è la modalità. In una serie di variazioni di intervallo, la modalità è approssimativamente considerata la variante centrale dell'intervallo con la frequenza più alta. In una tale serie di distribuzione la modalità è calcolata dalla formula:

    dove XMo è il limite inferiore dell'intervallo modale;
    imo - intervallo modale;
    fì0, fì0-1, fì0+1 - frequenze negli intervalli modali, precedente e successivo.

    L'intervallo modale è determinato dalla frequenza più alta.

    La moda è ampiamente utilizzata nella pratica statistica quando si analizza la domanda dei consumatori, si registrano i prezzi, ecc.

    Relazioni tra media aritmetica, mediana e moda

    Per una serie simmetrica unimodale, le distribuzioni, la mediana e la moda coincidono. Per le distribuzioni asimmetriche non sono la stessa cosa.

    K. Pearson, basandosi sull'allineamento di vari tipi di curve, determinò che per distribuzioni moderatamente asimmetriche valgono le seguenti relazioni approssimative tra media aritmetica, mediana e moda: