Медиана. Подробна теория с примери. Медианата на набор от числа е Как да намерим най-голямата медиана на триъгълник

Централната тенденция на данните може да се разглежда не само като стойност с нулево общо отклонение (средно аритметично) или максимална честота (режим), но и като някаква маркировка (обща стойност), разделяща класираните данни (сортирани във възходящ или низходящ ред) на две равни части. Половината от оригиналните данни са по-малко от този знак, а половината са повече. Това е, което е Медиана.

И така, медианата в статистиката е нивото на индикатора, което разделя набора от данни на две равни половини. Стойностите в едната половина са по-малки от медианата, а другата половина са по-големи от медианата. Като пример, нека разгледаме набор от произволни числа.

Очевидно при симетрично разпределение средата, разделяща съвкупността наполовина, ще бъде разположена в самия център - на същото място като средното аритметично (и режим). Това е, така да се каже, идеална ситуация, когато модата, медианата и средната аритметична съвпадат и всичките им свойства попадат в една точка - максимална честота, разполовяване, нулева сума на отклоненията - всичко на едно място. Животът обаче не е толкова симетричен като нормалното разпределение.

Да кажем, че имаме работа с технически измервания на отклонения от очакваната стойност на нещо (съдържание на елементи, разстояние, ниво, маса и т.н. и т.н.). Ако всичко е наред, тогава отклоненията най-вероятно ще бъдат разпределени по закон, близък до нормалния, приблизително както на фигурата по-горе. Но ако има важен и неконтролируем фактор в процеса, тогава могат да се появят аномални стойности, които значително ще повлияят на средното аритметично, но едва ли ще повлияят на медианата.

Извадковата медиана е алтернатива на средноаритметичната, т.к той е устойчив на необичайни отклонения (отклонения).

Математически свойство на медианатае, че сборът от абсолютните (по модул) отклонения от средната стойност дава минималната възможна стойност в сравнение с отклоненията от всяка друга стойност. Дори по-малко от средното аритметично, о, как! Този факт намира своето приложение, например, при решаване на транспортни проблеми, когато е необходимо да се изчисли строителната площадка на обекти в близост до пътя по такъв начин, че общата дължина на полетите до него от различни места да е минимална (спирки, бензиностанции , складове и т.н., и т.н.).

Формула за медиана в статистиката за отделенданни донякъде напомня на модна формула. А именно, защото няма формула като такава. Средната стойност се избира от наличните данни и само ако това не е възможно, се извършва просто изчисление.

Първо, данните се класират (сортират се в низходящ ред). След това има две опции. Ако броят на стойностите е нечетен, тогава медианата ще съответства на централната стойност на серията, чийто брой може да се определи по формулата:

Не, аз– номер на стойността, съответстваща на медианата,

н– броя на стойностите в набора от данни.

Тогава медианата се означава като

Това е първата опция, когато има една централна стойност в данните. Вторият вариант възниква, когато броят на данните е четен, т.е. вместо една има две централни стойности. Решението е просто: вземете средноаритметичната стойност на двете централни стойности:

IN интервални данниНе е възможно да изберете конкретна стойност. Медианата се изчислява по определено правило.

Като начало (след класиране на данните), намерете среден интервал. Това е интервалът, през който преминава желаната средна стойност. Определя се с помощта на натрупания дял от класираните интервали. Когато натрупаният дял първо надхвърли 50% от всички стойности, има среден интервал.

Не знам кой излезе с формулата за медианата, но те очевидно изхождаха от предположението, че разпределението на данните в рамките на медианния интервал е равномерно (т.е. 30% от ширината на интервала е 30% от стойностите, 80% от ширината е 80% от стойностите и т.н.) . От тук, знаейки броя на стойностите от началото на средния интервал до 50% от всички стойности в популацията (разликата между половината от броя на всички стойности и натрупаната честота на предмедианния интервал ), можете да намерите какъв дял заемат в целия среден интервал. Този дял се прехвърля точно към ширината на средния интервал, като се посочва конкретна стойност, впоследствие наречена медиана.

Нека да разгледаме визуалната диаграма.

Оказа се малко тромаво, но сега, надявам се, всичко е ясно и разбираемо. За да избегнете рисуването на такава графика всеки път, когато изчислявате, можете да използвате готова формула. Формулата на медианата е следната:

Където x Аз- долна граница на медианния интервал;

аз- ширина на медианния интервал;

∑f/2- броят на всички стойности, разделен на 2 (две);

S(Me-1)- общият брой наблюдения, натрупани преди началото на средния интервал, т.е. акумулирана честота на премедианния интервал;

fMe- брой наблюдения в медианния интервал.

Както е лесно да се види, формулата на медианата се състои от два члена: 1 – стойността на началото на медианния интервал и 2 – самата част, която е пропорционална на липсващия натрупан дял до 50%.

Например, нека изчислим медианата, като използваме следните данни.

Трябва да намерите средната цена, тоест цената, която е по-евтина и по-скъпа от половината количество стоки. Като начало ще направим спомагателни изчисления на натрупаната честота, натрупания дял и общия брой стоки.

Използвайки последната колона „Натрупан дял“, определяме средния интервал - 300-400 рубли (натрупаният дял е повече от 50% за първи път). Ширина на интервала - 100 rub. Сега всичко, което остава, е да заменим данните в горната формула и да изчислим медианата.

Тоест едната половина от стоките има цена под 350 рубли, а другата половина има по-висока цена. Просто е. Средната аритметична стойност, изчислена с помощта на същите данни, е равна на 355 рубли. Разликата не е съществена, но я има.

Изчислете медианата в Excel

Лесно е да се намери медианата за числови данни с помощта на функция на Excel, наречена - МЕДИАНА. Интервалните данни са друг въпрос. В Excel няма съответна функция. Следователно трябва да използвате горната формула. Какво можеш да направиш? Но това не е много трагично, тъй като изчисляването на медианата от интервални данни е рядък случай. Можете да направите сметката веднъж на калкулатор.

И накрая предлагам проблем. Има набор от данни. 15, 5, 20, 5, 10. Каква е средната стойност? Четири опции:

Режимът, медианата и средната стойност на извадката са различни начини за определяне на централната тенденция в извадка.

  • В допълнение към средните мощности в статистиката, за относителното характеризиране на стойността на варираща характеристика и вътрешната структура на сериите на разпределение се използват структурни средни стойности, които са представени главно от мода и медиана.

    Мода- Това е най-разпространеният вариант на сериала. Модата се използва например при определяне на размера на дрехите и обувките, които са най-търсени сред клиентите. Режимът за дискретна серия е този с най-висока честота. Когато изчислявате режима за серия от интервални вариации, първо трябва да определите модалния интервал (въз основа на максималната честота), а след това стойността на модалната стойност на атрибута, като използвате формулата:

    Медиана -това е стойността на атрибута, който е в основата на класираната серия и разделя тази серия на две равни части.

    За определяне на медианата в дискретна серияако има налични честоти, първо изчислете полусумата на честотите и след това определете коя стойност на варианта попада върху нея. (Ако сортираната серия съдържа нечетен брой характеристики, тогава средното число се изчислява по формулата:

    M e = (n (общ брой функции) + 1)/2,

    в случай на четен брой характеристики, медианата ще бъде равна на средната стойност на двете характеристики в средата на реда).

    При изчисляване на медианата за интервални вариационни серииПърво определете средния интервал, в който се намира медианата, и след това определете стойността на медианата, като използвате формулата:

    Пример. Намерете модата и медианата.

    Решение:
    В този пример модалният интервал е във възрастовата група 25-30 години, тъй като този интервал е с най-висока честота (1054).

    Нека изчислим величината на модата:

    Това означава, че модалната възраст на студентите е 27 години.

    Нека изчислим медианата. Медианният интервал е във възрастовата група 25-30 години, тъй като в рамките на този интервал има опция, която разделя населението на две равни части (Σf i /2 = 3462/2 = 1731). След това заместваме необходимите числени данни във формулата и получаваме средната стойност:

    Това означава, че половината от студентите са на възраст под 27,4 години, а другата половина са над 27,4 години.

    В допълнение към режима и медианата могат да се използват индикатори като квартили, разделящи класираната серия на 4 равни части, децили -10 части и перцентили - на 100 части.

    Режим и медиана– специален вид средни, които се използват за изследване на структурата на вариационните серии. Те понякога се наричат ​​структурни средни, за разлика от обсъдените по-рано средни мощности.

    Мода– това е стойността на признак (вариант), който най-често се среща в дадена популация, т.е. има най-висока честота.

    Модата има голямо практическо приложение и в някои случаи само модата може да характеризира социалните явления.

    Медиана- това е вариант, който е в средата на подредена вариационна серия.

    Медианата показва количествената граница на стойността на варираща характеристика, която е достигната от половината единици в популацията. Използването на медианата заедно със средната стойност или вместо нея е препоръчително, ако има отворени интервали във вариационната серия, т.к. за изчисляване на медианата не се изисква условно установяване на границите на отворените интервали и следователно липсата на информация за тях не влияе върху точността на изчисляването на медианата.

    Медианата се използва и когато индикаторите, които ще се използват като тегла, са неизвестни. Медианата се използва вместо средноаритметичната стойност в статистическите методи за контрол на качеството на продукта. Сумата от абсолютните отклонения на опциите от медианата е по-малка, отколкото от всяко друго число.

    Нека разгледаме изчисляването на модата и медианата в серия от дискретни вариации :

    Определете модата и медианата.

    Мода Mo = 4 години, тъй като тази стойност съответства на най-високата честота f = 5.

    Тези. най-много работници са с 4 години стаж.

    За да изчислим медианата, първо намираме половината от сумата на честотите. Ако сумата от честотите е нечетно число, тогава първо добавяме единица към тази сума и след това разделяме наполовина:

    Медианата ще бъде осмият вариант.

    За да разберем коя опция ще бъде осмата по номер, ще трупаме честоти, докато получим сбор от честоти, равен или по-голям от половината от сбора на всички честоти. Съответната опция ще бъде медианата.

    мех = 4 години.

    Тези. половината от работниците имат по-малко от четири години опит, половината повече.

    Ако сумата от натрупаните честоти срещу една опция е равна на половината от сумата от честотите, тогава медианата се определя като средноаритметично на тази опция и следващата.

    Изчисляване на мода и медиана в интервални вариационни серии

    Модата в интервалната вариационна серия се изчислява по формулата

    Където х M0- начална граница на модалния интервал,

    чм 0 – стойността на модалния интервал,

    fм 0 , fм 0-1 , fм 0+1 – честота на модалния интервал, съответно предхождащ и следващ модалния интервал.

    МодаленИзвиква се интервалът, на който съответства най-високата честота.

    Пример 1

    Групи по опит

    Брой работници, хора

    Натрупани честоти

    Определете модата и медианата.

    Модален интервал, т.к съответства на най-високата честота f = 35. Тогава:

    хм 0 =6, 0 =35

    чм 0 =2, 0-1 =20

    0+1 =11

    Извод: Най-голям брой работници са с приблизително 6,7 години стаж.

    За интервална серия Me се изчислява по следната формула:

    Където хм д– долна граница на медиалния интервал,

    хмм д– размера на медиалния интервал,

    – половината от сумата на честотите,

    д– честота на средния интервал,

    См д-1– сумата от натрупаните честоти на интервала, предхождащ медианата.

    Медианен интервал е интервал, който съответства на кумулативна честота, равна или по-голяма от половината от сбора на честотите.

    Нека определим медианата за нашия пример.

    тъй като 82>50, тогава средният интервал е .

    хм д =6, д =35,

    хмм д =2, См д-1 =47,

    Извод: Половината от работниците имат стаж под 6,16 години, а половината имат стаж над 6,16 години.

    Кратка теория

    Най-широко използваните в статистиката са структурните средни, които включват режим и медиана (непараметрични средни).

    Мода- стойността на характеристика (вариант), която се среща в серията на разпределение с най-висока честота (тегло). Мода (Mo) се използва за идентифициране на стойността на характеристика, която е най-широко разпространена (цената на пазара, на която са направени най-голям брой продажби на даден продукт, броят обувки, който е в най-голямо търсене сред купувачите и др. .). Режимът се използва само при големи популации. В дискретна серия режимът се намира като вариант, който има най-висока честота. В интервалната серия първо има модален интервал, т.е. интервалът с най-висока честота, а след това - приблизителната стойност на модалната стойност на атрибута по формулата:

    – долна граница на модалния интервал

    - стойността на модалния интервал

    – честота на интервала, предхождащ модала

    – модална интервална честота

    – честота на интервала след модала

    Квантили- величини, които разделят множество на определен брой равни части елементи. Най-известният квантил е медианата, която разделя населението на две равни части. В допълнение към медианата често се използват квартили, разделящи класираната серия на 4 равни части, децили - на 10 части, и персентили - на 100 части.

    Медиана- стойността на атрибута за единица, разположена в средата на класираната (подредена) серия. Ако серия на разпределение е представена от специфични стойности на характеристика, тогава медианата (Me) се намира като средна стойност на характеристиката.

    Ако серията на разпределение е дискретна, тогава медианата се намира като средна стойност на атрибута (например, ако броят на стойностите е нечетен - 45, тогава той съответства на 23-та стойност на атрибута в поредица от стойности подредени във възходящ ред, ако броят на стойностите е четен - 44, тогава медианата съответства на половината от сумата от 22 и 23 характерни стойности).

    Ако серията на разпределение е интервална, тогава първоначално намерете средния интервал, който съдържа единица, разположена в средата на класираната серия. За да се определи този интервал, сумата от честотите се разделя наполовина и въз основа на последователното натрупване (сумиране) на интервалните честоти, като се започне от първата, се намира интервалът, в който се намира медианата. Средната стойност в интервална серия се изчислява по формулата:

    - долна граница на медианния интервал

    - стойността на средния интервал

    Сума от честотни серии

    – сумата от натрупаните честоти в интервалите, предхождащи медианата

    – честота на медианния интервал

    Квартили- това са стойностите на характеристиката в класираната серия, избрани по такъв начин, че 25% от единиците в съвкупността ще бъдат по-малки от стойността, 25% от единиците ще бъдат между и; 25% са между и , останалите 25% надвишават . Квартилите се определят с помощта на формули, подобни на формулата за изчисляване на медианата. За интервална серия:

    Дециле структурна променлива, която разделя разпределението на 10 равни части според броя на единиците в популацията. Има 9 децила и 10 децила групи Децилите се определят с помощта на формули, подобни на формулата за изчисляване на медианата и квартилите.

    Като цяло общата формула за изчисляване на квантили в интервална серия е следната:

    – пореден номер на квантила

    – квантилно измерение (на колко части разделят населението тези квартили)

    – долна граница на квантилния интервал

    – ширина на квантилния интервал

    Кумулативна честота на преквантилния интервал

    За дискретна серия числото на квантила може да се намери по формулата:

    Пример за решение на проблем

    Условие на задача 1 (серия с дискретно класиране)

    В резултат на изследването е установен средният месечен доход на обитателите на един вход:

    Определете:

    Модален и среден доход, квантили и децили на дохода.

    Решението на проблема

    Вече имаме класирана серия - стойностите на доходите на жителите са разпределени във възходящ ред.

    Мода е най-често срещаното значение. В този случай имаме серия с два режима.

    Медианата е стойността на атрибута, който разделя подредения набор от данни наполовина.

    Квартилите са стойностите на характеристика в класирана серия, избрани по такъв начин, че 25% от единиците в съвкупността ще бъдат по-малки от стойността; 25% от единиците ще се съдържат между и ; 25% - между и ; останалите 25% са по-добри.

    Dicili разделя реда на 10 равни части:

    Ако не се нуждаете от помощ сега, но може да се нуждаете от нея в бъдеще, тогава, за да не загубите връзка, присъединете се към VK групата.

    Проблемно условие 2 (интервални серии)

    За да се определи средният размер на депозита в кредитна институция, бяха получени следните данни:

    Изчисляване на структурни средни (мода, медиана, квартили).

    Решението на проблема

    Нека изчислим режима на размера на вноската:

    Режимът е опцията, която съответства на най-високата честота.

    Режимът се изчислява по формулата:

    Начало на модалния интервал

    Размер на интервала

    Модална интервална честота

    Честота на интервала, предхождащ модала

    Честота на интервала след модала

    Така най-голям брой депозити са в размер на 30,7 хиляди рубли.

    Медиана е опция, разположена в средата на серията на разпределение.

    Медианата се изчислява по формулата:

    Начало (долна граница) на средния интервал

    Размер на интервала

    Сума от всички честоти на серията

    Средна интервална честота

    Сума от натрупаните честоти на варианти спрямо медианата

    Така половината от депозитите са до 28 хиляди рубли, другата половина са над 28 хиляди рубли.

    Нека изчислим квантилите:

    Така 25% от депозитите са под 20,8 хиляди рубли, 25% от депозитите са в диапазона от 20,8 хиляди рубли. до 28 хиляди рубли, 25% са в диапазона от 28 хиляди рубли. до 33 хиляди рубли, с 25% повече от стойността от 33 хиляди рубли.

    Условие на проблема 3

    Постройте графики за вариационните серии. Покажете режима, медианата, средната стойност и квартилите на графиката.

    Решение на проблем 3

    Нека изчислим средната стойност: За да направите това, сумирайте продуктите от средните точки на интервалите и съответните честоти и разделете получената сума на сумата от честотите.

    Медиана- това е стойността на атрибута, който разделя класираната серия от разпределението на две равни части - със стойности на атрибута по-малки от медианата и със стойности на атрибута по-големи от медианата. За да намерите медианата, трябва да намерите стойността на атрибута, който е в средата на подредената серия.

    Вижте решението на задачата за намиране на модата и медианатаМожеш

    В класирани серии, негрупирани данни за намиране на медианатасе свеждат до търсене на поредния номер на медианата. Медианата може да се изчисли по следната формула:

    където Xm е долната граница на средния интервал;
    im - среден интервал;
    Sme е сумата от наблюденията, натрупани преди началото на средния интервал;
    fme е броят на наблюденията в средния интервал.

    Свойства на медианата

    1. Медианата не зависи от стойностите на атрибутите, които са разположени от двете й страни.
    2. Аналитичните операции с медианата са много ограничени, така че при комбиниране на две разпределения с известни медиани е невъзможно да се предвиди предварително стойността на медианата на новото разпределение.
    3. Медианата имасвойство на минималност. Същността му се състои в това, че сумата от абсолютните отклонения на стойностите на x от медианата е минималната стойност в сравнение с отклонението на X от всяка друга стойност

    Графично определение на медианата

    За определяне медиани по графичен методТе използват натрупани честоти, от които се изгражда кумулативна крива. Върховете на ординатите, съответстващи на натрупаните честоти, са свързани с прави сегменти. Чрез разделяне на последната ордината наполовина, което съответства на общата сума на честотите, и начертаване на перпендикулярно пресичане с кумулативната крива към нея, се намира ординатата на желаната средна стойност.

    Определение за мода в статистиката

    Мода - стойността на атрибута, която има най-висока честота в сериите на статистическото разпределение.

    Определение за модасе произвежда по различни начини и това зависи от това дали вариращата характеристика е представена под формата на дискретна или интервална серия.

    Намиране на модаи медианата се прави чрез просто разглеждане на колоната за честота. В тази колона намерете най-голямото число, характеризиращо най-високата честота. Съответства на определена стойност на атрибута, който е режимът. В серия от интервални вариации режимът приблизително се счита за централен вариант на интервала с най-висока честота. В такава серия за разпространение режимът се изчислява по формулата:

    където XMo е долната граница на модалния интервал;
    imo - модален интервал;
    fм0, fм0-1, fм0+1 - честоти в модалните, предходните и следващите модални интервали.

    Модалният интервал се определя от най-високата честота.

    Модата се използва широко в статистическата практика при анализиране на потребителското търсене, регистриране на цените и др.

    Връзки между средно аритметично, медиана и мода

    За унимодален симетричен ред разпределенията , медианата и модата съвпадат. За асиметричните разпределения те не са еднакви.

    К. Пиърсън, въз основа на подравняването на различни видове криви, установи, че за умерено асиметрични разпределения са валидни следните приблизителни връзки между средноаритметичната стойност, медианата и модата: