Медиана. Подробная теория с примерами. Медиана набора чисел это Как найти наибольшую медиану треугольника

Центральную тенденцию данных можно рассматривать не только, как значение с нулевым суммарным отклонением (среднее арифметическое) или максимальную частоту (мода), но и как некоторую отметку (значение в совокупности), делящую ранжированные данные (отсортированные по возрастанию или убыванию) на две равные части. Половина исходных данных меньше этой отметки, а половина – больше. Это и есть медиана .

Итак, медиана в статистике – это уровень показателя, который делит набор данных на две равные половины. Значения в одной половине меньше, а в другой больше медианы. В качестве примера обратимся к набору случайных чисел.

Очевидно, что при симметричном распределении середина, делящая совокупность пополам, будет находиться в самом центре – там же, где средняя арифметическая (и мода). Это, так сказать, идеальная ситуация, когда мода, медиана и средняя арифметическая совпадают и все их свойства приходятся на одну точку – максимальная частота, деление пополам, нулевая сумма отклонений – все в одном месте. Однако, жизнь не так симметрична, как нормальное распределение.

Допустим, мы имеем дело с техническими замерами отклонений от ожидаемой величины чего-нибудь (содержания элементов, расстояния, уровня, массы и т.д. и т.п.). Если все ОК, то отклонения, скорее всего, будут распределены по закону, близкому к нормальному, примерно, как на рисунке выше. Но если в процессе присутствует важный и неконтролируемый фактор, то могут появиться аномальные значения, которые в значительной мере повлияют на среднюю арифметическую, но при этом почти не затронут медиану.

Медиана выборки – это альтернатива средней арифметической, т.к. она устойчива к аномальным отклонениям (выбросам).

Математическим свойством медианы является то, что сумма абсолютных (по модулю) отклонений от медианного значения дает минимально возможное значение, если сравнивать с отклонениями от любой другой величины. Даже меньше, чем от средней арифметической, о как! Данный факт находит свое применение, например, при решении транспортных задач, когда нужно рассчитать место строительства объектов около дороги таким образом, чтобы суммарная длина рейсов до него из разных мест была минимальной (остановки, заправки, склады и т.д. и т.п.).

Формула медианы в статистике для дискретных данных чем-то напоминает формулу моды. А именно тем, что формулы как таковой нет. Медианное значение выбирают из имеющихся данных и только, если это невозможно, проводят несложный расчет.

Первым делом данные ранжируют (сортируют по убыванию). Далее есть два варианта. Если количество значений нечетно, то медиана будет соответствовать центральному значению ряда, номер которого можно определить по формуле:

№ Me – номер значения, соответствующего медиане,

N – количество значений в совокупности данных.

Тогда медиана обозначается, как

Это первый вариант, когда в данных есть одно центральное значение. Второй вариант наступает тогда, когда количество данных четно, то есть вместо одного есть два центральных значения. Выход прост: берется средняя арифметическая из двух центральных значений:

В интервальных данных выбрать конкретное значение не представляется возможным. Медиану рассчитывают по определенному правилу.

Для начала (после ранжирования данных) находят медианный интервал . Это такой интервал, через который проходит искомое медианное значение. Определяется с помощью накопленной доли ранжированных интервалов. Где накопленная доля впервые перевалила через 50% всех значений, там и медианный интервал.

Не знаю, кто придумал формулу медианы, но исходили явно из того предположения, что распределение данных внутри медианного интервала равномерное (т.е. 30% ширины интервала – это 30% значений, 80% ширины – 80% значений и т.д.). Отсюда, зная количество значений от начала медианного интервала до 50% всех значений совокупности (разница между половиной количества всех значений и накопленной частотой предмедианного интервала), можно найти, какую долю они занимают во всем медианном интервале. Вот эта доля аккурат переносится на ширину медианного интервала, указывая на конкретное значение, именуемое впоследствии медианой.

Обратимся к наглядной схеме.

Немного громоздко получилось, но теперь, надеюсь, все наглядно и понятно. Чтобы при расчете каждый раз не рисовать такой график, можно воспользоваться готовой формулой. Формула медианы имеет следующий вид:

где x Me - нижняя граница медианного интервала;

i Me - ширина медианного интервала;

∑f/2 - количество всех значений, деленное на 2 (два);

S (Me-1) - суммарное количество наблюдений, которое было накоплено до начала медианного интервала, т.е. накопленная частота предмедианного интервала;

f Me - число наблюдений в медианном интервале.

Как нетрудно заметить, формула медианы состоит из двух слагаемых: 1 – значение начала медианного интервала и 2 – та самая часть, которая пропорциональна недостающей накопленной доли до 50%.

Для примера рассчитаем медиану по следующим данным.

Требуется найти медианную цену, то есть ту цену, дешевле и дороже которой по половине количества товаров. Для начала произведем вспомогательные расчеты накопленной частоты, накопленной доли, общего количества товаров.

По последней колонке «Накопленная доля» определяем медианный интервал – 300-400 руб (накопленная доля впервые более 50%). Ширина интервала – 100 руб. Теперь остается подставить данные в приведенную выше формулу и рассчитать медиану.

То есть у одной половины товаров цена ниже, чем 350 руб., у другой половины – выше. Все просто. Средняя арифметическая, рассчитанная по этим же данным, равна 355 руб. Отличие не значительное, но оно есть.

Расчет медианы в Excel

Медиану для числовых данных легко найти, используя функцию Excel, которая так и называется — МЕДИАНА . Другое дело интервальные данные. Соответствующей функции в Excel нет. Поэтому нужно задействовать приведенную выше формулу. Что поделаешь? Но это не очень трагично, так как расчет медианы по интервальным данным – редкий случай. Можно и на калькуляторе разок посчитать.

Напоследок предлагаю задачку. Имеется набор данных. 15, 5, 20, 5, 10. Каково среднее значение? Четыре варианта:

Мода, медиана и среднее значение выборки – это разный способ определить центральную тенденцию в выборке.

  • Кроме степенных средних в статистике для относительной характеристики величины варьирующего признака и внутреннего строения рядов распределения пользуются структурными средними, которые представлены,в основном, модой и медианой .

    Мода — это наиболее часто встречающийся вариант ряда. Мода применяется, например, при определении размера одежды, обуви, пользующейся наибольшим спросом у покупателей. Модой для дискретного ряда является варианта, обладающая наибольшей частотой. При вычислении моды для интервального вариационного ряда необходимо сначала определить модальный интервал (по максимальной частоте), а затем — значение модальной величины признака по формуле:

    Медиана - это значение признака, которое лежит в основе ранжированного ряда и делит этот ряд на две равные по численности части.

    Для определения медианы в дискретном ряду при наличии частот сначала вычисляют полусумму частот , а затем определяют, какое значение варианта приходится на нее. (Если отсортированный ряд содержит нечетное число признаков, то номер медианы вычисляют по формуле:

    М е = (n (число признаков в совокупности) + 1)/2,

    в случае четного числа признаков медиана будет равна средней из двух признаков находящихся в середине ряда).

    При вычислении медианы для интервального вариационного ряда сначала определяют медианный интервал, в пределах которого находится медиана, а затем — значение медианы по формуле:

    Пример . Найти моду и медиану.

    Решение :
    В данном примере модальный интервал находится в пределах возрастной группы 25-30 лет, так как на этот интервал приходится наибольшая частота (1054).

    Рассчитаем величину моды:

    Это значит что модальный возраст студентов равен 27 годам.

    Вычислим медиану. Медианный интервал находится в возрастной группе 25-30 лет, так как в пределах этого интервала расположена варианта, которая делит совокупность на две равные части (Σf i /2 = 3462/2 = 1731). Далее подставляем в формулу необходимые числовые данные и получаем значение медианы:

    Это значит что одна половина студентов имеет возраст до 27,4 года, а другая свыше 27,4 года.

    Кроме моды и медианы могут быть использованы такие показатели, как квартили, делящие ранжированный ряд на 4 равные части, децили -10 частей и перцентили — на 100 частей.

    Мода и медиана – особого рода средние, которые используются для изучения структуры вариационного ряда. Их иногда называют структурными средними, в отличие от рассмотренных ранее степенных средних.

    Мода – это величина признака (варианта), которая чаще всего встречается в данной совокупности, т.е. имеет наибольшую частоту.

    Мода имеет большое практическое применение и в ряде случаев только мода может дать характеристику общественных явлений.

    Медиана – это варианта, которая находится в середине упорядоченного вариационного ряда.

    Медиана показывает количественную границу значения варьирующего признака, которой достигла половина единиц совокупности. Применение медианы наряду со средней или вместо нее целесообразно при наличии в вариационном ряду открытых интервалов, т.к. для вычисления медианы не требуется условное установление границ отрытых интервалов, и поэтому отсутствие сведений о них не влияет на точность вычисления медианы.

    Медиану применяют также тогда, когда показатели, которые нужно использовать в качестве весов, неизвестны. Медиану применяют вместо средней арифметической при статистических методах контроля качества продукции. Сумма абсолютных отклонений варианты от медианы меньше, чем от любого другого числа.

    Рассмотрим расчет моды и медианы в дискретном вариационном ряду:

    Определить моду и медиану.

    Мода Мо = 4 года, так как этому значению соответствует наибольшая частота f = 5.

    Т.е. наибольшее число рабочих имеют стаж 4 года.

    Для того, чтобы вычислить медиану, найдем предварительно половину суммы частот. Если сумма частот является числом нечетным, то мы сначала прибавляем к этой сумме единицу, а затем делим пополам:

    Медианой будет восьмая по счету варианта.

    Для того, чтобы найти, какая варианта будет восьмой по номеру, будем накапливать частоты до тех пор, пока не получим сумму частот, равную или превышающую половину суммы всех частот. Соответствующая варианта и будет медианой.

    Ме = 4 года.

    Т.е. половина рабочих имеет стаж меньше четырех лет, половина больше.

    Если сумма накопленных частот против одной варианты равна половине сумме частот, то медиана определяется как средняя арифметическая этой варианты и последующей.

    Вычисление моды и медианы в интервальном вариационном ряду

    Мода в интервальном вариационном ряду вычисляется по формуле

    где Х М0 - начальная граница модального интервала,

    h м 0 – величина модального интервала,

    f м 0 , f м 0-1 , f м 0+1 – частота соответственно модального интервала, предшествующего модальному и последующего.

    Модальным называется такой интервал, которому соответствует наибольшая частота.

    Пример 1

    Группы по стажу

    Число рабочих, чел

    Накопленные частоты

    Определить моду и медиану.

    Модальный интервал , т.к. ему соответствует наибольшая частота f = 35. Тогда:

    Хм 0 =6, 0 =35

    h м 0 =2, 0-1 =20

    0+1 =11

    Вывод: Наибольшее число рабочих имеет стаж примерно 6,7 лет.

    Для интервального ряда Ме вычисляется по следующей формуле:

    где Хм е – нижняя граница медиального интервала,

    е – величина медиального интервала,

    – половина суммы частот,

    е – частота медианного интервала,

    е-1 –сумма накопленных частот интервала, предшествующего медианному.

    Медианный интервал – такой интервал, которому соответствует кумулятивная частота, равная или превышающая половину суммы частот.

    Определим медиану для нашего примера.

    т.к 82>50, то медианный интервал .

    Хм е =6, е =35,

    е =2, е-1 =47,

    Вывод: Половина рабочих имеет стаж меньше 6,16 лет, а половина имеет стаж больше, чем 6,16 лет.

    Краткая теория

    Наиболее широкое применение в статистике имеют структурные средние, к числу которых относятся мода и медиана (непараметрические средние).

    Мода - величина признака (варианта), которая встречается в ряду распределения с наибольшей частотой (весом). К моде (Мо) прибегают для выявления величины признака, имеющей наибольшее распространение (цена на рынке, по которой было совершено наибольшее число продаж данного товара, номер обуви, который пользуется наибольшим спросом у покупателей и т. д.). Мода используется только в совокупностях большой численности. В дискретном ряду мода находится как варианта, имеющая наибольшую частоту. В интервальном ряду сначала находится модальный интервал, то есть интервал, обладающий наибольшей частотой, а затем – приближенное значение модальной величины признака по формуле:

    – нижняя граница модального интервала

    - величина модального интервала

    – частота интервала, предшествующего модальному

    – частота модального интервала

    – частота интервала, следующего за модальным

    Квантили - величины, разделяющие совокупность на определенной количество равных по численности элементов частей. Самый известный квантиль – медиана, делящая совокупность на две равные части. Кроме медианы часто используются квартили, делящие ранжированный ряд на 4 равные части, децили -10 частей и перцентили - на 100 частей.

    Медиана - величина признака у единицы, находящейся в середине ранжированного (упорядоченного) ряда. Если ряд распределения представлен конкретными значениями признака, то медиана (Me) находится как серединное значение признака.

    Если ряд распределения дискретный, то медиана находится как серединное значение признака (например, если число значений нечетное – 45, то соответствует 23 значению признака в ряду значений, расположенных в порядке возрастания, если число значений четное – 44, то медиана соответствует полусумме 22 и 23 значений признака).

    Если ряд распределения интервальный, то первоначально находят медианный интервал, который содержит единицу, находящуюся в середине ранжированного ряда. Для определения этого интервала сумму частот делят пополам и на основании последовательного накопления (суммирования) частот интервалов, начиная с первого, находят интервал, где расположена медиана. Значение медианы в интервальном ряду вычисляют по формуле:

    - нижняя граница медианного интервала

    - величина медианного интервала

    Сумма частот ряда

    – сумма накопленных частот в интервалах, предшествующих медианному

    – частота медианного интервала

    Квартили - это значения признака в ранжированном ряду, выбранные таким образом, что 25% единиц совокупности будут меньше величины , 25% единиц будут заключены между и ; 25% - между и , остальные 25% превосходят . Квартили определяются по формулам, аналогичным формуле для расчета медианы. Для интервального ряда:

    Децилем называется структурная переменная, делящая распределение на 10 равных частей по числу единиц в совокупности. Децилей 9, а децильных групп 10. Децили определяются по формулам, аналогичным формуле для расчета медианы и квартилей.

    В целом общая формула для расчета квантилей в интервальном ряду такова:

    – порядковый номер квантиля

    – размерность квантиля (на сколько частей эти квартили делят совокупность)

    – нижняя граница квантильного интервала

    – ширина квантильного интервала

    Накопленная частота предквантильного интервала

    Для дискретного ряда номер квантиля можно найти по формуле:

    Пример решения задачи

    Условие задачи 1 (дискретный ранжированный ряд)

    В результате исследований установлен среднемесячный доход жильцов одного подъезда:

    Определите:

    Модальный и медианный доход, квантили и децили дохода.

    Решение задачи

    Имеем уже ранжированный ряд - значения дохода жильцов распределены по возрастанию.

    Мода - наиболее часто встречающееся значение. В данном случае имеем ряд с двумя модами.

    Медиана - такое значение признака, которое делит упорядоченное множество данных пополам.

    Квартили - значения признака в ранжированном ряду, выбранные таким образом, что 25% единиц совокупности будут меньше величины ; 25% единиц будут заключены между и ; 25% - между и ; остальные 25% превосходят .

    Дицили делят ряд на 10 равных частей:

    Если вам сейчас не требуется помощь, но может потребоваться в дальнейшем, то, чтобы не потерять контакт, вступайте в группу ВК .

    Условие задачи 2 (интервальный ряд)

    Для определения среднего размера вклада в кредитном учреждении были получены следующие данные:

    Рассчитайте структурные средние (моду, медиану, квартили).

    Решение задачи

    Вычислим моду размера вклада:

    Мода - варианта, которой соответствует наибольшая частота.

    Мода вычисляется по формуле:

    Начало модального интервала

    Величина интервала

    Частота модального интервала

    Частота интервала, предшествующего модальному

    Частота интервала, следующего за модальным

    Таким образом, наибольшее количество вкладов имеют размер 30,7 тыс.р.

    Медиана - варианта, находящаяся в середине ряда распределения.

    Расчет медианы производится по формуле:

    Начало (нижняя граница) медианного интервала

    Величина интервала

    Сумма всех частот ряда

    Частота медианного интервала

    Сумма накопленных частот вариантов до медианного

    Таким образом, половина вкладов имеет размер до 28 тыс.р., другая половина - более 28 тыс.р.

    Вычислим квантили:

    Таким образом 25% вкладов меньше 20,8 тыс.р., 25% вкладов лежат в интервале от 20,8 тыс.р. до 28 тыс.р., 25% лежат в интервале от 28 тыс.р. до 33 тыс.р., 25% больше величины в 33 тыс.р.

    Условие задачи 3

    Постройте графики для вариационного ряда. На графике покажите моду, медиану, среднюю, квартили.

    Решение задачи 3

    Вычислим среднюю : Для этого просуммируем произведения середин интервалов и соответствующих частот, и полученную сумму разделим на сумму частот.

    Медиана - это такое значение признака, которое разделяет ранжированный ряд распределения на две равные части - со значениями признака меньше медианы и со значениями признака больше медианы. Для нахождения медианы, нужно отыскать значение признака, которое находится на середине упорядоченного ряда.

    Посмотреть решение задачи на нахождение моды и медианы Вы можете

    В ранжированных рядах несгруппированные данные для нахождения медианы сводятся к поиску порядкового номера медианы. Медиана может быть вычислена по следующей формуле:

    где Хm - нижняя граница медианного интервала;
    im - медианный интервал;
    Sme- сумма наблюдений, которая была накоплена до начала медианного интервала;
    fme - число наблюдений в медианном интервале.

    Свойства медианы

    1. Медиана не зависит от тех значений признака, которые расположены по обе стороны от нее.
    2. Аналитические операции с медианой весьма ограничены, поэтому при объединении двух распределений с известными медианами невозможно заранее предсказать величину медианы нового распределения.
    3. Медиана обладает свойством минимальности. Его суть заключается в том, что сумма абсолютных отклонений значений х, от медианы представляет собой минимальную величину по сравнению с отклонением X от любой другой величины

    Графическое определение медианы

    Для определения медианы графическим методом используют накопленные частоты, по которым строится кумулятивная кривая. Вершины ординат, соответствующих накопленным частотам, соединяют отрезками прямой. Разделив поп олам последнюю ординату, которая соответствует общей сумме частот и проведя к ней перпендикуляр пересечения с кумулятивной кривой, находят ординату искомого значения медианы.

    Определение моды в статистике

    Мода - значение признака , имеющее наибольшую частоту в статистическом ряду распределения.

    Определение моды производится разными способами, и это зависит от того, представлен ли варьирующий признак в виде дискретного или интервального ряда.

    Нахождение моды и медианы происходит путем обычного просматривания столбца частот. В этом столбце находят наибольшее число, характеризующее наибольшую частоту. Ей соответствует определенное значение признака, которое и является модой. В интервальном вариационном ряду модой приблизительно считают центральный вариант интервала с наибольшей частотой. В таком ряду распределения мода вычисляется по формуле :

    где ХМо - нижняя граница модального интервала;
    imo - модальный интервал;
    fм0, fм0-1, fм0+1 — частоты в модальном, предыдущем и следующем за модальным интервалах.

    Модальный интервал определяется по наибольшей частоте.

    Мода широко используется в статистической практике при анализе покупательного спроса, регистрации цен и т. д.

    Соотношения между средней арифметической, медианой и модой

    Для одномодального симметричного ряда распределения , медиана и мода совпадают. Для асимметричных распределений они не совпадают.

    К. Пирсон на основе выравнивания различных типов кривых определил, что для умеренно асимметричных распределений справедливы такие приближенные соотношения между средней арифметической, медианой и модой: