中央値。 例を含む詳細な理論。 一連の数値の中央値は、三角形の最大中央値を見つける方法です。

データの中心傾向は、合計偏差がゼロの値(算術平均)や最大頻度(最頻値)だけでなく、ランク付けされたデータ(昇順または降順にソート)を区切る何らかのマーク(集計値)としても考えることができます。 2つの等しい部分。 元のデータの半分はこのマークより小さく、半分はそれより大きくなります。 それはそれです 中央値.

したがって、統計における中央値は、データセットを 2 つの等しい半分に分割する指標のレベルです。 半分の値は中央値より小さく、もう半分の値は中央値より大きくなります。 例として、乱数のセットを見てみましょう。

明らかに、対称分布では、母集団を半分に分ける中央がちょうど中心、つまり算術平均 (および最頻値) と同じ場所に位置します。 これは、モード、中央値、算術平均が一致し、最大周波数、半分、偏差のゼロ和など、すべての特性が 1 つの点に収まる、いわば理想的な状況です。 ただし、人生は正規分布ほど対称ではありません。

何かの期待値 (要素の内容、距離、レベル、質量など) からの偏差の技術的な測定を扱っているとします。 すべてが正常であれば、偏差はほぼ上の図のように、正規に近い法則に従って分布する可能性が高くなります。 しかし、プロセスに重要かつ制御不可能な要因がある場合、算術平均には大きな影響を与えるものの、中央値にはほとんど影響を与えない異常値が現れる可能性があります。

標本中央値は算術平均の代わりとなるものです。 異常な偏差(外れ値)に強いです。

数学的 中央値の性質それは、中央値からの絶対 (モジュロ) 偏差の合計が、他の値からの偏差と比較した場合に可能な最小値を与えるということです。 算術平均よりもさらに小さい、なんと! この事実は、たとえば、輸送問題を解決するとき、さまざまな場所(停留所、ガソリンスタンド)から道路までの飛行距離の合計が最小限になるように道路近くのオブジェクトの建設場所を計算する必要があるときに応用されます。 、倉庫など。)。

統計における中央値の計算式 離散データはファッションの公式を彷彿とさせます。 つまり、公式自体が存在しないからです。 中央値は利用可能なデータから選択され、それが不可能な場合にのみ、単純な計算が実行されます。

まず、データをランク付け(降順にソート)します。 次にオプションが 2 つあります。 値の数が奇数の場合、中央値は系列の中心値に対応し、その数は次の式で決定できます。

いいえ、私です。– 中央値に対応する値の数、

N– データセット内の値の数。

この場合、中央値は次のように表されます。

これは、データ内に中心値が 1 つある場合の最初のオプションです。 2 番目のオプションは、データの数が偶数の場合、つまり、中心値が 1 つではなく 2 つある場合に発生します。 解決策は簡単です。2 つの中心値の算術平均をとります。

インターバルデータ特定の値を選択することはできません。 中央値は一定のルールに従って計算されます。

まず (データのランク付け後)、次のことを見つけます。 中央値間隔。 これは、目的の中央値が通過する間隔です。 ランク付けされた間隔の累積シェアを使用して決定されます。 累積シェアが最初にすべての値の 50% を超えた場所には、中央値の間隔が存在します。

中央値の式を誰が考え出したのかは知りませんが、彼らは明らかに中央値間隔内のデータの分布は均一であるという仮定に基づいて進められています(つまり、間隔幅の 30% は値の 30%、80% は値の 80% です)。幅は値の 80% など) 。 ここから、中央値間隔の開始から母集団内のすべての値の 50% までの値の数 (すべての値の半分の数と中央値以前の間隔の累積頻度の差) がわかります。 )、中央値間隔全体の中でそれらが占める割合を確認できます。 このシェアは中央値間隔の幅に正確に変換され、特定の値を示し、その後中央値と呼ばれます。

視覚的な図を見てみましょう。

少し面倒でしたが、これですべてが明確になり、理解できるようになったと思います。 計算時に毎回このようなグラフを描画することを避けるために、既製の式を使用できます。 中央値の式は次のとおりです。

どこ xMe- 中央間隔の下限。

私は私- 中央値間隔の幅;

∑f/2- すべての値を 2 で割った数 (2);

S(メ-1)- 中央値間隔の開始前に蓄積された観測値の総数、つまり 前中央間隔の累積頻度。

私に- 中央値間隔内の観測値の数。

簡単にわかるように、中央値の式は 2 つの項で構成されています。1 – 中央値間隔の開始値、2 – 最大 50% の欠落している累積シェアに比例する部分です。

たとえば、次のデータを使用して中央値を計算してみましょう。

中央価格、つまり商品の数量の半分より安い価格と高い価格を見つける必要があります。 まず、累積頻度、累積シェア、総商品数の補助計算を行います。

最後の列「累積シェア」を使用して、間隔の中央値 - 300〜400ルーブルを決定します(累積シェアは初めて50%を超えます)。 間隔幅 – 100 回こすります。 あとは上の式にデータを代入して中央値を計算するだけです。

つまり、商品の半分の価格は 350 ルーブルより低く、残りの半分の価格は高くなります。 それは簡単です。 同じデータを使用して計算された算術平均は 355 ルーブルに相当します。 違いは重要ではありませんが、存在します。

Excelで中央値を計算する

Excel の関数 - を使用すると、数値データの中央値を簡単に見つけることができます。 中央値。 間隔データは別の問題です。 Excelには対応する関数がありません。 したがって、上記の式を使用する必要があります。 何ができるでしょうか? ただし、間隔データから中央値を計算することはまれなケースであるため、これはそれほど悲劇的なことではありません。 電卓で一度計算できます。

最後に問題を提案します。 データセットがあります。 15、5、20、5、10。平均はどれくらいですか? 4 つのオプション:

最頻値、中央値、サンプル平均は、サンプルの中心傾向を決定するさまざまな方法です。

  • 統計における検出力平均に加えて、変動する特性の値と分布系列の内部構造を相対的に特徴付けるために、構造平均が使用されます。構造平均は、主に次のように表されます。 ファッションと中央値.

    ファッション- これはシリーズの最も一般的なバリエーションです。 ファッションは、たとえば、購入者の間で最も需要の高い服や靴のサイズを決定する際に使用されます。 離散系列のモードは、最も高い周波数を持つモードです。 間隔変動系列の最頻値を計算するときは、まず最頻値間隔 (最大頻度に基づいて) を決定し、次に次の式を使用して属性の最頻値の値を決定する必要があります。

    中央値 -これは、ランク付けされたシリーズの基礎となる属性の値であり、このシリーズを 2 つの等しい部分に分割します。

    中央値を決定するには 個別シリーズで周波数が利用可能な場合は、最初に周波数の半和を計算し、次にバリアントのどの値がそれに該当するかを決定します。 (並べ替えられた系列に奇数の特徴が含まれている場合、中央値は次の式を使用して計算されます。

    M e = (n (特徴の総数) + 1)/2、

    フィーチャの数が偶数の場合、中央値は行の中央にある 2 つのフィーチャの平均と等しくなります)。

    中央値を計算するとき インターバルバリエーションシリーズ用まず、中央値が位置する中央値の間隔を決定し、次の式を使用して中央値の値を決定します。

    。 最頻値と中央値を求めます。

    解決:
    この例では、この間隔の頻度が最も高い (1054) ため、モーダル間隔は 25 ~ 30 歳の年齢グループ内にあります。

    モードの大きさを計算してみましょう。

    これは、学生の最盛期年齢が 27 歳であることを意味します。

    中央値を計算してみましょう。 この間隔内には人口を 2 つの等しい部分に分割するオプションがあるため (Σf i /2 = 3462/2 = 1731)、間隔の中央値は 25 ~ 30 歳の年齢グループになります。 次に、必要な数値データを式に代入して中央値を取得します。

    これは、学生の半数が 27.4 歳未満、残りの半数が 27.4 歳以上であることを意味します。

    最頻値と中央値に加えて、四分位数などの指標を使用して、ランク付けされた系列を 4 つの等しい部分、十分位数 - 10 部分、百分位数 - 100 部分に分割することができます。

    最頻値と中央値– 変動系列の構造を研究するために使用される特別な種類の平均。 これらは、前述のパワー平均とは対照的に、構造平均と呼ばれることもあります。

    ファッション– これは、特定の母集団で最も頻繁に見られる特性 (バリアント) の値です。 最も高い頻度を持っています。

    ファッションには実用性が高く、場合によってはファッションだけが社会現象を特徴づけることができます。

    中央値- これは、順序付けされたバリエーション シリーズの途中にあるバリエーションです。

    中央値は、母集団内のユニットの半分が到達した、さまざまな特性の値の量的限界を示します。 変動系列に開いた間隔がある場合は、平均値とともに中央値を使用するか、その代わりに中央値を使用することをお勧めします。 中央値を計算するために、開いた区間の境界を条件付きで確立する必要はないため、それらに関する情報が不足していても、中央値の計算の精度には影響しません。

    中央値は、重みとして使用される指標が不明な場合にも使用されます。 中央値は、製品品質管理の統計的手法において算術平均の代わりに使用されます。 中央値からのオプションの絶対偏差の合計は、他の数値よりも小さくなります。

    離散変動系列における最頻値と中央値の計算を考えてみましょう :

    最頻値と中央値を決定します。

    ファッションモー = 4 年。この値は最高周波数 f = 5 に対応するためです。

    それらの。 最も多くの従業員は 4 年の経験を持っています。

    中央値を計算するには、まず頻度の合計の半分を見つけます。 周波数の合計が奇数の場合は、まずこの合計に 1 を加えてから半分に割ります。

    中央値は 8 番目のオプションになります。

    どのオプションが番号で 8 番目になるかを見つけるために、すべての周波数の合計の半分以上の周波数の合計が得られるまで、周波数を累積します。 対応するオプションは中央値になります。

    まあ = 4 年。

    それらの。 従業員の半数は経験が 4 年未満で、残りの半数は経験がありません。

    1 つのオプションに対する累積頻度の合計が頻度の合計の半分に等しい場合、中央値はこのオプションと次のオプションの算術平均として定義されます。

    区間変動系列における最頻値と中央値の計算

    区間変動系列の最頻値は次の式で計算されます。

    どこ バツ M0- モーダル区間の初期境界、

    hメートル 0 – モーダル間隔の値、

    fメートル 0 , fメートル 0-1 , fメートル 0+1 – それぞれ、モーダル区間の前後のモーダル区間の頻度。

    モーダル最も高い周波数が対応する区間を呼びます。

    例1

    経験ごとにグループ分け

    従業員数・人数

    累積周波数

    最頻値と中央値を決定します。

    モーダル間隔。 これは最高周波数 f = 35 に対応します。すると、次のようになります。

    うーん 0 =6, FM 0 =35

    hメートル 0 =2, FM 0-1 =20

    FM 0+1 =11

    結論: 最も多くの従業員の経験は約 6.7 年です。

    間隔系列の場合、Me は次の式を使用して計算されます。

    どこ うーん e– 内側間隔の下端、

    ふーむ e– 内側間隔のサイズ、

    – 周波数の合計の半分、

    FM e– 中央間隔の頻度、

    SM e-1– 中央値に先行する間隔の累積頻度の合計。

    中央間隔は、頻度の合計の半分以上の累積頻度に対応する間隔です。

    この例の中央値を決定してみましょう。

    82>50 であるため、間隔の中央値は です。

    うーん e =6, FM e =35,

    ふーむ e =2, SM e-1 =47,

    結論: 労働者の半数は 6.16 年未満の経験を持ち、半数は 6.16 年以上の経験を持っています。

    簡単な理論

    統計で最も広く使用されているのは、モードと中央値 (ノンパラメトリック平均) を含む構造平均です。

    ファッション- 最も高い頻度 (重み) を持つ分布系列で発生する特性 (バリアント) の値。 ファッション (Mo) は、最も広く普及している特性の価値 (特定の製品が最も多く販売された市場価格、購入者の間で最も需要の高い靴の数など) を識別するために使用されます。 。)。 このモードは、多数の母集団でのみ使用されます。 離散系列では、モードは最も高い周波数を持つバリアントとして検出されます。 間隔シリーズには、最初に最頻間隔、つまり最も高い頻度の間隔があり、次に、次の式に従った属性の最頻値の近似値があります。

    – モーダル間隔の下限

    - モーダル間隔の値

    – モーダルに先行する間隔の頻度

    – モーダルインターバル周波数

    – モーダルに続く間隔の頻度

    分位数- セットを一定数の等しい部分の要素に分割する数量。 最も有名な分位は中央値で、母集団を 2 つの等しい部分に分割します。 中央値に加えて、ランク付けされた系列を 4 つの等しい部分、十分位数 (10 部分)、および百分位数 - 100 部分に分割する四分位数もよく使用されます。

    中央値- ランク付けされた (順序付けられた) シリーズの中央に位置するユニットの属性の値。 分布系列が特性の特定の値で表される場合、中央値 (Me) が特性の中央値として見つかります。

    分布系列が離散的である場合、中央値は属性の中央の値として見つかります (たとえば、値の数が奇数 - 45 の場合、それは一連の値の属性の 23 番目の値に対応します)昇順に並べると、値の数が偶数 - 44 の場合、中央値は 22 と 23 の特性値の合計の半分に相当します。

    分布系列が間隔である場合、最初に、ランク付けされた系列の中央に位置するユニットを含む間隔の中央値を見つけます。 この間隔を決定するには、頻度の合計を半分に分割し、間隔の頻度を最初から順に累積(合計)して、中央値が位置する間隔を見つけます。 間隔系列の中央値は、次の式を使用して計算されます。

    - 中央間隔の下限

    - 中央間隔の値

    周波数系列の合計

    – 中央値に先行する間隔の累積頻度の合計

    – 中央値間隔の頻度

    四分位数- これらは、ランク付けされた系列の特性の値であり、母集団内のユニットの 25% がその値未満になるように選択され、ユニットの 25% が と の間に入るように選択されます。 25% は と の間にあり、残りの 25% は を超えています。 四分位数は、中央値の計算式と同様の式を使用して決定されます。 間隔シリーズの場合:

    十分位は、母集団内の単位数に応じて分布を 10 等分する構造変数です。 十分位数は 9 個、十分位数グループは 10 個あり、十分位数は中央値と四分位数の計算式と同様の式を使用して決定されます。

    一般に、区間系列の分位数を計算するための一般式は次のとおりです。

    – 分位数の序数

    – 分位次元 (これらの四分位が母集団を何部分に分割するか)

    – 分位間隔の下限

    – 分位点間隔の幅

    前分位間隔の累積頻度

    離散系列の場合、分位数は次の式を使用して求めることができます。

    問題解決の例

    タスク 1 の条件 (離散ランク付けシリーズ)

    調査の結果、1つの入り口の居住者の平均月収が確立されました。

    定義する:

    最頻値と中央値の収入、収入の分位数と十分位数。

    問題の解決策

    すでにランク付けされたシリーズがあり、居住者の収入値が昇順に分布しています。

    最も一般的な意味はファッションです。 この場合、2 つのモードを持つシリーズがあります。

    中央値は、順序付けされたデータのセットを半分に分割する属性の値です。

    四分位数は、ランク付けされた系列内の特性の値であり、母集団内のユニットの 25% がその値よりも小さくなるように選択されます。 ユニットの 25% は と の間に含まれます。 25% - と の間; 残りの 25% が優れています。

    Dicili は行を 10 等分します。

    今は助けが必要ではないが、将来的に助けが必要になる可能性がある場合は、連絡を失わないように、 VKグループに参加します.

    問題条件 2 (区間系列)

    金融機関の平均預金額を決定するために、次のデータが取得されました。

    構造平均 (最頻値、中央値、四分位数) を計算します。

    問題の解決策

    寄与サイズの最頻値を計算してみましょう。

    Mode は最高周波数に対応するオプションです。

    モードは次の式で計算されます。

    モーダル間隔の開始

    間隔サイズ

    モーダル間隔周波数

    モーダルの前の間隔の頻度

    モーダルに続く間隔の頻度

    したがって、最大の預金額は30.7千ルーブルです。

    中央値は、分布シリーズの中央に位置するオプションです。

    中央値は次の式を使用して計算されます。

    中央値間隔の始まり(下限)

    間隔サイズ

    系列のすべての周波数の合計

    中央間隔頻度

    中央値に対するバリアントの累積頻度の合計

    したがって、預金の半分は最大28,000ルーブル、残りの半分は28,000ルーブルを超えます。

    分位数を計算してみましょう。

    したがって、預金の25%は20.8千ルーブル未満であり、預金の25%は20.8千ルーブルの範囲にあります。 28,000 ルーブルまで、25% は 28,000 ルーブルの範囲にあります。 最大33,000ルーブル、33,000ルーブルの価値より25%増加します。

    問題の状態 3

    変動系列のグラフを作成します。 最頻値、中央値、平均値、四分位数をグラフに表示します。

    問題 3 の解決策

    平均を計算しましょう。これを行うには、間隔の中点と対応する周波数の積を合計し、得られた合計を周波数の合計で割ります。

    中央値- これは、分布のランク付けされた系列を 2 つの等しい部分に分割する属性の値です。中央値より小さい属性値と中央値より大きい属性値を持ちます。 中央値を見つけるには、順序付けられた系列の中央にある属性の値を見つける必要があります。

    最頻値と中央値を求める問題の解決策を表示するあなたはできる

    ランク付けされたシリーズでは、グループ化されていないデータ 中央値を見つける中央値のシリアル番号を検索するだけです。 中央値は次の式を使用して計算できます。

    ここで、Xm は中央値間隔の下限です。
    im - 間隔の中央値;
    Sme は、中央値間隔の開始前に蓄積された観測値の合計です。
    fme は中央値間隔内の観測値の数です。

    中央値の特性

    1. 中央値は、その両側にある属性値には依存しません。
    2. 中央値を使用した分析操作は非常に限られているため、既知の中央値を持つ 2 つの分布を組み合わせる場合、新しい分布の中央値の値を事前に予測することは不可能です。
    3. 中央値はミニマル性の性質。 その本質は、中央値からの X 値の絶対偏差の合計が、他の値からの X の偏差と比較して最小値であるという事実にあります。

    中央値の図による定義

    決定するため グラフ法による中央値これらは、累積曲線を構築するための累積周波数を使用します。 累積周波数に対応する縦軸の頂点は直線で結ばれます。 周波数の総和に相当する最後の縦軸を半分に割り、累積曲線との垂直交点を引くことで、目的の中央値の縦軸が求められます。

    統計におけるファッションの定義

    ファッション - 属性の価値、統計分布系列の中で最も高い頻度を持ちます。

    ファッションの定義はさまざまな方法で生成され、これは、変化する特性が離散系列または間隔系列のどちらの形式で提示されるかによって異なります。

    ファッションを見つける中央値は頻度列を確認するだけで求められます。 この列で、最高の頻度を特徴付ける最大の数値を見つけます。 これは、モードである属性の特定の値に対応します。 一連の区間変動では、モードは最も高い周波数を持つ区間の中心の変動であるとほぼみなされます。 そんな配信シリーズで モードは次の式で計算されます。:

    ここで、XMo はモーダル間隔の下限です。
    imo - モーダル間隔;
    fм0、fм0-1、fм0+1 - モーダル区間、前後のモーダル区間の周波数。

    モーダル間隔は最高周波数によって決まります。

    ファッションは、消費者の需要を分析したり、価格を記録したりする際の統計実務で広く使用されています。

    算術平均、中央値、最頻値の関係

    単峰対称系列の場合、分布、中央値、およびモードは一致します。 非対称分布の場合、それらは同じではありません。

    K. Pearson は、さまざまなタイプの曲線の調整に基づいて、中程度に非対称な分布では、算術平均、中央値、および最頻値の間に次の近似関係が有効であると判断しました。