Какого свойства дисперсии не существует
Текущая версия страницы пока не проверялась опытными участниками и может значительно отличаться от версии, проверенной 8 октября 2020; проверки требуют 2 правки.
У этого термина существуют и другие значения, см. Дисперсия.
Диспе́рсия случа́йной величины́ — мера разброса значений случайной величины относительно её математического ожидания. Обозначается в русской литературе и (англ. variance) в зарубежной. В статистике часто употребляется обозначение или .
Квадратный корень из дисперсии, равный , называется среднеквадратическим отклонением, стандартным отклонением или стандартным разбросом. Стандартное отклонение измеряется в тех же единицах, что и сама случайная величина, а дисперсия измеряется в квадратах этой единицы измерения.
Из неравенства Чебышёва следует, что вероятность того, что значения случайной величины отстоят от математического ожидания этой случайной величины более чем на стандартных отклонений, составляет менее . В специальных случаях оценка может быть усилена. Так, например, как минимум в 95 % случаев значения случайной величины, имеющей нормальное распределение, удалены от её среднего не более чем на два стандартных отклонения, а в примерно 99,7 % — не более чем на три.
Определение[править | править код]
Дисперсией случайной величины называют математическое ожидание квадрата отклонения случайной величины от её математического ожидания.
Пусть — случайная величина, определённая на некотором вероятностном пространстве. Тогда дисперсией называется
где символ обозначает математическое ожидание[1][2].
Замечания[править | править код]
где — -ое значение случайной величины, — вероятность того, что случайная величина принимает значение , — количество значений, которые принимает случайная величина.
Доказательство 2-й формулы
где — плотность вероятности случайной величины.
Для получения несмещённой оценки дисперсии случайной величины значение необходимо умножить на . Несмещённая оценка имеет вид:
Свойства[править | править код]
Условная дисперсия[править | править код]
Наряду с условным математическим ожиданием в теории случайных процессов используется условная дисперсия случайных величин .
Условной дисперсией случайной величины относительно случайной величины называется случайная величина
Её свойства:
откуда, в частности, следует, что дисперсия условного математического ожидания всегда меньше или равна дисперсии исходной случайной величины .
Пример[править | править код]
Пусть случайная величина имеет стандартное непрерывное равномерное распределение на , то есть её плотность вероятности задана равенством
Тогда математическое ожидание квадрата случайной величины равно
,
и математическое ожидание случайной величины равно
Дисперсия случайной величины равна
См. также[править | править код]
- Среднеквадратическое отклонение
- Моменты случайной величины
- Ковариация
- Выборочная дисперсия
- Независимость (теория вероятностей)
- Скедастичность
- Абсолютное отклонение
Примечания[править | править код]
- ↑ Колмогоров А. Н. Глава IV. Математические ожидания; §3. Неравенство Чебышева // Основные понятия теории вероятностей. — 2-е изд. — М.: Наука, 1974. — С. 63—65. — 120 с.
- ↑ Боровков А. А. Глава 4. Числовые характеристики случайных величин; §5. Дисперсия // Теория вероятностей. — 5-е изд. — М.: Либроком, 2009. — С. 93—94. — 656 с.
Литература[править | править код]
- Гурский Д., Турбина Е. Mathcad для студентов и школьников. Популярный самоучитель. — СПб.: Питер, 2005. — С. 340. — ISBN 5469005259.
- Орлов А. И. Дисперсия случайной величины // Математика случая: Вероятность и статистика — основные факты. — М.: МЗ-Пресс, 2004.
Источник
Дисперсией (рассеянием) дискретной случайной величиныD(X) называют математическое ожидание квадрата отклонения случайной величины от ее математического ожидания
1 свойство. Дисперсия постоянной величины C равна нулю; D(C) = 0.
Доказательство. По определению дисперсии, D(C) = M{[C – M(C)]2}.
Из первого свойства математического ожидания D(C) = M[(C – C)2] = M(0) = 0.
2 свойство. Постоянный множитель можно выносить за знак дисперсии, возводя его в квадрат:
D(CX) = C2 D(X)
Доказательство. По определению дисперсии, D(CX) = M{[CX – M(CX)]2}
Из второго свойства математического ожидания D(CX)=M{[CX – CM(X)]2}= C2M{[X – M(X)]2}=C2D(X)
3 свойство. Дисперсия суммы двух независимых случайных величин равна сумме дисперсий этих величин:
D[X + Y ] = D[X] + D[Y ].
Доказательство. По формуле для вычисления дисперсии имеем
D(X + Y) = M[(X + Y )2] − [M(X + Y)]2
Раскрыв скобки и пользуясь свойствами математического ожидания суммы нескольких величин и произведения двух независимых случайных величин, получим
D(X + Y) = M[X2+ 2XY + Y2] − [M(X) + M(Y )]2 = M(X2) + 2M(X)M(Y) + M(Y2) − M2(X) − 2M(X)M(Y) − M2(Y) = {M(X2) − [M(X)]2}+{M(Y2) − [M(Y)]2} = D(X) + D(Y). Итак, D(X + Y) = D(X) + D(Y)
4 свойство. Дисперсия разности двух независимых случайных величин равна сумме их дисперсий:
D(X − Y) = D(X) + D(Y)
Доказательство. В силу третьего свойства D(X − Y) = D(X) + D(–Y). По второму свойству
D(X − Y) = D(X) + (–1)2 D(Y) или D(X − Y) = D(X) + D(Y)
Числовые характеристики систем случайных величин. Коэффициент корреляции, свойства коэффициента корреляции.
Корреляционный момент.Характеристикой зависимости между случайными величинами и служит математическое ожидание произведения отклонений и от их центров распределений (так иногда называют математическое ожидание случайной величины), которое называется корреляционным моментом или ковариацией:
Для вычисления корреляционного момента дискретных величин используют формулу:
а для непрерывных величин – формулу:
Коэффициентом корреляции rxy случайных величин X и Y называют отношение корреляционного момента к произведению среднеквадратичных отклонений величин:
– коэффициент корреляции;
Свойства коэффициента корреляции:
1. Если Х и У независимые случайные величины, то r =0;
2. -1≤ r ≤1 .При этом, если |r| =1, то между Х и У функциональная, а именно линейная зависимость;
3. r характеризует относительную величину отклонения М(ХУ) от М(Х)М(У), и т.к. отклонение имеет место только для зависимых величин, то rхарактеризует тесноту зависимости.
Линейная функция регрессии.
Рассмотрим двумерную случайную величину (X, Y), где X и У — зависимые случайные величины. Представим одну из величин как функцию другой. Ограничимся приближенным представлением (точное приближение, вообще говоря, невозможно) величины Y в виде линейной функции величины X:
где α и β — параметры, подлежащие определению.
Теорема. Линейная средняя квадратическая регрессия Y на X имеет вид
где mx=M(X), my=M(Y), σx=√D(X), σy=√D(Y), r=µxy/(σxσy)—коэффициент корреляции величин X и Y.
Коэффициент β=rσy/σx называют коэффициентом регрессии Y на X, а прямую
называют прямой среднеквадратической регрессии Y на X.
Неравенство Маркова.
Формулировка неравенства Маркова
Если среди значений случайной величины Х нет отрицательных, то вероятность того, что она примет какое-нибудь значение, превосходящее положительное число А, не больше дроби , т.е.
,
а вероятность того, что она примет какое-нибудь значение, не превосходящее положительного числа А, не меньше , т.е.
.
Неравенство Чебышева.
Неравенство Чебышева. Вероятность того, что отклонение случайной величины X от ее математического ожидания по абсолютной величине меньше положительного числа ε, не меньше, чем 1 −D[X]ε2
P(|X – M(X)| < ε) ≥ 1 –D(X)ε2
Доказательство. Так как события, состоящие в осуществлении неравенств
P(|X−M(X)| < ε) и P(|X – M(X)| ≥ε) противоположны, то сумма их вероятностей равна единице, т. е.
P(|X – M(X)| < ε) + P(|X – M(X)| ≥ ε) = 1.
Отсюда интересующая нас вероятность
P(|X – M(X)| < ε) = 1 − P(|X – M(X)| > ε).
Таким образом, задача сводится к вычислению вероятности P(|X –M(X)| ≥ ε).
Напишем выражение для дисперсии случайной величины X
D(X) = [x1 – M(x)]2p1 + [x2 – M(x)]2p2 + . . . + [xn – M(x)]2pn
Все слагаемые этой суммы неотрицательны. Отбросим те слагаемые, у которых |xi – M(X)| < ε (для оставшихся слагаемых |xj – M(X)| ≥ ε), вследствие чего сумма может только уменьшиться. Условимся считать для определенности, что отброшено k первых слагаемых (не нарушая общности, можно считать, что в таблице распределения возможные значения занумерованы именно в таком порядке). Таким образом,
D(X) ≥ [xk+1 – M(x)]2pk+1 + [xk+2 – M(x)]2pk+2 + . . . + [xn – M(x)]2pn
Обе части неравенства |xj –M(X)| ≥ ε (j = k+1, k+2, . . ., n) положительны, поэтому, возведя их в квадрат, получим равносильное неравенство |xj – M(X)|2 ≥ε2.Заменяя в оставшейся сумме каждый из множителей
|xj – M(X)|2числом ε2(при этом неравенство может лишь усилиться), получим
D(X) ≥ ε2(pk+1 + pk+2 + . . . + pn)
По теореме сложения, сумма вероятностей pk+1+pk+2+. . .+pn есть вероятность того, что X примет одно, безразлично какое, из значений xk+1 +xk+2 +. . .+xn, а при любом из них отклонение удовлетворяет неравенству |xj – M(X)| ≥ ε. Отсюда следует, что сумма pk+1 + pk+2 + . . . + pn выражает вероятность
P(|X – M(X)| ≥ ε).
Это позволяет переписать неравенство для D(X) так
D(X) ≥ ε2P(|X – M(X)| ≥ ε)
или
P(|X – M(X)|≥ ε) ≤D(X)/ε2
Окончательно получим
P(|X – M(X)| < ε) ≥D(X)/ε2
Теорема Чебышева.
Теорема Чебышева. Если — попарно независимые случайные величины, причем дисперсии их равномерно ограничены (не превышают постоянного числа С), то, как бы мало ни было положительное число ε, вероятность неравенства
будет как угодно близка к единице, если число случайных величин достаточно велико.
Другими словами, в условиях теоремы
Доказательство. Введем в рассмотрение новую случайную величину — среднее арифметическое случайных величин
Найдем математическое ожидание Х. Пользуясь свойствами математического ожидания (постоянный множитель можно вынести за знак математического ожидания, математическое ожидание суммы равно сумме математических ожиданий слагаемых), получим
(1) |
Применяя к величине Х неравенство Чебышева, имеем
или, учитывая соотношение (1)
Пользуясь свойствами дисперсии (постоянный множитель можно вынести за знак дисперсии, возведя его в квадрат; дисперсия суммы независимых случайных величин равна сумме дисперсий слагаемых), получим
По условию дисперсии всех случайных величин ограничены постоянным числом С, т.е. имеют место неравенства:
поэтому
Итак,
(2) |
Подставляя правую часть (2) в неравенство (1) (отчего последнее может быть лишь усилено), имеем
Отсюда, переходя к пределу при n→∞, получим
Наконец, учитывая, что вероятность не может превышать единицу, окончательно можем написать
Теорема доказана.
Теорема Бернулли.
Теорема Бернулли. Если в каждом из n независимых испытаний вероятность p появления события A постоянна, то как угодно близка к единице вероятность того, что отклонение относительной частоты от вероятности p по абсолютной величине будет сколь угодно малым, если число испытаний достаточно велико.
Другими словами, если ε — сколь угодно малое положительное число, то при соблюдении условий теоремы имеет место равенство
Доказательство. Обозначим через X1 дискретную случайную величину — число появлений события в первом испытании, через X2 — во втором, …, Xn — в n-м испытании. Ясно, что каждая из величин может принять лишь два значения: 1 (событие A наступило) с вероятностью p и 0 (событие не появилось) с вероятностью .
Можно ли применить к рассматриваемым величинам теорему Чебышева? Можно, если случайные величины попарно независимы и дисперсии их ограничены. Оба условия выполняются Действительно, попарная независимость величин следует из того, что испытания независимы. Дисперсия любой величины равна произведению ; так как , то произведение не превышает 1/4и, следовательно, дисперсии всех величин ограничены, например, числом .
Применяя теорему Чебышева (частный случай) к рассматриваемым величинам, имеем
Приняв во внимание, что математическое ожидание a каждой из величин (т.е. математическое ожидание числа появлений события в одном испытании) равно вероятности p наступления события, получим
Остается показать, что дробь
равна относительной частоте появлений события A в испытаниях. Действительно, каждая из величин при появлении события в соответствующем испытании принимает значение, равное единице; следовательно, сумма равна числу появлений события в испытаниях, а значит,
Учитывая это равенство, окончательно получим
Источник
Наряду с изучением вариации признака по всей по всей совокупности в целом часто бывает необходимо проследить количественные изменения признака по группам, на которые разделяется совокупность, а также и между группами. Такое изучение вариации достигается посредством вычисления и анализа различных видов дисперсии.
Выделяют дисперсию общую, межгрупповую и внутригрупповую.
Общая дисперсия σ2 измеряет вариацию признака по всей совокупности под влиянием всех факторов, обусловивших эту вариацию, .
Межгрупповая дисперсия (δ) характеризует систематическую вариацию, т.е. различия в величине изучаемого признака, возникающие под влиянием признака-фактора, положенного в основание группировки. Она рассчитывается по формуле:
.
Внутригрупповая дисперсия (σ) отражает случайную вариацию, т.е. часть вариации, происходящую под влиянием неучтенных факторов и не зависящую от признака-фактора, положенного в основание группировки. Она вычисляется по формуле:
.
Средняя из внутригрупповых дисперсий: .
Существует закон, связывающий 3 вида дисперсии. Общая дисперсия равна сумме средней из внутригрупповых и межгрупповой дисперсии: σ=σ²i+δ²i.
Данное соотношение называют правилом сложения дисперсий.
В анализе широко используется показатель, представляющий собой долю межгрупповой дисперсии в общей дисперсии. Он носит название эмпирического коэффициента детерминации (η2): .
Корень квадратный из эмпирического коэффициента детерминации носит название эмпирического корреляционного отношения (η):
.
Оно характеризует влияние признака, положенного в основание группировки, на вариацию результативного признака. Эмпирическое корреляционное отношение изменяется в пределах от 0 до 1.
Покажем его практическое использование на следующем примере (табл. 1).
Пример №1. Таблица 1 – Производительность труда двух групп рабочих одного из цехов НПО «Циклон»
Производительность труда рабочих | |||||||||
прошедших техническое обучение (деталей за смену) | не прошедших техническое обучение (деталей за смену) | ||||||||
84 | 93 | 95 | 101 | 102 | 62 | 68 | 82 | 88 | 105 |
Рассчитаем общую и групповые средние и дисперсии:
Исходные данные для вычисления средней из внутригрупповых и межгрупповой дисперсии представлены в табл. 2.
Таблица 2
Расчет и δ2 по двум группам рабочих.
Группы рабочих | Численность рабочих, чел. | Средняя, дет./смен. | Дисперсия |
Прошедшие техническое обучение | 5 | 95 | 42,0 |
Не прошедшие техническое обучение | 5 | 81 | 231,2 |
Все рабочие | 10 | 88 | 185,6 |
Рассчитаем показатели. Средняя из внутригрупповых дисперсий:
Межгрупповая дисперсия
Общая дисперсия: σ²= σ²i+δi² = 136.6+49.0=185.6
Таким образом, эмпирическое корреляционное соотношение: .
Наряду с вариацией количественных признаков может наблюдаться и вариация качественных признаков. Такое изучение вариации достигается посредством вычисления следующих видов дисперсий:
Внутригрупповая дисперсия доли определяется по формуле:
σ²pi=pi(1-pi) (1)
Средняя из внутригрупповых дисперсий рассчитывается так:
(2)
Формула межгрупповой дисперсии имеет вид:
, (3)
где ni – численность единиц в отдельных группах.
Доля изучаемого признака во всей совокупности, которая определяется по формуле:
(4)
Три вида дисперсии связаны между собой следующим образом:
σ²p=σ²pi+δpi²
Это соотношение дисперсий называется теоремой сложения дисперсий доли признака.
Пример №2. Имеются следующие данные об удельном весе основных рабочих в трех цехах фирмы (табл. 2).
Таблица 2 – Удельный вес основных рабочих фирмы
Цех | Удельный вес основных рабочих, в %, pi | Численность всех рабочих, человек, ni |
1 | 80 | 100 |
2 | 75 | 200 |
3 | 90 | 150 |
Итого | — | 450 |
1) Определим долю основных рабочих в целом по фирме:
2) Общая дисперсия доли основных рабочих по всей фирме в целом будет равна σ2p=0.81·(1-0.81)=0.154.
3) Внутрицеховые дисперсии рассчитаем, применив формулу (1): σ²p1=0.8·0.2=0.16; σ²p2=0.75·0.25=0.19; σ²p3=0.9·0.1=0.09.
4) Средняя из внутригрупповых дисперсий будет равна (формула 5.2):
5) Межгрупповую дисперсию определим по формуле (5.3):
Проверка вычислений показывает: 0,154 = 0,15 + 0,004.
Дисперсионный анализ
Регионы | Затраты на удобрения, тыс. руб. | Урожайность картофеля, ц/га |
Республика Коми | 50 | 96 |
Ленинградская область | 75 | 92 |
Республика Хакасия | 25 | 102 |
Архангельская область | 95 | 115 |
Сахалинская область | 60 | 90 |
Удмуртская республика | 70 | 92 |
Камчатская область | 85 | 95 |
Кировская область | 170 | 108 |
Курганская область | 120 | 95 |
Чувашская республика. | 160 | 99 |
Тамбовская область | 50 | 97 |
Республика Бурятия | 80 | 102 |
Брянская область | 20 | 95 |
Республика Алтай | 55 | 90 |
Республика Адыгея | 70 | 101 |
Республика Марий- Эл | 80 | 104 |
Ивановская область | 100 | 120 |
Республика Мордовия | 60 | 101 |
Республика Северная Осетия | 50 | 95 |
Республика Дагестан | 70 | 98 |
Еврейская автономная область | 160 | 108 |
Итого | 1705 | 2095 |
Среднее значение
Групповая дисперсия
Внутригрупповая дисперсия
Общая дисперсия
Межгрупповая дисперсия
Свойства дисперсии
Дисперсия представляет собой средний квадрат отклонений индивидуальных значений признака от их средней величины и вычисляется по формулам простой и взвешенной дисперсий (в зависимости от исходных данных):
,
,
среднее квадратическое отклонение (σ):
(простое среднеквадратическое отклонение),
(взвешенное среднеквадратическое отклонение).
Среднее квадратическое отклонение – это обобщающая характеристика размеров вариации признака в совокупности. Оно выражается в тех же единицах, что и признак.
Расчет дисперсии может быть упрощен. В случае равных интервалов в вариационном ряду распределения используется способ отсчета от условного нуля (способ моментов). Для его понимания необходимо знать следующие свойства дисперсии:
Свойство 1. Дисперсия постоянной величины равна нулю.
Свойство 2. Уменьшение всех значений признака на одну и ту же величину A не меняет величины дисперсии σ²(X-A)=σ²X. Значит, средний квадрат отклонений можно вычислить не по заданным значениям признака, а по отклонениям их от какого-либо постоянного числа.
Свойство 3. Уменьшение всех значений признака в K раз уменьшает дисперсию в K2 раз, а среднее квадратическое отклонение в K раз . Значит, все значения признака можно разделить на какое-то постоянное число, например, на величину интервала ряда, исчислить среднее квадратическое отклонение, а затем умножить его на постоянное число: σX=σX/K·K.
Свойство 4. Если вычислить средний квадрат отклонений от любой величины A, в той или иной степени отличающейся от средней арифметической (x), то он всегда будет больше среднего квадрата отклонений, вычисленного от средней арифметической σ²A>σ²X. Средний квадрат отклонений при этом будет больше на величину (x–A)2 :
Значит, дисперсия от средней величины всегда меньше дисперсий, вычисленных от любых других величин, т.е. она имеет свойство минимальности.
см. также свойства дисперсии для дискретной случайной величины
Рассмотрим расчет дисперсии и среднего квадратического отклонения по данным таблицы.
Таблица – Вычисление σ2 и σ по несгруппированным данным.
Хозяйство | Валовой сбор, ц, x | xi–x | (xi–x)2 |
А | 1 | 2 | 3 |
1 | 600 | 100 | 10 000 |
2 | 520 | 20 | 400 |
3 | 400 | -100 | 10 000 |
4 | 600 | 100 | 10 000 |
5 | 500 | 0 | 0 |
6 | 380 | -120 | 14 400 |
ИТОГО | 3000 | 0 | 44 800 |
1) Определим среднюю величину по исходным данным (гр.1) по формуле средней арифметической простой:
.
2) Находим отклонения xi от и записываем их в гр. 2. Возводим отклонения во вторую степень, отводим для них гр. 3. Их сумма – 44 800.
3) Разделив ее на число единиц совокупности, получаем дисперсию:
.
4) Извлекая корень из второй степени получаем среднее квадратичное отклонение равное 86,4099.
Степень вариации в данной совокупности не велика, т.к. средняя величина равна 500 ц. Это говорит об однородности рассматриваемой нами совокупности.
Рассмотрим вычисление дисперсии и среднеквадратического отклонения по сгруппированным данным табл. 5.3.
Таблица 5.3 – Расчет σ2 и σ в двух вариационных рядах с разным распределением частот.
НПО “Платан” | НПО “Исток” | ||||||||
тариф, разряд xi | число работников, fi | xi–x | (xi–x)2 | (xi–x)2fi | тариф, разряд xi | число работников, fi | xi–x | (xi–x)2 | (xi–x)2fi |
12 | 1 | -3 | 9 | 9 | 12 | 30 | -3 | 9 | 270 |
13 | 5 | -2 | 4 | 20 | 13 | 20 | -2 | 4 | 80 |
14 | 30 | -1 | 1 | 30 | 14 | 10 | -1 | 1 | 10 |
15 | 60 | 0 | 0 | 0 | 15 | 50 | 0 | 0 | 0 |
16 | 30 | 1 | 1 | 30 | 16 | 10 | 1 | 1 | 10 |
17 | 5 | 2 | 4 | 20 | 17 | 20 | 2 | 4 | 80 |
18 | 1 | 3 | 9 | 9 | 18 | 30 | 3 | 9 | 270 |
Итого | 132 | — | — | 118 | — | 170 | — | — | 720 |
.
На математических свойствах дисперсии основываются способы, которые позволяют упростить ее вычисление. Например, расчет дисперсии по способу моментов или способу отсчета от условного нуля применяется в вариационных рядах с равными интервалами. Расчет производится по формуле:
,
где K – ширина интервала;
A – условный нуль, в качестве которого удобно использовать середину интервала, обладающего наибольшей частотой;
– момент второго порядка.
Между средним линейным и средним квадратическим отклонениями существует примерное соотношение σ=12.5·d, если фактическое распределение близко к нормальному.
В условиях нормального распределения существует следующая зависимость между величиной среднего квадратического отклонения и количеством наблюдений:
1) в пределах ± 1σ располагается 68,3 % количества наблюдений;
2) в пределах ± 2σ – 95,4 %;
3) в пределах ± 3σ – 99,7 %;
В действительности, на практике почти не встречаются отклонения, которые превышают ±3σ. Отклонение 3σ может считаться максимально возможным. Это положение называют «правилом трех сигм».
Источник