Какого свойства дисперсии не существует

Текущая версия страницы пока не проверялась опытными участниками и может значительно отличаться от версии, проверенной 8 октября 2020; проверки требуют 2 правки.

У этого термина существуют и другие значения, см. Дисперсия.

Диспе́рсия случа́йной величины́ — мера разброса значений случайной величины относительно её математического ожидания. Обозначается в русской литературе и (англ. variance) в зарубежной. В статистике часто употребляется обозначение или .

Квадратный корень из дисперсии, равный , называется среднеквадратическим отклонением, стандартным отклонением или стандартным разбросом. Стандартное отклонение измеряется в тех же единицах, что и сама случайная величина, а дисперсия измеряется в квадратах этой единицы измерения.

Из неравенства Чебышёва следует, что вероятность того, что значения случайной величины отстоят от математического ожидания этой случайной величины более чем на стандартных отклонений, составляет менее . В специальных случаях оценка может быть усилена. Так, например, как минимум в 95 % случаев значения случайной величины, имеющей нормальное распределение, удалены от её среднего не более чем на два стандартных отклонения, а в примерно 99,7 % — не более чем на три.

Определение[править | править код]

Дисперсией случайной величины называют математическое ожидание квадрата отклонения случайной величины от её математического ожидания.

Пусть  — случайная величина, определённая на некотором вероятностном пространстве. Тогда дисперсией называется

где символ обозначает математическое ожидание[1][2].

Замечания[править | править код]

где  — -ое значение случайной величины,  — вероятность того, что случайная величина принимает значение ,  — количество значений, которые принимает случайная величина.

Доказательство 2-й формулы

где  — плотность вероятности случайной величины.

Для получения несмещённой оценки дисперсии случайной величины значение необходимо умножить на . Несмещённая оценка имеет вид:

Свойства[править | править код]

Условная дисперсия[править | править код]

Наряду с условным математическим ожиданием в теории случайных процессов используется условная дисперсия случайных величин .

Условной дисперсией случайной величины относительно случайной величины называется случайная величина

Её свойства:

откуда, в частности, следует, что дисперсия условного математического ожидания всегда меньше или равна дисперсии исходной случайной величины .

Пример[править | править код]

Пусть случайная величина имеет стандартное непрерывное равномерное распределение на , то есть её плотность вероятности задана равенством

Тогда математическое ожидание квадрата случайной величины равно

,

и математическое ожидание случайной величины равно

Дисперсия случайной величины равна

См. также[править | править код]

  • Среднеквадратическое отклонение
  • Моменты случайной величины
  • Ковариация
  • Выборочная дисперсия
  • Независимость (теория вероятностей)
  • Скедастичность
  • Абсолютное отклонение

Примечания[править | править код]

  1. Колмогоров А. Н. Глава IV. Математические ожидания; §3. Неравенство Чебышева // Основные понятия теории вероятностей. — 2-е изд. — М.: Наука, 1974. — С. 63—65. — 120 с.
  2. Боровков А. А. Глава 4. Числовые характеристики случайных величин; §5. Дисперсия // Теория вероятностей. — 5-е изд. — М.: Либроком, 2009. — С. 93—94. — 656 с.

Литература[править | править код]

  • Гурский Д., Турбина Е. Mathcad для студентов и школьников. Популярный самоучитель. — СПб.: Питер, 2005. — С. 340. — ISBN 5469005259.
  • Орлов А. И. Дисперсия случайной величины // Математика случая: Вероятность и статистика — основные факты. — М.: МЗ-Пресс, 2004.

Источник

Дисперсией (рассеянием) дискретной случайной величиныD(X) называют математическое ожидание квадрата отклонения случайной величины от ее математического ожидания

1 свойство. Дисперсия постоянной величины C равна нулю; D(C) = 0.

Доказательство. По определению дисперсии, D(C) = M{[C – M(C)]2}.

Из первого свойства математического ожидания D(C) = M[(C – C)2] = M(0) = 0.

2 свойство. Постоянный множитель можно выносить за знак дисперсии, возводя его в квадрат:

D(CX) = C2 D(X)

Доказательство. По определению дисперсии, D(CX) = M{[CX – M(CX)]2}

Из второго свойства математического ожидания D(CX)=M{[CX – CM(X)]2}= C2M{[X – M(X)]2}=C2D(X)

3 свойство. Дисперсия суммы двух независимых случайных величин равна сумме дисперсий этих величин:

D[X + Y ] = D[X] + D[Y ].

Доказательство. По формуле для вычисления дисперсии имеем

D(X + Y) = M[(X + Y )2] − [M(X + Y)]2

Раскрыв скобки и пользуясь свойствами математического ожидания суммы нескольких величин и произведения двух независимых случайных величин, получим

D(X + Y) = M[X2+ 2XY + Y2] − [M(X) + M(Y )]2 = M(X2) + 2M(X)M(Y) + M(Y2) − M2(X) − 2M(X)M(Y) − M2(Y) = {M(X2) − [M(X)]2}+{M(Y2) − [M(Y)]2} = D(X) + D(Y). Итак, D(X + Y) = D(X) + D(Y)

4 свойство. Дисперсия разности двух независимых случайных величин равна сумме их дисперсий:

D(X − Y) = D(X) + D(Y)

Доказательство. В силу третьего свойства D(X − Y) = D(X) + D(–Y). По второму свойству

D(X − Y) = D(X) + (–1)2 D(Y) или D(X − Y) = D(X) + D(Y)

Числовые характеристики систем случайных величин. Коэффициент корреляции, свойства коэффициента корреляции.

Корреляционный момент.Характеристикой зависимости между случайными величинами и служит математическое ожидание произведения отклонений и от их центров распределений (так иногда называют математическое ожидание случайной величины), которое называется корреляционным моментом или ковариацией:

Для вычисления корреляционного момента дискретных величин используют формулу:

а для непрерывных величин – формулу:

Коэффициентом корреляции rxy случайных величин X и Y называют отношение корреляционного момента к произведению среднеквадратичных отклонений величин:
– коэффициент корреляции;

Свойства коэффициента корреляции:

Читайте также:  Какими свойствами обладает брусника

1. Если Х и У независимые случайные величины, то r =0;

2. -1≤ r ≤1 .При этом, если |r| =1, то между Х и У функциональная, а именно линейная зависимость;

3. r характеризует относительную величину отклонения М(ХУ) от М(Х)М(У), и т.к. отклонение имеет место только для зависимых величин, то rхарактеризует тесноту зависимости.

Линейная функция регрессии.

Рассмотрим двумерную случайную величину (X, Y), где X и У — зависимые случайные величины. Представим одну из величин как функцию другой. Ограничимся приближенным представлением (точное приближение, вообще говоря, невозможно) величины Y в виде линейной функции величины X:

где α и β — параметры, подлежащие определению.

Теорема. Линейная средняя квадратическая регрессия Y на X имеет вид

где mx=M(X), my=M(Y), σx=√D(X), σy=√D(Y), r=µxy/(σxσy)—коэффициент корреляции величин X и Y.

Коэффициент β=rσy/σx называют коэффициентом регрессии Y на X, а прямую

называют прямой среднеквадратической регрессии Y на X.

Неравенство Маркова.

Формулировка неравенства Маркова

Если среди значений случайной величины Х нет отрицательных, то вероятность того, что она примет какое-нибудь значение, превосходящее положительное число А, не больше дроби , т.е.

,

а вероятность того, что она примет какое-нибудь значение, не превосходящее положительного числа А, не меньше , т.е.

.

Неравенство Чебышева.

Неравенство Чебышева. Вероятность того, что отклонение случайной величины X от ее математического ожидания по абсолютной величине меньше положительного числа ε, не меньше, чем 1 −D[X]ε2

P(|X – M(X)| < ε) ≥ 1 –D(X)ε2

Доказательство. Так как события, состоящие в осуществлении неравенств

P(|X−M(X)| < ε) и P(|X – M(X)| ≥ε) противоположны, то сумма их вероятностей равна единице, т. е.

P(|X – M(X)| < ε) + P(|X – M(X)| ≥ ε) = 1.

Отсюда интересующая нас вероятность

P(|X – M(X)| < ε) = 1 − P(|X – M(X)| > ε).

Таким образом, задача сводится к вычислению вероятности P(|X –M(X)| ≥ ε).

Напишем выражение для дисперсии случайной величины X

D(X) = [x1 – M(x)]2p1 + [x2 – M(x)]2p2 + . . . + [xn – M(x)]2pn

Все слагаемые этой суммы неотрицательны. Отбросим те слагаемые, у которых |xi – M(X)| < ε (для оставшихся слагаемых |xj – M(X)| ≥ ε), вследствие чего сумма может только уменьшиться. Условимся считать для определенности, что отброшено k первых слагаемых (не нарушая общности, можно считать, что в таблице распределения возможные значения занумерованы именно в таком порядке). Таким образом,

D(X) ≥ [xk+1 – M(x)]2pk+1 + [xk+2 – M(x)]2pk+2 + . . . + [xn – M(x)]2pn

Обе части неравенства |xj –M(X)| ≥ ε (j = k+1, k+2, . . ., n) положительны, поэтому, возведя их в квадрат, получим равносильное неравенство |xj – M(X)|2 ≥ε2.Заменяя в оставшейся сумме каждый из множителей

|xj – M(X)|2числом ε2(при этом неравенство может лишь усилиться), получим

D(X) ≥ ε2(pk+1 + pk+2 + . . . + pn)

По теореме сложения, сумма вероятностей pk+1+pk+2+. . .+pn есть вероятность того, что X примет одно, безразлично какое, из значений xk+1 +xk+2 +. . .+xn, а при любом из них отклонение удовлетворяет неравенству |xj – M(X)| ≥ ε. Отсюда следует, что сумма pk+1 + pk+2 + . . . + pn выражает вероятность

P(|X – M(X)| ≥ ε).

Это позволяет переписать неравенство для D(X) так

D(X) ≥ ε2P(|X – M(X)| ≥ ε)

или

P(|X – M(X)|≥ ε) ≤D(X)/ε2

Окончательно получим

P(|X – M(X)| < ε) ≥D(X)/ε2

Теорема Чебышева.

Теорема Чебышева. Если — попарно независимые случайные величины, причем дисперсии их равномерно ограничены (не превышают постоянного числа С), то, как бы мало ни было положительное число ε, вероятность неравенства

будет как угодно близка к единице, если число случайных величин достаточно велико.

Другими словами, в условиях теоремы

Доказательство. Введем в рассмотрение новую случайную величину — среднее арифметическое случайных величин

Найдем математическое ожидание Х. Пользуясь свойствами математического ожидания (постоянный множитель можно вынести за знак математического ожидания, математическое ожидание суммы равно сумме математических ожиданий слагаемых), получим

(1) 

Применяя к величине Х неравенство Чебышева, имеем

или, учитывая соотношение (1)

Пользуясь свойствами дисперсии (постоянный множитель можно вынести за знак дисперсии, возведя его в квадрат; дисперсия суммы независимых случайных величин равна сумме дисперсий слагаемых), получим

По условию дисперсии всех случайных величин ограничены постоянным числом С, т.е. имеют место неравенства:

поэтому

Итак,

(2) 

Подставляя правую часть (2) в неравенство (1) (отчего последнее может быть лишь усилено), имеем

Отсюда, переходя к пределу при n→∞, получим

Наконец, учитывая, что вероятность не может превышать единицу, окончательно можем написать

Теорема доказана.

Теорема Бернулли.

Теорема Бернулли. Если в каждом из n независимых испытаний вероятность p появления события A постоянна, то как угодно близка к единице вероятность того, что отклонение относительной частоты от вероятности p по абсолютной величине будет сколь угодно малым, если число испытаний достаточно велико.

Другими словами, если ε — сколь угодно малое положительное число, то при соблюдении условий теоремы имеет место равенство

Читайте также:  Какие свойства живой материи должны быть отражены по вашему мнению

Доказательство. Обозначим через X1 дискретную случайную величину — число появлений события в первом испытании, через X2 — во втором, …, Xn — в n-м испытании. Ясно, что каждая из величин может принять лишь два значения: 1 (событие A наступило) с вероятностью p и 0 (событие не появилось) с вероятностью .

Можно ли применить к рассматриваемым величинам теорему Чебышева? Можно, если случайные величины попарно независимы и дисперсии их ограничены. Оба условия выполняются Действительно, попарная независимость величин следует из того, что испытания независимы. Дисперсия любой величины равна произведению ; так как , то произведение не превышает 1/4и, следовательно, дисперсии всех величин ограничены, например, числом .

Применяя теорему Чебышева (частный случай) к рассматриваемым величинам, имеем

Приняв во внимание, что математическое ожидание a каждой из величин (т.е. математическое ожидание числа появлений события в одном испытании) равно вероятности p наступления события, получим

Остается показать, что дробь

равна относительной частоте появлений события A в испытаниях. Действительно, каждая из величин при появлении события в соответствующем испытании принимает значение, равное единице; следовательно, сумма равна числу появлений события в испытаниях, а значит,

Учитывая это равенство, окончательно получим



Источник

Наряду с изучением вариации признака по всей по всей совокупности в целом часто бывает необходимо проследить количественные изменения признака по группам, на которые разделяется совокупность, а также и между группами. Такое изучение вариации достигается посредством вычисления и анализа различных видов дисперсии.

Выделяют дисперсию общую, межгрупповую и внутригрупповую.

Общая дисперсия σ2 измеряет вариацию признака по всей совокупности под влиянием всех факторов, обусловивших эту вариацию, .

Межгрупповая дисперсия (δ) характеризует систематическую вариацию, т.е. различия в величине изучаемого признака, возникающие под влиянием признака-фактора, положенного в основание группировки. Она рассчитывается по формуле:

.

Внутригрупповая дисперсия (σ) отражает случайную вариацию, т.е. часть вариации, происходящую под влиянием неучтенных факторов и не зависящую от признака-фактора, положенного в основание группировки. Она вычисляется по формуле:

.

Средняя из внутригрупповых дисперсий: .

Существует закон, связывающий 3 вида дисперсии. Общая дисперсия равна сумме средней из внутригрупповых и межгрупповой дисперсии: σ=σ²i+δ²i.

Данное соотношение называют правилом сложения дисперсий.

В анализе широко используется показатель, представляющий собой долю межгрупповой дисперсии в общей дисперсии. Он носит название эмпирического коэффициента детерминации (η2): .

Корень квадратный из эмпирического коэффициента детерминации носит название эмпирического корреляционного отношения (η):

.

Оно характеризует влияние признака, положенного в основание группировки, на вариацию результативного признака. Эмпирическое корреляционное отношение изменяется в пределах от 0 до 1.

Покажем его практическое использование на следующем примере (табл. 1).

Пример №1. Таблица 1 – Производительность труда двух групп рабочих одного из цехов НПО «Циклон»

Производительность труда рабочих
прошедших техническое обучение

(деталей за смену)
не прошедших техническое обучение (деталей за смену)
84939510110262688288105

Рассчитаем общую и групповые средние и дисперсии:

Исходные данные для вычисления средней из внутригрупповых и межгрупповой дисперсии представлены в табл. 2.

Таблица 2

Расчет и δ2 по двум группам рабочих.


Группы рабочих
Численность рабочих, чел. Средняя, дет./смен. Дисперсия
Прошедшие техническое обучение59542,0
Не прошедшие техническое обучение581231,2
Все рабочие1088185,6

Рассчитаем показатели. Средняя из внутригрупповых дисперсий:

Межгрупповая дисперсия

Общая дисперсия: σ²= σ²i+δi² = 136.6+49.0=185.6

Таким образом, эмпирическое корреляционное соотношение: .

Наряду с вариацией количественных признаков может наблюдаться и вариация качественных признаков. Такое изучение вариации достигается посредством вычисления следующих видов дисперсий:

Внутригрупповая дисперсия доли определяется по формуле:

σ²pi=pi(1-pi) (1)

Средняя из внутригрупповых дисперсий рассчитывается так:

(2)

Формула межгрупповой дисперсии имеет вид:

, (3)

где ni – численность единиц в отдельных группах.

Доля изучаемого признака во всей совокупности, которая определяется по формуле:

(4)

Три вида дисперсии связаны между собой следующим образом:

σ²p=σ²pi+δpi²

Это соотношение дисперсий называется теоремой сложения дисперсий доли признака.

Пример №2. Имеются следующие данные об удельном весе основных рабочих в трех цехах фирмы (табл. 2).

Таблица 2 – Удельный вес основных рабочих фирмы

ЦехУдельный вес основных рабочих, в %, piЧисленность всех рабочих, человек, ni
180100
275200
390150
Итого450

1) Определим долю основных рабочих в целом по фирме:

2) Общая дисперсия доли основных рабочих по всей фирме в целом будет равна σ2p=0.81·(1-0.81)=0.154.

3) Внутрицеховые дисперсии рассчитаем, применив формулу (1): σ²p1=0.8·0.2=0.16; σ²p2=0.75·0.25=0.19; σ²p3=0.9·0.1=0.09.

4) Средняя из внутригрупповых дисперсий будет равна (формула 5.2):

5) Межгрупповую дисперсию определим по формуле (5.3):

Проверка вычислений показывает: 0,154 = 0,15 + 0,004.

Дисперсионный анализ

РегионыЗатраты на удобрения, тыс. руб.Урожайность картофеля, ц/га
Республика Коми5096
Ленинградская область7592
Республика Хакасия25102
Архангельская область95115
Сахалинская область6090
Удмуртская республика7092
Камчатская область8595
Кировская область170108
Курганская область12095
Чувашская республика.16099
Тамбовская область5097
Республика Бурятия80102
Брянская область2095
Республика Алтай5590
Республика Адыгея70101
Республика Марий- Эл80104
Ивановская область100120
Республика Мордовия60101
Республика Северная Осетия5095
Республика Дагестан7098
Еврейская автономная область160108
Итого17052095
Читайте также:  Что такое пояса освещенности какие у них границы и свойства

Среднее значение

Групповая дисперсия

Внутригрупповая дисперсия

Общая дисперсия

Межгрупповая дисперсия

Свойства дисперсии

Дисперсия представляет собой средний квадрат отклонений индивидуальных значений признака от их средней величины и вычисляется по формулам простой и взвешенной дисперсий (в зависимости от исходных данных):

,

,

среднее квадратическое отклонение (σ):

(простое среднеквадратическое отклонение),

(взвешенное среднеквадратическое отклонение).

Среднее квадратическое отклонение – это обобщающая характеристика размеров вариации признака в совокупности. Оно выражается в тех же единицах, что и признак.

Расчет дисперсии может быть упрощен. В случае равных интервалов в вариационном ряду распределения используется способ отсчета от условного нуля (способ моментов). Для его понимания необходимо знать следующие свойства дисперсии:

Свойство 1. Дисперсия постоянной величины равна нулю.

Свойство 2. Уменьшение всех значений признака на одну и ту же величину A не меняет величины дисперсии σ²(X-A)=σ²X. Значит, средний квадрат отклонений можно вычислить не по заданным значениям признака, а по отклонениям их от какого-либо постоянного числа.

Свойство 3. Уменьшение всех значений признака в K раз уменьшает дисперсию в K2 раз, а среднее квадратическое отклонение в K раз . Значит, все значения признака можно разделить на какое-то постоянное число, например, на величину интервала ряда, исчислить среднее квадратическое отклонение, а затем умножить его на постоянное число: σX=σX/K·K.

Свойство 4. Если вычислить средний квадрат отклонений от любой величины A, в той или иной степени отличающейся от средней арифметической (x), то он всегда будет больше среднего квадрата отклонений, вычисленного от средней арифметической σ²A>σ²X. Средний квадрат отклонений при этом будет больше на величину (x–A)2 :

Значит, дисперсия от средней величины всегда меньше дисперсий, вычисленных от любых других величин, т.е. она имеет свойство минимальности.

см. также свойства дисперсии для дискретной случайной величины

Рассмотрим расчет дисперсии и среднего квадратического отклонения по данным таблицы.

Таблица – Вычисление σ2 и σ по несгруппированным данным.

ХозяйствоВаловой сбор, ц, xxi–x(xi–x)2
А123
160010010 000
252020400
3400-10010 000
460010010 000
550000
6380-12014 400
ИТОГО3000044 800

1) Определим среднюю величину по исходным данным (гр.1) по формуле средней арифметической простой:

.

2) Находим отклонения xi от и записываем их в гр. 2. Возводим отклонения во вторую степень, отводим для них гр. 3. Их сумма – 44 800.

3) Разделив ее на число единиц совокупности, получаем дисперсию:

.

4) Извлекая корень из второй степени получаем среднее квадратичное отклонение равное 86,4099.

Степень вариации в данной совокупности не велика, т.к. средняя величина равна 500 ц. Это говорит об однородности рассматриваемой нами совокупности.

Рассмотрим вычисление дисперсии и среднеквадратического отклонения по сгруппированным данным табл. 5.3.

Таблица 5.3 – Расчет σ2 и σ в двух вариационных рядах с разным распределением частот.

НПО “Платан”НПО “Исток”
тариф, разряд xiчисло работников, fixi–x(xi–x)2(xi–x)2fiтариф, разряд xiчисло работников, fixi–x(xi–x)2(xi–x)2fi
121-3991230-39270
135-24201320-2480
1430-11301410-1110
15600001550000
1630113016101110
175242017202480
181399183039270
Итого132118170720

.

На математических свойствах дисперсии основываются способы, которые позволяют упростить ее вычисление. Например, расчет дисперсии по способу моментов или способу отсчета от условного нуля применяется в вариационных рядах с равными интервалами. Расчет производится по формуле:

,

где K – ширина интервала;

A – условный нуль, в качестве которого удобно использовать середину интервала, обладающего наибольшей частотой;

– момент второго порядка.

Между средним линейным и средним квадратическим отклонениями существует примерное соотношение σ=12.5·d, если фактическое распределение близко к нормальному.

В условиях нормального распределения существует следующая зависимость между величиной среднего квадратического отклонения и количеством наблюдений:

1) в пределах ± 1σ располагается 68,3 % количества наблюдений;

2) в пределах ± 2σ – 95,4 %;

3) в пределах ± 3σ – 99,7 %;

В действительности, на практике почти не встречаются отклонения, которые превышают ±3σ. Отклонение 3σ может считаться максимально возможным. Это положение называют «правилом трех сигм».

Источник