Какими свойствами должны обладать оценки
Точечные оценки
Пусть x1,…,xn – выборка наблюдений случайной величины X, имеющей
распределение FX(x). При проведении ряда статистических исследований вид функции
распределения наблюдаемой случайной величины зачастую предполагается известным (например, случайная величина
имеет нормальное или биномиальное распределение). Неизвестными же являются параметры этого распределения.
Одной из задач математической статистики является оценка неизвестных параметров распределения наблюдаемой
случайной величины X по выборке x1,…, xn её наблюдений.
Параметром θ∈Θ распределения FX(x) случайной величины
X называется любая числовая характеристика этой случайной величины (математическое ожидание, дисперсия
и т.п.) или любая константа, явно входящая в выражение для функции распределения
FX(x).
В общем случае будем считать, что распределение FX(x) характеризуется
вектором параметров $theta =({{theta}_{1}},…,{{theta }_{k}})$.
Например, пусть масса деталей, изготавливаемых станком, в силу присутствия неточности работы станка является
случайной величиной X, имеющей нормальное распределение, но его параметры
${{theta }_{1}}={{m}_{X}}$ и ${{theta }_{2}}={{sigma }_{X}}$ неизвестны. Требуется найти приближённое
значение этих параметров по выборке наблюдений x1,…, xn
масс n изготовленных станком деталей.
Напомним, что любая выборка наблюдений x1,…,xn является реализацией
случайной выборки X1,…,Xn. Статистикой Z в
математической статистике называется произвольная функция случайной выборки, не зависящая от
неизвестных параметров распределения:
$Z=varphi ({{X}_{1}},…,{{X}_{n}})$.
В связи с тем, что статистика Z является функцией случайных аргументов, Z является случайной
величиной. Для каждой реализации x1,…,xn случайной выборки
X1,…,Xn получим соответствующую ей реализацию z
статистики Z:
$z=varphi ({{x}_{1}},…,{{x}_{n}})$,
называемую выборочным значением статистики Z.
Точечной оценкой
${{tilde{theta }}_{n}}$ неизвестного параметра θ∈Θ (или вектора параметров) распределения
FX(x) называется произвольная статистика ${{tilde{theta }}_{n}}$,
построенная по случайной выборке X1,…,Xn из генеральной
совокупности X и принимающая значения из множества Θ:
${{tilde{theta }}_{n}}=tilde{theta }({{X}_{1}},…,{{X}_{n}})$. | (1) |
Точечная оценка ${{tilde{theta }}_{n}}$ является случайной величиной. Для выборки
x1,…, xn может быть рассчитана реализация точечной оценки,
или выборочное значение точечной оценки, неизвестного параметра θ∈Θ. Далее точечную оценку и её
выборочное значение будем обозначать одинаково через ${{tilde{theta }}_{n}}$, при необходимости
дополнительно оговаривая, является ли ${{tilde{theta}}_{n}}$ случайной величиной или её реализацией.
В соответствии с определением (1) существует бесконечно много точечных оценок неизвестного параметра θ.
Формально точечная оценка ${{tilde{theta }}_{n}}$ может не иметь ничего общего с интересующим нас
параметром θ. Её полезность для получения практически приемлемых оценок вытекает из статистических
свойств, которыми она обладает.
Основные свойства точечных оценок.
1. Состоятельность (Consistency)
Точечная оценка ${{tilde{theta }}_{n}}=tilde{theta }({{X}_{1}},…,{{X}_{n}})$ называется
состоятельной оценкой параметра θ, если последовательность случайных величин
${{tilde{theta }}_{1}},{{tilde{theta }}_{2}},…,{{tilde{theta }}_{n}},…$ сходится по вероятности к
оцениваемому параметру θ при $nto infty $, т.е.
$forall varepsilon >0 Pleft( left| {{{tilde{theta }}}_{n}}-theta right|<varepsilon right)to 1$.
Иными словами, для состоятельной оценки вероятность её отклонения от оцениваемого параметра θ на любую малую
величину e при увеличении объёма выборки стремится к нулю. Это свойство оценки является очень важным, ибо
несостоятельная оценка практически бесполезна. Для несостоятельной оценки её значение,
рассчитанное даже для выборки очень большого объёма, может существенно отличаться от значения параметра θ, а
увеличение объёма выборки может не улучшать её качество.
Состоятельность оценки может быть проверена, используя достаточное условие состоятельности:
если $text{M}[{{tilde{theta }}_{n}}]to theta $
и $text{D}[{{tilde{theta }}_{n}}]to 0$ при $nto infty $, то оценка ${{tilde{theta }}_{n}}$
является состоятельной.
Доказательство этого утверждения следует из второго неравенства Чебышева, согласно которому
$forall varepsilon >0 Pleft( left| {{{tilde{theta }}}_{n}}-text{M}[{{{tilde{theta }}}_{n}}] right|ge varepsilon right)lefrac{text{D}[{{{tilde{theta }}}_{n}}]}{{{varepsilon }^{2}}}$.
Переходя к пределу при $nto infty $ получаем
$forall varepsilon >0 Pleft( left| {{{tilde{theta }}}_{n}}-theta right|ge varepsilon right)to 0$,
из чего следует состоятельность оценки ${{tilde{theta }}_{n}}$.
2. Несмещённость (Bias)
Точечная оценка ${{tilde{theta }}_{n}}=tilde{theta }({{X}_{1}},…,{{X}_{n}})$ называется несмещённой
оценкой параметра θ∈Θ, если её математическое ожидание равно оцениваемому параметру θ, т.е.
$text{M}[{{tilde{theta }}_{n}}]=theta $. | (2) |
Разность ${{b}_{n}}text{(}theta text{)=M}[{{tilde{theta }}_{n}}]-theta $ называется смещением
точечной оценки ${{tilde{theta }}_{n}}$.
Статистика $tilde{theta }$ называется несмещённой оценкой параметра θ, если условие (2) выполнено для
любого фиксированного объёма выборки n.
Статистика $tilde{theta }$ называется асимптотически несмещённой оценкой
параметра θ∈Θ, если числовая последовательность математических ожиданий
$text{M}[{{tilde{theta }}_{1}}],text{M}[{{tilde{theta }}_{2}}],…,text{M}[{{tilde{theta }}_{n}}],…$
сходится к оцениваемому параметру θ при $nto infty $, т.е.
$text{M}[{{tilde{theta }}_{n}}]to theta $.
Несмещённость оценки ${{tilde{theta }}_{n}}$ означает, что реализации этой оценки, рассчитанные
для различных реализаций случайной выборки X1,…,Xn объёма n,
будут группироваться в среднем около оцениваемого параметра θ.
Иллюстрация понятия несмещённости точечной оценки
Реализации несмещённой точечной оценки $tilde{theta }$ группируются около оцениваемого параметра θ,
а реализации смещённой оценки $hat{theta }$ – около величины θ + bn(θ).
3. Эффективность(Efficiency)
Для оценки параметра θ может быть предложено несколько несмещённых оценок. Вследствие несмещённости
различные реализации этих оценок будут группироваться относительно их математического ожидания,
равного θ, однако разброс этих значений может быть различным. Как известно, мерой разброса значений
случайной величины относительно математического ожидания является её дисперсия.
Пусть ${{tilde{theta }}_{n}}=tilde{theta }({{X}_{1}},…,{{X}_{n}})$ и ${{hat{theta }}_{n}}=hat{theta }({{X}_{1}},…,{{X}_{n}})$
– две несмещённые оценки параметра q по выборке объёма n. Оценка ${{tilde{theta }}_{n}}$
называется более эффективной, чем оценка ${{hat{theta }}_{n}}$, если её дисперсия меньше, т.е.
$text{D}[{{tilde{theta }}_{n}}]<text{D}[{{hat{theta }}_{n}}]$. | (3) |
Статистика $tilde{theta }$ называется более эффективной оценкой параметра θ∈Θ, чем
статистика $hat{theta }$, если условие (3) выполнено для любого
фиксированного объёма выборки n.
Если оценка ${{tilde{theta }}_{n}}$ более эффективна, чем оценка ${{hat{theta }}_{n}}$, то это означает,
что реализации оценки ${{tilde{theta}}_{n}}$, рассчитанные для различных реализаций случайной выборки
X1,…,Xn объёма n, будут иметь меньший
разброс около оцениваемого параметра θ, чем реализации менее эффективной оценки
${{hat{theta }}_{n}}$.
Иллюстрация понятия эффективности точечных оценок
Оценка параметра θ, имеющая минимально возможную дисперсию среди всех оценок, называется
эффективной оценкой параметра θ. В математической статистике наряду с термином «эффективная
оценка» используют и другие: «несмещённая оценка с минимальной дисперсией», «оптимальная оценка».
Для того чтобы ответить на вопрос, является ли статистика $tilde{theta }$ эффективной оценкой
параметра θ, используется неравенство Рао-Крамера
(Calyampudi Radhakrishna Rao,HaraldCramer, 1945):
$text{D}[tilde{theta }]ge frac{1}{{{I}_{n}}(theta )}$,
согласно которому любая оценка $tilde{theta }$ параметра θ ограничена снизу величиной
$frac{1}{{{I}_{n}}(theta )}$ при выполнении некоторых условий
регулярности (выполнены практически для всех используемых на практике оценок),
где In(θ) – количество информации по Фишеру о параметре
θ, содержащееся в выборке объёма n.
Таким образом, критерием эффективности оценки $tilde{theta }$ является обращение для неё в
равенство неравенства Рао-Крамера.
Эффективностью оценки $tilde{theta }$ параметра θ называется отношение
$e({tilde{theta }})=frac{1/{{I}_{n}}(theta )}{text{D}[tilde{theta }]}$.
Согласно неравенству Рао-Крамера эффективность любой точечной оценки ограничена сверху единицей, а для
эффективных оценок $e({tilde{theta }})=1$.
При выполнении условий регулярности каждый элемент независимой случайной выборки
X1,…,Xn вносит равный вклад в
информацию Фишера In(θ), т.е.
${{I}_{n}}(theta )=nI(theta )$, | (4) |
где I(θ) – количество информации по Фишеру о параметре θ, содержащееся
в одном выборочном наблюдении.
Величина информации по Фишеру зависит от вида распределения генеральной совокупности X. Так, выборки,
полученные из генеральных совокупностей с разными распределениями (например, нормальным и биномиальным)
будут содержать различное количество информации о неизвестных математическом ожидании или дисперсии.
Чем больше информации по Фишеру о параметре θ содержится в выборочных наблюдениях, тем меньший разброс
имеют реализации эффективной оценки этого параметра, а следовательно, являются более точными.
Формально информация по Фишеру о параметре θ, содержащаяся в одном выборочном наблюдении из генеральной
совокупности с функцией плотности распределения fX(x, θ), рассчитывается по формуле
$I(theta )=text{M}left[ U{{(X,theta )}^{2}} right]$, | (5) |
где функция
$U(x,theta )=frac{partial }{partial theta }ln {{f}_{X}}(x,theta )$
называется вкладом выборки.
В случае дискретной генеральной совокупности с распределением вероятностей P(x, θ),
$sumlimits_{x}{P(x,theta )}=1$, вклад выборки определяется как
$U(x,theta )=frac{partial }{partial theta }ln P(x,theta )$. | (6) |
Статистика $tilde{theta }$ является асимптотическиэффективной оценкой
параметра θ, если последовательность дисперсий
$text{D}[{{tilde{theta }}_{1}}],text{D}[{{tilde{theta }}_{2}}],…,text{D}[{{tilde{theta }}_{n}}],…$
сходится к величине, обратной информации Фишера при $nto infty $, т.е.
$text{D}[{{tilde{theta }}_{n}}]to frac{1}{{{I}_{n}}(theta )}$.
Пример 1
Пример 2
Пример 3
Пример 4
Источник
Для оценки одного и того же параметра можно построить, исходя из выборки различные оценки. Например, чтобы оценить математическое ожидание , можно рассматривать либо среднее арифметическое из выборочных данных, либо полусумму наибольшего и наименьшего наблюдений, либо какую-нибудь другую функцию от выборки. В связи с этим возникает вопрос о требованиях, которые следует предъявлять к оценкам параметров распределения, чтобы они были в каком-то определенном смысле наилучшими. Эти требования выражаются следующими свойствами оценок: несмещенностью, состоятельностью и эффективностью.
Всякая оценка неизвестного параметра по выборке является функцией от выборочных данных . Величины можно рассматривать как случайные величины. Поэтому и оценка является случайной величиной. В этой связи, можно говорить о распределении и числовых характеристиках как выборочных данных, так и оценок.
Поскольку наблюдения над случайным признаком Х предполагаются независимыми, то их результаты , рассматриваемые как случайные величины, будут независимыми и одинаково распределенными со случайной величиной Х. Все числовые характеристики случайных величин и Х совпадают. В частности,
,
.
Оценка параметра называется несмещенной, если математическое ожидание оценки совпадает с оцениваемым параметром :
.
В противном случае оценка называется смещенной. Условие несмещенности также называют условием отсутствия систематических ошибок , и его смысл состоит в том, что при многократном использовании вместо параметра его оценки среднее значение приближения равно нулю.
Если оценка является смещенной, то, вычислив ее математическое ожидание и введя поправочный коэффициент, можно получить несмещенную оценку.
Докажем, что несмещенной оценкой генеральной (теоретической) средней является выборочная средняя .
В самом деле, в силу свойств математического ожидания
.
Теперь рассмотрим выборочную дисперсию
Таким образом, где .
Так как (i = 1, 2, …, k) и , то по свойствам математического ожидания и дисперсии получаем
.
В силу независимости и равенства имеем
.
Подставляя выражение для в выражение для , получаем
.
Таким образом, выборочная дисперсия является смещенной оценкой для теоретической (генеральной) дисперсии .
Несмещенной оценкой теоретической дисперсии является величина
,
называемая исправленной выборочной дисперсией.
Докажем, что если известна генеральная средняя а, то несмещенной оценкой теоретической дисперсии является величина
.
В самом деле, используя свойства математического ожидания, определение дисперсии, равенства и , получим
.
Оценка параметра называется состоятельной, если с ростом объема выборки n она сходится по вероятности к оцениваемому параметру :
при любом сколь угодно малом.
Имеют место следующие факты:
- Выборочная средняя является состоятельной оценкой теоретической средней , поскольку согласно закону больших чисел среднее арифметическое n независимых одинаково распределенных случайных величин сходится по вероятности при к их общему математическому ожиданию :
;
- При известной теоретической средней выборочная дисперсия является состоятельной оценкой теоретической дисперсии . Действительно, согласно закону больших чисел, среднее арифметическое n независимых одинаково распределенных случайных величин сходится по вероятности при к их общему математическому ожиданию :
;
Требование состоятельности оценки является по существу минимальным требованием, которое обычно предъявляется к оценкам. Условие состоятельности представляется необходимым для того, чтобы оценка имела практический смысл, так как в противном случае увеличение объема исходной информации не будет приближать нас к оцениваемой величине.
Представим себе, что мы имеем две несмещенные и состоятельные оценки и неизвестного параметра . Разумеется, мы хотели бы выбрать ту из них, которая ближе к параметру . Поскольку величины и случайные, то не приходится говорить об обычной мере «близости» и к : случайные величины и характеризуются множеством возможных значений. Для того, чтобы оценка была возможна ближе к параметру , необходимо, чтобы разброс значений величины около был возможно меньшим. Наиболее удобной и распространенной мерой разброса служит математическое ожидание , совпадающая для несмещенных оценок (для которых ) с дисперсией .
Оценка параметра называется более эффективной, чем , если . Для несмещенных оценок и последнее неравенство перепишется в виде . В силу сказанного выше наилучшей оценкой параметра среди всех несмещенных оценок является та из них, которая обладает минимальной дисперсией. Такая оценка называется эффективной.
Контрольные вопросы
1. В чем состоит разница в понятиях: выборочная характеристика и теоретическая характеристика?
2. Что такое точечная оценка параметра распределения?
3. Как определяется выборочная средняя?
4. Что характеризует выборочная средняя?
5. Как определяется выборочная дисперсия?
6. Что характеризует выборочная дисперсия?
7. Какие требования предъявляются к оценкам параметров?
8. Как определяется несмещенная статистическая оценка?
9. Что является несмещенной оценкой для: а) теоретической (генеральной) средней; б) теоретической (генеральной) дисперсии?
10. Как определяется состоятельная статистическая оценка?
11. Как определяется эффективная статистическая оценка?
Контрольные задания
1. В результате 10 измерений длины стержня одним прибором получены следующие результаты (в мм): 100, 95, 103, 94, 102, 98, 95, 105, 106, 96. Найти оценки: а) длины стрежня; б) дисперсии и среднего квадратического отклонения ошибок прибора. Предполагается, что среднее значение результатов измерений примерно совпадает с истинной длиной стрежня.
2. Даны результаты 10 независимых исследований одной и той же величины прибором, не имеющим систематических ошибок (в мм): 369, 378, 420, 385, 401, 372, 383, 405, 370, 415. Определить несмещенную оценку дисперсии ошибок измерений, если истинная длина измеряемой величины: а) известна и равна 375 мм; б) неизвестна.
Источник
Эконометрика занимается в основном оценкой параметров экономических зависимостей и проверкой гипотез, относящихся к этим параметрам. Например, вновь рассмотрим простейшую кейнсианскую функцию потребления, связывающую потребление с доходом:
(1.13)
В экономической теории предлагается линейная форма функции потребления и даже обосновывается наличие ограничений на параметры. Например, если интерпретировать как автономное потребление, а — как предельную склонность к потреблению, то разумно считать, что
Однако экономическая теория обычно не отвечает на вопрос о точных значениях параметров модели. Даже если точное значение параметра теоретически обосновано, эконометрист все равно может интересоваться оценкой параметра с целью проверки соответствия эмпирических данных и теоретических результатов. Таким образом, Назначение эконометрики состоит в том, чтобы получать оценки неизвестных параметров в эмпирических экономических моделях и проверять связанные с ними гипотезы.
Например, используя ежегодные данные за период 1929- 1940 гг. о совокупном потреблении и доходе в США и учитывая инфляцию и рост населения, можно получить следующую оценку уравнения (1.13):
(1.14)
Таким образом, оценки автономного потребления и предельной склонности к потреблению составили, соответственно 11,45 и 0,78. Эти числа получены по определенным эконометрическим формулам. По традиции, сложившейся в русскоязычной литературе, как сами эти формулы, так и результаты вычислений по ним, называются оценками. В то же время в английской терминологии используются два разных понятия: estimator — оценка, «оценщик», т. е. формула для оценивания, и estimate — оценка, оцененное значение, т. е. результат оценивания.
Вообще говоря, для оценивания одних и тех же параметров эконометрической модели могут быть предложены различные формулы (методы), которые, очевидно, будут приводить к разным результатам. Одни из них могут быть явно хуже других, но в некоторых случаях предпочтительность одних оценок перед другими не так очевидна. Таким образом, необходимо иметь набор формальных критериев, по которым можно было бы «проверить качество» методов оценивания.
1.4.1. Распределение оценки Рассмотрим модель:
(1.15)
где , — белый шум.
Уравнение (1.15) задает предполагаемый процесс генерации значений . Выберем какой-нибудь метод оценивания параметра и обозначим соответствующую формулу для оценки через . По конкретным наблюдённым значениям временных рядов у и х можно получить конкретное значение оценки. Однако данные временные ряды — это одна из возможных реализаций случайных процессов, поэтому, рассуждая теоретически, мы могли бы вместо данной реализации иметь несколько другую реализацию и (на основе той же самой формулы ) Получить другой числовой результат. Теоретически значение оценки будет меняться в зависимости от различных реализаций. Это служит основанием для того, чтобы считать, что оценка является случайной величиной, имеющей неконтролируемый разброс, обусловленный случайностью механизма формирования наблюдаемого временного ряда. Так мы приходим к понятию Распределения Оценки, которое задается законом распределения вероятностей случайной величины и позволяет вычислить вероятность попадания оценки в любой указанный интервал.
Для конкретности предположим, что х является по сути детерминированной (неслучайной) переменной с заранее заданными фиксированными значениями: например, х может быть временным параметром со значениями 1, 2, 3, …, П. Тогда, воспользовавшись генератором случайных чисел, мы могли бы произвести серию, например, из 2500 экспериментов Монте — Карло, Генерируя в каждом из них реализацию ряда случайных ошибок
, длиной П. Имея фиксированный временной ряд для Х И используя уравнение (1.15), в котором значение зафиксировано, например, на уровне =З,5, можно рассчитать 2500 временных рядов для У. Поскольку в ходе проведения эксперимента истинное значение известно, то, построив 2500 реализаций оценки по Повторным выборкам, Можно определить характер распределения значений оценки по отношению к . Для этого строится гистограмма значений оценки, которая является эмпирической аппроксимацией ее теоретического закона распределения. Метод Монте-Карло используется для построения Эмпирического распределения Оценки в том случае, когда модель или метод оценивания особенно сложны и поведение оценки не под- дается теоретическому анализу. Однако часто свойства распределения оценки можно вывести, считая, что для модели выполняются те или иные предположения.
Качество оценки (метода оценивания) обычно проверяется путем анализа свойств ее распределения. В частности, метод оценивания будет очевидно предпочтительнее, если вероятность того, что он даст оценку, близкую к истинному (но неизвестному) значению оцениваемого параметра, будет достаточно велика.
1.4.2. Несмещенность
Первое из рассматриваемых свойств — несмещенность. Оценка параметра называется Несмещенной, Если ее математическое ожидание равно истинному значению оцениваемого параметра. Это означает, что положительные и отрицательные отклонения значений оценки, полученные (по разным выборкам), взаимно компенсируются», т. е. осреднение (по все возможным выборкам) значений оценки дает истинное значение параметров.
Разумеется, не всякая оценка является несмещенной. Назовем Смещением оценки Разность между ее математическим ожиданием и истинным значением оцениваемого параметра:
(1.16)
При В 0 оценка является Смещенной. Ясно, что при наличии достаточно большого смещения и относительно малого разброса (дисперсии) оценки вокруг своего математического ожидания значения оценки не будут концентрироваться рядом с истинным значением параметра. Таким образом, использование несмещенных оценок часто оказывается более предпочтительным.
Рассмотрим теперь две оценки одного и того же параметра, распределения которых обладают следующими свойствами: — несмещенная оценка с большой дисперсией; — оценка с небольшим смещением, но сравнительно малой дисперсией. В данном случае более предпочтительной будет оценка , поскольку ее значения, вычисленные по различным выборкам (теоретически возможным при повторениях наблюдений), будут чаще оказываться в окрестности истинного значения параметра . Данный пример подчеркивает важную роль дисперсии оценки как измерителя качества оценивания.
1.4.3. Наилучшая несмещенная оценка
Как было показано выше, решение О Том, какой метод оценивания «лучше», должно основываться на рассмотрении не только математических ожиданий оценок, но и их дисперсий. Однако говорить об оценке с «минимально возможной> дисперсией следует с осторожностью.
Предположим, например, что для оценки параметра в модели (1.15) Используется оценка =123,4 , принимающая одно и то же значение вне зависимости от содержательного смысла задачи или имеющихся выборочных данных. Поскольку эта оценка не меняется, ее дисперсия равна нулю наименьшему из возможных значений. По этой причине, очевидно, необходимо ограничить поиск минимальной дисперсии каким-либо классом оценок. Обычно это достигается за счет рассмотрения только несмещенных оценок.
Рассмотрим две несмещенные оценки, одна из которых () Имеет распределение с меньшей дисперсией, чем другая оценка (). Ясно, что более приемлем метод оценивания по формуле , так как она чаще будет давать оценку, близкую к истинному значению оцениваемого параметра, чем .
Оценка, которая имеет наименьшую дисперсию среди оценок некоторого класса, называется Наиболее эффективной Или Наилучшей В этом классе.
Вообще говоря, существует общий подход к выбору оценок — Принцип максимального правдоподобия, Использование которого во многих ситуациях позволяет получать наилучшую несмещенную оценку, если она существует. Однако часто бывает удобно ограничиться рассмотрением оценок, являющихся линейными функциями ошибок. Оценка, которая является Линейной, Несмещенной и имеет наименьшую дисперсию среди всех линейных несмещенных оценок, называется Наилучшей линейной несмещенной оценкой.
Если мы оцениваем более чем один параметр, то понятие эффективности необходимо уточнить. При наличии двух оценок и K-мерного векторного параметра обычно сравнивают ковариационные матрицы этих оценок, имеющие размерности K K. Если разность ковариационных матриц Var() — Var() неотрицательно
определена, то говорят, что векторная оценка является более эффективной, чем .
1.4.4. Асиiiптотические свойства оценок
Следует подчеркнуть, что рассмотренные выше теоретические свойства «хорошей» оценки (несмещенность, эффективность) должны выполняться при любом фиксированном объеме выборочных наблюдений, используемых при ее вычислении. Так, например, математическое ожидание несмещенной оценки должно совпадать с оцениваемым параметром вне зависимости от количества имеющихся наблюдений. Однако во многих случаях оценка с такими свойствами не существует. Тогда следует обратиться К асимптотическим Свойствам оценки, т. е. посмотреть, как она ведет себя, когда используется очень большое (неограниченно растущее) количество выборочных наблюдений. Иногда, если известны только асимптотические свойства рассматриваемой оценки, ее поведение при малых объемах выборки исследуют путем имитации подходящего механизма получения данных с помощью метода Монте-Карло.
Интуитивное представление о том, чем занимается асимптотическая теория, можно получить с помощью все тех же экспериментов Монте-Карло. Пусть данные формируются в соответствии с уравнением (1.15) При заданном значении параметра , причем объясняющая переменная х имеет неслучайный характер (например, является временем) и, таким образом, список ее значений заранее известен и фиксирован. При заданном объеме выборки Т Первый шаг процедуры Монте-Карло состоит в генерации последовательности значений случайных ошибок , t = ( 1, 2, …, Т И соответствующих значений зависимой переменной . На втором шаге по полученным данным и известной формуле оценочной функции вычисляется значение оценки параметра . Многократное повторение этой двух шаговой процедуры (при одном и том же объеме выборки Т) позволит получить достаточно длинную серию реализаций оценки и построить по ней гистограмму распределения этой оценки.
Изложенная процедура многократной генерации временных рядов и у определенной длины Т с последующим вычислением гистограммы распределения оценки может быть реализована для некоторого начального значения Т = Т0, например, для 100 наблюдений. Далее такие же эксперименты Монте-Карло можно повторить для Т = Т0 + 1, затем для Т = Т0 + 2 и так далее, увеличивая Т. При каждом значении Т будет получено отдельное эмпирическое распределение, соответствующее оценке . Если свойства оценки не зависят от объема выборки Т, то гистограммы распределений будут выглядеть практически одинаково. Если же объем выборки сказывается на поведении оценки, то вид распределений (их форма и/или положение) будет меняться при росте Т.
Осуществление подобных компьютерных экспериментов необходимо далеко не всегда. Во многих случаях поведение оценок при больших Т можно исследовать математически. Свойства оценок, полученные при , называются асимптотическими свойствами.
Как мы упоминали ранее, форма и положение эмпирического распределения для малых значений Т может рассматриваться для того, чтобы проверить свойства оценки при малом объеме выборки, если они не могут быть получены математически. Заметим, что последовательность , T=T0, Т0 + 1, Т0 + 2 …, где обозначает оценку (формулу для оценивания), вычисляемую по выборке объема Т, сама является случайным процессом, так как каждый член этой последовательности — случайная величина, принимающая те или иные значения в зависимости от конкретной реализации наблюдаемых временных рядов.
Предел распределения оценки, если он существует, при стремлении Т к бесконечности, называется асимптотическим распре делением оценки. Если математическое ожидание оценки стремится к истинному значению оцениваемого параметра, то оценка называется асимптотически несмещенной. Однако чаще нас будет интересовать другое асимптотическое свойство — состоятельность. Образно говоря, оценка называется состоятельной, если по мере увеличения числа наблюдений Т Значения (распределение значений) оценки все сильнее концентрируются вокруг истинного значения параметра. Формально Состоятельность Означает, что вероятность того, что разность между значением оценки и истинным значением параметра превзойдет произвольно заданную (сколь угодно малую) величину, должна стремиться к нулю при стремлении объема выборки к бесконечности:
(1.17)
Если оценка состоятельна, т. е. для нее выполняется предельное соотношение (1.17), То говорят, что ее Предел по вероятности Равен истинному значению оцениваемого параметра, и пишут
(1.18)
Таким образом, «состоятельность» и «сходимость по вероятности» — это синонимы.
Если оценивается вектор параметров, то оценка считается состоятельной, если каждая компонента вектора оценок сходится по вероятности к соответствующей компоненте вектора истинных значений параметров.
Пусть имеется две оценки, вычисляемые по выборке объема Т, и такие, что наряду с соотношением (1.18) Выполняется также
(1.19)
Тогда справедливы следующие свойства пределов по вероятности:
Если — константа, то
(1.20,е)
Если — непрерывная функция, то
(1.20,F)
Утверждение (1.20,F) называется теоремой Слуцкого. Оно справедливо не только в случае одного числового параметра , но и если — вектор. Тогда — непрерывная функция соответствующего числа аргументов. Легко заметить, что свойства (1.20, а), (1.20, b), (1.20, c) и (1.20, d) являются следствиями теоремы Слуцкого.
Следует обратить внимание на различия между понятиями математического ожидания и дисперсии асимптотического распределения оценки при Т , пределами математического ожидания и дисперсии оценки при Т и пределом по вероятности оценки при Т.
В некоторых случаях пределы математического ожидания и дисперсии оценки при Т могут не существовать, в то время как математическое ожидание и дисперсия асимптотического распределения существуют, поэтому использование моментов асимптотического распределения считается более удобным.
Достаточное условие состоятельности оценки состоит в том, чтобы среднее асимптотического распределения было равно истинному значению параметра и дисперсия асимптотического распределения равнялась нулю. Приведем пример, показывающий, что это условие не является необходимым.
Предположим, что распределение оценки при фиксированном объеме выборки Т с вероятностью, практически равной единице, концентрируется в малой окрестности точки , а с оставшейся (почти нулевой) вероятностью может принимать значения близкие к Т. Точнее, пусть
и
Для простоты дальнейших выкладок будем дополнительно считать, что оценка имеет функцию плотности, которая принимает значение Т — 1 на отрезке длины 1/Т с центром в. т. очке , значение 1 на отрезке длины 1/Т с центром в точке Т и значение 0 в остальных случаях. Ясно, что такая оценка является состоятельной, так как
при . в результате прямых вычислений нетрудно получить следующие результаты:
и
Таким образом, предел математического ожидания оценки не совпадает с истинным значением оцениваемого параметра (асимптотической несмещенность нет) и, более того, асимптотически дисперсия оценки бесконечно велика, тем не менее оценка является состоятельной.
Источник