WWW.DISSERS.RU

БЕСПЛАТНАЯ ЭЛЕКТРОННАЯ БИБЛИОТЕКА

   Добро пожаловать!

Pages:     | 1 |   ...   | 26 | 27 || 29 | 30 |   ...   | 82 |

Z e =0. (7.18) Доказательство наличия этого свойства получается как побочный результат при выводе оператора оценивания (7.12) путем приравнивания нулю производных остаточной дисперсии по параметрам регрессии, как это делалось в п. 6.2.

Поскольку последним столбцом матрицы Z является 1N, из (7.18) следует, что 1 e =0, (7.19) N т.е. =0. Из остальной части (7.18):

Z e =0, (7.20) что в данном случае означает, что cov(Z, e) =0.

Действительно, раскрывая (7.20):

(7.15) Z e = Z e + 1 e = Z e =0.

z N -=226 Глава 7. Основная модель линейной регрессии Таким образом, (7.18) эквивалентно (7.7).

Однако уравнения (7.10) допускают и иную интерпретацию. Если последним в Z является не 1N, а столбец «обычной» переменной, то это — регрессия без свободного члена. В таком случае из (7.18) не следует (7.19), и свойства (7.7) не выполняются. Кроме того, для такой регрессии, очевидно, не возможна сокращенная запись уравнения. Этот случай в дальнейшем не рассматривается.

В дальнейшем будет применяться в основном форма записи уравнения со скрытым свободным членом, но чтобы не загромождать изложение материала, символ «» будет опускаться, т.е. соотношения (7.10, 7.11, 7.12, 7.13, 7.18) будут использоваться в форме X = Z +, (7.21) X = Za + e, (7.22) a = M-1m, (7.23) -a = Z Z Z X, (7.24) Z e =0. (7.25) Случаи, когда a, Z, m, M означают не a, Z, m, M, а собственно a, Z, m, M, будут оговариваться специально.

7.2. Основные гипотезы, свойства оценок Применение основной модели линейной регрессии корректно, если выполняются следующие гипотезы:

g1. Между переменными x и z существует линейная зависимость, и (7.10) является истинной моделью, т.е., в частности, правильно определен набор факторов z — модель верно специфицирована.

g2. Переменные z детерминированы, наблюдаются без ошибок и линейно независимы.

g3. E() =0.

g4. E ( ) =2IN.

Гипотеза g2 является слишком жесткой и в экономике чаще всего нарушается.

Возможности ослабления этого требования рассматриваются в следующей главе.

Здесь можно заметить следующее: в тех разделах математической статистики, в которых рассматривается более общий случай, и z также случайны, предполагается, что не зависит от этих переменных-регрессоров.

7.2. Основные гипотезы, свойства оценок В этих предположениях a относится к классу линейных оценок, поскольку a = LX, (7.26) (7.13) где L = (Z Z)-1 Z — детерминированная матрица размерности (n +1) N, и доказывается ряд утверждений о свойствах этих МНК-оценок.

1) a — несмещенная оценка.

Действительно:

(7.26), g1 LZ=In+a = L (Z + ) =LZ + L = + L (7.27) и gE (a) =.

2) Ее матрица ковариации Ma удовлетворяет следующему соотношению:

Ma = 2M-1, (7.28) N в частности, 2 2 aj = m-1, j =1,..., n+1 (an+1 b ), jj N где m-1 — j-й диагональный элемент матрицы M-1.

jj Действительно:

(7.27) gMa = E ((a - )(a - ) ) = E (L L ) = 2LL = 2 (Z Z)-1= 2M-1.

N 2 Этот результат при n =1 означает, что a =, иегоможнополучить, испольN sz зуя формулу (5.17) распространения ошибок первичных измерений.

zi - z Действительно, a = di (xi - x), гд е di =. Тогд а (zi - z) N a = - dl +di = di xi N l=----=и в соответствии с указанной формулой:

(zi - z)2 2 2 a = 2 d2 = 2 =.

2 = i (zi - z)2 N s z (zi - z) 228 Глава 7. Основная модель линейной регрессии Здесь важно отметить следующее.

Данная формула верна и в случае использования исходной или сокращенной записи уравнения регрессии, когда M — матрица ковариации регрессоров. Это следует из (7.17). Но в такой ситуации она (эта формула) определяет матрицу ковариации только оценок коэффициентов регрессии при объясняющих переменных, а дис персию оценки свободного члена можно определить по формуле 1+ M-1z, z N как это следует также из (7.17).

Следует также обратить внимание на то, что несмещенность оценок при учете только что полученной зависимости их дисперсий от N свидетельствует о состоятельности этих оценок.

Иногда формулу (7.28) используют в другой форме:

-Ma = 2 Z Z. (7.29) 3) Несмещенной оценкой остаточной дисперсии 2 является N 2 = s2 = e e. (7.30) e e N - n - 1 N - n - Для доказательства этого факта сначала устанавливается зависимость МНК-оценок ошибок от их истинных значений, аналогично (5.10):

g1, (7.27) e = X - Za = Z + - Z ( + L) =(IN - ZL) = B, (7.31) и устанавливаются свойства матрицы B (аналогично тому, как это делалось в п. 5.1) B = IN - ZL = IN - Z (Z Z)-1 Z = IN - ZM-1Z. (7.32) N Эта матрица:

а) вещественна и симметрична: B = B, б) вырождена и имеет ранг N - n - 1, т.к. при любом =0 выполняется BZ = (7.32) (поскольку BZ = 0), а в множестве Z в соответствии с g2 имеется точно n +линейно независимых векторов, в) идемпотентна: B2 = B, г) положительно полуопределена в силу симметричности и идемпотентности:

B = B2 = B B 0.

Теперь исследуется зависимость остаточной дисперсии от 2:

1 (7.31) 1 s2 = e e = B B = B, e N N N 1 gE s2 = E ( B) = tr (B), (7.33) e N N - bii 7.2. Основные гипотезы, свойства оценок где tr(·)— операция следа матрицы, результатом которой является сумма ее диагональных элементов.

Далее, в силу коммутативности операции следа матрицы tr (B) =tr (IN ) - tr (ZL) =N - tr (LZ) = N - n - 1.

In+(См. Приложение A.1.2.) N - n - 1 Таким образом, E s2 = 2, и E e e = 2.

e N N - n - Что и требовалось доказать.

Тогда оценкой матрицы ковариации Ma является (в разных вариантах расчета) -2 e e e e e M-1 = M-1 = Z Z, (7.34) N N (N - n - 1) N - n - и, соответственно, несмещенными оценками дисперсий (квадратов ошибок) оценок параметров регрессии:

e e 2 = m-1, j =1,..., n+1 (s2 s2). (7.35) aj jj an+1 b N (N - n - 1) 4) Дисперсии a являются наименьшими в классе линейных несмещенных оценок, т.е. оценки a относятся к классу BLUE (см. п. 5.1). Это утверждение называется теоремой Гаусса—Маркова.

Доказательство этого факта будет проведено для оценки величины c, гд е c — любой детерминированный вектор-столбец размерности n +1. Если в качестве c выбирать орты, данный факт будет относиться к отдельным параметрам регрессии.

(7.26) МНК-оценка этой величины есть c a = c LX, она линейна, не смещена, т.к. E (c a) =c, и ее дисперсия определяется следующим образом:

(7.28) var (c a) = c M-1c. (7.36) N Пусть d X — любая линейная оценка c,где d — некоторый детерминированный вектор-столбец размерности N.

g1 gE (d X) = E (d Z + d ) = d Z, (7.37) ид лятого, чтобыэтаоценкабыланесмещенной, т.е. чтобы d Z = c, необход имо d Z = c. (7.38) 230 Глава 7. Основная модель линейной регрессии Из (7.37) следует, что d X = E (d X) +d, итогд а gvar (d X) =E((d X - E(d X) ) =E (d d) = 2d d. (7.39) --------) d И, наконец, в силу положительной полуопределенности матрицы B (из (7.32)):

(7.36,7.40) 2 (7.38) var (d X) - var (c a) = 2d d - c M-1c = N 1 (7.32) = 2d IN - ZM-1Z d = 2d Bd 0, N т.е. дисперсия МНК-оценки меньше либо равна дисперсии любой другой оценки в классе линейных несмещенных.

Что и требовалось доказать.

Теперь вводится еще одна гипотеза:

g5. Ошибки имеют многомерное нормальное распределение:

N 0, 2IN.

(Поскольку по предположению g4 они некоррелированы, то по свойству многомерного нормального распределения они независимы).

Тогда оценки a будут также иметь нормальное распределение:

a N (, Ma), (7.40) в частности, aj N j, aj, j =1,..., n+1 (an+1 b, n+1 ), они совпадут с оценками максимального правдоподобия, что гарантирует их состоятельность и эффективность (а не только эффективность в классе линейных несмещенных оценок).

Применение метода максимального правдоподобия в линейной регрессии рассматривается в IV-й части книги. Здесь внимание сосредоточивается на других важных следствиях нормальности ошибок.

Поскольку aj - j N (0, 1), (7.41) aj для j можно построить (1 - )100-процентный доверительный интервал:

j aj ± aj 1-. (7.42) 7.2. Основные гипотезы, свойства оценок Чтобы воспользоваться этой формулой, необходимо знать истинное значение остаточной дисперсии 2, но известна только ее оценка. Для получения соответствующей формулы в операциональной форме, как и в п. 5.1, проводятся следующие действия.

Сначала доказывается, что e e 2. (7.43) 2 N-n-Это доказательство проводится так же, как и в пункте 5.1 для (5.9). Только теперь матрица B, связывающая в (7.31) оценки ошибок с их истинными значениями, имеет ранг N - n - 1 (см. свойства матрицы B, следующие из (7.32)), а не N - 1, как аналогичная матрица в (5.10).

Затем обращается внимание на то, что e и a не коррелированы, а значит, не коррелированы случайные величины в (7.41, 7.43).

Действительно (как и в 5.1):

(7.27) a - = L и (7.31) gcov (a, e) =E ((a - )e ) = E (L B) = 2 (Z Z)-1 Z B =0.

=Что и требовалось доказать.

Поэтому по определению случайной величины, имеющей t-распределение:

(aj - j) N e e (7.35) aj - j / (N - n - 1) = tN-n-1. (7.44) 2 aj m-jj Таким образом, для получения операциональной формы доверительного интер вала в (7.42) необходимо заменить aj на aj и 1- на tN-n-1,1-:

j aj ± aj tN-n-1,1-. (7.45) Полезно заметить, что данный в этом пункте материал обобщает результаты, полученные в п. 5.1. Так, многие приведенные здесь формулы при n = 0 преобразуются в соответствующие формулы п. 5.1. Полученные результаты можно использовать также и для проверки гипотезы о том, что j =0 (нулевая гипотеза).

232 Глава 7. Основная модель линейной регрессии Рассчитывается t-статистика aj tc =, (7.46) j aj которая в рамках нулевой гипотезы, как это следует из (7.44), имеет t-распределение.

Проверка нулевой гипотезы осуществляется по схеме, неоднократно применяемой в I части книги. В частности, если уровень значимости t-статистики sl (напоминание: sl таково, что tc = tN-n-1,sl)непревышает (обычно 0.05), то нулевая j гипотеза отвергается с ошибкой (1-го рода) и принимается, что j =0. Впро тивном случае, если нулевую гипотезу не удалось отвергнуть, считается, что j-й фактор не значим, и его не следует вводить в модель.

Операции построения доверительного интервала и проверки нулевой гипотезы в данном случае в определенном смысле эквивалентны. Так, если построенный доверительный интервал содержит нуль, то нулевая гипотеза не отвергается, и наоборот.

Гипотеза о нормальности ошибок позволяет проверить еще один тип нулевой гипотезы: j =0, j =1,..., n, т.е. гипотезы о том, что модель некорректна и все факторы введены в нее ошибочно.

При построении критерия проверки данной гипотезы уравнение регрессии используется в сокращенной форме, и условие (7.40) записывается в следующей форме:

a N, M-1, (7.47) N где a и — вектора коэффициентов при факторных переменных размерности n, M — матрица ковариации факторных переменных. Тогда N a - M (a - ) 2. (7.48) n Действительно:

Матрица M-1 вследза M является вещественной, симметричной и положительно полуопределенной, поэтому ее всегда можно представить в виде:

M-1 = CC, (7.49) где C — квадратная неособенная матрица.

Чтобы убедиться в этом, достаточно вспомнить (6.29) и записать аналогичные со отношения: M-1Y = Y, Y Y = YY = In, 0, гд е Y — матрица, столбцы 7.2. Основные гипотезы, свойства оценок которой есть собственные вектора M-1, — диагональная матрица соответствующих собственных чисел. Тогда M-1 = Y Y = Y 0.5 0.5Y ----C C (см. Приложение A.1.2).

N Вектор случайных величин u = C-1(a-) обладает следующими свойствами:

по построению E(u) =0, и в силу того, что (7.47) E ((a - )(a - ) ) = M-1, N N (7.49) cov(u) =E (uu ) = C-1E ((a - )(a - ) ) C -1 = C-1M-1C -1 = In.

Следовательно, по определению 2 случайная величина N u u = (a - ) C -1C-1 (a - ) 2 ----M имеет указанное распределение (см. Приложение A.3.2).

Как было показано выше, e и a не коррелированы, поэтому не коррелированы случайные величины, определенные в (7.43, 7.48), и в соответствии с определением случайной величины, имеющей F -распределение:

N e e a - M (a - )(N - n - 1) n Fn, N-n-1.

2 Отсюда следует, что при нулевой гипотезе =s2 (N a Ma (N - n - 1) (7.9) - n - 1) q = Fn, N-n-1, (e e) n s2n e N или R2 (N - n - 1) c = F Fn, N-n-1. (7.50) (1 - R2) n Сама проверка нулевой гипотезы проводится по обычной схеме. Так, если знаc чение вероятности pv статистики F (величина, аналогичная sl для t-статистики) не превышает (например, 0.05), нулевая гипотеза отвергается с вероятностью ошибки, и модель считается корректной. В противном случае нулевая гипотеза не отвергается, и модель следует пересмотреть.

234 Глава 7. Основная модель линейной регрессии 7.3. Независимые факторы: спецификация модели В этом пункте используется модель линейной регрессии в сокращенной форме, поэтому переменные берутся в центрированной форме, а m и M — вектор и матрица соответствующих коэффициентов ковариации переменных.

Под спецификацией модели в данном случае понимается процесс и результат определения набора независимых факторов. При построении эконометрической модели этот набор должен обосновываться экономической теорией. Но это удается не во всех случаях. Во-первых, не все факторы, важные с теоретической точки зрения, удается количественно выразить. Во-вторых, эмпирический анализ часто предшествует попыткам построения теоретической модели, и этот набор просто неизвестен. Потому важную роль играют и методы формального отбора факторов, также рассматриваемые в этом пункте.

В соответствии с гипотезой g2 факторные переменные не должны быть линейно зависимыми. Иначе матрица M в операторе МНК-оценивания будет необратима. Тогда оценки МНК по формуле a = M-1m невозможно будет рассчитать, но их можно найти, решая систему нормальных уравнений (6.14):

Ma = m.

Решений такой системы нормальных уравнений (в случае необратимости матрицы M) будет бесконечно много. Следовательно, оценки нельзя найти однозначно, т.е. уравнение регрессии невозможно идентифицировать. Действительно, пусть оценено уравнение x = 1a1 + e, (7.51) где 1 — вектор-строка факторных переменных размерности n1, a1 — векторстолбец соответствующих коэффициентов регрессии, и пусть в это уравнение вводится дополнительный фактор 2, линейно зависимый от 1, т.е. 2 = 1c21.

Тогда оценка нового уравнения x = 1a + 2a2 + e (7.52) («звездочкой» помечены новые оценки «старых» величин) эквивалентна оценке уравнения x = 1 (a + a2c21) +e. Очевидно, что a1 = a + a2c21, e = e, и, про 1 извольно задавая a2, можно получать множество новых оценок a = a1 - a2c21.

Логичнее всего положить a2 =0, т.е. не вводить фактор 2. Хотя, если из содержательных соображений этот фактор следует все-таки ввести, то тогда надо исключить из уравнения какой-либо ранее введенный фактор, входящий в 1. Таким образом, вводить в модель факторы, линейно зависимые от уже введенных, бессмысленно.

Pages:     | 1 |   ...   | 26 | 27 || 29 | 30 |   ...   | 82 |



© 2011 www.dissers.ru - «Бесплатная электронная библиотека»

Материалы этого сайта размещены для ознакомления, все права принадлежат их авторам.
Если Вы не согласны с тем, что Ваш материал размещён на этом сайте, пожалуйста, напишите нам, мы в течении 1-2 рабочих дней удалим его.