WWW.DISSERS.RU

БЕСПЛАТНАЯ ЭЛЕКТРОННАЯ БИБЛИОТЕКА

   Добро пожаловать!

Pages:     | 1 |   ...   | 28 | 29 || 31 | 32 |   ...   | 82 |

xz1 z -1 -1 -mxx - m M1 m1 m M1 m - m M1 M 1 1 2 ---- ------------ a1 ce 0 I1 - - -m2 - M12M1 m1 M12M1 M2 - M12M1 Mxz1 z 10 -1 -1 -и -M1 m1 M1 -M1 M12.

00I7.3. Независимые факторы: спецификация модели Информация, используемая в шаговой регрессии, расположена в 1-й строке первой матрицы: остаточная дисперсия в текущей регрессии (в столбце x), коэффициенты a1 текущей регрессии при переменных z1 (в столбцах z1), коэффициенты ce2 ковариации текущих остатков e с переменными z2, не включенными в текущую регрессию (в столбцах z2).

Для введения очередного фактора в регрессию (шаг вперед) следует его строку в первой матрице преобразовать в орт, для исключения фактора из регрессии (шаг назад) следует преобразовать в орт его строку во второй матрице. Шаг вперед увеличивает количество элементов в векторе z1 на единицу и сокращает на единицу количество элементов в векторе z2. Шаг назад приводит к обратным изменениям.

Последствия любого из этих шагов можно оценить по F -критерию, рассчитав c показатель pv F -статистики (информацию для такого расчета дает остаточная дисперсия — первый элемент первой строки первой матрицы).

На текущем шаге процесса проверяются последствия введения всех ранее не введенных факторов z2 и исключения всех введенных факторов z1. Выбирается тот вариант, который дает минимальное значение показателя pv. Процесс заканчивается, как только этот показатель перестает падать. В результате определяется наилучшая регрессия. Такой процесс не приводит, как правило, к включению в регрессию сильно коррелированных факторов, т.е. позволяет решить проблему мультиколлинеарности.

Если бы расчеты проводились в стандартизированной шкале (по коэффициентам корреляции, а не ковариации), «кандидатом» на введение был бы фактор с максимальным значением показателя в множестве ce2 (как было показано выше), а на исключение — фактор с минимальным значением показателя в множестве a1. Но даже в этом случае для окончательного выбора (вводить-исключать) и решения вопроса о завершении процесса требуется использование F -критерия.

При «работе» с коэффициентами ковариации использование F -критерия необходимо.

На последних шагах процесса, при приближении к минимуму критериального показателя pv, его величина меняется, как правило, весьма незначительно. Поэтому один из возможных подходов к использованию шаговой регрессии заключается в определении некоторого множества регрессий, получаемых на последних шагах процесса, которые практически одинаковы по своему качеству. И на этом множестве следует делать окончательный выбор, пользуясь содержательными критериями.

Иногда процесс шаговой регрессии предлагают строить на основе t-критерия:

фактор вводится в уравнение, если его t-статистика больше некоторой заданной величины t1, выводится из уравнения, если эта статистика меньше заданной величины t2; как правило, t1 >t2. Такой процесс не гарантирует получение наилучшей 244 Глава 7. Основная модель линейной регрессии регрессии, его использовали в то время, когда вычислительные возможности были еще слабо развиты, и, в частности, точные значения показателя pv было трудно определить.

7.4. Прогнозирование Пусть получены оценки параметров уравнения (7.11). Задача прогнозирования заключается в определении возможного значения (прогноза) переменной x, объясняемой этой моделью, при некоторых заданных значениях факторов z, которые не совпадают ни с одним из наблюдений в матрице Z. Более того, как правило, z лежит вне области, представляемой матрицей Z. При этом предполагается, что гипотезы g1-g3 по-прежнему выполняются.

Обычно термин «прогнозирование» используется в случае, когда наблюдения i =1,..., N в матрице Z даны по последовательным моментам (периодам) времени, и заданные значения факторов z, для которых требуется определить прогноз x, относятся к какому-то будущему моменту времени, большему N (т.е. z лежит вне области, представляемой матрицей Z).

Методы прогнозирования могут быть различными. Если применяются относительно простые статистические методы, как в данном случае, то часто используют термин «экстраполирование». Если аналогичная задача решается для z, лежащих внутри области, представляемой наблюдениями в матрице Z (например, для «пропущенных» по каким-то причинам наблюдений), то используют термин «интерполирование». Процедуры экстраполирования и интерполирования с использованием модели (7.11) с формальной точки зрения одинаковы.

Итак, задан некоторый zr =[zr1 · · · zrn 1], который отличается от всех zi, i =1,..., N (если i — обозначает момент времени, то r >N).

xr = zr + r — истинное значение искомой величины, x0 = zr — ожидаемое значение, r xp = zra — искомый (точечный) прогноз.

r Предполагаем, что гипотезы g1-g4 выполнены как для i = 1,..., N, так и для r >N.

(7.26) Это линейный (относительно случайных величин X) прогноз: xp = zrLX, r он не смещен относительно ожидаемого значения вслед за несмещенностью a:

E (xp) =x0. Его ошибка p = xr - xp имеет нулевое математическое ожидание r r r r и дисперсию -1 p = 2 1+zr Z Z zr, (7.63) 7.4. Прогнозирование которая минимальна на множестве всех возможных линейных несмещенных прогнозов.

Действительно:

p = zr ( - a) +r.

r Поскольку случайные величины a и r не зависят друг от друга, p = E (p)2 = E (zr( - a)( - a) zr) +E 2 = r r (7.29) = zrMazr + 2 = 2 1+zr (Z Z)-1 zr.

Эта дисперсия минимальна среди всех возможных дисперсий линейных несмещенных прогнозов вслед за аналогичным свойством оценок a. Это является прямым следствием того, что оценки МНК относятся к классу BLUE. Для того чтобы в этом убедиться, достаточно в доказательстве данного свойства оценок a, которое приведено в п. 7.2, заменить c на zr.

Следует иметь в виду, что ошибка любого расчетного по модели значения xc, i являясь формально такой же: c = xi - xc, имеет также нулевое математическое i i ожидание, но принципиально другую, существенно меньшую, дисперсию:

-1 i = 2 1 - zi Z Z zi.

Видно, что эта дисперсия даже меньше остаточной.

Действительно, как и прежде: c = zi ( - a) +i. Но теперь случайные величины i a и i коррелированы и поэтому:

gE(i) = 2oi, где oi — i-й орт i = 2 1+zi (Z Z)-1 zi +2ziE(( - a)i) = --(7.27) = -L = 2 1+zi (Z Z)-1 zi - 22zi (Z Z)-1 zi = 2 1 - zi (Z Z)-1 zi.

Величины 1-zi (Z Z)-1 zi (i =1,..., N), естественно, неотрицательны, поскольку они являются диагональными элементами матрицы B из (7.32), которая положительно полуопределена.

Структуру дисперсии ошибки прогноза (7.63) можно пояснить на примере n =1. В этом случае (используются обозначения исходной формы уравнения регрессии, и все z — одномерные величины):

1 (zr - z) p = 2 1+ +. (7.64) N i 246 Глава 7. Основная модель линейной регрессии В этом легко убедиться, если перейти к обозначениям исходной формы урав нения регрессии, подставить в (7.63) вместо zr и Z, соответственно, zr и Z 1N и сделать необходимые преобразования (правило обращения матрицы (2 2) см. в Приложении A.1.2), учитывая, что - 2 1 4 -1 = и Z Z = i + Nz2 :

14 - 3 4 -3 - Nz zr p = 2 1+ zr 1 Z Z = Nz N z 1 1 zr = 2 1+ = zr Z Z - Nz - Z Z z N 2 zr - 2 + i + Nzzzr N 1 (zr - z) = 2 1+ = 2 1+ +.

2 i N i Что и требовалось доказать.

Это выражение показывает «вклады» в дисперсию ошибки прогноза собственно остаточной дисперсии, ошибки оценки свободного члена и ошибки оценки углового коэффициента. Первые две составляющие постоянны и не зависят от горизонта прогнозирования, т.е. от того, насколько сильно условия прогноза (в частности, значение zr) отличаются от условий, в которых построена модель (в частности, значение z). Третья составляющая — ошибка оценки углового коэффициента — определяет расширяющийся конус ошибки прогноза.

Мы рассмотрели точечный прогноз. Если дополнительно к гипотезам g1-gпредположить выполнение гипотезы g5 для i =1,..., N ид ля r >N, то можно построить также интервальный прогноз.

По формуле (7.27) ошибка прогноза имеет вид:

p = zr( - a) +r = zrL + r.

r Таким образом, она имеет нормальное распределение:

p = xr - xp N(0, p).

r r Если бы дисперсия ошибки 2 была известна, то на основе того, что xr - xp r N(0, 1), p 7.5. Упражнения и задачи для xr можно было бы построить (1 - )100-процентный Таблица 7.прогнозный интервал:

X Z1 Zxr [xp ± p1-].

r 65.7 26.8 Вместо неизвестной дисперсии p = 2(1+zr(Z Z)-1zr) 74.2 25.3 берется несмещенная оценка 74 25.3 s2 = 2(1 + zr(Z Z)-1zr).

p e 66.8 31.1 64.1 33.3 По аналогии с (7.44) можно вывести, что 67.7 31.2 xr - xp r tN-n-1.

sp 70.9 29.5 69.6 30.3 Тогда в приведенной формуле прогнозного интервала необ ходимо заменить p на sp и 1- на tN-n-1, 1-:

67 29.1 68.4 23.7 xr xp ± sptN-n-1, 1-.

r 70.7 15.6 69.6 13.9 7.5. Упражнения и задачи 63.1 18.8 Упражнение 48.4 27.4 По наблюдениям за объясняемой переменной X и за 55.1 26.9 объясняющими переменными Z =(Z1, Z2) из таблицы 7.1:

55.8 27.7 1.1. Вычислите ковариационную матрицу переменных z 58.2 24.5 (M = Z Z), вектор ковариаций переменных z спе64.7 22.2 N ременной x ( m = Z X), дисперсию объясняемой 73.5 19.3 N переменной s2. Для регрессии X = Za +1Nb + e най68.4 24.7 x дите оценки a и b, объясненную дисперсию s2 = m a q и остаточную дисперсию s2 = s2 - s2, а также коэфe x q фициент детерминации R2.

1.2. Запишите для данной модели уравнение регрессии в форме со скрытым сво бодным членом X = Za + e. Рассчитайте для переменных начальные моменты второго порядка двумя способами:

1 а) M = Z Z и m = Z X N N 248 Глава 7. Основная модель линейной регрессии M + z z m + x z z б) M = и m =.

z 1 x 1.3. Найдите оценку a, рассчитайте s2 = X X - x2 и s2 = m a - x2 иубеx q N дитесь, что результат совпадает с результатом пункта 1 упражнения 1.

1.4. Рассчитайте несмещенную оценку остаточной дисперсии N 2 = se e N - n - и оцените матрицу ковариации параметров уравнения регрессии e Ma = M-1.

N 1.5. Используя уровень значимости =0.05, вычислите доверительные интервалы для коэффициентов уравнения регрессии и проверьте значимость факторов.

R2(N - n - 1) c 1.6. Рассчитайте статистику F = и, используя уровень значи(1 - R2)n мости = 0.05, проверьте гипотезу о том, что модель некорректна и все факторы введены в нее ошибочно.

1.7. Рассчитайте коэффициент детерминации, скорректированный на число сте пеней свободы R2.

1.8. По найденному уравнению регрессии и значениям а) z =(min Z1, min Z2);

б) z =(Z1, Z2);

в) z =(max Z1, max Z2);

вычислите предсказанное значение для x и соответствующую интервальную оценку при =0.05.

Упражнение Дано уравнение регрессии: X = Z + = -1.410z1 +0.080z2 +56.962 120 +, где X— вектор-столбец 20 наблюдений за объясняемой переменной (20 1), — вектор-столбец случайных ошибок (20 1) с нулевым средним и ковариа ционной матрицей 2I20 =21.611I20 и Z — матрица размерности (20 3) наблюдений за объясняющими переменными. Используя нормальное распределение 7.5. Упражнения и задачи с независимыми наблюдениями, со средним 0 и ковариационной матрицей 2I20 = =21.611I20, получите 100 выборок вектора (N 1), k =1,..., 100, гд е N = = 20. Эти случайные векторы потом используйте вместе с известным вектором = (-1.410, 0.080, 56.962) и матрицей Z = (Z1, Z2, 1) из таблицы 7.1. Снача ла получите ожидаемое значения X0 = Z, затем, чтобыполучить 100 выборок вектора X (20 1), добавьте случайные ошибки: X0 + = X.

2.1. Используйте 10 из 100 выборок, чтобы получить выборочные оценки для 1, 2,, и R2.

2.2. Вычислите матрицу ковариаций параметров уравнения регрессии Ma для каждого элемента выборки и сравните с истинным значением ковариационной матрицы:

0.099813 -0.004112 -0. - 2 Z Z =.

-0.004112 0.000290 -0. -0.233234 -0.057857 39.Дайте интерпретацию диагональных элементов ковариационных матриц.

2.3. Вычислите среднее и дисперсию для 10 выборок для каждого из параметров, полученных в упражнении 2.1, и сравните эти средние значения с истинными параметрами. Обратите внимание, подтвердилась ли ожидаемые теоретические результаты.

2.4. Используя уровень значимости =0.05, вычислите и сравните интервальные оценки для 1, 2, и для 10 выборок.

2.5. Объедините 10 выборок, по 20 наблюдений каждая, в 5 выборок по 40 наблюдений и повторите упражнения 2.1 и 2.2. Сделайте выводы о результатах увеличения объема выборки.

2.6. Повторите упражнения 2.1 и 2.5 для всех 100 и д ля 50 выборок и проанализируйте разницу в результатах.

2.7. Постройте распределения частот для оценок, полученных в упражнении 2.6, сравните и прокомментируйте результаты.

250 Глава 7. Основная модель линейной регрессии Задачи 1. В регрессии X = Za +1N b + e матрица вторых начальных моментов ре 9 грессоров равна. Найдите дисперсию объясняющей переменной.

2 2. На основании ежегодных данных за 10 лет с помощью МНК была сделана оценка параметров производственной функции типа Кобба—Дугласа. Чему равна несмещенная оценка дисперсии ошибки, если сумма квадратов остатков равна 32 3. В регрессии X = Za +1N b + e с факторами Z =(1, 2, 3) сумма квадратов остатков равна 6. Найдите ковариационную матрицу оценок параметров регрессии.

4. Какие свойства МНК-оценок коэффициентов регрессии теряются, если ошибки по наблюдениям коррелированы и/или имеют разные дисперсии 5. Что обеспечивает гипотеза о нормальности распределения ошибок при построения уравнения регрессии Ответ обоснуйте.

6. Какие ограничения на параметры уравнения проверяются с помощью t-критерия (написать ограничения с расшифровкой обозначений) 7. Четырехфакторное уравнение регрессии оценено по 20-ти наблюдениям.

В каком случае отношение оценки коэффициента регрессии к ее стандартной ошибке имеет распределение t-Стьюдента Сколько степенией свободы в этом случае имеет эта статистика 8. Оценки МНК в регрессии по 20-ти наблюдениям равны (2, -1), а ковариа 9 ционная матрица этих оценок равна. Найти статистики t-Стьюдента 2 для этих коэффициентов.

9. По 10 наблюдениям дана оценка 4 одному из коэффициентов двухфакторной регрессии. Дисперсия его ошибки равна 4. Построить 99%-ный доверительный интервал для этого коэффициента.

10. МНК-оценка параметра регрессии, полученная по 16 наблюдениям, равна 4, оценка его стандартной ошибки равна 1. Можно ли утверждать с вероятностью ошибки не более 5%, что истинное значение параметра равно 5.93 Объяснить почему.

7.5. Упражнения и задачи 11. Оценка углового коэффициента регрессии равна 4, а дисперсия этой оценки равна 4. Значим ли этот коэффициент, если табличные значения:

tN-n-1, 0.95 =2.4, tN-n-1, 0.90 =1.9 12. В результате оценивания регрессии x = z +1N + на основе N =наблюдений получены следующие результаты:

Pages:     | 1 |   ...   | 28 | 29 || 31 | 32 |   ...   | 82 |



© 2011 www.dissers.ru - «Бесплатная электронная библиотека»

Материалы этого сайта размещены для ознакомления, все права принадлежат их авторам.
Если Вы не согласны с тем, что Ваш материал размещён на этом сайте, пожалуйста, напишите нам, мы в течении 1-2 рабочих дней удалим его.