WWW.DISSERS.RU

БЕСПЛАТНАЯ ЭЛЕКТРОННАЯ БИБЛИОТЕКА

   Добро пожаловать!

Pages:     | 1 |   ...   | 18 | 19 || 21 | 22 |   ...   | 82 |

Это означает, что зависимость между ростом сыновей и отцов существует, и эта зависимость близка к линейной. Но угол наклона соответствующей прямой меньше 45. Другими словами, имеет место «возврат» — регрессия — роста сыновей к некоторому среднему росту. Для этой зависимости и был предложен термин «регрессия». Со временем он закрепился за любыми зависимостями статистического характера, т.е. такими, которые выполняются «по математическому ожиданию», с погрешностью.

148 Глава 4. Введение в анализ связей Остаточная дисперсия из (4.19) получает следующее выражение:

s2 = (xi1 - a12xi2 - b1)2, eN i или в матричной форме:

s2 = e e1, e1 N где e1 = X1 - X2a12 - 1N b1, — остатки регрессии, штрих — знак транспонирования. Величина e e1 называется суммой квадратов остатков.

Для минимизации этой дисперсии ее производные по искомым параметрам (сначала по b1, потом по a12) приравниваются к нулю.

s2 e= - (xi1 - a12xi2 - b1) =0, откуда:

b1 N ei1 =0, b1 = - a12x2. (4.21) xЭто означает, что 1 =0, т.е. сумма остатков равна нулю, а также, что линия регрессии проходит через точку средних.

После подстановки полученной оценки свободного члена форма уравнения регрессии и остаточной дисперсии упрощается:

xi1 = a12xi2 + ei1, i =1,..., N, (4.22) X1 = X2a12 + e1, — сокращенная запись уравнения регрессии, (4.23) s2 = ( - a12xi2)2. (4.24) xieN Далее:

ei------- s2 e= - xi2 ( - a12xi2) =0. (4.25) xia12 N Отсюда следует, во-первых, то, что вектора e1 и X2 ортогональны, т.к. ковари ация между ними равна нулю ( xi2ei1 =0); во-вторых — выражение для оценки углового коэффициента:

ma12 =. (4.26) m4.2. Регрессионный анализ Матрица вторых производных остаточной дисперсии в найденной точке равна 1 x 2, x2 m где m0 — 2-й начальный (а не центральный, как m22) момент д ля x2. Тот же результат можно получить, если не переходить к сокращенной записи уравнения регрессии переддифференцированием остаточной дисперсии по a12.

Эта матрица положительно определена (ее определитель равен 2m22, то есть всегда неотрицателен), поэтому найденная точка является действительно точкой минимума остаточной дисперсии.

Таким образом, построен оператор МНК-оценивания (4.21, 4.26) и выявлены свойства МНК-остатков: они ортогональны факторной переменной x2, стоящей в правой части уравнения регрессии, и их среднее по наблюдениям равно нулю.

«Теоретические» значения моделируемой переменной x1, лежащие на линии оцененной регрессии:

xc = a12xi2 + b1, (4.27) ixc = a12xi2, ic где « » — calculated, часто называют расчетными, или объясненными. Это — математические ожидания моделируемой переменной.

Вторую часть оператора МНК-оценивания (4.26) можно получить, используя другую логику рассуждений, часто применяемую в регрессионном анализе.

Обе части уравнения регрессии, записанного в сокращенной матричной форме (4.23) умножаются слева на транспонированный вектор X2 ид елятсяна N :

1 1 X2X1 = X2X2a12 + X2e1.

N N N Второе слагаемое правой части полученного уравнения отбрасывается, так как в силу отмеченных свойств МНК-остатков оно равно нулю, и получается искомое выражение: m12 = m22a12.

Пользуясь этой логикой, оператор МНК-оценивания можно получить и в полном формате. Для этого используют запись регрессионного уравнения в форме без свободного члена (со скрытым свободным членом):

X1 = X2a12 + e1, (4.28) a где X2 — матрица [X2, 1N ] размерности N 2, 12 — вектор.

b150 Глава 4. Введение в анализ связей Как и прежде, обе части этого уравнения умножаются слева на транспониро ванную матрицу X2 ид елятсяна N, второе слагаемое правой части отбрасывается по тем же причинам. Получается выражение для оператора МНК-оценивания:

- m12 = M22a12, т.е. a12 = M22 m12, (4.29) 1 где m12 = X2X1, M22 = X2X2.

N N Это выражение эквивалентно полученному выше. Действительно, учитывая, что Xj = Xj +1N xj, 1 Xj =0, j =1, 2, N X2X1 m12 + x1x m12 = =, N 1 X1 x N m --- X2X2 X21N m22 +2 xx M22 = =.

N 1 X2 1 1N x2 N N Тогда матричное уравнение (4.29) переписывается следующим образом:

m12 + = m22a12 +2a12 + x1x2 x2 x2b1, x1 = + b1.

x2aИз 2-го уравнения сразу следует (4.21), а после подстановки b12 в 1-е уравнение оно преобразуется к (4.26). Что и требовалось доказать.

Таким образом, выражение (4.29) представляет собой компактную запись оператора МНК-оценивания.

Из проведенных рассуждений полезно, в частности, запомнить, что уравнение регрессии может быть представлено в трех формах: в исходной — (4.19, 4.20), сокращенной — (4.22, 4.23) и со скрытым свободным членом — (4.28). Третья форма имеет только матричное выражение.

Оцененное уравнение линейной регрессии «наследует» в определенном смысле свойства линии регрессии, введенной в начале этого пункта по данным совместного распределения двух признаков: минимальность остаточной дисперсии, равенство нулю средних остатков и ортогональность остатков к объясняющей переменной — в данном случае к значениям второго признака. (Последнее для регрессии, построенной по данным совместного распределения, звучало как линейная независимость отклонений от условных средних и самих условных средних.) Отличие в том, что теперь линия регрессии является прямой, условными средними являются расчетные значения моделируемой переменной, а условными дисперсиями — остаточная 4.2. Регрессионный анализ дисперсия, которая принимается при таком методе оценивания одинаковой для всех наблюдений.

Теперь рассматривается остаточная дисперсия (4.24) в точке минимума:

1 (4.26) ms2 = x2 - 2 + x2 a2 = m11 -. (4.30) xi1xi2a12 2 e1 iN mПоскольку остаточная дисперсия неотрицательна, m12 m11, т.е. r12 1.

mЭто доказывает ранее сделанное утверждение о том, что коэффициент корреляции по абсолютной величине не превышает единицу.

Второе слагаемое (взятое с плюсом) правой части соотношения (4.30) является дисперсией расчетных значений моделируемой переменной (var — обозначение дисперсии):

1 1 (4.27) = var (xc) = (xc - xc)2 =0 (xc - x1)2 = 1 i1 1 iN N 1 (4.26) m= (a12xi2)2 = a2 m22 =. (4.31) N mЭту дисперсию, как и в регрессии, построенной по данным совместного распределения признаков, естественно назвать объясненной и обозначить s2. Тогд а qиз (4.30) следует, что общая дисперсия моделируемого признака, как и прежде, распадается на две части — объясненную и остаточную дисперсии:

s2 = m11 = s2 + s2.

1 q1 eДоля объясненной дисперсии в общей называется коэффициентом детерминации, который обозначается R2. Такое обозначение не случайно, поскольку этот коэффициент равен квадрату коэффициента корреляции:

smqR2 = =.

s2 m11mКоэффициент детерминации является показателем точности аппроксимации фактических значений признаков линией регрессии: чем ближе он к единице, тем точнее аппроксимация. При прочих равных его значение будет расти с уменьшением числа наблюдений. Так, если наблюдений всего два, этот коэффициент всегда будет равен единице, т.к. через две точки можно провести единственную прямую. Поэтому 152 Глава 4. Введение в анализ связей данный коэффициент выражает скорее «алгебраическое» качество построенного уравнения регрессии.

Показатель статистической значимости оцененного уравнения дает статистика Фишера — как и для регрессии, построенной по данным совместного распределения признаков. В данном случае остаточная дисперсия имеет N - 2 степени свободы, а объясненная — одну степень свободы (доказательство этого факта дается во II части книги):

s2 (N - 2) R2 (N - 2) qc F = =.

s2 (1 - R2) eЕсли переменные не зависят друг от друга, т.е. 12 =0 (нулевая гипотеза), то эта статистика имеет распределение Фишера с одной степенью свободы в числителе и N -2 степенями свободы в знаменателе. Логика использования этой статистики описана выше. Статистическая значимость (качество) полученного уравнения тем выше, чем ниже значение показателя pv для расчетного значения данной c статистики F.

Оценки параметров 12, 1 и остатков i1 можно получить иначе, из регрессии x2 по x1:

xi2 = a21xi1 + ei2, i =1,..., N.

В соответствии с (4.26) оценка углового коэффициента получается делением ковариации переменных, стоящих в левой и правой частях уравнения, на дисперсию факторной переменной, стоящей в правой части уравнения:

ma21 =.

m1 Поскольку xi1 = xi2 - ei2, a21 a1 ma12 (2) = =, (4.32) a21 mb1 (2) = x1 - a12 (2) x2, ei1 (2) = a12 (2) ei2, i =1,..., N.

Это — новые оценки параметров. Легко убедиться в том, что a12 (2) совпадает с a12 (а вслед за ним b1 (2) совпадает с b1 и ei1 (2) —с ei1) тогда и только тогда, когда коэффициент корреляции r12 равен единице, т.е. зависимость имеет функциональный характер и все остатки равны нулю.

При оценке параметров 12, 1 и остатков ei1 регрессия x1 по x2 иногда называется прямой, регрессия x1 по x2 — обратной.

4.2. Регрессионный анализ На рисунке 4.2 в плоскости (в проA r xстранстве) переменных x1, x2 приC E менение прямой регрессии означает D минимизацию суммы квадратов расB F стояний от точек облака наблюдений до линии регрессии, измеренных паxраллельно оси x1. При применении обратной регрессии эти расстояния измеряются параллельно оси x2.

lr — линия регрессии, OA — вектор-строка i-го наРис. 4.блюдения xi =(x1, xi2), AB — расстояние до линии регрессии, измеренное параллельно оси x1, равное величине ei1, AC — расстояние, измеренное параллельно оси x2, равное величине ei2, AD — расстояние, измеренное перпендикулярно линии регрессии, равное ei, OE — вектор-строка a параметров ортогональной регрессии.

Очевидно, что оценить параметры регрессии можно, измеряя расстояния до линии регрессии перпендикулярно самой этой линии (на рисунке — отрезок AD).

Такая регрессия называется ортогональной. В уравнении такой регрессии обе переменные остаются в левой части с коэффициентами, сумма квадратов которых должна равняться единице (длина вектора параметров регрессии должна равняться единице):

a1xi1 + a2xi2 = ei, i =1,..., N (4.33) a2 + a2 =1.

1 В матричной форме:

Xa = e, (4.34) a a =1, где X — матрица наблюдений за переменными, размерности N 2, a — векторстолбец параметров регрессии.

Само уравнение регрессии можно записать еще и так:

xia = ei, i =1,..., N. (4.35) Чтобы убедиться в том, что такая регрессия является ортогональной, достаточно вспомнить из линейной алгебры, что скалярное произведение вектора на вектор 154 Глава 4. Введение в анализ связей единичной длины равно длине проекции этого вектора на единичный вектор. В левой части (4.35) как раз и фигурирует такое скалярное произведение. На рисунке вектором параметров a является OE, проекцией вектора наблюдений OA( xi) на этот вектор — отрезок OF, длина которого (xia) в точности равна расстоянию от точки облака наблюдений до линии регрессии, измеренному перпендикулярно этой линии (ei).

Следует иметь в виду, что и в «обычной» регрессии, в левой части которой остается одна переменная, коэффициент при этой переменной принимается равным единице, т.е. фактически используется аналогичное ортогональной регрессии требование: вектор параметров при переменных в левой части уравнения должен иметь единичную длину.

В противоположность ортогональной «обычные» регрессии называют простыми. В отечественной литературе простой часто называют «обычную» регрессию с одной факторной переменной. А регрессию с несколькими факторными переменными называют множественной.

Теперь остаточную дисперсию в матричной форме можно записать следующим образом:

1 s2 = e e = a X Xa = a Ma, e N N m11 m где M = X X — матрица ковариации переменных, равная.

N m21 mДля минимизации остаточной дисперсии при ограничении на длину вектора параметров регрессии строится функция Лагранжа:

L (a, ) =a Ma - a a, где — множитель Лагранжа (оценка ограничения).

Далее находятся производные этой функции по параметрам регрессии, и эти производные приравниваются к нулю. Результат таких операций в матричной форме представляется следующим образом (поскольку M — симметричная матрица:

M = M):

(M - I) a =0. (4.36) Таким образом, множитель Лагранжа есть собственное число матрицы ковариации M, а вектор оценок параметров регрессии — соответствующий правый собственный вектор этой матрицы (см. Приложение A.1.2).

Матрица M является вещественной, симметричной и положительно полуопределенной (см. Приложение A.1.2).

4.2. Регрессионный анализ Последнее справедливо, т.к. квадратичная форма µ Mµ при любом векторе µ неотрицательна. Действительно, эту квадратичную форму всегда можно представить как сумму квадратов компонент вектора = Xµ:

N µ Mµ = µ X Xµ = 0.

N Из линейной алгебры известно, что все собственные числа такой матрицы вещественны и неотрицательны, следовательно неотрицательно.

После умножения обеих частей уравнения (4.36) слева на a из него следует, что a a=s2 = a Ma = a a =, e т.е. минимизации остаточной дисперсии соответствует поиск минимального собственного числа матрицы ковариации переменных M. Соответствующий этому собственному числу правый собственный вектор этой матрицы есть вектор оценок параметров ортогональной регрессии a (см. Приложение A.1.2). Кроме того, в соответствии со свойствами матрицы M, сумма ее собственных чисел равна сумме ее диагональных элементов (следу матрицы), и, т.к. — меньшее из двух собственных чисел, то < (m11 + m12) (случай двух одинаковых собственных чисел не рассматривается, т.к. он имеет место, когда связь между переменными отсутствует, и m12 =0).

Оценка свободного члена b, как и прежде, получается из условия прохождения линии регрессии через точку средних: b = x, гд е x — вектор-строка средних значений переменных.

Расчетное значение xi дает вектор OD (см. рис. 4.2), который равен разности векторов OA и OF, т.е. (в матричной форме):

Xc = X - ea.

Теперь можно дать еще одну оценку параметров уравнения (4.18):

aa12 () =-, ab1 () = - a12 () x2, xei1 () = ei.

aПолученная оценка углового коэффициента a12 () лежит между его оценками по прямой и обратной регрессиям. Действительно, из (4.36) следует, что a2 m12 m11 - a12 () =- = =.

a1 m22 - m156 Глава 4. Введение в анализ связей 90° xx>90° xkxРис. 4.Отсюда, в частности, следует, что величины m11 - и m22 - имеют один знак, и, т.к. < (m11 + m12), то обе эти величины положительны.

Поэтому, если m12 0, то m11 (4.32) (4.26) m= a12 (2) >a12 () >a12 =, m12 mаесли m12 0, то a12 (2)

Понятно, что эти 3 оценки совпадают тогда и только тогда, когда = s2 =0, e т.е. зависимость функциональна.

Pages:     | 1 |   ...   | 18 | 19 || 21 | 22 |   ...   | 82 |



© 2011 www.dissers.ru - «Бесплатная электронная библиотека»

Материалы этого сайта размещены для ознакомления, все права принадлежат их авторам.
Если Вы не согласны с тем, что Ваш материал размещён на этом сайте, пожалуйста, напишите нам, мы в течении 1-2 рабочих дней удалим его.