WWW.DISSERS.RU

БЕСПЛАТНАЯ ЭЛЕКТРОННАЯ БИБЛИОТЕКА

   Добро пожаловать!

Pages:     | 1 |   ...   | 24 | 25 || 27 | 28 |   ...   | 82 |

ej Теперь, после умножения обеих частей полученного матричного соотношения справа на вектор, определенный в (6.22), получается соотношение: 0 = Se, которое означает, что для всех j, таких, что j =0, s2 =0, т.е. переменные xj линейно ej зависят друг от друга.

Что и требовалось доказать.

Все возможные геометрические иллюстрации простых регрессий в пространстве наблюдений и переменных даны в пункте 4.2.

6.3. Ортогональная регрессия В случае, когда ограничения на вектор a (или ) состоят в требовании равенства единице длины этого вектора a a =1 ( =1), (6.24) и все переменные остаются в левой части уравнения, получается ортогональная регрессия, в которой расстояния от точек облака наблюдений до гиперплоскости регрессии измеряются перпендикулярно этой гиперплоскости. Разъяснения этому факту давались в пункте 4.2.

206 Глава 6. Алгебра линейной регрессии Оценка параметров регрессии производится из условия минимизации остаточной дисперсии:

(6.7) s2 = a X Xa = a Ma min!, e N где M = X X — ковариационная матрица переменных регрессии, при условии N (6.24).

Из требования равенства нулю производной по a соответствующей функции Лагранжа следует, что (M - In) a =0, (6.25) где — множитель Лагранжа ограничения (6.24), причем = s2. (6.26) e Действительно, функция Лагранжа имеет вид:

L (a, ) =a Ma - a a, авектореепроизвод ных по a:

L =2 (Ma - a).

a Откуда получается соотношение (6.25). А если обе части этого соотношения умножить слева на a и учесть (6.24), то получается (6.26).

Таким образом, применение МНК сводится к поиску минимального собственного числа ковариационной матрицы M и соответствующего ему собственного (правого) вектора a (см. также Приложение A.1.2). Благодаря свойствам данной матрицы (вещественность, симметричность и положительная полуопределенность), искомые величины существуют, они вещественны, а собственное число неотрицательно (предполагается, что оно единственно). Пусть эти оценки получены.

В ортогональной регрессии все переменные x выступают объясняемыми, или моделируемыми, их расчетные значения определяются по формуле:

Xc = X - ea. (6.27) 6.3. Ортогональная регрессия Действительно: Xca = Xa - ea a =0, т.е. вектор-строки xc, соответствующие i - e наблюдениям, лежат на гиперплоскости регрессии и являются проекциями на нее вектор-строк фактических наблюдений xi (вектор a по построению ортогонален гиперплоскости регрессии, а eia —вектор нормали xc на xi), а аналогом коэф i n фициента детерминации выступает величина 1 -, гд е s2 = s2 — суммарная s2 j j= дисперсия переменных x, равная следу матрицы M.

Таким образом, к n оценкам вектора a простой регрессии добавляется оценка этого вектора ортогональной регрессии, и общее количество этих оценок становится равным n +1.

Задачу простой и ортогональной регрессии можно записать в единой, обобщенной форме:

(M - W ) a =0, a Wa =1, min!, (6.28) где W — диагональная nn-матрица, на диагонали которой могут стоять 0 или 1.

В случае, если в матрице W имеется единственный ненулевой элемент wjj =1, то это — задача простой регрессии xj по x-j (действительно, это следует из соотношения (6.23)); если W является единичной матрицей, то это — задача ортогональной регрессии. Очевидно, что возможны и все промежуточные случаи, когда некоторое количество n1, 1

X1a1 = X2a2 + e1, a1 a1 =1.

Если J — множество переменных, оставленных в левой части уравнения, то в записи (6.28) такой регрессии wjj =1 для j J и wjj =0 для остальных j.

Оценка параметров регрессии производится следующим образом:

-1 -a2 = M22 M21a1, M11 - M12M22 M21 - In1 a1 =( a1 находится как правый собственный вектор, соответствующий минимальному -собственному числу матрицы M11 - M12M22 M21), где M11 = X1 X1, N M12 = M21 = X1 X2, N M22 = X2 XN 208 Глава 6. Алгебра линейной регрессии — соответствующие ковариационные матрицы.

Таким образом, общее количество оценок регрессии — (2n - 1). В рамках любой из этих оценок в (6.28) является остаточной дисперсией.

Задача ортогональной регрессии легко обобщается на случай нескольких уравнений и альтернативного представления расчетных значений изучаемых переменных.

Матрица M, как уже отмечалось, имеет n вещественных неотрицательных собственных чисел, сумма которых равна s2, и n соответствующих им веществен ных взаимноортогональных собственных векторов, дающих ортонормированный базис в пространстве наблюдений (см. также Приложение A.1.2). Пусть собственные числа, упорядоченные по возрастанию, образуют диагональную матрицу, а соответствующие им собственные вектора (столбцы) — матрицу A. Тогд а A A = In, MA = A. (6.29) Собственные вектора, если их рассматривать по убыванию соответствующих им собственных чисел, есть главные компоненты облака наблюдений, которые показывают направления наибольшей «вытянутости» (наибольшей дисперсии) этого облака. Количественную оценку степени этой «вытянутости» (дисперсии) дают соответствующие им собственные числа.

Пусть первые k собственных чисел «малы».

s2 — сумма этих собственных чисел;

E AE — часть матрицы A, соответствующая им (ее первые k стоблцов); это — коэффициенты по k уравнениям регрессии или k младших главных компонент;

AQ — остальная часть матрицы A, это — n - k старших главных компонент или собственно главных компонент;

A =[AE, AQ];

xAE =0 — гиперплоскость ортогональной регрессии размерности n - k;

[E, Q] = X AE, AQ — координаты облака наблюдений в базисе главных компонент;

E — матрица размерности N k остатков по уравнениям регрессии;

Q — матрица размерности N (n - k), столбцы которой есть значения так называемых главных факторов.

Поскольку A = A-1, можно записать X = E AE + Q AQ. Откуд а получается два возможных представления расчетных значений переменных:

(2) (1) Xc = X - E AE = Q AQ. (6.30) (6.27) 6.3. Ортогональная регрессия Первое из них — по уравнениям ортогональной регрессии, второе (альтернативное) — по главным факторам (факторная модель).

s2 — аналог коэффициента детерминации, дающий оценку качества 1 - E s обеих этих моделей.

Факторная модель представляет n переменных через n - k факто- xA ров и, тем самым, «сжимает» инr B формацию, содержащуюся в исходE ных переменных. В конкретном исD G следовании, если k мало, то предпоF чтительнее использовать ортогональные регрессии, если k велико (соC xответственно n - k мало), целесообразно применить факторную модель. При этом надо иметь в виду следующее: главные факторы — расчетные величины, и содержательРис. 6.ная интерпретация их является, как правило, достаточно сложной задачей.

Сделанные утверждения можно проиллюстрировать на примере n =2, предполагая, что 1 2, и упрощая обозначения (введенные выше матрицы являются в данном случае векторами):

a1 = AE — вектор параметров ортогональной регрессии, a2 = AQ — вектор первой (в данном случае — единственной) главной компоненты, e = E — остатки в уравнении ортогональной регрессии, q = Q — значения первого (в данном случае — единственного) главного фактора.

На рисунке: OA — вектор-строка i-го наблюдения xi = (x1, xi2), OD — вектор-строка расчетных значений xc, длина OC — xi1, длина OB — xi2, i OE — вектор-строка a, OG — вектор-строка a, длина OF — ei, длина 1 OD — qi.

Как видно из рисунка 6.1, квадрат длины вектора xi равен (из прямоугольных тре угольников OAC и OAD) x2 +2 = e2 + qi, и если сложить все эти уравнения по xi2 i ii иразд елитьна N, тополучится s2 + s2 = s2 + s2. Понятно, что s2 = 1, s2 = 2, 1 2 e q e q и это равенство означает, что следматрицы ковариации равен сумме ее собственных чисел. Кроме того, как видно из рисунка, s2 показывает дисперсию облака наблюдений (суммарную дисперсию переменных регрессии) в направлении a1 наименьшей «вытянутости» облака, s2 — дисперсию облака наблюдений в направлении a2 его наибольшей «вытянутости».

210 Глава 6. Алгебра линейной регрессии Вектор OF есть eia, а вектор OD — qia, и рисунок наглядно иллюстрирует 1 выполнение соотношения (6.30):

xc = x - eia = qia.

i 1 Пусть теперь n = 3, и 1, 2, 3, a1, a2, a3 — собственные числа и вектора ковариационной матрицы переменных.

1) Если 1 2 3, то облако наблюдений не «растянуто» ни в одном из направлений. Зависимости между переменными отсутствуют.

2) Если 1 2 3 и k = 1, то облако наблюдений имеет форму «блина».

Плоскость, в которой лежит этот «блин», является плоскостью ортогональной регрессии, которую описывает уравнение xa1 =0, а собственно уравнением регрессии является Xa1 = e.

Эту же плоскость представляют вектора a2 и a3, являясь ее осями координат.

В этих осях координат можно выразить любую точку данной плоскости, в том числе все точки расчетных значений переменных (6.30):

a Xc =, 2 q1 q2 = q1a + q2a a где q1 = Xa2, q2 = Xa3 — вектора значений главных факторов или вектора координат расчетных значений переменных в осях a2, a3.

3) Если 1 2 3 и k =2, то облако наблюдений имеет форму «веретена».

Ось этого «веретена» является линией регрессии, образованной пересечением двух плоскостей xa1 = 0 и xa2 = 0. И уравнений ортогональной регрессии в данном случае два: Xa1 = e1 и Xa2 = e2.

Данную линию регрессии представляет вектор a3, и через него можно выразить все расчетные значения переменных:

Xc = qa, где q = Xa3 — вектор значений главного фактора.

6.4. Многообразие оценок регрессии Множество оценок регрессии не исчерпывается 2n - 1 отмеченными выше элементами. Перед тем как получать любую из этих оценок, можно провести преобразование в пространстве наблюдений или переменных.

Преобразование в пространстве наблюдений проводится с помощью матрицы D размерности N N, N N. Обе части исходного уравнения (6.3) умножаются слева на эту матрицу:

DX = D1N + D, (6.31) 6.4. Многообразие оценок регрессии после чего проводится оценка параметров любым из указанных 2n - 1 способов.

Понятно, что полученные оценки будут новыми, если только D D = cIN, гд е c — любая константа.

В результате такого преобразования может перестать являться свободным членом, если только D1N = c1N ( c — любая константа). Но, главное, меняется распределение ошибок по наблюдениям. Именно с целью изменить это распределение в нужную сторону (с помощью подбора матрицы D) и проводятся такие преобразования (см. гл. 8).

Преобразование в пространстве переменных осуществляется с помощью квадратной невырожденной матрицы C размерности n n: Y = XC —преобразованные значения переменных регрессии. И затем оцениваются параметры регрессии в новом пространстве: Yf =1N g + u.

Это преобразование можно проводить в пространстве центрированных пере менных, т.к. Y = XC.

1 Действительно: XC = IN - 1N 1 XC = IN - 1N1 Y = Y.

N N N N То есть исходное уравнение регрессии (6.7) после преобразования приобретает вид:

Yf = u. (6.32) Оценки f являются новыми, если после «возвращения» их в исходное пространство, которое производится умножением f слева на C, они не совпадут с оценками a, полученными в исходном пространстве, т.е. если a = Cf. Справед ливость этого утверждения становится очевидной после следующего алгебраически эквивалентного преобразования исходного уравнения (6.7):

XC C-1a = e. (6.33) -f Понятно, что МНК-оценка f совсем не обязательно совпадет с C-1a — и тогда это будет новая оценка.

После преобразования меняется распределение ошибок в переменных регрессии. И именно для того, чтобы изменить это распределение в нужную сторону, осуществляются такие преобразования (см. гл. 8).

Результаты преобразований в пространстве переменных различны для простых и ортогональной регрессий.

В случае простой регрессии xj по x-j это преобразование не приводит к получению новых оценок, если j-я строка матрицы C является ортом, т.е. в объясняющие переменные правой части не «попадает» — после преобразования — объясняемая переменная.

212 Глава 6. Алгебра линейной регрессии 1 Действительно, пусть для определенности j =1 и C = (первая c-1 C- 1.

строка является ортом), C-1 = -C-1c-1 C--1 -Уравнение (6.33) записывается следующим образом:

= e X1 + X-1c-1 X-1C--C-1c-1 - C-1a- -------------------- -1 - ----------------f или, после переноса переменных в правую часть:

X1 + X-1c-1 = X-1C-1 C-1c-1 + C-1a-1 +e1.

-1 - ---- ------------ ---------f--Система нормальных уравнений для оценки f-1 имеет следующий вид:

1 C X X1 + X-1c-1 = C X X-1C-1 C-1c-1 + C-1a--1 -1 -1 -1 -1 -N N ---------------- ---- --- --------- f- --1 1 -или, раскрыв скобки:

C m-1 + C M-1c-1 = C M-1c-1 + C M-1a-1.

-1 -1 -1 -После взаимного сокращения одинаковых слагаемых в полученном матричном уравнении(2-говлевойчастии1-говправой) иумноженияобеихчастейслевана C --получается система нормальных уравнений для оценки a-1: m-1 = M-1a-1.

Это означает, что f-1 после «возвращения» в исходное пространство совпадает с a-1, т.е. проведенное преобразование в пространстве переменных новых оценок регрессии не дает.

Верно и обратное утверждение: если j-я строка матрицы C не является ортом, то a и f совпадают с точностью до обратного преобразования только тогда, когда связь функциональна и e =0.

6.4. Многообразие оценок регрессии 1 c - Пусть теперь C = (т.е. первая строка не является ортом), 0 In- 1 -c -. Тогда уравнение (6.33) приобретает следующую форму:

C-1 = 0 In- -X1 X-1 + X1c 1+c a--= e1, (6.34) ---------a----------f или X1 1+c a-1 = Y-1a-1 + e1, -и a-1 X1 = Y-1 + e1.

1+c a-1 1+c a--1 -Таким образом, условием совпадения a и f с точностью до обратного преобразования является следующее:

a- f-1 =. (6.35) 1+c a--Система нормальных уравнений для оценки f-1 имеет вид:

1 Y X1 = Y Y-1f-1, -1 -N N или, учтя зависимость Y от X из (6.34) и раскрыв скобки:

m-1 + c-1m11 = M-1 + m-1c + c-1m + m11c-1c f-1.

-1 -1 -Это равенство с учетом (6.35) и (6.11) принимает вид:

(m-1 + c-1m11) 1+c M-1m-1 = -1 - = M-1 + m-1c + c-1m + m11c-1c M-1m-1.

-1 -1 -1 -Раскрыв скобки и приведя подобные, можно получить следующее выражение:

c-1m11 = c-1m M-1m-1, -1 -214 Глава 6. Алгебра линейной регрессии которое выполняется как равенство, только если m11 = m M-1m-1, -1 -т.е. если (в соответствии с (6.18)) m11 = s2.

qТаким образом, a и f совпадают с точностью до обратного преобразования только тогда, когда полная дисперсия равна объясненной, т. е. связь функциональна и e =0.

Что и требовалось доказать.

Pages:     | 1 |   ...   | 24 | 25 || 27 | 28 |   ...   | 82 |



© 2011 www.dissers.ru - «Бесплатная электронная библиотека»

Материалы этого сайта размещены для ознакомления, все права принадлежат их авторам.
Если Вы не согласны с тем, что Ваш материал размещён на этом сайте, пожалуйста, напишите нам, мы в течении 1-2 рабочих дней удалим его.