WWW.DISSERS.RU

БЕСПЛАТНАЯ ЭЛЕКТРОННАЯ БИБЛИОТЕКА

   Добро пожаловать!

Pages:     || 2 | 3 | 4 |
-- [ Страница 1 ] --

ИНСТИТУТ ЭКОНОМИКИ ПЕРЕХОДНОГО ПЕРИОДА В.П. Носко Эконометрика для начинающих Дополнительные главы Москва 2005 УДК 330.45:519.862.6 ББК 65в6 Н84 Носко В.П. Эконометрика для начинающих

(Дополнительные главы). – М.: ИЭПП, 2005. С. 379.

Агентство CIP РГБ В книге рассматриваются методы статистического анализа регрессионных моделей с ограниченной (цензурированной) зависимой переменной, систем одновременных уравнений, панельных данных, а также структурных форм векторных авторегрессий и моделей коррекции ошибок. Предназначена для студентов, освоивших вводный курс эконометрики. Представляет интерес для специалистов в области экономики и финансов.

Nosko V.P. Econometrics for Beginners (Additional Chapters) The monograph deals with methods of statistical analysis of regression models with a limited (censored) depended variable, systems of simultaneous equations, panel data, as well as structural forms of vector autoregressions and error correction models. The monograph is designated for students who have mastered an introductory econometrics, as well as for experts in the area of economics and finance.

JEL Classification: С50, С51, С52, С Настоящее издание подготовлено по материалам исследовательского проекта Института экономики переходного периода, выполненного в рамках гранта, предоставленного Агентством международного развития США. ISBN 5-93255-173- © Институт экономики переходного периода, Содержание Предисловие............................................................................ 7 Глава 1. Модели с дискретными объясняемыми переменными. Метод максимального правдоподобия...................................................................... 10 1.1 Модели, в которых объясняемая переменная принимает только два различных значения................... 10 1.2. Использование метода максимального правдоподобия для оценивания моделей бинарного выбора............................................................. 18 1.3. Показатели качества моделей бинарного выбора, критерии согласия с имеющимися данными, сравнение альтернативных моделей.............. 24 1.4. Интерпретация коэффициентов................................ 35 1.5. Проверка выполнения стандартных предположений.................................................................. 38 1.6. Модели, в которых объясняемая переменная принимает несколько различных значений.......................................................... 47 1.6.1. Порядковая пробит-модель................................. 47 1.6.2. Мультиномиальная модель.................................. 55 1.7. Цензурированная модель регрессии (тобит-модель)................................................................... 67 1.8. Модель Тобит-II......................................................... 86 Глава 2. Инструментальные переменные. Системы одновременных уравнений............................... 99 2.1. Проблема коррелированности случайных ошибок с объясняющими переменными..................................................................... 2.2. Модели, в которых некоторые объясняющие переменные коррелированы с ошибкой........................................................................ 111 2.2.1. Модели с ошибками в измерении объясняющих переменных.......................................... 111 2.2.2. Модели одновременных уравнений.................. 113 2.3. Метод инструментальных переменных................. 116 2.4. Проблема идентифицируемости структурной формы системы одновременных уравнений............................................. 125 2.5. Проверка выполнения условий идентифицируемости структурных уравнений......................................................................... 133 2.6. Оценивание систем одновременных уравнений............................................. 158 2.6.1. Косвенный метод наименьших квадратов....................................................................... 158 2.6.2. Двухшаговый метод наименьших квадратов....................................................................... 159 2.6.3. GLS-оценивание систем одновременных уравнений. Трехшаговый метод наименьших квадратов..................................... 167 2.6.4. Оценивание систем одновременных уравнений с использованием метода максимального правдоподобия................................... 170 2.6.5. Связь между различными оценками систем одновременных уравнений...................................................................... 175 2.6.6. Проверка правильности спецификации системы одновременных уравнений...................................................................... 177 2.6.7. Примеры оценивания систем одновременных уравнений.......................................... 2.6.8. Прогнозирование по оцененной системе одновременных уравнений........................... 207 Глава 3. Панельные данные............................................. 213 3.1. Модель кажущихся несвязанными регрессий, модель ковариационного анализа............................................................................. 213 3.2. Фиксированные эффекты........................................ 242 3.3. Случайные эффекты................................................ 248 3.4. Коэффициенты детерминации, разложение полной суммы квадратов........................... 258 3.5. Выбор между моделями с фиксированными или случайными эффектами........................................................................ 264 3.6. Автокоррелированные ошибки............................... 272 3.7. Двухфакторные (двунаправленные) модели............................................ 276 3.7.1. Фиксированные эффекты.................................. 276 3.7.2. Случайные эффекты........................................... 279 3.7.3. Критерии для индивидуальных и временных эффектов................................................. 281 3.8. Несбалансированные панели.................................. 284 3.9. Эндогенные объясняющие переменные................ 285 3.10. Модели с индивидуальноспецифическими переменными..................................... 291 3.10.1. Оценивание в RE- и FE-моделях..................... 291 3.10.2. Модель Хаусмана–Тейлора............................. 294 3.11. Динамические модели........................................ 297 3.12. Модели бинарного выбора................................. 313 3.12.1. Логит-модель с фиксированными эффектами..................................................................... 3.12.2. Пробит-модель со случайными эффектами..................................................................... 323 3.12.3. Пример............................................................... 325 3.13. Тобит-модели......................................................... 334 Глава 4. Структурные и приведенные формы векторных авторегрессий и моделей коррекции ошибок............................................................. 347 Литература.......................................................................... 372 Предметный указатель..................................................... Предисловие Настоящая книга является дополнением к ранее изданным публикациям автора “Эконометрика для начинающих: Основные понятия, элементарные методы, границы применимости, интерпретация результатов” (2000), “Эконометрика: Основные понятия и введение в регрессионный анализ временных рядов” (2004). В ней рассматриваются методы статистического анализа моделей с дискретными объясняющими переменными, систем одновременных уравнений, панельных данных, а также структурные и приведенные формы векторных авторегрессий и моделей коррекции ошибок. В главе 1 обсуждаются особенности статистического анализа моделей, в которых объясняющая переменная имеет лишь конечное количество возможных значений или только частично наблюдаема. При оценивании этих моделей на первый план выступает метод максимального правдоподобия. Сначала рассматриваются модели бинарного выбора с двумя значениями объясняющей переменной (пробит, логит, гомпит) и модели с несколькими значениями объясняющей переменной (порядковая пробит-модель, мультиномиальная модель), а затем – модели с частично наблюдаемой (цензурированной) объясняющей переменной. При этом цензурирование может определяться как значениями самой объясняемой переменной (модель тобит I), так и значениями некоторой дополнительной функции полезности (модель тобит II). В главе 2 рассматривается возможность получения подходящих оценок параметров в ситуациях, когда объясняющие переменные, входящие в уравнение регрессии, коррелированы с ошибкой в этом уравнении. Именно такое положение наблюдается в имеющих широкое применение моделях, известных под названием “системы одновременных уравнений”. Это модели, состоящие из нескольких уравнений регрессии и такие, что переменные, являющиеся объясняемыми переменными в одних уравнениях, являются объясняющими переменными в других уравнениях. Здесь основным методом оценивания параметров является метод инструментальных переменных, состоящий в “очистке” объясняющей переменной, коррелированной с ошибкой, от этой коррелированности, и подстановке в правую часть уравнения вместо этой объясняющей переменной ее очищенного варианта. Рассматриваются этот и другие методы оценивания систем одновременных уравнений, связь между различными методами, их недостатки и преимущества. Глава 3 посвящена методам статистического анализа панельных данных, т.е. данных, содержащих наблюдения за некоторым достаточно большим количеством субъектов в течение некоторого небольшого количества периодов времени. относительно Особенностью многих моделей, используемых для статистического анализа таких данных, является предположение о наличии различий между субъектами исследования, которые постоянны во времени, но которые не удается реально измерить в виде значений некоторой объясняющей переменной. Такие различия специфицируются в этих моделях как фиксированные или случайные эффекты, и в зависимости от пригодности той или иной интерпретации этих эффектов, используются различные методы оценивания параметров модели (обычный или обобщенный метод наименьших квадратов). Метод инструментальных переменных, рассмотренный в главе 2, находит новое применение в динамических моделях панельных данных, в которых в качестве объясняющих переменных в правых частях уравнения могут выступать и запаздывающие значения объясняемой переменной, и реализуется в виде обобщенного метода моментов, ставшего весьма популярным в последние годы. В заключительной части этой главы модели, рассматривавшиеся в главе 1 (пробит, логит, тобит), распространяются на случай панельных данных.

Предисловие Наконец, глава 4 дополняет материал, содержащийся в главах 11 и 12 ранее изданной книги автора “Эконометрика: Основные понятия и введение в регрессионный анализ временных рядов”, касающийся моделей векторной авторегрессии и моделей коррекции ошибок, сопутствующих системе коинтегрированных временных рядов. Это дополнение связано с рассмотрением возможности построения и оценивания структурной формы модели коррекции ошибок. Как и в ранее изданных книгах автора по эконометрике, акценты в изложении смещены в сторону разъяснения процедур статистического анализа данных с привлечением большого количества иллюстративных примеров. Предполагается, что читатель владеет методами регрессионного анализа в рамках начального курса эконометрики (в объеме пособия [Носко (2000)] или первой части пособия [Носко (2004)]). Для удобства читателя, при первом упоминании в тексте тех или иных терминов эти термины выделяются жирным курсивом, а в скобках приводятся их англоязычные эквиваленты. Некоторые моменты изложения, требующие привлечения внимания читателя, выделяются подчеркиванием отдельных слов или целых предложений. Пособие написано на основании курсов лекций, прочитанных автором в Институте экономики переходного периода. Автор считает своим приятным долгом выразить признательность доктору экономических наук Синельникову-Мурылеву С.Г., который инициировал работу по написанию этого учебного пособия.

Глава 1. Модели с дискретными объясняемыми переменными. Метод максимального правдоподобия 1.1 Модели, в которых объясняемая переменная принимает только два различных значения Ситуации такого рода возникают при исследовании влияния тех или иных субъективных и объективных факторов на наличие или отсутствие некоторого признака у отдельных домашних хозяйств (наличие или отсутствие в семье автомобиля), у отдельных индивидуумов (занятый – безработный), у отдельных фирм (обанкротилась или нет в течение определенного периода) и т.п. Если исследование затрагивает n субъектов, т.е. если мы имеем n наблюдений, то факт наличия или отсутствия такого признака в i -м наблюдении удобно индексировать числами 1 (наличие признака) и 0 (отсутствие признака). Тем самым мы определяем индикаторную (дихотомическую, бинарную) переменную y, которая принимает в i -м наблюдении значение yi. При этом y i = 1 при наличии рассматриваемого признака у i -го субъекта и y i = 0 – при отсутствии рассматриваемого признака у i -го субъекта. Если пытаться объяснить наличие или отсутствие рассматриваемого признака значениями (точнее, сочетанием значений) некоторых факторов (объясняющих переменных), то, следуя идеологии классической линейной модели, мы могли бы расмотреть модель наблюдений yi = 1 xi1 + L + p xip + i, i = 1, K, n, в которой xi1, K, xip – значения p объясняющих переменных в i -м наблюдении, 1,K, p – неизвестные параметры, а 1, K, n – случайные ошибки, отражающие влияние на наличие или отсутствие рассматриваемого признака у i -го субъекта каких-то неучтенных дополнительных факторов. Однако попытка оценить Модели с дискретными объясняемыми переменными… такую модель обычным методом наименьших квадратов (OLS – ordinary least squares) наталкивается на определенные трудности. При обычном предположении E ( i xi ) = 0, i = 1, K, n, мы получаем E ( y i xi ) = 1 xi1 + L + p xip = xiT, где = 1, K, p ( )T – вектор-столбец (неизвестных) коэффициентов, (верхний индекс T указывает на транспонирование вектора или матрицы), а xiT = xi1, K, xip – вектор-строка (известных) значений ( ) E ( y i xi ) = 1 P{y i = 1 xi } + 0 P{y i = 0 xi } = P{y i = 1 xi }. Таким образом, 1 xi1 + L + p xip = P{yi = 1 xi }, объясняющих переменных в i -м наблюдении. Вместе с тем, поскольку yi – случайная величина, принимающая только два значения 0 и 1, то ее условное математическое ожидание (при заданном значении xi ) равно т.е. 1 xi1 +L + p xip – вероятность, а значит должно выполняться соотношение 0 1 xi1 + L + p xip 1. Это первая из трудностей, с которыми мы сталкивамся при обращении к таким моделям. Далее, при y i = 1 получаем i = 1 xiT, а при y i = 0 имеем i = xiT, так что (при фиксированном xi ) i может принимать в i -м наблюдении только два значения, и (условные) вероятности этих значений равны P i = 1 xiT x i = P{y i = 1 x i } = xiT, { P{ i = xiT xi = P{y i = 0 xi } = 1 xiT.

} } Глава Соответственно, случайная величина i имеет условное математическое ожидание E ( i xi ) = 1 xiT P i = 1 xiT xi + xiT P i = xiT xi и условную дисперсию ( ){ }( ) { = (1 x ) x x (1 x ) = T i T i T i T i }= D( i xi ) = E i2 xi (E ( i xi ) ) = E i2 xi 2 T i 2 T i T i 2 T i T i T i T i T i Таким образом, здесь возникает также проблема гетероскедастичности, осложненная еще и тем, что в выражения для дисперсий i входит и (неизвестный) вектор параметров. Предположим, что y i индексирует наличие или отсутствие собственного автомобиля у i -й семьи, а xi – средний ежемесячный доход, приходящийся на каждого члена этой семьи (в условных единицах). Естественно предполагать, что вероятность наличия автомобиля возрастает с ростом xi. Если использовать линейную модель yi = + xi + i, i = 1, K, n, то E ( yi xi ) = P{yi = 1 xi } = + xi, так что если значение xi увеличить на единицу, то вероятность наличия автомобиля увеличится на величину, равную ( + (xi + 1)) ( + xi ) =, независимо от того, сколь большим или малым является среднедушевой доход xi. Между тем такое положение вряд ли можно считать оправданным. Скорее можно предположить, что для семей с малыми доходами наличие автомобиля – большая редкость, и некоторое ( )= = (1 x ) x + ( x ) (1 x )= = x (1 x ) [x + (1 x )] = x (1 x ).

T i T i ( ) Модели с дискретными объясняемыми переменными… увеличение среднедушевого дохода лишь ненамного увеличит вероятность приобретения автомобиля такой семьей. Для семей с весьма высокими доходами возрастание вероятности наличия автомобиля также не может быть существенным, поскольку такие семьи, как правило, уже обладают автомобилем. Большее влияние увеличения дохода на возрастание вероятности наличия автомобиля должно наблюдаться для семей со “средними” доходами, т.е. в “переходной зоне” от доходов, еще не позволяющих обзавестись собственным автомобилем, к доходам, уже обеспечившим возможность приобретения собственного автомобиля. Возьмем прямоугольную систему координат, в которой по оси абсцисс будем откладывать размеры среднедушевых семейных доходов. Пусть x(1) = min{x1,K, xn }, x( n ) = max{x1, K, xn }, так что x(1) x x( n ) – интервал значений среднедушевых доходов рассматриваемых семей. Разобъем этот интервал на некоторое количество m подинтервалов одинаковой длины l = x( n ) x(1) / m.

( ) Построим над каждым таким подинтервалом прямоугольник, нижнее основание которого совпадает с этим подинтервалом. Пусть в пределы j -го подинтервала ( j = 1,K, m ) попадают среднедушевые доходы n j семей, и при этом лишь у n j,1 из этих семей имеется автомобиль. (Для определенности, значения xi, лежащие на границе двух соседних подинтервалов, будем относить к подинтервалу, расположенному левее.) Тогда высоту прямоугольника, построенного над j -м подинтервалом, положим равной h j = n j,1 / n j.

При этом мы предполагаем, что общее количество рассматриваемых семей n достаточно велико, так что можно взять не слишком малое количество подинтервалов m, и при этом все еще иметь достаточное количество значений xi в каждом подинтервале.

Глава Построим теперь ломаную с концами в точках x(1),0 и x(n ),1, узлы которой совпадают с серединами верхних сторон построенных прямоугольников. Эта ломаная является графиком некоторой кусочно-линейной функции Gn (x). И если P{yi = 1 xi = x} = G ( x), то функция Gn (x) в какой-то мере “оценивает” функцию G (x). Правда, если функцию G (x) естественно считать неубывающей (возрастающей) по x, то в силу случайных причин функция Gn (x) вполне может иметь и участки убывания. Тем не менее при большом количестве наблюдений и достаточном количестве подинтервалов график функции Gn (x) отражает в общих чертах форму “истинной” функции G (x), так что по поведению функции Gn (x) можно судить о совместимости или о несовместимости линейной модели с данными наблюдений. Рассмотрим (искусственно смоделированную) выборку, состоящую из 1000 семей со среднедушевыми месячными доходами от 100 до 2100 условных единиц, среди которых 510 семей имеют собственный автомобиль. Построенная по этим данным ломаная (график функции Gn (x) ) имеет следующий вид:

( )( ) Модели с дискретными объясняемыми переменными… 1 0.8 0.6 0.4 0.2 0 100 600 1100 X 1600 и указывает на то, что “истинная” функция G (x) имеет скорее не линейную, а S-образную форму. Если, тем не менее, исходить из линейной модели наблюдений, то метод наименьших квадратов дает для параметров такой модели следующие оценки: = 0.237628, = 0.000680, так что условная вероятность P{yi = 1 xi } оценивается как P {y i = 1 x i } = 0.237628 + 0.000680 x i.

При xi 349 правая часть принимает отрицательные значения, а при xi 1821 – значения, превышающие единицу, что выходит за пределы интервала возможных значений вероятности. Заметим теперь, что в число функций, имеющих S-образную форму и значения в пределах от 0 до 1, входит целый ряд функций распределения, используемых в теории вероятностей и математической статистике, например, нормальные функции распределения.

G_n Глава Если использовать функцию нормального распределения N µ, 2, имеющего математическое ожидание µ и дисперсию 2, то тогда x 2 1 (z µ ) G ( x) = exp dz. 2 2 2 Замена переменной (z µ ) / = t приводит это соотношение к виду ( ) G ( x) = 1 1 ( x µ ) / e t / xµ dt =, где ( z ) = распределения нулю, а дисперсия равна единице. xµ Соотношение G ( x) = можно записать также в виде G ( x) = ( + x ), где = µ /, = 1 /. Таким образом, используя для аппроксимации G (x) функцию нормального распределения, мы приходим к модели yi = ( + xi ) + i, i = 1, K, n. Оценив параметры и этой модели, мы тем самым получим и оценки параметров функции нормального распределения, аппроксимирующего функцию G (x) : µ = /, = 1 /. Проблема, оценивание. однако, в том, каким образом производить e dt – функция стандартного нормального N (0,1), математическое ожидание которого равно z t 2 / Модели с дискретными объясняемыми переменными… Заметим, что функция G ( x) = ( + x ) нелинейна по параметрам, так что мы имеем здесь дело с нелинейной моделью регрессии. Следуя принципу наименьших квадратов, для получения оценок и надо минимизировать по и сумму квадратов Q(, ) = ( y i ( + x i )).

2 i =1 n Однако в отличие от линейной модели, получающиеся здесь нормальные уравнения нелинейны, не имеют решения в явном виде, и для получения приближенных значений оценок и приходится использовать итерационные процедуры. Как и в рассмотренном ранее случае линейной модели, здесь возникает и проблема гетероскедастичности: условные дисперсии ошибок равны D ( i xi ) = ( + xi ) (1 ( + xi )). Соответственно, для учета различия этих дисперсий при разных i следует использовать взвешенный метод наименьших квадратов, т.е. минимизировать по и сумму квадратов Q(, ) = wi ( y i ( + x i )), 2 i =1 n где веса wi определяются соотношением wi = 1 / D ( i xi ) = [( + xi ) (1 ( + xi ))] 1. К сожалению, эти веса зависят не только от xi, но и от значений параметров и, которые нам не известны и которые как раз и подлежат оцениванию. Поэтому для реализации итерационной процедуры оценивания необходимы некоторые начальные оценки весов wi0, i = 1, K, n, а для этого необходимы начальные оценки Gi0 значений Gi = G ( xi ) = ( + xi ), которые дали бы оценки весов в виде 1. w0 = G 0 1 G i [( i i )] Глава Поскольку же у нас yi = 0 или yi = 1, то единственная разумная возможность – положить G 0 = 1, если y = 1, и G 0 = 0, если y = 0.

i i i i Однако в обоих случаях вес wi0 не определен (знаменатель равен нулю). Ввиду отмеченных выше трудностей в применении метода наименьших квадратов к рассмотренным моделям, мы используем альтернативный метод оценивания, широко применяемый в прикладных исследованиях, а именно – метод максимального правдоподобия. Однако прежде чем переходить к изложению этого метода, мы должны заметить, что в качестве объясняющих факторов в моделях рассмотренного типа могут выступать несколько переменных, и тогда мы получаем модель вида yi = G 1 xi1 + L + p xip + i, i = 1, K, n, ( ) которую обычно называют моделью бинарного выбора.

1.2. Использование метода максимального правдоподобия для оценивания моделей бинарного выбора Итак, пусть наша задача состоит в оценивании параметров модели бинарного выбора y i = G ( 1 xi1 + L + p xip ) + i, i = 1, K, n, где G ( z ) – S-образная функция распределения, имеющего плотность g ( z ) = G ( z ). В соответствии с введенными выше обозначениями G ( 1 x i1 + L + p x ip ) = G x.

T i () 1 xi1 +L + p xip = xiT, Мы так что что при предполагаем, фиксированных значениях объясняющих переменных в n наблюдениях, что соответствует фиксированным значениям Модели с дискретными объясняемыми переменными… независимы и E ( i xi ) = 0, так что P{y i = 1 xi } = E ( y i xi ) = G x iT.

векторов xi, случайные ошибки 1, K, n статистически () Тогда при фиксированных xi статистически независимы и случайные величины G ( 1 xi1 + L + p xip ) + i, i = 1, K, n, т.е. статистически независимы y1,K, yn. В силу этого (условная при фиксированных xi, i = 1, K, n ) совместная вероятность получения конкретного набора наблюдений y1,K, yn (конкретного набора нулей и единиц) равна произведению y 1 y (P{yi = 1 xi }) (P{yi = 0 xi }) = (G (x )) (1 G (x )) n n i i T i yi T i 1 yi.

i = i = Правая часть этого выражения является при фиксированных xi, i = 1, K, n, функцией от вектора неизвестных параметров, L( ) = L( x1, K, x n ) = G xiT n i = ( ( )) (1 G (x )) yi T i 1 yi и интерпретируется как функция правдоподобия параметров 1,K, p. Дело в том, что при различных наборах значений 1,K, p получаются различные L( ), т.е. при фиксированных xi, i = 1, K, n, вероятность наблюдать конкретный набор значений y1,K, yn может быть более высокой или более низкой, в зависимости от значения. Метод максимального правдоподобия предлагает в качестве оценки вектора параметров использовать значение =, максимизирующее функцию правдоподобия, так что L = max L = max () () (G(x )) (1 G (x )) n T i yi T i i = 1 yi.

Использование свойства монотонного возрастания функции ln(z ), позволяет найти то же самое значение, максимизируя ln L( ). В нашем логарифмическую функцию правдоподобия случае Глава ln L( ) = y i ln G xiT + (1 y i ) ln 1 G xiT.

i =1 i = n () n ( ( )) Мы не будем углубляться в технические детали соответствующих процедур максимизации, имея в виду, что такие процедуры “встроены” во многие прикладные пакеты статистических программ для персональных компьютеров и читатель при необходимости может ими воспользоваться. Заметим только, что если не имеет место чистая мультиколлинеарность объясняющих переменных (т.е. если матрица X = xij значений p () объясняющих переменных в n наблюдениях имеет ранг p, так что ее столбцы линейно независимы), то тогда функция L( ) имеет единственный локальный максимум, являющийся и глобальным максимумом, что гарантирует сходимость соответствующих итерационных процедур к оценке максимального правдоподобия. Мы рассмотрим теперь результаты применения метода максимального правдоподобия для оценивания параметров и моделей y i = G ( + xi ) + i, i = 1, K, n, по упомянутым выше смоделированным данным. При этом мы используем предусмотренную в пакете Econometric Views (EVIEWS) возможность выбора в качестве G ( z ) функций ( z ) = 1 распределения ( z ) = e dt – функция стандартного нормального N (0,1) (пробит-модель), логистического z t 2 / ez – функция стандартного 1+ ez распределения (логит-модель), Модели с дискретными объясняемыми переменными… G ( z ) = 1 exp e z – функция стандартного распределения экстремальных значений (минимума) I-го типа (распределение Гомпертца, гомпит-модель). Заметим, что функции плотности первых двух распределений являются четными функциями (графики этих плотностей симметричны относительно оси ординат), тогда как функция плотности последнего из трех распределений не обладает таким свойством. Ее график асимметричен и скошен в сторону отрицательных значений аргумента.

0. ( ) 0. 0. 0. 0 -6 -4 -2 0 2 4 Результаты оценивания указанных трех моделей по смоделированным данным (1000 наблюдений) с использованием пакета EVIEWS таковы: В четвертом столбце приведены значения отношений оценок коэффициентов к стандартным ошибкам, рассчитанным по асимптотическому нормальному распределению оценок максимального правдоподобия. В связи с этим, здесь и в последующих таблицах указанное отношение называется не t -статистикой, а z статистикой. P-значения, приводимые в пятом столбце, соответствуют стандартному нормальному распределению.

Глава Пробит-модель:

Variable C X Coefficient Std. Error -3.503812 0.003254 0.200637 0.000178 z-Statistic -17.46343 18.25529 z-Statistic -15.43576 16.01461 z-Statistic -18.63764 19.93322 Prob. 0.0000 0.0000 Prob. 0.0000 0.0000 Prob. 0.0000 0. Логит-модель:

Variable C X Coefficient Std. Error -6.357013 0.005892 0.411837 0. Гомпит-модель:

Variable C X Coefficient Std. Error -3.022612 0.003344 0.162178 0. Полученные значения оценок параметров и в первой модели ( = 3.503812, = 0.003254 ) соответствуют оценкам µ = 1076.77 и = 307.31 параметров функции нормального распределения, “сглаживающей” построенную ранее функцию Gn (x ), график которой представляет ломаную. Заметим, что в действительности при моделировании данных мы использовали в качестве G (x ) функцию нормального распределения с параметрами µ = 1100 и = 300. Следующий график позволяет сравнить поведение • кусочно-линейной функции Gn (x ), • теоретической функции G (x ), соответствующей 2 нормальному распределению N(1100, 300 ), • оцененной функции G( x ), соответствующей нормальному распределению N(1076.77, 307.312).

Модели с дискретными объясняемыми переменными… 1. 0. 0.6 G_N THEOR ESTIM 0. 0. 0.0 500 1000 X 1500 На следующем графике добавлены для сравнения также и оцененные функции G( x ) для логит- и гомпит-моделей 1. 0. 0. 0. 0. 0. G_N THEOR PROBIT LOGIT GOMPIT Кривые, получаемые по пробит- и логит-моделям, отличаются очень мало как друг от друга, так и от теоретической кривой. В то же время кривая, полученная по гомпит-модели, представляется Глава менее удовлетворительной. Разумеется, хотелось бы иметь некоторые количественные критерии для сравнения разных моделей и для проверки адекватности каждой из рассматриваемых моделей данным наблюдений. Мы займемся теперь этой проблемой.

1.3. Показатели качества моделей бинарного выбора, критерии согласия с имеющимися данными, сравнение альтернативных моделей Прежде всего обратим внимание на следующее обстоятельство. Пусть методом наименьших квадратов оценивается обычная линейная модель y i = 1 xi1 + L + p xip + i, i = 1, K, n, с xi1 1 (модель с константой), в которой объясняемая переменная y может принимать непрерывный ряд значений. В таком случае простейшим показателем качества оцененной модели является коэффициент детерминации R 2, R 2 = 1 RSS = 1 TSS (y i =1 n i = n i 2 yi ) (y, i y) где y i = 1 xi1 + L + p xip, y = ( y1 + L + yn ) n. (Здесь TSS – “полная”, а RSS – “остаточная” сумма квадратов.) Если оценивать “тривиальную” модель, в правую часть которой включается единственная объясняющая переменная xi1 1, т.е. модель yi = 1 + i, i = 1, K, n, то для такой модели = y, y = = y, так что RSS = TSS и R 2 = 0.

1 i При добавлении в правую часть модели дополнительных объясняющих переменных коэффициент R 2 возрастает, и этот Модели с дискретными объясняемыми переменными… коэффициент будет тем больше, чем более выраженной является линейная связь объясняемой переменной с совокупностью объясняющих переменных, включенных в правую часть. Своего максимального значения R 2 = 1 коэффициент детерминации достигает в предельном случае, когда для всех i = 1, K, n выполняются точные соотношения yi = 1 xi1 + L + p xip. Поскольку теперь мы имеем дело с нелинейными моделями yi = G 1 xi1 + L + p xip + i, i = 1, K, n, ( ) то не можем пользоваться обычным коэффициентом детерминации R 2, и желательно определить какую-то другую меру качества подобранной модели. Одна из возможностей в этом отношении – сравнение количеств неправильных предсказаний, получаемых по выбранной модели и по модели, в которой в качестве единственной объясняющей переменной выступает константа (“тривиальная модель”). Естественным представляется предсказывать значение yi = 1, когда G x T > 1 / 2. Для симметричных распределений последнее равносильно условию xiT > 0, так что прогнозные значения равны T 1, если xi > 0, yi = 0, если x iT 0. Количество неправильных предсказаний по выбранной модели равно n wrong,1 = () i i = n yi yi = (y i = n i 2 yi ) ;

доля неправильных предсказаний по выбранной модели равна 1n ( y i y i )2. wrong,1 = n i = Глава В то же время, если рассмотреть тривиальную модель, то для нее значение yi = 1 предсказывается для всех i = 1, K, n, когда 1 > 1 / 2, т.е. когда y > 1 / 2 (значения yi = 1 наблюдаются более, чем в половине наблюдений). Соответственно, значение yi = 0 предсказывается для всех i = 1, K, n, когда 1 / 2, т.е. когда y 1 / 2 (значения yi = 1 наблюдаются не более, чем в половине наблюдений). При этом доля неправильных предсказаний по тривиальной модели равна 1 y, если y > 1 / 2, wrong,0 = если y 1 / 2. y, В качестве показателя качества модели можно было бы взять коэффициент. = 1 i =1 wrong,0 wrong,0 Проблема, однако, в том, что выбранная модель может дать предсказание хуже, чем тривиальная, так что wrong,1 > wrong,0, и R2 =1 predict wrong, (y n i 2 yi ) тогда R 2 predict < 0. Отметим также, что вообще wrong,0 0.5, так что тривиальная модель может неправильно предсказать не более половины наблюдений. А если оказывается, что в выборке значения yi равны 1 для 90% наблюдений, то тогда wrong, 0 = 0.1, и 2 чтобы получить R predict > 0, необходимо, чтобы альтернативная модель давала более 90% правильных предсказаний. Это означает, что большая доля правильных предсказаний 1 wrong,1 сама по себе не говорит еще о качестве модели. Эта доля может быть большой и для плохой модели.

Модели с дискретными объясняемыми переменными… Рассмотрим теперь альтернативный подход к построению аналога коэффициента R 2 для моделей бинарного выбора. Поскольку мы использовали для оценивания таких моделей метод максимального правдоподобия, то естественным представляется сравнение максимумов функций правдоподобия (или максимумов логарифмических функций правдоподобия) для выбранной и тривиальной моделей. Пусть L1 – максимум функции правдоподобия для выбранной модели, а L0 – максимум функции правдоподобия для тривиальной модели. Заметим, что при этом L0 L1 1, так что и ln L0 ln L1 0. В рамках этого подхода cреди множества других были предложены следующие показатели качества моделей бинарного выбора 1 [Aldrich, Nelson (1984)], pseudoR 2 = 1 1 + 2(ln L1 ln L0 ) / n ln L1. ln L0 Последний показатель часто обозначают как LRI – индекс отношения правдоподобий (likelihood ratio index). Оба этих показателя изменяются в пределах от 0 до 1. Если для выбранной модели 2 = L = p = 0, то L0 = L1 и оба показателя McFaddenR 2 = равны нулю. Второй показатель может оказаться равным единице, если ln L1 = 0, т.е. L1 = 1. Такая модель дает точное предсказание, так что y i = y i для всех i = 1, K, n. Но при этом для рассмотренных выше моделей (пробит, логит и гомпит) оказывается невозможным доведение до конца итерационной процедуры оценивания вектора параметров из-за взрывного возрастания абсолютной величины xiT в процессе итераций. Это связано с тем, что у таких моделей при конечных значениях xiT выполняются строгие неравенства Глава 0 < G xiT < 1, и поэтому функция правдоподобия не может достигать значения 1.

() Пример Продолжая начатый выше статистический анализ смоделированного множества данных, вычислим значения альтернативных вариантов коэффициента R 2 для трех оцененных моделей бинарного выбора. Требуемые для вычисления этих значений величины представлены в следующей таблице.

Модель Пробит Логит Гомпит Тривиальная wrong, 0.125 0.124 0. lnL1 -275.7686 -275.4592 -292.6808 lnL0 -692. wrong, 0. (Напомним, что в смоделированной выборке количество семей, имеющих собственный автомобиль, равно 510, что составляет более половины семей. Поэтому тривиальная модель дает для всех 1000 наблюдений прогноз yi = 1, что приводит к 49% ошибок.) Соответственно, для различных вариантов коэффициента R 2 получаем: Пробит-модель wrong,1 0.125 R2 = 1 = 0.745, predict = 1 0.490 wrong, Модели с дискретными объясняемыми переменными… pseudoR 2 = 1 = 1 + 2(ln L1 ln L0 ) / n 1 = 0.4548, 1 + 2(275.7686 + 692.9472) / 1000 ln L1 275.7686 =1 = 0.6020. ln L0 692. = McFaddenR 2 = Логит-модель R2 predict = wrong,1 0.124 = 1 = 0.7470, 0.490 wrong, 1 = 1 + 2(ln L1 ln L0 ) / n 1 = 0.4550, 1 + 2(275.4592 + 692.9472) / 1000 ln L1 275.4592 =1 = 0.6025. ln L0 692. pseudoR 2 = = McFaddenR 2 = Гомпит-модель R2 predict = wrong,1 0.121 = 1 = 0.7531, 0.490 wrong, 1 = 1 + 2(ln L1 ln L0 ) / n 1 = 0.4446, 1 + 2(292.6808 + 692.9472) / pseudoR 2 = = Глава McFaddenR 2 = ln L1 275.4592 =1 = 0.5776. ln L0 692. Сведем полученные значения в общую таблицу.

Модель Пробит Логит Гомпит R2 predict 0.7450 0.7470 0. pseudoR 0.4548 0.4550 0. McFaddenR 0.6020 0.6025 0. Отметим близость всех вариантов коэффициента R 2 для пробити логит-моделей. Гомпит-модель дает несколько лучшее предсказание, в то время как логит-модель несколько лучше двух других с точки зрения коэффициентов pseudoR 2 и McFaddenR 2. Представим теперь, что в нашем примере вместо смоделированных значений y i наблюдались бы следующие значения: y i = 0 для xi 1100, y i = 1 для xi > 1100. Тогда 100% точное предсказание этих значений дала бы модель 0, если xi 1100 P{y i = 1} =. 1, если xi > 1100 Вместе с тем, в рамках пробит-, логит- и гомпит-моделей оценки максимального правдоподобия в такой ситуации не определены, т.к. максимум функции правдоподобия не достигается при конечных значениях параметров. Если речь идет о сравнении нескольких альтернативных моделей бинарного выбора с разным количеством объясняющих переменных, то, как и в случае обычных линейных моделей, сравнивать качество Модели с дискретными объясняемыми переменными… альтернативных моделей можно, опираясь на значения информационных критериев Акаике (AIC) и Шварца (SC): AIC = 2 ln Lk / n + 2 p / n, SC = 2 ln Lk / n + p ln n / n, а также информационного критерия Хеннана–Куинна HQ = 2 ln Lk / n + 2 p ln(ln n) / n. Здесь Lk – максимальное значение функции правдоподобия для k -й из альтернативных моделей, а p – количество объясняющих переменных в этой модели. При этом среди нескольких альтернативных моделей выбирается та, которая минимизирует значение статистики критерия. Заметим, что эти три критерия различаются размерами “штрафа”, который приходится платить за включение в модель большего количества объясняющих переменных. В рассмотренном выше примере во всех трех моделях использовались одни и те же объясняющие переменные (константа и среднедушевой доход семьи), так что по каждому информационному критерию в качестве ”наилучшей” будет выбрана модель, для которой максимум функции правдоподобия наибольший. Приведем полученные при оценивании значения информационных критериев:

Модель Пробит Логит Гомпит AIC 0.555537 0.554918 0.589362 SC 0.565353 0.564734 0.599177 HQ 0.559268 0.558649 0. По всем трем критериям наилучшей признается логит-модель. Эта модель имеет наибольший среди трех моделей максимум функции правдоподобия. Вместе с тем отметим, что преимущество логит-модели над пробит-моделью весьма мало.

Глава Для проверки адекватности подобранной модели имеющимся данным имеется ряд статистических критериев согласия;

одним из них является критерий Хосмера–Лемешоу2. Мы не будем давать его детальное описание, а воспользуемся тем, что этот критерий реализован в некоторых пакетах статистического анализа, в том числе и в пакете ECONOMETRIC VIEWS. Отметим только, что этот критерий основан на сравнении предсказываемых моделью и действительно наблюдаемых количеств случаев с yi = 1 в нескольких группах, на которые разбивается множество наблюдений. Сопоставим результаты применения критерия Хосмера– Лемешоу к подобранным выше моделям бинарного выбора. В следующей таблице приведены P-значения, соответствующие статистике Хосмера–Лемешоу (рассчитанные по асимптотическому распределению хи-квадрат с соответствующим числом степеней свободы) при разбиении множества наблюдений на 10 групп.

Модель P-значение Пробит 0.1509 Логит 0.5511 Гомпит 0. Если ориентироваться на эти P-значения, то гомпит-модель следует признать неудовлетворительной. В заключение рассмотрим пример подбора модели бинарного выбора с несколькими объясняющими переменными. В этом примере мы имеем дело со следующими финансовыми показателями 66 фирм на конец одного и того же года: оборотный капитал, X1 = общая сумма имущества Подробнее об этом критерии см., например, в [Hosmer, Lemeshow (1989)] Модели с дискретными объясняемыми переменными… нераспределенная прибыль, общая сумма имущества доходы до вычета процентов и налогов, X3 = общая сумма имущества рыночная стоимость активов за вычетом задолженности, X4 = балансовая стоимость общей суммы обязательств объем продаж. X5 = общая сумма имущества В течение последующих двух лет половина из этих фирм обанкротилась. Фирмы занумерованы числами от 1 до 66 так, что первые 33 фирмы в этом списке обанкротились. Введем в рассмотрение индикаторную переменную yi, полагая X2 = 0 для i = 1,K,33, yi = 1 для i = 34,K 66 т.е. yi = 1, если фирма выжила в течение двух лет. Попробуем сначала подобрать к указанным данным пробитмодель yi = ( + 1 xi1 + L + 5 xi 5 ) + i, i = 1, K,66. При попытке оценить параметры такой модели мы наталкивается на упоминавшееся ранее затруднение, связанное с расходимостью итерационного процесса. Поэтому приходится отказаться от желания включить в правую часть модели сразу все имеющиеся в распоряжении показатели и перейти к рассмотрению редуцированных моделей. При оценивании большинства моделей, в которых используется только 4 из 5 финансовых показателей, мы наталкиваемся на ту же самую проблему. Итерационный процесс сходится только для двух таких моделей – включающих в качестве объясняющих переменных (помимо константы) наборы показателей ( X 1, X 2, X 4, X 5 ) и ( X 1, X 3, X 4, X 5 ), соответственно. Однако каждый из оцененных Глава коэффициентов этих моделей имеет P-значение, превышающее 0.10, что указывает на необходимость дальнейшей редукции моделей. Среди моделей, использующих только 3 финансовых показателя, лучшей по McFaddenR 2 ( LRI ) является модель с набором ней все объясняющих переменных (1, X 2, X 4, X 5 ), но и в оцененные коэффициенты имеют P-значения, превышающие 0.184. Вообще, множество моделей, в которых оценки коэффициентов при всех включенных в их правые части финансовых показателях статистически значимы (при 5% пороге), исчерпывается 6 моделями, включающими в качестве объясняющих переменных наборы (1, X 1, X 4 ), (1, X 3, X 4 ), (1, X 1 ), (1, X 2 ), (1, X 3 ), (1, X 4 ). Приведем результаты, характеризующие сравнительное качество этих моделей. В первом столбце указаны финансовые показатели, включенные в модель.

LRI X1, X4 X3, X4 X1 X2 X3 X4 0.645 0.785 0.441 0.829 0.668 0.460 AIC 0.582 0.389 0.835 0.298 0.520 0.809 SC 0.682 0.488 0.902 0.364 0.587 0.875 HQ 0.621 0.427 0.861 0.324 0.547 0.835 Кол-во неправ. предсказ. 6 3 12 3 7 10 Хосмер–Лемешоу (5 групп) P-значения 0.4955 0.6499 0.4820 0.6916 0.0525 0. Критерий Хосмера–Лемешоу признает неадекватной последнюю модель и близкой к неадекватной предпоследнюю модель. Среди остальных 4 моделей по всем показателям лучшей оказывается Модели с дискретными объясняемыми переменными… модель, использующая единственный финансовый показатель X 2. Она дает следующую оценку вероятности выживания фирмы: P{y i = 1 xi } = ( 0.6625 + 0.0987 x i 2 ). Оцененная модель правильно предсказывает банкротство 31 из 33 обанкротившихся и выживание 32 из 33 выживших фирм. Это соответствует 95.45% правильных предсказаний, тогда как тривиальная модель дает в рассматриваемом случае только 50% правильных предсказаний. Таким образом, согласно полученным результатам, вероятность выживания фирмы определяется в основном отношением размера нераспределенной прибыли к общей стоимости имущества фирмы и возрастает с ростом этого отношения.

1.4. Интерпретация коэффициентов Поскольку модели логит, пробит и гомпит являются нелинейными моделями, то оцененные коэффициенты в этих моделях имеют интерпретацию, отличающуюся от интерпретации коэффициентов в линейной модели. Все эти модели имеют вид y i = G ( 1 x i 1 + L + p x ip ) + i = G x iT, i = 1, K, n ;

( ) при этом P{yi = 1 xi } = E ( yi xi ) = G xiT. Пусть k -я объясняющая переменная является непрерывной переменной. Тогда предельный эффект (marginal effect) этой переменной определяется как производная P{y i = 1 xi } G xiT, = xik xik и, в отличие от линейной модели, этот эффект зависит от значений T объясняющих переменных для i -го субъекта xi = (xi1,K, xip ).

() () Малое изменение xik k -й объясняющей переменной приводит (при неизменных значениях остальных объясняющих переменных) к Глава изменению вероятности P{yi = 1 xi } на величину, приближенно равную P{yi = 1 xi } G xiT P{y i = 1 xi } xik = xik. xik xik Заметим, что поскольку модель нелинейна, при интерпретации значений предельного эффекта надо иметь в виду отклик интересующей нас вероятности именно на малые приращения объясняющей переменной. В случае, когда сама объясняющая переменная принимает только два значения 0 и 1 (дамми-переменная – dummy variable), указывающие на наличие (1) или отсутствие (0) у субъекта определенного признака, “малые” изменения переменной, о которых говорилось выше, попросту невозможны. В этом случае “предельный эффект” определяют просто как разность P yi = 1 xi, d = 1 P yi = 1 xi, d = 0, () { }{ } где d обозначает рассматриваемую дамми-переменную, а xi – вектор значений остальных объясняющих переменных. В пробит-модели P{yi = 1 xi } = xiT = (1 xi1 + K + p xip ). Малое изменение xik k -й объясняющей переменной приводит здесь (при неизменных значениях остальных объясняющих переменных) к изменению вероятности P{yi = 1 xi } на величину, приближенно равную (1 xi1 + L + p xip ) P{y i = 1 xi } xik = xiT k xik, xik 1 t 2 / 2 e – функция плотности стандартного где ( z ) = 2 нормального распределения N (0,1), математическое ожидание которого равно нулю, а дисперсия равна единице. Предельный () () Модели с дискретными объясняемыми переменными… эффект k -й объясняющей переменной равен xiT k (а не k – как в линейной модели). В логит-модели P{y i = 1 x i } = x iT = ( 1 x i1 + K + p x ip ) () () P{yi = 1 xi } xiT 1 xiT k xik. Выражение, заключенное в фигурные скобки, представляет предельный эффект для k -й объясняющей переменной в логитмодели. Заметим теперь следующее. Пусть p = P ( A) – вероятность p часто называют некоторого события A, 0 < p < 1. Отношение 1 p шансами (оdds) этого события. Например, если p = 2 / 3, то p 2/3 = = 2, и шансы за то, что событие A произойдет, против 1 p 1/ 3 того, что это событие не произойдет, равны 2:1 (“два к одному”, или p называют логитом “в 2 раза выше”). Логарифм отношения 1 p малое изменение xik k -й объясняющей переменной приводит (при неизменных значениях остальных объясняющих переменных) к изменению вероятности P{y i = 1 x i } на величину, приближенно равную P{yi = 1 xi } xiT P{yi = 1 xi } xik. xik = xik xik Учитывая явный вид функции (z ), находим отсюда:

() { ( )( ( )) } p (logit), logit( p ) = ln 1 p. Если logit ( p ) = 0, то p = 1 p = 0.5, т.е. шансы для события A равны “50 на 50”. Если logit ( p ) > 0, то больше шансов, что событие A произойдет. Если logit ( p ) < 0, то больше шансов, что событие A не произойдет.

Глава Пусть p = xiT = теперь T i exp x 1, 1 p =, так что logit( p ) = xiT, T 1 + exp xi 1 + exp xiT т.е. логит-модель линейна в отношении логита. Отсюда вытекает, что изменение значения k -й объясняющей переменной на величину xik приводит (при неизменных значениях остальных объясняющих () () () p = P{yi = 1 xi }.

В логит-модели () p переменных) к изменению значения ln 1 p на k xik, что при малых значениях xik означает изменение значения отношения p приблизительно на 100 k xik процентов. Иначе говоря, при 1 p этом шансы за то, что yi = 1, против того, что yi = 0, возрастают приблизительно на 100 k x ik процентов.

1.5. Проверка предположений выполнения стандартных При анализе обычных линейных моделей регрессии проверка выполнения стандартных предположений осуществляется посредством графического анализа и различных статистических критериев, призванных выявить наличие таких особенностей статистических данных, которые могут говорить не в пользу гипотезы о выполнении стандартных предположений. Посмотрим, однако, на график остатков для пробит-модели, оцененной по рассматривавшемуся выше множеству данных о наличии (отсутствии) собственных автомобилей у 1000 семей.

Модели с дискретными объясняемыми переменными… 1.5 1.0 0.5 0.0 -0.5 -1.0 -1.5 500 1000 1500 Этот график по форме разительно отличается от тех, с которыми приходится сталкиваться при анализе обычных моделей регрессии с непрерывной объясняемой переменной. И это вовсе не должно нас удивлять, если вспомнить свойства случайных ошибок в моделях бинарного выбора: при заданных значениях объясняющих переменных случайная величина i может принимать в i -м наблюдении только два значения. Соответственно, привычный графический анализ остатков не дает здесь полезной информации, и более полезным является непосредственное использование подходящих статистических критериев. Поскольку мы используем для оценивания модели бинарного выбора метод максимального правдоподобия, естественным представляется сравнение максимумов функций правдоподобия, получаемых при оценивании модели с выполненными стандартными предположениями и при оценивании модели, в которой эти предположения не выполняются. При этом предполагается, что эти две модели – гнездовые, т.е. первая вложена во вторую, так что вторая модель является более сложной, а первая является частным случаем второй модели. Здесь надо заметить, что сравнением максимумов правдоподобий в двух гнездовых моделях мы фактически уже пользовались выше. Действительно, на таком сравнении основаны определения коэффициентов Глава pseudoR 2 = 1 1 + 2(ln L1 ln L0 ) / n и ln L1. ln L0 В этом случае в качестве гнездовых моделей рассматриваются основная модель (с одной или несколькими объясняющими переменными помимо константы) и вложенная в нее тривиальная модель (в правую часть в качестве объясняющей переменной включается только константа). Кроме того, если две гнездовые модели сравниваются с использованием информационных критериев (Акаике, Шварца, Хеннана–Куинна), то такое сравнение опять сводится к сравнению максимумов функций правдоподобия в этих моделях. В этом разделе мы сосредоточимся на некоторых статистических критериях проверки гипотез о выполнении стандартных предположений, но прежде чем перейти к рассмотрению и применению подобных критериев, мы рассмотрим процесс порождения данных, приводящий к пробит-модели. McFaddenR 2 = Предположим, что переменная yi характеризует “полезность” наличия некоторого предмета длительного пользования для i -й семьи, и эта полезность определяется соотношением y = 1 xi1 + L + p xip + i, i = 1, K, n, i где xi1, K, xip – значения p объясняющих переменных для i -й семьи, 1, K, n – случайные ошибки, отражающие влияние на полезность наличия указанного предмета для i -й семьи каких-то неучтенных дополнительных факторов. Пусть i -я семья приобретает этот предмет длительного пользования, если yi > i, Модели с дискретными объясняемыми переменными… где i – пороговое значение, и индикаторная переменная y i отмечает наличие ( y i = 1 ) или отсутствие ( y i = 0 ) данного предмета у i -й семьи. Тогда P{yi = 1 xi } = P yi > i xi = P 1 xi1 + L + p xip + i > i xi = P i > i 1 xi1 L p xip xi, { { }{ } }= и если xi1 1, то P{y i = 1 x i } = P{ i > ( i 1 ) ( 2 xi 2 + L + p xip ) xi }.

Если предположить, что ошибки 1, K, n – независимые в совокупности (и независимые от xij, j = 1, K, p ) случайные величины, имеющие i ~ N 0, 2, то тогда ( 1 ) 2 xi 2 + L + p xip = P{yi = 1 xi } = 1 i 2 xi 2 + L + p xip ( i + 1 ). = + (Здесь мы использовали вытекающее из симметрии стандартного нормального распределения соотношение 1 ( x) = ( x).) Обозначая ( i + 1 ), = j, 1 = j ( ) одинаковое нормальное распределение ( ) ( ) получаем: P{y i = 1 xi } = ( 1 xi1 + L + p xip ) = x iT.

() Но именно таким образом и определяется пробит-модель. Пусть мы имеем в наличии только значения y i, xi1, K, xip, а значения y не доступны наблюдению. В таком случае переменную i y называют латентной (скрытой) переменной. Применяя метод i Глава максимального правдоподобия, мы получаем оценки параметров пробит-модели 1, K, p, но не можем однозначно восстановить по ним значения параметров 1,K, p, если не известны значения и 1, K, n. Действительно, если оценки, 1, K, n, 1, K, p таковы, что j i + 1, j = 1 =, то к тем же значениям 1, K, p приводят и оценки k, k1, K, k n, ( ) k 1, K, k p, где k – произвольное число, – < k <.

Таким образом, в рассмотренной ситуации для однозначной идентификации коэффициентов 1,K, p необходима какая-то нормализация функции полезности. В стандартной предполагается, что = 1 и 1 = L = n = 0, так что =, K, =, 1 1 p p модели и именно такую модель мы будем теперь рассматривать. Прежде всего заметим, что при получении оценок параметров 1,K, p в такой модели методом максимального правдоподобия мы принципиально опираемся на предположение о нормальности ошибок 1, K, n : i ~ N (0, 1). Поэтому важной является задача проверки этого предположения, т.е. проверка гипотезы H 0 : 1, K, n ~ i.i.d., i ~ N (0, 1). Наряду со стандартной моделью (модель 1) рассмотрим модель 2, отличающуюся от стандартной тем, что в ней P{ i t} = t + 1t 2 + 2t 3, так что 2 3 P{yi = 1 xi } = xiT + 1 xiT + 2 xiT. ( ) () () Модели с дискретными объясняемыми переменными… При этом модель 1 является частным случаем модели 2 (при 1 = 2 = 0 ), так что модель 1 и модель 2 – гнездовые модели, и в рамках более общей модели 2 гипотеза H 0 принимает вид H0 : 1 = 2 = 0. Класс распределений вида P{ i t} = t + 1t 2 + 2t 3 допускает асимметрию и положительный эксцесс (островершинность) распределения. Следующий график позволяет сравнить поведение функции стандартного нормального распределения ( t ) (толстая линия) и функции t + 0.5t 2 + 0.5t 3 (тонкая линия).

( ) ( ) 1. 0. 0. 0. 0. 0. 0 -6 -4 -2 0 2 4 Пусть L j – максимум функции правдоподобия в модели j, j = 1, 2, и LR = 2 (ln L2 ln L1 ). Критерий отношения правдоподобий отвергает гипотезу H 0, если наблюдаемое значение LR превышает критическое значение LRcrit, статистики соответствующее выбранному уровню значимости. Этот критическое значение LRcrit критерий асимптотический: вычисляется на основе распределения, к которому стремится при Глава n распределение статистики LR, если гипотеза H 0 верна. Этим предельным распределением является распределение хиквадрат с двумя степенями свободы. Итак, в соответствии с критерием отношения правдоподобий, гипотеза H 0 отвергается, если где 12 (2 ) – квантиль уровня 1 распределения хи-квадрат с двумя степенями свободы. Обратимся опять к смоделированным данным о наличии или отсутствии собственных автомобилей у 1000 домохозяйств. Оценивая пробит-модель (модель 1) по этим данным, мы получили следующие результаты:

Коэффициент Оценка -3.503812 0.003254 -275.7686 Std. Error 0.200637 0.000178 z-Statistic -17.46343 18.25529 Prob. 0.0000 0.0000 0.555537 0.565353 0. LR > 12 (2 ), ln L Akaike info criterion Schwarz criterion Hannan-Quinn criter.

Оценивание модели 2 дает следующие результаты:

Коэффициент 1 Оценка -3.851178 0.003540 0.022954 -0.017232 -274. Std. Error 0.324895 0.000292 0.025086 0. z-Statistic -11.85359 12.11708 0.915039 -1. Prob. 0.0000 0.0000 0.3602 0.0904 0.557257 0.576888 0. ln L Akaike info criterion Schwarz criterion Hannan-Quinn criter.

Модели с дискретными объясняемыми переменными… 2 Поскольку же 0.95 (2) = 5.99, то критерий отношения правдоподобий не отвергает гипотезу H 0 при уровне значимости 0.05. Заметим еще, что значению LR = 2.28 соответствует (вычисляемое по асимптотическому распределению 2 (2) ) P значение 0.6802. Таким образом, критерий отношения правдоподобий не отвергает гипотезу H 0 при любом разумном уровне значимости.

Соответственно, здесь LR = 2 (ln L2 ln L1 ) = 2 (275.7686 274.6286) = 2.28.

Еще одним “стандартным предположением” является предположение об одинаковой распределенности случайных ошибок i в процессе порождения данных. В сочетании с предположением нормальности этих ошибок, данное условие сводится к совпадению дисперсий всех этих ошибок. Нарушение этого условия приводит к гетероскедастичной модели и к несостоятельности оценок максимального правдоподобия, получаемых на основании стандартной модели. Для проверки гипотезы совпадения дисперсий мы можем опять рассмотреть какую-нибудь более общую модель с наличием гетероскедастичности, частным случаем которой является стандартная пробит-модель. В примере с автомобилями можно допустить, что дисперсии случайных ошибок в процессе порождения данных возрастают с возрастанием значений xi, например, как D( i xi ) = exp(k xi ), k > 0, так что (модель 3) +x i. P{y i = 1 xi } = exp(k x ) i Здесь мы имеем две гнездовые модели – модель 3, допускающую гетероскедастичность в указанной форме, и модель 1 (стандартную Глава пробит-модель) как ее частный случай. В рамках модели 3 выполнение стандартных предположений соответствует гипотезе H0 : k = 0. Оценивание модели 3 по смоделированным данным дает следующие результаты:

Coefficient Std. Error 0.317695 0.000316 0.000186 z-Statistic -9.889867 9.132687 -1.269192 Prob. 0.0000 0.0000 0.2044 0.556524 0.571247 0. k -3.141966 0.002883 -0.000236 -275. ln L Akaike info criterion Schwarz criterion Hannan-Quinn criter.

При сравнении с моделью 1 получаем: LR = 2 (ln L3 ln L1 ) = 2 (275.2619 274.6286) = 1.27. Это значение меньше критического значения 3.84, соответствующего уровню значимости 0.05 и вычисленного как квантиль уровня 0.95 асимптотического распределения хи-квадрат с одной степенью свободы. Следовательно, гипотеза H 0 : k = 0 не отвергается. Отметим, что решения, принятые нами на основании критерия отношения правдоподобий, согласуются с решениями, принимаемыми в рассматриваемом примере на основании информационных критериев:

Модель 1 (пробит) Модель 2 Модель 3 (гетеро) AIC 0.555537 0.557257 0.556524 SC 0.565353 0.576888 0.571247 HQ 0.559268 0.564718 0. По всем трем критериям стандартная предпочтительнее альтернативных моделей.

пробит-модель Модели с дискретными объясняемыми переменными… 1.6. Модели, в которых объясняемая переменная принимает несколько различных значений 1.6.1. Порядковая пробит-модель В том же примере с наличием или отсутствием у семьи собственного автомобиля значение yi = 1 говорило только о том, что i-я семья имеет собственный автомобиль, но не говорило о том, сколько в действительности автомобилей имеет семья – один, два или, быть может, еще больше. Обращаясь к процессу порождения данных, ориентирующемуся на значения функции полезности и сравнение ее с пороговыми значениями, можно предположить наличие не одного, а двух пороговых значений для каждой семьи, так что при превышении первого порога семья имеет в наличии один автомобиль, а при превышении второго (более высокого) порога – два или более автомобилей. Обобщая эту ситуацию, рассмотрим процесс порождения данных, в котором имеется некоторая ненаблюдаемая (латентная) переменная y, значения которой связаны со значениями xi1, K, xip i объясняющих переменных для i -го следующим образом: y = 1 xi1 + L + p xip + i, i = 1, K, n. i субъекта исследования Здесь i – случайная ошибка, отражающая влияние на значение y i неучтенных дополнительных факторов. Вместе со значениями xi1, K, xip наблюдаются также значения переменной y i, которая может принимать K следующей схемой: различных значений, в соответствии со Глава 1, если y i,1, i K yi = k, если i, k 1 < y i, k, i K K, если y > i, K 1, i где i,1 < L < i, k < L < i, K 1 – пороговые значения, вообще говоря, ненаблюдаемые. Предполагая, что ошибки совокупности (и независимые 1, K, n от – независимые в xij, j = 1,K, p ) случайные величины, имеющие одинаковое нормальное распределение i ~ N 0, 2, мы получаем порядковую пробит-модель. Рассмотрим частный случай, когда K = 3 и пороговые значения одинаковы для всех субъектов исследования, так что i,1 1, ( ) i,2 2 и 1, если yi = 2, если 3, если При этом P{yi = 1 xi } = P y 1, i 1 < y 2, i y > 2. i {y { i 1 xi = P 1 xi1 + L + p xip + i 1 xi }{ ( = P i ( 1 1 ) 2 xi 2 + L + p xip xi ( ) 2 xi 2 + L + p xip = 1 1 ( ).

) }= }= Модели с дискретными объясняемыми переменными… P{yi = 2 xi } = P 1 < yi 2 xi { = P 1 < 1 xi1 + L + p xip + i 2 xi P{yi = 3 xi } = P yi > 2 xi = P 1 xi1 + L + p xip + i > 2 xi ( 1 ) 2 xi 2 + L + p xip = 2 ( ) 2 xi 2 + L + p xip, 1 1 { }= ) ) ( }= ( Пусть мы имеем в наличии только значения y i, ( ) }= ( 1 ) ( 2 xi 2 + L + p xip ). = 1 = P i > ( 2 1 ) 2 xi 2 + L + p xip xi { { }{ }= xi1, K, xip, i = 1, K, n. Применяя метод максимального правдоподобия, мы, как и в случае пробит-модели с двумя исходами, не можем однозначно восстановить значения параметров 1,K, p, если не известны значения, 1 и 2. Поэтому и здесь для однозначной идентификации коэффициентов 1,K, p необходима какая-то нормализация. В стандартной модели предполагается, что = 1 и 1 = 0, хотя возможны и другие нормализации. Используя стандартную нормализацию и обозначая 2 =, мы получаем в модели с тремя исходами: P {y i = 1 x i } = P y i 0 x i = x iT, При этом коэффициент j допускает двойное истолкование. В соответствии с моделью для y, положительное значение этого i }( ) P{y = 2 x } = P{0 < y x }= ( x ) ( x ), P{y = 3 x } = P{y > x }= 1 ( x ).

i i i i T i T i i i i i T i { Глава коэффициента означает, что переменная y i возрастает с вероятности P{yi = 3 xi } и к убыванию вероятности P{yi = 1 xi }. Что возрастанием j-й объясняющей переменной. В соответствии с приведенными выражениями для вероятностей получения значений yi = 1, yi = 2 и yi = 3, последнее приводит к возрастанию же касается вероятности P{yi = 2 xi }, то здесь возможно как возрастание, так и убывание этой вероятности, в зависимости от конкретной ситуации. Прогнозирование по оцененной модели производится в соответствии со следующим соглашением. Прогнозное значение yi полагается равным k, если P{y = k x } = max P{y = k x }.

i 0 i k =1,K, K i i Пример Рассмотрим теперь выборку, состоящую из 1000 семей со среднедушевым месячным доходом от 100 до 2100 условных единиц (у.е.), среди которых 499 семей не имеет собственного автомобиля, 369 семей имеет один автомобиль, 132 семьи имеют два автомобиля. Выборка получена посредством моделирования;

при этом был использован процесс порождения данных в виде y = xi + i, i = 1,K,1000, i где i – независимые в совокупности (и независимые от xi ) случайные величины, имеющие одинаковое нормальное 2 распределение i ~ N 0,300, т.е. = 300. Здесь K = 3 и границы 1 и 2 были выбраны равными, соответственно, 1 = 1100 и 1 = 1850, так что в результате получаем порядковую пробит-модель ( ) 1, если y 1, i yi = 2, если 1 < y 2, i 3, если y i > 2, Модели с дискретными объясняемыми переменными… где y1 = 1, если i -я семья не имеет автомобиля, y1 = 2, если i -я семья имеет один автомобиль, и y1 = 3, если i -я семья имеет два (или более) автомобиля. На следующем графике показана зависимость полученных значений y от xi i 3000 2500 2000 1500 1000 500 0 -500 -1000 x Y* LEVEL1 LEVEL Горизонтальные линии соответствуют разделительным порогам LEVEL1=1100 и LEVEL2=1850. Наблюдения с y 1100 встречаются в группе семей с доходами i от 200 до 1600 у.е. Наблюдения с 1100 < y 1850 встречаются в i группе семей с доходами от 548 до 2094 у.е. Наблюдения с y > 1850 встречаются в группе семей с доходами от 1318 у.е. и i выше. Важно отметить, что эти группы пересекаются, и это связано как раз с наличием случайной составляющей в уравнении полезности. Если бы этой составляющей не было, то мы имели следующую картину.

Глава 2500 2000 1500 1000 500 0 x И тогда мы получили бы разбиение на три непересекающиеся группы. Для всех семей с доходами, не превышающими 1100 у.е., yi = 1. Для всех семей с доходами, превышающими 1100 у.е., но не превышающими 1850 у.е., yi = 2. Для всех семей с доходами, превышающими 1850 у.е., yi = 3. Представим теперь, что мы имеем в распоряжении только выборочные данные, т.е. пары (xi, yi ), i = 1,K,1000. Оценивание методом максимального правдоподобия порядковой пробит-модели с нормализацией = 1, = 0 (именно такая нормализация используется в пакете EVIEWS), дает следующие результаты:

Coefficient X 0.003361 Limit Points 3.693723 6.306692 Std. Error 0.000158 0.185109 0.279737 z-Statistic 21.31648 19.95431 22.54510 Prob. 0.0000 0.0000 0. 1 Иначе говоря, нормализованная модель оценивается как Модели с дискретными объясняемыми переменными… где ui ~ N (0,1), и y = 0.003361xi + ui, i 1, если y 3.693723, i yi = 2, если 3.693723 < y 6.306692, i 3, если y i > 6.306692. Если учесть, что мы сами смоделировали выборку и поэтому знаем значение, то переход к модели с = 300 соответствует оцененной модели y = 300 0.003361 xi + 300 u i = 1.0083 xi + i, i где i ~ N 0,3002, и 1 = 300 3.693723 = 1108.1169, 2 = 300 6.306692 = 1892.0076. Как видим, параметры оцененной модели очень близки к параметрам истинной модели. Результаты прогнозов по оцененной модели приведены в следующей таблице.

yi 1 2 3 Кол-во yi набл. 499 369 132 1 2 3 Ошибка Кол-во y i y i набл. 500 387 113 -1 -18 ( ) Содержимое таблицы отражает следующая диаграмма.

Глава Объемы групп с y=k 600 500 400 300 200 100 0 1 2 Истинные Прогнозные k Для сравнения приведем результаты прогнозов по тривиальной модели, не учитывающей в уравнении для y влияние доходов i-й i семьи:

yi 1 2 3 Кол-во yi набл. 499 369 132 1 2 3 Ошибка Кол-во y i y i набл. 1000 0 0 -501 369 Приведем также сводную таблицу количеств правильных и неправильных прогнозов для значений yi = 1, 2,3.

Модели с дискретными объясняемыми переменными… yi =1 yi =1 yi =2 yi = 438 62 yi = 61 265 yi = 0 42 Таким образом, из 1000 прогнозов правильными оказались 774, т.е. 77.4%. При этом значения yi = 1 правильно прогнозируются в 438 случаях из 499, т.е. в 87.8% случаев;

значения yi = 2 правильно прогнозируются в 71.8% случаев;

значения yi = 3 правильно прогнозируются в 53.8% случаев. 1.6.2. Мультиномиальная модель В целом ряде случаев не существует естественного упорядочения альтернатив, благодаря которому и возникает монотонная связь между непрерывной латентной переменной и наблюдаемой переменной, принимающей конечное количество значений. Пусть мы имеем K таких альтернатив (мы занумеруем их в произвольном порядке числами 1,K, K ) и пусть i -й субъект исследования приписывает k -й альтернативе полезность uik, так что T uik = 1 xi1, k + L + p xip, k + ik = xik + ik, i = 1, K, n, где xik = xi1, k,K, xip, k ( )T, а ik ( i = 1, K, n, k = 1,K, K ) – независимые в совокупности (и независимые от xik ) случайные величины, имеющие одинаковое распределение. Предположим, что i -й субъект выбирает альтернативу k, если для него эта альтернатива имеет максимальную полезность. В этом yi = k. Тогда (условная при заданных случае мы полагаем значениях xik, k = 1,K, K ) вероятность того, что i -й субъект выберет альтернативу k, равна Глава T T P{yi = k } = P uik = max uij = P xik + ik > max xij + ij. j =1,K, K, j k j =1,K, K Выразить такую вероятность в явном виде весьма проблематично. Однако если предположить, что общим для всех случайных величин ik является стандартное распределение экстремальных значений (максимума) I-го типа с функцией распределения G ( z ) = exp e z, – < z <, (это распределение часто называют также распределением Гумбеля), то формула для вычисления вероятности P{yi = k } принимает достаточно простой вид, а именно: T exp xik P{yi = k } =. T exp xiT + exp xiT2 + L + exp xiK 1 Заметим, однако, что если и числитель и знаменатель правой части последнего выражения разделить на exp xiT, то получим ( ) ( ) () ( () () ( T xik ( ) exp. T T 1 + exp xi1 + L + exp xiK xiT 1 Следовательно, каким бы ни было значение линейной комбинации xiT, вероятность P{yi = k } будет зависеть только от разностей 1 P{yi = k } = xiT ) xiT ) () ( ) T xiT,K, xiK xiT. Это обстоятельство приводит к 1 1 естественной нормализации, при которой полагают xiT = 0, i = 1, K, n, 1 так что тогда T exp xik P{yi = k } =. T 1 + exp xiT2 + L + exp xiK Такую модель разные авторы называют по-разному. Так, в книгах [Verbeek (2000)] и [Amemiya (1985)] об этой модели говорится как о мультиномиальной логит-модели (multinomial logit model). В книгах [Green (1993)] и [Davidson, MacKinnon (1993)] эта модель (x T i )( ) () () ( ) Модели с дискретными объясняемыми переменными… именуется условной логит-моделью (conditional logit model), а под мультиномиальной логит-моделью подразумевается модель exp xiT k P{yi = k } =, exp xiT 1 + exp xiT 2 + L + exp xiT K в которой объясняющие переменные специфичны только в отношении самих субъектов исследования (но не в отношении альтернатив), а специфичными в отношении альтернатив являются ( ) ( ( ) ) ( ) коэффициенты модели. Соответственно, здесь k = 1, k,K, p, k вектор коэффициентов при объясняющих переменных представлении функции полезности для k -й альтернативы: uik = 1, k xi1 + L + p, k xip + ik = xiT k + ik, i = 1, K, n.

( )T – в Последняя модель под названием мультиномиальной логитмодели появляется и в пакете EVIEWS. Поскольку в этой модели xi не зависят от альтернативы, являясь собственными атрибутами субъекта, то exp xiT k 1 P{yi = k } =, 1 + exp xiT 2 1 + L + exp xiT K (( (( )) )) (( )) так что эта вероятность зависит только от разностей 2 1, K, K 1, и для нормализации можно положить вектор 1 равным нулевому вектору. При такой нормализации exp xiT k P{yi = k } =. 1 + exp xiT 2 + L + exp xiT K ( ) ( ) ( ) В этом случае (условная при фиксированных xij, j = 1,K, p, i = 1, K, n ) совместная вероятность получения конкретного набора наблюдений y1,K, yn (конкретного набора значений 1, K, K ) равна произведению Глава (P{yi = k}) i =1 k = n K d ik exp xiT k = T2 TK i =1 k =1 1 + exp xi + L + exp xi n K где ( ) ( ) ( ) d ik, 1, если yi = k, d ik = 0, если yi k. Правая часть этого выражения является при фиксированных xi, i = 1, K, n, функцией от вектора неизвестных параметров, = ( 1,K, K ) T :

n K ik exp xiT k, L( ) = L( x1, K, xn ) = 1 + exp xiT 2 + L + exp xiT K i =1 k =1 и эта функция как функция правдоподобия является объектом максимизации по. Результатом такой максимизации являются оценки максимального правдоподобия для векторов T, k = 1,K, K. коэффициентов k =, K, ( ) ( ) d ( ) ( 1, k p,k ) Пример Рассмотрим смоделированную ситуацию, в которой, как и в последней модели, переменные специфичны только в отношении самих субъектов исследования. Пусть xi1 1, xi 2 – типичное количество посещений продуктового магазина в неделю i -й семьей (от 1 до 7), xi 3 – среднемесячный доход на одного члена i -й семьи (от 50 до 250 у.е.). Выбранная модель порождения данных имитирует поведение 1000 семей, проживающих в одном и том же многоэтажном доме и приобретающих продукты в трех продуктовых магазинах, ближайших к этому дому. Каждая семья отдает предпочтение одному из трех магазинов, так что мы имеем здесь 3 альтернативы. Магазины различаются тремя сравнительными характеристиками:

Модели с дискретными объясняемыми переменными… ассортиментом (наименее разнообразный из трех, наиболее разнообразный из трех, промежуточный), удаленностью от дома (наибольшая, наименьшая, средняя) и уровнем цен (максимальный, минимальный, средний). Альтернативы были занумерованы числами 1, 2, 3 произвольным образом. В итоге была получена следующая нумерация.

k 1 2 3 Характеристики k-го магазина Ассортимент Удаленность Уровень цен Богатый Максимальная Средний Бедный Минимальная Минимальный Промежуточный Средняя Максимальный Предполагается, что i -я семья приписывает k -й альтернативе полезность uik, где uik = k1 xi1 + k 2 xi 2 + k 3 xi 3 + ik, i = 1,K,1000, где ik ( i = 1,K,1000, k = 1, 2, 3 ) – независимые в совокупности (и независимые от xij ) случайные величины, имеющие одинаковое распределение с функцией распределения G ( z ) = exp e z, – < z <. При этом мы используем нормализацию 11 = 0, 12 = 0, 13 = 0. Остальные коэффициенты выбраны следующим образом: 21 = 0.8, 22 = 1.0, 23 = 0.0032, 31 = 0.4, 32 = 0.3, 33 = 0.0032, так что функции полезности для трех альтернатив имеют вид ui1 = i1, ui 2 = 0.8 + xi 2 0.0032 xi 3 + i 2, ui 3 = 0.4 xi1 + 0.3 xi 2 + 0.0032 xi 3 + i 3.

( ) Глава Их поведение иллюстрирует следующий график.

U1 U2 U3 0 - - В соответствии с моделью порождения данных, i -я семья выбирает альтернативу k, если для этой семьи альтернатива k имеет максимальную полезность. В этом случае полагаем yi = k. Результаты оценивания методом максимального правдоподобия:

Coefficient Std. Error 0.358914 0.097636 0.002134 0.327444 0.087563 0.001957 z-Statistic -4.611496 13.01381 -0.833304 -3.149372 5.020273 3.211368 Prob. 0.0000 0.0000 0.4047 0.0016 0.0000 0. 21 22 23 31 32 -1.655130 1.270612 -0.001778 -1.031242 0.439590 0. Все оцененные коэффициенты, за исключением высокую статистическую значимость.

23, имеют Модели с дискретными объясняемыми переменными… Сравним истинные и оцененные значения коэффициентов:

Истинное значение Оценка -1.655130 1.270612 -0.001778 -1.031242 0.439590 0. 21 22 23 31 32 -0.8 1.0 -0.0032 -0.4 0.3 0. Знаки оцененных коэффициентов соответствуют знакам истинных значений коэффициентов. Кроме того, соблюдается упорядочение значений соответственных коэффициентов, имеющих одинаковые знаки: 21 < 31 и 21 < 31, > и >.

22 32 22 На основании полученных оценок коэффицентов можно значения вероятностей P{yi = k } вычислить прогнозные предпочтения альтернатив k = 1, 2, 3, полагая exp x iT k P{y i = k } =, 1 + exp x iT 2 + exp x iT 3 и, используя эти прогнозные значения, дать предсказание номера альтернативы, которую предпочтет семья из рассматриваемого дома с заданной частотой посещения продуктового магазина и заданным уровнем месячного дохода на одного члена семьи. Можно, например, предсказывать для i -й семьи в качестве предпочтительной альтернативу k, если P{y i = k } > P{y i = l }, l k.

( ( ) ) ( ) Глава Применяя такое правило к нашему примеру, получаем следующие результаты. 1 2 3 Альтернатива ( k ) Истинный группы k Прогноз группы k объем 146 объема 101 664 235 603 Здесь под группой k подразумевается группа семей (среди рассматриваемых 1000 семей), отдающих предпочтение альтернативе k. Следующая диаграмма отображает содержимое таблицы.

Объемы групп 700 600 500 400 300 200 100 0 1 2 3 Истинные Прогнозные k Предсказанные объемы групп правильно воспроизводят упорядочение между наблюдаемыми размерами групп: в обоих случаях максимальное количество семей предпочитает альтернативу 2 и минимальное количество семей предпочитает альтернативу 1. Хотя индивидуальные прогнозы и не являются главной целью в подобных исследованиях, мы все же приведем сводную таблицу Модели с дискретными объясняемыми переменными… количеств правильных и неправильных прогнозов для значений yi = 1, 2,3. yi =1 yi =2 yi = yi =1 yi =2 yi = 48 11 42 26 550 88 72 42 Таким образом, из 1000 прогнозов правильными оказались 719, т.е. 71.9%. При этом значения yi = 1 правильно прогнозируются в 48 случаях из 146, т.е. только в 32.9% случаев, тогда как значения yi = 2 правильно прогнозируются в 91.2% случаев;

значения yi = 3 правильно прогнозируются в 48.2% случаев. Пример В следующей ситуации, в отличие от предыдущих примеров, одна из переменных специфична только в отношении альтернатив, а другая зависит и от альтернативы и от субъекта. Пусть storesk – количество магазинов в k -м (из трех) торговом центре, distik – расстояние от места проживания i -й семьи до k -го торгового центра. Выбранная модель порождения данных имитирует поведение 1000 семей, предпочитающих совершать покупки в этих трех торговых центрах. Каждая семья отдает предпочтение одному из трех торговых центров, так что мы имеем здесь 3 альтернативы. Альтернативы были занумерованы числами 1, 2, 3 произвольным образом. Здесь переменная stores k специфична только в отношении альтернатив, тогда как значения переменной distik зависят и от альтернативы и от конкретной семьи. Предполагается, что i -я семья приписывает k -й альтернативе полезность uik, uik = 1stores k + 2 distik + ik, i = 1,K,1000, Глава где ik ( i = 1,K,1000, k = 1, 2, 3 ) – независимые в совокупности (и независимые от stores k и distik ) случайные величины, имеющие одинаковое распределение с функцией распределения z G ( z ) = exp e,– < z <. Коэффициенты выбраны следующим образом: 1 = 0.6, 2 = 1.0, так что функции полезности для трех альтернатив имеют вид ui1 = 0.6stores1 disti1 + i1, ui 2 = 0.6stores 2 disti 2 + i 2, ui 3 = 0.6stores3 disti 3 + i 3. В соответствии с моделью порождения данных, i -я семья выбирает альтернативу k, если для этой семьи альтернатива k имеет максимальную полезность. В этом случае полагаем yi = k. Результаты оценивания методом максимального правдоподобия:

( ) Coefficient Std. Error 0.061646 0. z-Statistic 15.12519 -14. Prob. 0.0000 0. 1 0.932414 -1. Будем опять предсказывать для i -й семьи в качестве предпочтительной альтернативу k, если P{y i = k } > P{y i = l }, l k. Применяя такое правило к нашему примеру, получаем следующие результаты.

Альтернатива ( k ) Истинный объем группы k Прогноз объема группы k 1 674 681 2 275 272 3 51 Модели с дискретными объясняемыми переменными… Следующая диаграмма отображает содержимое таблицы.

Объемы групп 800 700 600 500 400 300 200 100 0 1 2 3 Истинные Прогнозные Замечание 1 Как мы уже отмечали выше, в рассмотренной нами мультиномиальной логит-модели, в которой объясняющие переменные специфичны только в отношении самих субъектов исследования, exp xiT k 1 P{yi = k } =. 1 + exp xiT 2 1 + L + exp xiT K 1 Отсюда вытекает, что P{yi = k } exp xiT k 1 = = exp xiT k m, P{yi = m } exp xiT m 1 т.е. отношение вероятностей выбора альтернатив k и m определяется только параметрами уравнений для полезностей этих (( (( )) )) (( )) (( (( )) )) (( )) Глава двух альтернатив и собственными атрибутами i -го субъекта и не зависит от параметров уравнений для полезностей остальных K 2 альтернатив. Замечание 2 Если рассматривается условная логит-модель (с постоянными значениями коэффициентов во всех K уравнениях полезности), в которой объясняющие переменные специфичны в отношении альтернатив, то, как уже говорилось выше, в такой ситуации T exp xik P{y i = k } =, T exp xiT + L + exp xiK 1 так что здесь T P{yi = k } exp xik T T = = exp xik xim, T P{yi = m } exp xim т.е. отношение вероятностей выбора альтернатив k и m определяется только общим параметром уравнений для полезностей различных альтернатив и значениями в i -м наблюдении объясняющих переменных, соответствующих k -й и m -й альтернативам. Это отношение не зависит от значений в i -м наблюдении объясняющих переменных, соответствующих остальным K 2 альтернативам. Такое свойство независимости оказывается нежелательным во многих ситуациях.

() ( ) ( ) ( ( ) ) (( )) Замечание 3 Пусть среди объясняющих переменных в условной логитмодели (с постоянными значениями коэффициентов во всех K уравнениях полезности) имеются переменные, специфичные только в отношении субъектов (т.е. значения этих переменных для i -го субъекта не зависят от альтернативы). Пусть, соответственно, T T xik = vik, wiT, ( ) Модели с дискретными объясняемыми переменными… T где vik – вектор значений для i -го субъекта переменных, значения которых зависят от альтернативы, а wiT - вектор значений для i -го субъекта переменных, значения которых не зависят от альтернативы;

соответственно разбивается и вектор коэффициентов: T = T, T. Тогда T exp vik + wiT P{yi = k } = = T exp viT + wiT + L + exp viK + wiT ( ) так что эта вероятность не зависит от значений переменных, специфичных только в отношении субъектов. Чтобы (в рамках модели с постоянным вектором коэффициентов) учесть возможное влияние таких переменных на вероятности P{yi = k }, модель надо модифицировать. Одним из возможных способов модификации является создание группы дамми переменных для альтернатив (DUMMY для альтернативы k принимает значение 1, если yi = k, и принимает значение 0 в противном случае) и умножение каждой из них на переменные, не зависящие от альтернатив. Тем самым достигается изменение коэффициентов при этих переменных в зависимости от альтернатив.

( ) ( ) ( exp(v ) =, exp(v ) + L + exp(v ) T ik T i1 T iK ) 1.7. Цензурированная модель регрессии (тобит– модель) Развивая пример с наличием или отсутствием у семьи собственного автомобиля, представим, что мы имеем следующие данные. Для семей, имеющих автомобиль, известна стоимость этого автомобиля si (если в семье несколько автомобилей, то si – суммарная стоимость этих автомобилей). Таким образом, здесь мы Глава наблюдаем пары (xi, price _ observed i ), где xi – среднедушевой месячный доход i-й семьи, если i - я семья имеет автомобиль, s, price _ observedi = i если i - я семья не имеет автомобиля. 0, Обратимся к смоделированной выборке, состоящей из 1000 семей со среднедушевым месячным доходом от 100 до 1600 у.е. Для удобства наблюдения переупорядочены в соответствии в возрастанием xi, так что x1 x 2 L x1000. Диаграмма рассеяния для этих данных имеет весьма специфический вид:

14000 price_observed 10000 8000 6000 4000 2000 0 0 600 x 1200 Обращает на себя внимание большое количество точек, расположенных на оси абсцисс. Таких точек 418, и это означает, что 418 из 1000 рассматриваемых семей не имеет собственного автомобиля. В то же время среди семей, владеющих автомобилем, минимальное значение цены автомобиля равно 2002 у.е., и это может просто означать, что на автомобильном рынке, в том числе и вторичном, просто нет автомобилей с ценой менее 2000 у.е.

Модели с дискретными объясняемыми переменными… Как проводить статистический анализ подобных данных? Можно попытаться, например, использовать все 1000 наблюдений и оценить по этим наблюдениям методом наименьших квадратов линейную статистическую модель price _ observed i = + xi + i. При этом оцененная модель имеет вид Variable C X R-squared Coefficient Std. Error -2427.821 6.915595 0.748337 121.0156 0.126948 t-Statistic -20.06205 54.47591 Prob. 0.0000 0. С другой стороны, можно проигнорировать наблюдения с price _ observed i = 0 и произвести оценивание той же линейной модели только по таким наблюдениям (в количестве 582). При таком подходе получаем Variable C X R-squared Coefficient Std. Error -1037.189 6.119677 0.541521 274.4903 0.233812 t-Statistic -3.778599 26.17353 Prob. 0.0002 0.0000 5919. Mean dependent var Следующий график позволяет сравнить значения price _ observed i, прогнозные значения, получаемые по первой модели (по 1000 наблюдениям), т.е. pricef _ 1000 i = + x i = -2427.821 + 6.915595 xi, и прогнозные значения, получаемые по второй модели (по 582 наблюдениям), т.е. pricef _ 582 i = + x i = -1037.189 + 6.119677 x i.

Глава 14000 12000 10000 8000 6000 4000 2000 0 -2000 0 -4000 PRICE_OBSERVED PRICEF_1000 PRICEF_582 600 1200 Конечно, имея такую картину, мы вряд ли можем говорить об адекватном представлении данных этими двумя моделями. Желательно было бы построить модель процесса, который мог породить такого рода данные. Для этой цели можно опять использовать идею латентной переменной, но в данной ситуации скорее следовало бы говорить о частично наблюдаемой переменной. Обращаясь к той же выборке, состоящей из 1000 семей, рассмотрим линейную модель наблюдений price = + xi + i, i = 1, K, n, i в которой price – цена, которую уплатила за покупку автомобиля i (автомобилей) i-я семья, если эта семья имеет автомобиль, или цена, которую уплатила бы за покупку автомобиля i-я семья, не имеющая автомобиля, если бы эта семья решила приобрести автомобиль. Естественно предполагать, что при этом > 0, так что возрастание xi приводит в среднем к возрастанию price. Однако существенное i влияние других ненаблюдаемых факторов, объединяемых в случайную составляющую, может приводить к значительным Модели с дискретными объясняемыми переменными… отклонениям price = + x.

переменной Возможные price i от “средней значения линии” price i отрицательные свидетельствуют о наличии факторов, в той или иной степени препятствующих планированию каких бы то ни было расходов на покупку автомобиля. Предположим теперь, что i-я семья покупает автомобиль по цене price, если последняя превышает минимально возможную i стоимость автомобиля на рынке (первичном и вторичном), т.е. если price >. i В такой модели наблюдений значения переменной price i наблюдаются лишь для части наблюдений – только для семей, имеющих автомобиль. Для остальных семей известно только, что price. Такие данные называют цензурированными (в данном i случае данные цензурированы слева на уровне ), а саму модель получения этих данных называют цензурированной линейной моделью. При этом мы наблюдаем цензурированную переменную price, если price >, i i price _ censored i =, если price. i В нашем примере диаграмма рассеяния переменных xi, price _ censored i принимает вид Глава 14000 price_censored 10000 8000 6000 4000 2000 0 0 600 x 1200 Если значение известно, то вместо переменной price можно i рассмотреть переменную yi = price. i Значения последней также наблюдаются только для семей, имеющих автомобиль. Для остальных семей положим yi = 0, так что price, если price >, i i yi = 0, если price. i Диаграмма рассеяния переменных xi, yi в нашем примере имеет вид Модели с дискретными объясняемыми переменными… 12000 10000 8000 6000 4000 2000 0 0 600 x 1200 y Теперь мы можем поставить вопрос о подходящем методе оценивания параметров цензурированных линейных моделей. Обычно при рассмотрении подобных ситуаций опираются на предположение нормальности распределения ошибок i. (Впрочем, имеющиеся пакеты статистических программ позволяют проводить статистический анализ и для других распределений ошибок. Например, в пакете EVIEWS допускается использование вместо нормального распределения ошибок логистического распределения и распределения экстремальных значений первого типа.) Будем предполагать, что мы имеем дело с некоторым показателем yi, значения которого наблюдаются только при условии yi > 0 (в нашем примере в качестве такого показателя выступала переменная price 2000 ). Пусть в правую часть модели i для этого показателя включаются p объясняющих переменных (показателей, характеризующих i-й субъект), т.е. y = 1 xi1 + L + p xip + i, i = 1, K, n, i Глава и ошибки 1, K, n – независимые в совокупности (и независимые от xij, j = 1,K, p ) случайные величины, имеющие одинаковое нормальное распределение i ~ N 0, 2. Наблюдаемыми являются значения xij, j = 1, K, p, i = 1, K, n, и значения переменной y i, y, если y > 0, i yi = i 0, если y 0. i О такой цензурированной модели регрессии говорят как о стандартной тобит-модели (tobit model). В стандартной тобит-модели для фиксированных значений xij, j = 1,K, p, имеем ( ) y ~ N 1 xi1 + L + p xip, 2, i ( ) и т.е.

E y xij, j = 1,K, p = 1 xi1 + L + p xip, i E y xi = xiT, i ( ( ) ) где, как и ранее, обозначено xi = ( xi1, K, xip )T, = (1,K, p )T. В нашем примере значение коэффициента j определяет изменение ожидаемой суммы расходов на (возможную) покупку автомобиля для семьи с вектором показателей xi = ( xi1, K, xip )T при увеличении на единицу значения j -го показателя. Если для оценивания коэффициентов j использовать только наблюдения с yi > 0, то получаем усеченную модель регрессии yi = 1 xi1 + L + p xip + i, i = 1,K, n1, где n1 – количество семей, имеющих автомобиль (среди всех n рассматриваемых семей). Конечно, при переходе к усеченной Модели с дискретными объясняемыми переменными… модели придется заново перенумеровать используемые наблюдений. В такой модели для значений w > 0 имеем P 0 < y w i P{yi w} = P y i w y i > 0 =, P y > 0 i n { } {{ } } где xT y xiT w xT i P 0 < y i w = P i < i = { } w xiT = T x i и y xiT w xT T xiT i = xi. P y i > 0 = 1 P i = 1 Если взять теперь производную dP{yi w} dw, то получим функцию плотности распределения случайной величины yi (условного при заданном xi ):

{ } T 1 w xiT xi. Отсюда получаем выражение для условного математического ожидания yi : p yi ( w) = xT E ( yi xi ) = w p yi ( w)dw = xiT + i 0 где обозначено ( z ) = (z ) ( z ).

, причем E ( yi xi ) > xiT.

Таким образом, E ( yi xi ) – нелинейная функция от xi и, Глава Рассмотрим теперь другой подход к оцениванию коэффициентов исходной модели y = 1 xi1 + L + p xip + i, i = 1, K, n, i при котором неполные наблюдения не отбрасываются, а учитываются при оценивании. В рамках этого подхода мы берем в качестве объясняемой переменную x T + i, если xiT + i > 0. yi = i если xiT + i 0 0, В этом случае xT xT P{y i = 0 xi } = P i xiT = i = 1 i, а для w > 0 y xiT w xiT w xiT. P{yi w xi } = P i = Это приводит к следующему выражению для условного математического ожидания yi :

{ } xT w xiT T dw xi E ( yi xi ) = 0 1 i + w 0 = x T xT = xiT + i i. Оно отличается от выражения для E ( yi xi ) в усеченной модели xT умножением последнего на i, т.е. на величину, меньшую единицы. Раскрывая скобки в правой части, получаем представление xT xT xT E ( yi xi )= xiT i + i i = Модели с дискретными объясняемыми переменными… xT xT = x iT i + i. Предельный эффект изменения переменной xij равен, т.е. меньше значения коэффициента j в исходной модели: он xT E ( yi xi ) = j i xij получается умножением этого коэффициента на вероятность того, что yi > 0. ~ Заметим в связи с этим, что если E ( yi xi ) – условное математическое ожидание значения yi в усеченной модели, то для него ~ E ( y i x i ) = j 1 z ( z ) 2 ( z ), x ij где xT ( z ) = ( z ) ( z ), z = i.

[ ] Продолжим рассмотрение смоделированной выборки, состоящей из 1000 семей, 582 из которых имеют автомобиль. Подберем к тем же данным усеченную и цензурированную модели. Заметим, что если переменная yi = price 2000 порождается i моделью y = + xi + i, i = 1,K,1000, то сама переменная price i i порождается моделью price = ( + 2000) + xi + i. i Поэтому достаточно произвести оценивание y = + xi + i, опираясь на данные i приводит к следующим результатам.

коэффициентов модели (xi, yi ). Такое оценивание Глава Усеченная модель:

Coefficient Std. Error C X -5710.678 8.103471 1822.273 480.1485 0.376079 66.21537 z-Statistic -11.89357 21.54728 27.52040 z-Statistic -25.87195 39.96215 33.79933 Prob. 0.0000 0.0000 0.0000 Prob. 0.0000 0.0000 0. Error Distribution Цензурированная модель:

Coefficient Std. Error C X -6041.883 8.363125 1823.565 233.5302 0.209276 53. Error Distribution Это приводит к следующим оцененным моделям для прогноза значений переменной price : i price = 3710.678 + 8.103471 xi (усеченная модель), i price = 4041.883 + 8.363125 xi (цензурированная модель). i Дисперсии случайных составляющих оцениваются, соответственно, как 1822.273 и 1823.565. Заметим, что “теоретическая” модель, по которой генерировались данные, имела вид price = 3600 + 8 xi + 1800 ui, i где u1,K, u1000 – независимые случайные величины, имеющие одинаковое стандартное нормальное распределение N (0,1). На следующем графике для сравнения показаны значения переменной price и прогнозные значения для этой переменной, i полученные по оцененной усеченной модели ( price _ starf _ trun ) и по оцененной цензурированной модели ( price _ starf _ cens ).

Модели с дискретными объясняемыми переменными… 14000 12000 10000 8000 6000 4000 2000 0 -2000 0 -4000 -6000 -8000 PRIСE_STAR PRICE_STARF_CENS PRICE_STARF_TRUN Отметим, что прогнозные значения, полученные по двум оцененным моделям, весьма близки. На следующем графике представлены значения переменной yi и ожидаемые значения переменной yi, рассчитанные по двум оцененным моделям.

Глава 12000 10000 8000 6000 4000 2000 0 0 600 Y YF_TRUNC 1200 YF_CENSORED Отметим, что для значений xi 1330 ожидаемые значения yi, рассчитанные по цензурированной модели, больше ожидаемых значений yi, рассчитанных по модели;

однако это различие практически незаметно. В то же время, для значений xi < 1330 ожидаемые значения yi, рассчитанные по цензурированной модели, меньше ожидаемых значений yi, рассчитанных по усеченной модели, причем это различие становится весьма заметным при уменьшении значений xi. Заметим еще, что ожидаемые значения yi, рассчитанные и по усеченной и по цензурированной модели, положительны для всех 1000 наблюдений, тогда как это не выполняется для линейных моделей, подобранных методом наименьших квадратов Так, оценивание обычным методом наименьших квадратов модели yi = + xi + i по всем 1000 наблюдениям дает следующую картину:

Модели с дискретными объясняемыми переменными… Variable C X Coefficient Std. Error -2075.806 5.130473 104.7679 0. t-Statistic -19.81338 46. Prob. 0.0000 0. Для значений xi 470 подобранная модель прогнозирует отрицательные значения объясняемой переменной. При подгонке такой модели методом наименьших квадратов по 582 наблюдениям получаем:

Variable C X Coefficient -3037.189 6.119677 Std. Error 274.4903 0.233812 t-Statistic -11.06483 26.17353 Prob. 0.0000 0. Оцененная модель прогнозирует отрицательные объясняемой переменной для значений xi 498. Это положение иллюстрирует следующий график:

14000 12000 10000 8000 6000 4000 2000 0 -2000 0 - значения 600 X Y YF_OLS_ YF_OLS_ Одним из показателей качества прогноза произвольного временного ряда zi, i = 1,K, n, является средняя абсолютная процентная ошибка (MAPE – mean squared absolute error), Глава определяемая следующим образом. Если z i – прогнозное значение для zi, то MAPE = 1 n i = n zi zi. zi Cравним качество полученных альтернативных прогнозов для yi с точки зрения средней абсолютной процентной ошибки.

Модель MAPE % OLS_582 118.46 OLS_1000 99.86 Truncated 126.69 Censored 71. Как видно из этой таблицы, наилучшее качество имеют прогнозы, полученные с использованием цензурированной модели регрессии. Обратим внимание на еще одно обстоятельство. Мы уже отмечали, что xT xT ~ xT E ( y i x i ) = x iT + i i = E ( y i x i ) i, ~ где E ( yi xi ) – условное математическое ожидание значения yi в усеченной модели. Отсюда мы получаем следующее разложение: xT i ~ E ( y i x i ) x iT E ( y i xi ) ~ = + E ( y i xi ). x ij xij x ij Первое слагаемое отражает изменение в ожидаемых значениях xT y i > 0, взвешенное с весом i = P{yi > 0}, а второе – изменение вероятности P{yi > 0}, взвешенное с весом, равным ~ E ( yi xi ). Заметим в этой связи, что Модели с дискретными объясняемыми переменными… xT i 1 xT P{yi > 0} = i = xij xij j.

~ В нашем примере E ( yi xi ) изменяется следующим образом (по оси абсцисс на этом и на следующих 5 графиках откладываются значения среднемесячного дохода на одного члена семьи):

9000 8000 7000 6000 5000 4000 3000 2000 1000 0 0 600 E_Y E_Y>0 1200 Производная P{yi > 0} изменяется следующим образом: xij Глава 0.0012 0.001 0.0008 0.0006 0.0004 0.0002 0 0 600 D_PROB 1200 Входящие в разложение для E ( yi xi ) xij слагаемые имеют вид:

9 8 7 6 5 4 3 2 1 0 0 600 TERM1 1200 Модели с дискретными объясняемыми переменными… 3 2.5 2 1.5 1 0.5 0 0 600 TERM2 1200 В сумме они дают функцию 9 8 7 6 5 4 3 2 1 0 0 xT E ( yi xi ) = j i xij :

1200 D_EXPECTED_Y Глава Следующий график позволяет сравнить влияние единичного возрастания дохода на ожидаемые значения y i во всей популяции (D_EXPECTED_Y) и среди семей с y i > 0 (D_E_Y>0).

9 8 7 6 5 4 3 2 1 0 0 600 D_EXPECTED_Y 1200 D_E_Y>0 1.8. Модель Тобит-II В предыдущем разделе мы рассмотрели линейную модель наблюдений price = + xi + i, i = 1, K, n, i в которой price – цена, которую уплатила за покупку автомобиля i (автомобилей) i-я семья, если эта семья имеет автомобиль, или цена, которую уплатила бы за покупку автомобиля i-я семья, не имеющая автомобиля, если бы эта семья решила приобрести автомобиль. При Модели с дискретными объясняемыми переменными… этом мы предполагали, что i-я семья покупает автомобиль по цене price, если price >. Таким образом, в этой модели решение о i i приобретении или неприобретении собственного автомобиля определяется самой ценой, по которой предполагается приобрести автомобиль. В то же время мы могли бы рассмотреть и другую модель, в которой процесс принятия решения о стоимости покупаемого автомобиля отделен от процесса принятия решения о покупке автомобиля. Пусть мы имеем дело с некоторым показателем yi, значения которого наблюдаются не для всех i. Значение yi наблюдается, если выполнено условие hi > 0, где hi полезности. Мы будем предполагать, что T y = x1i1 + 1i, i = 1, K, n, i T h = x2i 2 + 2i, i = 1, K, n, i – некоторая функция где x1i = x11,i, K, x1 p1,i ( )T )T – вектор значений p объясняющих переменных в уравнении для y, i x2i = x21, i, K, x2 p 2, i 1 = (11, K, 1 p1 )T – вектор коэффициентов при этих переменных, ( – вектор значений p объясняющих переменных в уравнении для hi, 2 = ( 21,K, 2 p 2 )T – вектор коэффициентов при этих переменных. 1i и 2i могут быть Случайные составляющие коррелированными, так что Cov(1i, 2i ) 0. Следуя обычной практике, мы будем предполагать, что двумерные случайные Глава векторы (1i, 2i )T, i = 1, K, n, независимы в совокупности и имеют одинаковое двумерное нормальное распределение N 2 (0, ) с нулевым вектором математических ожиданий и ковариационной матрицей 2 12, = 1 2 12 2 т.е. 2 12 1i. ~ i.i.d. N 2 0, 1 2 2 2i 12 Для нормализации функции полезности полагаем 2 =1. Наблюдаемыми являются • значения объясняющих переменных x1 j,i, x2 j,i, j = 1,K, p, • i = 1, K, n ;

значения переменной hi, 1, если h > 0, i hi = 0, если h i 0;

значения переменной y i, y, если hi = 1, yi = i 0, если hi = 0.

• Определенную таким образом модель называют стандартной Тобит-II моделью. Соответственно, о модели рассмотренной в предыдущем разделе, в этом контексте говорят как о стандартной Тобит-I модели.

Модели с дискретными объясняемыми переменными… Замечание Объясняющие переменные в уравнениях для yi и hi могут быть как одинаковыми, так и различными. В ряде ситуаций экономическая аргументация указывает на необходимость включения в правую часть уравнения для hi (уравнение выбора) всех переменных, включенных в правую часть уравнения для yi. При этом коэффициенты при одной и той же переменной в уравнениях для yi и hi могут быть различными.

T T Если предположить, что x1i1 = x2i 2 и 1i = 2i, то мы возвращаемся к стандартной Тобит-модели, рассмотренной в предыдущем разделе (модель Тобит-I).

Обращаясь опять к примеру с автомобилями, мы могли бы расмотреть, например, модели, в которых значение price i определяется по той же формуле price = + xi + i, i = 1, K, n, i но наличие автомобиля соответствует выполнению соотношения hi > 0, в котором h = + xi + ui, i или, например, h = + xi + d man + ui, i где d man = 1, если главой семьи является мужчина, и d man = 0, если главой семьи является женщина. Прежде всего заметим, что (при фиксированных значениях x1i, x2i ) T T T E {yi hi = 1} = x1i1 + E {1i hi = 1} = x1i1 + E 1i 2i > x2i { }= Глава T = x1i1 + 12 T T T E 1i 2i > x2i 2 = x1i1 + 12 x2i 2, 2 { } ( ) где, как и ранее, ( z ) = ( z ) ( z ). Если 12 = 0, то Это означает, что если 1i и 2i не коррелированы, то можно, игнорируя уравнение для hi, производить непосредственное оценивание уравнения регрессии T yi = x1i1 + 1i методом наименьших квадратов по наблюдениям с hi = 1. Это T приводит к состоятельному оцениванию значений x1i1. Однако если 12 0, то при таком оценивании возникает T смещение оценки x1i1, пропорциональное величине которую называют в этом контексте лямбдой Хекмана. T x2i 2, T E {yi hi = 1} = x1i1.

( ) Получить состоятельные и асимптотически эффективные оценки параметров модели Тобит-II можно, используя метод максимального правдоподобия, при котором соответствующая функция правдоподобия максимизируется по всем возможным значениям параметров модели 1, 2, 1, 12. Однако чаще такую модель оценивают, используя двухшаговую процедуру Хекмана. Она проста в вычислительном отношении и дает хорошие стартовые значения для итерационной процедуры максимизации функции правдоподобия. Идея Хекмана состоит в использовании уже приводившегося выше соотношения T T E {yi hi = 1} = x1i1 + 12 x2i 2 и построения на его основе модели регрессии ( ) Модели с дискретными объясняемыми переменными… T yi = x1i1 + 12i + i, где i – переменная, определяемая соотношением T T T i = x2i 2 = x2i 2 x2i 2. Если 1i не коррелирована с x1i и x2i, то i не коррелирована с x1i и i, так что эту модель регрессии можно оценивать методом наименьших квадратов. Проблема, однако, в том, что значения i не наблюдаются, поскольку неизвестен вектор коэффициентов 2 в ( )( )( ) модели выбора. Оценивание вектора 2 производится в рамках пробит-модели бинарного выбора. При этом получаем оцененные значения T i = x 2i2 (первый шаг процедуры Хекмана). Эти оцененные значения используются затем на втором шаге процедуры вместо i. Модель y = x T + + оценивается методом наименьших ( ) i 1i i i квадратов;

в результате получаем состоятельные (хотя и не эффективные) оценки для 1 и 12. Используя эти оценки, мы получаем оцененное ожидаемое значение yi при заданных x1i, x2i и hi = 1 в виде E {y x, x, h = 1} = x T + x T.

i 1i 2i i 1i 1 ( 2i ) Если же нас интересует ожидаемое значение yi при заданных x1i, x2i без условия hi = 1, то оно оценивается величиной E {y x, x } = x T.

i 1i 2i 1i Поскольку смещение при оценивании уравнения для yi методом наименьших квадратов вызывается коррелированностью 1i и 2i, представляет интерес проверка гипотезы H 0 : 12 = Глава об отсутствии такой коррелированности в рамках модели, оцененной на втором шаге. Отметим только, что при проверке этой гипотезы следует производить коррекцию значений стандартных ошибок оценок, учитывающую гетероскедастичность модели и тот факт, что вместо переменной i на втором шаге используется предварительно оцененная переменная.

i Заметим, наконец, что в описанной выше стандартной Тобит-II модели функция правдоподобия имеет вид L(1, 2, 1, 12 ) = (P{hi = 0})1hi (P{hi = 1} f ( yi hi = 1)) i, h n i = где f ( yi hi = 1) – условная плотность распределения случайной T P{hi = 0} = 1 x2i 2, величины yi при hi = 1. Здесь P{hi = 1} f ( yi hi = 1) = P{hi = 1 yi } f ( yi ), ( ) xT + 2 y xT 12 1 1i 1 i, P{hi = 1 yi } = 2i 2 2 1 12 1 2 y xT 1 i exp i 12 1. f ( yi ) = 2 1 1 2 Для начала итерационной процедуры в качестве стартовых можно взять значения оценок параметров, полученные в процессе реализации двухшаговой процедуры Хекмана.

( )( ) ) ( Модели с дискретными объясняемыми переменными… Пример 1 Пусть в примере с автомобилями наличие у семьи собственного автомобиля определяется условием w > 2000, где i w = 3600 + 8 xi + 1800 2i, 21, K, 2,1000 ~ i.i.d. N (0,1). i Обозначив hi = wi 2000, запишем это условие в виде hi > 0, где h = 5600 + 8 xi + 1800 2i, i и нормализуем функцию полезности, разделив обе части последнего равенства на 1800: h = 3.111 + 0.00445 xi + 2i. i Пусть “потенциальная цена” автомобиля для i-й семьи определяется уравнением price = 4000 + 6 xi + 1i, 11, K, 1,1000 ~ i.i.d. N (0,1000 2 ). i В смоделированной выборке пары взаимно независимы, но Cov(1i, 2i ) = 707, так что коэффициент корреляции случайных величин 1i, 2i равен 12 = 0.707. В принятых выше общих обозначениях модели Тобит-II получаем: yi* = 11 x11,i + 12 x12,i + 1i, h = 21 x21,i + 22 x22,i + 2i, i где x11,i = x21,i = 1, x12,i = x22,i = xi, 11 = 4000, 12 = 6, 21 = 3.111, (11, 21 ),K, (1,1000, 2,1000 ) 22 = 0.00445 ;

при этом 1 = 1000, 2 = 1, 12 = 707.

Применяя к смоделированным данным двухшаговую процедуру Хекмана, получаем на первом шаге оцененное уравнение hi = 3.450 + 0.00476 xi, а на втором шаге – оцененное уравнение price = 3936.2 + 5.995 xi. i Глава Используя полученные оценки параметров в качестве стартовых значений итерационной процедуры максимального правдоподобия, приходим к уравнениям hi = 3.483 + 0.00480 xi, price = 4159.3 + 5.828 xi. i При этом получаем также 1 = 1010.7, 12 = 0.598. Как видим, оцененные значения параметров достаточно близки к значениям, при которых производилось порождение данных. Приведем теперь графики, иллюстрирующие полученные результаты.

8 6 4 2 0 100 -2 -4 -6 H_STAR H_STAR_F Модели с дискретными объясняемыми переменными… 1.2 1 0.8 0.6 0.4 0.2 0 700 H 900 H_F 18000 16000 14000 12000 10000 8000 6000 4000 2000 0 700 Y_STAR Y_STAR_F Глава 18000 16000 14000 12000 10000 8000 6000 4000 2000 0 500 Y_STAR Y_STAR_F Y_STAR_F 18000 16000 14000 12000 10000 8000 6000 4000 2000 0 700 Y 900 Y_F Модели с дискретными объясняемыми переменными… Пример 2 В условиях Примера 1 перемоделируем данные с измененной функцией полезности, полагая теперь h = 4 + 0.003 xi + 2(d man ) i + 2i, i где d man = 1, если главой семьи является мужчина, и d man = 0, если главой семьи является женщина. Применяя к новым смоделированным данным двухшаговую процедуру Хекмана, получаем на первом шаге оцененное уравнение hi = 4.280 + 0.00297 xi + 2.347(d man )i, а на втором шаге – оцененное уравнение price = 3879.97 + 6.124 xi. i При этом получаем также 1 = 984.2, 12 = 0.643. Как видим, и здесь оцененные значения параметров достаточно близки к значениям, при которых производилось порождение данных. Приведем для сравнения наблюдаемые значения переменной yi и оцененные ожидаемые значения этой переменной (Y_EXPECTED_F).

20000 15000 10000 5000 0 600 Y 1100 Y_EXPECTED_F Глава Обратим внимание на две ветви графика оцененных ожидаемых значений yi. Верхняя ветвь соответствует семьям, которые возглавляют мужчины, а нижняя – семьям, которые возглавляют женщины.

Глава 2. Инструментальные переменные. Системы одновременных уравнений 2.1. Проблема коррелированности случайных ошибок с объясняющими переменными В главе 1 мы встретили модели наблюдений, в которых естественным образом возникла необходимость использования вместо метода наименьших квадратов другого метода оценивания – метода максимального правдоподобия. (В классической линейной модели с независимыми, нормальными, одинаково распределенными ошибками эти методы совпадают.) Теперь мы рассмотрим некоторые ситуации, приводящие к еще одному популярному методу оценивания – методу инструментальных переменных. Общим для такого рода ситуаций является наличие коррелированности одной или нескольких объясняющих переменных со случайной ошибкой, входящей в правую часть уравнения. Поскольку случайные ошибки отражают наличие неучтенных факторов, не включенных в уравнение в качестве объясняющих переменных, указанная коррелированность фактически означает наличие корреляции между некоторыми учтенными и неучтенными факторами. В матрично-векторной форме классическая нормальная линейная модель наблюдений имеет вид y = X +, где y = ( y1, y 2, K, y n )T – вектор-столбец значений объясняемой переменной в n наблюдениях, X – (np)-матрица значений объясняющих переменных в n наблюдениях, n > p, = ( 1, 2, …, p)T – вектор-столбец коэффициентов, Глава = ( 1, 2 K, n )T – вектор-столбец случайных ошибок (возмущений) в n наблюдениях, причем случайный вектор имеет n-мерное нормальное распределение с нулевым вектором математических ожиданий E() = (E(1), E(2), …, E(n))T = (0, 0,..., 0)T (в краткой записи: E() = 0) и ковариационной матрицей Var() = (Cov(i, j)) = 2 In, где In – единичная матрица (размера n n). Здесь Cov(i, j) = E(i – E(i))(j – E(j)) – ковариация случайных величин i и j. Предположение о фиксированности значений объясняющих переменных в совокупности со стандартными предположениями об ошибках удобно с чисто математической точки зрения: при таких предположениях оценки параметров, получаемые методом наименьших квадратов, имеют нормальное распределение, что, в свою очередь, дает возможность: • строить доверительные интервалы для коэффициентов линейной модели, используя квантили t распределения Стьюдента;

• проверять гипотезы о значениях отдельных коэффициентов, используя квантили t-распределения Стьюдента;

• проверять гипотезы о выполнении тех или иных линейных ограничений на коэффициенты модели, используя квантили F-распределения Фишера;

• строить интервальные прогнозы для “будущих” значений объясняемой переменной, соответствующих заданным будущим значениям объясняющих переменных. Вместе с тем используемое в классической модели предположение о фиксированности значений объясняющих Инструментальные переменные. Системы… переменных в n наблюдениях фактически означает, что мы можем повторить наблюдения значений объясняемой переменной при том xi1,K, xip, же наборе значений объясняющих переменных i = 1, K, n ;

при этом мы получим другую реализацию (другой набор значений) случайных составляющих i, i = 1, K, n, что приведет к значениям объясняемой переменной, отличающимся от значений y1, K, y n, наблюдавшихся ранее. С точки зрения моделирования реальных экономических явлений, предположение о фиксированности значений объясняющих пременных можно считать реалистическим лишь в отдельных ситуациях, связанных с проведением контролируемого эксперимента. Между тем в реальных ситуациях по большей части нет возможности сохранять неизменными значения объясняющих переменных. Более того, и сами наблюдаемые значения объясняющих переменных (как и “ошибки”) часто интерпретируются как реализации некоторых случайных величин. В таких ситуациях становится проблематичным использование техники статистических выводов, разработанной для классической нормальной линейной модели. Поясним последнее, обратившись к матрично-векторной форме классической линейной модели с p объясняющими переменными y = X + и не требуя нормальности распределения вектора. Если матрица X имеет полный ранг p, то матрица XTX является невырожденной, для нее существует обратная матрица (XTX)–1, и оценка наименьших квадратов для вектора неизвестных коэффициентов имеет вид = (XTX) – 1XTy.

Математическое ожидание вектора оценок коэффициентов равно Глава E( ) = E ((XTX) – 1XT(X + )) = E ((XTX) – 1XTX ) + E ((XTX) – 1XT ) = = + E ((XTX) – 1XT ). Если матрица X фиксирована, то тогда E ((XTX) – 1XT ) = (XTX) – 1XT E ( ) = 0, так что E( ) =, т.е. – несмещенная оценка для. Если же мы имеем дело со стохастическими (случайными, недетерминированными) объясняющими переменными, то в общем случае E ((XTX) – 1XT ) 0, так что E( ), и – смещенная оценка для. Кроме того, эта оценка уже не имеет нормального распределения даже если вектор имеет нормальное распределение. Если объясняющие переменные стохастические, то в некоторых случаях все же остается возможным использовать стандартную технику статистических выводов, предназначенную для классической нормальной линейной модели, по крайней мере, в асимптотическом плане (при большом количестве наблюдений). В этом отношении наиболее благоприятной является Ситуация A случайная величина i не зависит (статистически) от • x k 1, K, x kp при всех i и k ;

1, 2, …, n являются независимыми случайными • величинами, имеющими одинаковое нормальное распределение с нулевым математическим ожиданием и конечной дисперсией 2 > 0. (Как и ранее, мы кратко обозначаем это как i ~ i.i.d. N (0, 2). Здесь i.i.d. – independent identically distributed.) При выполнении таких условий имеем: E ((XTX) – 1XT ) = E ((XTX) – 1XT) ·E( ) = 0 (если, конечно, математическое ожидание E ((XTX) – 1XT) существует и конечно), так что оценка наименьших квадратов для является несмещенной. Распределение статистик критериев (тестовых Инструментальные переменные. Системы… статистик) можно найти с помощью двухшаговой процедуры. На первом шаге находим условное распределение при фиксированном значении матрицы X ;

при этом значения объясняющих переменных рассматриваются как детерминированные (как в классической модели). На втором шаге мы получаем безусловное распределение соответствующей статистики, умножая условное распределение на плотность X и интегрируя по всем возможным значениям X. Если применить такую процедуру для получения безусловного распределения оценки наименьших квадратов, то на первом шаге находим: 1 | X ~ N, 2 X T X. Интегрирование на втором этапе приводит к распределению, являющемуся смесью нормальных распределений 1 N, 2 X T X по X. Это распределение, в отличие от классического случая, не является нормальным. В то же время для оценки j-го коэффициента имеем: 1 j | X ~ N j, 2 X T X j j, ( ) ( ) ( ) где X T X так что ( ) 1 jj – j-й диагональный элемент матрицы X T X ( ), j j ( X T X ) 1j j X ~ N (0, 1).

Условным распределением для (n – p)S2/2, где S2 = RSS/(n – p), RSS – остаточная сумма квадратов, является распределение хиквадрат с (n – p) степенями свободы, (n – p)S2/2 | X ~ 2(n – p). Заметим теперь, что t-статистика для проверки гипотезы H0: j = * определяется соотношением j Глава t= j * j S ( X T X ) 1j j ( ) = j * j ( X T X ) 1j j S2.

Из предыдущего вытекает, что если гипотеза H0 верна, то условное распределение этой t-статистики имеет t-распределение Стьюдента с (n – p) степенями свободы, t | X ~ t(n – p). Это условное распределение одно и то же для всех X. Поэтому вне зависимости от того, какое именно распределение имеет X, безусловным распределением t-статистики для H0 : j = * при j выполнении этой гипотезы будет все то же распределение t(n – p). Аналогичное рассмотрение показывает возможность использования стандартных F-критериев для проверки линейных гипотез о значениях коэффициентов. Те же самые выводы остаются в силе при предположений ситуации A следующим предположением. Ситуация A • | X ~ N(0, 2In), где (размера n n). замене In – единичная матрица Ситуация C В рассмотренных выше ситуациях, как и в классической модели, предполагалось, что i X ~ i.i.d. Теперь мы откажемся от этого предположения и предположим, что • условное распределение случайного вектора относительно матрицы X является n-мерным нормальным 2 распределением N(0, V) ;

положительно определенная • V – известная симметричная матрица размера nn.

Инструментальные переменные. Системы… Поскольку матрица V симметрична и положительно определена, таковой же будет и обратная к ней матрица V –1. Но тогда существует такая невырожденная (nn)-матрица P, что V –1 = PTP. Используя матрицу P, преобразуем вектор к вектору *= P. При этом E(*) = 0 и условная (относительно X) ковариационная матрица вектора * Cov(*| X ) = E (**T | X ) = E (P (P )T | X ) = = P E ( T | X ) PT = P 2 V PT. Но V = (V – 1) – 1 = (PTP) – 1, так что Cov(*| X ) = P 2 V PT = 2 P(PTP) – 1PT = 2In. Преобразуя с помощью матрицы P обе части основного уравнения y = X +, получаем: Py = PX +P, или y* = X * +*, где y* = Py, X * = PX, *= P. В преобразованном уравнении * | X ~ N(0, 2In), так что преобразованная модель удовлетворяет условиям, характеризующим ситуацию A. Это означает, что все результаты, полученные в ситуации A, применимы к модели y*= X * +*. В частности, оценка наименьших квадратов * = (X *T X *) – 1X *T y* = (XTPTPX) – 1 XTPTPy = (XT V – 1X) – 1 XT V – 1y является несмещенной, т.е. E( *) =, ее условное распределение (относительно X) нормально и имеет ковариационную матрицу Cov( * | X ) = 2(X *T X *) – 1 = 2(XT V – 1X) – 1. Получение этой оценки равносильно минимизации по суммы wik (y i 1 x i1 K p x i p )(y k n n i =1 k = 1 x k1 K p x k p, ) Глава ( где w ik = v ik 1) – элементы матрицы V – 1. Отсюда название метода – обобщенный метод наименьших квадратов. Сама оценка * называется обобщенной оценкой наименьших квадратов (GLS – generalized least squares). В рамках модели y* = X * + * можно использовать обычные статистические процедуры, основанные на t- и F-статистиках.

Заметим теперь, что во всех трех ситуациях A, A и С общим является условие E ( i X ) = 0, i = 1, K, n, так что E i xkj = 0 для j = 1,K, p при всех i и k.

( ) Но тогда E ( i ) = 0 и Cov( i, xkj ) = E ( i E ( i ))(xkj E (xkj )) = E ( i )(xkj E (xkj ))= = E ( i xkj ) = (конечно, при этом мы предполагаем, что математические ожидания E (xkj ) существуют и конечны).

Таким образом, если ошибка в i -м уравнении коррелирована хотя бы с одной из случайных величин xkj, то ни одно из условий A, A, C не выполняется. Например, эти условия не выполняются, если в i -м уравнении какая-нибудь из объясняющих переменных коррелирована с ошибкой в этом уравнении. Последнее характерно для моделей с ошибками в измерении объясняющих переменных и для моделей “одновременных уравнений”, о которых мы будем говорить ниже. Пока же приведем пример, показывающий, к каким последствиям приводит нарушение условия некоррелированности объясняющих переменных с ошибками.

Инструментальные переменные. Системы… Пример Смоделированные данные следуют процессу порождения данных (DGP – data generating process) DGP: yi = + xi + i, i ~ i.i.d. N (0,1), i = 1, K,100, = 10, = 2, xi = i 0.9 i 1, i = 2, K,100 ;

при этом Corr ( xi, i ) = 0.743. Предположим, что мы имеем в распоряжении значения yi, xi, i = 2, K,100, но ничего не знаем о процессе порождения данных. Оценим на основании этих данных статистическую модель yi = + xi + i методом наименьших квадратов. При этом получаем следующие результаты:

Dependent Variable: Y_FIXED Method: Least Squares Sample(adjusted): 2 100 Coefficient C(1) C(2) 10.13984 2. Std. Error 0.069148 0. t-Statistic 146.6398 46. Prob. 0.0000 0. Для параметра получаем оценку = 2.553, имеющую весьма сильное смещение. Зафиксировав полученную реализацию x2,K, x100, смоделируем (k еще 499 последовательностей 1( k ), K, 100), k = 2, K,500, имитирующих реализации независимых случайных величин, имеющих стандартное нормальное распределение, и для каждой такой последовательности построим последовательность ( (k ) y2k ),K, y100 по формуле:

{ } { y (k ) i = + xi + i( k ), i = 2, K,100.

} Для каждого k = 2, K, по “данным” yi( k ), xi, i = 2, K,100, оцениваем статистическую модель yi( k ) = + xi + i( k ) и получаем Глава результате получаем последовательности оценок,K, и ( 2), K, (500). Приведем статистические характеристики последовательности ( 2), K, (500).

( 2) ( 500 ) оценки коэффициентов (k ), (k ).

В Series: SLOPE Sample 2 500 Observations Mean Median Maximum Minimum Std. Dev. Skewness Kurtosis Jarque-Bera Probability 1.999663 1.994058 2.238951 1.740510 0.083992 0.161028 2.895625 2.383013 0. Среднее значение практически совпадает с истинным значением параметра ;

гипотеза нормальности распределения оценки не отвергается. Поступим теперь другим образом. Для каждой из ( (k смоделированных последовательностей 2k ), K, 100), 1. 1. 2. 2. 2. k = 2, K,500, сначала построим последовательность x,K, x ( (k ) затем построим последовательность y2k ),K, y100 по формуле: (k ) i (k ) i (k ) i y = + x +, i = 2, K,100. В отличие от предыдущего способа здесь для различных значений ( (k k используются различные последовательности x2k ),K, x100), { } { { (k ) (k ) }, а } } определяемые последовательностью последовательностей x,K, x и k = 2, K,500 производим оценивание { (k ) (k ) } { (k ) }. После получения {y,K, y }, при каждом, K, (k ) 2 (k ) 100 (k ) { статистической модели Инструментальные переменные. Системы… yi( k ) = + xi( k ) + i( k ) и получаем оценки коэффициентов ( k ) ( k ),. Обозначая оценки, полученные в самом начале, как (1) и (1), так что (1) = 10.13984, (1) = 2.553515, получаем последовательности оценок (1), K, (500 ) и (1), K, (500). Приведем сводку статистических характеристик последовательности (1), K, (500).

Series: SLOPE_RANDOM Sample 2 500 Observations Mean Median Maximum Minimum Std. Dev. Skewness Kurtosis Jarque-Bera Probability 2.552114 2.551333 2.588107 2.530200 0.007346 0.754039 4.608878 101.1054 0. 0 2.53 2.54 2.55 2.56 2.57 2.58 2. На этот раз среднее значение полученных значений ( k ), равное 2.552114, весьма сильно отличается от истинного значения параметра = 2, а наблюдаемое значение статистики Харке–Бера говорит о том, что распределение оценки наименьших квадратов параметра = 2 не является нормальным. Заметим еще, что положительная коррелированность xi и i означает, что значениям xi, превышающим их среднее значение в выборке, по большей части соответствуют и значения остатков, превышающие их среднее значение в выборке. Но последнее равно нулю при использовании метода наименьших квадратов, так что значения остатков, превышающие их среднее значение в выборке, суть просто положительные значения остатков. В итоге для Глава первоначально смоделированных данных yi, xi, i = 2,K,100, это приводит к следующей картине:

20 18 16 14 12 10 8 6 4 2 0 -4 -2 0 X 2 4 Y Y_THEOR Linear (Y) Здесь Linear(Y) – прямая, подобранная по этим данным методом наименьших квадратов, т.е. прямая y = 10.13984 + 2.553515 x, а Y_THEOR – “теоретическая” прямая y = 10 + 2 x. Как видно из графика, первая прямая “повернута” относительно второй прямой в направлении против часовой стрелки, так что для больших значений xi наблюдаемые значения yi смещены вверх по отношению к прямой y = 10 + 2 x.

Инструментальные переменные. Системы… 2.2. Модели, в которых некоторые объясняющие переменные коррелированы с ошибкой 2.2.1. Модели с ошибками в измерении объясняющих переменных Рассмотрим модель порождения данных DGP: yi = + zi + ui, i = 1, K,100, со стохастической объясняющей переменной z, для которой выполнены предположения: E (ui ) = 0, D(ui ) = 2, E (ui zi ) = 0, так что E ( yi zt ) = + zi. Предположим, что значение zi невозможно измерить точно, и в результате измерения вместо истинного значения zi наблюдается значение xi = zi + vi, где vi – ошибка измерения. Подобное положение может соответствовать, например, ситуации, в которой yi – сбережения i го домохозяйства, а zi – располагаемый доход домохозяйства. Пусть при этом выполнены следующие условия: • E (vi ) = 0, D(vi ) = v2 ;

• случайные величины ui и vi независимы: • случайная величина vi не зависит от истинного значения zi. (Это означает, что истинный уровень располагаемого дохода не дает какой-либо информации о величине и знаке ошибки измерений.) Выразим zi через xi и подставим xi vi вместо zi в исходное уравнение. При этом получаем: y i = + xi + i, где i = vi ui и Глава 2 Cov(xi, i ) = Cov(zi + vi, vi ui ) = u. Если > 0, то xi и i имеют отрицательную корреляцию;

если < 0, то xi и i имеют положительную корреляцию. Покажем, что оценка наименьших квадратов не только имеет смещение при конечных n, но и несостоятельна, т.е. даже при неограниченном увеличении количества наблюдений не сходится к истинному значению по вероятности. С этой целью обратимся к формуле для :

= (y i =1 n n i y )(x i x ) ;

i (x i = x) подставим в нее выражение для yi. Получаем:

= ( x i = n i x + i )( x i x ) (x i = n i x) = + ( i =1 n n i )( xi x ) i (x i = x), так что 2 Cov(xi, i ) = + 2 u2. p lim = + D (x i ) z +u n Таким образом, не стремится по вероятности к 2 u, за исключением случая, когда = 0, т.е. когда ошибки измерения zi 2 отсутствуют. Если отношение дисперсий u z2 мало, то тогда мало и асимптотическое смещение оценки наименьших квадратов;

в противном случае асимптотическое смещение оказывается Инструментальные переменные. Системы… значительным. В примере со сбережениями > 0, склонность к сбережению оказывается недооцененной. 2.2.2. Модели одновременных уравнений так что Рассмотрим кейнсианскую модель потребления Ct = + Yt + t, где Ct – реальное потребление на душу населения, Yt – реальный доход на душу населения, и параметр интерпретируется как склонность к потреблению (норма потребления). Мы могли бы на законных основаниях использовать для оценивания этого параметра метод наименьших квадратов, если бы не одно осложняющее обстоятельство. Если остановиться на модели замкнутой экономики без правительства, то в дополнение к указанному уравнению в этой модели имеется еще и соотношение Yt = Ct + I t, где I t – реальные инвестиции на душу населения, что приводит к системе уравнений Ct = + Yt + t, Yt = Ct + I t о которой говорят как о структурной форме модели. Выражая из этой системы Ct и Yt через I t, получаем приведенную форму модели в виде: 1 Ct = 1 + 1 I t + 1 t, Y = + 1 I + 1. t 1 1 t 1 t Предположим, что t ~ i.i.d., E ( t ) = 0, D( t ) = 2 > 0 и что для каждого t случайные величины I t и t независимы. Тогда из второго уравнения приведенной формы находим:

Глава 2 1 Cov( t, t ) = 0, 1 1 так что в исходном уравнении для Ct объясняющая переменная Yt коррелирована с ошибкой. При этом для оценки коэффициента, получаемой применением метода наименьших квадратов к исходному уравнению, имеем: Cov(Y, t ), p lim = + D (Yt ) n где Cov(Yt, t ) = D(Yt ) = (1 ) (D(I ) + ), t и p lim = + (1 ) n D(I t ) +.

Поскольку 2 > 0 и в модели Кейнса 0 < < 1, то переоценивает значение нормы потребления. Заметим, однако, что получить оценки параметров и можно, минуя исходное уравнение и обращаясь только к уравнениям приведенной формы. В каждом из этих двух уравнений объясняющие переменные не коррелированы с ошибкой. Первое уравнение приведенной формы можно записать в виде: ~~ ~ Ct = + I t + t, ~ ~ ~ ~ где = (1 ), = (1 ), = (1 ), E ( ) = 0, t t 2 ~ ~ D( t ) = 2 = 2 (1 ). Применяя метод наименьших квадратов к ~ ~ этому уравнению, находим оценки коэффициентов и и оценку t 2 дисперсии ~, после чего можно найти оценки для параметров исходного уравнения, используя соотношения ~ ~ ~ ~2 2 ~ = 1+, = 1+, 2 = ~ 1+.

( ) ( ) ( ) Инструментальные переменные. Системы… Таким образом, структурная форма восстанавливается по первому уравнению приведенной формы. Второе уравнение оказывается в этом плане избыточным. Однако используя одно это уравнение, мы также можем восстановить структурную форму. Действительно, это уравнение можно записать в виде: ~~ ~ Yt = + I t + t, ~ ~~ где = = (1 ), = 1 (1 ). Применяя метод наименьших ~ квадратов к этому уравнению, находим оценки коэффициентов и ~ 2 и оценку дисперсии ~, после чего можно найти оценки для параметров исходного уравнения, используя соотношения ~ ~ 2~ ~~ = 1, =, 2 = ~ 2. Однако при этом возникает вопрос о том, будут ли совпадать результаты восстановления параметров структурной формы, полученные по двум различным уравнениям приведенной формы. Если обратиться к выражениям для, и 2 через параметры этих уравнений, то нетрудно заметить, что ~~ ~~ ~ ~2 2~ 2 ~~ ~ = 1 +, 1 = 1 +, ~ 2 = ~ 1 +, так что, зная истинные значения параметров уравнений приведенной формы, мы однозначно восстанавливаем по ним значения параметров структурной формы. Однако это возможно, если мы знаем истинные значения параметров уравнений приведенной формы. Последние же нам не известны, и их приходится оценивать по имеющимся статистическим данным. Поскольку в правых частях обоих уравнений приведенной формы стоят одни и те же объясняющие переменные, то можно показать, что эффективные оценки коэффициентов этих уравнений получаются применением метода наименьших квадратов к каждому из двух уравнений. Но при этом оценки параметров структурной формы, полученные с использованием оценок коэффициентов для разных уравнений приведенной формы, будут в общем случае отличаться друг от друга. И это связано с тем, что количество ( ) ( )( ) ( ) ( ) Глава параметров приведенной формы больше количества, минимально необходимого для восстановления значений параметров структурной формы.

2.3. Метод инструментальных переменных Прежде, чем перейти к описанию метода инструментальных переменных, обратимся к обычному методу наименьших квадратов, применяемому к простейшей линейной модели y i = + xi + i, i ~ i.i.d., E ( i ) = 0, D( i ) = 2, i = 1, K, n. В этом случае оценка наименьших квадратов для коэффициента удовлетворяет системе нормальных уравнений i =1 i i n ( y i xi ) = 0, (y i = n i xi ) x i = 0, T выражающей ортогональность вектора остатков e = (e1,K, en ), где e = y x – остаток в i -м наблюдении, векторам i T T 1 = (1,K,1) и x = (x1,K, xn ). Эти условия ортогональности, записанные в равносильных формах 1n 1n ei 1 = 0, ei xi = 0, n i=1 n i=1 являются выборочными аналогами теоретических соотношений Cov( i,1) = 0, Cov( i, xi ) = 0. В силу предположения E ( i ) = 0, первое из двух последних соотношений выполняется автоматически, а второе можно записать в виде: E ( i xi ) = 0.

Если Cov( i, xi ) 0, то p lim n 1n ei xi 0 n i= и соотношение 1n ei xi = 0 не является эмпирическим аналогом теоретического n i= Инструментальные переменные. Системы… соотношения. Можно было бы попытаться найти какую-то другую переменную zi, для которой выполняется соотношение Cov( i, zi ) = E ( i zi ) = 0, и заменить второе уравнение нормальной системы выборочным аналогом последнего соотношения, т.е. уравнением ( yi xi ) zi = 0. i = n Конечно, решение новой системы отличается от решения исходной системы, и мы временно обозначим получаемые оценки коэффициентов как и. Эти оценки удовлетворяют соотношениям ( yi xi ) = 0, ( yi xi ) zi = 0, i =1 i = из которых находим явное выражение для :

Pages:     || 2 | 3 | 4 |



© 2011 www.dissers.ru - «Бесплатная электронная библиотека»

Материалы этого сайта размещены для ознакомления, все права принадлежат их авторам.
Если Вы не согласны с тем, что Ваш материал размещён на этом сайте, пожалуйста, напишите нам, мы в течении 1-2 рабочих дней удалим его.