WWW.DISSERS.RU

БЕСПЛАТНАЯ ЭЛЕКТРОННАЯ БИБЛИОТЕКА

   Добро пожаловать!

Pages:     | 1 |   ...   | 34 | 35 || 37 | 38 |   ...   | 82 |

Отсюда следует, что обычная линейная регрессионная модель не совсем подходит для описания рассматриваемой ситуации, поскольку величина za, вообще говоря, не ограничена, в то время как вероятность всегда ограничена нулем и единицей. Ожидаемое значение зависимой переменной, E(x), может описываться только нелинейной функцией.

Желательно каким-то образом модифицировать модель, чтобы она, с одной стороны, принимала во внимание тот факт, что вероятность не может выходить 9.2. Модели с биномиальной зависимой переменной за пределы отрезка [0; 1], и, с другой стороны, была почти такой же простой как линейная регрессия. Этим требованиям удовлетворяет модель, для которой Pr(x =1) =F (z), где F (·) — некоторая достаточно простая функция, преобразующая z в число от нуля до единицы. Естественно выбрать в качестве F (·) какую-либо дифференцируемую функцию распределения, определенную на всей действительной прямой.

В дальнейшем мы рассмотрим несколько удобных функций распределения, которые удовлетворяют этим требованиям.

Заметим, что если выбрать F (·), соответствующую равномерному распределению на отрезке [0; 1], то окажется, что 0, z 0, E(x) =Pr(x =1) = z, 0 z 1, 1, z 1.

Таким образом, при z [0; 1] получим «линейную регрессию». Это так называемая линейная модель вероятности. Однако, вообще говоря, такой выбор F (·) скорее не упрощает оценивание, а усложняет, поскольку в целом математическое ожидание зависимой переменной является здесь нелинейной функцией неизвестных параметров (т.е. это нелинейная регрессия), причем эта функция недифференцируема.

В то же время, если данные таковы, что можно быть уверенным, что величина z далека от границ 0 и 1, то линейную модель вероятности можно использовать, оценивая ее как обычную линейную регрессию. То, что величина z далека от границ 0 и 1, означает, что z плохо предсказывает x. Таким образом, линейная модель вероятности применима в случае, когда изучаемая зависимость слаба, и в имеющихся данных доля как нулей, так и единиц не слишком мала. Ее можно рассматривать как приближение для нелинейных моделей.

Есть два удобных вида распределения, которые обычно используют для моделирования вероятности получения единицы в модели с биномиальной зависимой переменной. Оба распределения симметричны относительно нуля.

1) Логистическое распределение.

Плотность логистического распределения равна ey (y) =, (1 + ey)298 Глава 9. Целочисленные переменные в регрессии а функция распределения равна ey (y) = =.

1+ey 1+e-y Модель с биномиальной зависимой переменной с логистически распределенным отклонением называют логит. Для логита ez E(x) =Pr(x =1) =(z) = =.

1+ez 1+e-z 2) Нормальное распределение (см. Приложение A.3.2).

Модель с нормально распределенным отклонением называют пробит. При этом используется стандартное нормальное распределение, т.е. нормальное распределение с нулевым ожиданием и единичной дисперсией, N(0, 1). Дляпробита z z 1 E(x) =Pr(x =1) =(z) = (t)dt = e-t /2dt, - где (·) — функция распределения стандартного нормального распределения, (·) — его плотность.

Логистическое распределение похоже на нормальное с нулевым ожиданием и дисперсией 2/3 (дисперсия логистического распределения). В связи с этим оценки коэффициентов в моделях различаются примерно на множитель / 3 1.8. Если вероятности далеки от границ 0 и 1 (около 0,5), то более точ ной оценкой множителя является величина (0)/(0) = 8/ 1.6. При малом количестве наблюдений из-за схожести распределений сложно решить, когда следует применять логит, а когда — пробит. Различие наиболее сильно проявляется при вероятностях, близких к 0 и 1, поскольку логистическое распределение имеет более длинные хвосты, чем нормальное (оно характеризуется положительным коэффициентом эксцесса).

Можно использовать в модели и другие распределения, например, асимметричные.

9.2.2. Оценивание моделей с биномиальной зависимой переменной Требуется по N наблюдениям (xi, zi), i =1,..., N, получить оценки коэффициентов. Здесь наблюдения xi независимы и имеют биномиальное распределение с одним испытанием (т.е. распределение Бернулли) и вероятностью Pr(xi =1) =F (zi).

9.2. Модели с биномиальной зависимой переменной Нормальное Логистическое распределение распределение Распределение экстремального значения –4 –3.1 –2.2 –1.3 –0.4 0.5 1.4 2.3 3.2 4.1 Рис. 9.Можно рассматривать модель с биномиальной зависимой переменной как модель регрессии:

xi = F (zi) +i, где ошибки i = xi - F (zi) имеют нулевое математическое ожидание и независимы. Каждая из ошибок i может принимать только два значения, и поэтому их распределение мало похоже на нормальное. Кроме того, имеет место гетероскедастичность. Обозначим pi = pi() =F (zi).

В этих обозначениях дисперсия ошибки i равна var(i) =E (xi - pi)2 = E(x2) - 2piE(xi) +p2 = pi(1 - pi).

i i При выводе этой формулы мы воспользовались тем, что x2 = xi и E(xi) =pi.

i Несмотря на эти нарушения стандартных предположений, данную модель, которая в общем случае представляет собой модель нелинейной регрессии, можно оценить нелинейным методом наименьших квадратов, минимизируя по следующую сумму квадратов:

N (xi - pi())2.

i=Для минимизации такой суммы квадратов требуется использовать какой-либо алгоритм нелинейной оптимизации. Этот метод дает состоятельные оценки коэффициентов. Гетероскедастичность приводит к двум важным последствиям.

Во-первых, оценки параметров будут неэффективными (не самыми точными). Вовторых, что более серьезно, ковариационная матрица коэффициентов, стандартные 300 Глава 9. Целочисленные переменные в регрессии ошибки коэффициентов и t-статистики будут вычисляться некорректно (если использовать стандартные процедуры оценивания нелинейной регрессии и получения в ней оценки ковариационной матрицы оценок параметров).

В частном случае модели линейной вероятности имеем линейную регрессию с гетероскедастичными ошибками:

xi = zi + i.

Для такой модели можно предложить следующую процедуру, делающую поправку на гетероскедастичность:

1) Оцениваем модель обычным МНК и получаем оценки a.

2) Находим оценки вероятностей:

pi = zia.

3) Используем взвешенную регрессию и получаем оценки a.

Чтобы оценить взвешенную регрессию, следует разделить каждое наблюдение исходной модели на корень из оценки дисперсии ошибки, т.е. на величину pi(1 - pi) = zia(1 - zia):

xi zi i = +, pi(1 - pi) pi(1 - pi) pi(1 - pi) и далее применить к этой преобразованной регрессии обычный метод наименьших квадратов. При использовании данного метода получим асимптотически эффективные оценки a и корректную ковариационную матрицу этих оценок, на основе которой можно рассчитать t -статистики.

Те же идеи дают метод оценивания модели с произвольной гладкой функцией F (·). Для этого можно использовать линеаризацию в точке 0:

F (zi) F (0) + f(0)zi, где f(·) — производная функции F (·) (плотность распределения). Тогда получим следующую приближенную модель:

xi F (0) + f(0) zi + i или x zi + i, i где xi - F (0) i x = и =, i f(0) f(0) 9.2. Модели с биномиальной зависимой переменной которую можно оценить с помощью только что описанной процедуры. Для симметричных относительно нуля распределений F (0) = 0, 5. В случае логита, учитывая (0) =, получаем x =4xi - 2, i а в случае пробита, учитывая (0) =, получаем x = 2(xi - 0, 5).

i Таким образом, можно получить приближенные оценки для коэффициентов пробита и логита, используя в качестве зависимой переменной регрессии вместо переменной, принимающей значения 0 и 1, переменную, которая принимает зна чения ±2 для логита и ± для пробита ( 1, 25). Ясно, что это хорошее 2 приближение только когда величины zi близки к нулю, то есть когда модель плохо описывает данные.

Приближенные оценки можно получить также по группированным наблюдениям. Предположим, что все наблюдения разбиты на несколько непересекающихся подгрупп, в пределах каждой из которых значения факторов zi примерно одинаковы. Введем обозначения:

pj = xi Nj iIj и zj = zi, Nj iIj где Ij — множество наблюдений, принадлежащих j-й группе, Nj — количество наблюдений в j-й группе. Величина pj является оценкой вероятности получения единицы в случае, когда факторы принимают значение zj, т.е.

pj F ( zj), откуда -F ( zj.

pj) Получаем модель регрессии, в которой в качестве зависимой переменной вы-ступает F ( а в качестве факторов — zj. В частном случае логистического pj), распределения имеем:

pj -1( =ln, pj) 1 - pj 302 Глава 9. Целочисленные переменные в регрессии т.е. для логита зависимая переменная представляет собой логарифм так называемого «соотношения шансов».

Чтобы такое приближение было хорошим, следует правильно сгруппировать наблюдения. При этом предъявляются два, вообще говоря, противоречивых требования:

– в пределах каждой группы значения факторов должны быть примерно одинаковы (идеальный случай — когда в пределах групп zi совпадает, что вполне может случиться при анализе экспериментальных данных), – в каждой группе должно быть достаточно много наблюдений.

Описанный метод лучше всего подходит тогда, когда в модели имеется один объясняющий фактор (и константа), поскольку в этом случае проще группировать наблюдения.

В настоящее время в связи с развитием компьютерной техники для оценивания моделей с биномиальной зависимой переменной, как правило, используется метод максимального правдоподобия, рассмотрение которого выходит за рамки данной главы.

9.2.3. Интерпретация результатов оценивания моделей с биномиальной зависимой переменной Предположим, что каким-либо методом получен вектор оценок a. Как в этом случае можно интерпретировать результаты и судить о качестве модели Для логита коэффициенты a описывают влияние факторов на логарифм соотношения шансов. В общем случае по знаку коэффициентов можно судить о направлении зависимости, а по соответствующим t-статистикам — о наличии или отсутствии зависимости. Однако интерпретировать коэффициенты в содержательных терминах затруднительно. Поэтому помимо коэффициентов полезно рассмотреть, как влияют факторы на вероятность получения единицы:

F (za) = f(za)aj.

zj Эти величины называют маргинальными значениями. Ясно, что маргинальные значения зависят от точки z, в которой они рассматриваются. Обычно берут z на среднем уровне по имеющимся наблюдениям: z = z. Другой распространенный подход состоит в том, чтобы вычислить маргинальные значения во всех точках zi, i =1,..., N, и по ним вычислить средние маргинальные значения:

N f(zia) aj.

N i=9.2. Модели с биномиальной зависимой переменной Таблица 9.Предсказано 0 1 Сумма На самом 0 деле 1 Сумма Величину xc = zia можно назвать по аналогии с линейной регрессией расчетi ными значениями. При za > 0 для логита и пробита предсказанная вероятность единицы, F (za), превосходит, поэтому для такого наблюдения более вероятно наблюдать 1, чем 0. Таким образом, уравнение za =0 задает ту гиперплоскость, которой разделяются две группы точек — те точки, для которых предсказано x =0, и те точки, для которых предсказано x =1. Поэтому наглядно о качестве модели можно судить по диаграмме xi по xc: чем лучше разделены две группы точек, i тем более качественна модель. О качестве модели можно судить также по графику оценки E(x) по xc. Этот график в случае «хорошей» модели должен быть «крутым» в нуле.

На этих двух графиках (рис. 9.2) слева внизу и справа вверху расположены правильно предсказанные точки, а слева вверху и справа внизу — неправильно.

То же самое можно представить таблицей 9.1.

Понятно, что «хорошая» модель должна давать высокий процент правильных предсказаний (в таблице они лежат на диагонали).

1 0 Хорошее качество модели Плохое качество модели Рис. 9.304 Глава 9. Целочисленные переменные в регрессии 9.3. Упражнения и задачи Упражнение G G G 1.1. Пусть ZG = {zi1zi2} — фиктивная переменная, где zi1 равно единице, если фактор в i -м наблюдении относится к годам войны (1941,..., 1945), и нулю G в противном случае. Как выглядит вектор zi2 Оцените двумя способами модель X = Z + Z00 + ZG + с помощью искусственно созданных данных из табл. 9.2, рассмотрев в качестве X столбец X1:

G а) исключив столбец z1 в исходной форме регрессии;

G б) исключив в исходной форме регрессии параметр при переменной z1.

Убедитесь, что значения коэффициентов исходной регрессии по способам а) и б) совпадают.

1.2. Запишите модель регрессии, в которой качественный фактор влияет не только на значение свободного члена регрессии, но и на коэффициент регрессии при факторе Z1.

Посчитайте матрицы Z1ZG и Z1[Z0, ZG]. Оцените данную модель регрессии на данных таблицы 9.2, рассмотрев в качестве X столбец X2 способами а) и б).

Упражнение Самостоятельно подберите ряды наблюдений и охарактеризуйте цены на российском вторичном рынке жилья в зависимости от жилой и нежилой площади, площади кухни, местоположения квартиры по районам города, расположения на этажах, количество комнат, наличия телефона, балкона, лифта и т.д.

Упражнение В таблице 9.3 приводится данные о голосовании по поводу увеличения налогов на содержание школ в городе Троя штата Мичиган в 1973 г. Наблюдения относятся к 95 индивидуумам: результаты голосования и различные характеристики индивидов.

Pub = 1, если хотя бы один ребенок посещает государственную школу, иначе 0, Priv = 1, если хотя бы один ребенок посещает частную школу, иначе 0, Years = срок проживания в данном районе, Teach = 1, если работает учителем, иначе 0, 9.3. Упражнения и задачи Таблица 9.Годы X1 X2 Z1 Z2 Годы X1 X2 Z1 Z1935 2.81 2.81 117.10 9.70 1945 24.95 19.93 200.70 32.1936 10.66 10.66 201.60 10.40 1946 16.44 16.44 220.80 34.1937 4.16 4.16 280.30 11.80 1947 15.04 15.04 165.60 45.1938 8.30 8.30 204.00 15.60 1948 15.44 15.44 160.40 54.1939 16.94 16.94 225.60 17.20 1949 23.43 23.43 61.80 55.1940 5.01 5.01 213.20 18.60 1950 6.98 6.98 161.10 64.1941 35.49 30.90 183.40 22.10 1951 18.61 18.61 181.90 67.1942 26.76 22.79 158.80 28.80 1952 22.74 22.74 207.90 72.1943 34.88 30.50 174.90 32.00 1953 24.63 24.63 237.10 80.1944 35.27 31.06 168.70 32.10 1954 31.35 31.35 275.90 88.LnInc = логарифм годового дохода семьи в долларах, PropTax = логарифм налогов на имущество в долларах за год (заменяет плату за обучение — плата зависит от имущественного положения), Yes = 1, если человек проголосовал на референдуме «за», 0, если «против».

Зависимая переменная — Yes. В модель включаются все перечисленные факторы, а также квадрат Years.

3.1. Получите приближенные оценки для логита и пробита с помощью линейной регрессии 3.2. Вычислите коэффициенты логита через коэффициенты пробита и сравните.

3.3. Для логита найдите маргинальные значения для Teach, LnInc и PropTax при среднем уровне факторов.

Pages:     | 1 |   ...   | 34 | 35 || 37 | 38 |   ...   | 82 |



© 2011 www.dissers.ru - «Бесплатная электронная библиотека»

Материалы этого сайта размещены для ознакомления, все права принадлежат их авторам.
Если Вы не согласны с тем, что Ваш материал размещён на этом сайте, пожалуйста, напишите нам, мы в течении 1-2 рабочих дней удалим его.