WWW.DISSERS.RU

БЕСПЛАТНАЯ ЭЛЕКТРОННАЯ БИБЛИОТЕКА

   Добро пожаловать!

На правах рукописи

Тимофеев Владимир Семенович

ОБНАРУЖЕНИЕ И ИСПОЛЬЗОВАНИЕ ЗАКОНОМЕРНОСТЕЙ В ИСХОДНЫХ ДАННЫХ ПРИ ПОСТРОЕНИИ РЕГРЕССИОННЫХ МОДЕЛЕЙ И ПЛАНИРОВАНИИ ЭКСПЕРИМЕНТА

Специальность 05.13.17 – Теоретические основы информатики

АВТОРЕФЕРАТ

диссертации на соискание ученой степени доктора технических наук

Новосибирск-2011

Работа выполнена в Федеральном государственном бюджетном образовательном учреждении высшего профессионального образования «Новосибирский государственный технический университет»

Научный консультант: доктор технических наук, профессор Денисов Владимир Иванович

Официальные оппоненты: доктор технических наук, профессор Горский Владимир Григорьевич доктор технических наук, профессор Загоруйко Николай Григорьевич доктор технических наук, профессор Родионов Алексей Сергеевич

Ведущая организация: Федеральное государственное бюджетное образовательное учреждение высшего профессионального образования «Московский государственный университет путей сообщения»

Защита состоится «22» марта 2012 г. в 1400 часов на заседании диссертационного совета Д 212.173.06 при Федеральном государственном бюджетном образовательном учреждении высшего профессионального образования «Новосибирский государственный технический университет» по адресу: 630092, Новосибирск-92, пр. К.Маркса, 20.

С диссертацией можно ознакомиться в библиотеке Новосибирского государственного технического университета.

Автореферат разослан «____» февраля 2012 г.

Ученый секретарь диссертационного совета Чубич В.М.

Актуальность темы исследований. Проведение прикладных исследований, связанных с контролем качества продукции, оптимизацией технологических процессов, сертификацией сложных технических изделий, решением социологических и экономических задач, медико-биологических и сельскохозяйственных исследований, исследований в демографии и др. часто приводит к необходимости анализа данных. При этом естественным является желание экспериментатора располагать наиболее достоверными и качественными результатами, которые максимально согласуются с природой имеющихся исходных данных. Для получения таких результатов требуется комплексное применение широкого спектра методов теоретической и прикладной статистики, обеспечивающих извлечение и последующее использование присущих исходным данным закономерностей.

В этой связи стоит обратить внимание на метод максимального правдоподобия (ММП) и связанное с ним количество информации по Фишеру, роль которого в математической и прикладной статистике трудно переоценить.

Он часто ставится в основу не только теоретических, но и прикладных статистических исследований включая задачи анализа многофакторных объектов. В частности, можно говорить о том, что на нем основана теория планирования эксперимента, поскольку одно из ее базовых понятий – информационная матрица определяется именно через вторую производную логарифмической функции правдоподобия. Хорошо известна связь классического метода наименьших квадратов (МНК) с методом максимального правдоподобия для нормально распределенных ошибок. Обеспечивая при данном предположении наличие целого ряда оптимальных свойств получаемых оценок, метод максимального правдоподобия становится объектом предпочтения специалистов.

На сегодняшний день существует достаточно большое число теоретических и прикладных работ, посвященных применению метода максимального правдоподобия. В области планирования оптимальных экспериментов следует отметить результаты, полученные Налимовым В.В., Федоровым В.В., Горским В.Г., Лецким Э.К., Ермаковым С.М., Седуновым Е.В., Козловым В.П., Денисовым В.И., Григорьевым Ю.Д., Поповым А.А., Хабаровым В.И., Лисициным Д.В. В области классического регрессионного анализа следует отметить работы Айвазяна С.А., Рао С.Р., Кендалла М.Дж., Стьюарта А., Сирла С., Дрейпера Н., Смита Н.

Однако предположение нормальности распределения случайной компоненты уравнения регрессии, лежащее в основе классических методов, является достаточно сильным и серьезно ограничивает спектр корректно решаемых задач. В частности, при наличии тех или иных неоднородностей в условиях проведения наблюдений (экспериментов) может иметь место появление некоторого числа наблюдений, резко выделяющихся из основной массы. Это обстоятельство может привести к той или иной потере точности в силу искажения априорного распределения случайной компоненты, т.е. к нарушению предположения нормальности. Для решения данной проблемы разработан целый ряд специальных устойчивых методов, в том числе непараметрических. Исследованиями в этой области занимались такие признанные специалисты как Хьюбер П., Хампель Ф, Davies P., Rousseeuw P.

Смоляк С.А., Болдин М.В., Тюрин Ю.Н., Лисицин Д.В. и др. Вместе с тем, отказ от метода максимального правдоподобия часто означает и потерю оптимальных свойств оценок, присущих данному методу. Это одна из причин, из-за которой автор остается в рамках классического подхода максимальноправдоподобного оценивания, присущего Новосибирской школе анализа многофакторных объектов и планирования эксперимента.

С другой стороны, фактически реализуемые на практике распределения случайных ошибок далеко не всегда удается представить в рамках тех или иных хорошо известных теоретических законов. Исследователь может лишь иметь общие представления о его форме, плюс, возможно, сформулировать отдельные гипотезы о наличии тех или иных особенностей (например, сделать корректное предположение о значении математического ожидания). Очевидно, что в этом случае метод максимального правдоподобия в классической постановке применить не получится. Методы и алгоритмы планирования эксперимента также могут приводить далеко не к самым оптимальным вариантам решения, поскольку они разрабатывались в предположении нормальности распределения случайной ошибки. Следовательно, алгоритмы идентификации должны сами извлекать информацию о характере распределения из исходных данных и обладать определенной гибкостью для осуществления подстройки под многообразие фактически реализуемых распределений. На данный момент известны такие алгоритмы для обобщенного распределения Лапласа (Денисов В.И., Лисицин Д.В. Методы построения многофакторных моделей по неоднородным, негауссовским, зависимым наблюдениям), но они сильно ограничены предположением симметрии изучаемого распределения.

Один из вариантов решения заключается в переходе к универсальным распределениям. Их основное преимущество состоит в возможности описания большого круга практических ситуаций. В частности, использование кривых Пирсона позволит говорить об анализе ситуаций с такими распределениями как бета-, гамма-, Стьюдента, экспоненциальное и др. Еще более широким является обобщенное лямбда-распределение, включающее не только хорошо известные в теории вероятности распределения, но и целое множество других.

Перспективным также представляется переход в частотную область посредством построения характеристической функции, что обеспечит привлечение более полной информации и позволит идентифицировать так называемые устойчивые распределения. Они также являются весьма широким классом распределений, включающим распределения с большой или даже бесконечной дисперсией (например, распределение Коши). Это обстоятельство делает его предпочтительным при исследовании закономерностей на основе сильно засоренных данных.

Цель и задачи. Таким образом, актуальным является построение универсальных алгоритмов оценивания параметров регрессионных моделей, основанных на методе максимального правдоподобия, которые обеспечивают корректную идентификацию для широкого круга практически реализуемых распределений. Решение этой проблемы откроет новые возможности и для развития теории планирования эксперимента, а также, в ряде случаев, будет обеспечивать устойчивость оценивания и сохранение хорошо известных оптимальных свойств. Именно такая формулировка и рассматривается автором в качестве цели данной работы. Для достижения данной цели были поставлены и решены следующие задачи:

• обеспечить возможность адаптации алгоритмов оценивания параметров регрессионных уравнений к широкому спектру практически реализуемых распределений случайной компоненты;

• разработать новые алгоритмы устойчивого оценивания, позволяющие использовать информацию об индивидуальной информативности наблюдений, а также реагировать на разный характер имеющихся в исходных данных выбросов;

• провести расширение возможностей теории планирования эксперимента за счет более слабого предположения о принадлежности распределения случайной ошибки обобщенному лямбда-распределению;

• разработать алгоритмы, обобщающие идею квантильной регрессии на другие функции потерь, а также алгоритм идентификации моделей компонент дисперсии знаковым методом;

• осуществить построение программной системы, интегрирующей все предложенные алгоритмы устойчивого и адаптивного оценивания параметров линейно-параметризованных регрессионных уравнений, а также алгоритмы планирования эксперимента и с ее помощью провести решение задач технического и экономического содержания.

Область исследования. Содержание диссертации соответствует области исследования п.5 «Разработка и исследование моделей и алгоритмов анализа данных, обнаружения закономерностей в данных и их извлечениях, разработка и исследование методов и алгоритмов анализа текста, устной речи и изображений» паспорта специальности 05.13.17 – «Теоретические основы информатики» (в области технических наук).

Методы исследования. Исследование основано на корректном использовании положений теории вероятностей, математической статистики, математического анализа и линейной алгебры, теории планирования эксперимента, регрессионного анализа, численных методов, методов оптимизации и методов статистического моделирования.

Достоверность и обоснованность научных положений, рекомендаций и выводов обеспечивается корректным использованием методов исследования, согласованностью выводов с известными теоретическими законами и положениями, а также подтверждением полученных аналитических выводов результатами вычислительных экспериментов, проведенными на основе технологии статистического моделирования.

Научная новизна работы заключается в следующем:

впервые предложено проводить адаптивное оценивание параметров линейно-параметризованных регрессионных уравнений на основе восстановленной по моментам функции плотности случайной компоненты, а также показана возможность использования для этой цели универсальных распределений;

сформулировано и доказано утверждение, на основе которого впервые разработан уникальный алгоритм синтеза оптимальных планов эксперимента для распределений ошибки, представимых в классе лямбда-распределения;

показана возможность перехода в частотную область при построении характеристической функции для обнаружения закономерностей распределения случайной компоненты и более качественного восстановления регрессионной зависимости. Разработаны и исследованы параметрические и непараметрические алгоритмы;

предложен ряд новых алгоритмов построения оценочных подмножеств для метода наименьших уравновешенных квадратов, использующих показатели концентрации наблюдений, а также идеи планирования эксперимента.

Посредством статистического моделирования проведено исследование разработанных алгоритмов, по результатам которого сформулирован ряд рекомендаций по их использованию;

предложены и исследованы алгоритмы, обобщающие идею квантильной регрессии на другие функции потерь, а также алгоритм идентификации моделей компонент дисперсии знаковым методом;

создана программная система, предназначенная для устойчивого и адаптивного оценивания параметров линейно-параметризованных регрессионных моделей и планирования эксперимента, с использованием которой решен ряд реальных задач технического и экономического содержания.

Практическая значимость. Полученные результаты позволяют проводить восстановление регрессионных зависимостей и планирование эксперимента на основе информации, непосредственно извлекаемой из исходных данных.

Используемая адаптация к структуре исходных данных позволяет говорить о представленных алгоритмах как о гибком инструменте построения регрессионных моделей, существенно расширяющем и улучшающем возможности существующего алгоритмического обеспечения устойчивого и адаптивного оценивания, а также планирования эксперимента. Разработанная программная система позволяет автоматизировать процесс построения регрессионных зависимостей в условиях засоренных данных, с отличным от нормального распределением. Система зарегистрирована в виде объекта интеллектуальной собственности как программа ЭВМ (№ гос. рег. 2011613035) [28].

Реализация результатов работы. Разработанные методы и алгоритмы используются в аналитической работе мэрии города Новосибирска, OOO «ЗапСибГеоПроект», торговым холдингом «Сибирский Гигант», а также в учебном процессе НГТУ, что подтверждено актами о внедрении.

На защиту выносятся:

• семейство алгоритмов построения оценочных подмножеств, позволяющих вычислительной схеме метода наименьших уравновешенных квадратов реагировать на характер появления выбросов, а также учитывать индивидуальную информативность наблюдений;

• алгоритмы адаптивного оценивания, существенно расширяющие сферу корректного применения метода максимального правдоподобия и основанные на таких универсальных семействах распределений как устойчивые распределения, кривые Пирсона, обобщенное лямбдараспределение;

• результаты исследований разработанных алгоритмов идентификации регрессионных уравнений, основанных на переходе в частотную область (использовании характеристической функции);

• способ вычисления информационной матрицы Фишера для линейнопараметризованных регрессионных моделей с распределением ошибки, представимом в классе универсального лямбда-распределения;

• алгоритмы, обобщающие идею квантильной регрессии на другие функции потерь и результаты их исследования;

• программная система устойчивого и адаптивного оценивания, а также планирования экспериментов для линейно-параметризованных регрессионных моделей и результаты решения задачи технического содержания, связанной с оцениванием провиса проводов воздушных линий.

Апробация работы. Результаты научных исследований, проведенных автором, докладывались и обсуждались на: пятой международной научнопрактической конференции «Актуальные проблемы электронного приборостроения» АПЭП-2000 (Новосибирск, 2000); десятой международной научно-практической конференции «Актуальные проблемы электронного приборостроения» АПЭП-2010 (Новосибирск, 2010); пятой международной научно-практической конференции «Высокие технологии, фундаментальные и прикладные исследования, образование» (Санкт-Петербург, 2008).

Работа выполнена при поддержке ФЦП «Научные и научнопедагогические кадры инновационной России 2009-2013гг.» (проект № П263), аналитической ведомственной целевой программы «Развитие научного потенциала высшей школы (2009-2011 гг.)», проводимой по заданию Министерства образования и науки РФ (проект № 1.5.11), аналитической ведомственной целевой программы «Развитие научного потенциала высшей школы (2006-2008гг.)» (проект № РНП.2.1.2.43).

Публикации. Результаты, полученные в диссертации, опубликованы в научных работах общим объемом 49 п.л. (авторских 18,9 п.л.), включая:

рекомендованные ВАК издания – 22, материалы трудов научно-технических конференций – 3, патент – 1, депонированных отчетов по НИР – 2, учебник с научным уклоном – 1.

Структура и объем работы. По структуре диссертация состоит из введения, шести разделов основного содержания, заключения, списка использованных источников и приложений. Основное содержание представлено на 329 страницах, включая 59 таблиц, 90 рисунков и список использованных источников из 164 наименований.

КРАТКОЕ СОДЕРЖАНИЕ РАБОТЫ

Первый раздел имеет обзорный характер. В п.1.1 рассматриваются основные определения, понятия, используемые при анализе многофакторных объектов, существующие классические и устойчивые методы оценивания неизвестных параметров регрессионных уравнений. Приведена постановка задачи восстановления регрессионных зависимостей по результатам наблюдений за многофакторными объектами.

Пусть истинная зависимость отклика Y рассматриваемой многофакторной системы от набора входных факторов F1,..., Fq может быть описана линейнопараметризованным регрессионным уравнением вида:

y = X + , (1) f 1(x11) L f q(x1q) где X = M O M – матрица значений регрессионных функций, f 1(xN1) L f q(xNq) имеющая полный столбцовый ранг, т.е. rg(X ) = q, = ( 1,..., q)T – вектор неизвестных параметров, подлежащих оцениванию, q – число неизвестных параметров, N – количество проведенных экспериментов; fi x – известные ( ) действительные функции вещественного аргумента x, xij – детерминированные значения входных факторов F1,..., Fq в N наблюдениях, y = (y 1,..., y N )T – вектор значений отклика, = ( 1,..., N )T – вектор случайных ошибок, независящих от значений входных факторов.

Будем предполагать, что ошибки наблюдений i являются независимыми одинаково распределенными случайными величинами с плотностью u, для ( ) которых верно, что E i = 0, D i = 2. (2) ( ) ( ) Задача состоит в том, чтобы по имеющимся исходным данным (значениям отклика и входных факторов) как можно точнее оценить вектор неизвестных параметров уравнения регрессии (1).

Далее, в п.1.2 представлены результаты исследования методов оценивания одной из основополагающих характеристик случайных величин, математического ожидания, с точки зрения устойчивости по отношению к грубым ошибкам наблюдений. Сформулированы и доказаны утверждения о виде информационных матриц для порядковых статистик случайных величин, имеющих экспоненциальное и равномерное распределения [5].

Полученные результаты послужили обоснованием возможности перехода от классических алгоритмов идентификации регрессионных уравнений, основанных на использовании стандартных оценок математического ожидания, к устойчивым, и далее к адаптивным оценкам, более полно учитывающим закономерности, присущие исходным данным.

Второй раздел посвящен устойчивым методам оценивания параметров линейно-параметризованных регрессионных уравнений. Для построения алгоритмов, способных реагировать на различный характер вхождения выбросов, в п. 2.1 проведен анализ применимости показателей концентрации и показателей точности оценивания, основанных на остатках регрессии [6,26].

Теоретически факт присутствия единичных выбросов в выборке, как правило, не противоречит даже предположениям классических методов оценивания, поскольку и для нормально распределенной случайной ошибки допустимы сколь угодно большие по абсолютной величине значения. Это соображение не дает формальных оснований для отклонения классических методов идентификации. Однако их применение в таких ситуациях может приводить к абсурдным результатам (оценкам). Традиционно рекомендуемые в таких ситуациях методы отбраковки также могут приводить к нежелательным результатам.

Тем не менее, использование информации, содержащейся в остатках, полученных после применения классических методов (например, МНК), помогает глубже исследовать особенности и свойства исходных данных, сделать необходимые корректировки в своих априорных предположениях и более обоснованно выбрать метод оценивания. При этом одна из основных задач состоит в определении информативности индивидуальных наблюдений.

Наиболее перспективным и удобным для практического использования автор считает подход, основанный на использовании хорошо известной матрицы проектора и связанных с ней величин. Учитывая введенные ранее обозначения и ориентируясь на метод наименьших квадратов, запишем вектор прогнозов для регрессионного уравнения (1) = Hy, -T T где H = X X X X – идемпотентная матрица проектора.

( ) Как отмечают Rao C.R., Toutenburg H. диагональные элементы этой матрицы hii определяют степень влияния i -го наблюдаемого значения отклика yi на оценку i. Использование этой информации совместно с регрессионными остатками дает возможность исследовать характер влияния выбросов. Для этого предлагается рассматривать такие характеристики, как нормализованные остатки, стандартизованные остатки, внутренне и внешне стьюдентизированные остатки. Поскольку эти величины взаимосвязаны, на практике достаточно рассматривать либо внутренне, либо внешне стьюдентизированные остатки. Согласно Rao C.R. внешне стьюдетизированные остатки более чувствительны к наличию выбросов, и с этой точки зрения их использование предпочтительнее. Известны и расстояния Кука и Велша-Куха, также рассматриваемые автором при построении алгоритмов.

Учет взаимного расположения точек в пространстве входных факторов можно провести, используя не только диагональные элементы hii в качестве нормировок в стьюдентизированных остатках, но и явно. Для этого предлагается рассчитывать расстояния Махаланобиса и робастное расстояние.

Первое из них определяется как мера удаления выбранного наблюдения от центра облака рассеяния исходных данных:

T MDi = f xi - µ S-1 f xi - µ, (3) ( ) ( ) ( ) ( ) где f xi – значение вектора регрессионных функций уравнения (1), ( ) вычисленное в точке i, µ – вектор средних значений регрессионных функций, S – ковариационная матрица в пространстве регрессоров.

В робастном расстоянии вектор средних значений и ковариационная матрица заменяются робастными оценками T x и C соответственно:

( ) T RDi = f xi - T x C-1 f xi - T x. (4) ( ) ( ) ( ) ( ) ( ) ( ) По рекомендациям Rousseeuw P.J. способ оценки среднего должен соответствовать способу оценки параметров уравнения регрессии. Например, при использовании LMS-оценивания в качестве T x выступает медиана, при ( ) LТS метода (англ. «least trimmed squares») среднее лучше оценивать через шорт.

Представленные в п.2.2 алгоритмы следует рассматривать как дальнейшее развитие идеи использования классификационного представления (рис.1), введенного Rousseeuw P.J.

ei 3 Выбросы Наблюдения разбалансировки 1 Регулярные Хорошие наблюдения наблюдения D Рис.1. Классификационное представление В качестве значений D при построении классификационного представления (см.рис.1) могут выступать значения робастного расстояния (4) или расстояния Махаланобиса (3). По вертикальной оси абсолютное значение остатков ei можно заменить абсолютным значением любой из рассмотренных вариаций (нормализованные, стандартизованные и др.). Кроме того, выделенные на рис.1 области проранжированы по степени отрицательного влияния содержащихся в них наблюдений на точность оценивания параметров регрессионных уравнений. Это и позволило автору выдвинуть идею построения алгоритма управления оценочным подмножеством, который бы одновременно учитывал как характеристики точности (остатки), так и информативности наблюдений. Вычислительная схема алгоритма совпадает с LTS-оцениванием, однако принцип формирования оценочного подмножества более гибкий, теперь он основан на ранжировании областей классификационного представления.

В п.2.3. рассматривается задача устойчивого оценивания при наличии одностронних выбросов [13]. В этой связи проводится развитие известной идеи R. Koenker о квантильной регрессии на базе метода наименьших модулей.

Данная идея может быть обобщена на случай произвольной функции потерь, если искать оценку неизвестных параметров исходного регрессионного уравнения (1) как решение оптимизационной задачи N = arg min ( ) L ei, i=где L ei – функция потерь; ei – остатки регрессии; – уровень ( ) используемого квантиля (0 1).

Вид функции потерь следует определить в соответствии с базовым (желаемым) методом поиска оценок регрессионного уравнения. В частности, если исследователь отдает предпочтение классическому МНК:

ei2, ei > 0, L ei = ( ) 1- ei2, ei 0.

( ) При использовании квантильной регрессии по R. Koenker берется функция потерь на основе абсолютных значений остатков:

ei, ei > 0, L ei = ( ) 1- ei, ei 0.

( ) При построении квантильных оценок на основе знакового метода предлагается решать следующую оптимизационную задачу r = arg min xijsign ei + 1- xijsign ei . (5) ( ) ( ) ( ) Rr j=1 i:ei >0 i:ei Очевидно, что задача (5) может быть записана в более простом виде r = arg min xij + -1 xij .

( ) Rr j=1 i:ei >0 i:ei < Однако при ее решении с использованием алгоритмов из [1,2] удобнее использовать именно представление (5).

В п.2.4. рассматривается задача обнаружения гетероскедастичности в регрессионных уравнениях [7]. Данная проблема может иметь место при той или иной неоднородности условий проведения экспериментов, в том числе и при большой доле засорения выборки выбросами. Предлагаемый критерий основан на S -методе множественного сравнения дисперсионного анализа. На первом шаге необходимо произвести разбиение области изменения переменной x* на k классов однородности (интервалов) и осуществить построение вспомогательной однофакторной модели дисперсионного анализа yij = µ + i + uij, i =1...k, j =1...ni, где в качестве значений переменной yij выступают абсолютные величины (или квадраты) j -го остатка из интервала i уравнения (1), i – главные эффекты, их число определяется количеством k, ni –число наблюдений в интервале i, µ – генеральное среднее, uij – случайная ошибка. Проверяемая гипотеза H0 :i = должна быть отвергнута, если хотя бы одна функция, допускающая оценку, представленная в виде парных сравнений главных эффектов, значима.

В п.2.5 показана возможность использования устойчивых методов, в частности знакового, для идентификации более сложных моделей, а именно моделей компонент дисперсии [3], записываемых в виде:

Y = X + e, (6) T где Y = (y1,..., yN )T – вектор, состоящий из N наблюдений; = µ,1,..., – = = = ( ) ( ) ( ) ( ) p вектор фиксированных параметров, в котором: µ – генеральное среднее, T i = i1,...,ini, ij – главный эффект j -го уровня i -го фиксированного = = = ( ) ( ) ( ) ( ) фактора, i = p, j = 1,K,ni ; ni – число уровней i -го фиксированного =1,K, = = = = = фактора, p – число фиксированных факторов; X – известная матрица значений переменных, соответствующих фиксированным параметрам;

e = (e1,...,eN )T – вектор ошибок, обладающий следующей структурой e =U11 +...+Urr + , где i, i =1,K,r – векторы главных эффектов случайных факторов; r – количество случайных факторов; Ui, i =1,K,r – известные матрицы значений переменных, соответствующих случайным факторам; = (1,...,N )T – вектор случайных ошибок. При этом предполагается, что 2 i ~ (0,i Imi ), i =1,K,r, cov(i, ) = 0, i j, cov(i,) = 0, ~ (0,I ), j где mi – число уровней i -го случайного фактора. Или в более сжатой форме E(e) = 0, D(e) = eV, (7) r 2 i где V = UiUiT + I. Величины 1,...,2, получили название компонент r i=дисперсии, а модель (6), (7) – модели компонент дисперсии.

Данная постановка отличается от классической отсутствием предположения о виде распределения случайных величин, здесь указываются только их математические ожидания и дисперсии.

При оценивании векторов неизвестных параметров и 2 2 2 = (1,...,r, )T начинают, как правило, с определения оценок компонент = = = 2 2 r дисперсии 1,...,,, зная которые, вычисляют оценки фиксированных параметров по обобщенному методу наименьших квадратов:

r iT -1 T - = (X V X )- X V Y, где V = UiUiT + I.

i=1 Для оценивания компонент дисперсии разработано множество методов, в данной работе использованы оценки минимальной нормы или MINQ-оценки (англ. «minimum norm quadratic»). Для применения знакового метода проведено преобразование модели (6). Введем новую переменную Z = V Y. (8) Очевидно, что для Z справедливы соотношения % E(Z) = V X = X, D(Z) = eI. (9) С учетом (8), (9) знаковые оценки фиксированных параметров модели (6) могут быть получены как решение соответствующей оптимизационной задачи (п.1.3). При этом, естественно, предполагается, что ошибки наблюдений должны быть независимыми случайными величинами с симметричным относительно нуля распределением.

В п.2.6. приведены результаты вычислительных экспериментов, направленных на исследование точности разработанных алгоритмов.

Проведенный анализ полученных результатов подтвердил работоспособность новых алгоритмов, а также позволил сделать некоторые рекомендации.

В третьем разделе представлены результаты, существенно расширяющие сферу корректного применения метода максимального правдоподобия.

Основная идея состоит в привлечении дополнительной информации о закономерностях распределения случайной компоненты, извлекаемой непосредственно из имеющихся исходных данных. Разработанные алгоритмы реализуют данную идею, восстанавливая функцию плотности распределения, необходимую для применения метода максимального правдоподобия. Для обеспечения работоспособности разрабатываемых алгоритмов при различных практически реализуемых распределениях, в том числе при большой или даже бесконечной дисперсии, предлагается проводить идентификацию функции плотности в классе универсальных семейств распределений. В этой связи автор рассматривает кривые Пирсона (п.3.3.1) [19,20], обобщенное лямбдараспределение (п.3.3.2) [24], устойчивые распределения (п.3.3.3) [23,27], а также ортогональное разложение функции плотности в ряд по моментам типа Грама-Шарлье (п.3.2) [9]. Кроме того, неизвестную функцию плотности предлагается восстанавливать с использованием непараметрического подхода, а именно на основе ядерных функций (3.4.2) [22], а также с помощью построения эмпирического аналога характеристической функции (п.3.4.1) [21].

Общая схема алгоритма предполагает выполнение следующих действий.

Шаг 1. Определение начального приближения оценок вектора неизвестных параметров 0 ( k = 0), вычисленного, например, с помощью обычного МНК.

Шаг 2. Вычисление остатков ek = y - Xk уравнения (1) и их выборочных моментов до требуемого порядка. Восстановление неизвестной функции плотности на основе того или иного из рассматриваемых подходов.

k k k Шаг 3. Поиск очередного приближения k+1 = arg max l e1,e2,...,eN,k, ( ) N N где l e1,...,eN, = ln ei, = ln ei, – логарифмическая функция ( ) ( ) ( ) ( ) i=1 i=правдоподобия.

Шаг 4. Если k+1 - k < , то завершение процесса, в противном случае k := k +1 и переход на шаг 2 ( – заданная погрешность вычисления).

Известно, что распределение с плотностью x является распределением ( ) Пирсона, если оно удовлетворяет дифференциальному уравнению вида d x x - a x ( ) ( ) ( ) =, dx b0 + b1x + b2xгде a, b0, b1, b2 – некоторые коэффициенты, значения которых определяются на основе первых четырех моментов изучаемой случайной величины: начальных m1,m2,m3,m4 или центральных µ1 = 0,µ2,µ3,µ4. Различают 12 типов кривых, из них основные, оставшиеся – переходные.

Обобщенное лямбда-распределение также полностью определяется первыми четырьмя моментами, однако оно представляет собой более широкий класс распределений. Особенностью данного распределения является тот факт, что функция плотности выражается в терминах обратных функций:

g(x) =, u3-1 + (1- u)4-u3 (1- u )4 где 0 u 1, x = Q(u,1,2,3,4) = 1 + -, Q(u,1,2,3,4) – 2 3 4 функция, обратная к функции распределения изучаемой случайной величины.

Дальнейшее увеличение объема привлекаемой для использования информации может быть достигнуто за счет применения ортогональных разложений функции плотности в ряд по моментам, в частности разложение нормальной плотности известно как ряд Грама-Шарлье типа А 1 x - m 1 x - m 1 x - m x = 0 1+ 1H3 + 2H4 +L. (10) ( ) 3! 4! µгде m – математическое ожидание, – стандартная ошибка, 1 =, µ4 µ2 = - 3 = - 3 – коэффициенты асимметрии и эксцесса соответственно, 4 µHi – ортогональные полиномы Чебышева–Эрмита, 0 – функция ( ) ( ) плотности стандартного нормального распределения.

Как отмечает Г.Крамер, если x имеет ограниченную вариацию, то ряд ( ) (10) сходится к x в каждой точке непрерывности, а значит, может ( ) использоваться для аналитического представления искомой функции плотности с любой степенью точности.

Однако наиболее полный объем информации можно привлечь при использовании характеристической функции, которая, как известно, является полным аналогом функции плотности с точки зрения характеристики искомого распределения. Кроме того, в силу существования хорошо известного разложения характеристической функции по моментам можно говорить о том, что эта функция как бы объединяет в себе всю информацию, содержащуюся в моментах. Также известно, что семейство устойчивых распределений можно ввести именно через характеристическую функцию, логарифм которой имеет вид (Золотарев В.М. Одномерные устойчивые распределения):

, 1+ iµt - t isign(t)tg 2 1, ln t = ( ) 1+ , iµt - t isign(t) ln t =1, где i = -1 – мнимая единица, 0 < 2, -1 1, > 0, - < µ < – неизвестные параметры.

Устойчивые распределения упоминаются еще в работах П. Леви, датированных 1925 годом. Они вводятся как предельные (имеется в виду сходимость по распределению) для суммы одинаково распределенных случайных величин. Наиболее известным представителем данного семейства является нормальное распределение.

Из определения устойчивых распределений для 1 следует Re t = exp t (11) ( ) (- )cosµt + t sign(t)tg , Im t = exp t (12) ( ) (- )sinµt + t sign(t)tg .

На основе имеющейся реализации x1,..., xN случайной величины можно определить выборочную оценку характеристической функции N N 1 t = eitx j = cos(txj ) + isin(txj). (13) ( ) ( ) N j=1 N j=Обратный переход от характеристической функции к искомой функции плотности x осуществляется посредством преобразования Фурье ( ) T 1 xj = t e-itx jdt tk e-itk x j, j =1,..., N, ( ) ( ) ( ) 2 16 k=- где t = Re t + i Im t, Re t, Im t определены в (11) и (12) ( ) ( ) ( ) ( ) ( ) соответственно (в работе были использованы значения tk = k, k =1,...,T, T –заданное число).

Достаточно простая идея идентификации устойчивых распределений состоит в минимизации расстояния между эмпирической оценкой (13) и аналитическим представлением характеристической функции (12):

t - t min. (14) ( ) ( ) ,,µ, Известно (Press S.J.), что полученная таким образом оценка состоятельна.

Данная идея была объединена с подходом Press S.J., в результате удалось повысить эффективность работы алгоритма (Press S.J. предлагал алгоритм полного перебора) и качество оценивания параметров регрессионного уравнения (1), что косвенно подтверждает и качество восстановления функции плотности.

В качестве альтернативного варианта автор предлагает использовать непараметрическое восстановление функции плотности, наиболее известным вариантом является оценка Розенблата-Парзена:

N 1 x - xi x = K, ( ) N i=1 где – ширина ядра, K r – функция ядра. В работе рассматривались различ( ) ные варианты ядерных функций, в том числе Епанечникова, Айвазяна и др.

В п.3.5 представлены результаты проведенных многочисленных вычислительных экспериментов, направленных на исследование работоспособности и применимости предложенных методов адаптивного оценивания в различных условиях засорения. Итогом можно считать выводы и рекомендации, сделанные на основе анализа результатов. В частности, показан результат идентификации устойчивого распределения по характеристической функции и восстановленная функция плотности остатков уравнения регрессии.

В качестве истинной рассматривалась квадратичная зависимость, зашумленная аддитивной ошибкой yi = 0 + 1xi + 2xi2 + i, i =1,..., N, (15) где 0 = 50, 1 = 25, 2 =10, значения входного фактора x выбирались из отрезка [-2,2]. Случайные ошибки i моделировались независимыми и одинаково распределенными с функцией распределения F x = 1- µ F 1 x,0, 1 + µF2 x,0, 2, ( ) ( ) ( ) ( ) где F i x,0, i – функция нормального распределения с математическим ( ) ожиданием, равным 0, и дисперсией 2 ; µ 0,1, i =1,2. Дисперсия [ ] i соответствовала уровню шума 5%, дисперсия 2 – уровню шума 50%, доля выбросов 2%.

На рис.2,а представлены графики действительной и мнимой части характеристической функции восстановленного устойчивого распределения как функции t [-,. Рис.2,б содержит графики выборочной эмпирической и ] восстановленной характеристических функций в комплексной области. На рис.2,в показаны графики эмпирической функции плотности u и функции ( ) плотности восстановленного устойчивого распределения u, остатков, ( ) вычисленных на основе полученных оценок параметров .

0,15 0,Re (t) (u) (t) 0,0,0, (t) 0, 0,(u,) 0,0,0,0,-0,1 0,Im (t) 0,0,-0,0,-0,-3,6 -1,6 0,4 2,-0,-0,15 -5 -3 -1 1 3 a) б) в) Рис.2. Результаты восстановления распределения ошибок регрессии Представленные рисунки позволяют сделать вывод о влиянии наличия в выборке даже небольшой доли выбросов на характеристическую функцию. Так, из рис.2,а и рис.2,б следует наличие мнимой части, что противоречит хорошо известному факту теории вероятности о действительности характеристической функции для центрированных нормально распределенных величин.

Следствием, естественно, является искажение формы восстановленного распределения, что хорошо видно из рис.2,в, где наблюдается некоторая асимметрия. Данные рисунки также свидетельствуют о достаточно хорошем качестве восстановления характеристической функции и плотности искомого распределения ошибок.

Далее рассмотрим результаты сравнительного исследования точности оценивания алгоритма, основанного на эмпирической характеристической функции, алгоритма с восстановлением устойчивого распределения (Koutrouvelis I.A.), а также модифицированного алгоритма Press S.J. и стандартного МНК. Исследование проводилось при разном уровне засорения µ.

Варьирование µ будет приводить к изменению степени отклонения распределения случайной ошибки от нормального распределения (при µ, близких к 0.5, можно говорить о существенном изменении формы). Дисперсии 2 и 2 такие же, как и ранее, µ изменялось от 0 до 0.5 с шагом 0.02.

1 Результаты оценивания параметров уравнения (15) представлены на рис. 3, где ) ист - показано изменение для рассматриваемых алгоритмов. Объем ист Lвыборки – 500. Результаты усреднены по 600 вычислительным экспериментам.

1,Уст. распр1,2 Характ. функ Уст. распрМНК 0,0,0,0,Рис. 3. Точность оценивания в зависимости от µ ( N = 500) Из рис.3 видно, что алгоритм с идентификацией устойчивого распределения на основе подхода Koutrouvelis I.A., (линия «Уст.распр1») при малой степени засорения выбросами несколько превосходит алгоритм,,,,,,,,,,,,,, основанный на использовании эмпирической характеристической функции (линия «характ. функ»). Начиная примерно с µ = 0.28 наблюдается обратная картина, что, видимо, связано с потерей унимодальности эмпирического распределения случайных ошибок, которая приводит к появлению у восстановленной функции плотности дополнительных «пиков» на «хвостах». В этом случае ММП не всегда удается найти глобальный экстремум, что сказывается на точности оценок алгоритма с эмпирической характеристической функции. Устойчивые распределения, как показано Золотаревым В.М., унимодальны, что является большим преимуществом с точки зрения использования ММП. Однако очевидно, что качественно описать неунимодальное распределение унимодальным возможно далеко не всегда, что приводит к примерно одинаковому качеству оценок, полученных всеми рассматриваемыми здесь алгоритмами (кроме МНК), при больших µ. Тем не менее лучшие результаты показывает алгоритм, основанный на модифицированном подходе Press S.J. (линия «Уст.распр2»). Причем его преимущество при малых и средних уровнях засорения выборки выбросами достаточно существенное.

Четвертый раздел посвящен задаче планирования эксперимента. В п.4.приведена постановка задачи, в п.4.2 проведено исследование влияния выбросов на информационную матрицу Фишера, используемую в МНК [8]. В частности отмечено, что наличие гетероскедастичности, которая может быть следствием присутствия в выборке грубых ошибок наблюдений, оказывает влияние на значения функционалов от информационной матрицы и, как следствие, на оптимальность планов. В связи с этим в п.4.3 предложены алгоритмы формирования оценочных подмножеств вычислительной схемы LTS-оценивания, учитывающие индивидуальную информативность наблюдений и обеспечивающие максимально возможное в условиях имеющихся данных приближение фактически используемого плана эксперимента к оптимальному [8,10,11].

Однако на практике может встречаться не только неоднородность дисперсии, но и неоднородность распределения ошибок на области планирования. Классические алгоритмы построения оптимальных планов эксперимента основаны на предположении о нормальности распределения ошибок наблюдений и не позволяют синтезировать планы в таких условиях. В связи с этим в п.4.4 посредством перехода к универсальным семействам распределений (обобщенному лямбда-распределнию) автору удалось разработать алгоритмы планирования, учитывающие отмеченную неоднородность распределения. В их основе лежит следующее сформулированное и доказанное утверждение [29].

Утверждение. Для регрессионной модели (1) с независимыми и имеющими лямбда–распределение ошибками i, i =1,..., N, элементы информационной матрицы вычисляются по следующей формуле:

N M = - f (xij ) fk (xik ) g (i)g(i)dui, j =1...p, k =1...p. (16) jk j i= Далее обозначим интеграл из (16) через (xi) = - gi(i)gi(i)dui, i =1,..., N и учтем, что при проведении наблюдений в соответствии с заданным планом соотношение (16) удобнее будет записать через весовые коэффициенты:

r M = - pi f (xij ) fk (xik ) g (i)g(i)dui, j =1...q, k =1...q jk j i=r или M = - ( ) pi f (xij ) fk (xik ) xi, что в точности совпадет с классической jk j i=формулой (Федоров В.В.). Этот факт весьма интересен, поскольку позволяет говорить о некотором обобщении функции эффективности. В классическом варианте речь шла только о нормальном распределении и функция эффективности определялась (xi) =, i =1,...,r 2(xi ) и давала возможность учитывать лишь неоднородность по дисперсии. Здесь, при обобщенном лямбда-распределении ошибок функция эффективности дает возможность учитывать неоднородность формы распределения, что, естественно, существенно расширяет область применения теории планирования эксперимента.

В п.4.5 приведены результаты работы представленного алгоритма в разных условиях, в том числе при наличии неоднородности в дисперсии случайной компоненты на области планирования и при неоднородности распределения.

Прежде всего, необходимо отметить, что при отсутствии каких-либо неоднородностей интеграл в (16) можно вынести за знак суммы и его значение будет лишь постоянным сомножителем, не влияющим на получаемые планы.

Однако даже при появлении неоднородной дисперсии с нормальным распределением функция эффективности уже не является постоянной на всей области планирования, и элементы информационной матрицы можно вычислять с использованием (16), поскольку нормальное распределение также представимо в классе лямбда-распределения.

Данное утверждение стало теоретической основой при построении алгоритмов синтеза оптимальных планов для D- и A-критериев оптимальности.

Перейдем к рассмотрению результатов. Пусть истинная зависимость представлена в простейшем виде, как модель парной регрессии:

y i = 0 + 1xi1 + i, i =1,..., N, где возможные значения входного фактора xi1 находятся в отрезке [-1,1, ] ист = (25,25)T – истинные значения неизвестных параметров.

Поскольку область планирования – это отрезок [-1,1, предположим, что, ] например, на участках ) ( ] [-1,-0.5 и 0.5,1 ошибки имеют дисперсию равную 1, а на отрезке [-0.5,0.5 ошибки имеют дисперсию равную 0.5. Применение ] разработанного алгоритма для критерия D-оптимальности привело к хорошо известному результату (Федоров В.В. Теория оптимального эксперимента), представленному в табл. 1. Приведенное в последнем столбце значение произведения (x)d(x,*) свидетельствует об оптимальности планов. Это подтверждает корректность работы алгоритма.

Таблица Оптимальные планы при нормальном распределении ошибок (x)d(x,*) Распределение ошибок Оптимальный план GLD 0,1.408,0.161,0.161, x ( ) [-1,-0.) -1 -0.5 0.5 GLD 0,1.991,0.161,0.161, x ( ) [-0.5,0.] * = 0.25 0.25 0.25 0.25 2.0 GLD 0,1.408,0.161,0.161, x 0.5,( ) ( ] Далее рассмотрим ситуацию, когда ошибки имеют отличное от нормального распределение. Были взяты следующие варианты обобщенного лямбда–распределения: с левой асимметрией GLD1(0,1,0.002,0.5), с правой асимметрией GLD2(0,1,0.5,0.002) и симметричное GLD3(0,1,0.5,0.5) и близкое к распределению Вейбулла GLD4(0,1,0.04,0.3). В результате работы алгоритма были синтезированы оптимальные планы для следующих трех случаев распределения ошибок i :

I. GLD1 при x ) [ ] [-1,0 и GLD2 при x 0,1 ;

II. GLD1 при x ) [-0.5,0.5 и GLD2 при x 0.5,1 ;

[-1,-0.5, GLD3 при x ] ( ] III. GLD1 при x ) [-0.5,0, GLD4 при x 0,0.) [ ] [-1,-0.5, GLD3 при x и GLD2 при x 0.5,1.

( ] На рис. 4.6, а)-в) представлены графики функции эффективности, вычисленной для данных ситуаций через интеграл. Естественно, что здесь не следует отождествлять значения функции эффективности с величинами, обратными дисперсии ошибки. В данном случае она характеризует неоднородность формы распределения на области планирования.

Из рис. 4,а) видно, что функция эффективности является постоянной на всей области планирования, поэтому оптимальные планы, полученные по предложенному алгоритму, будут совпадать с классическими. В случаях, представленных на рис. 4,б) и 4,в), функция эффективности не является постоянной, что является следствием неоднородности распределений на различных участках области планирования.

а) Для случая I б) Для случая II в) Для случая III Рис. 4. Графики функции эффективности В табл. 2 представлены результаты работы нового алгоритма планирования эксперимента для всех только что описанных случаев. Отметим, что в случае I, как и предполагалось, синтезированный авторским алгоритмом план совпал с классическим. В случаях II и III построенные оптимальные планы уже отличаются от классических. Также для всех трех случаев в последнем столбце приведено значение (x)d(x,*), которое свидетельствует о выполнении условия D-оптимальности.

Таблица Синтезированные планы эксперимента (x)d(x,*) Распределение ошибок Оптимальный план -1 * = Случай I 2.0 0.5 0.5 -1 -0.5 0.5 * = Случай II 2.0 0.30 0.20 0.19 0.31 -1 -0.5 * = Случай III 2.0 0.12 0.39 0.49 Далее приведем результаты, подтверждающие эффективность полученных планов. Для оценки эффективности планов воспользуемся величиной:

M (0) = r 100%, (17) M (*) где 0 – классический оптимальный план эксперимента. В качестве итоговых m показателей точности оценивания = ист - i, эффективности плана и ( ) i i=определителя дисперсионной матрицы использовались усредненные по 1вычислительным экспериментам значения. Результаты представлены в табл. 3.

Кроме МНК оценивание также проводилось адаптивным методом, основанным на лямбда-распределении.

Таблица Точность оценивания параметров регрессии на построенных планах № Метод наименьших квадратов Метод адаптивного оценивания , % -1 - det M (0) det M (*) I 2.654E-02 2.851E-01 2.654E-02 4.564E-02 0,II 9.650E-02 5.188E+00 2.272E-02 8.439E-03 5,III 1.213E-01 3.560E+00 6.798E-02 8.589E-02 3,По табл.3 видно, что в случае I качество оценок параметров для МНК и адаптивного метода практически совпадает. Значения определителя дисперсионной матрицы также близки. Это объясняется постоянством функции эффективности. Однако при неоднородности распределения случайной компоненты на области планирования применение адаптивного метода на синтезированных планах дает более точные результаты, выигрыш в среднем составляет 2.34 раза, и оценки обладают наименьшей общей дисперсией. Кроме того, построенные планы являются более эффективными, что подтверждается значением показателя (17), приведенным в таблице.

В пятом разделе описывается разработанная программная система устойчивого и адаптивного оценивания, а также планирования эксперимента [25,28]. В ее состав включены все рассмотренные в настоящей работе алгоритмы устойчивого и адаптивного оценивания параметров регрессионных зависимостей, а также алгоритмы планирования эксперимента. Полный перечень реализованных в программной системе методов представлен в табл.4.

Интерфейс данной программной системы реализован в среде программирования C++ Builder 6, которая, как известно, предоставляет средства визуального программирования, использование которых существенно ускоряет процесс разработки оконного диалога с пользователем.

Таблица Реализованные методы по режимам работы программной системы Идентификация Моделирова- Оценивание параметров Планирование распределения ние регрессионных моделей эксперимента остатков Метод Монте- • Метод • Классические методы: • Построение Карло:

моментов для МНК; плана, близкого • Равномерное идентификации ММП с нормальной к А- и Dраспределение; GL-распределе- функцией плотности. оптимальному ния; для схемы LTS• Нормальное • Устойчивые методы на основе оценивания.

распределение; • -Идентифика- МНК:

ции типа FAST-LTS • Классический • Смесь двух кривой С-шаг алгоритм нормальных Пирсона. LTS с расстоянием построения А- и распределений Махаланобиса; D-оптимального. • Проверка унимодаль- LTS с робастным расстоянием; плана.

LTS с расстоянием Кука;

ности • Обобщенный LTS с расстояниемВелша-Куха распределения алгоритм LMS.

остатков. построения А- и • Другие устойчивые методы: D-оптимального Знаковый; плана с Ранговый; использованием Квантильная регрессия: GL на основе критерия знаков; распределения.

на основе МНМ;

на основе МНК.

• Адаптивные методы на основе:

Разложения плотности по моментам:

Разложение Шарлье;

Разложение Эджворта.

Универсальных распределений:

GL-распределение;

Кривые Пирсона.

Характеристической функции:

По эмпирическому аналогу;

С идентификацией устойчивого распределения.

Ядерных оценок:

Квадратическая функция;

Ядро Епанечникова;

Гауссово ядро;

Ядро Айвазяна;

Прямоугольное ядро;

Отдельные вычислительные алгоритмы, реализующие те или иные методы оценивания, создавались как самостоятельные WINDOWS-приложения. Такой подход признан автором более практичным из-за наличия возможностей отдельного компилирования и отладки модулей, а также их автономного использования. Последнее весьма удобно при проведении вычислительных экспериментов для исследований алгоритмов и вычислительных схем. Язык разработки вычислительных алгоритмов Си с элементами Си++.

Интеграция вычислительных модулей в головную программу осуществлялась посредством динамического создания новых процессов.

Оперативная память под необходимые массивы также выделяется динамически, следовательно, ее требуемый объем полностью определяется размерностью задач и числом проведенных экспериментов. Размеры массивов, как правило, задаются пользователем в ходе определения модели и исходных данных либо вычисляются во время выполнения программы. Общий размер программной системы 8,48 Мб. Минимальные требования к системе – операционная система Microsoft Windows 9X/NT/2000/2003/XP.

В шестом разделе приведено решение практических задач технической и экономической направленности c использованием предложенных алгоритмов устойчивого и адаптивного оценивания параметров, а также планирования эксперимента. Результаты решения практических задач с использованием разработанных методов опубликованы в [4,14-17,26].

В п.6.1. рассматривается задача оценивания величины провиса проводов воздушных линий по данным лазерного сканирования. Результаты были использованы при проектировании генерального плана объектов ВОХР южного портала тоннеля №6 и северного портала тоннеля №7 проекта «Строительство второго сплошного пути на участке Сочи–Адлер Северо-Кавказской железной дороги» (улучшение инфраструктуры железнодорожной линии Туапсе–Адлер).

В п.6.2. рассматривается задача планирования уточняющих наблюдений для контроллинга состояния воздушных линий, решение которой получено на основе авторских алгоритмов планирования эксперимента, учитывающего особенности распределения случайной ошибки на разных участках проводов.

В п.6.3. представлены результаты применения устойчивых (LTS) и адаптивных методов в задаче построения уравнений зависимости расходов на продовольственные, непродовольственные товары и услуги от потребительских расходов по данным бюджетных обследований домохозяйств НСО.

В заключении приведены основные результаты, полученные в диссертационной работе. Они сформулированы в виде следующих положений.

1) Проведено существенное развитие сферы корректного применения метода максимального правдоподобия при оценивании линейнопараметризованных регрессионных уравнений за счет перехода к универсальным семействам распределений (обобщенное лямбдараспределение, кривые Пирсона, устойчивые распределения).

2) Доказано утверждение, на основе которого впервые разработаны алгоритмы вычисления информационной матрицы и планирования экспериментов для распределений ошибки, представимых в семействе обобщенного лямбда-распределения.

3) Предложено и исследовано семейство новых алгоритмов формирования оценочных подмножеств, основанных на учете концентрации и индивидуальной информативности наблюдений.

4) Предложен оригинальный алгоритм выявления гетероскедастичности, основанный на идеях дисперсионного анализа. С помощью статистического моделирования проведено сравнительное исследование с другими алгоритмами обнаружения гетероскедастичности по мощности.

5) Разработана программная система устойчивого и адаптивного оценивания и планирования экспериментов для линейно-параметризованных регрессионных зависимостей.

6) Предложены, разработаны и исследованы алгоритмы оценивания параметров регрессионного уравнения, основанные на разложении функции плотности по моментам, а также использующие непараметрическую оценку неизвестной функции плотности по эмпирическому аналогу характеристической функции и на основе ядерных оценок.

7) Сформулированы и доказаны утверждения о ковариационных матрицах порядковых статистик для равномерного и экспоненциального распределений.

8) Предложены и исследованы алгоритмы, обобщающие идею квантильной регрессии на другие функции потерь, а также алгоритм идентификации моделей компонент дисперсии знаковым методом.

9) С помощью разработанных алгоритмов решены практические задачи технического и экономического содержания.

Основные научные результаты опубликованы в следующих работах:

1. Тимофеев В.С., Андрианова Е.Л. Случайный поиск в задаче знакового оценивания параметров линейных регрессионных моделей. // «Актуальные проблемы электронного приборостроения-2000».– Новосибирск:

НГТУ,2000.–Т.3.–С.83-85.

2. Денисов В.И., Тимофеев В.С. Знаковый метод: преимущества, проблемы, алгоритмы //Научн.вестн.НГТУ.–Новосибирск:НГТУ.-2001.-N1(10).-С.21-35.

3. Тимофеев В.С., Фаддеенков А.В., Щеколдин В.Ю. Исследование алгоритмов оценивания параметров модели со структурированной ошибкой с использованием знакового метода //Научн. вестн. НГТУ. – Новосибирск:

НГТУ.- 2005. –N2(20).-С.71-84.

4. Тимофеев В.С., Шипкова О.Т. Исследование социально-экономической детерминации преступности в региональном разрезе // Вопросы статистики.

– М.:2006, N3.-С.56-61.

5. Тимофеев В.С., Щеколдин В.Ю. Об оценивании статистических характеристик при анализе многофакторных объектов //Научн. вестн. НГТУ.

– Новосибирск: НГТУ.- 2006. –N3(24).-С.47-58.

6. Тимофеев В.С., Вострецова Е.А. Устойчивое оценивание параметров регрессионных моделей с использованием идей метода наименьших квадратов //Научн.вестн. НГТУ.–Новосибирск:НГТУ.-2007.–N2(27).-С.57-67.

7. Тимофеев В.С., Фаддеенков А.В. Исследование критериев обнаружения гетероскедастичности в регрессионных моделях //Научн. вестн. НГТУ. – Новосибирск: НГТУ.- 2007. –N4(29).-С.3-14.

8. Денисов В.И., Тимофеев В.С. Исследование влияния грубых ошибок наблюдений на информационную матрицу Фишера // Сибирский журнал индустриальной математики. – Новосибирск: СО РАН, 2008, Т. XI, № 2(34).

– С.65-73.

9. Денисов В.И., Тимофеев В.С. Оценивание параметров регрессионных зависимостей с использованием аппроксимации Грама-Шарлье // Автометрия. – Новосибирск: СО РАН, 2008.– Т.44, №6, С.3-12.

10. Тимофеев В.С., Вострецова Е.А. Адаптация алгоритмов метода наименьших взвешенных квадратов к использованию на оптимальных планах эксперимента //Высокие технологии, фундаментальные и прикладные исследования, образование. Сб. трудов пятой междунар. научн.-практич.

конф. СПб., 28-30 апр. 2008г. – СПб.: Политехн. ун-т, 2008. -Т.12.-С.120-121.

11. Тимофеев В.С., Вострецова Е.А. Использование алгоритмов планирования эксперимента в схеме LTS-оценивания //Научн. вестник НГТУ. – Новосибирск:НГТУ. – 2009. – N1(34). –С.95-106.

12. Денисов В.И., Тимофеев В.С. Построение алгоритмов оценивания параметров уравнения квантильной регрессии //Научн. вестн. НГТУ. – Новосибирск:НГТУ.- 2009. –N2(35).-С.13-22.

13. Денисов В.И., Тимофеев В.С., Щеколдин В.Ю. Применение теории канонических моментов для оценивания плотности случайной величины, распределенной на отрезке // Вычислительные технологии. – Новосибирск:

Изд-во СО РАН, 2009.– Т.14, №4, С.16-27.

14. Колесникова А.Ю., Скосырский В.А., Тимофеев В.С., Храмцова О.В., Чистяков В.М. Оценка доступности социально-значимых товаров для малообеспеченного населения // Сибирская финансовая школа. – Новосибирск, Изд-во САФБД. – 2009.– N2(73). – C.24-30.

15. Тимофеев В.С., Колесникова А.Ю. Прогнозирование продаж предприятия розничной торговли // Экономика и математические методы. – М.: Наука, 2009.– Т.45, №3. – С.48-63.

16. Тимофеев В.С., Фаддеенков А.В., Щеколдин В.Ю. Эконометрика. Учебник.

– Новосибирск: НГТУ, 2009.- 346с.

17. Тимофеев В.С., Колесникова А.Ю. Идентификация моделей зависимости спроса от дохода в рамках неоклассической теории. //Доклады академии наук высшей школы РФ. – Новосибирск: НГТУ.- 2009. –N2(13).-С.51-65.

18. Совершенствование методов и алгоритмов анализа сложных многофакторных объектов /А.Ю.Колесникова, Е.С.Морозова, В.С. Тимофеев, Е. А. Хайленко // Отчет о НИР / НГТУ. Каф. ТР. - №ГР 02201150649. - Новосибирск, 2009. - 101 с.

19. Тимофеев В.С. Оценивание параметров регрессионных зависимостей с использованием кривых Пирсона. Ч.1 //Научн. вестник НГТУ. – Новосибирск: НГТУ. – 2009. – N4(37). –С.57-66.

20. Тимофеев В.С. Оценивание параметров регрессионных зависимостей с использованием кривых Пирсона. Ч.2. //Научн. вестник НГТУ. – Новосибирск: НГТУ. – 2010. – N1(38). –С.57-62.

21. Тимофеев В.С. Оценивание параметров регрессионных зависимостей на основе характеристической функции. //Научн. вестник НГТУ. – Новосибирск: НГТУ. – 2010. – N2(39). –С.43-52.

22. Тимофеев В.С. Ядерные оценки плотности при идентификации уравнений регрессии //Научн. вестник НГТУ.– Новосибирск: НГТУ.–2010.–N3(40).– С.41-50.

23. Денисов В.И., Тимофеев В.С. Повышение качества идентификации устойчивых распределений и оценивание параметров регрессий //Научн.

вестник НГТУ. – Новосибирск: НГТУ. – 2010. – N4(41). –С. 3-12.

24. Тимофеев В.С., Хайленко Е.А. Адаптивное оценивание параметров регрессионных моделей с использованием обобщенного лямбда - распределения // Доклады академии наук высшей школы РФ. – Новосибирск: Изд-во НГТУ.- 2010. –N2(15).-С.25-36.

25. Тимофеев В.С., Хайленко Е.А. Программная система устойчивого и адаптивного оценивания параметров регрессии и планирования эксперимента // «Актуальные проблемы электронного приборостроения» АПЭП-2010: Материалы X междунар. конф., Новосибирск, 22-24 сент.

2010г. - Новосибирск: Изд-во НГТУ, 2010. -Т.6.- С.73-79.

26. Совершенствование методов и алгоритмов анализа сложных многофакторных объектов / В. С. Тимофеев, А. Ю. Колесникова, Е. С. Морозова, Е. А. Хайленко // Отчет о НИР / НГТУ. Каф. ТР. - №ГР 2201156798. - Новосибирск, 2010. - 80 с.

27. Денисов В.И., Тимофеев В.С. Устойчивые распределения и оценивание параметров регрессионных зависимостей //Известия Томского политехнического университета. – Томск: Изд-во ТПУ. – 2011. – Т.318, №2.

– С.10-15.

28. Пат. 2011614692. Программная система устойчивого и адаптивного оценивания параметров регрессионных моделей и планирования эксперимента /Денисов В.И., Тимофеев В.С., Хайленко Е.А., НГТУ - 2011613035; заяв. 28.04.11; опуб. 15.06.11. - 1 c.

29. Тимофеев В.С., Хайленко Е.А. Оптимальное планирование эксперимента для регрессионных моделей с обобщенным лямбда-распределением ошибок //Научн. вестник НГТУ. – Новосибирск:НГТУ. – 2011. – N1(42). –С. 27-37.






© 2011 www.dissers.ru - «Бесплатная электронная библиотека»

Материалы этого сайта размещены для ознакомления, все права принадлежат их авторам.
Если Вы не согласны с тем, что Ваш материал размещён на этом сайте, пожалуйста, напишите нам, мы в течении 1-2 рабочих дней удалим его.