WWW.DISSERS.RU

БЕСПЛАТНАЯ ЭЛЕКТРОННАЯ БИБЛИОТЕКА

   Добро пожаловать!


На правах рукописи

РОДИОНОВА ОКСАНА ЕВГЕНЬЕВНА ИНТЕРВАЛЬНЫЙ ПОДХОД К АНАЛИЗУ БОЛЬШИХ МАССИВОВ ФИЗИКО-ХИМИЧЕСКИХ ДАННЫХ

АВТОРЕФЕРАТ

диссертации на соискание ученой степени доктора физико- математических наук

01.04.17 – Химическая физика, в том числе физика горения и взрыва Москва 2007

Работа выполнена в Институте химической физики им Н.Н. Семенова Российской Академии Наук

Официальные оппоненты: доктор химических наук профессор Разумовский С.Д.

доктор физико-математических наук профессор Дементьев В.А доктор физико-математических наук профессор Спивак С.И.

Ведущая организация Институт аналитического приборостроения РАН

Защита состоится « » ____________ 2007 г. в « » часов на заседании диссертационного совета Д 002. 012. при Институте химической физики им. Н.Н. Семенова РАН, по адресу: 119991, г. Москва, ул. Косыгина 4, ИХФ РАН

С диссертацией можно ознакомиться в библиотеке Института химической физики им. Н.Н. Семенова РАН

Автореферат разослан « » ___________ 2007 г.

Ученый секретарь диссертационного совета доктор физико-математических наук Фролов С.М.

ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ



Актуальность темы. По мере совершенствования экспериментальной базы, химическая физика начинает оперировать с большими массивами данных, которые содержат измерения сотен и тысяч образцов при учете большого числа действующих факторов. Математическая обработка становится неотъемлемой составляющей сложного физического или химического эксперимента. В некоторых случаях, именно способы извлечения полезной информации из измеренных данных способствуют распространению той или иной техники эксперимента. Начиная с 70-х годов прошлого века, для анализа подобных данных используется хемометрический подход, суть которого состоит в двух принципах. Во-первых, это понижения размерности задачи с помощью проекционных методов, и, во-вторых, это использование формальных, линейных моделей для объяснения связей в данных. Ярким примером может служить инфракрасная спектроскопия в ближней области, которая до появления хемометрического подхода почти не использовалась и считалась малоперспективной. Однако, использование такого подхода связано с двумя проблемами, которые не нашли еще своего окончательного решения. Во-первых, – это оценка неопределенности получаемых результатов, а вовторых, – ограничение области применимости методов. На решение этих двух важных задач и направлено это исследование.

Главной идеей работы является интервальный подход, т.е. последовательное использование принципа ограниченности погрешностей. Этот принцип был впервые предложен Л. Канторовичем еще в 1962 г, однако до сих пор эта идея не получила должного признания и развития. В представленной работе главное внимание уделяется классической проблеме количественного анализа – решению задачи калибровки. При этом интервальный подход сочетается с проекционными методами, что дает в результате интервальный прогноз искомого химического показателя. Этот метод был назван простым интервальным оцениванием (ПИО). При его применении удается решить две задачи: установить область неопределенности прогноза и построить классификацию образцов, которая позволяет очертить область применения построенной ПИО модели.

Цель работы состоит:

- в разработке теории метода ПИО: выяснение условий существования и свойств решения, построение линейной интервальной калибровки, определение индивидуальной неопределенности прогноза, построение классификации образцов, позволяющей очертить рамки, в которых может использоваться построенная модель;

- в создании алгоритмов анализа данных и написание на их базе компьютерной системы для обработки данных и интерпретации результатов;

- в построении методологии совместного применения проекционных методов и ПИО при решении важных теоретических и практических задач интерпретации больших массивов физико-химических данных.

Научная новизна работы определяется следующими результатами:

1) Предложен новый метод построения линейных калибровочных зависимостей – простое интервальное оценивание, сочетающий в себе проекционный подход с интервальным анализом погрешностей. Показано, что этим методом можно обрабатывать большие массивы мултиколлинеарных экспериментальных данных, причем результат прогноза представляется в интервальной форме 2) Разработаны теоретические основы метода ПИО. Исследованы его основные свойства. Разработан новый подход к оцениванию индивидуальной неопределенности (погрешность измерения и погрешность моделирования) прогноза для каждого образца. Показано, что этот метод можно считать свободным от вида распределения погрешности.

3) Разработан новый подход к классификации образцов, позволяющий естественным образом очертить рамки, в которых может использоваться построенная модель. Это достигается с помощью определения статуса образцов различающего: надежные «внутренние образцы», существенные «граничные образцы», подозрительные «внешние образцы», выпадающие «абсолютно-внешние образцы» и разрушительные «выбросы».

Научная и практическая значимость работы состоит в том, что с помощью разработанного метода и с применением компьютерной программы SIC были решены несколько важных теоретических и практических задач интерпретации экспериментальных данных. В их числе:

- сопоставление результатов, полученных методом ПИО, с традиционными регрессионными доверительными оценками – на примере прогнозирования сравнительной активности антиоксидантов;

- создание нового метода выбора представительного или влиятельного поднабора – на примере исследовании качества зерна с помощью ИК спектроскопии в ближней области;

- разработка нового метода в области аналитического контроля процессов – метод многомерной статистической оптимизации процессов, проиллюстрированного практическим примером;

- построение нового подхода к решению задачи дискриминации – интервальный вариант метода ПЛС дискриминации – на примере распознавания фальсифицированных лекарств с помощью ИК спектроскопии в ближней области;

- сопоставление предложенной в работе классификации образцов с известным методом замкнутых оболочек – на примере определения следовых концентраций нефти в воде с помощью акустических измерений.

Достоверность результатов обеспечена высокой точностью используемых теоретических и численных методов, согласованностью аналитических и численных методов решения задач, сопоставлением теоретических и экспериментальных результатов, а также сравнением с результатами, полученными другими авторами.

Автором выносится на защиту:

интервальный подход, предназначенный для анализа больших массивов экспериментальных данных, решения линейных задач калибровки и прогнозирования.

Основу подхода составляет метод простого интервального оценивания (ПИО), который позволяет:

• вычислять оценки неизвестных параметров модели в виде области в пространстве параметров;

• вычислять результаты прогноза отклика в интервальном виде;

• создать метод классификации статуса образцов и интерпретации прогнозных интервалов;

• построить процедуру распознавания исследуемых образцов;

• разработать метод формирования представительной выборки.

Компьютерная программа SIC для решения задач линейной калибровки.

Методология применения интервального подхода для решения задач интерпретации физико-химических данных, раскрытая на следующих примерах:

• анализ кинетических данных на примере оценки активности антиоксидантов;

• построение калибровки и классификации статуса образцов в задаче определения следовых концентраций нефти в воде с помощью акустических измерений;

• распознавание фальсифицированных лекарств с помощью инфракрасной спектроскопии в ближней области;

• построения моделей пассивной и активной оптимизации при аналитическом контроле процессов;

• формирование представительной выборки на примере определение влажности зерна с помощью инфракрасной спектроскопии в ближней области.

Апробация работы. Основные результаты диссертации докладывались и обсуждались на следующих конференциях и симпозиумах: Всероссийской конференции «Математические методы в химии» (Санкт-Петербург 2003), Gordon Research Conference (Williamston, 2001), XVI Менделеевском съезде по общей и прикладной химии (Санкт-Петербург, 1998), Scandinavian Symposiums on Chemometrics (Lahti, 1997, Porsgrunn, 1999; Copenhagen, 2001, Lappeenranta 2007), Второй международной конференции «Экспериментальные методы в физике» (Барнаул, 2001), международных конференциях CONFERENTIA CHEMOMETRICA (Budapest, 1997; Tata, 2002), Международной школе-конференции «Современные методы анализа многомерных данных» (Кострома, 2002, Барнаул, 2003, Пушкинские Горы, 2004, Черноголовка, 2005, Самара, 2006), Chemometrics in Analytical Chemistry (CAC2004, Лиссабон, 2004), Symposium on Computer Applications and Chemometrics in Analytical Chemistry (SCAC2004, Балатон, 2004), международной конференции "Идентификация систем и задачи управления" (SICPRO 05, Москва 2005), всероссийском (с международным участием) совещании по интервальному анализу (INTERVAL-06, Петергоф 2006), международном конгрессе по аналитическим наукам (ICAS-2006, Москва 2006).

Публикации. Основные результаты работы опубликованы в 31 статье (рецензируемых журналах, книгах и сборниках) и 36 тезисах докладов на международных и всероссийских конференциях (Общее число научных публикации автора 67).

Структура и объем работы. Диссертационная работа изложена на 272 страницах, содержит 85 рисунков и 22 таблицы. Диссертация состоит из введения, двенадцати глав с описание теоретических и прикладных исследований, выводов, приложения с описанием основных алгоритмов и списка литературы из 296 наименований.

СОДЕРЖАНИЕ РАБОТЫ

Введение Обосновывается актуальность работы и формулируются основные цели исследования. Учитывая, что проекционные формальные методы, называемые хемометрическими, мало известны в России, в первой части представлены основные принципы хемометрики. Своей главной целью такой подход ставит решение конкретных, в основном физико-химических задач, для чего используются уже существующие или разрабатываются новые математические и статистические методы и алгоритмы. Этим и объясняется растущая востребованность хемометрических методов.

Необходимо учитывать, что в русском языке до сих пор не сложилась общепризнанная система хемометрических терминов, а некоторые понятия переводились ранее неверно или неточно. Возможно в дальнейшем, при более широком применении хемометрики в практике, термины, приведенные в этой работе, претерпят изменения.

Описание основных понятий многомерной калибровки, изложение метода простого интервального оценивания и его применение к задачам количественного анализа рассматриваются в трех частях диссертационной работы.

ЧАСТЬ I. МНОГОМЕРНЫЕ ДАННЫЕ И ФОРМАЛЬНЫЕ МОДЕЛИ В этой части в систематическом виде вводятся основные понятия и объекты, с которыми работает исследователь при обработке результатов физического или химического эксперимента. Так же приводится краткое описание базовых методов, которые используются в дальнейшем в работе, совместно с новым интервальным подходом.

1. Данные и модели, используемые в химическом анализе Экспериментальные данные – это основной объект, рассматриваемый в работе. Простейший случай – это одномерные данные, т.е. просто одно число, например, значение оптической плотности, которое может быть получено на монохроматическом фотометре. Более сложный случай – это набор из нескольких измерений, относящихся к одному образцу. В этой работе, по большей части, анализируется наиболее часто встречающийся тип данных – двухмодальные данные.

Типичный пример – это набор спектров, снятых для I образцов на J длинах волн.

Такие данные представляются матрицей X размерности (IJ). При этом каждая строка в такой матрице представляет объект (в данном случае, образец), а каждый столбец – переменную (длину волны). Отнесение данных к объектам (образцам) или переменным (каналам) имеет большое значение для их интерпретации. В последнее время большое внимание уделяется и более сложным, т.н. многомодальным (n-way) наборам данных. Пример таких данных рассматривается в главе 9.

Данные могут объединяться в блоки. Простейший случай – это один блок X.

Такой случай чаще встречается в качественном анализе, например, в задаче разделения спектров и концентраций. Количественный анализ, основанный на регрессионных зависимостях, использует данные, состоящие из двух и более блоков.

Блок независимых переменных, или предикторов, представляется матрицей X размерности (IJ) (например, матрица спектров). Блок откликов представляется матрицей Y размерности (IL) (например, матрица концентраций). Совокупность данных {X,Y} составляет обучающий набор (или набор стандартных образцов), по которым строится калибровочная зависимость Y=XA.

Первым важным принципом является использование многомерного подхода при конструировании экспериментов и анализе их результатов.

Данные всегда (или почти всегда) содержат в себе нежелательную составляющую, называемую шумом. Природа этого шума может быть различной. Что считать шумом, а что – информацией, всегда решается с учетом поставленных целей и методов, используемых для ее достижения. Это второй важнейший принцип.

Шум и избыточность в данных обязательно проявляют себя через корреляционные связи между переменными. При этом погрешности в данных могут привести к появлению не систематических, а случайных связей между переменными.

Понятие эффективного (т.н. химического) ранга и скрытых, латентных переменных, число которых равно этому рангу, является третьим принципом, применяемым при анализе многомерных данных.

2. Методы качественного анализа: исследование, классификация и дискриминация Современные приборы могут производить огромное количество измерений.

Однако доля полезной информации в таком массиве может быть относительно невелика. Для выделения полезной информации, при многомерном подходе, используются методы сжатия данных (в отличие от традиционного подхода, когда из данных выделялись только отдельные особо значимые измерения). Идея этих методов состоит в том, чтобы представить исходные данные, используя новые скрытые переменные. При этом должны выполнятся два условия. Во-первых, число новых переменных должно быть существенно меньше, числа исходных переменных, и, во-вторых, потери от такого сжатия данных должны быть сопоставимы с шумом в данных. Эти методы еще называют проекционными методами, так как их можно интерпретировать как проекцию исходных данных на пространство меньшей размерности, образованное скрытыми (латентными) переменными.

2.1. Метод главных компонент Наиболее популярным способом сжатия данных является метод главных компонент – МГК (K. Pearson, 1901). Он дает основу для других аналогичных методов, а также многих методов классификации.

Метод главных компонент состоит в декомпозиции исходной матрицы X размерности (IJ), т.е. представлении ее в виде произведения двух матриц T, размерности (IK) и P, размерности (JK) K t t X = TP + E = p + E.

(2.1) t k k k =В этом уравнении T называется матрицей счетов. Столбцы tk матрицы T ортогональны, т.е. TtT=diag(k) – диагональная матрица, причем k являются собственными значениями матрицы XtX. P называется матрицей нагрузок, столбцы которой ортонормированны, т.е. PtP=I – единичной матрице. E – это матрица остатков размерности (IJ). Величина K называется числом главных компонент (ГК) и она, обычно, меньше ранга матрицы X.

Выбор числа главных компонент K, проводится с использованием критериев, показывающих точность достигнутой декомпозиции. Величины I I J I J I J 2 2 2 µ =1 (2.2) t x, E =1001- e x , k =1,K, K k ik ij k ij ij i=1 i=1 j=1 i=1 j=1 i=1 j= называются нормированным собственным значением и объясненной вариацией.

Их обычно изображают на графике в зависимости от числа k. Резкое изменение величин (2.2) указывает на нужное значение числа главных компонент. (Уравнения (2.1) не содержат в себе свободного члена, поэтому для декомпозиции данных их следует сначала отцентрировать и, при необходимости, нормировать.) Одним из важнейших преимуществ проекционных методов, в том числе и МГК, является возможность представления сложных данные в более простом виде, так, чтобы исследователь смог «увидеть» результаты экспериментов в простой графической интерпретации. Особое внимание уделяется графикам счетов и нагрузок. На графике счетов каждый образец изображается в координатах (ti, tj), чаще всего – (t1, t2). Близость двух точек означает их схожесть, т.е. положительную корреляцию. Точки, расположенные под прямым углом, являются некоррелированными, а расположенные диаметрально противоположно – имеют отрицательную корреляцию.

График нагрузок применяется для исследования роли переменных. На графике нагрузок каждая переменная отображается точкой в координатах (pi, pj), например (p1, p2). Анализируя его аналогично графику счетов, можно понять, какие переменные взаимосвязаны, а какие независимы.

2.2. Классификация и дискриминация Это весьма широкий класс задач качественного анализа, в которых требуется установить принадлежность образца к некоторому классу. Задачи классификации можно разделить на две большие группы. К первой относятся так называемые задачи без обучения. В них не используется обучающий набор и их можно рассматривать как разновидность исследовательского анализа. Задачи второй группы – классификация с обучением, называются также задачами дискриминации. В них применяется обучающий набор образцов, про который априори известна информация о принадлежности к классам. Одним из наиболее популярных подходов является метод формального независимого моделирования аналогий классов – SIMCA, (S. Wold, 1976). При применении этого метода, каждый класс из обучающего набора независимо моделируется с помощью МГК с разным числом главных компонент K. После этого вычисляются расстояния между классами, а также расстояния от каждого класса до нового объекта. В качестве таких метрик используются две величины. Расстояние d от объекта до класса вычисляется как среднеквадратичное значение остатков e, возникающих при проецировании объекта на класс d = (2.3) e.

j J - K j=Эта величина сравнивается со среднеквадратичным остатком внутри класса d = (2.4) e.

0 ij (I - K -1)(J - K) ij Вторая величина определяет расстояние от объекта до центра класса, и она вычисляется как размах (квадрат расстояния Махаланобиса) K k h =.

(2.5) t k =1 t t k k Здесь k – это проекция нового образца (счет) на главную компоненту k, а tk – это вектор, содержащий счета всех обучающих образцов в классе.

3. Методы количественного анализа: калибровка В задачах количественного анализа участвуют два блока данных. Первый блок X – это матрица аналитических сигналов (например, спектров, хроматограмм, и т.п.). Второй блок Y – это матрица соответствующих химических/физических показателей (например, концентраций). Число строк (I) в этих матрицах равно количеству образцов сравнения, число столбцов (J) в матрице X соответствует числу каналов (длин волн), на которых записывается сигнал, число столбцов (L) в матрице Y равно числу химических показателей, т.е. откликов. Задача многомерной калибровки (ММК) состоит в построении математической модели, связывающей блоки X и Y, с помощью которой можно в дальнейшем предсказывать значения показателей y по новой строке значений инструментального сигнала x.

По виду математических моделей, а, следовательно, и по методам отыскания неизвестных параметров, различают линейную и нелинейную калибровку. В третьей главе подробно рассмотрены линейные методы, кратко представлена нелинейная калибровка, рассмотрены преимущества и недостатки обоих подходов.

Кратко рассмотрены методы многомодальной калибровки.

3.1. Линейная калибровка Для решения задачи многомерной линейной калибровки Y=XA+ (3.1) используются различные проекционные методы, которые помогают преодолевать проблему вырожденности матрицы X и получить устойчивые оценки для неизвестных коэффициентов A. При использовании регрессии на главные компоненты – РГК, процедура калибровки осуществляется в два этапа: на первом этапе применяется МГК (2.1), который анализирует структуру матрицы X, строит ортогональный базис в пространстве счетов (KJ), проецирует исходные данные на пространство меньшей размерности, тем самым, преодолевая проблему мультиколлинеарности; на втором этапе применяется множественная регрессия, т.е. вычисляются регрессионные коэффициенты отдельно для каждого отклика l:

) t -1 t t a = P(T T) P X y.

(3.2) В настоящее время самым популярным методом многомерной калибровки является метод проекции на латентные структуры – ПЛС (H. Wold, 1973), который во многом схож с РГК. В методе ПЛС декомпозиция матриц X и Y производится одновременно, при этом, если l>1, возможно построение одной общей модели. Такой вариант метода называется ПЛС2. Декомпозиция исходных данных осуществляется по формулам X=TPt+E и X=TWt+E, Y=UQt+F, (3.3) где T и P – матрицы счетов и нагрузок матрицы X. Хотя T и P имеют схожий смысл с МКГ, их свойства иные. Столбцы матрицы T по-прежнему ортогональны, а столбцы матрицы P уже не ортогональны. U и Q – счета и нагрузки для Y.

Матрица возвещенных нагрузок W используется для учета корреляций между X и Y. Столбцы матрицы W образуют ортонормированную систему. Оценки регрессионных коэффициентов имеют вид ) t 1 t A = W(P W)- Q. (3.4) Точность калибровки в проекционных моделях принято характеризовать величиной среднеквадратичного остатка калибровки (RMSEC) I RMSEC = yi - i )2 F, ( (3.5) i=где yi и i соответственно, измеренные и предсказанные значения химического показателя (концентрации) для образцов обучающего набора, i=1,..., I, а F – это число степеней свободы. Точность предсказания характеризуют среднеквадратичным остатком предсказания (RMSEP), вычисляемым аналогично (3.6), но на образцах проверочного набора, где M равно числу таких образцов M RMSEP = (y - i )2 M.

i (3.6) i=Существенным недостатком проекционных регрессионных методов (РГК, ПЛС и пр.) является то, что все эти методы дают результат предсказания в виде точечной оценки, тогда как на практике часто нужна интервальная оценка, учитывающая неопределенность прогноза. Так как оценки параметров в регрессионных моделях, основанных на проекционных методах, не являются независимыми (при K

3.2. Выводы I части Проекционные методы позволяют анализировать результаты экспериментов, представляя очень большие наборы данных в компактной и наглядной форме.

Они дают возможность выявлять существующие содержательные зависимости, как между переменными, так и между образцами. Проекционные методы позволяют эффективно решать задачи многомерной калибровки. Однако при их применении затруднена оценка неопределенности в прогнозе для каждого отдельного образца.

ЧАСТЬ II. МЕТОД ПРОСТОГО ИНТЕРВАЛЬНОГО ОЦЕНИВАНИЯ Простое интервальное оценивание (ПИО) – это метод линейного моделирования и построения интервальных оценок прогноза в многомерной калибровке.

ПИО дает результат в удобном интервальном виде, учитывающем все имеющиеся неопределенности: погрешности измерения предикторов и откликов, погрешности моделирования, и т.п. Кроме того, метод ПИО предоставляет новые возможности для построения содержательной классификации влиятельности образцов.

4. Объяснение ПИО метода Интервальный подход основывается на следующей идее анализа данных – заменить минимизацию суммы квадратов отклонений (метод наименьших квадратов) на систему неравенств, которая решается с помощью линейного программирования. Ранее был выполнен ряд важных прикладных работ, в частности получены интересные результаты по анализу информационной ценности кинетических измерений (С. Спивак, 1984). Кроме того, проводились исследования, направлены на построение интервальной оценки параметров моделей (метод центра неопределенностей), что оказалось малоплодотворным.

Однако, использование такого подхода, может дать интересные результаты, если рассматривать многомерную калибровку (ММК) как задачу построение интервального прогноза отклика. В этом случае результат прогноза сразу имеет вид интервала, поэтому этот метод называется «простым интервальным оцениванием» (ПИО).

ПИО метод значительно отличается от традиционного, привычного регрессионного подхода, применяемого в задачах калибровки. Его «философия», математический аппарат, терминология непривычны для экспериментаторов. Исходя из этого, перед строгим изложением математических аспектов ПИО, приведено его элементарное объяснение, основанное на простейших примерах.

4.1. Почему погрешности ограничены Исходным предположением ПИО является ограниченность погрешности измерения. Такой взгляд на интерпретацию экспериментальных данных нуждается в некотором обосновании. При анализе данных стандартным допущением является принцип нормальности погрешностей. Однако многочисленные исследования показывают, что, обычно, погрешность измерения скорее ограничена, чем нормальна. Характерно, что большинство исследователей не связывают с принципом нормальности факт неограниченности погрешностей. Практика показывает, что на стадии предварительной обработки данных исследователи удаляют величины, лежащие за порогом трех или четырех стандартных отклонений. В то же время, объем данных, с которым работают сейчас экспериментаторы, часто превышает 10+6, так что в них уверенно можно было бы ожидать 20-30 «нормальных» значений, выходящих за порог 4.

Еще один довод в пользу ограниченности погрешностей появляется при применении проекционных подходов. Так как эти методы используют формальные линейные модели, которые приближают исследуемые зависимости лишь на ограниченном участке, то при построении таких моделей, периферийные образцы, которые могут нарушить линейность, обычно удаляются. Это также приводит к ограниченности погрешностей.

4.2. Модельный пример Рассматривается простейшая одномерная регрессия y = xa + . (4.1) Основным предположением метода ПИО является постулат об ограниченности погрешности измерения . Его можно сформулировать следующим образом: никакая погрешность не может превосходить по абсолютной величине некоторую константу , Prob(| | > ) = 0. (4.2) Исследуем выводы, непосредственно вытекающие из этого постулата.





7 b) a) TT6 TTCC+ v CCTT3 – v 2 CCCCПеременная, x Переменная, x 0 1 2 3 4 5 0 1 2 3 4 5 Метод наименьших квадратов. МНК про- Метод ПИО: – интервалы ошибок, грагноз, границы доверительных интервалов ницы предсказанных интервалов Рис. 4.1 Одномерный модельный пример. - обучающие образцы, - проверочные образцы На Рис. 4.1 приведены модельные данные, построенные для регрессии (4.1) при a=1. Погрешность измерения в отклике y моделировалась с использованием равномерного распределения шириной 1.4, т.е., =0.7. В примере использован очень короткий набор данных. Первые четыре образца (C1-C4), являются обуОтклик, y Отклик, y чающим набором, используемым для построения модели. Последние три образца, (T1-T3) – проверочные образцы, для которых строится прогноз. Не смотря на примитивность примера, с его помощью можно объяснить все основные свойства метода ПИО.

МНК калибровка. Используя обучающие данные (xi,. yi), i=1 – 4 (образцы C1-C4) и стандартную методику обработки, можно найти МНК оценку параметра a 4 y 1 = =1.004, где x = x, y = y, (4.3) i i x 4 1 4 и предсказать значения отклика y во всех точках х, как обучающих, так и новых = x.

(4.4) Также можно оценить дисперсию погрешности s = (y - ) = 0.078, (4.5) i i 3 и построить доверительные интервалы для отклика x ± = ± s t3(P). (4.6) 2x Здесь t3(P) –– это квантиль распределения Стьюдента с тремя степенями свободы для вероятности P. Границы доверительных интервалов для P=0.95 приведены на Рис. 4.1а.

ПИО калибровка. Предположим, что значение известно, =0.7 (в большинстве случаев величина заранее не известна). Из (4.1) и (4.2) следует, что для каждой пары (xi,. yi), i=1 – 4, из обучающего набора выполняется условие yi - axi , или в эквивалентной форме aimin a aimax, (4.7) где yi - yi + aimin = aimax =.

(4.8) xi xi Неравенства (4.7) должны выполняться одновременно для всех обучающих образцов. Так может быть только тогда, когда значений параметра a лежат в интервале amin a amax, (4.9) где min min max max min max a = maxa, a = min a ; a = 0.92, a =1.19.

(4.10) i i 1i4 1iИнтервал (4.9) определяет область допустимых значений (ОДЗ) параметра a, т.е. таких значений, которые не противоречат экспериментальным данным.

Когда параметр a меняется в интервале (4.9), то соответствующая величина отклика y=ax в произвольной точке x ограничена значениями:

v- y v+, (4.11) где v- = amin x, v+ = amax x. (4.12) Таким образом, построена интервальная оценка параметра a (4.9), которая ) является аналогом точечной оценки a, получаемой с помощью МНК. Кроме того, найдены и прогнозные интервалы (4.12) для отклика y, справедливые, как для обучающих, так и для любых других (новых) образцов Рис. 4.1b.

Отметим очевидный факт, что построение калибровки методом ПИО в нашем примере «держится» только на двух образцах: C2 и C4. Именно они задают границы (4.9) возможных значений параметра a, так, что мы вправе назвать эти образцы граничными. Прочие обучающие образцы C1 и C3 несущественны; их можно удалить из обучающего набора, и результат останется прежним. Это очень важное свойство метода ПИО, которое находит применение в задаче выбора представительного набора образцов. Показано, что все образцы из обучающего набора в методе ПИО разделяются на две группы: наиболее важные, граничные образцы, на которых держится модель, и несущественные, внутренние образцы, которые можно удалить из обучающего набора и модель при этом не изменится.

4.3. Сходимость интервальных оценок На другом простом примере проведено сравнение интервальной ПИОоценки с обычной оценкой метода максимума правдоподобия. Рассматривается выборка x=(x1,..., xn) из нормального распределения N(, 2), усеченного на интервале [–, +], =. Требуется построить оценку среднего значения при известных значениях и , и исследовать ее сходимость, т.е. зависимость точности от объема выборки n.

Оценка по методу максимума правдоподобия или моментов строится как n среднее по выборке a = x, и ее точность можно охарактеризовать прибли ML i n i=женным доверительным интервалом Prob( a - < h )= P, где ML ML x 0.5(1-P) h (P) = ( ) (4.13) ML n это нормированная полуширина доверительного интервала (ML размах), а x – это квантиль нормального распределения.

С другой стороны, интервальная оценка имеет вид aSIC = [min(xi + ), max(xi - )]. Нормированную полуширину (ПИО размах) этого интервала, соответствующую доверительной вероятности P можно записать в виде ln(1- P) hSIC(P) = - 2 ().

(4.14) n Функции () и () зависят от параметра , который определяет, как проводится отсечение (=0.2, 1, 2, 3, 4). При =0.2 рассматриваемое распределение близко к равномерному, а при =4 практически неотличимо от полного, не усеченного нормального распределения.

В работе показано, что, в рассматриваемой задаче, ПИО-оценка эффективней оценки ММП, начиная с некоторого объема выборки n0. Однако величина nзависит от параметра . Чем ближе усеченный закон распределения к нормальному (большие значения ), тем больше должен быть объем выборки, для того, чтобы ПИО-оценка могла конкурировать с ММП оценкой.

При рассмотрении более сложной, линейной регрессионной модели, величины в (4.13) и (4.14) будут зависеть не от n, а от матрицы плана эксперимента X.

Доказательство аналогичного утверждения в общем случае наталкивается на существенные математические сложности, и поэтому не может быть предъявлено.

С другой стороны, исследование этого вопроса выходит за рамки настоящей работы и может составить, по мнению автора, предмет более глубокого изучения специалистами в области математической статистики.

4.4. Результат главы В работе показано, что основной постулат ПИО метода об ограниченности погрешностей соответствует сложившейся практике обработки экспериментальных данных. Главное (и единственное) предположение об ограниченности погрешности, является не недостатком, а преимуществом метода, так как, с практической точки зрения, оно выглядит более обоснованным, чем традиционное допущение о нормальности, а, следовательно, и неограниченности погрешностей.

Метод ПИО не использует никаких исходных предположений о виде распределения погрешности, кроме ее ограниченности. Тем самым его можно считать методом, свободным от вида распределения.

Показано, что оценки, построенные на основе экстремальных статистик, такие как ПИО интервалы, являются, по-видимому, более эффективными, чем традиционные гладкие оценки.

5. Описание метода ПИО Эта глава представляет систематическое описание метода ПИО, вводятся основные понятия, определения, приводятся доказательства свойств ПИО метода в общем виде.

5.1. Область допустимых значений Рассмотрим модель линейной многомерной калибровки (5.1) y = Xa+, где y – это I-мерный вектор откликов; a – это J-мерный вектор параметров; X – это (IJ)-мерная матрица предикторов (независимых переменных), – это Iмерный вектор погрешностей. Ограниченность погрешности означает, что существует такая величина >0, называемая максимальной погрешностью, что Prob{ > }= 0, и что для любых 0 b} > (5.2) Для любого образца (xi, yi) из обучающего набора, i=1, …, I, согласно условию (5.2), можно записать - t + - + y x a y, y = y - , y = y + .

i i i i i i i (5.3) Естественно, что истинное значение вектора параметров , неизвестно. Однако можно рассмотреть все векторы a, которые удовлетворяют этим неравенствам.

Значения a, которые удовлетворяют условию (5.3) для данного образца i, образуют полосу S(xi, yi) в пространстве параметров RJ. Положение и ширина этой полосы определяются значениями (xi, yi). Вектор параметров a удовлетворяет всем неравенствам (5.3) одновременно тогда и только тогда, когда он принадлежит всем полосам.

Определение 5.Область допустимых значений (ОДЗ) A для параметров a системы (5.1) – это множество в пространстве параметров, образованное пересечением всех полос I J A = < (5.4) IS(x, yi ) или A ={a R : y- Xa < y+} i i=Множество А - это замкнутый выпуклый многогранник. При этом A является случайным множеством, поскольку оно построено с использованием случайных величин y.

5.2. Свойства ОДЗ Показано, что для любой модели, заданной уравнением (5.1), ОДЗ A обладает следующими свойствами.

Свойство 1. Область A является несмещенной оценкой параметра .

Непосредственно из определения ОДЗ следует, что истинное значение всегда принадлежит A: Prob{ A}=1.

В частности, это означает, что если область A состоит только из одного элемента, т.е. A={a}, то этот элемент равен точному значению параметра .

Свойство 2. Область A ограничена тогда и только тогда, когда матрица X имеет полный ранг, т.е. rank X= J Это означает, что если система (5.1) мультиколлинеарна, т.е. rank X < J, то до использования ПИО метода необходимо применить какую-либо процедуру регуляризации. Например, можно использовать стандартный хемометрический подход (раздел 3.1) и спроецировать исходные данные (5.1) на подпространство меньшей размерности y = TPta + f = Tq + f, (5.5) где матрица счетов T имеет полный ранг K

Свойство 3. Область A является состоятельной оценкой параметра , т.е., по построению, Prob{A }=1 при I (5.6) при тех же «слабых» условиях, что и в МНК, т.е. при I .

j Это свойство означает, что при увеличении количества обучающих образцов, область A стягивается к истинному значению .

Свойство 4 Область A образована не всеми образцами из обучающего набора, а только некоторыми, называемыми граничными.

Это означает, что из обучающего набора можно исключить все образцы, кроме граничных, и ОДЗ при этом не изменится.

5.3. Предсказание отклика Используя ОДЗ A, построенную для модели (5.1), можно предсказать отклик y для любого нового вектора x. Если параметр a меняется внутри ОДЗ A, то предсказываемое значение y=xta принадлежит интервалу V = [v-,v+ ] где v- = min(xta), v+ = max(xta).

(5.7) aA aA Интервал V является результатом прогноза методом ПИО. Для его вычисления не требуется строить область A в явном виде, т.к. значения v– и v+ могут быть найдены с помощью стандартных методов линейного программирования, которые используются для нахождения оптимального значения (минимума или максимума) линейной функции на выпуклом замкнутом множестве – многограннике A.

Кроме того, имеется еще интервал калибровки U, который характеризует меру неопределенности в модели U=[ y–, y+ ] (5.8) Величина прогнозного интервал V индивидуальна для каждого образца, а величина интервала калибровки U – общая для всех образов. Взаимное расположение этих интервалов (Рис. 6.2a) характеризует "качество" прогноза.

5.4. Оценка Как правило, величина неизвестна и, вместо нее, используется некоторая оценка b. Согласно определению (5.4), ОДЗ A зависит от b, и A(b) монотонно расширяется с увеличением b – b1 > b2 A(b1) A(b2 ).

(5.9) Очевидно, что A(0) = , A() (5.10) Из (5.9)-(5.10) следует, что существует минимальное значение b, при котором A(b) . Это значение может быть принято в качестве оценки величины bmin = min{b, A(b) } (5.11) Предложенная оценка (5.11) является состоятельной, но смещенной, т.к. bmin для любого количества образцов I в обучающем наборе. Она задает нижний предел всех возможных значений . Однако, помимо bmin необходимо оценить и верхнюю границу максимальной погрешности.

Очевидно, что любая разумная оценка b должна зависеть от двух обстоятельств: (1) числа образцов в обучающем наборе, чем больше образцов, тем ближе величина b к ; (2) тяжести крыльев функции распределения погрешностей, чем крылья легче, тем хуже эта оценка. Применяя традиционный статистический подход к регрессионным остаткам e = y - ( – точечная регрессионная оценка отклика, y – экспериментальное значение), можно построить такую оценку b, что Prob{b>}>P и, при этом, оценка b максимально близка к . Имитационное моделирование, проведенное для различного числа образцов в обучающем наборе с использованием различных ограниченных распределений ошибки, показывает, что оценка e e T T -1 I bSIC=breg C(I, s2, P), где b = max,...,, h = x (X X) x (5.12) reg i i i 1- h 1- h 1 I может быть принята за искомый верхний предел с вероятностью P. Здесь C(I, s2, P) – эмпирическая функция, которая зависит от числа образцов в обучающем наборе I и от оценки дисперсии остатков s2. В этом разделе приводятся результаты имитационного моделирования, анализируется поведение функции C(I, s2, P) в зависимости от числа образцов в выборке (I=10 250) и тяжести хвостов распределения. Рассматривались семь ограниченных на [–1, 1] распределений, полученных из нормальных распределений N(0, –2), при =0.2, 0.5, 1.0, 1.5, 2.0, 2.5, 3.0.

Именно значение bSIC в качестве оценки в дальнейшем используется в ПИО методе для определения прогнозных интервалов и для классификации образцов.

В принципе, возможно построение и других оценок для величины . Для грубой оценки, можно предложить практическое правило, которое называется правилом ‘1-2-3-4 сигма’. Если предположить, что среднеквадратичный остаток моделирования RMSEC 1, тогда bmin 2, breg 3 и bSIC 4. Конечно, это правило отражает только тенденцию, однако многочисленные практические примеры подтверждают справедливость этого простого закона.

Точность ПИО моделирования. Значения bmin и bSIC bmin bSIC (5.13) полностью характеризуют точность ПИО моделирования, т.е.

• Любое априорное значение допустимо только в том случае, если оно больше или равно bmin.

• Моделирование с помощью ПИО методов с параметром bSIC гарантирует, что для образцов из обучающего набора, ‘истинное’ значение отклика расположено внутри соответствующего прогнозного интервала.

• Даже в ‘наихудшем’ случае, полуширина прогнозного интервала для образцов из обучающего набора меньше или равна bSIC.

• Обе оценки : bmin (5.11) и bSIC (5.12) – являются состоятельными. Это означает, что для любого значения из интервала (5.13) выполняются свойства 2 и 4 из раздела 5.2, а свойства 1и 3 выполняется асимптотически.

5.5. Результат главы В этой главе приведены основные понятия и доказаны основные свойства ПИО метода.

1. Дано определение и доказаны основные свойства области допустимых значений параметров A. Показано, то область A является множественным аналогом точечной оценки неизвестных параметров в регрессионном анализе.

2. Показано, что оценка максимальной погрешности определяет точность калибровки и задает границу воспроизводимости для всех образцов, которые подобны образцам из обучающего набора.

3. Показано, что прогнозные интервалы, полученные методом ПИО, устанавливают индивидуальную неопределенность прогноза отклика для каждого нового образца.

В основе ПИО метода лежит единственное предположение об ограниченности погрешностей. Именно это предположение приводит к оценке параметров модели в виде целой области A. В свою очередь ОДЗ A порождает интервальную оценку откликов y.

6. Классификация статуса образцов В этой главе предложен новый метод классификации статуса образцов. Для этого рассматривается роль различных обучающих образцов в построении модели, и взаимоотношений новых объектов моделирования с обучающими образцами.

6.1. Характеристики статуса образцов Для характеристики качества прогноза и формализации понятия «похожих» и «непохожих» образцов в рамках метода ПИО, вводятся следующие понятия.

Пусть имеется ПИО модель, построенная с помощью набора обучающих образцов (xi, yi), i=1, …, I, которая характеризуется своей ОДЗ A, определенной как пересечение полос (Определение 5.1, уравнение (5.4)). Рассмотрим новый образец, т.е. пару (x, y), с которым связана своя полоса S(x, y), определенная неравенствами y - xt a y + . Тогда взаимное положение полосы S(x, y) и области A характеризует статус образца (см. Рис. 6.1).

Определение 6.1 Образец (x, y) называется внутренним, если он не изменяет ОДЗ, т.е.

A S(x, y) = A, иначе, xta - y для aA Любой образец из обучающего набора, по построению, является внутренним. (Рис. 6.1a,b) Определение 6.2 Образец (xi, y) из обучающего набора называется граничным, если сущеt ствует такой параметр aA, что x a - y = .

i Граничные образцы формируют ОДЗ, и, поэтому, являются наиболее важными среди образцов обучающего набора (Рис. 6.1 a).

Определение 6.3 Образец (x, y) называется Рис. 6.1 Возможные положения полосы внешним, если он уменьшает ОДЗ, т.е.

нового образца по отношению к данA S(x, y) A, иначе, aA что xta - y > .

ной ОДЗ в пространстве параметров Согласно определениям 6.1 и 6.3 все образцы делятся на внутренние и внешние. Однако среди внешних образцов можно провести более детальное различие.

Определение 6.4 Образец (x, y) называется – выбросом, если он уничтожает ОДЗ, т.е. A S(x, y) =, иначе, xta - y > для aA. (Рис. 6.1d) Определение 6.5 Образец (x, y) называется абсолютно внешним, если для любого значения y A S(x, y) A.

В работе показано, что при добавлении в обучающий набор дополнительного образца, в зависимости от статуса этого образца, происходят следующие изменения с ОДЗ A. Если образец является внутренним, то, при его добавлении, ОДЗ не изменится, т.е. AI+1=AI. Если образец является внешним, но не выбросом, то ОДЗ уменьшится, т.е. AI+1AI, а добавленный образец станет граничным. Если образец является выбросом, то ОДЗ исчезает, т.е. AI+1=. (Здесь AI – это ОДЗ, которая была построена с помощью обучающего набора, состоящего из I образцов).

Как следует из пояснений к определениям 6.1-6.4, классификация образцов проявляется не только во взаимном расположении полос и ОДЗ в пространстве параметров, но и во взаимном положении калибровочного, U (5.8) и прогнозного, V (5.7) интервалов. Это подтверждается следующими утверждениями, доказанными в работе.

Утверждение 6.1 Для всех обучающих образцов выполняется условие Vi U =Vi, i=1,...,I.

Утверждение 6.2 Образец является внутренним тогда и только тогда, когда V U =V.

Утверждение 6.3 Обучающий образец (Vi Ui) является граничным тогда и только тогда, когда max(Vi)=max(U) либо min(Vi)=min(U).

Утверждение 6.4 Образец является выбросом тогда и только тогда, когда V U =.

Утверждение 6.5 Образец является абсолютно-внешним тогда и только тогда, когда для любого значения y V U V.

6.2. Диаграмма статуса образцов (ДСО) Для того чтобы процедуру классификации образцов сделать максимально простой и наглядной, в работе введены следующие величины.

Определение 6.6. ПИО-остатком называется величина – 1 v+ (x) + v- (x) r(x, y) = y - (6.1) Величина r представляет разницу между центром прогнозного интервала [v+, v–] и значением y (нормированным на ), поэтому r характеризует смещение.

Определение 6.7. ПИО-размахом называется величина – 1 v+ (x) - v- (x) h(x) = .

(6.2) Величина h вычисляется как полуширина прогнозного интервала, деленная на максимальную погрешность, и характеризует -нормализованную воспроизводимость.

Целесообразность этих определений раскрывается следующими утверждениями, доказанными в работе.

Утверждение 6.6 Все обучающие образцы удовлетворяют неравенству r(x, y) 1- h(x).

Утверждение 6.7 Образец (x,y) является внутренним тогда и только тогда, когда r(x, y) 1- h(x).

Утверждение 6.8 Обучающий образец (xi, yi) является граничным, тогда и только тогда, когда |r(xi,yi)| = 1 – h(xi).

Утверждение 6.9 Образец (x,y) является выбросом тогда и только тогда, когда r(x, y) >1 + h(x).

Утверждение 6.10 Образец (x,y) является абсолютно-внешним тогда и только тогда, когда h(x) > 1.

Используя Определения 6.6-6.7 и Утверждения 6.6-6.10, можно построить диаграмму статуса образцов (ДСО), прототип которой показан на Рис. 6.2b.

b) iii a) ii iia i -ii iii SIC Leverage Samples Интервал калибровки (черный), интервал Диаграмма статуса образцов. i – внутренние, предсказания (серый), () – опорное значение, ii-внешние, iia- абсолютно внешние, iii- вы( ) – предсказанное значение бросы Рис. 6.2. Результаты ПИО прогноза.

Response SIC Residual При любой размерности исходных данных (X, y) и для любого числа параметров, ДСО является двумерной диаграммой, и это делает ее мощным инструментом в ММК. Утверждения 6.6-6.10 делят плоскость «ПИО-остаток (r)» – «ПИО-размах (h)» на четыре области, каждая из которых соответствует одной из четырех категорий образцов: внутренние (область i на Рис. 6.2b), внешние (вне области i), абсолютно-внешние (область iia) и выбросы (область iii). На Рис. 6.показано соответствие результатов ПИО прогноз, (т.е. взаимного расположения интервала калибровки и прогнозного интервала для каждого образца Рис. 6.2 а) и классификации статуса образцов на ДСО (Рис. 6.2 b).

6.3. Классификация новых образцов Когда модель ММК применяется к новым образцам, соответствующие значения y неизвестны. Поэтому нельзя вычислить ПИО-остаток, r (6.1), но всегда можно определить величину ПИО-размаха, h (6.2). Если размах нового образца больше единицы (h>1, область iia на Рис. 6.2b), то этот образец не может быть отнесен к типу внутренних ни при каком значении y, т.е. он является абсолютновнешним. Таким образом, для любого обучающего набора можно сконструировать область в пространстве предикторов (счетов), за пределами которой располагаются абсолютно внешние образцы. Следующее утверждение, определяет эту область.

Утверждение 6.11. Пусть D – это область в пространстве предикторов, образованная всеми возможными линейными комбинациями взвешенных векторов предикторов (или счетов) xi из обучающего набора, такими что I I i x = xi, i (6.3) h(x ) i i=1 i=Тогда все абсолютно внешние образцы будут расположены вне этой области.

6.4. Результаты главы Показано, что в общем случае, для решения задач ММК, ПИО подход позволяет ввести новый метод классификации образцов. Он базируется на определениях 6.1-6.5 и утверждениях 6.1-6.5. Для определения статуса образца нет необходимости в явном виде строить ОДЗ в пространстве параметров, что является очень сложной задачей, особенно, если пространство параметров имеет размерность больше чем два или три.

Для ПИО классификации достаточно построить диаграмму статуса образцов, которая независимо от исходной размерности задачи, представляется в двумерном пространстве, т.е. на плоскости. Позиция каждого образца на ДСО позволяет определить, подобен ли изучаемый объект образцам из обучающего набора, и тем самым, задает разумные границы применимости построенной калибровки, что крайне важно для задач формального моделирования.

7. Программная реализация ПИО метода Разработанные аспекты ПИО метода были реализованы в программе SIC, которая является инструментов анализа экспериментальных данных. SIC (Simple Interval Calculations) – это программа, которая работает под управлением системы Excel, входящей в стандартный пакет Microsoft Office. С ее помощью, можно решать задачи моделирования, предсказания отклика, и определения статуса образцов применительно к линейным моделям. В этой главе приведено описание структуры программы SIC, которая состоит из целого набора процедур: (1) предварительной подготовки данных; (2) проекционных регрессионных методов (МГК, РГК, ПЛС 1, ПЛС 2); (3) процедуры приведения исходной задачи к стандартной форме линейной оптимизационной модели; (4) стандартная процедура Симплекс-метода для решения линейной оптимизационной задачи; (5) вычисление результатов, построения ДСО.

Вся входная информации представляется в виде таблиц рабочих листов Excel. Для того чтобы передать данные в программу и начать обработку, используется диалоговое окно (Рис. 7.1). С помощью программы SIC можно получить следующую информацию:

• результаты интервального прогноза отклика [v—, v+];

• точечную регрессионную оценку для значений откликов с помощью выбранного регрессионного метода (РГК, ПЛС);

• оценки параметра : bmin и bSIC;

• ПИО-остаток и ПИО-размах;

Рис. 7.1 Диалоговое окно программы SIC • Построить диаграмму статуса образцов.

Информация выводится как в числовом, так и в графическом виде.

7.1. Результаты главы Устройство системы SIC соответствует современным требованиям к подобным программам. Она имеет простой и привычный интерфейс. Все действия, которые выполняются с помощью Диалога SIC, могут быть осуществлены и с помощью VBA процедур. В программе SIC так же имеются дополнительные функции, осуществляющие декомпозицию исходной задачи одним из выбранных методов: МГК, ПЛС1, ПЛС2. Для работы с этими функциями не надо открывать диалог программы SIC, предусмотрено их использование в виде обычных функции рабочего листа Excel. Программа SIC – это инструмент, созданный для интервального и регрессионного анализа сложных данных. Программа систематически используется в этой работе для решения всех прикладных задач.

ЧАСТЬ III. ТЕОРЕТИЧЕСКИЕ И ПРАКТИЧЕСКИЕ АСПЕКТЫ ПРИМЕНЕНИЯ МЕТОДА ПРОСТОГО ИНТЕРВАЛЬНОГО ОЦЕНИВАНИЯ Эта часть работы посвящена методология применения интервального подхода для решения задач интерпретации физико-химических данных. На примере решения актуальных практических задач рассматривается несколько важных теоретических вопросов использования метода ПИО. В работе предложены метод определения выбросов, метод формирования представительной выборки, применение интервального подхода для решения задач дискриминации и пр.

8. Применение проекционных методов совместно с методом ПИО.

Наглядное представление многофакторных данных В этой главе излагается общие принципы, применяемые при совместном использовании проекционных регрессионных методов и метода ПИО (Рис. 8.1) для исследования свойств образцов и построения калибровок.

Проекционный подход базируется на Экпериментальные концепции «скрытых (латентных) переданные менных», или базисных векторов, на которых строится проекционное подпроПЛС/РГК странство. Возможность наглядного градуировка ПИО модель, (определение числа представления сложных многофакторных оценка ГК) данных в проекционном пространстве позволяет исследователю лучше понять и Результаты:

объяснить изучаемые явления. При этом + Результаты:

y оценка, RMSEC, U-интервал (градуировки) возникает необходимость (1) охарактериRMSEP V-интервал зовать свойства каждого отдельного об(предсказания) разца относительно всей группы образцов и построенной модели; (2) очертить область действия модели, а, следовательно, Рис. 8.1 Общая схема применения проеки надежность прогноза. Для этого сущеционных методов совместно с методом ствует множество эмпирических приемов, ПИО но общепризнанного, точного подхода пока не выработано. Метод ПИО заполняет эти пробелы и представляет законченную систему классификации образцов, а так же набор однозначных правил для определения статуса (роли) каждого образца в исследуемом наборе данных, в совокупности с математической моделью.

8.1. Эксперимент. Измерение следовых концентраций нефти в воде с помощью акустических измерений Результаты ПИО классификации демонстрируется на примере определения следовых концентраций нефти в промышленных сточных водах в режиме реального времени. Для этого применяются акустические измерения с последующей математической обработкой экспериментальных данных.

В качестве матрицы предикторов X использовалась матрица акустических спектров (сигналы вибрационных сенсоров, усиленные и преобразованные с помощью быстрого преобразования Фурье) на 1024 частотах; вектор откликов y – это известные стандартные концентрации нефти (0, 2.5, 5, 10, 20, 50, 100, 3ppm.). В результате применения ПЛС метода была построена модель, основанная на двух ГК, при этом RMSEC=0.12, и RMSEP=0.24. Это можно считать хорошей точностью, учитывая диапазон изменения откликов.

8.2. Исследование обучающего набора Сравнение графиков на Рис. 8.2 и Рис. 8.3 наглядно показывает, какую новую информацию предоставляет ПИО метод по сравнению с обычным ПЛС методом. Сравнивая ДСО (Рис. 8.2 a) с графиком влиятельности Рис. 8.2 b видно, что все наиболее влиятельные образцы (NN 37, 38 и 40), а так же образец, имеющий максимальное значения остатка моделирования (N5), в то же время являются граничными по ПИО классификации.

1.0 0.a) b) 0.0.0.0.0.1.0.40-0.0 0.05 0.1 0.15 0.2 0.SIC-Leverage PLS-Leverage -1.ПИО диаграмма статуса образцов. График влиятельности образцов по y Рис. 8.2 Определение следовых концентраций нефти в воде.

Обучающий набор: - внутренние образцы, - граничные образцы ПИО классификация позволяет находить все наиболее влиятельные образцы среди обучающего массива. Для определения таких образцов метод ПИО дает однозначное и простое правило (Утверждение 6.8). Таким образом, можно сделать вывод, что концепция граничных образцов имеет смысл и полезна не только внутри самого метода ПИО, а так же объективно характеризует исследуемую структуру данных.

8.3. Исследование проверочного набора Важным аспектом ПИО классификации является возможность определения статуса образцов проверочного набора. Согласно ПИО классификации (Утверждения 6.7, 6.9, 6.10), в проверочном наборе обнаружено 32 внутренних образца и восемь внешних (Рис. 8.3 a). Внешними эти образцы могут быть по двум причинам: (1) содержать большую погрешность в измерениях откликов; (2) сказывается погрешность моделирования. Прогноз на такие образцы является ненадежным. Таким является, например, образец T7, что видно по положению прогнозного интервала и по расположению образца на ДСО (Рис. 8.3 a и b). После выявления таких образцов, их последующий содержательный анализ проводится исследователем. Другой образец – T39 (Рис. 8.3) является абсолютно внешним. Такие образцы по структуре данных в предикторах отличается от обучающих образцов.

Величина прогнозных интервалов для таких образцов всегда больше чем . Принадлежность образца к тому или иному классу определяет качество прогноза, т.е.

величину и положение прогнозного интервала, вычисленного ПИО методом.

SIC-Residual PLS-Residual Таким образом, ПИО метод не только позволяет выявить граничные образцы в обучающем наборе, но и представляет подробную информацию для индивидуальной классификации образцов проверочного набора.

1.5 a) b) 2.TT0.TT12 T1.00.T-0.T0.T-T3 T5 T6 T7 T10 T11 T12 T26 T29 T35 T39 TПИО-размах -1.5 Проверочные образцы ДСО. - внутренние образцы, - внешние ПИО прогноз. Черный интервал – ±bSIC, серый образцы, - абсолютно внешние образцы интервал – ПИО предсказанный, () – измеренное значение, ( ) –ПЛС предсказанное значение Рис. 8.3 Определение следовых концентраций нефти в воде. Проверочный набор 8.4. Исследование выбросов После того как калибровочная модель построена, она обычно используется для предсказания откликов новых образцов.

Если предсказываемый t16 образец плохо согласуется с моделью, результат предсказания будет плохим, т.е. будет большая неопределенt1 ность в прогнозе, или хуже того, неверным, когда пред-сказанное значение и про-70 -35 0 35 гнозный интервал будут лежать далеко от истинного -значения.

В работе предлагается новый метод определения -выпадающих образцов, осРис. 8.4 ДСО для проверочного набора образцов.

нованный на методе ПИО.

Проверочный набор: - внутренние образцы, - внешЭтот метод сравнивается с ние образцы, - абсолютно внешние образцы известным методом выпуклых оболочек (Рис. 8.4, черный и серый сплошные контуры).

Для обнаружения выпадающих образцов ПИО метод предлагает способ построения в пространстве предикторов области (Рис. 8.4, пунктирный контур), коОтклик ПИО-остаток торая определяет, в терминологии ПИО, абсолютно внешние образцы (Утв. 6.11).

Для этого используются значения проекций обучающих образцов (счета), а также результаты ПИО моделирования.

Для каждого образца xi из обучающего набора в проекционном пространстве b (счетов) вычисляются координаты точек x образующих границу области по i b + формуле x = x 2(v (x ) - v (x )). Существенным отличием в способе построения i i i i этих границ является то, что метод оболочек учитывает только значения предикторов обучающих образов, в то время как метод ПИО принимает во внимание еще и результаты моделирования отклика.

8.5. Результаты главы В этой главе показано, что в результате объединения нового метода ПИО с известными методами билинейного моделирования (РГК, ПЛС) появляется новый инструмент для визуализации и детального анализа сложных многофакторных данных. Этот инструмент дает возможность определять статус каждого образца, как из обучающего, так и из проверочного наборов. Возможность визуализации больших массивов экспериментальных данных возвращает исследователя к сути изучаемых явлений, помогая проследить имеющиеся физические и химические зависимости, оценить качество проведенного эксперимента.

Основой для такой визуализации служит классификация статуса образцов, которая непосредственно вытекает из метода ПИО.

Метод ПИО предлагает однозначные правила для классификации.

1. Все обучающие образцы можно разделить на два класса: граничные, наиболее важные образцы, которые формируют модель и внутренние образцы, которые являются избыточными для формирования модели. (Утверждения 6.6-6.7).

2. Все проверочные образцы можно детально классифицировать (Утверждения 6.7-6.10). Их можно разделить на два основных класса: внутренние, эти образцы наиболее типичны и похожи на образцы из обучающего набора, и внешние образцы. Среди внешних образцов можно ввести дополнительное разделение: абсолютно внешние образцы, эти образцы сильно отличаются от образцов обучающего набора по значениям предикторов, X матрицы;

выбросы – это образцы, противоречащие данной модели.

3. Для новых образцов, у которых значения откликов y неизвестно, имеется строгое правило (Утверждения 6.10), выделяющее абсолютно внешние образцы, которые плохо совместимы с построенной моделью. Это является существенным достижением ПИО метода, так как гарантирует, что при использовании модели для вновь полученных образцов мы не выйдем за область действия модели, т.е. будем находиться в условиях интерполяции, что чрезвычайно важно при формальном моделировании.

9. Сравнение содержательного и формального подхода к анализу кинетических данных Традиционно для задач анализа кинетических данных применяется содержательное физико-химическое моделирование, которое базируется на основных кинетических принципах и позволяет получать оценки параметров с высокой точностью. Однако такой метод может быть применен только тогда, когда модель процесса известна априори. Альтернативой является формальный подход, в котором кинетическая модель явно не используется. При этом экспериментальные данные описываются линейной многофакторной моделью, справедливой в ограниченном диапазоне условий.

Оба подхода имеют свои сильные и слабые стороны. В этой главе проводится сопоставление этих двух походов, рассматриваются методоИП ТНО логические вопросы.

Применяется как со(значения Y) (значения X) держательный подход, основанный на нелинейном регрессионном 3 концентрации AO анализе, так и фор3 концентрации AO мальный подход, Рис. 9.1 Устройство экспериментальных данных включающий проекции на латентные структуры, в сочетании с методом простого интервального оценивания. Использование одного и того же набора данных, позволяет сравнить оба подхода и сделать выводы о том, в каком случае, какой подход предпочтительнее.

9.1. Эксперимент. Оценка активности антиоксидантов Антиоксиданты (АО) – это специальные добавки, которые замедляют термоокислительное старение полимеров. Исследование эффективности антиоксидантов в полиолефинах – это длительный и дорогой процесс. Основной характеристикой эффективности АО является период индукции, измеряемый в процессе длительного термостарения. Альтернативой является подход, использующий измерения дифференциальной сканирующей калориметрии (ДСК), с последующей математической обработкой полученных данных В эксперименте исследовались 25 образцов АО. Были изготовлены пленки полипропилена (ПП) с АО в концентрациях 0.05%, 0.07%, и 0.1%. ДСК измерения проводились в температурном диапазоне от 150оC до 350оC, где наблюдается экзотермический максимум, связанный с окислением полимера. При этом использовались пять различных скоростей нагрева 2, 5, 10, 15, 20 (град/мин). В результате всех экспериментов мы получили данные (Рис. 9.1), в которых предикторами X являются значениями температур начала окисления (ТНО) полученных в ДСК эксперименте. Они образуют трех модальный (3-way) блок: 25 образцов АО 3 концентрации АО 5 скоростей нагрева. Данные Y – это значения периодов индукции (ИП), полученные с помощью длительного термического старения:

25 образцов АО 3 концентрации АО.

25 образцов 25 образцов 9.2. Формальное моделирование Полученный массив данных обрабатывался с помощью метода проекций на латентные структуры (ПЛС), для калибровки, и метода простого интервального оценивания (ПИО) – для построения прогнозных интервалов.

Исходные 3-х модальТаб. 9.1 Характеристики ПЛС/ПИО моделей, построенные X данные раскладываных для разных начальных значений концентраций АО лись в плоскую матрицу (A0 Xexpl Yexpl RMSEC R2cal R2test 15). Для каждой концен0.05 99% 92% 0.287 0.96 0.99 0.84 трации, столбца Y, строилась отдельная модель. Ввиду ге0.07 99% 88% 0.342 0.93 0.99 1.тероскедастичности ошибки 0.10 99% 84% 0.395 0.91 0.97 1.в отклике, из значения Y перед моделированием извлекался квадратный корень. В Таб. 9.1 приведены основные характеристики ПЛС/ПИО моделей. Результаты прогнозирования приведены в сводной Таб. 9.2, а на Рис. 9.2 приведены результаты ПЛС/ПИО прогноза для одной модели, соответствующей начальной концентрации 0.05%.

образцы AO Рис. 9.2. Результаты прогноза периода индукции для различных образцов АО с начальной концентрацией 0.05. Черные точки () и серые прямоугольники представляют содержательное (НЛР) предсказание. Открытые квадраты () и черные прямоугольники изображают формальное (ПЛС/ПИО) моделирование. Открытые точки () соответствуют измеренным значениям с вертикальными отрезками, которые показывают погрешность измерения (калибровки) . Из всех величин извлечен квадратный корень.

9.3. Содержательное моделирование В этом подходе для каждого AO строится своя кинетическая модель, т.е. в результате получается 25 отдельных нелинейных регрессионных (НЛР) моделей.

Для каждой модели матрица X – это 5 скоростей нагрева 3 концентрации АО, и (ИП, дни) AO-AO-AO-AO-AO-AO-AO-AO-AO-AO-AO-AO-AO-AO-AO-AO-AO-AO-AO-AO-AO-AO-AO-AO-AO-векторы y – это 3 ИП. Процедура калибровки этих данных состоит из двух шагов.

На первом шаге строится модель, описывающая расход антиоксиданта в ходе ДСК эксперимента – это калибровка X данных. Регрессионная модель является неявной функцией, связывающей температуру начала окисления (ТНО) T, начальную концентрацию АО A0 и скорость нагрева v. На втором шаге строится модель для описания расхода АО в ходе длительного термического старения – калибровка Y данных Ec Ea y = + ln(A0 ) - c exp - a (9.1) RTe RTe Эта регрессионная модель явно выражает период индукции y как функцию температуры экспозиции Te и начальной концентрации АО A0. В этой функции участвуют те же кинетические параметры a, Ea, c и Ec, что и в первой модели. Их оценки мы находим на первом шаге, а на втором применяется специальная процедура переноса ошибок для того, чтобы оценить неопределенность в прогнозе периода индукции.

Опираясь на полученные оценки параметров, можно построить прогноз и доверительные интервалы для периода индукции. В качестве инструмента для вычислений использовалась программа Fitter. Сводные результаты НЛР прогноза приведены в Таб. 9.2 и на Рис. 9.2 (для концентрации 0.05%).

9.4. Сравнение методов Из Таб. 9.2 и Рис. 9.2, можно сделать следующие выводы. Оба метода имеют близкую точность (ряд 1 в Таб. 9.2) и смещение (ряд 2).

Таб. 9.2 Статистические характеристики прогноза содержательным (НЛР) и формальным (ПЛС/ПИО) методами Начальная НЛР (i=1, CI) ПЛС/ПИО (i=2, PI) концентрация AO 0.05 0.07 0.10 0.05 0.07 0.1. RMSEP 0.242 0.246 0.272 0.239 0.251 0.32. Смещение 0.087 0.058 0.040 0.011 0.004 0.03. Корреляция (1,2) 0.953 0.934 0.916 0.953 0.934 0.9 4. Среднее (X - X)2 0.224 0.286 0.286 0.25. Среднее (wi) 1.038 1.151 1.397 0.934 1.204 1.46. Корреляция (w1, w2) 0.202 0.007 0.028 0.202 0.007 0.07. Корреляция (y, wi) 0.815 0.846 0.836 –0.184 –0.161 –0.1Неопределенность прогноза становится больше, когда начальная концентрация АО увеличивается. В целом, ПЛС/ПИО метод дает лучшие результаты для малых начальных концентраций АО, тогда как НЛР лучше для больших концентраций.

Однако, точечные оценки ( , m=1 – НЛР оценка, m=2 – ПЛС/ПИО оценка) в m среднем близки (см. ряд 3).

Оба метода хорошо моделируют значения X, но содержательный метод (НЛР) делает это немного лучше (ряд 4). Видно (ряд 5), что ширина предсказанных интервалов растет с начальной концентрацией АО. Это следует из формулы для содержательной модели (9.1) представляющую зависимость ИП от начальной концентрации АО. В тоже время, в формальной ПЛС/ПИО модели это никак нельзя было предвидеть. По-видимому, этот факт является фундаментальным свойством исследуемой полимерной системы, а именно, чем больше добавлено АО в образец, тем хуже мы можем предсказать его период индукции. Важно, что и содержательный, и формальный методы в этом смысле дают сходные результаты. Интервальные оценки близки в среднем (ряд 5), хотя доверительные интервалы (w1) могут сильно отличаться от прогнозных интервалов (w2) для отдельных образцов (см. ряд 6 и Рис. 9.2). Последний ряд Таб. 9.2 показывает, что ширина wрастет с увеличением значения периода индукции для всех начальных концентраций АО, тогда как ширина w2 не зависит от y. Это свидетельствует о том, что примененное нами преобразование откликов, действительно дало ожидаемый эффект в ПЛС/ПИО моделировании, но не смогло исправить результаты НЛР моделирования.

Важный аспект, при сравнении методов моделирования, состоит в ограничениях на область применимости каждого метода. Содержательное моделирование (НЛР) имеет здесь очевидное преимущество, т.к. оно может использоваться для предсказания периода индукции для различных концентраций АО и при разных температурах экспозиции. Например, можно построить прогноз периода индукции для одного из исследуемых образцов, при начальной концентрации 0.04 для температур экспозиции в интервале 80оC

Однако мы не можем точно описать границы допустимой экстраполяции.

При формальном моделировании ситуация иная. Экстраполяция исключается, а область применимости модели к новым образцам можно описать с помощью техниAO-21 ки ПИО классификации. Для того AO-ПИО-размах AO-используется диаграмма статуса 1 0 AO-образцов (для проверочного набоAO-ра ДСО представлена на Рис. 9.3) Все образцы, расположенные внутри треугольника (AO-20, 21, AO-19 AO-..., 24) – внутренние, прогноз на них надежен. Образцы АО-19 и -АО-25 внешние. Внешние образцы Рис. 9.3 ДСО образцов из проверочного набора с (если они не выбросы) не противоA0=0.речат модели, но прогноз на них менее надежен. Тому могут быть две причины: большой размах (АО-25) и смещение (АО-19). Таким образом, используя технику ПИО-статусов, мы можем ПИО-остаток легко классифицировать новый образец и тем самым ограничить область применимости формального ПЛС/ПИО метода.

9.5. Результаты главы Продемонстрированы два подхода к решению одной и той же практической задачи – проверки активности АО. Необходимо отметить принципиальную разницу между областями применимости построенных моделей. В содержательном подходе таковой является область в пространстве факторов (T и A0), на которую модель может быть экстраполирована. При этом мы имеем дело с одним и тем же АО, который был предварительно исследован методом ДСК. При формальном подходе таковой является область новых антиоксидантов, к которым может быть применена построенная ПЛС/ПИО модель. В этом случае условия эксперимента, т.е. начальная концентрация АО и скорость нагрева в ДСК, должны быть теми же самыми, что и в исходном обучающем наборе. С этим соображением связана и различная тактика планирования эксперимента для улучшения модели. В формальной модели необходимо добавить новые образцы АО, отличающиеся от исходного обучающего набора. В содержательной модели, для каждого АО строится своя собственная модель, поэтому для ее уточнения надо провести дополнительные эксперименты с другими начальными концентрациями того же АО. Это повысит точность прогноза именно конкретного АО, и не будет иметь никакого влияния на качество предсказания для других АО.

Таким образом, в случае, когда целью исследований является предсказание поведения некоторой полимерной системы, содержательный подход предпочтителен. В случае, когда исследователь желает сравнить активность различных АО, формальная модель лучше отвечает такой постановке.

10. Применение метода ПИО к задачам распознавания Многомерный анализ данных эффективно используется в задачах качественного анализа. Как уже говорилось в разделе 2.2, это широкий класс задач, в которых требуется установить наличие того или иного вещества в пробе, либо принадлежность образца к некоторому классу. Методы классификации и дискриминации (см. разделы 2.1-2.2), в основе которых лежит проекционный подход, хорошо справляются с мультиколлинеарными данными, отделяя содержательную информацию от шума. В этой главе проводится сравнение известных методов:

МГК (раздел 2.1), SIMCA (раздел 2.2) и нового подхода, объединяющего известный метод ПЛС дискриминации (M. Sjstrm, 1986), дополненный методом ПИО.

Сравнение методов проводится на примере распознавания фальшивых лекарственных средств с помощью ИК спектроскопии в ближней области (БИКспектроскопии).

10.1. Комбинированный метод: ПЛС дискриминация и метод ПИО Для разделения образцов на Q различных классов используется обучающий набор, включающий образцы из всех Q классов. В качестве предикторов используется X (IJ) – матрица признаков (измерений). В качестве откликов Y вводится матрица искусственных переменных или матрица принадлежности классу. Количество столбцов в Y равно количеству классов Q. Для всех образцов из класса q (q=1,…, Q), yq равно 1, а для образцов, не принадлежащих q-ому классу, значения откликов равны –1. Используя набор данных (X,Y), строится ПЛС2 модель. Для каждого нового образца вычисляется прогнозное значение, по которому и определяют принадлежность образца тому или иному классу. Так как значения отклика вычисляются с некоторой погрешностью, предлагается дополнить метод ПЛС дискриминации, ПИО моделированием. Для образцов из обучающего набора ПИО метод позволяет очертить границы классов, для чего используется интервал калибровки (5.8), т.е. оценка максимальной погрешности . Для новых образцов необходимо оценить близость предсказанного значения к тому, или иному классу, т.е. к значению yq. В ПИО методе для этого служит интервал предсказания (5.7), характеризующий неопределенность в прогнозе для каждого образца.

10.2. Эксперимент 1. Исследование таблеток Исследовались образцы пищеварительного ферментного средства (панкреатина) в форме таблеток, всего 75 образцов. Набор образцов, состоял из 11 различных серий подлинных таблеток (обозначенных как G1 – G11) и четырех серий фальсифицированных таблеток (обозначенных F1 – F4). Каждая серия представлена 5 таблетками из одной упаковки. В качестве матрицы признаков X использовались БИК спектры диффузионного рассеяния R() на участке 4000–7500 см-1.

(1750 длин волн). Исходные данные преобразовывались как –logR.

10.3. Математическая обработка данных Результаты применения МГК и SIMCA не дают надежного разделения на искомые классы (Рис. 10.1).

0.006 0.d a) b) t0.0t-0.4 -0.2 0 0.2 0.0.0h 0.0-0.00.Метод SIMCA для 2 ГК МГК для 3 ГК, график счетов Рис. 10.1 Определение фальсифицированных лекарств (таблетки). - обучающий набор,- подлинные образцы, -фальсифицированные образцы Для того чтобы повысить надежность распознавания, основное внимание при моделировании должно уделяться различию между классами, а не индивидуальным особенностям образцов внутри класса. Для этого применяется метод ПЛС дискриминации совместно с ПИО методом. Обучающий набор формируется как из подлинных (G1-G3, по 5 таблеток), так и из фальшивых (F1, F2 по 4 таблетки) образцов. При этом удается построить модель распознавания, которая надежно различает фальшивые и настоящие таблетки, а так же предоставляет дополнительную информацию, характеризующую различные серии образцов. ПЛС модель строилась с использованием 2 ГК, а ПИО модель с bmin=0.23 и bSIC=0.46. Результаты предсказания на проверочном наборе представлены на Рис. 10.2. Образцы всех серий G надежно распознаются как подлинные, а серий F – как фальшивые.

Принадлежность классу 1.F0.Наименование образца -0.--1.-Рис. 10.2 Определение фальсифицированных лекарств (таблетки), проверочный набор. Черный интервал –ПИО калибровочный, серый – ПИО предсказанный, () – опорные значения, ( ) –ПЛС предсказанные значения Относительно образцов из серии F4 можно заключить следующее: (1) их нельзя отнести к классу подлинных образцов; (2) эти образцы существенно отличаются от серий F1-F3. Можно предположить, что фальсификат F4 был сделан иным производителем, чем серии F1-F3, либо серия F4 была произведена из другого сырья. Как показывает опыт, для фальсифицированных образцов характерен больший разброс между образцами внутри серии, а так же между сериями по сравнению с подлинными образцами. По всей видимости, это можно объяснить низкой технологической дисциплиной производителей фальсификата.

10.4. Эксперимент 2. Исследование ампул Исследовался глюкокортикостеройдный препарат в растворимой форме. Образцы – это запаянные ампулы темного стекла с 4% водным раствором активного вещества, две серии подлинных образцов, G1 и G2, и одна серия поддельных, серия F1, по 15 ампул в каждой серии, всего 45 образцов. Измерялись БИК спектры пропускания, ампулы не вскрывались. Для исследования использовались две информативные спектральные области: 5500 – 6400 см-1 и 7200 – 9000 см-1, всего 702 длинны волны.

F1-F2-F3-F3-F3-F3-F3-F4-F4-F4-F4-F4-G1-G1-G1-G1-G1-G2-G2-G2-G2-G2-G4-G4-G4-G4-G4-G6-G6-G6-G6-G6-G7-G7-G7-G7-G7-G8-G8-G8-G8-G8-G9-G9-G9-G9-G9-G10-G10-G10-G10-G10-10.5. Математическая обработка данных Так же как и в предыдущем примере, результаты применения МГК и SIMCA не дают надежного разделения на искомые классы, часть образцов подлинных лекарств из проверочного набора классифицируется как не входящие в этот класс.

Дополнив результаты ПЛС дискриминации ПИО моделированием, можно заметить, что величина интервала калибровки достаточно велика, т.е. построенная модель несет в себе существенную неопределенность. Для ПИО модели были вычислены значения bmin=0.48 и bSIC=0.75. Сходными являются и результаты распознавания для проверочного набора. ПИО метод показывает, что, несмотря на достаточно хорошие точечные оценки, ширина интервала калибровки (Рис. 10.3, черные отрезки) весьма велика, хотя классы и не перекрываются, т.е. образцы обучающего набора надежно разделяются на два класса.

Принадлежность классу -Наименование образца -Рис. 10.3 Определение фальсифицированных лекарств (ампулы), Обучающий набор. Черный интервал – ПИО калибровочный, серый – ПИО предсказанный, () – опорные значения, ( ) – ПЛС предсказанные значения 10.6. Результаты главы Проведено сравнение различных методов классификации, как без обучения, так и с обучением. Показано, что точечных оценок, получаемых методом ПЛС дискриминации, не достаточно для надежного разделения классов и последующего распознавания новых образцов, так как понятие "близости" к классу должно иметь численное выражение. Дополнение ПЛС дискриминации методом ПИО дает следующие преимущества.

1. Интервал калибровки (значение величины bSIC), получаемый в результате ПИО моделирования, позволяет очертить точную границу каждого класса.

2. Индивидуальный ПИО интервал предсказания позволяет численно охарактеризовать близость образца к тому или иному классу.

3. ПИО классификация статуса образцов позволяет охарактеризовать однородность образцов внутри одного класса, а так же выявить образцы или группы образцов с особыми свойствами, отличающими их от образцов предопределенных классов.

F1-F1-F1-F1-F1-F1-F1-F1-G1-G1-G1-G1-G1-G1-G1-G1-G1-G1-G1-G1-К практическим результатам данной главы следует отнести эффективность предложенного подхода к экспресс-распознаванию фальсифицированных лекарств, сочетающего методы БИК спектроскопии с последующей математической обработкой экспериментальных данных. Полученные результаты показывают, что для надежного распознавания фальшивых лекарств необходим большой экспериментальный материал и критический отбор образцов, как в обучающий, так и в проверочный наборы.

11. Аналитический контроль процессов Это направление – аналитический контроль процессов (АКП) – заслуживает особого внимания, поскольку в нем наиболее ярко проявились тенденции и перспективы развития общего подхода объединяющего физико-химические эксперименты, проводимые в режиме реального времени, с математическими методами многомерного анализа данных. В основе АКП лежит многомерный статистический контроль процессов – МСКП (MacGregor, 1995). МСКП во многом напоминает анализ многоканальных физико-химических данных (например, спектров) эволюционирующих во времени. Идея МСКП состоит в применении метода главных компонент для анализа исторических данных о ходе процесса и построении контрольных пределов в пространстве счетов с помощью расстояния Махаланобиса. Для осуществления МСКП собирается информация об изучаемом процессе: инструментальных показатели X, и показатели, отражающие конечный результат, т.е. выходные переменные, Y. На основе исторического набора (X, Y) строится линейная модель калибровки, с помощью которой отслеживается текущее состояние процесса и проверяется, находится ли процесс внутри допустимых границ. Исследуя построенную модель, можно предложить план действий по корректировке процесса. Однако такая оптимизация будет оптимизацией post factum. Наиболее ценной является оптимизация in situ, позволяющая осуществлять корректировку по ходу самого процесса, для того чтобы улучшить будущие выходные показатели. Эта глава посвящена расширению метода МСКП. Предлагается подход, который определяет действия по оптимизации процесса в режиме in-line, названный многомерной статистической оптимизацией процессов (МСОП). Для его реализации используется сочетание ПЛС регрессии и метода ПИО.

11.1. Описание исследуемого процесса Теоретические разработки иллюстрируются модельным примером многостадийного химического процесса, который представлен 25 инструментальными переменными X (J=25), и одной выходной переменной у, назовем этот показатель "качеством" (например, чистота производимого продукта). Исследуется набор данных (X, y), состоящий из I=154 наблюдений, "образцов". Весь процесс разделен на 7 стадий (L=7), в дальнейшем обозначаемых римскими цифрами. Каждую стадию можно описать входными, текущими и выходными, «будущими» переменными. Все переменные, которые измерены на предыдущих стадиях, считаются входными переменными (предикторами), и их значения фиксированы. Текущие переменные являются контролируемыми переменными, их можно изменять на текущей стадии. Все переменные, характеризующие последующие стадии, на данный момент рассматриваются как отклики, которые, в принципе, можно предсказывать. По мере продвижения вдоль процесса, роли переменных меняются.

Весь набор данных (X, y) разделен вертикально (по столбцам) на L блоков, соответствующих стадиям процесса: X=(XI, XII,…, XL). Последний блок L+1 состоит из одной переменной, характеризующей "качество" Y=y. Все данные центрированы и шкалированы таким образом, что каждая переменная, включая выходную переменную y, изменяется в интервале (–1, +1). Значения переменных вне этого интервала считаются недопустимыми. Также предполагается, что наивысшее качество характеризуется значением y=+1, а наихудшее, но допустимое, соответствует y=–1. Данные были разделены на две части: обучающий набор (102 образца), и проверочный, или тестовый набор (52 образца) 11.2. Контроль процесса Для начала рассматривается аналитический контроль процесса без попыток вмешательства в него. Такой подход можно назвать пассивной оптимизацией.

Для реализации этого подхода предлагается использовать метод расширяющегося МСКП, который основан на концепции мульти-блоковой регрессии (A.

Hskuldsson, 2001).

1.Sample 0.0.-0.VII II III IV V VI I -1.Process variables Рис. 11.1 Предсказание показателя «качество» на каждой стадии процесса для образца из проверочного набора, ПИО интервал (серый прямоугольник), ПЛС прогноз (черные кружки). Ромб в правой части – актуальное значение y.

Используя весь набор данных, можно построить полную ПЛС модель XY: X y, (11.1) в которой задействовано K главных компонент. На тех же данных можно построить серию из L–1 ПЛС регрессионных моделей XYI: X(I) y, XYII: X(II) y, …., XYL-1: X(L-1) y. (11.2) Здесь каждая модель обозначается оператором XYM, который представляет регрессию X-блока, X(M), на Y-блок, y. Все модели (11.2) используют одно и тоже число ПЛС компонент K, которое выбирается при анализе полной модели (11.1).

Основной целью моделирования является предсказания выходной переменной y на каждой (M-ой) стадии процесса. Для оценки неопределенности в прогнозе применяется метод ПИО. Результат применение расширяющегося МСКП к одну из образцов проверочного набора приведен на Рис. 11.Quality, y Y SSSAAAAAAMMMWWWMRMRCMCMCMWRWRCWCWCW11.3. Оптимизация процесса В этом разделе рассматривается задача выбора корректирующих значений инструментальных переменных по ходу процесса. Проблема состоит в оптимизации значений контролируемых переменных X(M), которые являются входными для следующей (M-ой) стадии процесса. При этом выборе необходимо придерживаться двух основных принципов. Подправленные величины входных переменных, во-первых, должны повышать значение переменной y; и, во-вторых, значения этих переменных должны находиться внутри допустимых контролируемых границ. Предлагаемый подход базируется на концепции статуса образцов метода ПИО.

0.3 0.M = – 0.10 M = – 0.a) b) S = 0.38 S = 0.0.0.0.0.0.0.-1.0 0.0 1.-1.0 0.0 1.Quality, y Quality, y 0.3 0.M = 0.M = 0.c) d) S = 0.S = 0.0.2 0.0.0.0.0.-1.0 0.0 1.-1.0 0.0 1.Quality, y Quality, y Рис. 11.2 Распределение образцов по переменной «качество»:

a) Контрольный набор (до оптимизации), b) Оптимизация, тип «внутренний» - Gc) Оптимизация, тип «внешний» - G2, d) Оптимизация, тип «выбросы» - GДля построения решения в общем случае, рассматриваются два блока инструментальных переменных – X и Z – известные реализации процесса, и соответствующий им вектор y. Целью является предсказания величины y для набора инструментальных переменных (x, z), в котором значения z неизвестны. Значения x, которые ассоциируются с блоком X, известны, и их можно использовать как для предсказания значений z, так и значения y. Требуется найти такие значения z, которые будут оптимизировать значение y, при условии, что zLz – области допустимых значений z.

Вычисление оптимальных значений z+ происходит в два этапа. На первом этапе, с использованием исторических данных (X, Z), строится ПЛС2 калибровка, и оцениваются значения = XX(x) XX: X Z, т.е. = XX(x) = xD (11.3) Здесь D - это матрица параметров модели. При этом, по построению, является допустимым решением и, следовательно, принадлежит области Lz. Вторым этапом является изменение каждого компонента вектора до тех пор, пока новый вектор z+ будет оставаться в пределах области Lz. Это действие можно представить с помощью оператора G: G() = z+, который определяет стратегию оптимизации. Идея классификации статуса образцов дает инструмент, с помощью которого можно выбрать различные стратегии оптимизации, т.е. оператор G. На Рис.

11.2 представлены результаты применения трех различных стратегий оптимизации к тестовому набору из 52 образцов процесса (раздел 11.1) 11.4. Результаты главы Разработан новый метод аналитического контроля процессов, расширяющийся МСКП, основанный на построении серии регрессионных ПЛС моделей, совместно с ПИО моделированием. ПЛС модели позволяют на каждой стадии процесса предсказывать точечные оценки выходного параметра, а ПИО метод добавляет к этой оценки интервал предсказания. Представленный подход помогает предсказать результат планируемых действий по целенаправленному изменению выходного показателя, y и осуществить пассивную оптимизацию. Такой подход может быть особенно важным в случае, когда длительность контролируемого процесса велика.

Разработан новый метод аналитической оптимизации процессов, который основывается на блочном ПЛС и ПИО методе. Исследования показывают, что для улучшения выходного показателя y необходимы корректирующие действия, которые, с одной стороны, остаются в рамках изучаемого процесса, а, с другой, требуют вывода значений контролируемых переменных на границы возможных значений. Предложенный подход включает регулирование контролируемых инструментальных переменных на промежуточных стадиях, и предлагает набор стратегий для таких действий. Активная оптимизация основывается на теории классификации статуса образцов метода ПИО.

12. Формирование представительной выборки образцов На практике, при решении задачи переноса калибровок с одного прибора на другой, при работе с большими наборами экспериментальных данных, и в других случая возникает потребность выбрать из общего набора (X,Y), представительный более короткий набор. Необходимо, чтобы такая выборка отвечала двум основным требованиям: во-первых, она должна представлять всю вариабельность данных полного набора; во-вторых, число образцов в такой выборке должно быть существенно меньше, чем в исходном наборе. Сам по себе термин «представительная» или «репрезентативная» выборка является неоднозначным и может трактоваться по-разному, в зависимости от поставленной задачи. В нашем случае, целью является выбрать из имеющегося набора данных наиболее влиятельные образцы, использовать эти образцы в качестве нового обучающего набора и, на их основе, построить калибровку, которая по своей предсказательной способности не уступала бы модели, построенной на полном обучающем наборе.

12.1. Теория В этой главе предложено применение ПИО для формирования представительной выборки – метод граничных образцов. Проводится сравнение полученных результатов с двумя наиболее известными и эффективными методами отбора: методом Кеннарда-Стоуна и D-оптимальным планированием.

Метод граничных образцов. В соответствии с методом ПИО, все обучающие образцы являются внутренними (Определение 6.1). Среди них выделяются специальные образцы, которые называются граничными (Определение 6.2). Граничные образцы формируют ОДЗ A в ПИО моделировании. Следовательно, если в обучающем наборе оставить только граничные образцы, то оценка неизвестных параметров ПИО модели, область A, не изменятся. Поэтому набор граничных образцов формирует представительную выборку.

Метод Кеннарда-Стоуна осуществляет выбор образцов «равномерно» по всей области. При этом рассматриваются только данные в матрице X, значения y не учитываются. К достоинствам алгоритма надо отнести: (1) простоту реализации; (2) алгоритм может применяться к любой матрице предикторов, независимо от того, имеет она полный ранг или нет.

D-оптимальный план выбирает образцы так, чтобы максимизировать определитель информационной матрицы, det(XtX), линейной регрессионной модели.

При этом выбираются образцы наиболее удаленные от среднего значения. Когда число переменных в X превышает число образцов, информационная матрица становится вырожденной и процедуру D-оптимального планирования нельзя применить непосредственно, а только после регуляризации задачи.

Обозначения и схема исследования. Эффективность приведенных методов формирования представительных выборок демонстрируется на трех различных наборах экспериментальных данных. Для сравнения различных наборов и моделей используются несколько показателей: RMSEC (3.5), RMSEP (3.6), ПИО остатки (6.1) и ПЛС остатки для Y-переменных rPLS = y - ; ПИО размах (6.2) и ПЛС размах (2.5). При этом применяется одна и та же схема построения моделей 1. Строится ПЛС модель, Модель_Q, на основе Q набора, с фиксированным число ГК, и соответствующая ПИО модель, с фиксированным значением bSIC. Здесь Q – это B, или K, или D.

2. Модель_Q проверяется с помощью проверочного T набора.

(12.1) 3. Модель_Q используется для предсказания образцов из избыточного набора RQ.

4. Результаты калибровки и предсказания сравниваются с результатами, полученными для Модели_C.

и способы выбора и проверки поднаборов (Рис. 12.1).

Исходный Обучающий (C набор) Проверочный набор (G set) RMSEP_C Модель_C (RMSEC_C) (T набор) Граничный (B набор) RMSEP_B Модель_B (RMSEC_B) RB набор Кеннард-Стоун (K набор) RMSEP_K Модель_K (RMSEC_K) RK набор D-оптиальный (D набор) RMSEP_D Модель_D (RMSEC_D) RD набор Рис. 12.1 Исследуемые наборы и соответствующие им модели.

12.2. Эксперименты Для сравнения различных методов используются три набора экспериментальных данных. Первый – это БИК спектры, используемые для определения процентного содержания влаги в зернах пшеницы. Для 139 образцов, влажность измерялась в лаборатории с помощью стандартного метода высушивания навесок. Эти результаты использовались в качестве опорных значений, y (1391) В качестве X-данных использовались значения спектров пропускания – lgT(), в диапазоне 908–1120 nm (118 длин волн). Второй пример – это определение следовых концентраций нефти в воде (раздел 8.1), третий пример – это данные по аналитическому контролю процесса (раздел 11.1).

12.3. Сравнение репрезентативности различных выборок Для того чтобы сравнить подход, основанный на граничных образцах с уже известными методами, подробно изучался первый пример. Для этого, 10 раз повторялась следующая процедура.

1. Набор исходных данных (G набор, IG= 139) случайным образом делится на обучающий (C набор, IC= 99) и проверочный (T набор, IT= 40).

2. Для каждой такой пары C и T наборов строятся ПЛС модель с 4 ГК, и соответствующая ей ПИО модель с bSIC=1.5 (Модель_C) 3. Для каждого С-набора вычисляются свои B-, K-, и D-наборы и к ним применяется процедура (12.1).

Результаты такого моделирования (Таб. 12.1) подтверждают эффективность ПИО подхода. Применение метода граничных образцов к двум другим примерам приводит к аналогичным результатам Таб. 12.1 Определение влажности зерна. ПЛС модели с 4 ГК. Выбор представительных наборов и оценка основных свойств для 10 обучающих/проверочных наборов Модель_C Модель _B Модель _K Модель _D # IB RMSEC RMSEP RMSEC RMSEP RMSEC RMSEP RMSEC RMSEP 1 18 0.258 0.359 0.328 0.372 0.209 0.362 0.155 0.32 19 0.309 0.227 0.456 0.249 0.304 0.281 0.289 0.23 19 0.280 0.312 0.426 0.330 0.212 0.339 0.266 0.34 21 0.292 0.281 0.471 0.305 0.253 0.304 0.295 0.35 24 0.289 0.287 0.449 0.278 0.305 0.293 0.245 0.36 21 0.292 0.281 0.471 0.305 0.253 0.304 0.295 0.37 18 0.290 0.292 0.469 0.278 0.264 0.283 0.258 0.28 21 0.284 0.304 0.423 0.317 0.202 0.328 0.244 0.39 22 0.277 0.315 0.477 0.329 0.274 0.334 0.224 0.310 21 0.295 0.276 0.453 0.318 0.206 0.315 0.234 0.3Среднее 0.287 0.293 0.442 0.308 0.248 0.314 0.251 0.3В работе показано, что предположение о граничных образцах, как наиболее влиятельных, подтверждается еще и тем фактом, что предсказание "избыточных" образцов, составленный из всех внутренних образцов обучающего набора, осуществляется с наименьшей ошибкой предсказания (Таб. 12.2), а все "избыточные" образцы классифицируются как внутренние. При этом необходимо учитывать, что согласно схеме (12.1), после отбора представительных образцов строится новая ПЛС модель на основе представительной выборки, и только потом ПИО модель. Так что "избыточность" внутренних образцов для новой модели не является очевидным фактом.

Таб. 12.2 Точность предсказания "избыточных" образцов с помощью различных представительных выборок.

Модель RMSEC RMSEP Модель _C 0.280 0.3(для сравнения) Модель_B 0.426 0.2Модель_K 0.212 0.3Модель_D 0.266 0.312.4. Зависимость точности предсказания от объема представительной выборки В некоторых случаях, объем представительной выборки, определенной по методу граничных образцов, может показаться излишне большим. Так, например, для третьего набора данных, аналитического контроля процессов, он составил 45% (46 из 102 образцов). Поэтому важно исследовать, как влияет объем выборки на предсказательные свойства модели. Согласно методу ПИО, минимальное число граничных образцов определяются при = bmin. В рассматриваемом примере этот набор состоит из 8 образцов(IB8). Последовательно увеличивая b с b= bmin до b= bSIC, получаем расширяющийся В набор.

0.a) b) 0.RMSEC RMSEP 0.0.0.0.0.Subset size Subset size 0.00 0.5 10 15 20 25 30 35 40 45 50 5 10 15 20 25 30 35 40 45 Рис. 12.2. Аналитический контроль процесса. ПЛС модели с 7 ГК. Зависимость RMSE от объема выборки 1 – Модель_B, 2 – Модель _K, 3 – Модель _D, 4 – Модель_C Параллельно, для сравнения, применяя метод Кеннарда-Стоуна и D оптимальное планирование, строятся K - и D наборы, с таким же числом образцов.

Для каждого из этих наборов строится ПЛС модель с 7 ГК, вычисляются значения RMSEC, а также значения RMSEP на одном и том же проверочном наборе T.

При этом величины RMSEC и RMSEP можно рассматривать как функции, зависящие от объема выборки (Рис. 12.2), которые вычисляются для трех моделей (Модель_B, Модель_K, Модель_D). Из Рис. 12.2b, кривая 1, видно, что для B наборов функция RMSEP(IB) достаточно плавно убывает. Она быстрее, чем для наборов K и D, стремится к предельному значению, RMSEP(IC). При этом остаток калибровки (Рис. 12.2a, кривая 1) RMSEC(IB) все время остается наибольшим по сравнению с аналогичными значениями, вычисленными для наборов K и D, т.е.

B-набор аккумулирует в себе наиболее влиятельные обучающие образцы.

Из Рис. 12.2 b так же видно, что если целью является выбор такого короткого набора образцов, который мог бы использоваться вместо полного обучающего набора, и при этом предсказательная способность модели не ухудшилась, то необходимо не менее 42 образцов В набора. Это подтверждает не только влиятельность граничных образцов, а так же показывает, что объем выборки, предлагаемый методом ПИО, близок к оптимальному.

12.5. Результаты главы В этой главе представлен новый метод формирования представительной выборки – метод граничных образцов. Он основывается на методе ПИО (теория классификации статуса образцов), объединенным с регрессионными проекционными методами (РГК, ПЛС). Показано, что стратегия выбора граничных образцов является объективной, т.е. не требует никакой дополнительной или априорной информации, которую невозможно было бы получить из исследуемого набора данных. Показано, что граничные образцы, которые формируют представительную выборку, являются влиятельными образцами не только с точки зрения ПИО моделирования, но они так же являются влиятельными образцами и при регрессионном моделировании. Метод граничных образцов имеет следующие преимущества. Во-первых, он однозначно определяет необходимое число образцов в представительной выборке. Во-вторых, при отборе образцов, учитывается информация, как о значениях X- переменных, так и Y- переменных.

Термин «избыточные» образцы, который применялся к внутренним образцам обучающего набора, не следует трактовать непосредственно. Чем больше образцов в обучающем наборе, тем точнее можно определить число главных компонент в ПЛС или РГК моделях, а так же получить более точную оценку bSIC.

Три различных набора экспериментальных данных, представленные в этой главе были порождены различными практическими задачами, они отличаются друг от друга, как по внутреннему устройству данных, так и по сложности построенных для них ПЛС моделей. Это доказывает эффективность работы метода применительно к различным задачам.

Анализируя три стратегии формирования представительной выборки, можно сделать следующие выводы. Метод Кеннарда-Стоуна эффективен в том случае, когда исходный набор данных требуется разделить на равноценные наборы, например обучающий и проверочный. Этот метод выбирает образы равномерно, поэтому он менее эффективен при отборе наиболее влиятельных образцов. Методы D оптимального планирования и граничных образцов работаю более эффективно при отборе влиятельных образцов. При этом у метода граничных образцов имеются несколько преимуществ. Во-первых, он однозначно определяет необходимое число образцов в представительной выборке для исследуемого набора данных и построенной модели. Во-вторых, при отборе образцов учитывается информация, как о значениях X переменных, так и Y переменных.

ЗАКЛЮЧЕНИЕ И ВЫВОДЫ В работе рассмотрены теоретические, алгоритмические и методологические аспекты методов обработки больших массивов физико-химических данных.

Обобщая полученные результаты, можно сформулировать следующие выводы 1. Объединение проекционных регрессионных методов с методом простого интервального оценивания порождает мощный инструмент для решения задач многомерной калибровки. Такой подход позволяет обрабатывать очень большие массивы экспериментальных данных, пронизанных внутренними связями, и представлять результат прогноза в интервальной форме, учитывающий неопределенность в прогнозе индивидуально для каждого образца.

2. Предположение об ограниченности погрешностей, лежащее в основе метода ПИО, является не недостатком, а преимуществом метода, так как, с практической точки зрения, оно более обоснованно, чем традиционное допущение о нормальности, а, следовательно, и неограниченности погрешностей.

3. Приведены аргументы в пользу того, что ПИО-оценки, построенные на основе экстремальных статистик, являются более эффективными, чем традиционные гладкие оценки.

4. Показано, что метод ПИО вычисляет оценки неизвестных параметров модели в виде области в пространстве параметров, что, в свою очередь, позволяет представить результаты прогноза отклика в интервальном виде, учитывающим все погрешности (измерения, моделирования и пр.).

5. На основе метода ПИО разработан новый подход к классификации статуса образцов и интерпретации прогнозных интервалов. Введены новые понятия: ПИОостаток и ПИО-размах, диаграмма статуса образцов (ДСО). Даны определения понятиям внутренних, внешних, граничных образцов. Дано определение выбросов и абсолютно внешних образцов.

6. Показано, что разработанная классификации образцов имеет практическое значение не только в рамках метода ПИО. Статус образца имеет смысл и в рамках классических регрессионных моделей, а диаграмма статуса образцов является простым и удобным инструментом для визуализации и детального анализа сложных многофакторных данных.

7. Разработаны новые методы статистического контроля процессов. Метод, названный расширяющимся многомерном статистическим контролем, основан на построении серии ПЛС моделей, совместно с ПИО моделированием. Он позволяет вычислять как точечные, так и интервальные оценки выходного параметра на промежуточных стадиях процесса. Предложен метод активной оптимизации, разработаны различные стратегии оптимизации.

8. Предложен новый метод выбора представительных (влиятельных) образцов из экспериментального набора данных, названный методом граничных образов.

9. Проведено сравнение формального (ПИО) и содержательного (нелинейная регрессия) моделирования. Показано, что содержательный подход позволяет проводить экстраполирование, однако при этом нельзя ограничить область экстраполяции. Формальный метод имеет строгую область применимости, очерченную с помощью техники ПИО статуса. Он дает надежные результаты при решении задач классификации или интерполяции.

10. Показано, что дополнение стандартного метода ПЛС дискриминации методом ПИО повышает информативность при решении задач качественного анализа и распознавания.

11. Задачей количественного анализа является надежное предсказание откликов для новых образцов. Для сравнения различных моделей необходимы методы анализа их предсказательной способности. Сравнения моделей только по средним показателям недостаточно. Предлагается для такого сравнения использовать диаграмму статуса образцов построенную для проверочного набора и индивидуальные характеристики (ПИО размах и ПИО остаток) для каждого образца 12. Компьютерная программа SIC позволяет на практике применить предложенную методику, объединяющую проекционные регрессионных методов и ПИО моделирования. С ее помощью можно проводить обработку данных, оценивать точность построенной модели, проводить классификацию образцов.

Основное содержание диссертации опубликовано в работах:

1. Павлов Б.В., Родионова О.Е. Математическое моделирование сложных самоускоряющихся реакций. Теор. основы хим. технологии, 28, 251-258 (1994) 2. Павлов Б.В., Родионова О.Е. Численное решение систем линейных обыкновенных дифференциальных уравнений с постоянными коэффициентами. Ж.

вычисл матем. и матем. физ., 34, 622-627 (1994) 3. Павлов Б.В., Родионова О.Е. Методика усреднения при дискретизации кинетического интегро-дифференциального уравнения. Ж. вычисл. матем. и матем. физ., 36, 143-161 (1996) 4. Павлов Б.В., Родионова О.Е. Проблемы математического моделирования в неравновесной теории химических процессов. Xим. физ., 17, 27-40 (1998) 5. Bystritskaya E.V., Pomerantsev A.L., Rodionova O.Ye. Prediction of the aging of polymer materials. Chemom. Intell. Lab. Syst., 47, 175-179 (1999) 6. Bystritskaya E.V., Pomerantsev A.L., Rodionova O.Ye. Evolutionary Design of Experiment for Accelerated Aging Tests. Polymer Testing, 19, 221-229 (1999) 7. Pomerantsev A.L., Rodionova O.Ye. Chemometrics in Russia. Chemom. Intell.

Lab. Syst, 48, 121-129 (1999) 8. Bystritskaya E.V., Pomerantsev A.L., Rodionova O.Ye. Nonlinear Regression Analysis: New Approach to Traditional Implementations. J. Chemometrics, 14, 667-692 (2000) 9. Зобов В.Е., Лундин А.А., Родионова О.Е. К теории формы спектров ядерного магнитного резонанса в гетероядерных спиновых системах. Хим. физ. 19 (2), 39-43, (2000) 10. Зобов В.Е., Лундин А.А., Родионова О.Е. К теории форм спектров ЯМР в спиновых системах с двумя сортами яде. Хим. физ., 19 (12), 26-40 (2000) 11. Зобов В.Е., Лундин А.А., Родионова О.Е. О форме спектров поглощения ЯМР и кросс релаксации в гетероядерных спиновых системах. ЖЭТФ, 120, 619-636 (2001) 12. Померанцев А.Л., Кротов А.С., Родионова О.Е. Компьютерная система FITTER для регрессионного анализа экспериментальных данных, Учебное пособие, Барнаул, Из -во АГУ, 2013. Померанцев А.Л., Родионова О.Е. Надстройка FITTER (FITTER). Свидетельство об официальной регистрации № 2002611562 от 11.09.14. Pomerantsev A.L., Rodionova O.Ye. Prediction of Antioxidants Activity Using DSC Measurements. A Feasibility Study. In Aging of polymers, polymer blends and polymer composites, Eds:.E. Zaikov, A.L. Buchachenko and V.B. Ivanov, 2, 19-29, Nova science Publishers, NY, 2002 (ISBN 1-59033-256-3).

15. Родионова О.Е., Померанцев А.Л. Об одном методе решения обратной кинетической задачи по спектральным данным при неизвестных спектрах компонент. Кинетика и катализ, 45, 485-497 (2004) 16. Rodionova O.Ye., Pomerantsev A.L. Prediction of Rubber Stability by Accelerated Aging Test Modeling. In Leading Edge Research on Polymers and Composites, Eds: Monakov et al, cc. 105-124, Nova science Publishers, NY 2004, (ISBN:1-59033-975-4) 17. Rodionova O. Ye., Esbensen K. H., Pomerantsev A.L. Application of SIC (Simple Interval Calculation) for object status classification and outlier detection - comparison with PLS/PCR. J. Chemometrics, 18, 402-413 ( 2004) 18. Rodionova O.Ye., Pomerantsev A.L. Principles of Simple Interval Calculations.

In: Progress In Chemometrics Research, Ed.: A.L. Pomerantsev, 43-64, NovaScience Publishers, NY, 2005, (ISBN: 1-59454-257-0) 19. Pomerantsev A.L., Rodionova O.Ye. Multivariate Statistical Process Control and Optimization. Там же, 209-220. Semenchenko A.S., Semenchenko S.M., Rodionova O.Ye., Pomerantsev A.L. Explanatory data analysis of fish culture in Siberian lakes. Там же, 313-321. Rodionova O.Ye., Pomerantsev A.L. Prediction of Rubber Stability by Accelerated Aging Test Modeling. J. Appl. Polym. Sci., 95, 1275-1284 (2005) 22. Померанцев А.Л., Родионова О.Е. Содержательный и формальный подход к анализу кинетических данных. В сб. Химическая и биологическая кинетика.

Новые горизонты. М. Химия, 1, 124-172, 2005 (ISBN: 5-98109-035-9) 23. Родионова О.Е., Померанцев А.Л. Оценивание параметров в уравнении Аррениуса. Кинетика и катализ, 46, 329–332 (2005) 24. Pomerantsev A.L., Rodionova O.Ye. Hard and soft approaches to analysis of kinetic data. In: Chemical and Biochemical kinetics. New horizons, Eds. E.B. Burlakova, A.E. Shilov, S.D. Varfolomeev, G.E. Zaikov, Brill Academic Publishers, Leiden-Boston, 1, 80-107, 2025. Rodionova O.Ye., Houmller L.P., Pomerantsev A.L., Geladi P., Burger J., Dorofeyev V.L, Arzamastsev A.P. NIR spectrometry for counterfeit drug detection.

Anal. Chim. Acta, 549, 151-158 (2005) 26. Pomerantsev A.L., Rodionova O.Ye. Hard and soft methods for prediction of antioxidants' activity based on the DSC measurements. Chemom. Intell. Lab. Syst., 79, 73-83 (2005) 27. Pomerantsev A.L., Rodionova O.Ye., Hskuldsson A. Process Control and Optimization with Simple Interval Calculation Method. Chemom. Intell. Lab. Syst., 81, 165-179 (2006) 28. Родионова О.Е. Хемометрический подход к исследованию больших массивов химических данных. Рос. хим. ж. (Ж. Рос. хим. об–ва им. Д.И. Менделеева), 50, 128-144 (2006) 29. Померанцев А.Л., Родионова О.Е. О двух подходах к анализу кинетических данных на примере предсказания активности антиоксидантов. Кинетика и катализ, 47, 553–565 (2006) 30. Померанцев А.Л., Родионова О.Е. Построение многомерной градуировки методом простого интервального оценивания. Ж. аналит. химии, 61, 1032-10(2006) 31. Родионова О.Е., Померанцев А.Л. Хемометрика: достижения и перспективы.

Успехи химии, 75, 302-317 (2006)






© 2011 www.dissers.ru - «Бесплатная электронная библиотека»

Материалы этого сайта размещены для ознакомления, все права принадлежат их авторам.
Если Вы не согласны с тем, что Ваш материал размещён на этом сайте, пожалуйста, напишите нам, мы в течении 1-2 рабочих дней удалим его.