WWW.DISSERS.RU

БЕСПЛАТНАЯ ЭЛЕКТРОННАЯ БИБЛИОТЕКА

загрузка...
   Добро пожаловать!

Pages:     | 1 || 3 |

Анкетные данные включают признаки различной природы, в виде количественных и качественных характеристик изучаемых объектов и явлений, и могут содержать значительное количество пропусков. При масштабных опросах на точность данных может оказать большое влияние личность интервьюеров. Поэтому использование многомерных методов анализа данных требует предварительного исследования достоверности данных и разработки методик их восстановления. Для профессиональной обработки данных требуется разработка специальных компьютерных технологий.

Во второй главе рассматриваются методы и алгоритмы повышения достоверности анкетных данных.

Предложенные методы анализа качества данных были разработаны на основании обобщения и формализации процедур углубленного качественного анализа достоверности данных, производимого экспертами, обладающими обширными знаниями по исследуемым объектам и явлениям. Невозможно разработать единого метода выявления грубых ошибок, поскольку это понятие имеет нечеткое определение, зависящее от содержательного смысла признаков и целей решения задач анализа данных. Необходимость разработки набора инструментальных средств анализа качества данных обусловлена еще и тем, что признаки различной природы требуют своих методов обработки.

Предложенные методы объединяет то, что они используют единый подход к анализу и принятию решения о возможных действиях по снижению уровня выделенных ошибок. Алгоритмы работают по принципу многомерных фильтров, упорядочивающих многомерные данные в соответствии с установленными критериями.

В работе предложены две группы алгоритмов выявления грубых ошибок: статистические фильтры и логические фильтры. К группе статистических методов отнесены и алгоритмы выделения многомерных данных по количеству и качеству пропусков.

Далее в работе подробно рассмотрены семь статистических алгоритмов выявления ошибок:

1. Фильтр отсутствия данных (ФОД), выполняющий анализ анкетных данных на отсутствие данных и выделяющий анкеты, которые содержат наибольшее количество значений отсутствия данных.

2. Фильтр экстремальных непрерывных значений (ФЭНЗ), основанный на предположении о том, что если пакет данных (набор данных, представленный конкретным интервьюером) содержит недостоверную информацию, то большие отклонения от средних значений будут не только по одному признаку, но и по другим признакам.

3. Фильтр ранжирования непрерывных значений (ФРНЗ), основанный на ранжировании отклонений от среднего значения признака. Этот фильтр дает неплохие результаты, когда нет тесной связи между признаками, а при большом количестве признаков такой зависимости, как привило, не обнаруживается.

4. Фильтр метрических непрерывных значений (ФМНЗ), основанный на подсчете расстояния от объекта до центра выборки с использованием известных метрик Евклида, Хэмминга и Махаланобиса.

5. Фильтр частот кодированных значений (ФЧКЗ), основанный на сравнении частотных рядов по каждому признаку. Этот фильтр используется для признаков, измеренных в ранговых и номинальных шкалах.

6. Фильтр замены кодированных значений (ФЗКЗ), основанный на том, что в номинальной шкале каждый признак может быть представлен некоторым ограниченным списком значений. Рассчитав частоту встречаемости каждого значения, можно произвести замену значений наблюдения на частоты встречаемости данного значения и рассчитать среднее значение частоты.

7. Фильтр эталонных значений (ФЭЗ), основанный на использовании идей распознавания образов. Пакет анкет, обеспечивающий наименьшую ошибку распознавания, можно считать более обособленным и, следовательно, он рассматривается как аномалия, требующая содержательного анализа.

В программной реализации каждый алгоритм представлен двумя модулями. Один модуль служит для обработки отдельных наблюдений, второй — для обработки пакетов анкет, представленных различными интервьюерами.

При пакетной обработке в название фильтра добавляется буква «Г» (групповой).

В качестве примера статистического фильтра рассмотрим принцип работы «Фильтра экстремальных непрерывных значений группового» (ФЭНЗГ), предназначенного для работы с признаками, измеренными в шкале отношений. Этот фильтр создан для работы с пакетами данных различных интервьюеров.

Запишем одно наблюдение из r-го пакета набором m значений:

x (x, x,...,x,...,x ), (1) ir ir 1 ir 2 ir j irm считая, что все m признаков измерены в шкале отношений. Тогда задача состоит в том, чтобы из k пакетов анкет выделить пакет, который имеет наибольшие отличия от остальных пакетов.

Для этого последовательно для каждого пакета r (r=1, 2, …, k) повторяется следующая процедура: рассчитываются средние значения m признаков по выборке за исключением пакета с номером r:

r r r r r X (x, x,...,x,...,x ), (2) 1 2 j m и средние значения признаков по пакету с номером r:

r r r r r X (x, x,...,x,...,x ). (3) 1 2 j m Вычисляются поэлементные модули разностей двух векторов средних:

r r X X. (4) r Объединяем все отклонения в одну матрицу размерности k m.

r На основании матрицы рассчитаем матрицу M той же размерности. Вычисления производятся по схеме: определяется максимум в каждом столбце матрицы, затем элементу матрицы M, соответствующему значению максимума, присваивается значение единицы, всем остальным элементам матрицы M присваивается значение ноль. В результате построчного суммирования элементов матрицы M получим вектор оценок для каждого интервьюера:

м м м м м (,,...,,..., ). (5) 1 2 r k м Интервьюер с наибольшим значением будет иметь максимальный штраф, и поэтому его данные могут быть поставлены под сомнение. Теперь исследователь может сосредоточить свое внимание на отдельном пакете первичных данных, подвергнуть их дополнительному содержательному анализу, в результате которого он определяет, является отклонение допустимым или нет. Это достаточно грубый фильтр. Он основан на предположении о том, что если пакет анкет содержит недостоверную информацию, то большие отклонения от средних значений будут не только по одному признаку, но и по другим.

В программной реализации данный фильтр допускает применение двух вариантов весовых коэффициентов признаков. В первом случае учитывается наличие нескольких значений признака, соответствующих максимальному значению. В этом случае вначале рассчитываются коэффициенты q по форj муле:

m j j q, (6) j j где – количество значений, равных максимальному значению для признаj ка с номером j в исходной матрице данных.

Весовые коэффициенты Q получаются путем нормировки коэффициj ентов q :

j q j Q. (7) j n q j j Вектор оценок интервьюеров с учетом весов, будет равен:

м1 м1 м1 м1 м(,,...,,..., ). (8) 1 2 r k Второй вариант расчета весовых коэффициентов предполагает предварительную модульную нормализацию признаков. Другими словами, исходные значения признаков x преобразуются к виду:

ij x X ij j x, (9) ij S j где X – среднее значение признака с номером j;

j S – оценка дисперсии признака с номером j.

j Тогда графическую интерпретацию вводимого коэффициента, на примере двух признаков, можно изобразить рис. 2.

max(xij1 ) Признак ji q max(xij2 ) q jji Признак jРис. 2. Графическая интерпретация весового коэффициента Далее в работе рассмотрены два логических алгоритма повышения качества данных. Первый логический алгоритм предназначен для разработки типологий по качественным признакам, полученным как ответы на открытый вопрос. Введено понятие составного признака, для которого определены три варианта расчета частотных рядов простых значений. Применение этого алгоритма позволяет расширить пространство признаков за счет новых признаков, полученных в результате обработки качественной информации.

Такие признаки в анкетах, как правило, не обрабатываются ввиду отсутствия методики средств их обработки. Между тем эти признаки могут оказаться очень информативными, поскольку респондентам не навязывается жесткая схема ответа.

Второй логический алгоритм предназначен для выявления логических противоречий в многомерных данных, которые плохо улавливаются статистическими фильтрами. Алгоритм основан на содержательном анализе признаков.

Оба алгоритма позволяют аккумулировать знания и опыт, полученные в ходе работы над проектом анализа анкетного опроса. Отличие этих алгоритмов состоит в активном участии исследователя в процессе работы программ. Такие алгоритмы зависят от возможностей программной среды, в которой они реализованы. В нашем случае в процессе работы с программами пользователь может использовать весь арсенал средств обработки данных, предоставляемых EXCEL.

Разработанные алгоритмы и реализующие их программные модули выявления грубых ошибок прошли апробацию на нескольких крупных проектах анкетных опросов и показали высокую эффективность по выявлению выбросов, которые исследователи не могли обнаружить при сверке данных и использовании традиционных одномерных методов анализа качества данных.

Далее в главе рассматриваются задачи обработки анкетных данных, которые могут быть решены с использованием алгоритмов многомерной классификации и распознавания образов. При этом выделяются четыре задачи:

– задача выявления выбросов или грубых ошибок;

– задача восстановления данных;

– задача выделения однородных групп объектов (классификация);

– задача прогнозирования признаков (распознавание по обучающей выборке).

Для их решения предлагается использовать непараметрический алгоритм интегральной диагностики, который ранее использовался только в технических системах. Преимущество алгоритма состоит в том, что он может работать с признаками различной природы. Рассматривается общая схема работы алгоритма. Принцип работы алгоритма состоит в разработке эталонов классов по многомерной обучающей выборке. При решении перечисленных задач используются свои способы формирования обучающей и контрольной выборок. Поэтому для каждой задачи разработаны свои программные модули, ориентированные на конкретные задачи. В работе рассмотрены особенности применения алгоритма при решении этих задач.

Все программы, реализующие алгоритмы, рассмотренные в главе, представлены в виде единого комплекса программных средств, выполненного в виде приложения EXCEL.

В третьей главе рассматриваются структура и принципы построения специализированного комплекса программных средств обработки анкетных данных. Компьютерная технология анализа данных строится на принципах системного подхода к анализу анкетных данных, который начинается от формулировки целей исследования и заканчивается формулировкой содержательных выводов (рис. 3).

Разработанный программный комплекс основан на определении понятий «проекта анкетного опроса» и «модель данных опроса», которые приводят к определенным правилам компьютерного представления информации и доступа к программам комплекса. Структура проекта включает семь элементов: исходные данные по анкетному опросу, параметры проекта, даты изменений, фильтры, словари замены, отчеты, изъятые данные. В работе обсуждается содержание и назначение этих элементов.

СИСТЕМА ЗАДАЧ, РЕШАЕМЫХ ПО ДАННЫМ АНКЕТНЫХ ОПРОСОВ EXCEL – компьютерная среда обработки данных Представление дан- Разработанный ных в соответствии с специализированразработанной моде- ный комплекс пролью данных граммных средств Ограничения, Внешние пакеты обработки статистических данных связанные с данных STATISTICA SPSS STATGRAPHICS BMDP внешней средой и экономическим обеспе- SAS SYSTAT САНИ STADIA Класс-Мастер чением проекта Рис. 3. Компьютерная технология анализа анкетных данных Отдельные модули разработанного программного комплекса объединены в четыре раздела по функциональному признаку (рис. 4). В работе подробно рассмотрены функции каждого из разделов.

Алгоритмы повышения достоверности анкетных данных Статистические алгоритмы Логические алгоритмы Анализ структуры анкетных данных Алгоритм разработки типологий Непараметрический алгоритм многомерной классификации Вспомогательные средства анализа данных Процедуры преобразования данных Сервисные и визуальные средства анализа анкетных данных Моделирование многомерных выборок Служебные средства Рис. 4. Основные разделы программного комплекса данных База данных Система сбора анкетных Далее в работе рассматриваются особенности работы с программами комплекса. Приводятся результаты расчетов и апробации программ на реальных данных. В частности, приводятся графики изменения критериев, полученные с помощью различных статистических фильтров, как, например, график расчета критериев ФОД (рис. 5).

0,0,0,0,0,0,0,0,0,1 3 5 7 9 11 13 15 17 19 21 23 25 27 29 31 33 35 37 Номер анкеты в упорядоченном списке анкет Рис. 5. Значения критерия ФОД Приводится сравнительный анализ результатов полученных с помощью различных статистических фильтров на реальных данных (рис. 6).

ФЭНЗ 20% 20% 50% 70% ФРНЗ ФОД 30% 20% Ре Рх 60% ФМНЗ ФМНЗ Рис. 6. Степень совпадения выявленных выбросов Далее в работе рассматриваются вспомогательные и служебные программы разработанного программного комплекса.

Вспомогательные средства выполняют следующие задачи:

– автоматизируют работу пользователя при формировании элементов проекта в соответствии с устанавливаемыми правилами описания проекта;

– облегчают контроль целостности проекта, то есть определяют возможные нарушения в описаниях структуры проекта, ошибочно введенные пользователем;

– накапливают статистику о ходе выполнения проекта.

Вспомогательные средства объединены в три группы:

– операции преобразования данных;

– графические средства для визуализации данных;

Критерий ФОД – средства моделирования многомерных данных.

Предложенные в работе методы и программные средства являются основными элементами новой методики анализа информации анкетных данных. Методика охватывает все этапы исследований, начиная от составления текста анкеты до решения прикладных задач, и ориентирована на повышение качества конечного результата исследования. При этом можно выделить ряд направлений повышения качества.

Pages:     | 1 || 3 |






© 2011 www.dissers.ru - «Бесплатная электронная библиотека»