WWW.DISSERS.RU

БЕСПЛАТНАЯ ЭЛЕКТРОННАЯ БИБЛИОТЕКА

   Добро пожаловать!

Pages:     | 1 ||

«Московский государственный университет культуры и искусств На правах рукописи СБОЙЧАКОВ КОНСТАНТИН ОЛЕГОВИЧ АВТОМАТИЗИРОВАННАЯ СИСТЕМА СМЫСЛОВОЙ ОБРАБОТКИ ТЕКСТОВ ПРИ СОЗДАНИИ ЭЛЕКТРОННЫХ ФОНДОВ ...»

-- [ Страница 2 ] --

Рис. 26. Релевантности текстов из разных тематических групп Красная верхняя кривая – тексты из тематической группы ПОС1 экология, синяя нижняя кривая - тексты из тематической группы ПОС2 социология, пунктиром показаны тренды кривых. При определении близости одного текста к другому важно правильно определить контекст, то есть выбрать словарь ПОС, слова из которого будут выбраны из данного текста как значимые слова. Однако, для выбора контекста необходимо знать к какой тематической группе относится данный текст. Для текста, не содержащегося в базе данных, это неизвестно, поэтому определяется его релевантность контексту полного словаря базы данных. Для определения тематической группы внешнего текста, не содержащегося в базе данных, в системе применяются следующие алгоритмы: 1. После сортировки по значению релевантности можно получить матрицу вида текст/текст для текстов с максимальным значением релевантности и в системе Visual HCA определить из какой тематической группы наиболее близкие тексты. Матрица текст/текст может быть рассчитана на только основе слов, содержащихся в заданном тексте или на основе всех слов из выбранного контекстного словаря. В первом случае вектор слов для заданного текста будет единичным и система Visual HCA позволит определить наиболее близкие к нему тексты. Во втором случае система Visual HCA будет рассматривать близость заданного текста к тематическим группам базы данных, представленным в виде текстов наиболее близких к данному. Так как избранные тексты не обязательно представляют правильную несмещенную оценку тематических групп базы данных, результат может быть неоднозначен. Этот факт есть следствие того, что задача определения тематической группы и задача нахождения наиболее близких текстов к заданному тексту, различны, хотя и имеют много общего. Для обеих задач определяющим является выбор контекста, в любом случае, если в базе данных нет текстов на заданную тему, достоверность результата низка вследствие большой статистической ошибки. 2. Используя базовый набор словарей можно определить вектор текст/ПОС и в факторном пространстве определить близость заданного текста к центрам различных тематических групп по эллипсам рассеяния, например. Таким образом, релевантность может служить ориентиром при определении тематического индекса для данного текста, однако ее абсолютная величина условна и не применима для сравнения разных текстов между собой. Для сравнения текстов необходимо использовать вектор, описывающий распределение слов из ПОС по данному тексту. Используя алгоритмы кластеризации в системе Visual HCA можно с достаточной долей достоверности произвести классификацию текста. Автоматизировать этот процесс можно используя эллипсы рассеяния в факторном пространстве ПОСi, однако если данный текст лежит в тематической области не имеющей ПОС в базе данных, релевантность может служить единственным критерием для анализа. Кроме того, релевантность служит удобным инструментом для сортировки текстов по близости к заданной тематической области. Используя в качестве базовой величины значение ПОСi для данного текста можно рассматривать другие тексты в контексте данного текста, который либо уточняет какой-либо тематический контекст либо рассматривается на фоне основного словаря базы данных ПОС0. В этом случае релевантность к данному тексту будет близка к корреляции между векторами распределения слов ПОС и может поэтому служить мерой близости. Естественно, при определении тематической группы часть текстов может быть отнесена к ней с некоторой натяжкой по разным причинам. Обычно такие тексты близки по форме к авторефератам статей, имеют малый объем и содержат термины в единичном экземпляре. 3.5. Алгоритм расчета близости текстов заданному тексту-образцу На основании вышеприведенной методики смыслового анализа можно описать основной алгоритм определения наиболее близких текстов базы данных к внешнему тексту как следующий список пунктов:

1. Выбор контекста. Пользователь определяет словарь или набор словарей ПОС из классификатора базы данных, с помощью которых проводится анализ внешнего текста. Если контекст не задан система будет использовать основной словарь, который всегда определяется при создании базы данных. Классификатор предоставляется пользователю в виде иерархического списка индексированных тематических глав, каждой из которой соответствует свой словарь ПОС. В этом режиме выбора возможно объединение различных ПОС в единый контекст. 2. Пересечение контекста и внешнего текста с целью создания поискового образа ПОСi в виде списка значимых слов. 3. Поиск текстов, содержащих слова из поискового образа внешнего текста в заданном пользователем минимальном процентом отношении. Этот параметр важен для больших баз данных, чтобы отсечь случайные, несвязанные с заданным, тексты. 4. Расчет релевантности всех найденных текстов внешнему тексту и сортировка по его значению. Отбор в окончательный список текстов с релевантностью выше заданной. Этот параметр фактически совпадает с предыдущим и служит для окончательного отбора текстов. 5. Расчет для отобранных текстов и внешнего текста векторов текст/ПОС, на базе которых создается файл текст/ПОС для анализа в системе Visual HCA. Изображение в факторном пространстве классификатора базы данных ПОСi и на графе выбранных текстов позволяет пользователю практически мгновенно оценить фактор близости внешнего текста к тематическим группам базы данных. 6. Если это необходимо, продолжение анализа для получения более детальной информации в системе Visual HCA.

Перспектива развития алгоритма фрагментации текстов Режим фрагментации текстов может пока использоваться только администратором системы при проведении структурирования базы данных. Для применения алгоритма фрагментации на уровне пользователя системы необходимо провести дополнительные исследования с целью определить достоверность получаемых результатов. Идея фрагментации текстов заключается в том, чтобы высечь из текстов те части (фрагменты), где наблюдается сгущение значимых слов из ПОС. Размер фрагмента очень важная характеристика, связанная с понятием минимального размера фразы для определения понятия, то есть фразы имеющей смысл. Очевидно, число слов и предложений в такой фразе имеет некий разумный оптимум. Заранее определить это значение невозможно, поэтому для выделения фрагментов предлагается задать значение максимального расстояния (в словах) между значимыми словами в нем. Это расстояние косвенно влияет на размер фрагмента, характеризуя минимально возможную степень сгущения значимых слов. Другим важным параметром определения фрагмента является минимальное количество значимых слов в нем. Этот параметр влияет на размер фрагмента и на его содержательность. При малом значении фрагмент получается обедненным, вырванным из контекста. При большом значении разные фрагменты могут сильно отличаться друг от друга по содержанию. Для выделения фрагментов используется любой словарь, созданный в системе. Число слов в словаре является скрытым и очень важным параметром. При большом разнообразии терминов в словаре из текстов будут выделены различные фрагменты. Технология фрагментации является перспективной в плане применения ее пользователем системы для выделения фрагментов по заданным словам. При формулировке запроса на естественном языке алгоритм поиска близких текстов не даст большого эффекта, если фраза запроса содержит мало значимых слов или не содержит их вовсе. Наилучшим решением здесь является использование тезауруса для расширения контекста запроса и выделения фрагментов из найденных текстов, причем величина релевантности фрагментов запросу определяется числом слов во фрагменте. Выводы по 3-й главе В третьей главе говорится о том, как система смыслового анализа текстов работает по запросу читателя и как производится оценка близости текстов (релевантность). Приводятся подробные описания: • алгоритма отбора слов в естественно-тематический словарь;

• алгоритма создания естественно-тематического классификатора;

• алгоритма сравнения текстов и расчета близости текстов заданному тексту-образцу. На основе эмпирического закона Ципфа в главе дано научное обоснование алгоритма отбора слов в естественно-тематический словарь, определяющий основной тематический контекст базы данных, и на практических примерах демонстрируется достоверность его работы. Далее в главе подробно описывается алгоритм создания естественнотематического классификатора полнотекстовой базы данных, который основан на разбиении основного естественно-тематического словаря на ряд предметно-ориентированных словарей. На конкретных примерах продемонстрирована методика работы и показано, как получить наиболее достоверную тематическую классификацию массива текстов. В следующем разделе главы приводится алгоритм сравнения текстов и числовой оценки их близости, в заключающийся базы в подборе такой тематической группы классификаторе данных, предметно ориентированный словарь которой наиболее широко представлен в данном тексте. В главе показано, что среднее значение числа слов из предметноориентированного словаря, присутствующих в текстах из данной тематической группы, колеблется в широких пределах. Набор таких слов данного текста с номером i из предметно-ориентированного словаря с номером j как ПОСij. Конкретное значение ПОСij сильно зависит от объема предметно-ориентированного словаря. Фактически ПОСij – это словарь, описывающий данный текст i в контексте тематической группы с индексом j. Такие словари принято называть поисковым образом текста. Число слов в ПОСij зависит от суммарного числа слов в тексте, и если для каждого текста ввести коэффициент отклонения от максимального числа слов Wi, Wi = Ni/Nmax где: Ni – число слов в тексте с номером i;

Nmax – максимальное число слов. то абсолютный коэффициент отношения данного текста i к тематической группе с индексом j с учетом размера текста будет равен Kij. Kij = ПОСij*Wi При естественно-тематической классификации текста c номером i для каждого тематического индекса j рассчитываются значения: R0ij, которое в работе предлагается называть релевантностью текста с номером i тематической группе с индексом j, и значение Rij – релевантность c учетом размера текста.

Rij = Kij / NNj R0ij = ПОСij / NNj где: ПОСij – число слов из предметно-ориентированного словаря с индексом j, присутствующих в тексте i;

NNj – общее число слов в предметно-ориентированном словаре с номером j. При поиске близких текстов пользователь системы (читатель) получает отсортированный по значению релевантности список текстов. В диссертационной работе показано, что учет размера текста делает релевантность более устойчивой величиной при переходе от текста к тексту внутри тематической группы. На практических примерах показано, как изменяются значения релевантности в зависимости от тематической принадлежности текста.

102 Глава 4. Перспективы развития ИРБИС в плане применения системы смыслового анализа текстов для создания полнотекстовых баз данных в современной библиотеке 4.1. Автоматизированная библиотечная система ИРБИС в ГПНТБ России Данная работа ориентирована на те библиотеки, в которых уже существует или планируется к внедрению электронный каталог и развита информационная структура обслуживания читателей. При внедрении информационных технологий в настоящее время Россия ориентируется на Запад. В качестве дополнительного сервиса во многих библиотеках Запада предлагается полнотекстовый поиск по специализированным базам данных. Как правило, это статьи из научных журналов, аннотации и авторефераты научных работ [38-40,92]. Современная библиотека включает в себя информацию на традиционных печатных носителях, электронную информацию в широком смысле слова – это аудио видео информация, Интернет-ссылки и так далее. Сегодня необходимо развивать новые технологии извлечения и анализа текстов, использовать электронные ресурсы, которые накапливаются в библиотеке как следствие процессов обработки при обслуживании читателей, например, сканирование при электронной доставке документов, а также создание электронных фондов ретроспективных документов. В данной работе разработана методика создания полнотекстовых баз данных на основе текстов электронных фондов библиотеки с возможностью смыслового поиска на базе системы автоматизации библиотек ИРБИС [14]. Система автоматизации библиотек ИРБИС представляет собой типовое интегрированное решение в области автоматизации библиотечных технологий и предназначена для распространения и использования в условиях библиотек любого типа и профиля. Первая версия системы разработана в ГПНТБ России в 1995 г. За прошедшие годы она претерпела существенные изменения, пройдя путь от скромной системы с ограниченными возможностями, функционирующей в среде MS DOS, до подлинно интегрированной системы, работающей в Windows и отвечающей всем требованиям, которые предъявляются к современным библиотечным системам. Можно считать, что ИРБИС является обобщением, типизацией многолетнего опыта ГПНТБ в области автоматизации. С другой стороны, ИРБИС является той моделью, на основе которой в силу открытости системы реализуются новые идеи и концепции. Система ориентирована на работу в локальных вычислительных сетях любого типа без ограничения количества пользователей при условии, что клиентской платформой является MS DOS или Windows и обеспечивается доступ к файл-серверу. В системе имеются средства поддержки телекоммуникационных технологий, ориентированных на конечного пользователя (читателя), а именно: Web-ИРБИС – решение, обеспечивающее доступ к базам данных ИРБИС через WWW-сервер, и сервер баз данных для протокола Z39.50. Система полностью совместима с международными форматами UNIMARC и USMARC на основе средств двухсторонней конверсии данных. Система также поддерживает Российский коммуникативный формат RUSMARC. В системе реализованы все типовые библиотечные технологии, включая технологии комплектования, систематизации, каталогизации, читательского поиска, книговыдачи и администрирования, на основе взаимосвязанного функционирования пяти типов автоматизированных рабочих мест (АРМ): “Комплектатор”, “Каталогизатор”, “Читатель”, “Книговыдача”, “Администратор”. Система позволяет создавать и поддерживать любое количество баз данных, составляющих электронный каталог (ЭК) или представляющих собой проблемно-ориентированные библиографические базы данных (БД). Система предлагает технологию автоматического формирования словарей, на основе которых реализуется быстрый поиск по любым элементам описания и их сочетаниям. Средства каталогизации позволяют обрабатывать и описывать любые виды изданий, включая нетрадиционные, такие как аудиои видеоматериалы, компьютерные файлы и программы, картографические материалы, ноты и т.д. Система поддерживает традиционные “бумажные” технологии, предоставляя возможности для получения широкого спектра выходных форм: начиная с листов заказа и книги суммарного учета и кончая указателями и всеми видами каталожных карточек. Система включает технологии, ориентированные на использование штрих-кодов на экземплярах изданий и читательских билетах. Система предлагает большой набор сервисных средств, обеспечивающих удобство и наглядность пользовательских интерфейсов, упрощающих процесс ввода, исключающих ошибки и дублирование информации. Система обладает широкими возможностей для адаптации ее к условиям работы конкретной библиотеки, т.е. при передаче и установке системы может производиться ее настройка в соответствии со специфическими требованиями пользователя - начиная со структуры библиографического описания и кончая пользовательскими режимами работы.

Система является в достаточной мере открытой, что позволяет пользователю самостоятельно вносить изменения в широких пределах: от изменения входных и выходных форм до разработки оригинальных приложений. В настоящее время ИРБИС является одной из наиболее динамично развивающихся и пользующихся спросом библиотечных систем в России. Наряду с поддержкой традиционных технологий система ИРБИС использует современные информационные средства для развития инфраструктуры библиотечного обслуживания. Данная работа позволит библиотекам – пользователям ИРБИС предоставить читателям возможность смыслового, интеллектуального анализа найденных текстов в полнотекстовых базах данных библиотеки. До выполнения настоящей работы система автоматизации библиотек ИРБИС (ИРБИС32) использовала структуру хранения данных пакета прикладных программ CDS\ISIS, которая специально ориентирована на хранение и поиск больших объемов текстовой информации. Особенности ИРБИС32 в сравнении с реляционными СУБД это - переменная длина полей, малая связность записей и текстовый формат данных. Наряду с очевидными достоинствами для своего времени, ИРБИС32 не удовлетворяет современным требованиям и имеет существенные ограничения. Такими ограничениями являются - физические размеры файлов баз данных, максимальная длина поискового термина, размер ссылки на поисковый термин и ограничение на число записей. В основном, это следствие международных стандартов хранения и обмена библиографической информации UNIMARC. Наряду с очевидными достоинствами для своего времени, в настоящий момент стандарт ИРБИС32 требует дальнейшего развития с целью снять ограничения, оставшиеся от наследия операционных систем прошлого (DOS). Такими ограничениями являются - физические размеры файлов баз данных, максимальная длина поискового термина, размер ссылки на поисковый термин и ограничение на число записей. В 2001 году начата работа по созданию следующего - четвертого поколения системы - ИРБИС 64 [125]. Можно выделить две основные предпосылки, определившие необходимость этой работы: • Снятие количественных ограничений в физической структуре БД, касающихся объема БД, длины записи, длины термина и др. Здесь следует заметить, что существующие ограничения, кроме длины термина, носят для большинства пользователей системы ИРБИС пока чисто теоретический характер. • Перевод системы на клиент-серверную архитектуру. Здесь также следует отметить, что к такому переходу нас побудили не реальные недостатки и трудности, связанные с нынешней файл-серверной архитектурой системы, а следование общим положениям о преимуществах клиентсерверной технологии. Ограничения ИРБИС32 на физический размер файлов словаря не позволяют создать достаточно большие базы данных. Далее будет показано, каким образом размер накопленной информации влияет на качество смыслового поиска, здесь же достаточно сказать, что этот факт связан со стандартной статистической ошибкой наблюдения случайных событий (корень квадратный из числа наблюдаемых событий). Еще одним существенным ограничением ИРБИС32 является размер ссылки на запись в файле словаря – 2 байта. Ссылка на запись – это единица хранения информации, которая может быть найдена по заданному термину. Такая ссылка включает в себя номер записи в базе данных, номер поля, из которого извлечен данный термин номер, повторения данного поля и номер термина среди других терминов в данном поле. Дополнительная информация, такая как номер предложения, номер абзаца и фрагмента слова оказывается анализа. В рамках развития системы ИРБИС был разработан новый стандарт хранения данных и полнофункциональная библиотека доступа - ИРБИС64 [125]. Параметры ИРБИС32 и ИРБИС64 для сравнения: 1. Ограничение на число документов: 16млн ------- 8тлн. записей. 2. Ограничение на размер БД: 500 Mb ------- 2 млрд.Gb. 3. Ограничение на размер записи: 32Kb ------- 2Gb. 4. Ограничение на размер поискового термина: 30--------255 символов. Снятие ограничений ИРБИС32 позволяет создать в среде ИРБИС полнотекстовые базы данных, организовать смысловой поиск и анализ найденных документов. 4.2. Разница между системой смыслового анализа для ИРБИС32 и ИРБИС64 История создания системы такова: 1. В 1998 г. Создана система визуального эвристического анализа числовых Мэра матриц в Visual HCA под руководством профессора и П.П.Макагонова. Система отрабатывалась на практике в Управлении Москвы различных областях естественно-научных гуманитарных знаний (вопросы управления и устойчивого развития города). Неоднократно публиковались доклады на конференциях в Мексике (Китай, Бельгия) и статьи в зарубежных и отечественных журналах. В 2000 г. разработана прикладная система визуального мониторинга данных измерений загрязнения Мехико с применением системы визуального эвристического анализа. утерянной. Это увеличивает время, требуемое для сопоставления различных текстов при применении алгоритмов смыслового 2. В 1999 г. Создана система смыслового анализа массива текстов. Для ежегодной Московской конференции под эгидой Юнеско ООН создана первая версия системы смыслового анализа текстов в среде ИРБИС. Выпущена партия полнотекстовых баз данных с работами ведущих современных специалистов в области градостроительтсва и роздана мэрам городов России, принимавшим участие в Конференции. Система опиралась на существующую версию ИРБИС-1999. 3. 1999 – 2002 г. Доработка ИРБИС32 с целью развития системы ИРБИС и разработки системы смыслового анализа для больших полнотекстовых хранилищ. Разработка СУБД ИРБИС64 и сервера ИРБИС64. 4. 2002 – 2003 г. Разработка новой версии системы текстового анализа для новой версии ИРБИС64. 5. 2003 – г. Перспективная разработка Интернет-версии системы текстового анализа в рамках WEB-ИРБИС64. Основные алгоритмы системы смыслового анализа отработаны на практическом материале при создании базы данных по теме устойчивого развития городов. По результатам работы стало очевидной необходимость доработки ИРБИС32 для снятия внутренне присущих ограничений. Большое время было потрачено на создание клиент-серверной версии ИРБИС64. В настоящее время ведется отработка версии системы смыслового анализа для ИРБИС64. 4.3. Подготовка специалистов библиотеки для работы с системой Существует несомненный интерес у пользователей системы ИРБИС во многих библиотеках, особенно это касается вузовских библиотек, к использованию системы полнотекстового анализа. Основными трудностями на сегодняшний день являются:

1. Отсутствие технологической и правовой проработки процессов создания электронных текстовых ресурсов. Наблюдается недостаток в технических средствах хранения информации большого объема и юридическая неполнота в России вопроса об авторских правах. 2. Необходимость серьезной подготовки специалистов библиотеки к работе с системой смыслового анализа, так как ее специфика лежит в области информационной числовой обработки данных, что нестандартно для средней библиотеки. Для пользователей системы ИРБИС применение алгоритмов смыслового анализа текстов станет существенным дополнением к существующей системе. Возможное соотношение рубрикаторов, применяемых в библиотеке, и естественно-тематического классификатора системы Многие библиотеки используют тематические рубрикаторы для индексации. Система ИРБИС позволяет использовать и дополнять рубрикатор ГРНТИ, по аналогии с которым пользователи ИРБИС могут создать уникальный рубрикатор по выбранной тематике. Естественнотематический классификатор по структуре полностью подобен рубрикатору ГРНТИ. Может быть сформулирована задача создания полнотекстовых баз данных на основе существующего рубрикатора. Такое решение возможно в случае накопления текстов по как минимум основным тематическим рубрикам, чтобы система построила словари ПОС для соответствующих тематических индексов. Также возможно привлечь экспертов для создания таких словарей в отсутствии массива текстов. Как итого, можно сказать, что решение этого сложного вопроса должно быть получено в режиме эксплуатации системы на практике.

4.4. Последовательность операций при создании и ведении базы данных ИРБИС при использовании системы смыслового анализа текстов 1. Определить тематическое наполнение базы данных. Необходимо обучить специалиста в области лингвистики данной библиотеки работе с программами системы, так как кроме администратора системы будет необходим эксперт для настройки баз данных. Если используется уже существующий электронный каталог, в котором есть режим показа полных текстов, необходимо перевести текстовые файлы в формат WINDOWS PLAIN TEXT. 2. Набрать достаточное количество текстов для первичной структуризации базы данных и подготовки естественно-тематического классификатора. Для начала работы необходимо иметь в базе данных как минимум несколько сотен текстов, общим объемом не менее 10 Mb. Число тем на первом этапе необходимо ограничить, так как это позволит уменьшить статистическую ошибку и определить словари ПОС. 3. Произвести по описанной выше методике создание словарей ПОС и по результатам работы создать классификатор базы данных. Определить для каждого текста базы данных индекс классификатора, этот режим при большом числе документов в базе данных производится последовательно. 4. Проверить работоспособность классификатора для достоверной работы алгоритмов, рассчитав релевантности текстов для различных ПОС. Удостоверится в том, что в пространстве ПОС тексты из различных тематических групп могут быть значимо разделены между собой. 5. При дальнейшем наращивании базы данных текстами необходимо для новых текстов определять тематический индекс. Тексты, не имеющие более достоверно тематического индекса, имеют в системе условный индекс 00, поэтому их легко найти и отобрать поиском. Для определения тематического индекса используется инструментарий системы. При накоплении значительного количества новых текстов из существующих тематических групп, или при введении в базу данных текстов из новой тематической группы, необходимо проделать всю процедуру создания классификатора заново. 4.5. Система смыслового анализа текстов в ИНТЕРНЕТ Для поддержки системы смыслового анализа в ИРБИС наиболее перспективным представляется разработка Интернет-решения, в рамках которого кроме стандартного информационного поиска по электронному каталогу читателю предоставляется возможность смыслового анализа найденных документов. Мы будем рассматривать две основные задачи, стоящие перед читателем и в зависимости от вида задачи будем идентифицировать читателя как “студента” или как “эксперта”. 1. Информационный поиск их основе. 2. Анализ найденных текстов на предмет выявления взаимоотношений близости между ними в заданном смысловом контексте, нахождение групп схожих текстов и текстов – представителей для каждой группы (ядер). Все эти задачи могут быть решены в режиме удаленного доступа. Но есть класс задач, которые могут быть решены только при работе на уровне Администратора системы. Это подготовка базы данных к смысловому поиску: каких-либо текстов в электронном каталоге, просмотр текстов в редакторе и составление реферата на 1. Построение естественно-тематического классификатора для данной БД в виде набора ПОС. 2. Структуризация БД по найденным ПОС. Общая схема Интернет-решения представляется в таком виде:

Клиент - браузер Поисковый интерфейс Текст образец или строка запроса на естественном языке WEB - сервер CGI – Шлюз для доступа к базам данных ИРБИС Результаты поиска – представление найденных документов в виде списка форматов;

отсылки на полные тексты Редактор текстов;

Интерфейс для входа в естественно научный классификатор Базы данных ИРБИС с индексацией по полным текстам Естественно научный классификатор в виде списка ПОС;

Толковый словарь для терминов ПОС Visual HCA для анализа текстов Рис. 27. Блок-схема Интернет-решения В браузере клиента можно реализовать все основные пункты списка основного алгоритма расчета близости текстов заданному, кроме работы в системе Visual HCA. Некоторые алгоритмы визуального анализа можно имитировать с помощью Java апплета, однако целесообразность этого решения сомнительна. Для среднего пользователя важно быстро найти наиболее близкие тексты к тому тексту, который у него есть или который он нашел в базе данных. Подробный анализ связей между текстами интересен при решении экспертных задач и требует использования всего инструментария системы для возможного изменения базовых словарей ПОС. Такой режим работы доступен только с правом администратора системы. Выводы по 4-й главе В четвертой главе рассматриваются ближайшие перспективы развития системы автоматизации библиотек ИРБИС, связанные с включением в нее системы смыслового анализа текстов для создания полнотекстовых хранилищ данных в современной библиотеке. До завершения настоящего диссертационного исследования система автоматизации библиотек ИРБИС (ИРБИС32) использовала структуру хранения данных пакета прикладных программ CDS/ISIS, которая специально ориентирована на хранение и поиск больших объемов текстовой информации. Особенности ИРБИС32 в сравнении с реляционными СУБД это - переменная длина полей, малая связность записей и текстовый формат данных. Наряду с очевидными достоинствами, данная структура имеет недостатки, связанные с существенными количественными ограничениями, такими как - физические размеры файлов баз данных и, в частности, словарей (что не позволяет создавать достаточно большие полнотекстовые базы данных), максимальная длина записи, максимальная длина поискового термина.

В связи с этим в рамках развития системы ИРБИС и реализации представляемой системы смыслового анализа текстов как расширения ИРБИС был разработан новый формат хранения данных и оригинальная полнофункциональная библиотека доступа к базам данных - ИРБИС64. Фактически это новая СУБД, ориентированная на работу в современных операционных системах, причем формат хранения обеспечивает платформенную независимость физических файлов базы данных, что на сегодняшний день является необходимым техническим требованием. На основе ИРБИС64 разработана клиент-серверная версия системы ИРБИС. В главе показано, что ИРБИС64 можно использовать в библиотеках для создания полнотекстовых баз данных, включающих массивы текстов электронного фонда. Такие базы данных можно использовать для поиска по словам из текстов электронного фонда, осуществлять их тематическую классификацию и смысловой анализ. Применение смыслового анализа текстов для создания полнотекстовых баз данных в современной библиотеке рассматривается разработчиками ИРБИС в качестве одного из основных положений концепции развития системы.

115 Заключение Электронные фонды современной библиотеки с нарастающими темпами накапливают неструктурированные текстовые ресурсы. Причем объем накопленной текстовой информации может быть таким значительным, что задача подготовки их полного библиографического описания становится крайне затруднительной. Очевидна необходимость применения специальных технических решений для предоставления пользователям библиотеки доступа к многообразию электронных текстовых массивов. В настоящее время в России и за рубежом активно развиваются автоматизированные диссертационном системы смыслового дан общий анализа обзор текстов. В исследовании существующих программных продуктов, на основе которого сделан вывод о необходимости разработки системы смыслового анализа текстов, адаптированной к применению в системах автоматизации библиотек. В диссертационной работе предлагается методика создания полнотекстовых баз данных на основе текстовой информации, накопленной в электронном виде, при этом любой массив электронных текстов рассматривается как электронный фонд. В диссертационном исследовании показано, что задача смыслового анализа текстов включает следующие основные этапы: 1. создание полнотекстовой базы данных;

2. классификация текстов по тематической принадлежности;

3. числовая оценка меры сходства текстов. Для реализации первого этапа – создание полнотекстовой базы данных - была использована система автоматизации библиотек ИРБИС. В настоящее время система ИРБИС, в разработке которой принимал участие и автор настоящей работы, применяется более чем в 600-ах библиотеках России, СНГ и других стран. С целью включения в систему ИРБИС алгоритмов смысловой обработки текстов была разработана новая структура хранения данных и полнофункциональная библиотека доступа к базам данных ИРБИС64. В рамках реализации второго этапа - классификация текстов - были проведены теоретические исследования и сделаны выводы о возможности применения методов математической статистики для решения этой задачи. В диссертационном исследовании показано, что задача классификации текстов относится к слабоформализованным и должна решаться с помощью эвристических (предусматривающих участие эксперта) алгоритмов. Специально для решения таких задач была разработана и реализована система визуального эвристического анализа числовых данных, которая доказала свою эффективность при решении практических вопросов в различных научных областях. Важным аспектом системы автоматизированного анализа текстов является тот факт, что все специальные подробности применения математической статистики скрыты от пользователя и для работы с системой требуется только знание предметной области полнотекстовой базы данных. В диссертационной работе даны практические рекомендации по применению системы визуального эвристического анализа специалистами библиотеки при классификации текстов. На конкретных примерах продемонстрированы возможности системы. Для неспециалистов в области математической статистики в Приложении дается подробное описание принципов работы системы. Достоверность работы автоматизированной системы смыслового анализа текстов обеспечивается алгоритмами числовой оценки меры близости текстов, составляющими последний, третий этап решения общей задачи. В диссертационном смыслового исследовании сравнения показано, что основным предметноинструментом текстов являются ориентированные словари, содержащие слова с повышенной частотой встречаемости. Набор таких словарей составляет естественно-тематический классификатор полнотекстовой базы данных. Расчеты и практические оценки меры близости текстов на конкретных примерах подтверждают достоверность работы алгоритмов смыслового анализа текстов. Поставлен вопрос о соотношении рубрикаторов, применяемых в библиотеке при создании библиографических описаний, и естественно-тематического классификатора системы. В диссертационном исследовании даны практические рекомендации по применению автоматизированной системы смыслового анализа текстов в библиотеках. Освещены вопросы дополнительного обучения специалистов библиотеки для работы с предлагаемой системой. По результатам работы сделаны следующие выводы: • смысловой полнотекстовый анализ является необходимой частью современной системы автоматизации библиотек;

• задачи смыслового анализа и тематической классификация текстов относятся к слабоформализованным и должны решаться с помощью эвристических алгоритмов;

разработанные алгоритмы позволяют автоматизировать создание полнотекстовых баз данных в условиях библиотеки (без привлечения сторонних специалистов) и предоставить читателям сервис в виде полнотекстового поиска и смыслового поиска текстов, близких к заданному тексту-образцу.

118 Приложение. Эвристика образного анализа 1. Пояснения работы системы визуального эвристического анализа Visual HCA Пусть заданы объекты, которые являются из отраслей научной, деятельности. предметом начальной стадии анализа для решения какой либо конкретной проблемы в одной административной, социальной или Изучение объектов обычно начинается производственной с их типизации в соответствии с различием или общностью свойств для различных подмножеств исходного множества объектов. Термин объект трактуется здесь в самом широком смысле слова любой предмет или явление из множества элементов, которых либо известен набор одних и тех выраженных численно, фиксированного либо известно о для каждого из же характеристик, отсутствии наличии или набора атрибутов.

Сведения о наличии конкретного атрибута, признака или свойства должны быть выражены в числовом коде. Термины атрибут, признак и свойство здесь воспринимаются как синонимы. Программа Visual HCA работает с данными, представляющими собой двумерный массив чисел из m-строк и n-столбцов. В каждом столбце расположен один атрибут для всех m объектов. расположены все n атрибутов одного объекта. Программа позволяет расклассифицировать объекты по степени их близости между собой в пространстве атрибутов - рассортировать объекты по кластерам. Каждый кластер – это группа наиболее тесно связанных между собой объектов, таких, что расстояние между объектами внутри кластера в каком-то смысле меньше расстояния между объектами, находящимися в разных кластерах. В каждой строке В качестве двух основных алгоритмов использованных в программе выбраны алгоритм построения дендрита на объектах и алгоритм факторного анализа или метод естественных ортогональных функций. Ограничения на число объектов и их атрибутов (1000) связано в первую очередь с удобством пользования системой. К удобствам пользования мы относим, в первую очередь возможность визуального (образного) анализа на одном экране всего материала, множеству совокупность, объектов, воспринимаемых требующая структуризации. относящегося как к пользователем Опыт единая разработчиков показывает, что активное, но не слишком изощренное использование всего экрана позволяет манипулировать в полной мере не более чем с 300 - 400 объектами при таком же количестве атрибутов. Кластеризация на основе построения дендрита Связи между это объекты, а объектами ребра (или по дуги), степени их сходства можно представить в виде специального типа графа - дерева, в котором вершины соединяющие вершины, способ наглядного изображения структурных взаимоотношений между объектами в пространстве свойств. Для построения дендрита вычисляется матрица расстояний между всеми объектами и затем для каждого из объектов ищется ближайший к нему. Способ вычисления расстояний, меры близости объектов между собой - произволен. В программе реализовано вычисление расстояний в манхеттенской метрике: расстояние равно объектов. Начиная с минимальных ребрами расстояний (или все объекты цепочки при последовательно соединяются дугами) в сумме абсолютных величин разностей соответствующих координат - численных характеристик свойств фрагменты графа. Объекты, попавшие в цепочку, рассматриваются дальнейшем построении дендрита только в ее составе, т.е. они могут войти в новую цепочку только вместе с остальными объектами из своей исходной цепочки. После того как каждый из объектов попал в одну из цепочек, ищется минимальное расстояние между цепочками, и последовательно все цепочки соединяются в дендрит, пока все объекты не окажутся связанными между собой. Прототип алгоритма описан в книге Плюта [102]. Последовательно удаляя ребра большей длины, можно добиться того, что дендрит распадется на ряд деревьев и изолированных вершин. Вершины, входящие в отделившееся новое дерево, соответствуют отдельному изолированному кластеру. Кластеризация на основе факторного анализа Относительно методов многочисленная литература, факторного описывающая анализа алгоритм имеется и математическую суть метода [160]. Поэтому в строгом смысле суть метода мы здесь рассматривать не будем, но элементарные представления о нем и наводящие соображения для тех, кто не хочет влезать в математические монографии и учебники, изложим на бытовом, разговорном языке с помощью серии иллюстраций в двух следующих параграфах. Выделение доминирующих сочетаний свойств- факторов. описания объектов в пространстве свойств к пространстве факторов. Пусть имеется четыре объекта, каждый из которых описывается Переход описанию от в тремя свойствами. О каждом свойстве известно лишь, что оно есть или отсутствует у данного объекта и этот факт изображается соответственно единицей 1 или нулем 0. Допустим, эти данные имеют вид, представленный в таблице. Таблица 1. Номер объекта 1 2 3 4 Номер атрибута 1 1 1 0 1 2 1 1 0 0 3 0 1 1 В трехмерном пространстве их можно изобразить как точки, расстояние до которых от начала координат по числовой характеристикой атрибута каждой из осей определяется с соответствующим номером.

Объекты можно также отождествлять не с точками, а с векторами. направленными из начала координат O в эти точки. Будем называть их далее векторами объектов. Расстояние от начала координат до точек, изображающих объекты в пространстве признаков, вектора. Наибольшую длину имеет вектор объекта O2. Объекты расположены не во всех вершинах куба. Заметим, что для изображения пространство плоскость, первых трех объектов достаточно иметь не трехмерное исходных проходящая признаков, через а точки двумерное пространство Это пространство O2 O3 O. набор свойств в O1 называемых факторами. называется длиной комбинаций признаков, В этом пространстве координатами служит новый факторов. Первый фактор: атрибутов плоскости исходной O1 O2 таблицы. Наличие соответствует наличию набора из 1 и 2 фактора отображается O3 O горизонтальной составляющей длиной sqrt(2) или приближенно 1.414.

Второй фактор совпадает с прежним третьим свойством. Вернемся к объекту O4. фактор, Для определения его положения введем новый третий к первым двум факторам, и заданный как ортогональный линейная комбинация 1 и 2 исходных признаков. Координаты четвертого объекта в пространстве новых факторов равны соответственно: 0.707, 0, 0.707. Новые координаты факторы представляют собой такие комбинации прежних координат - атрибутов, что первый фактор вобрал в себя компоненты векторов, суммарная длина которых равна 2.5 * sqrt(2) = 3.535, суммарная длина компонентов по оси второго фактора равна 2, а третьего фактора 1/sqrt(2) = 0.707. Таблица 2. Номер объекта 1 2 3 4 Номер атрибута 1 1.414 1.414 0 0.707 2 0 1 1 0 3 0 0 0 0. Тогда таблица 1 в новых координатах станет таблицей 2. Из таблицы 2 видно: 1-ый фактор имеет большую амплитуду, чем другие. Ее называют доминирующим фактором, или доминантой. 2-ой фактор имеет средние составляющие в характеристике объектов. 3-й фактор имеет меньшее максимальное значение, чем другие. Несколько огрубляя результаты, можно пренебречь этим фактором и описывать все объекты в пространстве меньшей размерности, в пространстве главных доминирующих факторов. Тем самым можно сократить число свойств факторов за счет их комбинирования и выявления скрытых, но более важных факторов, чем исходные признаки. Новые характеристики оказываются более компактными, более удачными для описаний объектов. Это замечание станет еще более важным, если объектов в этой плоскости O1,O2,O3,O (совпадающих с заданными объектами) будет много больше, а вне этой плоскости число объектов резко не возрастет и будет пренебрежимо мало по сравнению с числом объектов в плоскости. Трехмерный случай может быть не очень интересен, но только он геометрически наглядно позволяет преимущества информации. В общем случае многомерного (n-мерного) пространства признаков факторный анализ позволяет пространстве пространства, перейти к рассмотрению объектов в той же размерности, это факторы, заданном новой системой взаимно продемонстрировать возможности и снижения размерности пространства почти без потери ортогональных единичных векторов, Векторы, составляющие базис нового которые представляют собой линейные комбинации из исходных признаков. Факторы компактнее описывают объекты, чем исходные признаки. Несколько первых векторов нового базиса дают основной вклад в разложении характеристик объектов, а проекции векторов характеристик объектов на остальные координаты для подавляющего большинства объектов пренебрежимо малы, по сравнению с проекциями на первые, доминирующие базисные векторы. Итак, первое, (но не обязательно самое главное) для чего можно применять факторный анализ это снижение размерности задачи. число Исходные признаки объектов, удобные для измерения, но многочисленные и потому неудобные для анализа можно свернуть в меньшее доминирующих факторов, наиболее ярко характеризующих объекты, и во второстепенные факторы, которыми в анализе можно пренебречь. Элементарные представления о сути метода Рассмотрим применение факторного анализа к объектов и свойств. Разложение исходной матрицы по двум системам ортогональных векторов Пусть двумерный массив - матрица A m,n - имеет вид таблицы 3. Таблица 3. 1 0 0 0 0 0 0 1 1 0 0 0 0 1 1 0 0 0 0 0 0 1 1 1 0 0 0 1 1 1 0 0 0 1 1 1 двумерным массивам Ее можно представить в виде суммы трех матриц A1+A2+A3, каждая из которых может быть представлена произведением вектора-столбца G1, G2 или G3 на вектор-строку F1, F2 или F3 соответственно. Каждый элемент матрицы вектора Fk. ak(i,j)=Gk(i) x Fk(j) ak(i,j) вычисляется как произведение i-ой составляющей вектора Gk на j-ю составляющую Замечательным свойством векторов Fk и векторов Gk является их ортогональность. Это значит, что скалярные произведения (Fk,Fl) и (Gk,Gl) равны нулю, когда k не равно l. Например, можно проверить, что: (F1,F3) = 0 * 1 + 0 * 0 + 0 * 0 + 0 * 1 + 0 * 1 + 0 * 1 = 0. Если бы мы имели только 6 свойств, распределенных таким образом между 6 объектами, как это имеет место в таблице 3, то каждая группа объектов однозначно бы характеризовалась своими свойствами, классы. Но такой идеальной картины обычно не бывает, а математическое представление, конкретными показанное здесь на тривиальном примере, объектами становится с ростом с размерности задачи и неоднозначности связи конкретных свойств обобщенных свойств объектов. Для тех, кто не имел удовольствия почувствовать в своей работе, строк и столбцов к ее исходному виду. Попробуйте вообразить, что перед вами матрица размером не 6x6, где всего на всего по три строки и три столбца, различающихся по своему содержанию, а матрица, размером 100 x 100. В ней заметить сходство различных объектов будет труднее. Таблица 4. 0 1 0 1 0 1 0 1 0 0 0 0 1 0 1 0 1 0 что такое проклятие размерности, пусть приведет таблицу 4 перестановкой и существовали бы простые правила разделения объектов на группы или все более полезным для анализа 0 1 0 1 0 1 0 1 0 0 0 0 1 0 1 0 1 В то же время, программа работает одинаково хорошо как с матрицей, представленной в таблице 4, так и с матрицей, записанной в таблице 3. Разницу чувствует лишь пользователь, так как вид матрицы из таблицы 3 более удобен для визуального анализа Содержательная компонентами выведены любых и интерпретация структуры данных, представленных разложения расположены в факторном пространстве объекты могут быть В программе имеется окно, в котором в соответствии со своими координатами G с Gj (i,j= 1,2,3,...m), отображающих вклад в компонент индексами 1,2,...,m. В окне выводятся объекты в подпространстве двух координат Gi, характеристику объекта векторов Fi, Fj с теми же индексами. Векторы F имеют n - компонент по числу свойств у объектов (часть могут быть нулевыми). Векторы G перенумерованы в порядке убывания их длины. Поэтому первые векторы, связанные со слагаемыми доминантами, а последние - в основном отображают ошибки наблюдений и вычислений. Выявление содержательной стороны факторов, как новых обобщенных свойств в предметной области Как мы отметили ранее, доминирующие составляющие должны дать возможность представить объекты в новом пространстве размерности. Таким характеристики, меньшей и образом, первые доминирующие факторы - это которые дают нам обобщенные свойства объектов, которые первоначально могли быть не видны исследователю, и даже могло не существовать соответствующих понятий для выражения этих новых обобщенных свойств. Для того, свойства, чтобы пытаться выявить эти новые обобщенные необходимо выделить крайние объекты, имеющие вклады близкие или равные максимальному и но одновременно имеющие близкие к соответствующего фактора Fk, минимальному maxGk и minGk, нулевым вклады других факторов. Тогда эти объекты будут в чистом виде носителями влияния только одного фактора, расположенного вдоль k-ой оси. Исследователь - специалист в своей предметной области может изучив основное отличие этих крайних объектов между собой, выявив, в чем они противоположны, попытаться это отличие выразить в качестве нового свойства. Для этого, возможно, придется ввести новое понятие. Аналогичную операцию по определению новых комплексных свойств факторов можно проделать на каждой из осей разложения матрицы свойств объектов. Удаление неинформативных свойств Характеристики объектов информации при описывается объект. Если эти свойства отображается носят качественный характер, то их наличие может единицей, а отсутствие целей нулем. характеристик исследования. Если какое-то страдают иногда недостатком избыточности числа свойств, с помощью которых Низкая информативность трактоваться в зависимости от свойство:

- встречается крайне редко;

качественных - статистически равномерно распределено в объектах из разных классов;

- присутствует практически во всех изучаемых объектах, тогда это свойство неинформативно с точки зрения разделения объектов из заданной совокупности на значительные по количественному составу классы. Замечание. С точки зрения выявления уникальных объектов такая трактовка понятия информативности не подходит. Редко встречаемые свойства для этой цели становятся информативными. При выявления классификационных свойств, редкие события могут быть полезны только в случае высокой степени вероятности того, что они связаны с конкретным, интересующим исследователя кластерами. В случае если свойства выражены количественно, то низкая информативность какого либо свойства (для целей разделения объектов из заданной совокупности на значительные по количественному составу классы) выражается в том, что ненулевые значения:

- встречается крайне редко и не привязаны к одному классу;

- статистически равномерно по частоте встречаемости и по уровням распределены в объектах из разных классов;

- присутствует практически во всех изучаемых объектах с одинаковым законом распределения по всем выделяемым классам. При значительном характеристик объектов. Эту задачу лучше решить на начальных стадиях решения проблемы разделения объектов на классы, поскольку обилие неинформативных характеристик делает объекты похожими между собой. Различия на этом фоне теряются, затушевываются и разделение на кластеры затрудняется. количестве свойств и объектов исследования неинформативных свойств из может возникнуть задача удаления однотипно Полезно перед разделением объектов на кластеры провести с помощью того же алгоритма факторного анализа :

- анализ самих свойств, их объединения в группы подобных, коррелируемых между собой свойств на всех объектах;

- провести анализ информативности различных свойств с точки зрения их избыточности, взаимного перекрытия и дополняемости для разбиения объектов на группы. Те свойства, которые были введены в описание объектов до начала сбора информации, количественно или на этапе сбора информации, но не обнаружены в измеряемых свойств) в изученных объектах, дадут достаточном количестве (или с отличной от фонового уровня амплитудой практически нулевые столбцы исходной матрицы. Это будут хорошо коррелируемые между собой векторы - столбцы и они войдут в один класс свойств, поскольку расстояние между ними будет малым. Тоже самое можно сказать о столбцах, практически полностью состоящих из единиц (или близких по амплитуде количественных характеристик). Они также бы это были нули. Наша задача выделить оба этих класса свойств и удалить их из исходной матрицы. Положительным результатом такой операции будет:

- понижение размерности задачи (легко убедиться, что время работы программы существенным образом зависит столбцов исходной матрицы);

- более четкое разделение объектов на классы в оставшимся подпространстве информативных свойств. Конечно, говорить о более высокой информативности оставшихся свойств можно лишь условно, поскольку часть свойств может быть хотя и от числа строк и будут хорошо коррелировать между собой, но их наличие не позволит различать объекты между собой так, как если случайным образом, но более или менее равномерно распределена между всеми объективно существующими различными классами. Если таких свойств в оставшемся материале больше, чем свойств, связанных с конкретными группами объектов, то их маскирующее влияние также будет заметным. Но и с этим явлением можно бороться с помощью все того же программного элемента. В качестве неинформативных свойств могут выступать встречающиеся варианты или стандартно заполняемой формы в истории редко ответов на вопросы социологической анкеты болезни, нормальная температура при рассмотрении болезней, протекающих без ее изменения. Выделение кластеров в режиме диалога Допустим с этой задачей - удаление неинформативных признаков то мы увидим хотя бы на одном из “Факторный Анализ” как объекты эксперт справился. В этом случае если объекты реально разделяются на классы по оставшимся свойствам, наборов характеристик значительно в окне группируются в некоторые скопления, расстояние внутри которых между объектами скоплений. Замечание: Относительно расстояний внутри скоплений и между ними следует говорить с скопления некоторой осторожностью, если взять два вытянутых в каком либо направлении, но разделенных меньше расстояния между центрами этих очевидным образом между собой промежутком, то мы все равно каждый из них видим как отдельное образование только расстояние внутри класса вдоль направления вытянутости будем измерять в другом масштабе по сравнению с расстоянием поперек направления вытянутости скопления. Мысленные изменения реализовано физически, масштаба в принципе может быть но поскольку исследователь выполняет разделение на классы "для себя", то важно только его собственная разделения на кластеры в пространстве применить окрашивание уверенность в правильности этого разделения. В качестве вкладов инструментов дает программа возможность сближенных объектов в один цвет. Для дальнейшей демонстрации технологии работы кластерного анализа разделение объектов по их свойствам на классы, число которых неизвестно, прозрачной, предлагается наглядной и понятной будущему заранее смоделировать ситуацию, которая была бы пользователю классификатора Visual HCA. Эта наглядность выразится в такой упорядоченности данных в матрице, которая в значительной степени должна быть предметом работы программы. Эта наглядность, впрочем, не будет замечена программой. Программа не отслеживает те моменты в организации данных, которые основаны на возможностях образного анализа и параллельного восприятия матрицы данных, любого табличного материала человеком. Рассмотрим для примера двенадцать свойствами. Конструирование модели. Идеальная часть Допустим, объекты составляют три группы. В первую входят первые три объекта, во вторую - четыре, в третью - пять. Информация о свойствах представляется единицей при их наличии или нулем при их отсутствии. Пусть первые три объекта характеризуются наличием первых восьми свойств, при отсутствии их у других объектов. Вторая группа объектов характеризуется наличием свойств с девятого по четырнадцатое при отсутствии их у других объектов, а третья группа объектов с тридцатью характеризуется наличием свойств с 15 по 20 при отсутствии их в объектах первой и второй групп как показано в следующей таблице: Таблица 5. 1 группа 1 2 3 4 5 6 7 8 9 111 111 111 111 111 111 111 111 000 2 группа 0 0 0 0 0 0 0 0 1 1 1 1 1 1 0 0 0 0 0 0 3 группа 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 1111 1111 1111 1111 1111 1111 0000 0000 0000 0000 0000 0000 0000 0000 1110 1110 1110 1110 1110 1110 0001 0001 0001 0001 0001 10 0 0 0 11 0 0 0 12 0 0 0 13 0 0 0 14 0 0 0 15 0 0 0 16 0 0 0 17 0 0 0 18 0 0 0 19 0 0 0 20 0 0 Здесь мы намеренно сохранили порядок следования свойств и объектов (столбцов и строк), более удобный для визуального анализа. На практике порядок следования объектов и свойств будет выглядеть произвольным. Если бы мы имели только 20 свойств распределенных таким образом между 12-ю объектами, то каждая группа объектов однозначно характеризовалась своими правила разделения объектов на группы или классы. Более того, если бы у каждого объекта в группе были бы зафиксированы только некоторые из свойств, характерных только для этой группы, то правила разделения на классы практически не усложнились бы. Введение в модель случайных усложняющих составляющих Для того, чтобы приблизиться к реальной практике, мы должны бы были в объектов, первую очередь встречающиеся добавить в нашу модель характеристики в различных группах. Пусть, например, бы свойствами, и существовали бы простые свойства 21,22,23 распределены статистически равномерно (в нашем примере просто равномерно) между объектами каждой из трех групп, как показано в следующей таблице. Таблица 6. 21 1 0 1 0 1 0 1 0 1 0 1 0 22 0 1 0 1 0 1 0 1 0 1 0 1 23 1 0 1 0 1 0 1 0 1 0 1 0 По этим признакам объекты разделятся на другие группы: все нечетные попадут в одну группу со свойствами 21 и 23, все четные - в другую со свойством 22. Ясно, что добавление трех этих таблице "объекты-свойства" уже затрудняет описанные три идеальные группы. свойств разбиение к исходной объектов на Альтернативной к предложенной модели является нижеприведенная таблица, в которой единицы и нули распределены в свойстве 23 в том же количестве по каждой из групп, что и для свойства 21, однако объекты ( только по этим свойствам) делятся на большее число групп: 1-я:(1,5,9), 2-я:(2,6,10), 3-я:(3,7,11), 4-я:(4,8,12). Таблица 7. 21 1 0 1 0 1 0 1 0 1 0 1 0 22 0 1 0 1 0 1 0 1 0 1 0 1 23 1 1 0 0 1 1 0 0 1 0 1 На практике все еще сложнее. А именно, обычно существуют признаки, характерные для части групп объектов, а также признаки не характерные ни для одной из групп или характерные для всех объектов в выборке. Таблица 8. 23 1 1 0 0 1 1 0 0 1 1 0 Введение в модель регулярных усложняющих составляющих Добавим в модель признаки, характерные для части групп объектов (например, для любых двух групп из трех) и нехарактерные для остальных групп. Например, наличие признака указывается для всех групп объектов, кроме одной, и мы получаем наборы признаков, аналогичные тем, которые представлены в следующей таблице:

Таблица 9. 24 1 1 1 1 1 1 1 0 0 0 0 0 25 1 1 1 0 0 0 0 1 1 1 1 1 26 0 0 0 0 1 1 1 1 1 1 1 1 В первом случае отсутствие признака можно было бы назвать отдельным признаком, и тогда единицы и нули в строке характеризующей все объекты поменялись бы местами, и мы получили аналогичную той, полностью бы характеристику которая соответствует первым десяти признакам.

Последняя группа признаков, которую следует упомянуть, это признаки, отсутствующие во всех трех группах объектов, и признаки, присутствующие во всех трех группах. Для большего соответствия практике здесь было бы уместно говорить не о полном, а о почти полном отсутствии или присутствии свойств. Таблица 10. 27 0 0 0 0 0 0 0 0 0 0 0 0 28 0 0 0 0 0 0 0 0 0 0 0 0 29 1 1 1 1 1 1 1 1 1 1 1 1 30 1 1 1 1 1 1 1 1 1 1 1 1 Конечно, если только в соответствующие признаки полностью отсутствуют указанных трех группах, а в других возможных группах объектов они есть, то эти признаки являются классификационными для всех трех группах описываемых групп. Но как только мы ограничиваемся указанными тремя группами объектов, свойства присутствующие во всех этих группах или свойства отсутствующие во всех группах перестают носить классификационный характер.

Роль различных групп свойств в синтезированной модели исходного материала Фактически задача эксперта, ему, который хочет выявить неизвестные на чьих глазах объектов, (но известные нам - авторам и читателям, синтезировался модельный материал,) указанные три группы выявление классов по информативным признакам.

включает в себя отыскание и удаление неинформативных признаков и Мы могли бы считать, что признаки с 21 по 23, указанные в таблице 3, также претендуют на информационную значимость. В отсутствии первых 20 признаков они позволяют разбить объекты на 4 группы: (1,5,9), (2,6,10), (3,7,11) и (4,8,12). Однако, в нашем случае число признаков, объединяющих объекты в три группы, указанные (для в таблице 1, надо должны пересилить своей сказать: "пересилить массовостью математиков энергетически") и мы увидим эти три группы, разделение которых будет просто слегка осложнено признаками с двадцать первого по двадцать третий. Остальные признаки с двадцать четвертого по тридцатый также будут усложнять картину. Однако, 24, 25 и 26 признаки могут быть нули этих свойств будут информационно значимы, поскольку коррелировать с единицами первых двадцати свойств. А признаки типа 27-30, особенно встреченное в большем количестве, чем в данной таблице, могут массовостью ("энергетически") подавить сделать объекты неразличимыми между принадлежности различным классам (группам). остальные собой с признаки и точки зрения Выводы и рекомендации Таким образом, задача эксперта при работе с классификатором отличается от задачи первичного накопления материалов. Если на первом этапе эксперт обязан привлечь для анализа объектов как можно больше свойств, а практически взять все, что доступно для анализа, то на этапе классификации он должен решить задачу выделения тех признаков, которые помогают разделить объекты по групповым свойствам и удалить те, которые затрудняют Признаки, которые объектов по классам, новой присоединения приходится могут совокупности мы, удалить решение для задач классификации, делая объекты неразличимыми между собой. разграничения в случае оказаться важными объектов. Но без присоединения новой совокупности объектов и после удаления неинформативных на данной выборке признаков, фактически, получаем возможность изучать тонкую структуру исходной выборки объектов. Присоединение новой совокупности может заставить нас сохранить прежде выбрасываемые свойства, и тонкая структура исходной группы может быть утрачена. Назовем файл с синтезированными данными этими данными model005.txt. (По крайней мере, в дальнейших иллюстрациях его можно распознать под этим именем.) Рекомендуем для лучшего осмысления дальнейшего создать на своем компьютере такой же файл и проделать вместе с нами все дальнейшие действия над ним.

2. Иллюстрации возможностей программы на сформированных модельных данных Не отвлекаясь на технику манипулирования с данными на экране, рассмотрим только методические приемы и результаты применения классификатора в задачах с известным для нас ответом. 1. Далее описание ведется так, как если бы мы составляли отчет по результатам компьютерного анализа данных: описываются особенности, наблюдаемые на копии экрана, полученной с помощью функциональной клавиши Print Screen и графических средств Windows. Затем по результатам анализа экрана, или совместного анализа нескольких экранов делаются выводы. 2. В факторном пространстве обычно все факторы, начиная со второго, имеют близкие значения в точке минимума и максимума, отличающиеся между собой знаком, поэтому координаты в факторном рассматриваемые на базе от 0 до относительные. Точная градуировка шкалы по минимальное значения Gk. Демонстрация приемов работы. Выделение эталонных и/или эталонных распределений свойств объектов каждому пространстве, из факторов 1 следует воспринимать как выясняется только в окне текущего вектора, где указаны максимальное и Выше для выявления содержательного описания факторов как новых обобщенных свойств в предметной области пользователя продукта предлагалось выделить объекты, программного вклады имеющие соответствующего фактора Fk, близкие или равные максимальному вкладу и минимальному maxGk и minGk, но одновременно имеющие близкие к нулевому вклады других факторов. Тогда эти объекты должны быть носителями влияния только одного фактора, расположенного вдоль k-ой оси. Они не должны быть (а Назовем эти объекты эталонными. в случае использования номинальных шкал и не могут быть) точной копией фактора Fk. Но они должны в рафинированном виде отражать основные черты этого фактора. Кластеризация объектов в иллюстрациях На рисунке 28 представлены перемешанные данные.

Рис. 28. Исходные данные На рисунке 29 показаны кластеры, выделенные автоматически в окне “Граф”.

Рис. 29. Кластеры на графе На рисунке 30 показаны кластеры в факторном пространстве 2 и 3 факторов.

Рис. 30. Кластеры факторном пространстве На рисунке 31 показаны графики факторов. 2-й фактор вверху красный с ним антикоррелирует зеленый объект. 3-й фактор внизу красный с ним коррелирует красный объект.

Рис. 31. Графики факторов На рисунке 32 показана матрица данных после пересортировки объектов по цвету.

Рис. 32. Данные после пересортировки только объектов На рисунке 33 показана матрица данных после проведения кластеризации Рис. 33. Данные после пересортировки атрибутов и объектов атрибутов и пересортировки их по цвету. Замечания о роли первой доминанты в кластерном анализе На что данных, примере модельных данных проиллюстрирован на тот факт, первая доминирующая составляющая ненормированных или только значений не меняющих знака, (только положительных, отрицательных) чаще всего отражает характеристику суммы амплитуд значений всех свойств для каждого из объектов или сумму каждого свойства для всех объектов. На рисунке 46 показан график 1-го фактора. Фактор принимает только положительные значения.

Рис. 34. График 1-го фактора До сих пор мы рассматривали модель исходных данных, в которых наличие свойства фиксировалось единицей, а отсутствие - нулем. Можно показать, что в ряде случаев существенный эффект для работы классификатора дает сдвиг всех данных на постоянную составляющую. Например, если мы все единицы в таблице кодов признаков заменим на девятки, а нули на восьмерки, то мы получим новую последовательность векторов свойств и векторов коэффициентов - вкладов комбинаций свойств в последовательность характеризуемых ими объектов. В ситуации с количественными характеристиками свойств эффект, связанный с введением в каждое из численных значений свойств аддитивной постоянной составляющей может представлять еще больший интерес. Если, например, мы вычтем из всей матрицы "объекты - свойства" среднее значение, то тем самым мы повысим частоту перехода через нуль по всем собственным векторам исходной матрицы. Не математики могут пропустить это замечание, но для эксперта, не знакомого с математическим алгоритмом программы, заметим, что эта операция увеличивает число главных компонент, а значит увеличивает и число вариантов подпространств, в которых вклады различных факторов будут иметь все еще значительный вес. Различия (особенности) работы с качественными и количественными признаками В случае, если свойства объектов описываются на количественном уровне (не наличие или отсутствие тематике в данном свойства, а интенсивность то с этого этими свойства для данного объекта) (например, количество жалоб по данной муниципальном округе), количественными характеристиками нужно работать двумя способами.

Первый способ - переход к слабым шкалам Если данные целесообразно характеристик содержат перевести как количественные, так и качественные в ряд характеристики, и мы вынуждены их анализировать их одновременно, то количественную характеристику классов, каждый из которых отвечает определенной степени интенсивности описанного количественного свойства. В этом случае эксперт до применения программы классификатора сам должен выделить критические значения количественной характеристики, переход за которой в ту или иную сторону позволяет отнести эту характеристику к тому или иному разряду интенсивности этого свойства. Приведем пример. Пусть в качестве признака выступает температура человеческого тела. Если мы измеряем ее по шкале Цельсия, то 36.6 с точки зрения врача это норма или нуль, 37.4 - повышенная, а 42.2 это слишком высокая. Такого рода признаки позволяют соотношения в между объектами. установить что количественные они измерены в Говорят, количественных шкалах. В частности, температура по Цельсию измерена интервальной шкале. Ее можно перевести в другую интервальную шкалу, например, в шкалу Фаренгейта линейным преобразованием: Однако, если для врача интересен только диапазон температур от 35C до 42C, то для анатома этот диапазон оказывается укороченным снизу. Для врача, в принципе 36.7 мало чем отличается от 36.5 или 38.2 от 38.4. Его представления о температуре без потери информативности можно представить в так называемых слабых шкалах.

Ему можно было бы использовать, например, шкалу, называемую порядковой и состоящей из семи классов: 1. очень низкая температура - ниже 35.4;

2. 2 низкая 3. 3 пониженная 4. 4 нормальная 5. 5 повышенная 6. 6 высокая 7. 7 очень высокая 35.4 - 35.9;

36.0 - 36.4;

36.5 - 36.9;

37.0 - 37.9;

38.0 - 39.0;

выше 39.

Границы классов здесь введены субъективно и определяются целями анализа, проводимого экспертами. Порядковую шкалу можно перевести в признаки, описываемые в номинальных шкалах, в которых каждая позиция порядковой шкалы заменяется одним признаком, который представляется своей номинальной шкалой. Однако, теперь мы вместо одного свойства описанного в "сильной" интервальной шкале, имеем как бы семь свойств, из которых только одно из свойств отличается от нуля для данного объекта. Например, шкале для мы пациента с нормальной температурой в номинальной обозначаем этот факт вектором 0,0,0,1,0,0,0. Аналогичная ситуация возникает при анализе результатов анкетирования, где вместо номера ответа на данный вопрос приходится вводить нули столько раз, сколько предлагалось ответов на выбор и только один из нулей, соответствующий номеру выбранного ответа, заменить единицей.

Второй способ – классический Если все Например, характеристики не требуется. свойств Он количественные, то переход к может быть даже нежелателен.

слабым шкалам переход к номинальной шкале порождает увеличение внимательно рассмотреть количественные размерности задачи. Необходимо только характеристики свойств с точки зрения сопоставимости их между собой разных свойств (атрибутов). Ясно, что для сравнения между собой разных признаков количественные характеристики по всем свойствам должны стать одной размерности (например, безразмерные) и/или нормированы одним и тем же способом, например, так чтобы вектор свойств на всех объектах по модулю был равен единице. Если диапазон изменения признаков неизвестен заранее, то нормирование следует выполнить, например, делением каждого значения признака на его норму. Нормой может быть – длина вектора данного свойства для всех объектов выборки: квадратный корень величин значений признака для всех объектов. Но этого может быть мало. Вернемся к примеру с температурой человеческого тела. Для сопоставления ее с другим свойством, например с количеством сахара в крови лучше выбрать новую точку отсчета для каждого из свойств и новую единицу шкалы отсчета. Это можно сделать так, чтобы минимальное и максимальное возможные значения оказались в пределах от -1 до +1 или от 0 до 1. Если это сделать только для данной выборки объектов, то при увеличении объема выборки новые значения могут уйти за пределы (-1,+1). Если диапазон изменения признаков известен для генеральной совокупности, например, для всех людей, или для всех людей данного из суммы квадратов значений признака для всех объектов или сумма абсолютных возраста, если людей другого возрастного диапазона исследователь будет никогда, то трудностей с нормированием рассматривать не возникнуть не должно. Лениться и отказываться от нормирования не стоит. Замечания относительно нормирования исходных данных Мы уже говорили о том, что первая компонента факторного анализа фактически может отражать распределения объектов по величине суммы вкладов всех факторов в характеристику объектов. В случае количественных объектов кластера. Когда мы говорим о нормировании количественных характеристик, это не означает в обязательном порядке деление каждой характеристики на норму, которая вычисляется как корень квадратный из суммы квадратов характеристик всех объектов по данному признаку. Нормирование может характеристики Например, на некоторые заключаться, другую прежде всего, в делении количественную характеристику объекта. в первые сравнения характеристик это может исказить группирование количественные фенотипические показатели индивидов существенно зависят от их возраста, особенно, дни, месяцы и годы после рождения. Избавиться разновозрастных от этой зависимости индивидов (особей). необходимо для Это можно сделать, нормируя показатель, связанный с возрастом, например, путем деления его на вес, или рост, или на другой, более уместный с точки зрения пользователя программного продукта, весовой коэффициент. Если имеется среды, какое-либо свойство, выраженное количественно, и по зависящее от других количественных параметров этого же объекта, или окружающей объект, а нам нужно сопоставить объекты относительному абсолютные предметом анализа. Работа с цветом для выделения кластеров разных функциональных окнах Получив окрашенные кластеры в одной паре координат G(i), G(j), можно проследить перегруппировку кластеров перемешивание объектов разного цвета в других системах координат. Если разделение то объектов мы на кластеры сохраняется, цвета не перемешиваются, имеем проявлению этого свойства, то без нормирования показатели будут маскировать различия, являющиеся устойчивую характеристику объектов, устойчивое их разделение на группы каждая из которых обладает свойствами, отличными от свойств объектов других групп. Однако, как правило, природа не дает исследователю такого подарка. В этом случае необходимо проследить, нет ли устойчивого разделения на классы в окне “Граф”, если классы эти получены в окне “Факторный Анализ” и наоборот, нет ли такой пары координат - факторов, в которых классы, выделенные на дендрите, сохраняются в пространстве факторов. Если это обнаружилось хотя бы в одном окне, то такой факт весьма ценен поскольку мы имеем выделение одних и тех же кластеров в алгоритмах разной природы. Нормальной является ситуация, когда кластеры, выделенные в окне “Граф”, и кластеры, выделенные в окне “Факторный Анализ” группирования объектов. В окне “Граф” мы имеем как бы обобщенное, свернутое а в окне расстояние между объектами в пространстве признаков, не совпадают, а дополняют друг друга по исследователя на особенности характеристикам, обращают внимание “Факторный Анализ” нам предъявляется взаиморасположение объектов только в подпространстве хотя и максимально сгруппированных, но частных наборов признаков. Написание отчета по анализу материала из двумерной матрицы, снятие информации из окон Кроме оперативного анализа, пользователю полезно бывает обдумать результаты работы программы за письменным столом или сидя перед экраном дисплея, но не в процессе работы программы, а после накопления результатов ее работы в виде экранных файлов, сохраненных одним из способов, доступных в среде Windows. Для этого полезно иметь либо набор файлов с сохраненными экранами, на которых видны окна пользователя. Окна можно Наиболее окон расположить удобным для совместного анализа образом. удачные, продуктивные для анализа взаимные Часть окон продемонстрированы на примерах, рассеянных по тексту. полезно иметь в распечатанном виде. самому продуктом. Распечатки Описание их являются и выводов содержимого полезно для осознания пользователю программным по анализируемому материалу. По результатам работы программы полезно составить журнал работы и отчет. В журнале должны быть отображена список файлах признаков исходных и данных. В такая информация, как список объектов с порядковыми номерами их в случае изменения порядка следования исследователю расположения свидетельствами объективности последующих утверждений признаков и ли объектов, а также в случае сокращения или добавления их, порядковые номера полезно иметь под рукой, а не надеяться на свою память.

Изменение порядка образному анализу следования данных в признаков или свойств помогает различных окнах. С точки зрения упорядочивания по свойствам обычный алфавитный порядок свойств в матрице данных является самым случайным. Отчет полезен как первичный документ для дальнейшей подготовки материалов к публикации и демонстрации. В отчете рекомендуется дать формальное описание содержимого каждого из окон, сохраненных в виде экранных файлов или распечаток с выделением интересных для предметной области особенностями. Однако ресурс Вашего компьютера не безграничен. время ожидания и затрудняется ориентация для совместного анализа При большом числе файлов одновременно находящихся в обработке увеличивается в большом числе окон пользователя. Поэтому полезно наиболее ценные результаты сохранить данных, полученных разновременно, за несколько сеансов работы. Подготовка исходного материала в соответствии с целью исследования и для улучшения его образного визуального анализа. Первичное формирование набора свойств и объектов для одновременного их анализа. Мы уже говорили о выборе свойств для описания объектов выше. Пусть шкалирование данных произведено. Появилась некая исходная выборка. Когда можно приступать к обработке? Требования к репрезентативности исходного материала минимальны. Лишь бы исследователь сам считал, что целесообразно начать анализ. Допустимо проведение анализа с такой постановкой задачи: нет ли в материале данных, имеющих тенденцию к группированию.

Мы даже рекомендуем чаще проверять накапливаемые данные с помощью системы, представление о когда у исследователя еще не сложилось характере накапливаемого материала. о моделях исследуемых четкое Результатом может быть подсказка о возможных тенденциях, намечающихся по мере накопления данных, свойств и/или группами объектов. Пользователь может ставить задачу в принадлежности может придать конкретных гипотезе объектов свойства форме проверки гипотезы о конкретным кластерам. объекта. Это Сама объектов и о гипотетических взаимоотношениях и связях между группами гипотеза, выдвинутая им, выражена в его эвристических действиях. Он вид свойство гипотетическая принадлежность конкретному кластеру. Чаще всего это принадлежность конкретному классу объектов, имеющих собственное имя в науке, культуре или в быту. Например, принадлежность индивида (person) конкретному генотипу, конкретному кариотипу, или принадлежность какого-либо фенотипического свойства конкретному синдрому и т.п. Это свойство - гипотеза о принадлежности классу может быть спрятана пользователем от программы, исключена из вводимого в ЭВМ материала. Она может использоваться им как дополнительная информация, которую он использует, привлекает и активизирует вне массива данных, запускаемых в анализ. Например, он может окно Map использовать для присвоения координат, группирующих материалу. Лучше, конечно, если целью не является проверка свойств системы Visual HCA, включить всю известную информацию в исходный материал. данные в гипотетические классы пользователя, и устроить, таким образом, проверку гипотезы по остальному Если Вы не удовлетворены результатом первого применения Visual HCA, внимательно познакомьтесь с нижеследующими рекомендациями. Не дифференцируемость данных Допустим, что, с одной стороны, пользователь знает, что в материал, запущенный им на обработку, включены объекты, которые он сам может выделить из массы других на эвристическом уровне, как объекты с аномальными особенностями. Но, с другой стороны, допустим, что он не может сформулировать в терминологии свойств и признаков, представленных им в матрице данных, в чем выражаются эти аномальные особенности, а Visual HCA, либо не выделяет эти объекты, либо делает это не слишком ярко. Не отчаивайтесь. Во-первых, проверьте, эвристику оформить в виде свойства. Во-вторых, если это всего один объект, а свойство выражается в который отслеживает в одной номинальной шкале в виде единицы или нуля, то оно действительно может оказаться незамеченным Visual HCA, первую них. Выделите в таблице данных все строки и столбцы, на пересечении которых стоят элементы матрицы, ответственные, по Вашему мнению, за идентификацию интересующего вас объекта или свойства и действительно имеющие отличные "на статистическом уровне строгости" от других объектов и/или свойств значения в своих строках и столбцах. Если выделенное множество составляет долю элементов матрицы, меньшую сотой части, то максимум на что можно надеяться, это выделение особенности в факторах с большими номерами и в виде висячих вершин графа на дендрите. очередь статистически значимые группировки или отклонения от нельзя ли все-таки Вашу Редкие, отличающиеся аномальными свойствами объекты выделяются на дендрите, как правило, висячими вершинами с длинными, ребрами (дугами). При первых же устранениях наиболее длинных дуг (движок на цветовой шкале в окне “Граф”) эти вершины становятся изолированными. Если объекты в окне “Факторный Анализ” равномерно распределены в подпространствах доминирующих факторов (кроме, быть может, первого фактора), а дендрита имеет вид сильно ветвящегося дерева изометричной формы, то это значит, что отобранные Вами объекты и выбранный набор свойств для их описания дали Вам слабо дифференцируемую совокупность. При этом факторы с большими номерами i,j могут выделять по одному два объекта, резко отделяющихся в подпространстве Gi,Gj от остальных. Иногда различие столь резко, что все объекты лежат в разных половинах (верхней и нижней, левой и правой) рабочей площади окна “Факторный Анализ”. Причиной может быть: отсутствие реальных значимых не различий объектов в данном пространстве свойств;

в этом случае, если различия желательно выявить, ищите дополнительные объектов;

- недостаточное уменьшить в количество объектов с подлежащими выявлению особенностями;

в этом случае необходимо либо (хотя бы временно) резко выборке число объектов, заведомо не имеющих особенностей, интересующих исследователя, либо искать и наращивать в выборке число объектов с замеченными аномальными особенностями. свойства, включенные ранее в описание Ураганные отклонения в данных В ряде случаев возникает ситуация, кода доминирующие факторы с малыми номерами i,j могут выделять по одному - два объекта, отделяющихся в подпространстве Gi,Gj от остальных. Иногда различие столь резко, что все объекты лежат в разных половинах (верхней и нижней, левой и правой) рабочей площади окна “Факторный Анализ”. Можно сказать, что в этом случае Вам все ясно. Это объекты с ураганным отклонением свойств (даже часто одного из количественно задаваемых свойств) от всех заставляют другие свойству или набору свойств. Если Вам необходимо изучить более тонкую структуру взаиморасположения нерасчлененной части объектов, то обращения к опции Zoom в окне “Факторный Анализ” может оказаться недостаточно. Без ущерба для дальнейшего анализа объекты с ураганными "вундеркинды", "UFO") могут быть значениями свойств ("самородки", остальных. Эти объекты быть неразличимыми между собой по данному резко удалены из матрицы данных. В качестве альтернативы могут быть удалены не объекты, а свойства, резко выделяющие объект из остальных, но не работающие для решения других задач. Заметим, что ураганные отклонения в главных доминирующих факторах проявятся, только когда они представляют собой:

- количественную - значительный характеристику на порядок и больше отличающуюся у одного - двух объектов от остальных;

по численности набор качественных характеристик, выраженных в номинальных шкалах у одного из объектов отличным образом от остальных объектов. При малой численности отличий соответствующие ураганные отклонения переместятся в факторные подпространства с большими номерами (с "энергетически слабыми" факторами) и мы получим случай, описанный в разделе “Не дифференцируемость данных”. Подмешивание свойствами Для наглядности изложения в примерах и иллюстрациях, приведенных в нашем описании системы Visual HCA, даны либо задачи с известным для читателя ответом, (если мы синтезировали, материал), либо практические материалы смоделировали вместе некий с гипотезой о отдельных объектов или кластеров с известными характере группирования, отраженной в упорядоченности объектов и/или свойств, и проверяемой у него на глазах. Если сведений или гипотез выдерживается принцип об упорядоченности по нет, или упорядочивания времени поступления объектов в распоряжение исследователя, а это - поток случайных событий, то данные целесообразно перегруппировать после первого обращения к системе Visual HCA. Перегруппировка способствует возникающих в различных окнах. Об этом с подробнее сказано в параграфе упорядочение свойств и объектов в исходной матрице по результатам кластеризации или в соответствии объектов. Достижению большей наглядности материала во всех окнах может способствовать встраивание в исходную матрицу данных, опирающихся на какую либо априорную информацию пользователя. Эта информация может быть получена, в том числе, в результате предшествующего анализа данных системой Visual HCA априорной гипотезой о кластерах свойств и кластерах большей наглядности образов, Предлагаемый прием подмешать в данные напоминает известный работу с "мечеными атомами". является в Если надо выловить небольшое множество из нового материала, то можно кластер, который соответствии с гипотезой кандидатом на увеличение числа членов за счет присоединения новых малочисленных объектов. Этот известный кластер признаки, принадлежности объекта к должен быть многочисленным. Например, нас кластеру, должны которые четко могут быть использованы для идентификации интересующему составлять долю, не меньшую, чем сотая доля всех элементов исходных данных, поступающих на анализ. Этот эффект можно получить, подмешав один объект в нескольких экземплярах, или размножить все объекты из малочисленных, но интересных кластеров. Можно подмешать только один "меченый атом". Этого достаточно, если целью его внедрения является идентификация общности новых и известных кластеров. Тогда меченый объект надо будет искать в организовавшихся кластерах, и определять степень включенности его в один из новых кластеров. Если необходимо изучить другими, то для этих Но сам он не связи целей будет влиять на процесс кластеризации как организующее начало. некоторого нужно не свойства только или объекта с не сокращать коррелирующие между собой свойства, а усиливать их, например, дублированием. Это действие выглядит прямо противоположным тому, за которое мы агитировали для борьбы с проклятием большой размерности задачи. Подчеркиваем, что свойства, рекомендуем зашумляющие вводить мы призывали исключать неинформативные полезную информацию. Здесь мы но помогающие выявить слабые, данные, интересные пользователю скрытые свойства и связи.

Упорядочение свойств и объектов в исходной матрице по результатам кластеризации или в соответствии с априорной гипотезой о кластерах свойств и кластерах объектов Мы уже отмечали, что наглядность материалов в различных окнах, кроме двух (наиболее важных по нашему мнению): “Граф” и “Факторный Анализ”, определяется способом организации данных в исходной матрице. В общем случае, если данные не структурированы на этапе окнах трудна для препроцессинга, процессе повысить то информация в некоторых результатов визуального сопоставления. Привлечение визуального анализа данных в анализа работы системы Visual HCA может эффективность у работы исследователя и ускорить процесс пользователя есть относительно какого-либо осознания предоставляемой ему компьютерной информации. Например, если свойств, материала некая гипотеза о группировании и упорядочении объектов и то эту гипотезу желательно выразить в упорядочении строк и первого в обращения к системе стала столбцов исходной матрицы в соответствии с этой гипотезой. Если гипотеза появилась после Visual HCA, то информация, открывшаяся пользователю лицами. Например, нетрудно после разбиения на классы или кластеры свойств объектов и самих объектов переупорядочить строки и столбцы исходной матрицы так, располагались изолиний исходной чтобы объекты или в соседних матрицы или свойства строках ее из одного кластера или столбцах. будут менее полезно структурировать исходную матрицу так, чтобы результате анализа, более выпукла и наглядна для восприятия остальными заинтересованными В этом случае графики распределений компонент векторов и карты составляющих изрезанными и лучше приспособленными для образного визуального анализа. Именно поэтому графа и проведения мы рекомендуем начинать анализ с построения факторного анализа. Затем требуется осуществить выделение кластеров цветом. В случае нетривиального распределения данных в "географическом" пространстве далее необходимо провести топографический анализ окрашенных в цвета своих кластеров. Для используемых в этих этапах анализа порядок следования объектов и свойств в исходной матрице не имеет значения. Однако, если Вам хочется точнее рассмотреть тонкую структуру Ваших данных и результативнее привлекать для анализа другие окна, перегруппируйте данные в порядке следования кластеров и элементов в них (объектов или свойств). Порядок следования объектов или свойств внутри своих кластеров не столь принципиален, как перегруппировка их в соответствии с принадлежностью различным кластерам свойств и объектов. Пропустив затем материал через программы заново, Вы можете с большим успехом сделать "истину для себя" "истиной для всех".

158 Список использованной литературы 1. Абрамович Н.С. Прикладная статистика. Анализ Данных. Многомерная классификация/Н.С. Абрамович.- Минск, 1994. – 39 c. 2. Адамьянц А.О. Новый взгляд на современные возможности обучения будущих библиотекарей: новые образовательные технологии кафедры информационных технологий и электронных библиотек МГУКИ/А.О.Адамьянц // Библиотеки и ассоциации в меняющемся мире: новые технологии и новые формы сотрудничества: Тр конф.М., 2002.-T.1.-C.122-123. 3. Андреев А.М. Лингвистический процессор для информационнопоисковой системы/А.М.Андреев, Д.В.Березкин, А.В.Брик //Компьютерная хроника. - 1998.- № 11 - C. 79 - 100. 4. Андреев А.М. Экспертные юридические системы: миф или реальность/ А.М.Андреев, Д.В.Березкин, Ю.А.Кантонистов // Мир ПК.- 1998.- №9 – C. 56-64. 5. Антопольский А. Б. Электронные библиотеки/А.Б.Антопольский, К.В.Вигурский//Информационные [Электронный ресурс]. ресурсы – России, Режим 1999. доступа:

http://www.elbib.ru/index.phtml?page=elbib/rus/journal. 6. Антопольский А.Б. Разработка и внедрение методов совместимости лингвистического обеспечения при взаимодействии АИС: Дис. на соиск. учен. степ. д.т.н. – М., 1990. 7. Апраушева Н.Н. Новый подход к обнаружению кластеров/ Н.Н.Апраушева. -М., 1993. -65 c.: ил.

8. Армс В. Электронные библиотеки/В. Армс.- М., ПИК ВИНИТИ, 2001.- 89 c. 9. АхоA. Теория синтаксического анализа, перевода и компиляции/А.Ахо, Дж.Ульман. Т.1. Синтаксический анализ. - М.: Мир, 1978. — 612 с. 10. Байдык Т.Н. Нейронные сети и задачи искусственного интеллекта/ Т.Н. Байдык. - Киев: Наукова думка, 2001. - 263 с.: ил. 11. Белоногов Г.Г. Языковые средства автоматизированных информационных систем/Г.Г.Белоногов, Б.А.Кузнецов. - М.: Наука, 1983. – 187 c. 12. Бешелев С.Д. Математико-статистические методы экспеpтных оценок/С.Д. Бешелев, Ф.Г. Гypвич. - М., 1980.- 263 с. 13. Богородская Н.А. Статистика. Методы анализа статистической информации: Конспект лекций/Н.А. Богородская. – СПб., 1997. -80 с.: ил. 14. Бондаренко М.Ф. Автоматическая обработка информации на естественном языке: Учеб. пособие по спец. "Автоматизир. системы обраб. информ. и управления" и "Прогр. обеспечение вычисл. техники и автоматизир. систем"/ М.Ф.Бондаренко, А.Ф.Осыка. -Киев: УМКВО, 1991. -142 с. 15. Боровиков В.П. STATISTICA. Статистический анализ и обработка данных в среде Windows/ В.П.Боровиков, И.П.Боровиков. -М.: Информ.-издат.Дом “Филинъ”, 1997. -592,УШ с.: ил. 16. Боровиков В.П. Популярное введение в программу STATISTICA/ В.П.Боровиков. -М.: Компьютер-Пресс, 1998. -266 с.: ил. 17. Боровиков В.П. Statistica. Статистический анализ и обработка данных в среде Windows/ В.П.Боровиков, И.П.Боровиков. –2 изд., стер. -М.: Информ.-издат.Дом "Филинь", 1998. -592,8 с.: ил. 18. Боровиков В.П. Прогнозирование в системе STATISTICA в среде Windows. Основы теории и интенсивная практика на компьютере: Учеб. пособие для студентов вузов по специальности "Прикл. математика"/ В.П.Боровиков, Г.И.Ивченко. -М.: Финансы и статистика, 1999. -382 с.: ил. 19. Бродовcкий А.И. Cиcтема автоматизации библиотек ИРБИC 2000: что нового?/А.И. Бродовcкий//Науч. и техн. б-ки. – 2001. – №2. -C. 25–31. 20. Бродская И.М. Модель гистоиерархического объектноориентированного справочника для документной информационнопоисковой системы/ И.М.Бродская, Э.З.Любимский, Л.В.Ухов. -М., 1994. -19 c.: ил. 21. Брусакова И.А. Проектирование баз знаний и экспертные системы: Учеб.пособие/ И.А.Брусакова, Д.Д.Недосекин, С.В.Прокопчина. – СПб., 1993. -59 c.: ил. 22. Буч Г. Объектно-ориентированное проектирование с примерами применения/ Г. Буч. - Киев: Диалектика, 1993.-312 c. 23. Волченская Т.В. Теория графов: Учеб. пособие/ Т.В. Волченская. Пенза, 1998. -67 с.: ил. 24. Воройcкий Ф.C. Разработка средств организационнотехнологического обеспечения АБИС/ Ф.C. Воройcкий//Науч. и техн. б-ки. – 2001. – №9.- С. 71–86. 25. Воройский Ф.С. Региональные корпоративные библиотечные системы России: опыт последних трёх лет глазами участников движения/ Ф.С.Воройский, Я.Л.Шрайберг//Науч. и техн. б-ки.- 2003.-№ 3.- С.1333. 26. Воройский Ф.С Корпоративные автоматизированные библиотечноинформационные системы: состояние, принципы построения и перспективы развития. Аналитический обзор/ Ф.С.Воройский, Я.Л.Шрайберг.-М.: ГПНТБ России, 2003.— 129 с. 27. Воройский Ф.С. Основы проектирования автоматизированных библиотечно-информационных систем/ Ф.C. Воройский. — М.: ФИЗМАТЛИТ, 2002. — 383 с. 28. Воройский Ф.С. Развитие современных информационных технологий в библиотеках России и других стран СНГ в зеркале международных конференций "Крым-1994" — "Крым-2000"// Ф.C. Воройский // Науч. и техн. б-ки.-2001.-№ 2.- С. 5-14. 29. Генетические алгоритмы, искусственные нейронные сети и проблемы виртуальной реальности/ Г.К.Вороновский, К.В.Махотило, С.Н.Петрашев, С.А.Сергеев. -Харьков: Основа, 1997. -111 с. 30. Гаврилов Г.П. Методы линейной алгебры в теории графов: Учеб. пособие для студентов/ Г.П.Гаврилов, Д.С.Романов. -М., 1996. -71 с. 31. Галиев Ш.И. Теория формальных языков: Учеб.пособие/ Ш.И.Галиев, Л.Ю.Емалетдинова. -Казань, 1994. -100 c.: ил. 32. Гендина Н.И. Лингвистические средства автоматизации документального поиска/ Н.И. Гендина. - СПб., 1992. -188 с.: ил. 33. Гинкул Г.П. Игровой подход к формированию баз знаний в экспертных системах: Автореф. дис. на соиск. учен. cтеп. канд.физ.мат.наук:05.13.11/ Г.П. Гинкул. -М., 1991. -15 с.

34. Гитис Л.Х. Кластерный анализ: основные идеи и методы: Препринт/ Л.Х.Гитис. -М., 2000. -61 с.: ил. 35. Гольдштейн А.Л. Исследование операции: многокритериальные задачи: Конспект лекций/ А.Л. Гольдштейн. -Пермь, 1995. -72 c.: ил. 36. ГОСТ 7.73-96. Поиск и распространение информации. Термины и определения.- Взамен ГОСТ 7.27-80;

Введ.с 01.01.98. -Минск: Межгос.совет по стандартизации,метрологии и сертификации, 1997. 15 с. 37. ГОСТ 7.74-96. Информационно-поисковые языки. Термины и определения.- Введ.с 01.07.97. -Минск: Межгос.совет по стандартизации,метрологии и сертификации, 1997. -34 с. 38. Гончаров М.В. Введение в Интернет: Учеб.пособие в 9 ч. Ч. 1. Общие сведения / Гончаров М.В.,Шрайберг Я.Л.;

Под общ.ред.Я.Л.Шрайберга. –М.,2000. -60 с.: ил. 39. Гончаров М.В. Введение в Интернет: Учеб.пособие в 9 ч. Ч. 2. Создание собственных WWW-страниц / Гончаров М.В.,Шрайберг Я.Л.;

Под общ.ред.Я.Л.Шрайберга. –М.,2000. -60 с.: ил. 40. Гончаров М.В. Введение в Интернет: Учеб.пособие в 9 ч. Ч. 3. Интернет для науки, культуры и образования / Гончаров М.В.,Шрайберг Я.Л.;

Под общ.ред.Я.Л.Шрайберга. –М.,2000. -82 с.: ил. 41. Горбань А.Н. Нейронные сети на персональном компьютере/ А.Н.Горбань, Д.А.Россиев. - Новосибирск: Наука: Сиб. изд. фирма РАН, 1996. -275 с. 42. Грачев Н.С. Анализ данных по окружающей среде при помощи нейронных сетей с обобщенной регрессией и геостатистики/ Н.С.Грачев, В.В.Демьянов, М.Ф.Каневский. - М., 1999. -39 с.: ил.

43. Дулин С.К. Программная поддержка определения структуры многомерной базы данных для OLAP/ С.К.Дулин, Р.В.Самохвалов. М.: ВЦ РАН, 1997. -21 с.: ил. 44. Евстигнеев В.А. Теория графов: алгоритмы обработки деревьев/ В.А.Евстигнеев, В.Н.Касьянов. - Новосибирск: Наука, 1994. -361 c.: ил. 45. Евреинов Э.В. Информациология сред,структур и биокомпьютерных систем/ Э.В. Евреинов. -М., 1996. -33 с. 46. Проектирование и эксплуатация региональных АСНТИ/ Б.С.Елепов, Л.К.Бобров, С.Р.Баженов, Н.Е.Каленов. - Новосибирск: Наука. Сиб. отд-ние, 1991. -174 c.: ил. 47. Елтаренко Е.А. Оценка и выбор решений по многим критериям: Учеб. пособие/Е.А. Елтаренко. - М., 1995. -111 c.: ил. 48. Епанешников А.М. Программирование в среде DELPHI 2.0/ А.М.Епанешников, В.А.Епанешников. -М.: Диалог-МИФИ Ч. 4. Работа с базами данных. Организация справочной системы. -1998. 400 с.: ил. 49. Желтов В.П. Теория графов: Конспект лекций/ В.П.Желтов, В.И.Музыкантов. -Чебоксары, 1998. -100 с.: ил. 50. Жижимов О.Л. Введение в Z39.50/ О.Л. Жижимов. - Новосибирск: Изд-во НГОНБ, 2000. –196с. 51. Жук Е.Е. Устойчивость в кластер-анализе многомерных наблюдений/ Е.Е.Жук, Ю.С.Харин. - Минск: БГУ,1998. -239 с.: ил. 52. Завьялов Ф.Н. Актуальные проблемы теории и истории статистики и анализа: Сб. науч. тр/Ф.Н. Завьялов. – Ярославль, 1991. -120 с.: ил.

53. Зайченко Ю.П. Исследование операций. Нечеткая оптимизация: Учеб. пособие для студентов вузов по спец. "Автоматизированные системы обработки информ. и управления" и "Прикл. математика" /Ю.П.Зайченко. -Киев: Выща шк., 1991. -191 с.: ил. 54. Зверев Г.Н. Основания теоретической информатики: Учеб. пособие/Г.Н. Зверев. –Уфа,1999. -203 с.: ил. 55. Интеллектуальные системы автоматизированного проектирования БИС и СБИС /В.А.Мищенко, Л.М.Городецкий, Л.И.Гурский и др.;

Под ред. В.А.Мищенко. - М.: Радио и связь, 1988.- 272 с. 56. Информационно-поисковый язык на основе ББК для электронного каталога: Метод. пособие/ Рос. Гос. б-ка. Отдел автоматизации библиотек. -М., 1996. -60 с. 57. Информационные системы в лингвистике: Сб. ст. -Омск, 2000. -89 с.: ил. -(Информатика и лингвистика/ Омский гос. педагог. ун-т;

Вып.1). 58. Искусственный интеллект. В 3 кн. Кн.1. Системы общения и экспертные системы: Справочник/Под ред. Э.В.Попова. - М.: Наука, 1990. 59. Искусственный интеллект. В 3 кн. Кн.2. Модели и методы: Справочник/Под ред. Д.А.Поспелова. - М.: Наука, 1990. 60. Исмагилов Р.С. Графы: Учеб. пособие по курсу "Дискрет. математика"/ Р.С.Исмагилов, А.В.Калинкин, В.В.Станцо. - М.: Изд-во МГТУ, 1999. -41 с.: ил. 61. Использование методов математической статистики при анализе существенных признаков художественно-конструкторских решений, заявленных в качестве промышленных образцов/ Науч.-произв.об-ние "Поиск". -М., 1992. -72 с. 62. Исследование операций и математическое программирование. Кишинев: Штиинца, 1992. -114 с.: ил. 63. Каленов Н.Е. Комплексная автоматизация информационнобиблиотечного обеспечения ученых АН СССР в области естественных наук: Автореф. дис. на соиск. учен. cтеп. д-ра техн.наук:05.25.05/Н.Е.Каленов. -М., 1991. -28 с.: ил. 64. Касьянов В.Н. Теория графов и ее приложения: Сб.ст./В.Н.Касьянов, Науч.ред.В.А.Скоробогатов. -Новосибирск, 1994. -120 c.: ил. 65. Катулев А.Н. Исследование операций. Принципы принятия решений и обеспечение безопасности: Учеб. пособие для студентов вузов/ А.Н.Катулев, Н.А.Северцев. - М.: ФИЗМАТЛИТ, 2000. -318 с. 66. Каштанов В.А. Исследование операций: Учеб. пособие/ В.А.Каштанов, В.М.Хаметов. -М., 1990. -125 с. 67. Кияшко А.Б. Разработка и исследование логического вывода в базах нечетких знаний продукционного типа с целью принятия решений в интеллектуальных системах: Автореф. дис. на соиск. учен. степ. канд. техн. наук: 05.13.17 /А.Б. Кияшко.-Таганрог, 1998. -16 с. 68. Когнитивное моделирование : Тр. междунар. конф.,Пущино,17-19 сент.1999 г. -М.: МИСИС, 2000. -441 с.: ил. 69. Кобранов Г.П. Элементы математической статистики, корреляционного и регрессивного анализа и надежности: Учеб.пособие по курсу "Орг.и планирование эксперимента"/ Г.П.Кобранов, Под ред. В.В.Галактионова. Ч.2.-М.: Изд-во МЭИ,1992. -128 с., 2 л. табл.: ил. 70. Колдаков В.В. Реализация распределенной базы данных в концепции информационного хранилища/ В.В.Колдаков, В.В.Марусин, Е.М.Шаталов. - Новосибирск, 1996. -26 с. 71. Колосов К.А. Особенности реализации системы электронной доставки документов на втором этапе разработки корпоративной сети публичных библиотек Москвы/К.А. Колосов//Библиотеки и ассоциации в меняющемся мире:новые технологии и новые формы сотрудничества Тр. конф.-М.,2001. - Т.2. - С.721-723. 72. Компания “Гарант-Парк-Интернет” [Электронный ресурс]. – Режим доступа: www.rco.ru. 73. Компьютерный синтаксический анализ: описание моделей и направлений разработок/Г.Д.Карпова, Ю.К.Пирогова, Т.Ю.Кобзарева, Е.В.Микаэлян// Итоги науки и техники. Сер. “Вычислительные науки”/ ВИНИТИ;

Т.6. - М.,1991. – C. 91. 74. Корпорация “Галактика Galaktika-ZOOM” [Электронный ресурс]. – Режим доступа: www.galaktika.ru. 75. Костров А.В. Системный анализ и принятие решений: Учеб. пособие / А.В.Костров. -Владимир, 1995. -66 c.: ил. 76. Костромина Н.В. Графы: теория, задачи, алгоритмы: Учеб. пособие/ Н.В.Костромина, Б.Л.Истомин. - Йошкар-Ола, 2000. -103 с.: ил. 77. Кочетыгов А.А. Базы и банки данных: Учеб.пособие/ А.А.Кочетыгов, В.В.Моторин. -Тула, 1995. -104 c.: ил. 78. Крейнес М.Г. Смысловой поиск и индексирование текстовой информации в электронных библиотеках: информационная технология "ключи от текста"[ Электронный ресурс]/ М.Г. Крейнес //Электронные библиотеки.-2001. – Т.2, вып. 3. Режим доступа: http://www.mmascience.ru/ktt/start.htm. 79. Кричевский М.Л. Введение в искусственные нейронные сети: Учеб. пособие/ М.Л. Кричевский. Ч.1.-СПб.,1999. -139 с.: ил. 80. Кудряшев С.А. Классификация в системных исследованиях/ С.А.Кудряшев. - М., 1995. -38 c.: ил. 81. Кузьмин Е.И. Государственная информационная политика и библиотеки: к проблеме взаимодействия/ Е.И. Кузьмин// Науч. и техн. б-ки. – 2001. – №1. -С. 27-46. 82. Куприенко Н.В. Статистика. Методы анализа распределений: Учеб.пособие/ Н.В. Куприенко, О.А.Пономарева. Ч.2. - СПб.: Изд-во СПБГТУ, 2000. -128 с.: ил. 83. Ламерс А. Статистические вычисления: Пер.с нем.:Учеб.пособие для студентов всех спец/ А. Ламерс. -М., 1995. -61 c.: ил. 84. Лекции по теории графов: Учеб. пособие для студентов по спец."Математика" и "Приклад.математика"/ В.А.Емеличев, О.И.Мельников, В.И.Сарванов, Р.И.Тышкевич. -М.: Наука, 1990. -383 с.: ил. 85. Ловас Л. Прикладные задачи теории графов. Теория паросочетаний в математике, физике, химии: Пер с англ./ Л.Ловас, М.Пламмер. -М.: Мир, 1998. -653 с.: ил. 86. Мажаров Л.Г. Разработка методов и средств построения предметноориентированных лингвистических процессоров для автоматизированных систем научных исследований: Автореф. дис. на соиск. учен. степ. канд. техн. наук: 05.13.16/ Л.Г. Мажаров. - Самара, 1997. -18 с.: ил. 87. Мелихов А.Н. Теория алгоритмов и формальных языков: Учеб.пособие/ А.Н.Мелихов, В.И.Кодачигов. -Таганрог, 1983. -69 л.: ил. 88. Методы проектирования баз данных: Сб.докл.Балтийской науч.конф.,Рига 8-10 сент.1992. -Б.м., 1992. -III,184 с.: ил. 89. Мешалкин В.П. Введение в базы данных: Учеб. пособие/ В.П.Мешалкин, В.Н.Фефелов, М.А.Пермяков. -М., 1993. -127 c.: ил. 90. Микони С.В. Методы и алгоритмы принятия решений: Учеб. пособие / С.В. Микони. Ч. 1.-СПб., 1995. -55 с.: ил. 91. Минченко Л.И. Многозначный анализ и возмущенные задачи нелинейного программирования/ Л.И.Минченко, О.Ф.Борисенко, С.П.Грицай. -Минск: Навука i тэхнiка, 1993. -167 c. 92. Михаилян A. Некоторые методы автоматического анализа естественного языка, используемые в промышленных продуктах[Электронный ресурс]/A.Михаилян. – ИНТЕЛЕК ИЗДВО,2003. 93. Моклячук М.П. Методы оптимизации: Учеб. пособие. - Киев: УМК ВО, 1990. 94. Нейронные сети и искусственный интеллект в задачах науки, техники и экономики. -Ульяновск, 2000. -135 с.: ил. -(Тр. Междунар. конф. "Континуальные логико-алгебраические и нейросетевые методы в науке и экономике";

Т.2). 95. Нейроинформатика и ее приложения: Тез.докл. -Красноярск, 1995. -93 с.

96. Нейроинформатика и ее приложения: Тез.докл. -Красноярск, 1999. 167 с.: ил. 97. Неклюдов С.Ю. Интегрированные информационные и программные среды. MS-Windows 95, NT, файловая система и стандартные приложения: Текст лекций/ С.Ю.Неклюдов, Л.М.Сорокин. – СПб., 1998. -75 с.: ил. 98. Обработка информации нейронными сетями: Сб. ст./ Ред. А.А.Веденов. -М., 1990. -132 л.: ил. -(Итоги науки и техники. Сер. “Физические и математические модели нейронных сетей”/ ВИНИТИ;

Т.2). 99. Обработка информации нейросетями: Сб. ст./ Ред. А.А.Веденов. - М., 1991. -146 л.: ил. 100. Организация знаний: лингвистические аспекты:Прогр. и тез. докл. конф. -М., 1995. -31 c. 101. Панов В.А. Математические основы теории систем. Методы оптимизации: Учеб. пособие/ В.А. Панов. -Пермь, 1999. 76 с.: ил. 102. Плюта В. А. Сравнительный многомерный анализ в экономических исследованиях. Методы таксономии и факторного анализа/В.А.Плюта. - М.,1980.-80 c. 103. Пиотровский Р.Г. Математическая лингвистика/Р.Г.Пиотровский, К.Б.Бектаев, А.А.Пиотровская.- М., Наука, 1977. – 254 c. 104. Пиотровский Р.Г. Инженерная лингвистика и теория языка/Р.Г.Пиотровский.- Л., 1979. – 321 c. 105. Поиск по рубрикаторам в информационных массивах: Метод. рекомендации/ ВИНИТИ. - М., 1992. -8 с. 106. Пономарева С.М. Система формирования концептуального представления предметной области на основе анализа проблемноориентированных естественно-языковых текстов: модели, методы и программное обеспечение: Автореф. дис. на соиск. учен. степ. канд.техн.наук:05.13.11/ С.М. Пономарева. -Переславль-Залесский, 1999. -18 с. 107. Попов Э.В. Общение с ЭВМ на естественном языке/Э.В. Попов. - М.: Наука, 1982.-203 c. 108. Предметный поиск в традиционных и нетрадиционных информационно-поисковых системах: Сб.науч.тр./ Сост. В.Сахарный, В. П.Суворова;

Рос.нац.б-ка. - СПб., 1990. -172 с. 109. Призмент Э.Л. Предметизационные системы и аппарат книги: (Теория и практика)/ Э.Л. Призмент. -М., 1999. -339 с. 110. Реализация баз данных Microsoft SQL Server 7.0: Учеб.курс:Офиц.пособие Microsoft для самостоят.подготовки:Пер.с англ. -М.: Рус.ред., 2000. -483 с.: ил. 111. Родионов В.В. Матричные методы отыскания кратчайших расстояний и путей на графах/ В.В. Родионов.-М.: ВЦ РАН, 1999. -74 с.: ил. 112. Рыков А.С. ил. 113. Рубашкин В.Ш. Представление и анализ смысла в интеллектуальных информационных системах/ В.Ш. Рубашкин. - М.: Наука, 1989. 114. Сбойчаков К.О. Интерактивные методы решения слабоформализованных задач в гуманитарных и естественно научных Поисковая оптимизация. Методы деформируемых конфигураций/ А.С.Рыков. -М.: ФИЗМАТЛИТ: Наука, 1993. -215 c.:

приложениях: (Визуальный эвристический кластерный анализ) / К.О. Сбойчаков, П.П. Макагонов// Материалы симпозиума по компьютерным приложениям CIC’98, Мексиканский Национальный Политехнический институт.- Мехико,1998.-C.346-358. - Aнгл. яз. 115. Сбойчаков К.О. Поиск схожих текстов: подходы к решению задачи/ K.O. Сбойчаков, М.А.Александров, П.П.Макагонов//Труды Международной академии информатизации ООН (Молдавия). Кишинев,2000. - C.215-223. - Aнгл. яз. 116. Сбойчаков К.О. Демонстрационная версия электронной базы данных "Устойчивое развитие городов" // К.О. Сбойчаков, П.П. Макагонов, А.И. Бродовский, Л.Н. Очагова.- М.: Знание,1999.-87 c. 117. Сбойчаков К.О. Поиск схожих текстов в полнотекстовых базах данных по заданному образцу/ К.О. Сбойчаков, М.А.Александров, П.П.Макагонов// Материалы симпозиума по компьютерным приложениям CIC’98. -Мехико,1999.-C.17-29.- Aнгл. яз. 118. Сбойчаков К.О. Классификация аннотаций докладов конференции/ К.О. Сбойчаков, П.П.Макагонов// Материалы симпозиума по компьютерным приложениям CIC’99.- Мехико,1999.-C.87.-Aнгл. яз. 119. Сбойчаков К.О. Методика кластеризации коротких текстов на базе набора ключевых слов/ К.О. Сбойчаков, М.А.Александров, П.П.Макагонов// Избранные работы исследователей.- Мехико,1999.C.32-37.- Aнгл. яз. 120. Cбойчаков К.О. Методика исследования предметноориентированных словарей при структуризации потока электронных документов/ К.О. Сбойчаков, М.А.Александров, П.П.Макагонов//Прикладной анализ данных классификация и численные методы.- Б.г.:Шпрингер,2000.- C. 454-456. -Aнгл. яз. 121. Сбойчаков К.О. Программное обеспечение для создания предметно ориентированных словарей и кластеризации документов в полнотекстовых базах данных/K.O. Сбойчаков, П.П.Макагонов// Компьютерная лингвистика и интеллектуальная обработка текстов.Б.г.:Шпрингер,2001.- C. 454-456. - Aнгл. яз. 122. Сбойчаков К.О. Кластеризация документов в факторном метрическом пространстве / K.O. Сбойчаков, М.А.Александров, П.П.Макагонов// Материалы 7-й конф. междунар. федерации сообщества по классификации “Прикладной анализ данных, классификация и численные методы”, Бельгия, 2003.-T.1. – Амстердам. - C.222-225.- Aнгл. яз. 123. Сбойчаков К.О.Анализ критериев устойчивого развития городов на основе практики их применения в условиях России/ П.П.Макагонов, K.O. Сбойчаков, Е. Траилина// Науч. тр. междунар. союза экономистов и вольного экономического общества России.- M.,2001.-T.1.-C.22-27. 124. Сбойчаков К.О. Описание автоматизированной системы классификации текстов/ К.О. Сбойчаков// Информационные технологии в библиотеках и информационное сообщество.-М.:ГПНТБ России, 2001.-С.47-51. 125. Сбойчаков К.О. О новoй файловой структуре CDS/ISIS/ А.И. Бродовский, Н..Мазов, О.Л. Жижимов// Библиотеки и ассоциации в меняющемся мире: новые технологии и новые формы сотрудничества: Тр конф.- М.,2001.-T.1.-C.92-97.

126. Сбойчаков К.О. Перспективы развития ИРБИС в плане применения системы смыслового анализа текстов для создания полнотекстовых хранилищ знаний современной библиотеке/ К.О. Сбойчаков// Библиотеки и ассоциации в меняющемся мире: новые технологии и новые формы сотрудничества: Тр конф.- М., 2003.-T.1.-C.122-125. 127. Сбойчаков К.О. Интерактивные прикладные методы анализа на примере истории социальных проблем Мексики/П.П.Макагонов, K.O. Сбойчаков // Материалы конф. по анализу данных и системному анализу.- Почука, 2003.-T.1.-C.12-15. - Исп. яз. 128. Семёнов Ф. Пока гром не грянет... Организация, технология и технические средства сохранения информационных ресурсов АБИС /Ф. Семёнов //С компьютером на Ты. - М.:Либерея,2000.- C.10-19. 129. Семенова С.Ю. Исследование языковых средств выражения параметричсеской информации и алгоритмизация ее поиска в тексте: Автореф. дис. на соиск. учен. степ. канд.филос.наук:05.13.17/ С.Ю.Семенова. -М., 1994. 130. Смирнов Ю.М. Об одном способе построения синтаксического анализатора А.М.Андреев, текстов на естественном А.В.Брик языке/Ю.М.Смирнов, // Изв. вузов. Д.В.Березкин, Приборостроение.- 1997. - Т. 40, № 5. - C. 34-42. 131. Семиотика и информатика / ВИНИТИ. - М.,1993.- 255 с.: ил. 132. Система ВААЛ [Электронный ресурс].- Режим доступа:http://www.vaal.ru/.

133. Совпель И.В. Инженерно-лингвистические принципы, методы и алгоритмы автоматической переработки текста/ И.В. Совпель. -Минск: Вышэйш. шк., 1991. -118 c.: ил. 134. Создание Корпоративной сети публичных библиотек Москвы: Рабочий проект. T.I. / Науч. рук. д.т.н. Я.Л.Шрайберг, Отв. исп. к.т.н., проф. Ф.С.Воройский, А.И.Бродовский, М.В.Гончаров и др.-М.: ГПНТБ России, 2001.- 85с.- На правах рукописи. 135. Соколов А.А. Лингвистическая система обработки текстов на русском языке/ А.А.Соколов, А.М.Башлыков. -М.: ФизИнформМатАстрон, 1997. -31 с.: ил. 136. Степанов В.К. Библиотеки реальные и виртуальные в эру цифровых коммуникаций/ В.К. Степанов// Науч. и техн. б-ки. – 2001. – №1. -С. 71-75. 137. Столяров Ю.Н. Документный ресурс: Учеб. пособие / Ю.Н. Столяров.- М.: Либерея, 2001. -149 с. 138. Столяров Ю.Н. Сущность информации/ Ю.Н. Столяров. - М.,2000. 107 с. 139. Теория графов и ее применения: Сб./ cт. В.А.Скоробогатов;

Редкол.:Н.Г.Загоруйко (гл.ред.) и др. -Новосибирск, 1996. -106 c.: ил. 140. Толстова Ю.Н. Анализ социологических данных. Методология, дескриптивная статистика, изучение связей между номинальными признаками: Учеб.пособие для студентов кафедр и фак.социологии/ Ю.Н. Толстова. -М.: Науч.мир, 2000. -350 с.: ил.

141. Филиппов В.А. Исследование операций: Учеб.пособие для экон.спец/ В.А. Филиппов. -М., 2000. -95 с.: ил. 142. Френкель А.А. Математико-статистический анализ многолетних наблюдений: Учеб. пособие/ А.А.Френкель, Т.А.Андреева. -М., 1990. 90 с. + Прил. 2 л. табл. 143. Шемакин Ю.И. Начала компьютерной лингвистики: Учеб. пособие/ Ю.И.Шемакин. -М.: Изд-во Моск. гос. открытого ун-та: АО "Росвузнаука", 1992. -114 с.: ил. 144. Ширяев В.И. 1993. -58 c.: ил. 145. Шрайберг Я.Л. Автоматизированные библиотечно-информационные системы России: состояние, выбор, внедрение, развитие/Я.Л.Шрайберг, Ф.С.Воройский.-М.:Либерея,1996.- 271 с. 146. Шрайберг Я.Л. Принципы построения автоматизированных библиотечно-информационных систем и сетей: Автореф. дис. на соиск. учен. степ. д-ра техн. наук:05.25.05, 05.25.03/ Я.Л. Шрайберг. М., 1999. -39 с.: ил. 147. Шрайберг Я.Л. Библиотека как объект автоматизации: схема формального описания, структуризация и моделирование на этапе предпроектного исследования: Препринт/ Я.Л. Шрайберг. -М., 1998. 33 с.: ил. 148. Шрайберг Я.Л. Интернет - ресурсы и услуги для библиотек: Учеб. пособие для вузов культуры и искусств/ Я.Л.Шрайберг, М.В.Гончаров, О.В.Шлыкова. - М., 2000. -140 с.: ил. Исследование операций и численные методы оптимизации: Учеб. пособие/ В.И. Ширяев. -Челябинск: Изд-во ЧГТУ, 149. Шрайберг Я.Л. Основные положения и принципы разработки автоматизированных библиотечно-информационных систем и сетей. Главные тенденции окружения, основные положения и предпосылки, базовые принципы/ Я.Л. Шрайберг. -М., 2000. -130 с.: ил. 150. Шумаков П.В. Delphi 3 и разработка приложений баз данных/ П.В.Шумаков. - М.: Нолидж, 1998. -704 с.: ил. 151. Щербаков М.А. Искусственные нейронные сети: Конспект лекций/ М.А.Щербаков. -Пенза: ПГТУ, 1996. -45 с.: ил. 152. Христьяновский Д.Г. Разработка механизмов извлечения моделей из баз знаний: Автореф. дис. на соиск. учен. степ. канд.физ.-мат.наук: 05.13.17/ Д.Г. Христьяновский. -М., 1995. -18 с. 153. Яшин А.М. Базы знаний и экспертные системы: Учеб. пособие/ А.М.Яшин. - Л., 1990. -75 с.: ил. 154. Computational and Language E-print Archive [Electronic resource]. – Режим доступа: http://xxx.lanl.gov/find/cmp-lg. 155. Conexor (Functional Dependency Grammar) [Electronic resource]. – Режим доступа: http://www.conexor.fi/.. 156. ERGO Linguistic Technologies [Electronic resource]. – Режим доступа: http://www.ergo-ling.com/. 157. Extractor [Electronic resource]. – Режим доступа: http://ai.iit.nrc.ca/II_public/extractor.html. 158. Internet catalog [Electronic resource]. – Режим доступа: http://www.rvb.ru/soft/catalogue/catalogue.html.

159. Inxight [Electronic resource]. – Режим доступа: http://www.inxight.com/.

160. Joresrog K.G. Statistical estimation in factor analysis. A new technique and its foundation. Inaugural dissertation/ K.G. Joresrog. - Uppsala,1978.145 p.

161. Linda Van Guilder Handout for LING361, Fall 1995 Georgetown University [Electronic resource]. – Режим доступа: http://www.georgetown.edu/cball/ling361/tagging_overview.html.

162. Lingsoft (ENGCG) [Electronic resource]. – Режим доступа:

http://lwww.ingsoft.fi/.

163. Linguistics Software Catalogue [Electronic resource]. – Режим доступа:

http://davidsonyuliya.boom.ru/catalog.htm.

164. Link Grammar Homepage [Electronic resource]. – Режим доступа:

http://bobo.link.cs.cmu.edu/link.

165. Human Language Technology Sector of the Information Society Technologies (IST) Programme 1998 – 2000 [Electronic resource]. – Режим доступа: http://www.linglink.lu/.

166. Media Lingva “Следопыт“ [Electronic resource]. – Режим доступа:

http://www.sledopyt.ru.

167. Prosum Summarizer [Electronic resource]. – Режим доступа:

http://transend.labs.bt.com/cgi-bin/prosum/prosum. 168. SPARKLE Shallow PARsing and Knowledge Extraction for Language Engeneering[Electronic resource]. – Режим доступа: http://www.ilc.pi.cnr.it/sparkle/sparkle.html.

169. Teragram Corporation (OEM POS tagger) [Electronic resource]. – Режим доступа: http://www.teragram.com/w3/home.htm. 170. TextAnalyst [Electronic resource]. – Режим доступа: http://www.host.ru/~analyst/. 171. TIPSTER Text Program archive [Electronic resource]. – Режим доступа: http://www.nist.gov/itl/div894/894.02/related_projects/tipster/. 172. Virtual Reality and Multimedia Conference [Electronic resource]. – Режим доступа: http://www.vsmm.vsl.gifu-u.ac.jp/vsmm98. 173. Zipf G.K. Human behavior and the principle of least effort/ G.K. Zipf. Cambridge: Univer. Press, 1949.

Pages:     | 1 ||



© 2011 www.dissers.ru - «Бесплатная электронная библиотека»

Материалы этого сайта размещены для ознакомления, все права принадлежат их авторам.
Если Вы не согласны с тем, что Ваш материал размещён на этом сайте, пожалуйста, напишите нам, мы в течении 1-2 рабочих дней удалим его.