WWW.DISSERS.RU

БЕСПЛАТНАЯ ЭЛЕКТРОННАЯ БИБЛИОТЕКА

   Добро пожаловать!

Pages:     | 1 |   ...   | 35 | 36 || 38 | 39 |   ...   | 58 |

они имеют недостатки – большую Для выбора размерности k, близкой вычислительную сложность и трудность к оптимальной, на основе анализа выбора надлежащих параметров поведения составляющих ошибки решения регуляризации.

– смещения и дисперсии – предлагается Нами предложен и развивается использовать критерии выбора моделей подход к устойчивому решению Маллоуза Cp, Акаике AIC, Бин Ю gMDL, а дискретных некорректных задач, также выбора параметра резуляризации использующий идеи нейросетевого Тихонова методом кросс-валидации GCV, распределенного представления и обобщенной невязки Dsc, L-кривой и др.

рандомизированных проекций. Обе части исходного уравнения превратим в РП случайной проекцией 4-Й МЕЖДУНАРОДНЫЙ СИМПОЗИУМ «НЕЙРОИНФОРМАТИКА И НЕЙРОКОМПЬЮТЕРЫ» Таблица 1. Ошибка решения дискретной некорректной задачи разными методами Ошибка решений Ошибка решений Уровень без случайно проекции со случайной проекцией шума eRegT eRegT eRegT ePinR ePinQR ePinR ePinQR ePinR ePinQR ePin в b Lcur GCV Dsc (k) (k) gMDL(k) gMDL(k) Lcur(k) Lcur(k) 10–2 7.3 108 48.9 47.3 64 53.8(26) 50.3(29) 53.8(26) 51.3(27) 53.8(26) 51.9(30) 10–6 7.3 104 21.1 1.6 103 22.8 21.9(35) 21.7(39) 21.9(35) 21.8(35) 22.0(36) 21.7(39) 10–10 11.1 9.4 11.1 15.5 9.01(77) 8.3(47) 21.9(35) 12.5(45) – – В Таблице 1 приведены ошибки уровня шума в b. Это создает возможность решения дискретной некорректной задачи уменьшения вычислительных затрат на для аэро-гамма съемки (ссылки), получение решения.

полученные обычной псевдоинверсией – Разложение по сингулярным ePin, традиционными методами значениям для получения псевдообратной регуляризации (без случайного матрицы, с помощью которой вычисляется проецирования) eRegT и предлагаемым решение, выполняется для RA (k x n).

способом со случайным проецированием Поэтому, когда k составляет малую долю m, ePin(Q)R. В скобках указаны значения k. При вычислительные затраты O(mn min{m,n}) оптимальной размерности k ошибка на разложение по сингулярным значениям решения на несколько порядков меньше, SVD, которое требуется для нахождения чем методом псевдообращения без псевдообратной матрицы, уменьшаются по преобразования в РП, и находится на сравнению с затратами на SVD исходной уровне ошибки регуляризации Тихонова. матрицы A(m x n). Выигрыш увеличивается На Рис. 7 приведены зависимости от при большом уровне шума, когда k ошибки решения псевдоинверсией с оптимальная размерность k мала.

проецированием (левая ось Y) и критерия Дальнейшее повышение выбора модели gMDL (правая ось Y) при эффективности решения дискретной разных уровнях шума (1e–2, 1 e–6, 1e–10). некорректной задачи может быть также Минимумы ошибки и критерия получено путем применения известных или достигаются при близких значениях k. разработки новых критериев выбора модели, которые дают размерность k, ePinQR 1e-1.E+08 ближайшую к оптимальной.

ePinQR gMDL ePinQR 1e-ePinQR 1e-Соединение структуры и семантики в gMDL 1e-1.E+gMDL 1e-распределенных представлениях gMDL 1e-Оперирование структурами считают 1.E+04 более высокой ступенью обработки информации для человеческого интеллекта и компьютеров. Так, способность 1.E+проводить более сложные аналогии, требующие анализа иерархических систем отношений, появляется у детей, начиная с 1.E+00 определенного возраста (см. ссылки в [40]).

K 0 10 20 30 40 50 А в работе по созданию новых, гораздо Рис. 7. Зависимость ошибки и значений критерия более эффективных компьютеров в рамках выбора модели gMDL от размерности проекционной программы Ubiquitous High Performance матрицы k.

Computing [41], DARPA в качестве одного Значение размерности k, при из основных направлений выделяет Graphкотором достигается минимум ошибки based Computing – вычисления на основе решения, уменьшается с увеличением графов. Утверждается, что продвижения Материалы XVI Международной конференции по нейрокибернетике здесь гораздо более трудные, чем в разреженности кодвекторов требуется обычных "числовых" вычислениях, но в нормализация числа единиц. Рассмотрим долгосрочной перспективе гораздо более один из вариантов процедуры контекстноважные. зависимого прореживания, которая В отличие от обычных вычислений, используется в АПНС для связывания и оперирование со структурами требует нормализации (см. подробное описание и прослеживания связей или указателей – обсуждение в [24]).

последовательности вершин и ребер, а не Связанный кодвектор Z непосредственного доступа по индексам.

формируется из связываемых кодвекторов Наверное, поэтому сходство структур Xi:

вычисляется сложными, зачастую переборными алгоритмами. Кроме того, Z = i Xi Z = меры сходства обычно не учитывают ~ степень сходства элементов структур, либо k=1,K ( Z Z (k) ) = (8) ~ учитывают только совпадение или Z k=1,K Z (k).

различие имен элементов.

~ DARPA противопоставляет Здесь Z (k) есть Z с оперирование структурами и числами и переставленными компонентами. Для призывает отдельно развивать эти каждого k, используется случайная направления. Однако, часто требуется независимая перестановка, фиксированная соединять структурированную и числовую для этого k. Число используемых информацию. Например, вершины графов перестановок K управляет числом могут представлять собой объекты, единичных компонентов в итоговом Z.

которые отличаются не только символьным Подмножество единичных именем, но могут иметь свое векторное компонентов каждого кодвектора Xi, представление.

которое сохраняется в Z, зависит от Z, и, Нами разработаны подходы следовательно, от каждого и всех Xi. Таким преобразования структур в РП образом сохраняется информация о [24,42,43,11,40], которые позволяют конкретном (под)множестве элементов сохранить в векторах полезную структур, кодвекторы которых участвовали информации о структуре и семантике, и в формировании Z, чем и обеспечивается далее эффективно оперировать векторами связывание.

для оценки сходства реляционных Процедура связывания может структур.

рассматриваться как функциональный Группа (подмножество) элементов аналог группирующих скобок в представляется покомпонентной символьной нотации, позволяющий дизъюнкцией Z = i Xi их кодвекторов [24].

сохранить информацию о группировке Однако, если формировать кодвектор элементов структур: (a,b,c...) A,B,C..., "множества множеств" покомпонентной где (a,b,c....) – элементы группы, A,B,C... – дизъюнкцией кодвекторов групп, их кодвекторы,... – процедура информация о первоначальных наборах связывания.

теряется, что приводит к "катастрофе Важным случаем структур являются суперпозиции" (см., например, [24] и последовательности. Для РП ссылки в ней). Поэтому для сохранения последовательности можно использовать информации о группировке элементов в связывание кодвекторов компонент с их иерархических структурах, а также о положением: A №, где № – кодвектор порядке следования элементов, требуется номера.

операция связывания.

Другой разрабатываемый нами Кроме того, покомпонентная подход к представлению дизъюнкция дает вектор, в котором больше последовательности связан с единичных компонентов, чем в каждом из преобразованием в векторы q-грамм входных векторов. Для сохранения переменной длины, и последующее 4-Й МЕЖДУНАРОДНЫЙ СИМПОЗИУМ «НЕЙРОИНФОРМАТИКА И НЕЙРОКОМПЬЮТЕРЫ» формирование РП [44]. Показано, что РП одновременно учитывают и структуру, и аппроксимируют расстояние Левенштейна. семантику знаний.

Разработанные методы эффективного Рассмотрим пример представления поиска ближайших последовательностей в реляционной структуры – эпизода БЗ больших базах использовались для "Солнечная система" – из известной решения ряда задач классификации аналогии Резерфорда атом-солнечная рассуждениями по примерам – поиск система. На Рис. 8. представлено его дубликатов текстов в базах поисковых схематическое описание в виде графа, на систем, идентификация спама в Pис. 9 – в скобочной нотации.

электронной почте, поиск кодирующих На Рис. 10 дано кодвекторное участков генов, выявление аномалий в представление SOLAR_SYSTEM поведении пользователей компьютерных (сконструированное) с применением систем. связывания из кодвекторов сущностей На базе процедур связывания SUN, PLANET и ролей отношений контекстно-зависимым прореживанием [24] CAUSE_1, CAUSE_2, GRAVITY_1, были предложены методы представления GRAVITY_2, MASS, TEMPERATURE, иерархических реляционных структур в ATTRACTS_1, ATTRACTS_2, виде кодвекторов [42,43,11,40]. Их основой GREATER_1, GREATER_2, REVOLVEявляется формирование кодвекторов AROUND_1, REVOLVE-AROUND_2.

отношений. Элементы отношений – их В описании ситуаций (эпизодов) БЗ имена, роли, аргументы – исходно сложность отношений много выше, чем в представлены кодвекторами. Из них с приведенном примере. Так, в помощью разработанных методов экспериментах по поиску аналогов [40] мы формируются результирующие кодвекторы использовали эпизоды БЗ, состоящие в отношений. среднем из 90 отношений. Результаты Сформированные кодвекторы получены на уровне (или выше) лучших отношений имеют ту же размерность, что и символьных моделей рассуждений по кодвекторы компонентов отношений, и аналогии MAC/FAC при меньшей содержат подмножества единичных вычислительной сложности. Рассмотрим в компонентов кодвекторов элементов качестве примера один из экспериментов.

CAUSE отношений. Поэтому сходные по составу 1 элементов отношения продуцируют CAUSE AND сходные результирующие кодвекторы.

1 Из кодвекторов отношений GREATER GRAVITY GREATER рекурсивно формируются кодвекторы сложных иерархических реляционных TEMP TEMP MASS MASS ATTRACT REVOLVE структур, содержащих отношения высших порядков. В результате, для структур со SUN PLANET сходными объектами и отношениями Рис. 8. Схематическое описание аналога в виде созданные методы обеспечивают графа.

продуцирование сходных кодвекторов.

Таким образом, находя сходство кодвекторов реляционных структур по некоторой мере сходства векторов – например, по скалярному произведению – мы одновременно оцениваем сходство структур и сходства объектов в этих структурах. Это создает основу для создания вычислительно эффективных и качественно новых методов обработки реляционных структур баз данных и знаний, которые основаны на сходстве и Материалы XVI Международной конференции по нейрокибернетике (CAUSE порядка, но другие атрибуты объектов.

(GRAVITY (MASS SUN) (MASS PLANET)) Эпизоды "поверхностное сходство" SF (ATTRACTS SUN PLANET) ) имеют одинаковые атрибуты объектов, но (GREATER ( TEMPERATURE SUN) другие отношения более высокого порядка.

( TEMPERATURE PLANET) ) (CAUSE Эпизоды "только отношения первого (AND (GREATER (MASS SUN) порядка" FOR отличаются и по (MASS PLANET) ) отношениям более высокого порядка, и по (ATTRACTS SUN PLANET) ) атрибутам. Как правило, при поиске (REVOLVE-AROUND PLANET SUN) ) аналогов считается, что порядок легкости Рис. 9. Описание аналога в символьной скобочной выражается как LS SF>AN FOR [14].

нотации.

В экспериментах [40] на вход базы SOLAR_SYSTEM = знаний подавали эпизоды, имеющие CAUSE_ GRAVITY_1 MASS SUN сходство типа LS, SF, AN, и FOR с GRAVITY_2 MASS PLANET эпизодами в базе. Из базы извлекались CAUSE_наиболее сходные эпизоды, и ATTRACTS_1 SUN подсчитывались меры качества поиска – ATTRACTS_2 PLANET полнота R (recall) и точность P (precision):

GREATER_1 TEMPERATURE SUN GREATER_2 TEMPERATURE PLANET R = n1/n2; P = n1/n3, (9) CAUSE_ AND GREATER_1MASSSUN GREATER_2MASSPLANET где n1 – число найденных правильных AND ATTRACTS_1 SUN аналогов, n2 – число правильных аналогов ATTRACTS_2 PLANET в базе, n3 – общее число найденных CAUSE_аналогов.

REVOLVE-AROUND_1 PLANET Результаты экспериментов REVOLVE-AROUND_2SUN приведены в Таблице 3. Цифры в скобках Рис 10. Кодвекторное представление аналога.

(10%) обозначают поиск аналогов в интервале сходства 10% от максимально Известно, что люди легче находят похожего на запрос эпизода, а (1) – поиск некоторые виды аналогов, нежели другие.

одного максимально похожего на запрос На основе анализа различных видов эпизода. Значение полноты поиска для всех аналогов психологами были выявлены экспериментов было равно 1.

типы их сходства и упорядочены в порядке Результаты по точности поиска легкости нахождения [14]. Типы сходства показывают, что для АПНС максимальные представлены в Табл. 2. Здесь все эпизоды значения точности поиска, равные 1, имеют одинаковые отношения первого получены для большинства запросов и порядка (в данном случае – атаковать, параметров формирования РП (обозначены давать отпор). Имеется два отношения FCDT). Исключение составляют FOR для более высокого порядка (отношение АПНС (10%) FCDT = 0.2, где точность равна следования =>): =>(атаковать, давать 0.63. Этот результат сопоставим с отпор) и =>( давать отпор => атаковать) результатом лучшей символьной модели и признаковые отношения (атрибуты MAC/FAC (10%), где точность равна 0.5.

объектов) страна, фирма.

По сравнению с первой стадией MAC Эпизоды с "буквальным сходством" (10%) модели MAC/FAC, для АПНС LS имеют одинаковые отношения более точность в 5-10 раз выше для сходства типа высокого порядка (отношение следования SF, AN, и FOR; а для сходства типа LS – в "в результате") и атрибуты объектов.

раза выше.

Эпизоды "истинная аналогия" AN имеют одинаковые отношения более высокого 4-Й МЕЖДУНАРОДНЫЙ СИМПОЗИУМ «НЕЙРОИНФОРМАТИКА И НЕЙРОКОМПЬЮТЕРЫ» Таблица 2. Типы сходства аналогов Общие Общие Общие Тип отношения отношения атрибуты сходства 1-го пор. высш. пор. объектов Пример эпозода Входной страна(США); страна(Вьетнам);

аналог => (атака(США, Вьетнам), отпор(Вьетнам, США)) LS страна(Ирак); страна(Кувейт);

=> (атака(Ирак, Кувейт), отпор(Кувейт, Ирак)) SF – страна(CCCР); страна(Афганистан);

=>(отпор(Афган, СССР), атака(СССР, Афган)) AN – фирма(IBM); фирма (Apple);

=> (атака(IBM, Apple), отпор(Apple, IBM)) FOR – – фирма(IBM); фирма (Apple);

Pages:     | 1 |   ...   | 35 | 36 || 38 | 39 |   ...   | 58 |



© 2011 www.dissers.ru - «Бесплатная электронная библиотека»

Материалы этого сайта размещены для ознакомления, все права принадлежат их авторам.
Если Вы не согласны с тем, что Ваш материал размещён на этом сайте, пожалуйста, напишите нам, мы в течении 1-2 рабочих дней удалим его.