WWW.DISSERS.RU

БЕСПЛАТНАЯ ЭЛЕКТРОННАЯ БИБЛИОТЕКА

   Добро пожаловать!

Pages:     | 1 |   ...   | 30 | 31 || 33 | 34 |   ...   | 43 |

Таблица 1  Метки и статические описания первых пяти кластеров 1 иностранцы- nonresident aliens  trade or business нерезиденты  temporarily present  sources within the united  tax treaties  resident of the united  nonresident alien engaged 2 профессор streng is the vinson  streng graduated юриспруденции  law university of houston law center houston  southern methodist university  professor of law university of houston law law at the university of houston law 3 расходы travel expenses  business expenses  expenses incurred petitioner wife   ordinary and necessary expenses  petitioner paid petitioner is entitled 4 гранты scholarships or fellowship grants schol- arships and fellowship grants scholarship or fellowship grants  medical residents  university hospital residency program scholarship program 5 пенсионные idb plans pension plans actuarial планы valuation incurred but unpaid medical claims incurred but unpaid claims actuarial certification defined benefit plans...

Далее приведен анализ содержимого первых четырех кластеров, включая как релевантные документы (содержащие буквально фразу запроса), так и семантически релевантные документы (не содержащие указанной фразы).

В качестве иллюстрации приведены рис. 2, 3 и 4, содержащие соответственно образы экрана со списком релевантных документов из первого кластера, с текстом первого релевантного документа из первого кластера и списком семантически релевантных документов. Более детальная информация о содержании первых четырех кластеров представлена в таб. 2.

Рис 2. Релевантные документы из первого кластера Рис. 2 иллюстрирует содержимое первого кластера (иностранцы-нерезиденты). Облако тегов составлено из автоматически выделенных фраз, отражающих содержание релевантных документов. Отмечая любой из тегов, пользователь сужает область релевантности – выводятся только релевантные документы, содержащие выделенный тег. Для каждого документа приводится его заголовок и автоматически построенный реферат (из фраз, входящих в документ). Некоторые слова, выделенные в реферате красным цветом, должны помочь пользователю понять смысл документа.

На рис. 3 приведен текст первого релевантного документа из первого кластера. Красным отмечены автоматически выделенные слова, характеризующие смысл документа. Синим цветом отмечена фраза-запрос.

На рис. 4 приведен список семантически релевантных документов для первого кластера.

В таб. 2 содержится анализ содержимого первых четырех кластеров.

Рис. 3. Первый релевантный документ из первого кластера Рис. 4. Список семантически релевантных документов  для первого кластера Таблица 2  Содержание ряда релевантных и семантически релевантных документов из первых четырех кластеров 1 2 3 4 1. иностранцы- 8 около 1-й • Нерезидент из Японии нерезиденты 700 релевантный • Приглашенный исследователь в США • Ранее уже работал в США как приглашенный профессор • Существует соглашение между США и Японией о подоходном налоге • Работа выполняется в университете США в общественных интересах • Освобождение от подоходного налога на 2 года 2-й • Нерезидент из Японии релевантный • Приглашенный профессор в США • Ранее уже работал в США • Существует соглашение между США и Японией о подоходном налоге • Работа выполняется в университете США в общественных интересах • Освобождение от налога на 2 года. Для получения нового освобождения необходимо покинуть США на 1 год 1 2 3 4 1-й • Нерезидент из Японии семантически • Приглашенный (на 3 года) исследователь в США релевантный • Ранее не работал в США • Существует соглашение между США и Японией о подоходном налоге • Работа выполняется в университете США в общественных интересах • Освобождение от налога на 2 года. Доход, полученный в 3-й год, подлежит налогообложению 2. профессор 6 34 1-й • Профессор юридической школы из университета Кентукки юриспруденции релевантный • Ранее был приглашенным профессором в другом университете документ • Автор ряда книг в области налогообложения 2-й • Данные о том же профессоре, что и в 1-м документе релевантный • Документы отличаются только названием документ 1-й • Профессор юридического центра университета Хьюстона семантически • Нет данных о его публикациях релевантный документ 3. расходы 5 около 1-й • Временная работа приглашенным профессором в другом 2000 релевантный университете в США документ • Дополнительные расходы на переезд, питание, аренду жилья • Желает получить освобождение от налогов на эти расходы, не претендуя на освобождение от налогов на расходы по содержанию жены и детей 1 2 3 4 • Освобождение от налогов возможно на такие расходы, как:

аренда жилья, питание, прачечная, транспортные расходы (от места временного проживания до места временной работы) 2-й • Профессор из США получил временную работу в качестве релевантный приглашенного профессора в Европе • Уезжает на срок менее 1 года с женой документ • Налоги с доходов в Европе следует платить в США • Освобождение от налогов на транспортные расходы, питание и проживание на время дороги в Европу и обратно. Нет освобождения от налогов на любые расходы во время каникул и любых расходов на жену 1-й • Профессор из США предполагает получить временную работу семантически (visiting professorship) на 9 месяцев в другом университете в США • Просит освобождения от налогов на расходы на еду, аренду релевантный жилья документ • Освобождение от налогов возможно на такие расходы, как:

аренда жилья, питание, прачечная, транспортные расходы (от места временного проживания до места временной работы). Хотя профессор переезжает на новое место с семьей, компенсация за расходы на аренду жилья возможна только в сумме, соответствующей стоимости аренды жилья на одного человека гранты 2 около 1-й • Перечень стран, граждане которых освобождаются в США от 570 релевантный подоходного налога, будучи приглашенными профессорами или учителями документ • Для каждой страны приведены условия такого освобождения и сроки (2–3 года) • России в этом списке нет 1 2 3 4 2-й • Налогоплательщик работал приглашенным профессором в релевантный течении 2 лет документ • На очередной учебный год получил награду за успешную работу • По закону США награды не включаются в налогооблагаемый доход при условии, что награжденный не должен выполнять впоследствии некоторую работу как условие получения награды • В данном случае профессор должен читать лекции в двух семестрах. Условий для освобождения от налога нет 1-й • Подробное описание различных типов грантов и стипендий, семантически которые могут быть полностью или частично освобождены от релевантный налогов документ • Для конкретного случая (медицинское образование) получатели стипендий освобождаются от уплаты налогов на суммы, выделяемые на оплату обучения, оборудования, книги.

Расходы на проживание и питание облагаются налогом Выводы Приведенный пример иллюстрирует основные преимущества использования системы SOPHIA перед более традиционными в том случае, когда пользователь желает получить общее представление по интересующему его вопросу. В ответ на запрос “visiting professor” выявились три важные и релеvisiting professor” выявились три важные и релеprofessor” выявились три важные и релеprofessor” выявились три важные и реле” выявились три важные и релевантные темы, представленные в кластерах 1, 3 и 4 (кластер 2 не представляет интереса, так как содержит данные о профессиональной карьере американпрофессиональной карьере американпрофессиональной карьере американских профессоров юриспруденции).

Первая тема (тег «иностранец-нерезидент») касается иностранцев, прибывших на временную работу в один из университетов США по приглашению. Семантически релевантные документы не содержат фразы запроса, но представляют интерес, так как или касаются сходных случаев (visiting researcher) или содержат фразу-синоним (visiting professorship).

Третья тема (тег «расходы») касается запросов на освобождение от налога расходов, связанных с переездом к месту временной работы для граждан США.

Последняя из представленных тем (тег «гранты») затрагивает тему освобождения от налогов для грантополучателей.

Стоит отметить и тему 2 (тег «профессор юриспруденции»). Первые два найденных релевантных документа являются почти дубликатами (отличие только в заголовках). Это демонстрирует возможность применения системы SOPHIA для поиска дубликатов и почти дубликатов.

Литература [1] А. А. Кибрик. Модус, жанр и другие параметры классификации дискурА. Кибрик. Модус, жанр и другие параметры классификации дискурА. Кибрик. Модус, жанр и другие параметры классификации дискурКибрик. Модус, жанр и другие параметры классификации дискурКибрик. Модус, жанр и другие параметры классификации дискурсов. Вопросы языкознания, в печати, 2009.

[2] Система анализа текстовых коллекций и поиска SOPHIA. http://www.

sophiasearch.com [3] V. Dobrynin, D. W. Patterson, N. Rooney. Contextual Document Clustering.

ECIR 2004, pages 167–180, 2004.

[4] V. Dobrynin, S. K. Pham, D. Patterson, N. Rooney, M. Galushka: SOPHIA in Enterprise Track. TREC 2006.

[5] V. Dobrynin, D. W. Patterson, M. Galushka, N. Rooney. SOPHIA: an interactive cluster-based retrieval system for the OHSUMED collection. In IEEE Transactions on Information Technology in Biomedicine, volume 9(2), pages 256–265, 2005.

[6] D. Patterson, N. Rooney, M. Galushka, V. Dobrynin, E. Smirnova. SOPHIATCBR: A knowledge discovery framework for textual case-based reasoning. In Knowl.-Based Syst. Volume 21(5), pages 404–414, 2008.

[7] D. W. Patterson, N. Rooney, V. Dobrynin, M. Galushka. Sophia: A novel approach for Textual Case-based Reasoning. IJCAI 2005, pages 15–20, 2005.

[8] Niall Rooney, David W. Patterson, Mykola Galushka, Vladimir Dobrynin, Elena Smirnova: An investigation into the stability of contextual document clustering. In JASIST, volume 59(2), pages 256–266, 2008.

[9] N. Rooney, D. W. Patterson, M. Galushka, V. Dobrynin. A relevance feedback mechanism for cluster-based retrieval. In Inf. Process. Manage. volume 42(5), pages 1176–1184, 2006.

[9] N. Rooney, D. W. Patterson, M. Galushka, V. Dobrynin. A scaleable document clustering approach for large document corpora. In Inf. Process. Manage., Volume 42(5), pages 1163–1175, 2006.

[10] Система кластеризации результатов поиска http://search.yippy.com/ SOPHIA: Analysis of a Legal Document Collection Vladimir Dobrynin The legal document collection was clustered into 659 clusters by Contextual Document Clustering algorithm. Interpretation of generated cluster structure based on concept of discourse community is presented.

Статистический анализ федеральных законов на основе баз данных правовой информации Н. В. Ткаченко* Характерной чертой современной жизни являются новые информационные технологии, затронувшие все сферы деятельности человека. Не является исключением и юриспруденция: благодаря технологическим достижениям в практической юриспруденции используются не бумажные, а электронные тексты правовых актов. Есть мнение, что именно новейшие информационные технологии дают возможность оперативно обрабатывать и актуализировать гигантские массивы правовых данных. Однако справедливости ради стоит отметить, что технологические решения в настоящее время прежде всего облегчают работу правоприменителя (в широком смысле этого слова). Получение текстов правовых актов из баз данных правовой информации стало де-факто стандартом работы с ней, этим невозможно кого-либо удивить.

При этом наличие огромного массива правовой информации в электронном виде открывает широкие возможности для исследования законодательства Российской Федерации как системы, меняющейся во времени, что может оказаться весьма полезным в законотворческой деятельности. Для того чтобы заниматься развитием, улучшением какого-либо объекта, прежде необходимо понимать, что он из себя представляет. Еще лучше иметь объективные критерии для оценки качества объекта, используя которые можно задавать измеримые ориентиры для его изменения.

В настоящее время лидирующие базы данных правовой информации уже включают в себя федеральное законодательство, а также законодательство всех субъектов Российской Федерации, взаимосвязанное и систематизированное на единой методической основе в единые банки данных. Правовые акты классифицированы по единому классификатору, широкий набор * Ткаченко Наталья Викторовна, руководитель производственного управления ООО «НПП «Гарант-Сервис-Университет».

реквизитов позволяет строить выборки, комбинируя различные поисковые критерии.

С использованием перечисленных возможностей было проведено статистическое исследование динамики федерального законодательства в период с 1994 по 2010 г., некоторые результаты которого представлены в настоящей работе.

Фактически этап статистического наблюдения, представляющий собой организованный по единой программе сбор данных об исследуемом объекте путем регистрации его существенных признаков (с целью получения первичной статистической информации), выполняет процесс создания базы данных правовой информации, включающий в себя: сбор нормативных правовых актов, их систематизацию, предметное индексирование согласно классификатору правовых актов, индексирование по иным критериям (дата принятия, принявший орган, год акта и проч.).

На приведенном ниже графике 1 отражена динамика изменения количества федеральных законов, принимаемых ежегодно.

График Из представленной диаграммы видно, что локальные максимумы количества федеральных законов наблюдались в 1995 и 1999 гг. – заключительных годах работы Государственной Думы первого и второго созывов (под годом достижения локального максимума понимается год, в котором количество федеральных законов превышает количество федеральных законов, принятых в один или несколько предыдущих и последующих лет; аналогично под годом достижения локального минимума понимается год, в котором количество федеральных законов меньше количества федеральных законов, принятых в один или несколько предыдущих и последующих лет). Заключительный год работы Государственной Думы третьего созыва (2003) не показал локального максимума количества принятых федеральных законов за время ее работы.

Pages:     | 1 |   ...   | 30 | 31 || 33 | 34 |   ...   | 43 |



© 2011 www.dissers.ru - «Бесплатная электронная библиотека»

Материалы этого сайта размещены для ознакомления, все права принадлежат их авторам.
Если Вы не согласны с тем, что Ваш материал размещён на этом сайте, пожалуйста, напишите нам, мы в течении 1-2 рабочих дней удалим его.