Главная страница 1
скачать файл

СТруктурное аннотирование математических документов на основе лексико-семантических шаблонов
Невзорова Ольга Авенировна, Невзоров Владимир Николаевич,
Шушпанникова Наталия Александровна
НИИ "Прикладная семиотика" АН РТ

Казанский государственный технический университет им. А.Н. Туполева

Казанский (Приволжский) федеральный университет

Казань, Россия

onevzoro@gmail.com, nevzorov@mi.ru, natasha_sush@inbox.ru
Поиск по математическим документам - актуальная и быстроразвивающаяся область исследований. Современные математические поисковые системы условно можно разделить на две группы: системы поиска научных публикаций [1, 2] и поисковые интерфейсы крупнейших научных коллекций [3, 4, 5], в которых реализован сервис фасетного полнотекстового поиска по ключевым словам, а также поиск по формулам и выражениям [6]. Дальнейшее развитие математического поиска должно базироваться на семантических технологиях, базис которых составляют различные виды семантической разметки математических текстов. Одной из семантических разметок является структурная разметка математического документа.

В статье рассматриваются первые результаты по структурному аннотированию математических документов на основе моделей лексико-синтаксических шаблонов.

Большинство математических документов имеют достаточно четкую внутреннюю структуру. Выделяются главы, определения, формулировка теорем, доказательства и др. При этом большинство элементов выделяется явно за счет использования стилей или тегов языка LaTEX. В контексте задачи поиска эксплицитная форма представления структурных элементов позволит выполнять семантические поисковые запросы, которые не достаточно удовлетворительно исполняются современными поисковыми системами [8]. Семантическая структура математических документов может быть представлена онтологической моделью типа онтологии OMDoc [7], которая концептуально описывает структурные элементы математических документов и отношения между ними. Задача структурного аннотирования математического документа на русском языке связана с выделением границ структурных элементов, представленных в онтологии OMDoc. Распознавание границ структурных элементов осуществляется на основе лексико-синтаксических шаблонов (ЛСШ) без использования информации о стилях форматирования и другой специальной информации.

Семантическая разметка структурных элементов описывается на полуформальном языке (языке ЛСШ), приложение для семантического поиска будет использовать нотацию языка OMDoc.

Множество используемых тегов для аннотирования определяется составом базового подмножества OMDoc (в текущей версии рассматриваются концепты определение, теорема, лемма, доказательство и др). С каждым элементом связывается множество начальных и финальных ЛСШ, посредством которых в тексте маркируются соответствующие семантические фрагменты. Распознавание точных семантических границ, в общем случае, весьма сложная процедура для автоматических методов, поэтому в ряде случаев можно получить лишь приближенные оценки границ структурных элементов, особенно для структурных элементов со сложной семантикой (определение, утверждение и т.п.). Одним из решений является введением сигнальных ЛСШ, которые указывают, что в границах некоторого фиксированного фрагмента (чаще всего предложения) содержится заданный структурный элемент.

ЛСШ – это последовательность лексем с указанными грамматическими характеристиками фиксированной семантики. Выделение ЛСШ производилось на основе коллекции математических статей журнала "Известия ВУЗов. Математика", издаваемого в Казанском (Приволжском) федеральном университете. Список ЛСШ в текущей версии является открытым и служит для отработки методов структурного аннотирования.

Эксперименты по распознаванию ЛСШ в математических статьях проведены с использованием моделей и методов обработки текстов, реализованных в онтолингвистической системе "OntoIntegrator" [9].
Благодарности

Исследование выполнено при поддерңке РФФИ, грант № 09-07-12059-офи_м.

Литература

1. CiteSeer. http://citeseer.ist.psu.edu.

2. Google Scholar. http://scholar.google.com.

3. Math-Net.Ru. http://www.mathnet.ru/.

4. Zentralblatt Math. http:// www.zentralbalatt-math.org/zmath/.

5. arXiv. http://arxiv.org/.

6. Kohlhase, M. A Search Engine for Mathematical Formulae /M. Kohlhase, I. Sucan //Lecture Notes in Computer Science.– Vol. 4120. – 2006. – Pp. 241-253.

7. Kohlhase, M. OMDoc – An Open Markup Format for Mathematical Documents [version 1.2] // //Lecture Notes in Computer Science.– Vol. 4180. – 2006.



8. Биряльцев Е.В. Модель семантического поиска в коллекциях математических документов на основе онтологий / Елизаров А.М., Жильцов Н.Г.. Иванов В.В., Невзорова О.А., Соловьев В.Д. // Труды конференции RCDL'2010. – 2010. В печати.

9. Невзорова О.А. Онтолингвистические системы: технологии взаимодействия с прикладной онтологией // Ученые записки Казанского государственного университета. Серия физико-математические науки. – 2007. – Кн. 149. – С. 105-115.
скачать файл



Смотрите также:
Поиск по математическим документам актуальная и быстроразвивающаяся область исследований
31.98kb.
Влияние компьютерных игр на агрессивность детей
28.04kb.
Участие в операциях по управлению полётом и стыковкой тпк «Союз тма-10М» с мкс к малому исследовательскому модулю «Поиск» (мим2)
49.78kb.
Международная конференция исламская философия и философское исламоведение: перспективы исследований
30.93kb.
!Экология делится на три раздела – общая, социальная и прикладная
42.49kb.
Практикум: Выделение областей
129.91kb.
Зав кафедрой Радиоэлектроники и телекоммуникаций
110.07kb.
1 Расчетные сочетания усилий
190.94kb.
Конкурс проектов фундаментальных и поисковых исследований «Наука-2012». Срок подачи заявок в Фонд по 15 сентября 2011 г
13.46kb.
Московская школа политических исследований право, политика, экономика, сми
553.35kb.
Книга II аналитические процессы
389.21kb.
Чем обогатилась за последние годы методология исследований журналистики и массовых коммуникаций? Как объединить различные научные инструменты в общую систему, и нужно ли это делать
283.78kb.