Аттестационная комиссия
Комиссия по аккредитации
Комиссия по экспертов
Распоряжения, инструкции
Нормативные акты
Номенклатура
Организации
Ученые советы
Семинары
Диссертации
Научные руководители
Ученые
Докторанты
Постдокторанты
CNAA logo

 română | русский | english


Aвтоматизация процесса создания электронных лингвистических ресурсов


Автор: Petic Mircea
Степень:доктор информатики
Специальность: 01.05.01 - Теоретические основы информатики, программирование вычислительных машин
Год:2012
Научный руководитель: Svetlana Cojocaru
доктор хабилитат, профессор, Институт математики и информатики
Научный консультант: Elena Boian
доктор, доцент, Институт математики и информатики
Институт: Институт математики и информатики
Ученый совет: D 01-01.05.01-25.12.03
Институт математики и информатики

Статус

Диссертация была зашищена 22 декабря 2011
Утверждена Национальным Советом 16 февраля 2012

Автореферат

Adobe PDF document0.35 Mb / на румынском

Ключевые слова

электронные лингвистические ресурсы, алгоритм словообразования, аффикс, префикс, суффикс, сегментирование слов, чередование гласных-согласных, автоматическая генерация производных слов, генеративные словообразующие механизмы

Аннотация

Диссертация была написана в Институте математики и информатики при Академии наук Молдовы (Кишинёв), в 2011 году, на румынском языке и содержит: введение, три главы, общие заключения и рекомендации, библиографию из 200 названий, 14 приложений, 133 страниц основного текста, 15 рисунков и 44 таблиц. Полученные результаты опубликованы в 27 научных статьях.

Произведенное в данной работе исследование относится к актуальной научной области, связанной с автоматизацией процесса создания электронных лингвистических ресурсов, а именно – с автоматической генерацией дериватов, отсутствующих в электронных лингвистических ресурсах.

Цель диссертации заключается в исследовании механизмов и разработка алгоритмов генерации дериватов для пополнения электронных лингвистических ресурсов.

Область исследования предусматривают: оценку существующих методов для автоматизации процесса деривации; исследование структурных особенностей доступных электронных лингвистических ресурсов; определение количественных и качественных характеристик дериватов; разработка алгоритмов автоматического выявления дериватов; определение механизмов и разработка алгоритмов генерации дериватов.

Научная новизна и оригинальность. Данная работа способствует пополнению исследований в области обработки естественного языка путём разработки математических моделей и алгоритмов для решения задачи автоматической генерации дериватов. Результаты исследования представляют собой реализацию новой методологии исследования проблем, относящихся к компьютерной деривационной морфологии, связанных с алгоритмизацией определённых лингвистических механизмов, таких как обмен аффиксов, проекция дериватов, лексические ограничения и деривационные правила.

Теоретическая значимость и прикладная ценность работы. Предложен статистический метод оценки неопределённости румынских аффиксов, основанный на понятии энтропии. Разработаны математические формальные описания механизмов деривации, которые были использованы для разработки алгоритмов генерации дериватов. В процессе исследования были получены результаты, с помощью которых был разработан алгоритм генерации дериватов, который способствовал пополнению электронных лингвистических ресурсов. Данный алгоритм может служить инструментарием для последующих исследований в области обработки естественного языка. Результаты исследования представляют интерес для лексикографической практики, в процессе составления словарей и лексикографической обработки дериватов. Также результаты исследования могут быть использованы в качестве методического пособия в деятельности как лингвистов так и информатиков.

Внедрение научных результатов. По полученным результатам было разработано расширение базы данных RRTLN, которое позволило сделать вывод примерно 15.000 дериватов без специальной программы сегментирования слов на морфемы (41 префикса, около 420 суффиксов, более 8 тысяч корней/основ). Найденные механизмы, позволившие разработку алгоритмов и, соответственно, программ, привели к генерированию значительного числа дериватов с разными аффиксами, среди них 8839 с 11 префиксами, и 2352 с 24 суффиксами, что привело к существенному обогащению электронных лингвистических ресурсов для румыского языка.