Aвтоматизация процесса создания электронных лингвистических ресурсов / декабрь / 2011 / Диссертации / CNAA

CNAA / Диссертации / 2011 / декабрь /

Aвтоматизация процесса создания электронных лингвистических ресурсов

Автор:	Petic Mircea
Степень:	доктор информатики
Специальность:	01.05.01 - Теоретические основы информатики, программирование вычислительных машин
Год:	2012
Научный руководитель:	Svetlana Cojocaru доктор хабилитат, профессор, Институт математики и информатики
Научный консультант:	Elena Boian доктор, доцент, Институт математики и информатики
Институт:	Институт математики и информатики
Ученый совет:	D 01-01.05.01-25.12.03 Институт математики и информатики

Статус

Диссертация была зашищена 22 декабря 2011
Утверждена Национальным Советом 16 февраля 2012

Автореферат

– 0.35 Mb / на румынском

Ключевые слова

электронные лингвистические ресурсы, алгоритм словообразования, аффикс, префикс, суффикс, сегментирование слов, чередование гласных-согласных, автоматическая генерация производных слов, генеративные словообразующие механизмы

Аннотация

Диссертация была написана в Институте математики и информатики при Академии наук Молдовы (Кишинёв), в 2011 году, на румынском языке и содержит: введение, три главы, общие заключения и рекомендации, библиографию из 200 названий, 14 приложений, 133 страниц основного текста, 15 рисунков и 44 таблиц. Полученные результаты опубликованы в 27 научных статьях.

Произведенное в данной работе исследование относится к актуальной научной области, связанной с автоматизацией процесса создания электронных лингвистических ресурсов, а именно – с автоматической генерацией дериватов, отсутствующих в электронных лингвистических ресурсах.

Цель диссертации заключается в исследовании механизмов и разработка алгоритмов генерации дериватов для пополнения электронных лингвистических ресурсов.

Область исследования предусматривают: оценку существующих методов для автоматизации процесса деривации; исследование структурных особенностей доступных электронных лингвистических ресурсов; определение количественных и качественных характеристик дериватов; разработка алгоритмов автоматического выявления дериватов; определение механизмов и разработка алгоритмов генерации дериватов.

Научная новизна и оригинальность. Данная работа способствует пополнению исследований в области обработки естественного языка путём разработки математических моделей и алгоритмов для решения задачи автоматической генерации дериватов. Результаты исследования представляют собой реализацию новой методологии исследования проблем, относящихся к компьютерной деривационной морфологии, связанных с алгоритмизацией определённых лингвистических механизмов, таких как обмен аффиксов, проекция дериватов, лексические ограничения и деривационные правила.

Теоретическая значимость и прикладная ценность работы. Предложен статистический метод оценки неопределённости румынских аффиксов, основанный на понятии энтропии. Разработаны математические формальные описания механизмов деривации, которые были использованы для разработки алгоритмов генерации дериватов. В процессе исследования были получены результаты, с помощью которых был разработан алгоритм генерации дериватов, который способствовал пополнению электронных лингвистических ресурсов. Данный алгоритм может служить инструментарием для последующих исследований в области обработки естественного языка. Результаты исследования представляют интерес для лексикографической практики, в процессе составления словарей и лексикографической обработки дериватов. Также результаты исследования могут быть использованы в качестве методического пособия в деятельности как лингвистов так и информатиков.

Внедрение научных результатов. По полученным результатам было разработано расширение базы данных RRTLN, которое позволило сделать вывод примерно 15.000 дериватов без специальной программы сегментирования слов на морфемы (41 префикса, около 420 суффиксов, более 8 тысяч корней/основ). Найденные механизмы, позволившие разработку алгоритмов и, соответственно, программ, привели к генерированию значительного числа дериватов с разными аффиксами, среди них 8839 с 11 префиксами, и 2352 с 24 суффиксами, что привело к существенному обогащению электронных лингвистических ресурсов для румыского языка.

Официальные оппоненты

Anatol Popescu
доктор хабилитат, профессор, Технический Университет Молдовы
Adrian Iftene
dr. în informatică, UAIC Iaşi, România

Члены Ученого Совета

Constantin Gaindric, председатель
доктор хабилитат, профессор, Институт математики и информатики
Constantin Ciubotaru, секретарь
доктор, доцент, Институт математики и информатики
Victoria Bobicev, член
доктор, доцент, Технический Университет Молдовы
Alexandru Colesnicov, член
доктор
Iurie Rogojin, член
доктор хабилитат, Институт математики и информатики
Ilie Costaş, член
доктор хабилитат, профессор, Молдавская Экономическая Академия

Диссертации

Были выполнены 3 диссертаций. (по этой специальности)