|
СтатусДиссертация была зашищена 22 декабря 2011Утверждена Национальным Советом 16 февраля 2012 Автореферат![]() |
Диссертация была написана в Институте математики и информатики при Академии наук Молдовы (Кишинёв), в 2011 году, на румынском языке и содержит: введение, три главы, общие заключения и рекомендации, библиографию из 200 названий, 14 приложений, 133 страниц основного текста, 15 рисунков и 44 таблиц. Полученные результаты опубликованы в 27 научных статьях.
Произведенное в данной работе исследование относится к актуальной научной области, связанной с автоматизацией процесса создания электронных лингвистических ресурсов, а именно – с автоматической генерацией дериватов, отсутствующих в электронных лингвистических ресурсах.
Цель диссертации заключается в исследовании механизмов и разработка алгоритмов генерации дериватов для пополнения электронных лингвистических ресурсов.
Область исследования предусматривают: оценку существующих методов для автоматизации процесса деривации; исследование структурных особенностей доступных электронных лингвистических ресурсов; определение количественных и качественных характеристик дериватов; разработка алгоритмов автоматического выявления дериватов; определение механизмов и разработка алгоритмов генерации дериватов.
Научная новизна и оригинальность. Данная работа способствует пополнению исследований в области обработки естественного языка путём разработки математических моделей и алгоритмов для решения задачи автоматической генерации дериватов. Результаты исследования представляют собой реализацию новой методологии исследования проблем, относящихся к компьютерной деривационной морфологии, связанных с алгоритмизацией определённых лингвистических механизмов, таких как обмен аффиксов, проекция дериватов, лексические ограничения и деривационные правила.
Теоретическая значимость и прикладная ценность работы. Предложен статистический метод оценки неопределённости румынских аффиксов, основанный на понятии энтропии. Разработаны математические формальные описания механизмов деривации, которые были использованы для разработки алгоритмов генерации дериватов. В процессе исследования были получены результаты, с помощью которых был разработан алгоритм генерации дериватов, который способствовал пополнению электронных лингвистических ресурсов. Данный алгоритм может служить инструментарием для последующих исследований в области обработки естественного языка. Результаты исследования представляют интерес для лексикографической практики, в процессе составления словарей и лексикографической обработки дериватов. Также результаты исследования могут быть использованы в качестве методического пособия в деятельности как лингвистов так и информатиков.
Внедрение научных результатов. По полученным результатам было разработано расширение базы данных RRTLN, которое позволило сделать вывод примерно 15.000 дериватов без специальной программы сегментирования слов на морфемы (41 префикса, около 420 суффиксов, более 8 тысяч корней/основ). Найденные механизмы, позволившие разработку алгоритмов и, соответственно, программ, привели к генерированию значительного числа дериватов с разными аффиксами, среди них 8839 с 11 префиксами, и 2352 с 24 суффиксами, что привело к существенному обогащению электронных лингвистических ресурсов для румыского языка.