Automatizarea procesului de creare a resurselor lingvistice computaţionale / decembrie / 2011 / Teze / CNAA

CNAA / Teze / 2011 / decembrie /

Automatizarea procesului de creare a resurselor lingvistice computaţionale

Autor:	Petic Mircea
Gradul:	doctor în informatică
Specialitatea:	01.05.01 - Bazele teoretice ale informaticii; programarea calculatoarelor
Anul:	2012
Conducător ştiinţific:	Svetlana Cojocaru doctor habilitat, profesor cercetător, Institutul de Matematică şi Informatică
Consultant ştiinţific:	Elena Boian doctor, conferenţiar universitar, Institutul de Matematică şi Informatică
Instituţia:	Institutul de Matematică şi Informatică
CSS:	D 01-01.05.01-25.12.03 Institutul de Matematică şi Informatică

Statut

Teza a fost susţinută pe 22 decembrie 2011 în CSS
şi aprobată de CNAA pe 16 februarie 2012

Autoreferat

– 0.35 Mb / în română

Cuvinte Cheie

resurse lingvistice computaţionale, algoritm de derivare, afix, prefix, sufix, segmentarea cuvintelor, alternanţe vocalice/consonantice, generarea automată a derivatelor, mecanisme derivaţionale generative

Adnotare

Teza a fost perfectată la Chişinău, în cadrul Institutului de Matematică şi Informatică al Academiei de Ştiinţe a Moldovei, în anul 2011; este scrisă în limba romană şi conţine introducere, trei capitole, concluzii generale şi recomandări, bibliografie din 200 de titluri, 14 anexe, 133 de pagini de text de bază, 15 figuri şi 44 de tabele. Rezultatele obţinute sînt publicate în 27 de lucrări ştiinţifice.

Studiul din această lucrare ţine de un domeniu actual de cercetare, legat de automatizarea procesului de creare a resurselor lingvistice computaţionale şi anume de generarea automată a cuvintelor derivate, care lipsesc în resursele lingvistice computaţionale.

Scopul lucrării constă în studierea mecanismelor şi elaborarea algoritmilor de generare automată a cuvintelor derivate pentru completarea acestor resurse.

Obiectivele cercetării prevăd: evaluarea metodelor existente de automatizare a procesului de derivare; studierea particularităţilor de structură ale resurselor lingvistice computaţionale disponibile pentru cercetare; stabilirea caracteristicilor cantitative şi calitative pentru cuvintele derivate; elaborarea algoritmilor de recunoaştere automată a cuvintelor derivate; stabilirea mecanismelor şi elaborarea algoritmilor de generare automată a derivatelor.

Noutatea şi originalitatea ştiinţifică. Lucrarea de faţă contribuie la completarea cercetărilor din domeniul procesării limbajului natural prin elaborarea unor modele matematice şi algoritmice pentru soluţionarea problemei de generare automată a derivatelor. Rezultatele studiului prezintă o realizare a unei metodologii noi de cercetare a problemelor legate de morfologia derivaţională computaţională, ce ţin de algoritmizarea anumitor mecanisme lingvistice, precum schimbul de afixe, proiectarea derivatelor, constrîngerile lexicale şi regulile derivaţionale.

Semnificaţia teoretică şi valoarea aplicativă a lucrării. A fost propusă o metodă statistică de evaluare a incertitudinii afixelor româneşti, bazată pe noţiunea de entropie. Au fost elaborate descrierile formale matematice ale mecanismelor de formare a cuvintelor derivate, care au servit la elaborarea algoritmilor de generare automată a derivatelor. Pe parcursul cercetării au fost obţinute rezultate importante, care au permis elaborarea algoritmului de generare a cuvintelor derivate, capabil să faciliteze completarea resurselor lingvistice computaţionale şi ar servi drept instrumente în cercetările ulterioare în domeniul procesării limbajului natural. Rezultatele cercetării prezintă interes pentru practica lexicografică, în procesul de elaborare a dicţionarelor şi de tratare lexicografică a derivatelor. Totodată, rezultatele studiului pot servi drept suport metodic pentru activitatea specialiştilor atît din domeniul lingvisticii, cît şi cel al informaticii.

Implementarea rezultatelor ştiinţifice. În urma rezultatelor obţinute, a fost elaborată o extensie a bazei de date RRTLN, care permite extragerea sigură a circa 15.000 de cuvinte derivate, fără a avea nevoie de un program special de segmentare a cuvintelor în morfeme (41 de prefixe, circa 420 de sufixe, peste 8 mii de rădăcini/teme). Mecanismele stabilite, ce au permis elaborarea algoritmilor şi a programelor corespunzătoare, au condus la generarea unui număr semnificativ de cuvinte derivate cu diverse afixe, dintre care cu 11 prefixe – 8839, şi cu 24 sufixe – 2352, proces ce va conduce la îmbogăţirea substanţială a resurselor lingvistice computaţionale pentru limba română.

Cuprins

1. METODELE DE ÎMBOGĂŢIRE ALE RESURSELOR LINGVISTICE

1.1. Definiţii şi noţiuni de bază
1.2. Metode de formare a cuvintelor
1.3. Descrierea comparativă a metodelor de formare a cuvintelor
1.4. Automatizarea proceselor de formare a cuvintelor
1.5. Concluzii la capitolul 1

2. ALGORITMI DE STABILIRE A CARACTERISTICILOR CANTITATIVE ŞI CALITATIVE ALE AFIXELOR

2.1. Etapele în preprocesarea resurselor lingvistice computaţionale româneşti
2.2. Resurse lingvistice computaţionale româneşti disponibile
2.3. Analiza caracteristicilor statistice ale dicţionarului eDCD
2.4. Estimarea caracterul incert al afixelor
2.5. Analiza procesului de derivare în cazul formaţiilor semianalizabile
2.6. Analiza diminutivelor şi a augmentativelor
2.7. Rezultatele implementării algoritmilor de extragere automată a familiilor lexicale
2.8. Exploatarea documentelor Web la stabilirea ordinii de derivare a cuvîntului
2.9. Extragerea automată a dependenţei afixelor de părţile de vorbire ale derivatelor
2.10. Stabilirea corespondenţei „grup de flexionare-grup de derivare”
2.11. Analiza alternanţelor vocalice şi consonantice
2.12. Algoritmi de extragere a caracteristicilor cantitative ale afixelor
2.13. Algoritmi de recunoaştere automată a derivatelor
2.14. Extinderea bazei de date RRTLN pentru studierea procesului de derivare
2.15. Concluzii la capitolul 2

ALGORITMI DE COMPLETARE PRIN DERIVARE A RESURSELOR LINGVISTICE ROMÂNEŞTI

3.1. Abordarea procedurală în completarea resurselor lingvistice
3.2. Procedeul de derivare automată
3.3. Algoritmi de generare automată a derivatelor cu prefixe
3.4. Algoritmi de generare automată a derivatelor cu sufixe
3.5. Algoritmi de generare automată a derivatelor după unele modele
3.6. Problema validării derivatelor generate automat
3.7. Algoritmul de generare automată a cuvintelor derivate
3.8. Flexionarea derivatelor validate
3.9. Completarea resurselor lingvistice computaţionale
3.10. Concluzii la capitolul 3

CONCLUZII GENERALE ŞI RECOMANDĂRI

Referenţi Oficiali

Anatol Popescu
doctor habilitat, profesor universitar, Universitatea Tehnică a Moldovei
Adrian Iftene
dr. în informatică, UAIC Iaşi, România

Membrii Consiliului Ştiintific

Constantin Gaindric, preşedinte
doctor habilitat, profesor universitar, Institutul de Matematică şi Informatică
Constantin Ciubotaru, secretar
doctor, conferenţiar universitar, Institutul de Matematică şi Informatică
Victoria Bobicev, membru
doctor, conferenţiar universitar, Universitatea Tehnică a Moldovei
Alexandru Colesnicov, membru
doctor
Iurie Rogojin, membru
doctor habilitat, Institutul de Matematică şi Informatică
Ilie Costaş, membru
doctor habilitat, profesor universitar, Academia de Studii Economice a Moldovei

Teze

Au fost elaborate 3 teze. (la specialitatea dată)