|
StatutTeza a fost susţinută pe 22 decembrie 2011 în CSSşi aprobată de CNAA pe 16 februarie 2012 Autoreferat– 0.35 Mb / în română |
Teza a fost perfectată la Chişinău, în cadrul Institutului de Matematică şi Informatică al Academiei de Ştiinţe a Moldovei, în anul 2011; este scrisă în limba romană şi conţine introducere, trei capitole, concluzii generale şi recomandări, bibliografie din 200 de titluri, 14 anexe, 133 de pagini de text de bază, 15 figuri şi 44 de tabele. Rezultatele obţinute sînt publicate în 27 de lucrări ştiinţifice.
Studiul din această lucrare ţine de un domeniu actual de cercetare, legat de automatizarea procesului de creare a resurselor lingvistice computaţionale şi anume de generarea automată a cuvintelor derivate, care lipsesc în resursele lingvistice computaţionale.
Scopul lucrării constă în studierea mecanismelor şi elaborarea algoritmilor de generare automată a cuvintelor derivate pentru completarea acestor resurse.
Obiectivele cercetării prevăd: evaluarea metodelor existente de automatizare a procesului de derivare; studierea particularităţilor de structură ale resurselor lingvistice computaţionale disponibile pentru cercetare; stabilirea caracteristicilor cantitative şi calitative pentru cuvintele derivate; elaborarea algoritmilor de recunoaştere automată a cuvintelor derivate; stabilirea mecanismelor şi elaborarea algoritmilor de generare automată a derivatelor.
Noutatea şi originalitatea ştiinţifică. Lucrarea de faţă contribuie la completarea cercetărilor din domeniul procesării limbajului natural prin elaborarea unor modele matematice şi algoritmice pentru soluţionarea problemei de generare automată a derivatelor. Rezultatele studiului prezintă o realizare a unei metodologii noi de cercetare a problemelor legate de morfologia derivaţională computaţională, ce ţin de algoritmizarea anumitor mecanisme lingvistice, precum schimbul de afixe, proiectarea derivatelor, constrîngerile lexicale şi regulile derivaţionale.
Semnificaţia teoretică şi valoarea aplicativă a lucrării. A fost propusă o metodă statistică de evaluare a incertitudinii afixelor româneşti, bazată pe noţiunea de entropie. Au fost elaborate descrierile formale matematice ale mecanismelor de formare a cuvintelor derivate, care au servit la elaborarea algoritmilor de generare automată a derivatelor. Pe parcursul cercetării au fost obţinute rezultate importante, care au permis elaborarea algoritmului de generare a cuvintelor derivate, capabil să faciliteze completarea resurselor lingvistice computaţionale şi ar servi drept instrumente în cercetările ulterioare în domeniul procesării limbajului natural. Rezultatele cercetării prezintă interes pentru practica lexicografică, în procesul de elaborare a dicţionarelor şi de tratare lexicografică a derivatelor. Totodată, rezultatele studiului pot servi drept suport metodic pentru activitatea specialiştilor atît din domeniul lingvisticii, cît şi cel al informaticii.
Implementarea rezultatelor ştiinţifice. În urma rezultatelor obţinute, a fost elaborată o extensie a bazei de date RRTLN, care permite extragerea sigură a circa 15.000 de cuvinte derivate, fără a avea nevoie de un program special de segmentare a cuvintelor în morfeme (41 de prefixe, circa 420 de sufixe, peste 8 mii de rădăcini/teme). Mecanismele stabilite, ce au permis elaborarea algoritmilor şi a programelor corespunzătoare, au condus la generarea unui număr semnificativ de cuvinte derivate cu diverse afixe, dintre care cu 11 prefixe – 8839, şi cu 24 sufixe – 2352, proces ce va conduce la îmbogăţirea substanţială a resurselor lingvistice computaţionale pentru limba română.