Metode şi algoritmi statistici de procesare a textelor (în baza textelor în limba română) / iunie / 2007 / Teze / CNAA

CNAA / Teze / 2007 / iunie /

Metode şi algoritmi statistici de procesare a textelor (în baza textelor în limba română)

Autor:	Victoria Bobicev
Gradul:	doctor în informatică
Specialitatea:	01.05.04 - Modelare matematică, metode matematice, produse program
Anul:	2007
Conducător ştiinţific:	Anatol Popescu doctor habilitat, profesor universitar, Universitatea Tehnică a Moldovei
Instituţia:
CSS:

Statut

Teza a fost susţinută pe 8 iunie 2007 în CSS
şi aprobată de CNAA pe 20 septembrie 2007

Autoreferat

– 0.32 Mb / în română

Cuvinte Cheie

Procesarea Limbajului Natural (PLN), procesarea textului, modele statistice ale textului, probabilităţile elementelor textului, metode de nivelare, dicţionar de frecvenţe, legea Zipf, legea Heaps, legile de repartiţie a cuvintelor, similaritatea corpusurilor, metode statistice de comprimare, Prediction by Partial Matching (PPM), prezicerea prin corespunderea parţială, algoritm de restabilire a semnelor diacritice, sortarea documentelor, marcarea morfo-sintactică, algoritm de dezambiguizare morfo-sintactică

Adnotare

Teza conţine cercetarea şi elaborarea metodelor statistice de procesare a textului. În lucrare este efectuat un studiu teoretic al caracteristicilor statistice ale textului românesc din punctul de vedere al creării modelelor statistice. În baza lui au fost cercetate atît proprietăţile textului care măresc eficienţa folosirii modelelor statistice, cît şi caracteristicile care provoacă dificultăţi în crearea acestor modele. Au fost analizate trei tipuri de elemente ale textului – litere, cuvinte şi coduri morfo-sintactice.

Pentru cercetările efectuate au fost pregătite resursele necesare: dicţionarul morfologic; patru corpusuri de texte în limba română; un corpus adnotat morfo-sintactic, produse soft necesare pentru adnotarea corpusului.

În cadrul studiului legilor teoretice au fost determinate constantele formulelor Zipf şi Zipf-Mandelbrot pentru litere, cuvinte, coduri morfo-sintactice precum şi secvenţele lor în textele româneşti. A fost verificată legea Heaps şi aflaţi coeficienţii pentru diferite elemente ale textului.

În scopul măririi eficienţei metodelor statistice au fost studiate legile de repartiţie pentru cuvintele frecvente în text. A fost cercetată baza modelului statistic – corpusurile de texte, a fost definită omogenitatea şi similaritatea corpusurilor de texte româneşti.

Pentru rezolvarea problemelor de procesare a textelor a fost aplicată metoda de comprimare PPM (Prediction by Partial Matching – prezicere prin coincidenţa parţială), care în prezent este considerată ca fiind optimală în domeniul comprimării textelor. În teză au fost folosite trei modificări ale metodei date: în baza literelor, cuvintelor şi codurilor morfo-sintactice. Metoda PPM în baza literelor a fost folosită pentru restabilirea semnelor diacritice în textul românesc. Metoda în baza cuvintelor a fost folosită în scopul clasificării documentelor. Metoda în baza codurilor morfo-sintactice a fost folosită pentru analiza morfo-sintactică automată.

Rezultatele obţinute demonstrează eficienţa folosirii modelului PPM pentru procesarea textului

Cuprins

CAPITOLUL 1. Analiza frecvenţelor elementelor textelor româneşti (litere, cuvinte, coduri morfo-sintactice)

1.1. Corpus de texte
1.1.1. Corpusuri existente
1.1.2. Corpusuri marcate cu coduri morfo-sintactice folosite în lucrarea dată
1.2. Modele teoretice a limbii. Legea Zipf
1.3. Statistica literelor în corpusurile analizate
1.3.1. Studiul dicţionarelor de frecvenţe
1.3.2. Verificarea corespunderii dicţionarului de frecvenţă a literelor legii Zipf
1.3.3. Statistica semnelor diacritice
1.3.4. Statistica secvenţelor literelor în text
1.3.5. Creşterea dicţionarului de secvenţe de litere
1.3.6. Compararea frecvenţelor în corpusuri şi în dicţionarul limbii române
1.3.7. Verificarea dependenţei rang-frecvenţă pentru secvenţe de litere
1.3.8. Frecvenţa lungimilor cuvintelor în texte
1.3.9. Repartizarea consoanelor şi vocalelor în texte
1.4. Statistica cuvintelor în textele româneşti
1.4.1. Date generale despre cuvinte în text
1.4.2. Legea Zipf pentru cuvintele corpusului
1.4.3. Rata cuvintelor rare în text
1.4.4. Creşterea vocabularului cuvintelor în corpus
1.4.5. Caracteristice statistice ale secvenţelor de cuvinte
1.4.6. Creşterea vocabularului pentru secvenţe din două şi trei cuvinte
1.5. Statistica caracteristicilor morfo-sintactice a cuvintelor limbii române
1.5.1. Caracteristice morfo-sintactice a cuvintelor limbii române
1.5.2. Statistica codurilor morfo-sintactice în dicţionar
1.5.3. Statistica codurilor morfo-sintactice în text
1.5.4. Calculul constantelor formulelor dependenţei rang-frecvenţă
1.5.5. Creşterea vocabularului pentru secvenţe de coduri în text
1.6. Concluzii

CAPITOLUL 2. Evaluarea caracteristicilor probabilistice ale elementelor textelor româneşti

2.1. Compararea probabilităţilor elementelor din corpusuri diferite
2.1.1. Modelarea statistică
2.1.2. Înaintarea ipotezelor despre egalitatea probabilităţilor elementelor textului în corpusuri diferite
2.1.3. Verificarea ipotezelor înaintate pentru litere
2.1.4. Verificarea ipotezelor înaintate pentru cuvinte
2.2. Repartiţia cuvintelor
2.2.1. Descrierea metodei
2.2.2. Înaintarea ipotezelor referitor la repartiţia cuvintelor
2.2.3. Verificarea ipotezelor înaintate
2.3. Metode de nivelare
2.3.1. Metode cu reducere (discounting methods)
2.3.2. Estimarea Good-Turing (Good-Turing estimator)
2.3.3. Interpolarea lineară simplă (Simple Linear Interpolation)
2.4. Analiza caracteristicilor statistice a corpusurilor de texte
2.4.1. Antrenarea (instruirea) în baza corpusurilor
2.4.2. Metoda de verificare a similarităţii corpusurilor de texte
2.4.3. Experimentele de comparare a corpusurilor
2.5. Concluzii

CAPITOLUL 3. Elaborarea metodelor şi algoritmilor statistici de procesare a textului în limba română

3.1. Metode statistice de comprimare a textelor; PPM
3.2. Aplicarea metodei în baza PPM pentru restabilirea semnelor diacritice în textele româneşti
3.3. Metoda PPM în baza cuvintelor
3.3.1. Clasificarea automată a textelor folosind metoda PPM
3.3.2. Experimente de clasificare în baza corpusului EZ
3.4. Metode PPM în baza codurilor morfo-sintactice
3.4.1. Dezambiguizarea morfologică
3.4.2. Experimente de dezambiguizare morfologică
3.5. Concluzii

Referenţi Oficiali

Svetlana Cojocaru
doctor habilitat, profesor cercetător, Institutul de Matematică şi Informatică
Nicolae Objelean
doctor, conferenţiar universitar, Universitatea de Stat din Moldova

Teze

Au fost elaborate 13 teze, inclusiv 1 de doctor habilitat. (la specialitatea dată)

În examinare [1] :

Utilizarea tehnologiilor informaționale la elaborarea algoritmilor criptografici și algebrici
21 aprilie 2023

Arhiva tezelor: