Corpus computaţional de referinţă pentru limba română contemporană

 

Institutul de Cercetări pentru Inteligența Artificială (ICIA) și Institutul de Informatică Teoretică – Iași (IIT) (ambele din subordinea Academiei Române) au în derulare, ca temă de plan în cadrul programelor de cercetare prioritară ale Academiei Române, realizarea unui corpus computațional de referință pentru limba română contemporană: o colecție de texte (scrise și orale) de dimensiuni foarte mari (sute de milioane de cuvinte), adnotate cu metainformații (dată, autor, loc etc.) și cu date lingvistice (părți de vorbire, categorii gramaticale, dependențe sintactice etc.).

Prin naturaleţea textelor și prin adnotările pe care le va conţine, corpusul va fi util lingviștilor (pentru descrierea diverselor aspecte ale limbii), lexicografilor (pentru crearea dicţionarelor generale sau speciale de limbă), dezvoltatorilor de aplicaţii pe baza limbii naturale (corpusurile oferă material de antrenare, de învăţare, de testare), celor care învață limba română ca limbă străină (un corpus oferă exemple concrete de contexte posibile pentru cuvinte, de relaţii pe care acestea le stabilesc cu alte cuvinte etc.), profesorilor care predau limba română în şcoala românească (un corpus poate fi un instrument util de predare şi evaluare a elevilor).

Crearea acestui corpus presupune definirea structurii şi acoperirii lingvistice urmărite (texte literare, jurnalistice, memorii, texte științifice din toate domeniile etc.), colectarea textelor conform structurii decise, rezolvarea problemelor de drepturi intelectuale, prelucrarea lor prin tehnologii lingvistice (segmentare, lematizare, dezambiguizare morfo-lexicală etc.), indexarea acestor texte după cât mai multe criterii utile în exploatare, extragerea de statistici, dezvoltarea unei platforme de exploatare cât mai prietenoase şi mai flexibile, precum şi stabilirea unor metode securizate de acces la corpus. Cu ajutorul unei interfețe utilizatorii vor face căutare în corpus, iar rezultatele afișate vor avea lungimi reduse, respectiv fragmente de una-două propoziţii.

Pentru a realiza acest corpus, ICIA și IIT doresc colaborarea cu facultăți cu profil filologic, pentru stabilirea unor protocoale de primire a studenților la practică, pentru a ajuta în etapele de lucru ce presupun cunoștințe lingvistice.

Cei doritori sa faca practica la Academia Română pot aplica direct la sediul lor, fie pe email la adresa vergi@racai.ro, fie telefonic la numărul de telefon 0740.079.117.

ar_hp2

 

Share This