„Jau kartą nuėjome lengvesniu keliu. Rašėme savo istoriją senovės slavų kanceliarine kalba, o dabar baltarusiai sako, kad gal ne mes ir rašėme. Ne mūsų istorija“, – kalbėjo apie būtinybę lietuvių kalbai sklisti elektroninėje erdvėje prof. Laimutis Telksnys, projekto „Lietuvių šneka valdomos paslaugos (LIEPA)“ vadovas.
LIEPA atveria vartus, pasak prof. L. Telksnio, į naują aplinką, kurioje galėsime dirbti, bendrauti su kompiuteriais šnekėdamiesi lietuviškai. Didelėms kalboms, kuriomis šneka daug žmonių, tokios priemonės, darančios žmogaus ir kompiuterio sąveiką patogesnę, greitesnę, lankstesnę, jau turi ir komercinę prasmę. Lietuvių kalbai, kaip ir kitoms, kuriomis šneka keli milijonai, – tai nėra verslo objektas, nes ekonomiškai neapsimoka. Negana to, lietuvių kalba dar ir labai sudėtinga. Tačiau mūsų valstybei tokie darbai reikalingi, kad lietuvių kalba neišnyktų. „Tai – tautos išlikimo ir kultūros objektas, – pabrėžė Vilniaus universiteto (VU) Matematikos ir informatikos instituto (MII) mokslininkas. – Kai kas mano, kam čia terliotis, galima šnekėtis angliškai. Tačiau Davidas Brooksas, „Microsoft„ strategas, sakė, kad kalba, kuri nepasklis elektroninėje terpėje, greitai taps nebevartojama. Ir prisiminkime, ką prieš 400 metų rašė Mikalojus Daukša, kad ne žemės derlumu ar šalies gražumu gyvuoja tautos, bet daugiausia išlaikydamos ir vartodamos savo kalbą. Ji didina ir išlaiko bendrumą. Sunaikink kalbą – sunaikinsi santaiką, vienybę, tautos gerovę.„ Septynios paslaugos Rugpjūčio viduryje baigtas pirmas pustrečių metų vykdyto projekto LIEPA etapas. Per jį VU informatikai ir filologai, bendradarbiaudami su Lietuvių kalbos instituto, Lietuvos edukologijos universiteto ir Šiaulių universiteto mokslininkais, sukūrė septynias lietuvių šneka valdomas paslaugas, leidžiančias žmogui dirbti, bendrauti su kompiuteriu pasišnekant. Jauniausiems visuomenės nariams moksleiviams skirtos dvi jų. Pažintuvas padės per biologijos pamokas inovatyviai aiškintis ląstelės sandarą ir su ląstele susijusius procesus. Ieškotuvas praturtins geografijos pamokas. Mokiniai galės interaktyviai susipažinti su UNESCO paveldo objektais, balsu inicijuoti informacijos paiešką, nuotraukų peržiūrą, vaizdo įrašus. Valdytuvo paslauga, apimanti kompiuterio ir jo programų valdymą balso komandomis, gali būti sėkmingai naudojama įgudusių ir pradedančių, taip pat neįgaliųjų kompiuterio vartotojų. Valdytuvas atpažįsta daugiau nei 200 komandų. Jomis valdoma per 100 kompiuterio ir jo programų funkcijų. Naršytuvo paslauga leidžia valdyti interneto naršykles balso komandomis ir gali visiškai pakeisti įprastines naršymo sąsajos priemones – pelę ir klaviatūrą. Pagalbininkas padeda mokytis lietuvių kalbos ir lavinti socialinius įgūdžius. Jis siūlo išgirsti visus lietuvių kalbos abėcėlės garsus, dvigarsius ir dvibalsius bei 300 žodžių, kuriuose šie garsai tariami. Taip pat įsitraukti į keturias dažniausiai gyvenime pasitaikančias bendravimo situacijas, animuotus socialinius kontekstus: „Aš ir kiti“, „Pas gydytoją“, „Kavinė“, „Parduotuvė“. Tartuvas – garsinis naujažodžių žodynėlis – padės teisingai ištarti lietuvių kalboje atsiradusius naujus žodžius, norminius skolinius ar naujadarus, pateiks įvairias sakiniuose vartojamas jų formas, taip pat informacijos, ką naujažodžiai reiškia, kokia jų kilmė, vartojimo ypatumai. Dar viena projekto LIEPA paslauga skirta akliesiems. Aklieji išmoksta naudotis įprastine kompiuterio klaviatūra, o informaciją, rodomą ekrane, jiems balsu perskaito kompiuterinis sintezatorius, t. y. programinė įranga, nuskaitanti ekrano informaciją ir paverčianti kodais, o juos – balsu skaitomu tekstu. Seniai yra tokia angliškų tekstų galimybė. Jau kurį laiką kodai paverčiami ir lietuvių šneka, tačiau balsas buvo labai robotizuotas. Dabar sintezatorius šneka gražiai lietuviškai, žmogišku balsu. Lietuvių šnekos sintezatorius akliesiems taip pat turi daug papildomų galimybių. Tarp jų – greičio, garsumo, tono aukščio keitimas (didžiosios raidės ištariamos aukštesniu balsu), taisyklingas atskirų raidžių ar simbolių skaitymas.
Kiek leis fantazija „Sukūrėme septynias konkrečias paslaugas, kad parodytume, ką galima padaryti. Toliau jau fantazijos reikalas, kam pritaikys verslas ar kiti universitetai lietuvių šnekos atpažinimo variklį ir elektroninio teksto skaitytuvą, per pirmąjį projekto etapą mūsų sukurtas infrastruktūrines paslaugas, – sakė VU MII vyriausiasis specialistas ekspertas Gediminas Navickas. – Tuos varikliukus galima taikyti įvairiose srityse, ir norintieji gaus nemokamai. Visos sukurtos paslaugos nemokamos ir jomis jau galima pradėti naudotis. Pavyzdžiui, jei verslas norės naudoti balsą kuriai nors savo paslaugai, programinei įrangai, galės atpažintuvą ar skaitytuvą toliau tobulinti ir jų pritaikymą plėtoti.“ Įvertinę galimus šnekos atpažinimo taikymus, projekto vykdytojai sukūrė dvi lietuvių šnekos atpažinimo versijas. Frazių (komandų) atpažintuvas geba atpažinti per 100 skirtingų frazių – iš anksto apibrėžtų ir fiksuotų žodžių sekų. Lietuvių šnekos atpažintuvas – laisvas žodžių sekas, sudarytas iš daugiau nei 300 lietuvių šnekos žodžių. Tačiau projektas bus tęsiamas ir žodynas turėtų praturtėti maždaug iki 3 tūkst. žodžių. „Williamas Shakespeare’as savo kūriniuose vartojo apie 60 tūkst. žodžių. Anglų kalbos pagrindai kadaise apėmė 500 žodžių. Mes savo kasdienėje kalboje apsieiname su 2–3 tūkst. žodžių„, – lygino prof. L. Telksnys. – Reikia nuveikti dar daug darbų, sukaupti labai didelį žodyną, tada bus galimybė pasišnekėti su kompiuteriu, pavyzdžiui, ir apie virtuvės receptus, ir apie kainas, kelių pažeidimus ar koncertus.„ Elektroninio teksto skaitytuvui žodžių apribojimo nėra. Jis geba perskaityti bet kokį lietuvišką tekstą, ir taip gražiai, kad sunku atskirti nuo gyvo žmogaus balso. Mašina prabyla įrašytais diktorių balsais. Bus galima pasirinkti moterišką ar vyrišką, jaunesnį ar brandesnį balsą. „Mašina skaito elektroninį tekstą, paverčia balso gabaliukais ir iš tų gabaliukų sulipdo jau girdimą tekstą,„ – aiškino informatikai. Tiek lietuvių šnekos atpažintuvui, tiek skaitytuvui reikia lietuvių šnekos garsų pavyzdžių. Lietuvių šnekos garsyną LIEPA – fonetiškai reprezentatyvią lietuvių šnekos duomenų bazę, pritaikytą šnekos technologijų moksliniams tyrimams ir konstravimo darbams bei elektroninių paslaugų teikimui, – kol kas sudaro 100 valandų, skirtų atpažinimo varikliui, ir 10 valandų – skaitytuvui. Duomenys bus toliau kaupiami, garsynas didinamas. Tam pritaikyta VU Filologijos fakulteto Alekso Girdenio fonetikos laboratorija. Kaip pabrėžė mokslininkai, neužtenka garsų tik įrašyti, juos reikia dar taip sutvarkyti, kad būtų aišku kompiuteriui, kas ir kaip buvo sakoma. Atliekami vadinamieji įrašų fonemizavimo darbai.
Be pelės ir klaviatūros „Visi šie dirvos sluoksniai leidžia auginti mūsų liepą„, – sakė prof. L. Telksnys. Per antrąjį projekto etapą gauti rezultatai bus toliau plėtojami ir ieškoma naujų pritaikymų. Pavyzdžiui, kad būtų galima lietuviškai susišnekėti su mobiliąja įranga – planšetėmis, mobiliaisiais telefonais, išmaniaisiais laikrodžiais. „Dabar juk beveik visi įsitvėrę telefonus lesa, – juokėsi akademikas. – Kuo toliau, tuo labiau ši sritis didės. Išmanieji laikrodžiai jau neturės ir klaviatūros, su jais reikės šnekėtis. Bet tam turi būti pritaikyta didesniems kompiuteriams sukurta programinė įranga. Bus sutelktas dėmesys, kad ir teksto skaitytuvas veiktų mobiliuosiuose telefonuose. Numatyta ir tokia paslauga kaip SMS rašymas balsu. Užtektų paspausti vieną mygtuką, padiktuoti nesudėtingą žinutę ir išsiųsti jau paverstą tekstu.„ Tačiau ištisinės kalbos atpažinimas ir pavertimas spausdintu tekstu mašinai labai sudėtingas uždavimys dėl specifinių lietuvių kalbos bruožų – didelio kaitomumo ir laisvos žodžių tvarkos sakinyje. Pavyzdžiui, anglų kalboje sakinio tvarka yra griežta, O norint atpažinti šneką, reikia vadovautis tam tikromis taisyklėmis. Prof. L. Telksnys prisiminė metų pradžioje pasirodžiusį „Google“ atpažintuvą, į kurį įtraukta ir lietuvių kalba. Pasirodo, jei lietuviško sakinio struktūra daugmaž atitinka anglišką, jis atpažįstamas patenkinamai. Jei šneki laisvai, išeina, pasak informatiko, visiška košė. „Sprendžiant šias problemas – tiek atpažinimo, tiek sintezės – turi būti sulydomos lingvistikos ir informatikos žinios. Tik tada bus gautas geras rezultatas„, – įsitikinęs projekto LIEPA vadovas. Ypač svarbus ištisinės kalbos atpažinimas, kai reikia stenografuoti kalbą. Pavyzdžiui, teisės, medicinos ar žurnalistikos srityse. Tačiau būtent ten, kur labiausiai reikia ištisinės kalbos atpažinimo, klaidos gali, pasak G. Navicko, labai brangiai kainuoti. Tarkim, jei gydytojui diktuojant ligos istoriją, mašina rašydama įvels klaidą, bus kaltas gydytojas. „Nereikia tikėtis, kad mašina viską padarys automatiškai. Žmogus vis tiek dar turės peržiūrėti ir pataisyti. Panašiai, kai atsirado automatinio vertimo sistemos, baimintasi, kad tūkstančiai vertėjų praras darbą, tačiau taip neatsitiko. Sumažėjo techninio darbo„, – sakė ekspertas.
Milda Kniežaitė