Gimtoji kalba: ko „Google“ neišspręs

Kiek gimtosios kalbos, jos tekstyno, sandaros reikia įdiegti į informacines technologijas, kad galėtume gyventi visavertį mūsų tautos ir kalbos gyvenimą būsimoje skaitmeninėje visuomenėje, kai kuriamas dirbtinis intelektas ir formuojasi vadinamasis semantinis žiniatinklis, kita interneto pakopa po socialinių tinklų? Ieškant atsakymo į šį klausimą europarlamentaro Algirdo Saudargo iniciatyva, Europos Parlamento užsakymu, ispanų mokslininkai, bendradarbiaudami su Europos kalbos technologijų bendruomene, parengė išsamią studiją „Language equality in the digital age“ („Kalbų lygybė skaitmeniniame amžiuje“).

Nepriklausomybės akto signataras, Europos Parlamento narys A. Saudargas biofizika ir kalbos technologijomis susidomėjo dar studijuodamas Kauno medicinos institute, paskatintas prof. Laimučio Telksnio. Pradėjęs dirbti Europos Parlamente politikas pasigedo strateginės krypties kalbos technologijų srityje Lietuvoje. Tačiau tokia problema, pasirodo, iškilusi ir Europai.

2012 metais Daugiakalbės Europos technologijų aljansas „META-NET“, vienijantis 60 mokslinių tyrimų centrų 34 šalyse, parengė 31 Europos kalbos studiją, vadinamąsias baltąsias knygas. Tuometiniais duomenimis, lietuvių kalba, kaip ir latvių bei kitos mažesnės kalbos, dar visiškai nepasirengusi informacinei visuomenei. 2013 metų pabaigoje europarlamentaro A. Saudargo iniciatyva šia tema surengtas seminaras Europos Parlamente. Tais pačiais metais Paryžiuje vykusioje vertėjų konferencijoje Lietuvos atstovas iškėlė idėją palaikyti projektą „Human Language“ (politiko siūlymu lietuviškai verčiamą „Gimtosios kalbos projektas“). Galiausiai „Gimtosios kalbos projektas“ buvo įtrauktas į studiją „Kalbų lygybė skaitmeniniame amžiuje“. Pradėta judėti ta kryptimi.

Rugsėjo 29 dieną studija bus pristatyta Lietuvių kalbos institute rengiamoje kasmetinėje tarptautinėje mokslinėje Jono Jablonskio konferencijoje „Skaitmeniniai kalbos ištekliai, jų plėtros kryptys ir panaudos galimybės“. Joje pakviesti dalyvauti ir studijos rengėjai ispanų mokslininkai iš Viešojo universiteto Barselonoje.

Mūsų rūpestis

„Gimtąja kalba vaikas išmoksta kalbėti bendraudamas su kitais. Tokia žmogiška prigimtis, – kalbėjo „Lietuvos žinioms“ europarlamentaras A. Saudargas. – Koks bus gimtosios kalbos likimas skaitmeniniame amžiuje, sunku nuspėti. Tačiau jau dabar svarbu išsiaiškinti, ką privalome pasidaryti patys ir ką galime nusipirkti, ar laukti, kad kiti mums padarys.“

Pavyzdžiui, mums nereikia gaminti lietuviško procesoriaus, kompiuterio šerdies. Pagrindines jo dalis gamina labai nedaug kompanijų pasaulyje, nes reikia labai sudėtingų, pažangiausių technologijų. Galime nusipirkti kompiuterį su visa operacine „Windows“ ar „Apple“ sistema. O lietuviškos raidės ar kirčiavimo programa perteikti kai kuriems subtiliems lietuvių kalbos dalykams – jau mūsų rūpestis.

„Tačiau pasaulyje jau yra bendraujančio su žmogumi asmeninio asistento programos, sukurtos „Apple“, „Google“, „Amazon“ kompanijų. Jos kalba, žinoma, angliškai. Atsiranda tokių programų, kalbančių ir kitomis didesnėmis kalbomis. Ar mums kas pagamins lietuviškai kalbantį asmeninį asistentą, ar patys turime jį pasigaminti ir kokias technologijas turime išsiversti ar sulietuvinti, diegdami lietuvių kalbą į informacinę visuomenę“, – svarstė politikas.

Studija „Kalbų lygybė skaitmeniniame amžiuje“ yra pirmasis žingsnis, pasak europarlamentaro, ieškant atsakymo į šį klausimą. Europoje yra įvairių tautų: didesnių ir mažesnių, turinčių valstybinės kalbos statusą ir neturinčių. Visiškai skirtinga ir jų padėtis. Kokia tada turėtų būti gimtosios kalbos politika Europoje, kad kiekviena gimtoji kalba būtų lygiavertė, turėtų visas galimybes reikštis europinėje kultūroje. Ir ką reikia daryti, kur valstybė privalo investuoti pinigus, kad būtų išspręsti uždaviniai, kurių privačios įmonės, pavyzdžiui, „Google“, neišspręs.

Konkretūs žingsniai

Europarlamentaras A. Saudargas siūlė palyginti, kaip kokį nors sakinį išvers „Google“, ir kaip – šiuo metu geriausiai veikianti, jau prieš dešimtmetį Vytauto Didžiojo universitete sukurta vertimo programa, nors mažai kam žinoma ir mažai populiarinama. Nauja vertimo programa dar kuriama Vilniaus universiteto kartu su „Tildės“ įmone.

„Štai ir atsakymas, – kalbėjo politikas. – Ką pasidarėme patys, galbūt senesniais, taisyklių, metodais, nenaudodami šiuolaikinių statistikos metodų, dešimtmetį gyvuoja. „Google“ kompanija pernai rudenį paskelbė, kad pasiekė proveržį naudodama dirbtinio intelekto neuroninius tinklus. Vertimo pavyzdžiai jau žmogaus vertėjo lygio. Tačiau lietuviškai gauname visišką šlamštą. Kada tas proveržis pasieks mus ir ar tenkins, kaip veiks mūsų kalbą, niekas dabar negali pasakyti. Tačiau tam laikui reikia ruoštis ir nuspręsti, kurias technologijas turime patys įdiegti Lietuvoje, o kurių laukti iš kitų.“

Lietuvoje jau nemažai dirbama su tekstynais. Skaitmeninami įvairūs žodynai. Kad juos galėtų naudoti ne tik žmonės, bet ir kalbos technologijų programos šiais didžiųjų duomenų laikais, kai yra milžiniškas informacijos kiekis, sudaromi ir anotuojami rašytinės ir sakytinės kalbos tekstynai.

„O jei nori lietuviškai susikalbėti su kompiuteriu, reikia, kad jis atpažintų tavo balsą, išskirtų jame fonemas ir galėtų užrašyti tekstu. Savo ruožtu, kad kompiuteris prašnektų, galima jam pateikti tekstą ir jis perskaitys. „Lietuvos žinios“ – pirmasis laikraštis, pritaikęs Vilniaus universiteto mokslininkų, vadovaujamų prof. L. Telksnio, sukurtą programą LIEPA, gana gražiai ir sklandžiai skaitančią publikuojamus straipsnius“, – džiaugėsi europarlametaras.

Šnekos atpažinimas dar labai ribotas. Tačiau nuo riboto atpažįstamo žodyno, pasak A. Saudargo, visada ir pradedama. Nedaug žodžių atpažinti kompiuteriui lengviau, o kad atpažintų bet kokį žodį, reikia sudėtingesnių technologijų.

„Pasaulyje šie uždaviniai jau išspręsti tam tikru lygiu. Anglų kalba jau galima susišnekėti su vadinamaisiais asmeniniais asistentais. Ateityje bus galima ir lietuvių kalba, – įsitikinęs biofizikas. – Tačiau reikėtų pasigilinti, kokias problemas turėtume spręsti dėl pačios kalbos sandaros. „Google“ vertėjas dėl to ir kliūva, kad nėra įdiegta lietuvių kalbos struktūra. Šia kryptimi neišvengiamai privalėsime patys perimti technologijas ir pritaikyti dirbtinį intelektą savo kalbai, savo kultūrai.“

Visavertė tarp kitų

Dabartiniai technologijų pokyčiai, pasak A. Saudargo, yra gerokai didesni nei vadinamoji Gutenbergo revoliucija. Johano Gutenbergo patobulintas spausdinimo procesas leido atsirasti masinei knygų, laikraščių leidybai, padėjo literatūros, kultūros plėtrai. Dabar gimsta naujos kultūros formos. Ir gimtoji kalba turi rasti savo vietą tame procese. Lietuvių kalbai, išsaugotai per amžius ir tapusiai, kaip kadaise svajojo Simonas Daukantas, visavertei kurti savo kultūrą, tikrai negresia išnykti. Tačiau pavojus kyla, kad nebūtų pažeistas jos gyvybingumas.

Tokio pavojaus galime išvengti patys diegdami dviejų sričių technologijas. Pirma, skirtas vertimo problemoms spręsti, antra, susijusias su turinio tvarkymu ir informacijos paieška. „Google“ paieškos sistemos kol kas ieško pagal raktinius žodžius, kurie ne visada susieti su turiniu, tačiau judama į priekį ir naudojant dirbtinio intelekto programas iš milžiniškos tekstų visumos, esančios internete, siekiama sukurti semantinį žiniatinklį. Ta kryptimi dirbama pirmiausia anglų kalba, nelabai atsilieka ir kitos didžiosios kalbos. Jos taip pat turi didelį turinį savo kalba.

Algirdas Saudargas: „Koks bus gimtosios kalbos likimas skaitmeniniame amžiuje, sunku nuspėti. Tačiau jau dabar svarbu išsiaiškinti, ką privalome pasidaryti patys ir ką galime nusipirkti, ar laukti, kad kiti mums padarys.“

„Reikia paieškos sistemas tam tikru mastu lituanizuoti, lokalizuoti, kad turėtume sąsajas su pasaulinėmis informacijos erdvėmis, tačiau daugeliu atveju turbūt geriausia panaudoti vertimą. Pavyzdžiui, lietuviška Vikipedija yra labai ribota. Tiesiog mūsų pajėgumai, lietuviškai kalbanti bendruomenė yra ženkliai mažesnė nei anglų, vokiečių ar ispanų. Daug laimėsime, kai galėsime gimtąja kalba paskaityti jų vikipedijas ir susiorientuoti bet kurioje specializuotoje srityje. Ir kalba išliks gyvybinga, – kalbėjo europarlamentaras. – O lituanistinės informacijos eisime į lietuvišką Vikipediją – čia mūsų sklypelis elektroninėje erdvėje. Jį turime sutvarkyti šiuolaikiniais metodais: skaitmeninti senąją ir dabartinę raštiją, filmus ir paveikslus, – visą savo kultūrą. Tai mokame daryti ir darome.“

Savo sklypelio gimtąja kalba šiuolaikinis sutvarkymas ir lygiaverčių kitoms kalboms sąsajų su pasauline žinijos erdve, pasauliniu semantiniu žiniatinkliu, sukūrimas gimtąja kalba – tokie yra visai Europai rūpimo „Gimtosios kalbos projekto“ apmatai. Kaip pabrėžė politikas, tiek vokiečiams, tiek lietuviams, tiek vengrams uždavinys yra toks pat – rasti gelmę, kiek turime būti patys įsiskverbę į kalbos technologijas, ir padaryti tai, ko niekas taip gerai nepadarys, nekalbėdamas mūsų gimtąja kalba. Šiais laikais technologijos kelia ir iššūkių, ir suteikia galimybių juos įveikti – įgyvendinti kalbų lygybės principą, kai visą informaciją galėtume pasiekti savo gimtąja kalba.

Parengė Milda KNIEŽAITĖ

LZnaujas