Martin Eessalu: Eesti keele elujõud digiruumis - turvalisest taristust usaldusväärsete mudeliteni
2026. aasta BFMi meediakonverentsil tegi ettekande Eesti Keele Instituudi teadus- ja arendusjuht Martin Eessalu.
Teadus ja keeleandmed
Martin Eessalu keskendus ettekandes teaduse ja keeletehnoloogia vahelistele seostele. Ta rõhutas sõna "teadus" olulisust, lubades seda korrata sama tihti, kui Rein Lang kasutas oma ettekandes sõna "tont". Eessalu sõnum on: eesti keeletehnoloogia areng on riiklikult tähtis teadusprojekt, mis vajab õnnestumiseks usaldust ja kvaliteetseid andmeid.
Keeletehnoloogia kui eesti keele ellujäämisstrateegia
Digitaalne võimekus ja keele hääbumise oht. Kui keel ei ole digitaalselt kasutatav – kui me ei saa oma nutiseadmetega eesti keeles suhelda või kui tehisaru ei suuda eesti keeles kvaliteetset teksti luua –, hakkavad inimesed eelistama suurkeeli (peamiselt inglise keelt). See viib keele hääbumiseni olulistes valdkondades. Seetõttu on keeletehnoloogia arendamine otseselt seotud põhiseadusliku eesmärgiga tagada eesti rahvuse ja kultuuri säilimine läbi aegade.
Teadusarendus vs kommertstooted. Eesti riik toetab keeletehnoloogiat kui teadustööd. See tähendab, et loodud mudelid ja ressursid peaksid ideaalis olema avalikud ja kõigile kättesaadavad soodustamaks edasist innovatsiooni. Ta tõi välja, et keeletehnoloogia on interdistsiplinaarne valdkond, kus kohtuvad lingvistika, informaatika ja andmeteadus.
Andmed kui keeletehnoloogia kütus
Ilma kvaliteetsete andmeteta ei ole võimalik treenida häid keelemudeleid. Eessalu jagas andmete liikumise ja kasutamise protsessi viieks olulisemaks etapiks. Keelemudelite treenimiseks on vaja hiiglaslikke andmehulki, mis peegeldavad keele tegelikku kasutust:
- Kirjalik tekst: uudised, raamatud, parlamendi stenogrammid, seadused.
- Kõneandmed: raadiosaated, intervjuud, aga ka igapäevane spontaanne kõne.
- Spetsiifilised andmestikud: teadusandmed, meditsiinitekstid, juriidilised dokumendid.
- Usaldus andmevaldajas: meediamajad ja autorid peavad saama usaldada, et kui nad annavad oma andmed teaduslikuks arendustööks, ei leki need kuskile ega hakata neid kasutama viisil, mis kahjustab nende ärihuve.
- Kontrollitavus: andmete kasutamine peab olema läbipaistev ja vastama kokkulepitud põhimõtetele.
Andmetaristu ei ole lihtsalt kõvaketas, kuhu andmed kokku kogutakse, vaid süsteem, mis tagab andmete turvalisuse ja sihipärase kasutuse.
Õigusruum ja julgus seda rakendada
Toetudes Aleksei Kelli ettekandele, peatus Eessalu ka andmekaeve eranditel (autoriõiguse seaduse § 19 prim ja secundum).
Teadusandmete erand. Teadusasutustel on õigus teha koopiaid autoriõigusega kaitstud teostest, et viia läbi andmekaevet. Eessalu rõhutas, et seda õigust tuleb julgemalt kasutada. Riiklikult toetatud keeletehnoloogia programmid on suunatud justnimelt avaliku huvi teenimisele.
Piirangute ja võimaluste tasakaal. Õigusruum on keeruline, kuid see ei tohiks olla keeleandmete arendamise takistuseks. Eessalu kutsus üles pidama dialoogil andmevaldajate (nt meediaväljaanded) ja arendajate vahel. Kui pooled mõistavad, et eesmärk on eesti keele digitaalne võimekus, on kergem leida tehnilisi ja juriidilisi lahendusi, mis rahuldavad mõlemat poolt.
Mudelite testimine
Andmeid pole vaja ainult mudelite treenimiseks, vaid ka nende kontrollimiseks. Testandmestikud: selleks, et teada, kui hea on uus keelemudel, koostatakse talle n-ö kontrolltöid. Need on originaalsed, tihti käsitsi loodud küsimustikud ja testülesanded. Keelemudelite suureks väljakutseks on pidada sammu keele pideva muutumisega. See tähendab, et kuidagi peab tagama pideva uute andmete pealevoo ja mudelite regulaarse testimise.
Koostöö kui keele tuleviku garantii
Eesti keele tulevik digimaailmas sõltub sellest, kui hästi suudavad riik, teadlased ja andmevaldajad koostööd teha. Siin on kolm olulist aspekti:
- Õigusruumi täiustamine: kus on puudujääke, seal tuleb seadusi täpsustada.
- Julgus tegutseda: olemasolevaid erandeid ja võimalusi tuleb rakendada eesmärgipäraselt.
- Tsentraalsed lahendused: riik peab pakkuma platvorme ja taristut, mis muudab lihtsamaks andmete vahetamise ja keelemudelite arendamise.
Ettekande kokkuvõtte koostamisel on kasutatud tekstiks.ee ja Gemini keelemudeli abi.