Kas masin suudab kirjandit hinnata? Tallinna Ülikooli projekt annab julgustavaid vastuseid
Iga kevad hindavad sajad õpetajad tuhandeid eksamikirjandeid – töö on ajamahukas ning nõuab suurt vastutust. Samal ajal liigub Eesti haridussüsteem e-eksamite suunas, mis eeldab senisest täpsemaid ja süsteemsemaid hindamislahendusi. Kas tehisintellekt võiks selles protsessis olla õpetaja partner, mitte asendaja? Tallinna Ülikoolis lõppes teadusprojekt emakeeleõpetuse ja rakenduslingvistika lektor Merilin Aruvee juhtimisel koos digihumanitaaria ja tehisaru lektori Andres Karjuse ning digitehnoloogiate instituudi nooremteaduri Kais Allkivi ja analüütiku Silvia Mainega. Selles artiklis toovad projektis osalenud välja, et kirjandi automaathindamine on tehniliselt teostatav ja pakub reaalseid võimalusi hindamise toetamiseks.
Miks üldse tegeleda kirjandi automaathindamisega?
Eesti liigub e-eksamite suunas: Haridus- ja Noorteameti plaanide järgi läheb põhikooli eesti keele kui emakeele eksam täielikult digikeskkonda 2027. aastal. Uus formaat toob kaasa uued kirjutamisülesanded ja täpsemad hindamismudelid.
Ent digitaalne eksam ei lahenda iseenesest hindamise peamisi väljakutseid: inimhindajad väsivad, mõjutuvad halo-efektist (esmamulje mõjutab kogu hinnet) ja kaja-efektist (eelnevad hinded mõjutavad järgnevaid). Automaathindamine võiks olla lahenduse üks osa.
Mida täpselt projektis uuriti?
Projektis töötas koos eri instituutide ekspertide meeskond: kirjutamisdidaktika, keeletehnoloogia ja tehisaru asjatundjad. Esmalt töötasid Merilin Aruvee ja nooremteadur Katarin Leppik välja 9. klassi kirjandi jaoks uue hindamismaatriksi.
Senise nelja laia kriteeriumi asemel eristati üheksat täpsemat aspekti: pealkirja ja sissejuhatuse kvaliteet, alusteksti kasutamine, lõigu ülesehitus, lõpetuse terviklikkus, lausestus, sõnastus, kirjavahemärgistus, õigekiri ja vormistus. Eesmärk oli muuta hindamine läbipaistvamaks ja vähendada subjektiivsust.
Seejärel testiti, kuidas tulevad sellise maatriksiga toime masinlahendused. Tehisaru lektor Andres Karjus ning digitehnoloogiate instituudi kolleegid, nooremteadur Kais Allkivi ja analüütik Silvia Maine katsetasid kahte lähenemist ligi 3000 katseeksami kirjandil aastatest 2024 ja 2025:
- Suured keelemudelid (GPT-stiilis tehisaru) – said inimhindajatega sarnaselt ülesande hinnata tekste kõigis kriteeriumites grammatikast sisuni.
- Juhendatud masinõpe – tugines inimhindajate varasematele otsustele ning analüüsis konkreetseid keelelisi tunnuseid, nagu sõnavara mitmekesisus, lauseehituse keerukus ja eri tüüpi keelevead.
(Kõik analüüsitud andmed olid anonüümselt kodeeritud ja eksamikeskkonnast täielikult eraldatud.)
Tulemused: masin ja inimene hindavad üllatavalt sarnaselt
Esimesed tulemused olid julgustavad. Enamasti oli masinhinnangu erinevus inimhindajate keskmisest kolmepunktilisel skaalal vähem kui üks punkt – sageli vaid pool punkti. Rohkem kui pooltel juhtudel jäi masinhinnang kahe inimhindaja antud hinnete vahele.
See on märkimisväärne tulemus, arvestades, et ka inimhindajate omavaheline varieeruvus võib olla suur. Keelekriteeriumite puhul osutus juhendatud masinõpe mõnel juhul isegi täpsemaks kui generatiivsed keelemudelid. Sisuliste kriteeriumide puhul hindasid suured keelemudelid veidi leebemalt, kuid erinevused polnud olulised.
Eriti hästi tuli masin toime alusteksti kasutamise hindamisega: ta suutis võrrelda õpilase teksti ja alusteksti ning tuvastada nii otsese kopeerimise kui ka refereerimise mustreid. Just sellised selgelt sõnastatud ja tekstilistele tunnustele toetuvad kriteeriumid sobivad masinale hästi.
Subjektiivsemad aspektid, nagu näiteks sissejuhatuse probleemipüstituse veenvus või lõpetuse terviklikkus, vajavad aga jätkuvalt inimhindaja kogemust ja laiemat kontekstitunnetust.
Mitte asendada, vaid toetada
Projekti selge sõnum on, et automaathindamise eesmärk ei ole inimhindajat välja vahetada. Euroopa Liidu õigusruum eeldab, et lõplik otsus jääb alati inimesele. Masinal on aga eeliseid, mida inimesel pole: ta ei väsi, on järjepidev, ei allu halo- ega kajaefektile ja suudab kiiresti töödelda suurt hulka tekste.
Samas tuleb arvestada, et ka masinal võivad olla treeningandmetest tulenevad kallutatused. Seetõttu tuleb automaathindamise lahendusi hoolikalt kalibreerida ja hinnata mitte üksnes täpsust, vaid ka võimalikke süsteemseid kaldeid.
Mida see tähendab õpetajatele ja õpilastele?
Projekti üks olulisemaid järeldusi puudutab hoopis kirjutamisõpetust. Katseeksami materjalist ilmnes, et alusteksti kasutamine vajab senisest enam harjutamist ja järelduste sõnastamine valmistab paljudele õppijatele raskusi. Probleem püstitatakse, kuid üldistusjõud jääb sageli nõrgaks.
Projekti käigus valmis viis õppevideot Videoõpsi platvormil, mis toetavad 9. klassi õpilasi kirjandiks valmistumisel. Töö jätkub hübriidhindamise ja automaatse tagasisidestamise prototüübi arendamisega – tööriistaga, mis aitaks õpilasel teksti kirjutamise käigus paremat tagasisidet saada.
Miks see on oluline just Eestile?
Rahvusvahelises plaanis pole automaathindamine uus teema, kuid eesti keele kontekstis on see oluline samm. Eesti keel on väikese kõnelejaskonnaga keel, millele pole nii palju tehisarutehnoloogiat arendatud kui näiteks inglise keelele. Selle projekti üks väärtus on näidata, kuidas kombineerida suuri keelemudeleid ja keeletunnustel põhinevaid lahendusi just eesti keele kui emakeele õppija tekstide hindamisel.
Küsimus ei ole enam „kas”, vaid „kuidas”
Esmased tulemused näitavad, et kirjandi automaathindamine on tehniliselt võimalik ja pakub reaalseid võimalusi hindamisprotsessi toetamiseks. Küsimus ei ole enam niivõrd selles, kas masin suudab kirjandit hinnata, vaid selles, kuidas seda teha vastutustundlikult, läbipaistvalt ja didaktiliselt põhjendatult.
Arutelu tehisaru rolli üle hindamises peab toimuma laiemas ühiskondlikus kontekstis. Suurim väärtus on selles, kui tehnoloogia aitab õpetajat ja õppijat, toetab kirjutamisoskuse arengut ning muudab hindamise läbipaistvamaks – ilma et kaoks inimlik mõõde, mis on tekstide hindamisel vältimatu.
***
Projekt „Automaathindamise võimalikkusest põhikooli ja gümnaasiumilõpueksami kirjutamisülesande näitel“ viidi läbi Tallinna Ülikoolis koostöös humanitaarteadustei instituudi ning digitehnoloogiate instituudiga.