Kuidas turvaliselt teadusandmeid hoida ja hallata?

Korrektne ja turvaline andmehaldus on oluline osa teadlase igapäevatööst. Tallinna ülikoolis oleme astunud samme, et pakkuda paremaid võimalusi ja tuge andmete turvaliseks hoiustamiseks teadustöö käigus. Kasutusel olevad lahendused võimaldavad projektimeeskonnal hoiustada andmeid pilveteenust kasutades nii, et hoiustatud andmeid saavad kasutada ning neid töödelda kõik projekti osalised. Töös olevate teadusprojektide andmete hoiustamiseks pakub lahendusi ülikooli IT osakond, lõpetatud projektide andmete säilitamiseks oleme sõlminud koostöö kokkuleppe Tartu Ülikooliga. Andmehaldust käsitlevaid abimaterjale oleme jooksvalt välja töötamas ja täiendamas ning need on kättesaadavad ülikooli siseveebis.

Juba enne teadustöö või projekti alustamist on soovitav läbi mõelda, milliseid teadusandmeid kogutakse/toodetakse, kuidas neid hallatakse, säilitatakse, arhiveeritakse ning kellele ja millistele teadusandmetele võimaldatakse ligipääs. Samuti tuleb tähelepanu pöörata sellele, millised on piirangud teadusandmete kasutamisel, kui suureks võib kasvada kasutatavate teadusandmete maht, jms. 

Teadusandmete hoiustamine projekti käigus

Töös olevaid teadusandmeid on rangelt soovitav hoida andmehoidlas, mis ei asu kohalikul, igapäeva tööks kasutatava arvuti kõvakettal. Tallinna Ülikooli poolt hallatavad hoidlad teadusandmete hoidmiseks on GoogleDrive ja OwnCloud. Järgnevate linkide alt on võimalik lugeda nende süsteemide ametlikke kasutajaliidese funktsionaalsuse kirjeldusi -  GoogleDrive ja OwnCloud.

Selleks, et otsustada, millist hoidlat teadusandmete hoiustamiseks kasutada, tuleb määratleda teadusandmete turvalisuse tase. Suuremat kaitset ja tähelepanu vajavad eriliigilisi[1] isikuandmeid ja muud tundlikumat laadi[2] isikuandmeid sisaldavad teadusandmed. Isikuandmete turvalise töötlemise kohta teadustöös saab täpsemalt lugeda siseveebis kättesaadavast andmekaitse juhendist - Isikuandmete töötlemine teadustöös.

Kui teadusandmed ei kvalifitseeru eriliigilisteks teadusandmeteks (nt avaandmed, mitte eriliigilised isikuandmed,  tavalised isikuandmed[3], muud andmed) on soovitav hoiustamise hoidla Google Drive, kus me juba harjumuspäraselt oma dokumente hoiustame ja jagame. Google Drive on ülikoolis kasutusel turvalise teenusena, mille raames andmeserverid paiknevad Euroopa Liidu piiride sees. Viimane on tavapäraste teadusandmete hoiustamiseks üldjuhul piisav turvalisuse aste. Google Drive’is on võimalik projektimeeskonnal hoida andmeid nii, et nende jaoks tehakse IT-osakonna poolt jagatud ketas (Shared Drive), mis tagab selle, et töötajate vahetumisel ei ole tarvis andmeid ühe inimese kontolt teisele kontole üle kanda. Jagatud ketta taotlemiseks  esitatakse vastav taotlus sisemise kirjana läbi dokumendihaldussüsteemi WDi IT osakonna juhatajale. Taotluses tuleb esitada jagatud ketta (Dirve) nimi, seotud projekt, eeldatav kasutuse aeg ning haldur.
Kui projektis kasutatakse/toodetakse eriliigilisi isikuandmeid või muid tundlikumat laadi isikuandmeid või osa andmetest kvalifitseerub tundlikeks või eriliigilisteks isikuandmeteks on rangelt soovitav teadusandmete hoiustamise hoidla OwnCloud, mille ülikool on tänaseks kasutusele võtnud. Selle teenuse puhul hoiustatakse andmeid ülikooli enda hallatavas serveris ning seega on turvalisus tagatud Google Drive teenusest kõrgemal tasemel. 

Isikule kasutusõiguse taotlemiseks esitatakse vastav taotlus sisemise kirjana läbi dokumendihaldussüsteemi WDi (taotlus OwnCloud keskkonna kasutamiseks). Doktorantidele avatakse ligipääs serverile automaatselt (ilma taotluseta).   Projektimeeskonnale jagatud ketta (Shared Drive) taotlemiseks esitatakse vastav taotlus sisemise kirjana läbi dokumendihaldussüsteemi WD IT osakonna juhatajale. Taotluses tuleb esitada jagatud ketta (Drive) nimi, seotud projekt, eeldatav kasutuse aeg. Täpsem info on siseveebis jagatud dokumendis Arvutivõrgu kasutamise kord (peatükk 14: Andmete hoiustamise infosüsteem – OwnCloud). 

Muud soovitused

Teadusandmete säilitamise struktuur, failide nimed, versioneerimine, metaandmed
Failide nimede valikul on soovitav valida süstemaatilised ja järjepidevad nimed. Kataloogide struktuur võiks olla hierarhiline, lihtne, loogiline ja lühike. 
Soovitav on mõelda versioneerimise vajadusele projektis. 
Metaandmed ehk andmeid kirjeldavad andmed (administratiivsed, tehnilised, kirjeldavad), mõelda läbi, kuidas neid eristada/siduda. Soovitav on lisada üldinfo fail, mis annaks ülevaate projekti andmete sisust ja struktuurist. 

Formaat
Formaadi valikul on soovitav eelistada standardseid, masinloetavaid formaate
Teadusandmetele ligipääs, tingimused, jagamine (linkide saatmine), taaskasutamine
Soovitav on varakult läbi mõelda, millised on piirangud teadusandmete jagamisele; millised rollid on erinevatel projekti liikmetel, mis tingimustel võib saata linke. 

Projekti lõpetamine ja arhiveerimine 
Projekti lõppemisel, kui Tallinna Ülikool on projekti juhtivpartner ning andmeid ei ole kohustust arhiveerida muudes hoidlates, on soovitav kaaluda projekti andmete arhiveerimist teadusadmete publitseerimiseks mõeldud avatud repositooriumis DataDoi. DataDoi repositooriumis saab andmekogum digitaalobjekti identifikaatori (DOI) ning see registreeritakse koos andmeid kirjeldavate metaandmetega rahvusvahelise organisatsiooni DataCite registris, mis võimaldab otsingut, juurdepääsu ja andmete taaskasutamist. Tallinna Ülikoolil on koostöökokkulepe Tartu Ülikooli akadeemilise raamatukoguga DataDoi repositooriumi kasutamiseks

Teadusandmete haldust puudutavate küsimustega pöörduda: Kaja Jakobson, kaja.jakobson@tlu.ee.
Teadusandmete arhiveerimise asjus peale projekti lõppu DataDoi repositooriumis pöörduda: Tartu Ülikooli Raamatukogu andmehaldur Evelin Arust, evelin.arust@ut.ee
Projektitaotluste käigus loodavate andmehaldusplaanide loomise alast nõu saab oma instituudi teaduskoordinaatorilt või Xavier Dubois, xavier.dubois@tlu.ee


[1] Eriliiki isikuandmete alla kuuluvad enamus selliseid andmeid, mis varasema sõnastuse järgi olid Eestis käsitletavad kui delikaatsed isikuandmed. Nendeks on isikuandmed, millest ilmneb rassiline või etniline päritolu, poliitilised vaated, usulised või filosoofilised veendumused või ametiühingusse kuulumine, füüsilise isiku kordumatuks tuvastamiseks kasutatavad biomeetrilised andmed (ennekõike sõrmejälje-, peopesajälje- ja silmaiirisekujutised), terviseandmed või andmed füüsilise isiku seksuaalelu ja seksuaalse sättumuse kohta.

[2] Tundlikud isikuandmed ei ole üldmääruses eraldi loetletud, kuid määratletavad kui isiku privaatelule suuremat ohtu valmistavate andmetena ning mis ei kuulu eriliiki isikuandmete loetellu.Tundlikeks loetakse samuti neid andmed, mille avaldamisega kaasneb oht elule ja tervisele, identiteedivargusele ning kui võib kaasneda varaline ja mainekahju jms. Näiteks on tundlike andmetena käsitletav sotsiaalabi saamine, samuti kriminaal- ja väärteomenetlusega kogu toimumise protsessi jooksul seotud andmed. Makseteenustega seotud andmed pankades, krediitkaardi andmed, digitaalsed usaldusteenuse andmed digiallkirjastamiseks, mitteavalik teave inimese varandusliku seisu kohta, sõnumisaladusega kaetud sideandmed, reaalajas asukohatuvastuse andmed, krediidireiting jm profileerimine, millel on õiguslik tagajärg või oluline mõju.

[3] Tavalised isikuandmed on teave inimese ehk füüsilise isiku (andmesubjekti) kohta, millega saab teda otse või kaudselt tuvastada. Tavaliste isikuandmete alla kuuluvad näiteks: nimi, isikukood, asukohateave, võrguidentifikaatorid (tunnused, mis sidevõrgus aitavad viia konkreetse isikuni), samuti füüsilised, füsioloogilised, geneetilised, vaimsed, majanduslikud, kultuurilised ja mistahes muud tuvastamist võimaldavad tunnused ja nende kombinatsioonid.