Kaikki oppaat / All guides: Avoin TKI-toiminta: SEAMK-opas: Tunnisteellinen aineisto ja anonymisointi

Tunnisteellinen aineisto ja anonymisointi

Tunnisteellisen aineiston käsittely vaatii erityistä huolellisuutta.

Tällä sivulla on esitelty lyhyesti tunnisteellisen tiedon käsitteistöä ja tunniteellisen tiedon käsittelyyn liittyviä toimenpiteitä. Sivun sisältö perustuu Tietoarkiston Aineistonhallinnan käsikirjaan, joka antaa kattavan ohjeistuksen tunnisteellisen tiedon käsittelyyn yleensä sekä ohjeet kvantitatiivisen ja kvalitatiivisen aineiston anonymisointiin.
Tietoarkisto: Aineistonhallinan käsikirja, Tunnisteellisuus ja anonymisointi

Henkilötieto ja tunnisteellisuus

Henkilötietoja tulee kerätä vain siinä määrin kuin on välttämätöntä tutkimuksen toteuttamiseksi. Henkilötietoja ei saa kerätä vain siltä varalta, että ne saattavat olla hyödyllisiä. Henkilötietojen keräämiselle tulee aina olla suunniteltu tutkimuksellinen tarve.

EU:n tietosuoja-asetuksen määritelmän mukaan henkilötiedoilla tarkoitetaan kaikkia tunnistettuun tai tunnistettavissa olevaan luonnolliseen henkilöön liittyviä tietoja.
Tunnistettavissa olevana pidetään luonnollista henkilöä, joka voidaan suoraan tai epäsuorasti tunnistaa erityisesti tunnistetietojen, kuten nimen, henkilötunnuksen, sijaintitiedon, verkkotunnistetietojen tai hänelle tunnusomaisen esimerkiksi fyysisen, taloudellisen tai kulttuurillisen tekijän perusteella. Tutkimusaineistoihin voi myös sisältyä tunnistetietoja tutkittavien lähipiiristä tai muista kolmansista henkilöistä. Myös heitä tunnistettavasti käsittelevät tiedot ovat aina henkilötietoja.
Tunnistetietoja ovat
- Suorat tunnisteet: koko nimi, henkilötunnus, henkilönimen mukainen sähköpostiosoite ja biometriset tunnisteet (sormenjälki, kasvokuva, ääni, silmän iiris, kämmenen muoto, käsin tehty allekirjoitus).
- Vahvat epäsuorat tunnisteet: esimerkiksi postiosoite, puhelinnumero, auton rekisteri, harvinainen ammattinimike, hyvin harvinainen sairaus tai erilaiset yksilöivät koodit kuten opiskelijatunnus.
- Epäsuorat tunnisteet: tiedot, jotka yksin eivät riitä tunnistamiseen, mutta yhdistettynä voivat mahdollistaa henkilön tunnistamisen. Tavallisimpia epäsuoria tunnisteitaovat kvantitatiivisen aineiston taustamuuttujat ja laadullisen aineiston henkilöitä koskevat taustatiedot kuten sukupuoli, ikä, koulutus, ammattiasema, kotitalouden koostumus, tulot, siviilisääty, kieli, kansallisuus, etninen tausta, työpaikka tai koulu sekä asuinaluetta koskevat muuttujat, joita voivat olla esimerkiksi postinumero, kaupunginosa tai kunta. Myös päivämäärä voi olla epäsuora tunniste.
Tunnisteellisia aineistoja voi käyttää tieteelliseen tutkimukseen silloin, kun se on tarkoituksenmukaista, suunniteltua, asiallisesti perusteltua ja tietojen käsittelyyn on laillinen käsittelyperuste (esimerkiksi tutkittavan suostumus tai yleisen edun mukainen tutkimus).

Tunnisteellisen tiedon käsittely

Tunnisteellisten tutkimusaineistojen käsittelyn tulee olla suunnitelmallista ja huolellista. Tutkittavien yksityisyyden suojaa ei saa vaarantaa esimerkiksi aineiston huolimattomalla säilyttämisellä tai suojaamattomilla sähköisillä siirroilla.

Henkilötietojen käsittelyn yleisiä suojatoimia ovat pseudonymisointi, anonymisointi ja säilytyksen rajoittaminen.

Pseudonymisointi

Pseudonymisointi on aineiston tunnisteellisten tietojen poistamista tai korvaamista peitetiedolla tai koodeilla, jotka prosessin jälkeen säilytetään erillään aineistosta organisatorisesti ja teknisesti. Organisatorisilla toimenpiteillä tarkoitetaan tietojen suojattua fyysistä käyttöympäristöä ja hallinnollisesti rajattua ja valvottua käyttöoikeutta. Teknisillä toimenpiteillä viitataan tietoturvallisiin tallennusratkaisuihin. Pseudonyymistä aineistosta tulee anonyymi, kun erillään säilytettävät tunnistetiedot (koodiavain, henkilötiedot ja tiedot muutettujen arvojen muodostamistavoista) hävitetään.

Anonymisointi

Täysin anonyymiä tietoa ei ole olemassa. Anonymisoinnilla voidaan kuitenkin päästä sellaiseen tulokseen, jossa yksittäisiä henkilöitä ei voi annettujen tietojen perusteella tai tietoja muihin tietoihin yhdistämällä tunnistaa. Aineisto on siis anonyymi, jos sitä ei voi kohtuullisin keinoin enää yhdistää alkuperäisiin henkilötietoihin.
Tutkimusaineiston anonymisointiin ei ole olemassa valmista kaikkiin aineistoihin soveltuvaa menettelytapaa. Anonymisointi tulee suunnitella aina aineistokohtaisesti ottaen huomioon aineiston ominaisuudet (aineiston ikä, arkaluonteisuus, vastaajajoukon koko, sisällön yksityiskohtaisuus), käyttöympäristö (ketkä dataa käyttävät ja missä, mitä ulkopuolisia tietoja on saatavilla sillä hetkellä, fyysinen säilyttäminen) ja käytettävyys (miten anonymiteetin ja aineiston käytettävyyden saa yhdistettyä niin, että aineisto olisi tutkimuksellisesti käyttökelpoinen anonymisoinnin jälkeen).
Anonymisointiprosessin hahmottamiseksi niin kvantitatiivisissa kuin kvalitatiivisissa aineistoissa voi käyttää apuna seuraavia kysymyksiä:
- Mitä suoria tai epäsuoria tunnisteita aineisto sisältää?
- Sisältääkö aineisto ainutlaatuisia tai harvinaisia havaintoja?
- Mitä aineiston tietoja yhdistelemällä henkilö saattaa henkilö voi olla tunnistettavissa?
- Onko saatavilla ulkopuolisia tietoja, jotka voidaan yhdistää aineistoon niin, että havainnot/tutkittavat voivat olla tunnistettavissa?
- Mieti, mihin aineistoa tullaan käyttämään ja mitkä ovat juuri ne aineiston ominaisuudet, jotka halutaan säilyttää ja mitkä voidaan "uhrata" anonymisointiprosessissa.

Säilytyksen rajoittaminen:

Tutkimuksen toteuttamiselle tarpeettomat henkilötiedot poistetaan heti, kun se on mahdollista. Esimerkiksi aineiston keruuvaiheessa tarvitut nimitiedot, osoitteet ja vastaavat tunnisteet hävitetään heti, kun ne eivät ole enää välttämättömiä tutkimuksessa. Samoin tietojen yhdistämiseen tarvittu henkilötunnus voidaan hävittää, kun sitä ei enää tarvita.