Skip to content

Latest commit

 

History

History
42 lines (37 loc) · 2.56 KB

taustatietoa.md

File metadata and controls

42 lines (37 loc) · 2.56 KB

Taustaa

Viranomaisrekistereissä on runsaasti aineistoa, josta henkilö voidaan tunnistaa välillisesti tai suoraan. Suora tunnistus tapahtuu identifioimalla rekisteriaineistosta henkilöön liitettävä tietoalkio, joka on ainutlaatuinen kuten sosiaaliturvatunnus. Välillinen tunnistus on mahdollista, jos rekisteristä saadaan kaivettua riittävä määrä tietoalkioita, jotka eivät ole uniikkeja, mutta joiden yhdistelmä mahdollistaa henkilön tunnistamisen. Tällainen yhdistelmä voi olla esimerkiksi henkilön asuinpaikan osoite, sukupuoli ja ikä tai tiedot terveysaseman osoite ja hoitotoimenpiteen tarkka ajankohta (ks. ref. [6]).

Tilastolokia muutettiin 2.5.2013. Uusi laki mahdollistaa sen, että tilastoviranomaiset, kuten Tilastokeskus, voivat jatkossa luovuttaa tutkimustarkoituksiin aineistoja, joista henkilöt saattavat olla välillisesti tunnistettavissa. Suora tunnistus pyritään edelleenkin estämään poistamalla aineistoista nimien ja sosiaaliturvatunnusten kaltaiset attribuutit sekä heikentämällä aineistojen resoluutiota niin, ettei esimerkiksi asuinpaikkaa voida niistä kovin tarkasti määrittää.

Uudessa laissa annetaan tilastoviranomaisille myös mahdollisuus tuottaa julkiseen käyttään tarkoitettuja public use -aineistoja. Public Use -aineistot on anonymisoitava ja sumeutettava niin, että niistä ei voi yksittäisiä henkilöitä tai yrityksiä tunnistaa.

Käytännössä anonymisointi ei aina onnistu helposti poistamalla aineistosta suoran tunnistuksen mahdollistavat ainutlaatuiset henkilökohtaiset tietoalkiot. Välillinen tunnistaminen on edelleen mahdollista, koska anonymisoitua rekisteriaineistoa voidaan verrata jo valmiiksi internetissä tai ulkomaailmassa oleviin tietoaineistoihin ja hakea niistä ristiinriippuvuuksia. Välillinen tunnistaminen ei välttämättä identifioi kohdettaan sataprosenttisen varmasti mutta pienemmätkin tunnistettavuusasteet ovat epätoivottavia erityisesti terveystietojen kaltaisissa tapauksessa.

Public Use -aineistojen sumeuttamisen ongelma taas on se, että jos aineistojen resoluutiota heikennetään liian paljon, ei niistä ole hyötyä päätöksenteolle tai tutkimukselle. Jos taas resoluutio pidetään korkeana, on välillinen tunnistaminen todennäköisempää. Public Use -aineistojen tuottaminen on siis tasapainottelua vaativa taiteenlaji, jossa tarvitaan ymmärrystä sekä itse aineistojen sisällöstä että olemassa olevista ulkopuolisista aineistoista, joiden kanssa Public Use -aineistoa voidaan korreloida.