Siirry pääsisältöön
Tilasto-oppaat
Tilastokeskuksen etusivulle

Tutkimusaineistot etäkäytössä

3 Tutkimusaineistojen tilastollinen tietosuoja

3.1 Tilastolaki on tietosuojan taustalla

Tilastoinnin kohteiden ts. tilastoaineistoissa esiintyvien havaintojen kannalta tietosuojasta huolehtiminen on tärkeää. Yksittäistä henkilöä, kotitaloutta, yritystä tai muuta tilastoyksikköä koskevien tietojen paljastuminen ulkopuolisille on estettävä.

Tietosuoja kattaa muun muassa:

  • tietojen suojaamiseen tähtäävän lainsäädännön ja ohjeistukset
  • tietojen suunnitelmallisen ja huolellisen käsittelyn tutkimuksen eri vaiheissa
  • suojaamisen toteuttavat menetelmät, ts. tilastolliset tietosuojamenetelmät.

Tutkijan on huolehdittava tietosuojasta

Tutkijana sinun on osaltasi huolehdittava käytössäsi olevan aineiston tietosuojasta siten, etteivät aineisto tai sen sisältämät yksikkökohtaiset tiedot paljastu ulkopuolisille aineiston käsittelyvaiheessa tai tutkimustuloksia julkaistaessa. Tietosuojasäännökset, kuten EU:n yleinen tietosuoja-asetus ja tietosuojalaki (2018/1050), suojaavat tutkimuksen kohteina olevia henkilöitä. Lisätietoa tietosuojasta tieteellisessä tutkimuksessa löydät Tietosuojavaltuutetun toimiston tieteellistä tutkimusta koskevilta sivuilta.

Tilastolaki velvoittaa Tilastokeskusta

Tilastokeskuksen oikeus kerätä rekisteri- ja kyselytietoja on taattu lainsäädännöllä. Kerätyt aineistot ovat laajasti yhteiskuntaa kuvaavia ja sisältävät hyvin arkaluontoisiakin tietoja.

Tilastokeskus voi tilastolain (280/2004) nojalla antaa käyttöoikeuden hallussaan oleviin, tilastointia varten kerättyihin salassa pidettäviin tietoihin tieteellistä tutkimusta ja yhteiskuntaoloja koskevaa tilastollista selvitystä varten.

Tilastolaissa Tilastokeskuksen tilastotarkoituksiin keräämien tietojen luovutuksesta tutkimuskäyttöön säädetään pykälässä 13. Kyseisen pykälän perusteluissa todetaan seuraavaa[1]:

"Tietoja luovutettaessa olisi henkilötietojen sekä liike- ja ammattisalaisuutta koskevien tietojen suoja varmistettava tapauskohtaisesti käytännön toimenpiteillä kuten esimerkiksi edellyttämällä riittäviä tietoturvamenettelyjä sekä huolehtimalla tarvittavan tietojen käyttöä koskevan valvonnan ja seurannan järjestämisestä. – – Koska tieteellisen tutkimuksen lopputulokset ovat yleensä julkisia, tulisi niiden julkaisemisen yhteydessä lisäksi aina erikseen varmistaa, ettei tutkimuksen perustana olleita yksittäisiä tilastoyksiköitä olisi mahdollista tunnistaa tutkimuksen julkisista lopputuloksista.”

[1] Hallituksen esitys eduskunnalle laeiksi tilastolain sekä maaseutuelinkeinotilastoista annetun lain 2 ja 3 §:n muuttamisesta (HE 154/2012).

3.2 Salassapitovelvoite

Tilastokeskuksen yksikkötason aineistojen käyttö edellyttää käyttölupaa. Tietoja saa käyttää ainoastaan käyttöluvan saanut henkilö ja vain käyttölupapäätöksessä hyväksyttyyn tarkoitukseen. Tietojen kohteita ei saa yrittää tunnistaa aineistosta.

Allekirjoittamalla tutkimushanketta tai SISU-mikrosimulointimallin käyttöä koskevan sopimuksen sekä salassapitositoumuksen sitoudut siihen, ettet ilmaise etkä käytä omaksi hyödyksesi tutkimuksen yhteydessä tietoosi saamia, salassapidettäviksi säädettyjä tietoja (eli tutkimusaineistoon sisältyviä yksikkötason henkilö- ja yritystietoja).

3.3 Taulukkoaineistojen tilastolliset tietosuojamenetelmät

Tilastolliset tietosuojamenetelmät ovat menetelmiä, joiden avulla julkaistava (aggregoitu) aineisto muokataan muotoon, josta yksittäisen tiedonantajan tai tilastoyksikön (henkilö, kotitalous, yritys, toimipaikka yms.) tietoja ei paljastu. Koska taulukkoaineisto on yleinen tutkimustulosten esittämistapa, saat tästä osiosta tietoa taulukkoaineistojen tilastolliseen tietosuojaan liittyvästä käsitteistöstä, paljastumisriskistä ja suojausmenetelmistä.

Tutkimustulos voi olla muukin aggregoitu aineisto kuin taulukkoaineisto, kuten esimerkiksi graafi tai yksittäinen jakaumatunnusluku. Näihin sovellettavista tietosuojasäännöistä löydät lisää tietoa Tutkijapalveluiden säännöistä ja ohjeista sekä osiosta 3.4 Tutkimustulosten tietosuojavaatimukset. Huomaathan, että tietosuojaa on noudatettava kaikissa julkaistavissa tiedoissa.

Taulukkoaineistojen (lyh. taulukko) suojaukseen on vaikea antaa tarkkoja, kaikkiin taulukoihin soveltuvia ohjeita, sillä taulukkoaineistoja on hyvin monenlaisia. Taulukot voivat poiketa toisistaan niin sisällön, rakenteen, julkaisukonseptin kuin käyttötarkoituksenkin perusteella, joten pahimmillaan jokainen taulukko muodostaa suojauksen kannalta oman erikoistapauksensa. Mitä paremmin olet ottanut huomioon kunkin taulukon erityispiirteet, sitä paremmin voit suojata taulukon säilyttäen samalla sen suunnitellun käyttötarkoituksen kannalta tärkeät ominaisuudet.

Taulukkoaineistolla tarkoitetaan taulukkomuotoon järjestettyä aggregoitua aineistoa. Taulukot voidaan jakaa frekvenssitaulukoihin ja määrätaulukoihin.

  • Frekvenssitaulukossa kunkin solun arvo on ko. soluun kuuluvien tilastoyksiköiden lukumäärä.
  • Määrätaulukossa tilastoyksiköiden arvot ovat taulukoitavan muuttujan arvoja ja siten soluarvot ovat soluun kuuluvien tilastoyksiköiden arvojen aggregaatteja, yleisimmin summia tai keskiarvoja. Määrätaulukon yhteydessä voidaan julkaista myös solufrekvenssit.

Myös esimerkiksi jakaumatunnuslukuja voidaan esittää koottuna yhteen taulukkoon, mutta tällaisen tunnuslukutaulukon suojaamiseen sovelletaan siinä esiintyvien jakaumatunnuslukujen tietosuojasääntöjä. Lisätietoja Tutkijapalveluiden säännöistä ja ohjeista.

Paljastuminen taulukkoaineistosta

Taulukkoaineistosta paljastuminen tarkoittaa mahdollisuutta määritellä yksikön identiteetti tai jokin ominaisuus tarkemmin kuin ilman taulukon julkaisemista. Paljastuminen voi olla joko tarkkaa tai likimääräistä.

Määrätaulukoissa paljastuminen tarkoittaa yleisimmin sitä, että tietyn tilastoyksikön taulukoitavan muuttujan arvo pystytään estimoimaan liian tarkasti taulukon lukujen ja rakenteen avulla. Varsinkin yritysaineistojen kohdalla likimääräinen paljastuminen voi olla aivan yhtä haitallista kuin tarkka paljastuminen.

Taulukon suojausprosessi on kaksivaiheinen

Ensimmäisessä vaiheessa arvioidaan taulukon suojaustarve, eli tunnistetaan paljastumisriskissä olevat, eli ns. herkät solut, valitun herkkyyssäännön avulla. Toinen vaihe esitellään kohdassa Taulukkoaineistojen suojausmenetelmät.

Yleisimmät herkkyyssäännöt ovat seuraavat:

  • Kynnysarvosääntö, jonka mukaan solu on herkkä, mikäli siihen kuuluu vähemmän kuin ennalta määrätyn kynnysarvon verran tilastoyksiköitä.
  • Dominanssisääntö eli (n,k)-sääntö, jonka mukaan solu on herkkä, mikäli sen n suurinta tilastoyksikköä muodostavat vähintään k prosenttia solun kokonaisarvosta.

Frekvenssitaulukossa solu on herkkä, jos siihen kuuluu vain vähän tilastoyksiköitä, eli toisin sanoen soluun liittyvä luokittelevien muuttujien arvokombinaatio on harvinainen. Tällaiset pienen solufrekvenssin takia herkäksi määriteltävät solut löydät kynnysarvosäännön avulla. (katso Esimerkki 1).

Kynnysarvon käyttö on suositeltavaa, kun ainoastaan tarkalta paljastumiselta (esim. henkilö voidaan tarkasti identifioida) suojaaminen katsotaan riittäväksi.

Esimerkki 1. Kynnysarvon käyttö frekvenssitaulukon suojattavien solujen määrittelyssä

Teet taulukon, jossa on ristiintaulukoituna henkilön ikäluokka, asuinkunta ja siviilisääty. Solujen herkkyyden määrittelyssä olet päättänyt käyttää kynnysarvoa 3. Taulukoituasi tiedot huomaat, että alle 20-vuotiaita leskiä on kunnassa X vain kaksi kappaletta.

Tällöin luokittelevien muuttujien kombinaatio:

  • ikäluokka: alle 20-vuotiaat
  • siviilisääty: lesket
  • asuinkunta: kunta X

on kynnysarvosäännön mukaan liian harvinainen, sillä solufrekvenssi 2 on pienempi kuin kynnysarvo 3. Tähän soluun kuuluvien henkilöiden paljastumisriski on siis liian suuri, joten solun tiedot on suojattava ennen taulukon julkaisua.

Määrätaulukossa solun voi määritellä herkäksi myös, jos yksi tai muutama yksikkö dominoi solun arvoa, eli on arvoltaan selvästi suurempi muihin yksiköihin verrattuna. Tällöin voi olla mahdollista estimoida dominoivien yksiköiden arvot liian tarkasti (vaikkei välttämättä aivan tarkasti). Liian tarkalta estimoinnilta suojaaminen tarkoittaa likimääräiseltä paljastumiselta suojaamista, ja sen voit toteuttaa käyttämällä dominanssisääntöä suojattavien solujen määrittelyyn (katso Esimerkki 2 ja Esimerkki 3).

Voit käyttää rinnakkain useampaa herkkyyssääntöä. Tällöin solu on herkkä, jos se yhdenkin käytetyn herkkyyssäännön mukaan on herkkä.

Esimerkki 2. Dominanssisäännön käyttö suojattavien solujen määrittelyssä (osa 1)

Taulukon erään solun kokonaisarvon X muodostaa kolme havaintoa, joiden arvot suuruusjärjestyksessä ovat seuraavat:

  • x1 = 59
  • x2 = 27
  • x3 = 14.

Solun kokonaisarvo on tällöin x1 + x2 + x3 = 59 + 27 + 14 = 100. Haluat tutkia, dominoiko jokin tai jotkin havainnot solun arvoa X. Käytät dominanssisääntöä parametrein n = 1 ja k = 75 eli tarkistat muodostaako yksi (suurin) havainto solun arvosta vähintään 75 prosenttia. Solun suurin havainto x1 muodostaa x1/ X = 59/100 = 0,59 eli 59 % solun kokonaisarvosta. Koska 75 > 59, niin valitun dominanssisäännön mukaan suurin havainto ei dominoi (eikä näin ollen mikään muukaan havainto) solun arvoa tarpeeksi, jotta solu vaatisi suojausta.

Esimerkki 3. Dominanssisäännön käyttö suojattavien solujen määrittelyssä (osa 2)

Taulukon erään solun kokonaisarvon X muodostaa kaksitoista havaintoa. Suurimman havainnon arvo on x1 = 61 ja toiseksi suurimman havainnon arvo on x2 = 20. Loppujen kymmenen havainnon yhteenlaskettu arvo on x3‒12 = 19.

Onko solu suojattava, kun käytössä on:

a. dominanssisääntö n = 1 ja k = 60
b. dominanssisääntö (2,90)
c. kynnysarvo 3 ja dominanssisääntö (1,60)?

Ratkaisu: Solun kokonaisarvo X on 61 + 20 + 19 = 100.

a. Suurin havainto muodostaa x1 /X = 61/100 = 0,61 eli 61 % solun kokonaisarvosta. Koska 61 > 60, niin solu on suojattava.

b. Kaksi suurinta havaintoa muodostavat (x1 + x2) / X = (61 + 20)/100 = 0,81 eli 81 % solun kokonaisarvosta. Koska 81 ≤ 90 niin solua ei tarvitse suojata.

c. Kun käytössä on yhtä aikaa kaksi herkkyyssääntöä, solu on suojattava, jos vähintään toinen säännöistä edellyttää suojausta. Kuten a-kohdassa jo todettiin, solu on suojattava dominanssisäännön (1,60) ollessa käytössä. Tästä seuraa, että solu on suojattava myös kun käytössä ovat molemmat, sekä kynnysarvo 3 että dominanssisääntö (1,60). Pelkän kynnysarvon 3 perusteella solua ei tarvitsisi suojata.

Taulukkoaineistojen suojausmenetelmät

Taulukon suojausprosessin toisessa vaiheessa herkkien solujen tiedot suojataan valitulla suojausmenetelmällä. Ensimmäinen vaihe eli suojaustarpeen arviointi esiteltiin kohdassa Paljastuminen taulukkoaineistosta. Suojausmenetelmän valinnassa tärkeimmät kriteerit ovat vaaditun suojaustason saavuttaminen ja taulukon tärkeiden ominaisuuksien säilyttäminen. Näin taulukko on riittävästi suojattu, mutta se on hyödyllinen suojauksen jälkeenkin.

Usein menetelmän valintaan vaikuttaa paljon käytettävissä olevat resurssit, kuten aika ja saatavilla oleva ohjelmisto, jolla suojaus toteutetaan. Suojausmenetelmän tulisi olla lisäksi läpinäkyvä siten, että suojatun taulukon käyttäjä ymmärtää käytetyn suojausmenetelmän pääpiirteet ja näin osaa ottaa huomioon suojauksen mahdollisesti aiheuttamat muutokset taulukossa.

Taulukoiden suojausmenetelmänä käytetään yleensä peittämistä tai luokituksen muuttamista

Peittämiseen kuuluu ensisijainen, paljastumisriskissä olevien solujen peittäminen ja toissijainen peittäminen. Toissijaisella peittämisellä varmistat, ettei taulukon rivi- tai saraketotaalien avulla pystytä paljastamaan ensisijaisesti peitettyjen solujen arvoja. Peittämisen voit tehdä myös rivikohtaisesti. Jos taulukon johonkin rivitotaaliin kuuluu vain pieni määrä tilastoyksiköitä (vähemmän kuin käytetty kynnysarvo), peität kyseisen rivin kokonaisuudessaan huomioimatta sen eri soluissa olevien tilastoyksiköiden lukumäärää.

Luokitusta muuttamalla taulukosta pyritään hävittämään paljastumisriskissä olevat solut yhdistämällä niitä sisältävät luokat muihin taulukon luokkiin. Luokituksen muuttaminen tarkoittaa usein käytännössä koko luokituksen karkeistamista.
Taulukoiden suojausmenetelmänä voit käyttää myös paljastumisriskissä olevien solujen arvojen muuttamista. Tällaisia menetelmiä ovat esimerkiksi pyöristäminen ja alkuperäisen soluarvon korvaaminen likimääräisellä satunnaisluvulla.

Taulukoiden ja muun tyyppisten tulosteiden suojaus etäkäyttöjärjestelmässä tarkoittaa käytännössä sitä, että tutkija huolehtii tulosteiden tarvittavasta suojauksesta ennen niiden tarkastukseen lähettämistä. Suojaus on toteutettava käyttämällä tarpeeksi karkeita luokituksia tai muuten suunnittelemalla tulosteiden sisältö tietosuojan kannalta hyväksyttäväksi. Tarkastukseen lähetettäviin tulosteisiin ja taulukoihin ei saa enää kohdistua paljastumisriskiä, eikä tarkastaja siis enää tee lisäsuojauksia tulosteisiin. Tarkemmin tutkimustulosten suojaamisesta ja tarkastusmenettelystä kerrotaan osiossa 3.4 Tutkimustulosten tietosuojavaatimukset.

Esimerkki 4:n avulla voit pohtia lisää taulukkoaineiston suojaukseen liittyviä käytännön haasteita.

Esimerkki 4. Taulukon suojauksen arviointi

Taulukossa 1 on taulukoitu tietyssä ammatissa toimivien henkilöiden lukumäärät alueittain ja tuloluokittain. Suojaus on aiheuttanut kaikkien nollasta poikkeavien sisäsolujen peittämisen. Myös nollasoluja on saatettu joutua peittämään.

Onko suojaus riittävä? Voidaanko taulukosta selvittää peitettyjen solujen arvoja? Olisiko joku muu taulukointi mielekkäämpi? Jos, niin millainen?

Taulukko 1. Ammatissa toimivat tuloluokittain ja alueittain
Tuloluokka Alue A Alue B Alue C Alue D Alueet, yhteensä
1 0 x1 x2 0 25
2 x3 0 0 x4 15
3 x5 0 0 x6 30
4 0 x7 x8 x9 30
Tuloluokat yhteensä 35 10 15 40 100

Esimerkkiratkaisu:

Taulukko ei voi sisältää negatiivisia lukuja, sillä kyseessä on frekvenssitaulukko. Nollasolujen ei myöskään ole katsottu tarvitsevan suojausta, sillä niitä on taulukossa näkyvissä. Taulukon rivi- ja sarakesummista on pääteltävissä seuraavaa:

  • x1 + x7 = 10 eli 0 ≤ x1 ≤ 10
  • x2 + x8 = 15 eli 0 ≤ x2 ≤ 15
  • Yhtälöstä x1+ x2 = 25 ja edellä määritellystä x2:n vaihteluvälistä voidaan päätellä x1 = 25 - x2 ≥ 25 - 15 = 10 eli x1 ≥ 10
  • Koska x1 ≤ 10 ja x1 ≥ 10 niin täytyy olla x1 = 10.

Kun tiedät, että x1 = 10, voit päätellä arvot myös soluille x2 = 15, x7 = 0 ja x8 = 0. Koska 0 + x7 + x8 + x9 = 30 niin täytyy olla x9 = 30. Solujen x1, x2, x7, x8 ja x9 peittäminen on siis ollut turhaa, koska niiden arvot pystytään laskemaan tarkasti peittämisen jälkeenkin.

Huomioitavaa on myös, että jos oletetaan suojauksessa käytetyn pientä kynnysarvoa (alle 10) ensisijaisesti peitettävien solujen määrittelyyn, niin yksikään näistä soluista ei ole ensisijaisesti peitetty. Näiden tietojen avulla tapahtuu kuitenkin niin sanottu ryhmän paljastuminen. Ryhmän paljastumisella tarkoitetaan sitä, ettei yksikään taulukossa esiintyvä havainto yksilöidy, mutta tietystä yksilöitävissä olevasta ryhmästä paljastuu jokin ominaisuus.

Tämän taulukon tapauksessa paljastuu, että kaikki tarkasteltavat alueen B ja C henkilöt kuuluvat tuloluokkaan 1. Ryhmän paljastumista ei aina pidetä arkaluonteisena tai suojausta vaativana asiana ja sen huomioiminen yleensä vaikeuttaa suojauksen tekemistä.

Jäljelle jäävät peitetyt solut on esitetty taulukossa 2 alkuperäisen taulukon osataulukkona.

Taulukko 2. Ammatissa toimivat tuloluokittain ja alueittain, osataulukko
Tuloluokka Alue A Alue D Alueet yhteensä
2 x3 x4 15
3 x5 x6 30
Tuloluokat yhteensä 35 10 45

Osataulukon rivi- ja sarakesummien avulla saadaan solujen X3 ja X5 arvoille seuraavat vaihteluvälit:

  • 5 ≤ x3 ≤ 15
  • 20 ≤ x5 ≤ 30

Jos tiedettäisiin, että suojaustarpeen määrittelyssä on käytetty kynnysarvoa 5 (tai pienempi), niin kumpikaan soluista x3 tai x5 ei olisi ensisijaisesti suojattava. Tällöin solun x4 tai x6 on oltava suojausta vaativa, jotta suojaukseen olisi ylipäätään ryhdytty. Taulukon avulla voidaan päätellä että kummankin solun arvo on korkeintaan 10, mutta tarkempia arvoja ei pystytä päättelemään.

Yhteenveto
Esimerkkivastaukset alkuperäisiin kysymyksiin yllä esitettyjen laskelmien ja pohdinnan perusteella olisivat seuraavat:

  • Onko suojaus riittävä? On, mikäli suojausta ryhmän paljastumista vastaan ei katsota tarpeelliseksi.
  • Voidaanko taulukosta selvittää peitettyjen solujen arvoja? Voidaan selvittää tarkasti x1, x2, x7, x8 ja x9. Muille soluille saadaan laskettua pelkät vaihteluvälit.
  • Olisiko joku muu taulukointi mielekkäämpi? Millainen? Taulukosta voisit esittää vain reunajakaumat (yhteensä-sarakkeet), jolloin vältyttäisiin myös ryhmän paljastumiselta. Vaihtoehtoisesti voit pohtia toisenlaisia alue- ja tuloluokituksia. Taulukon mielekkyyteen vaikuttaa vahvasti taulukon käyttötarkoitus (jota tässä ei oltu eritelty tarkemmin).

Edellä mainittujen vastausten lisäksi opit tästä esimerkistä seuraavat asiat:

  • Mikäli käytät suojausmenetelmänä peittämistä, tulee toissijaisten solujen valinta tehdä huolellisesti ylipeittämisen (ts. tiedon turhan suojaamisen) välttämiseksi.
  • Kynnysarvosäännön numeerisen arvon paljastaminen voi auttaa suojauksen purkamisessa.
  • Toisaalta, jos suojaus on hyvin toteutettu, ei kynnysarvon tietäminen silti välttämättä johda tarkkojen solufrekvenssien paljastumiseen. Tässä esimerkissäkin numeerisia vaihtoehtoja solufrekvensseille x3, x4, x5 ja x6 olisi useita, vaikka käytetty kynnysarvo tiedettäisiinkin.
  • Toisaalta mahdollisten herkkien solujen paikat taulukossa voidaan päätellä (osittain), mikäli kynnysarvo tiedetään.
  • Ryhmän paljastuminen tilastosta on vaikeampi estää kuin yksittäisen havainnon paljastuminen. Ryhmän paljastuminen voi teoriassa tapahtua aina, kun taulukossa on nollasoluja.

3.4 Tutkimustulosten tietosuojavaatimukset

Salassapitovelvoitteen mukaan sinun on pidettävä huolta siitä, että tutkimustuloksissasi ei ole yksikkötason tietoja tai mahdollisuutta niiden paljastumiseen. Julkaisemiesi tulosteiden tulee noudattaa tietosuojan osalta Tilastokeskuksen linjauksia taulukkomuotoisten tietojen suojaamisesta. Lisätietoja linjauksista löydät ohjeesta Tietosuoja ja tulosten tarkastusmenettely (pdf). Alla on esitetty keskeisimmät ohjeet tulosteiden tietosuojavaatimuksista.

Frekvenssi- ja määrätaulukot

Pääsääntönä yritystietojen suojaamisessa on, että kussakin solussa tai ryhmässä on oltava aina vähintään 3 (painottamatonta) havaintoa. Kynnysarvosäännön rinnalla tulee soveltaa dominanssisääntöä (1,75) tuoreissa yritystiedoissa (alle 15 kk viiteajankohdasta). Toimipaikkatason tietoja suojatessa on varmistettava myös yritystason suojaus, eli kussakin solussa on oltava toimipaikkoja vähintään kolmesta eri yrityksestä. Samoin konsernitason suojaus on otettava huomioon sellaisissa yritysaineistoissa, joissa on tietoja konsernisuhteista.

Henkilötietojen suojaamisessa on noudatettava solukohtaista kynnysarvoa 3 ja kiinnitettävä erityistä huomiota taulukoitavien muuttujien arkaluonteisuuteen. Yhdistetyissä työntekijä–työnantaja-aineistoissa on suojattava sekä henkilö- että yritystaso, eli kussakin taulukon solussa on oltava työntekijöitä vähintään kolmesta eri yrityksestä. Taulukkomuotoisissa yritystilastoissa esiintyviin ammatinharjoittajatietoihin sovelletaan samoja suojauskäytäntöjä kuin muihinkin yritystietoihin.

Erilaiset jakaumatunnusluvut

Maksimi ja minimi liittyvät yleensä yhteen havaintoon. Jos tämä havainto on mahdollista tunnistaa, et voi julkaista maksimia tai minimiä.

Jakaumapisteet (pl. minimi ja maksimi) muodostavat erikoistapauksen taulukosta, jossa solufrekvenssejä vastaavat jakaumapisteiden väliin jäävien havaintojen lukumäärät. Mikäli nämä lukumäärät ylittävät kynnysarvon 3, voit julkaista jakaumapisteet.

Moodin voit julkaista, mikäli (lähes) kaikki havainnot eivät saa samaa arvoa.

Keskiarvon, muut suhdeluvut ja jakaumatunnuslukujen korkeammat momentit (esim. varianssi) voit julkaista, mikäli niiden laskennassa on käytetty vähintään kolmea havaintoa.

Osuuksia julkaistaessa on kynnysarvon 3 toteuduttava kaikkien osuuksia muodostavien ryhmien osalta. Toisin sanoen, jos halutaan julkaista esim. naisten osuuden olevan 58 prosenttia koko populaatiosta, niin tuon 58 %:n, samoin kuin miesten 42 %:n, on sisällettävä vähintään kolme henkilöä. Ei siis riitä, että naisia ja miehiä on yhteensä koko populaatiossa vähintään 3.

Muut numeeriset tulostetyypit

Indeksipisteluvut, korrelaatiokertoimet ja testisuureet (t, F, khiin neliö, yms.) voit yleensä julkaista, mikäli laskennassa on käytetty tarpeeksi (vähintään 10) havaintoja.

Regressiomallin kokonaisuudessaan voit julkaista, mikäli mallin taustalla on riittävästi havaintoja ja malli ei kuvaa aikasarjaa yhteen yritykseen/henkilöön perustuvista havainnoista. Mallin yksittäisiä kertoimia voit yleensä aina julkaista.

Kuviot

Aineistoista piirretyt kuviot ja kuvat ovat sallittuja, jos yksittäinen kuvapiste ei voi paljastaa sen taustalla olevaa yksittäistä havaintoa. Vie kuviot tarkastettavaksi taulukoiden tapaan selkeästi ja täsmällisesti dokumentoituna. Tarkastettavaksi soveltuvia kuvaformaatteja ovat esimerkiksi PNG, BMP, JPEG, TIFF, EPS, PS, PDF, SVG ja WMF/EMF.

Pylväsdiagrammit ja muut luokitellun aineiston esittämiseen käytetyt kuviot ovat tyypillisesti sallittuja julkaistaviksi, kunhan kussakin luokassa on riittävästi havaintoja.

Tällaisen kuvion informaatio voidaan yleensä esittää myös taulukkomuodossa ja siihen voidaan soveltaa samoja tietosuojasääntöjä kuin muihinkin taulukkoaineistoihin (ks. yllä kohta Frekvenssi- ja määrätaulukot).

Jakaumakuvat sisältävät toisinaan poikkeavia havaintoja tai ääriarvoja, jotka voivat paljastaa havaintoyksikön tietoja. Tasoitetut tai riittävän karkealla asteikolla esitetyt jakaumat, histogrammit ja kertymäfunktiot ovat sallittuja.

Hajontakuvia käytetään tyypillisesti kahden jatkuvan muuttujan arvojen esittämiseen, jonka vuoksi ne ovat tietosuojan kannalta edellisiä kuvaajia hankalampia. Hajontakuvien kohdalla tulee kiinnittää erityistä huomiota aineiston luonteeseen mm. otoksen koon, tiedon arkaluonteisuuden ja poikkeavien havaintojen esiintymisen kannalta.

Seuraavat gallerioissa selattavat harjoitukset antavat sinulle käytännön vinkkejä siitä, miten parannat tulosteiden tietosuojaa ja kuinka lopuksi arvioit tulosten tietosuojaa.

Opi lisää tietosuojasta ja selaa galleriaa (1)

Seuraavassa galleriassa on kysymyksiä ja niiden vastauksia. Pääset liikkumaan kysymysten ja vastausten välillä nuolipainikkeilla edellinen ja seuraava.

Harjoittele parantamaan tulosteiden tietosuojaa: Hammaslääkärien rikosrekisterit

Olet tehnyt alla olevat kolme taulukkoa, joista käy ilmi hammaslääkärien lukumääriä alueilla A ja B luokiteltuina sukupuolen ja sen mukaan, onko henkilöllä rikosrekisteri vai ei. Hammaslääkäreitä on tarkasteltavilla alueilla yhteensä 68 kappaletta.

Taulukko 1. Sukupuoli ja alue
Sukupuoli Alue A Alue B Alueet yhteensä
Nainen 21 12 33
Mies 16 19 35
Sukupuolet yhteensä 37 31 68
Taulukko 2. Sukupuoli ja rikosrekisteri
Sukupuoli Rikosrekisteri on Rikosrekisteriä ei ole Yhteensä
Nainen 23 10 33
Mies 8 27 35
Sukupuolet yhteensä 31 37 68
Taulukko 3. Alue ja rikosrekisteri on/ei ole
Alue Rikosrekisteri on Rikosrekisteriä ei ole Yhteensä
Alue A 11 26 37
Alue B 20 11 31
Yhteensä 31 37 68

Pohdi nyt näitä kysymyksiä:

  • Läpäisevätkö yllä olevat taulukot tietosuojatarkastuksen?
  • Onko tietosuojan kannalta merkitystä sillä, lähetätkö tarkastukseen oheiset kaksiulotteiset taulukot vai yhden kolmiulotteisen taulukon, jossa olisi alue, sukupuoli ja rikosrekisteri?

1/4

Vastaus

Tällä esimerkillä halutaan osoittaa, miksi samasta populaatiosta tuotetut, osittain samoja muuttujia ja reunajakaumia sisältävät taulukot, eli ns. linkittyneet taulukot saattavat sisältää vaikeasti havaittavia tietosuojariskejä.

Yllä olevien linkittyneiden taulukoiden muuttujista saisi koottua seuraavan "kolmiulotteisen" taulukon (sukupuoli x rikosrekisteri x alue). X:llä on merkitty niiden solujen arvot, joita ei alkuperäisissä kahden muuttujan ristiintaulukoissa esiintynyt.

Taulukko 4. Sukupuoli, rikosrekisteri ja alue
Sukupuoli Rikosrekisteri Alue A Alue B Alueet yhteensä
Nainen on x x 23
Mies on x x 8
Sukupuolet yhteensä on 11 20 31
Nainen ei ole x x 10
Mies ei ole x x 27
Sukupuolet yhteensä ei ole 26 11 37
Nainen yhteensä 21 12 33
Mies yhteensä 16 19 35
Sukupuolet yhteensä yhteensä 37 31 68

Yllä olevaa Taulukko 4:a katsomalla huomaat varmaan seuraavat asiat:

  • Alueella B on yhteensä 20 hammaslääkäriä, joilla on rikosrekisteri.
  • Alueella B on naishammaslääkäreitä yhteensä 12, joten vaikka kaikilla näistä naisista olisi rikosrekisteri, niin vähintään kahdeksalla alueen B mieshammaslääkärillä on myös oltava rikosrekisteri.
  • Mieshammaslääkäreistä (molemmilla alueilla yhteensä) rikosrekisteri on vain kahdeksalla. Tästä voidaan päätellä, että kaikki rikosrekisterin omistavat mieshammaslääkärit ovat alueella B.

2/4

Vastaus (jatkuu)

Näiden päätelmien jälkeen voit täydentää osan peitetyistä (x:llä merkityistä) arvoista (merkitty taulukkoon punaisella ja niiden perässä on (t) eli täydennetty):

Taulukko 5. Sukupuoli, rikosrekisteri ja alue (osa peitetyistä soluarvioista on laskettu)
Sukupuoli Rikosrekisteri Alue A Alue B Alueet yhteensä
Nainen on x x 23
Mies on 0 (t) 8 (t) 8
Sukupuolet yhteensä on 11 20 31
Nainen ei ole x x 10
Mies ei ole x x 27
Sukupuolet yhteensä ei ole 26 11 37
Nainen yhteensä 21 12 33
Mies yhteensä 16 19 35
Sukupuolet yhteensä yhteensä 37 31 68

3/4

Vastaus (jatkuu)

Tämän jälkeen pystyt laskemaan helposti myös loput kolmiulotteisen taulukon solujen arvot.

Taulukko 6. Sukupuoli, rikosrekisteri ja alue (kaikki peitetyt soluarvot laskettu)
Sukupuoli Rikosrekisteri Alue A Alue B Alueet yhteensä
Nainen on 11 (t) 12 (t) 23
Mies on 0 (t) 8 (t) 8
Sukupuolet yhteensä on 11 20 31
Nainen ei ole 10 (t) 0 (t) 10
Mies ei ole 16 (t) 11 (t) 27
Sukupuolet yhteensä ei ole 26 11 37
Nainen yhteensä 21 12 33
Mies yhteensä 16 19 35
Sukupuolet yhteensä yhteensä 37 31 68

Yllä olevasta taulukosta paljastuvat seuraavat arkaluonteiset tiedot:

  • kaikilla alueen B naishammaslääkäreillä on rikosrekisteri ja
  • kaikki mieshammaslääkärit, joilla on rikosrekisteri, ovat alueella B.

Tästä esimerkistä opimme, että tietosuojariskit on usein helpompi havaita katsomalla yhtä, kaikki ristiintaulukoitavat muuttujat sisältävää taulukkoa, kuin useaa pienempää linkittynyttä osataulukkoa.

4/4

Opi lisää tietosuojasta ja selaa galleriaa (2)

Seuraavassa galleriassa on kysymyksiä ja niiden vastauksia. Pääset liikkumaan kysymysten ja vastausten välillä nuolipainikkeilla edellinen ja seuraava.

Harjoittele arvioimaan tulosten tietosuojaa: Tuettujen yritysten määrä maakunnittain

Testaa seuraavaksi, osaatko arvioida tulosten tietosuojaa. Olet tehnyt aineistosi pohjalta seuraavat taulukot tuettujen yritysten määrästä ja suunnittelet niiden lähettämistä tarkastukseen.

Pohdi seuraavia kysymyksiä:

  • Täyttävätkö taulukot lähetettävien tulosteiden tietosuojavaatimukset?
  • Millaisia tietosuojariskejä taulukoihin sisältyy?
  • Mikäli taulukot eivät täytä kaikkia tietosuojavaatimuksia, niin kuinka niitä tulisi muokata?
 
Taulukko 1. Tuettujen yritysten lukumäärät ja tuen määrät maakunnittain (maakunta = MK)
Vuosi MKA MK B MK C MK D MK E MK F–S Koko maa
2015 21 2 5 9 5 396 438
2016 8 1 6 9 3 460 487
2017 18 2 10 10 1 592 633
2018 17 3 6 7 7 559 599
2019 15 1 6 12 9 560 603
Taulukko 2. Tuen määrä (1 000 euroa) maakunnittain (maakunta = MK)
Vuosi MK A MK B MK C MK D MK E MK F–S Koko maa
2015 3 552 183 1 317 2 016 355 120 124 127 547
2016 855 580 650 761 307 145 460 148 613
2017 2 623 125 851 1 577 15 146 335 151 526
2018 3 508 153 476 1 315 275 158 581 164 308
2019 1 928 15 653 1 467 1 247 174 478 179 788

1/2

Vastaus

Lukumäärätaulukossa on näkyvissä pieniä solufrekvenssejä, joten taulukot eivät tulisi pääsemään tarkastuksesta läpi. Esimerkiksi maakunnassa B oli vuonna 2019 vain yksi tukea saanut yritys. On olemassa riski, että jonkin muun (julkisen) lähteen avulla kyseinen yritys on tunnistettavissa ja tällöin selviäisi myös tuen määrä. Lisäksi voit tuottaa samasta aineistosta lisätaulukoita, joiden tietoja yhdistelemällä myös tukea saaneet yritykset voivat paljastua.

Taulukko 1. Tuettujen yritysten lukumäärät ja tuen määrät maakunnittain (maakunta = MK)
Vuosi MK A MK B MK C MK D MK E MK F–S Koko maa
2015 21 2 5 9 5 396 438
2016 8 1 6 9 3 460 487
2017 18 2 10 10 1 592 633
2018 17 3 6 7 7 559 599
2019 15 1 6 12 9 560 603

Taulukoista ei käy ilmi, onko kyse rajatusta yritysjoukosta (esim. tietyn toimialan yritykset) vai kaikista Suomessa toimivista yrityksistä. Toimialatieto (yhdistettynä aluetietoon) voi merkittävästi nostaa yrityksen paljastumisriskiä, joten tarkastaja voi hylätä taulukot jo puutteellisen dokumentoinnin takia.

Taulukoiden tietosuojaa voisit parantaa yhdistelemällä maakuntia tai peittämällä pienet solufrekvenssit. Peittämisessä tulisi kuitenkin huomioida myös toissijaisen peittämisen tarve, sillä mikäli esimerkiksi vuonna 2019 vain maakunnan B yritysten lukumäärätieto peitettäisiin, voitaisiin se laskea auki vähentämällä muiden maakuntien lukumäärät koko maan summatiedosta.

2/2

3.5. Tulosten tarkastusmenettely

Tilastokeskuksen tutkijapalveluilla on käytössään tutkimustulosteiden tarkastusmenettely, jolla varmistetaan tietosuojan toteutuminen.

  • Sinun tulee huolehtia, että tarkastukseen lähetettävät tulosteet täyttävät vaaditut tietosuojavaatimukset.
  • Tulosteiden tulee olla selkeästi tulkittavia.
  • Tulosteiden keskeinen sisältö ja käytetyt muuttujat tulee olla tarkastajan ymmärrettävissä.
  • Taulukoissa solukohtaisten havaintojen lukumäärän tulee olla näkyvissä, kuten myös estimaattien ja tunnuslukujen laskennassa käytettyjen havaintojen lukumäärät.

Tarkastuksessa ei hyväksytä tulostetta, jonka sisältö on liian epäselvä tai laaja tietosuojan toteutumisen arvioimiseksi. Tarkempaa tietoa tulosteiden tietosuojavaatimuksista ja tarkastusmenettelystä löydät tutkijapalveluiden säännöistä ja ohjeista. Säännöt ja ohjeet ovat sitovia kaikille tutkimushankekohtaisen tai SISU-mikrosimulointimallin käyttöä koskevan sopimuksen allekirjoittaneille tutkijoille. Huomaa, että tarkastusmenettelystä huolimatta sinä tutkijana olet viimekädessä vastuussa tietosuojan toteutumisesta julkaisemissasi tutkimustuloksissa

Tutkijapalveluiden etäkäytössä ja mikrosimulointimallin etäkäytössä noudatetaan toisistaan poikkeavia tarkastusmenettelyjä. Tutkimushankkeissa etäkäytössä tuotetut tulosteet tarkastetaan tietosuojan osalta ennen tietojen luovuttamista tutkijalle. Etäympäristöstä ei voi siirtää tiedostoja omalle työasemalle itse, vaan tiedonsiirto tapahtuu erillisellä pyynnöllä sähköpostin kautta. SISU-mikrosimuloinnissa puolestaan käyttäjä siirtää tutkimustuloksia sisältäviä tiedostoja suoraan omalle työasemalle ilman etukäteen tehtävää tarkastusta. 

Tarkastusmenettely tutkimushankkeissa

Etä- ja tutkimuslaboratoriokäytössä tuotetut tutkimustulokset tarkastetaan tietosuojan varmistamiseksi. Tarkastuspyynnöt lähetetään sähköpostitse tutkijapalveluihin. Etäkäytön sääntöjen mukaisesti kaikki järjestelmästä pyydettävät tulostiedostot tarkastetaan. Huomioithan siis tutkijapalveluiden resurssit palvelupyyntöä lähettäessäsi. Kiinnittämällä huomiota tulostiedostojen laatuun ja noudattamalla kohtuutta tarkastuspyyntöjen määrässä voit sujuvoittaa ja nopeuttaa tarkastusmenettelyä merkittävästi. Etäkäyttöjärjestelmän ylläpitoon ja siihen liittyviin tehtäviin irrotetaan työresursseja päivittäisen tarpeen mukaan tutkijapalveluiden henkilöstön muusta työajasta.

  • Pidä tulostiedostojen määrä ja koko kohtuullisena (enintään 2 Mt).
  • Rajaa tarkastukseen pyydettävät tiedostot vain niihin, joita tarvitset julkaisuun tai työskentelyyn etäkäyttöjärjestelmän ulkopuolella.
  • Rajaa tulostiedostojen sisältö vain niihin tauluihin ja tietoihin, joita tarvitset. Tiedostot tarkastetaan kokonaisuudessaan, joten esimerkiksi laajat log-tiedostot pidentävät ja vaikeuttavat tarkastusta välittömästi.
  • Varmista, että tulostiedostojen sisältö on kokonaisuudessaan tietosuojavaatimusten mukainen. Poista tai muokkaa oma-aloitteisesti tietosuojaongelmia aiheuttavat tiedot.
  • Varmista, että tulostiedostojen muoto (erityisesti kuvatiedostot) on sääntöjen ja ohjeiden mukainen. Mikäli tarvitset tulostiedoston ehdottomasti järjestelmästä muussa kuin säännöissä mainitussa muodossa, liitä tarkastuspyyntöön perustelu sekä ohjeet tiedostomuodon avaamiseen.
  • Liitä tarkastuspyyntöön kuvaus tarkastettavista tiedoista sekä maininta, mistä aineistosta tulokset on laskettu. Kuvauksen voit jättää pois tarkastuspyynnöstä ainoastaan, jos tietosisältö on ilmeinen.
  • Kopioi tiedostot oman projektisi hakemistoissa olevaan tarkastuskansioon (...\out). 
  • Lähetä tiedostojen/kuvien tarkastuspyyntö sähköpostiosoitteeseen tutkijapalvelut@stat.fi hankekoodin ja sijaintitiedon kera.
  • Tietosuojatarkastuksen jälkeen saat tulokset ilmoittamaasi sähköpostiosoitteeseen.
  • Varaa tarkastamiseen 2 työpäivää.
  • Tiedostojen tulee olla selkeästi tulkittavissa, lisätietojen kysyminen viivästyttää tarkastusta seuraavaan arkipäivään.

Pyri ennakoimaan tietotarpeesi ja lähetä tarkastuspyyntö hyvissä ajoin. Tarkastuspyynnöt ja tiedostojen siirtäminen käsitellään aina seuraavana arkipäivänä. Vastaukset korjaus- tai selvityspyyntöihin tiedostojen sisällöstä käsitellään seuraavana arkipäivänä. 

Tarkastusmenettely mikrosimuloinnissa

Mikrosimuloinnin etäympäristöstä voit siirtää tutkimustuloksia sisältäviä tiedostoja etäympäristöstä omalle työasemallesi. Jokaisella käyttäjällä on etäkäyttöympäristössä oma henkilökohtainen Mail-sähköpostikansio, jonka kautta tiedostoja voit siirtää omalle työasemallesi.

  • Kopioi halutut tiedostot (User-, Forum- tai Admin-kansioista) henkilökohtaiseen Mail-kansioosi.
  • Noin kahden minuutin kuluttua kopioinnista tiedosto siirtyy automaattisesti sekä henkilökohtaiseesi että Tilastokeskuksen mikrosimuloinnin (mikrosimulointi@tilastokeskus.fi) sähköpostiin.
  • Jokaisesta Mail-kansioon kopioidusta tiedostosta tulee erillinen sähköpostiviesti, jonka liitteenä on kansioon kopioitu tiedosto. Lähetettävän tiedoston koko voi olla korkeintaan 1 megatavu (Mt).

Tilastokeskus tarkastaa siirretyt tiedostot mikrosimuloinnin sähköpostista jälkikäteen. Olet velvollinen noudattamaan siirrettäviin tietoihin liittyen tutkijapalveluiden etäympäristöä koskevia ohjeita ja pelisääntöjä: 

  • siirrettävien tutkimustulosten suojaaminen
  • tiedostojen koko- ym. rajoitukset
  • tietojen tulkittavuus
  • tulosten julkaiseminen.

Kiinnitä erityistä huomiota siihen, ettei mikrosimulointiympäristöstä siirrettävissä tiedoissa ole vahingossakaan yksilötason tietoja tai mahdollisuutta niiden paljastamiseen.

3.6 Tarkastukseen soveltumattomat tulosteet

Ethän lähetä seuraavia tulosteita tarkastukseen: 

  • Kaikkien tarkastukseen vietävien tiedostojen tulee täyttää samat kriteerit kuin julkaistaviksi tarkoitettujen taulukoiden ja kuvioiden, joten esimerkiksi log-tiedostoista tulisi pyytää tarkastettavaksi vain välttämättömät tai julkaistaviksi tarkoitetut osiot.
  • Yksikkötason tietoja tai aineistoa sisältävät tulosteet eivät pääse läpi tarkastuksesta. Järjestelmästä voit saada ulos vain aggregoitua tietoa.
  • Mikäli tuloste on liian huonosti dokumentoitu tietosuojan arvioimisen kannalta, ei tarkastaja voi päästää sitä läpi tarkastuksesta.
  • Selkeästi kiellettyjä kuvatyyppejä ovat muun muassa poikkeavien havaintoyksiköiden arvoja esittävät kuvat tai hajontakuvat, joista pystyy päättelemään esimerkiksi alansa suurimman yrityksen tietoja. Ohjelmien piirtofunktiot merkitsevät usein automaattisesti hajontakuviin poikkeavat havainnot, jotka pitää jättää pois julkaistavista kuvista.
  • Tietyt kuvatyypit, kuten Statan gph -tiedostot, tallentavat lähtökohtaisesti kuvan piirtämiseen käytetyn aineiston, jonka vuoksi ne eivät välttämättä sovellu ulos siirrettäviksi.

Kertaa käsitteitä

  • Dominanssisääntö tarkoittaa, että solu on herkkä, mikäli sen n suurinta tilastoyksikköä muodostavat vähintään k prosenttia solun kokonaisarvosta.
  • Frekvenssitaulukko on taulukko, jossa kunkin solun arvo on ko. soluun kuuluvien tilastoyksiköiden lukumäärä.
  • Kynnysarvosääntö tarkoittaa, että solu on herkkä, mikäli siihen kuuluu vähemmän kuin ennalta määrätyn kynnysarvon verran tilastoyksiköitä.
  • Määrätaulukko on taulukko, jossa tilastoyksiköiden arvot ovat taulukoitavan muuttujan arvoja ja siten soluarvot ovat soluun kuuluvien tilastoyksiköiden arvojen aggregaatteja, yleisimmin summia tai keskiarvoja.