Siirry pääsisältöön
Tilasto-oppaat
Tilastokeskuksen etusivulle

Tutkimusaineistot etäkäytössä

1 Mikroaineistojen tutkimuskäyttö

1.1 Tutkimusaineistojen tausta Tilastokeskuksessa

Suomalaiset tilastoaineistot tarjoavat harvinaislaatuisen tietopohjan talous- ja yhteiskuntatieteelliseen tutkimukseen. Tilastokeskuksen rekisteri- ja kyselypohjaiset aineistot kokoavat yhteen laajan kokoelman yksityiskohtaista tietoa yhteiskunnan eri osa-alueilta. Tilastokeskus voi tilastolain nojalla antaa käyttöoikeuden hallussaan oleviin, tilastointia varten kerättyihin salassa pidettäviin tietoihin tieteellistä tutkimusta ja yhteiskuntaoloja koskevaa tilastollista selvitystä varten.

FIONA-palvelu mahdollistaa aineistojen etäkäytön

Mikroaineistojen tutkimuskäyttö on laajentunut vähitellen, ja mallia on haettu erityisesti muista Pohjoismaista ja Hollannista. Vuonna 2010 lanseerattiin etäkäyttöpalvelu, jotta tutkijat voisivat tasapuolisesti ja helposti päästä käyttämään käyttöluvallisia mikroaineistoja omalta työpisteeltään valvotussa ja tietoturvallisessa ympäristössä.

Yksikkötason tietoja voit saada käyttöösi etäkäyttöympäristössä tai tutkimuslaboratoriossa. Etätyöpöydällä työskentely vastaa omalla koneella työskentelyä, mutta järjestelmästä ulos siirrettävät tiedostot ja tulokset tarkastetaan tietosuojan osalta.

Pseudotunnisteet edistävät tietosuojaa

Tutkimusaineistoissa yksikkötason suorat tunnisteet, kuten henkilötunnukset tai yritystunnukset, on etäkäyttöpalvelussa korvattu pseudotunnisteilla. Pseudotunniste on suoran yksikkötunnisteen korvaava keinotekoinen tunniste, jolla yksikköä (tai yksilöä) voidaan seurata aineistossa ja yksikön tietoja linkittää eri aineistojen välillä.

1.2 Aineistoja tieteellisiin tutkimuksiin ja tilastollisiin selvityksiin

Tilastokeskus myöntää käyttölupia monipuolisiin tilastoaineistoihin perustuviin mikroaineistoihin tieteellistä tutkimusta ja tilastollista selvitystä varten. Mikroaineistossa yksikkönä voi olla esimerkiksi yritys, toimipaikka, kotitalous tai henkilö.

Valmisaineistoja ja räätälöityjä tutkimusaineistoja

Aineistovalikoimaan kuuluvat sekä valmiit tutkimusaineistot, valmisaineistot, että Tilastokeskuksen aineistoista hankkeiden tarpeisiin räätälöidyt tutkimusaineistot. Aineistojen yhdistäminen omiisi tai muiden organisaatioiden luovuttamiin aineistoihin on myös mahdollista tilastolain puitteissa. Valmiit tutkimusaineistot saat käyttöösi yleensä nopeammin ja edullisemmin kuin erityistarpeidesi mukaan räätälöidyt aineistot. Tutkimukseen soveltuvia aineistoja ja aineistokuvauksia kehitetään jatkuvasti yhteistyössä Tilastokeskuksen tilastoasiantuntijoiden ja tutkijoiden kanssa.

Aineistoja on mahdollista yhdistää keskenään suojatuilla, yli ajan yhtenäisillä yksikkötunnuksilla, ns. pseudotunnisteilla, mikä mahdollistaa yksiköiden seuraamisen vuodesta toiseen yli aineistorajojen. Aineistoja yhdistämällä saadaan rakennettua kunkin tutkimustarpeen mukainen, tarvittaessa erittäin laaja tietosisältö. Etäkäyttöpalvelussa voit muodostaa oman aineistokokonaisuutesi yhdistelemällä Tilastokeskuksen aineistoja muista lähteistä koottuihin rekisteri- ja kyselytutkimusaineistoihin. Aineistot pseudonymisoidaan yhtenevästi, eli yksikkötason suorat tunnisteet korvataan pseudotunnisteilla.

Tietoa yritystoiminnasta

Yritystoiminnan piirteitä ja kehitystä voit tutkia kokoamalla tietoja konserni-, yritys- ja toimipaikka-aineistoista, jotka pohjautuvat laajoihin hallinnollisiin rekistereihin tai kyselytutkimusten tietoihin.

Saatavilla on tietoja muun muassa:

  • yritysten ominaisuuksista (toimiala, sijainti, oikeudellinen muoto, omistussuhteet)
  • toiminnasta (kannattavuus, tuotanto, vienti, tuonti, tutkimus- ja kehittämistoiminnan menot, innovaatiot, ICT, yritystuet)
  • henkilöstöstä (palkat, koulutus, ammatit, liikkuvuus).

Tietoa väestöstä

Väestön ominaisuuksia, käyttäytymistä ja historiaa voit tutkia sekä rekisteripohjaisten että haastatteluaineistoihin pohjautuvien tietojen avulla. 

Tietoja on saatavilla:

  • työssäkäynnistä ja työsuhteista
  • työttömyys- ja eläkejaksoista
  • palkoista ja työoloista
  • koulutuksesta, opiskelusta ja tutkinnoista
  • tuloista, kulutuksesta ja ajankäytöstä
  • asumisesta ja rakentamisesta
  • rikosasioista ja kuolemansyistä.

Yhdistetyt työntekijä–työnantaja-aineistot antavat sinulle mahdollisuudet tutkia erilaisia yritystoimintaa ja työmarkkinoita koskevia ilmiöitä ja näiden välisiä vuorovaikutussuhteita, mm. työntekijöiden ominaisuuksia, henkilöstön liikkuvuutta yritysten ja toimialojen välillä sekä ammattirakenteiden dynamiikkaa. Lisäksi työntekijöiden palkoista ja niiden rakenteesta on saatavilla lisätietoja työnantajittain.

Lue lisää tutkimusaineistoista

1.3 Laajojen pitkittäisaineistojen erityispiirteet tutkimuksessa

Aineistojen paneeliominaisuuksien ansiosta tilastoyksiköiden kehityshistoriasta saadaan kattava kuvaus. Pisimmät yritysaikasarjat ulottuvat 1970-luvulle asti, ja henkilöistä on otospohjaista tietoa vuoden 1950 väestölaskennasta lähtien. Koko työikäisen väestön kattavaa tietoa on saatavissa vuodesta 1988 lähtien vuosittain.

Valmisaineistoja päivitetään pääsääntöisesti vuosittain aina tilaston valmistumisen jälkeen. Joitakin valmisaineistoja on muokattu siten, että aineistojen sisällöllisiä muutoksia on pyritty yhtenäistämään tai harmonisoimaan mahdollisuuksien mukaan yli ajan. Valmiita harmonisointeja on tehty esimerkiksi toimiala- ja alueluokitusten sekä ammatin suhteen. Lisäksi joissakin aineistoissa on tehty yli ajan yhtenäistettyjä muuttujaryhmittelyjä, summauksia tai muita käsittelyitä valmiiksi. Tarkemmat aineistokohtaiset kuvaukset ovat saatavissa Taika-aineistokatalogista.

Pääosin aineistoja ei kuitenkaan ole harmonisoitu eli yhtenäistetty luokitusten (mm. ammatti, koulutus, toimiala, alue, tuotenimike) tai muuttujasisältöjen ajallisten muutosten suhteen. Myös kohdeperusjoukot ja otoskehikot ovat saattaneet muuttua esimerkiksi tiedonkeruussa tai tietojärjestelmissä tapahtuneiden uudistusten myötä. Luokituksissa tapahtuneet muutokset on pyritty kuvaamaan aineistokuvauksissa.

Aikasarjojen haasteita

Jos haluat seurata muutoksia ajan mittaan, esimerkiksi useilta vuosilta, sinun on varmistettava, että käyttämäsi muuttujat mittaavat samaa tutkimuksen kohteena olevaa ilmiötä eri ajankohtina. Voit jäljittää ja tarvittaessa yhtenäistää muutoksia aineistokuvausten ja luokitusten avulla.

Käsitteiden ja nimikkeiden tulee koostua samoista tekijöistä

Esimerkiksi palkkakäsitteiden tai ammattinimikkeiden pitää koostua samoista tekijöistä (aikayksikkö, peruspalkka, ikälisät, ylityölisät, tulospalkkiot tms.), jotta voidaan luotettavasti arvioida ammattikohtaisia palkan muutoksia. Ammattinimikkeen pitäisi kuvata samaa ammattia tai tekemisen sisältöä eri ajankohtina. Työnantajajärjestöjen ammattiluokitukset, jotka ovat kansallisen ammattiluokituksen taustalla, voivat muuttua ajoittain hyvinkin merkittävästi. Aineistokuvausten ja luokitusten avulla muutoksia on mahdollista jäljittää ja tarvittaessa yhtenäistää.

Tietojen taustalla voi olla useita eri lähteitä

Tietoa voidaan muodostaa myös päättelysääntöjen avulla sen sijaan, että tietoja kysytään haastattelulomakkeella. Esimerkiksi työssäkäyntitilastossa muuttuja "henkilön pääasiallinen toiminta" päätellään ns. rekisteriestimointimenetelmällä. Siinä tarvitaan tietoja henkilön iästä, työsuhteista, työttömyydestä, opiskelusta, eläkkeen saamisesta jne. Päättelysääntöjen muodostamisessa on käytetty apuna aikaisempien väestölaskentojen tietoja ja rekisteritietoja samalta ajankohdalta. Päättelysääntöihin sisältyy myös eri aineistojen priorisointi siinä tapauksessa, että tiedot ovat ristiriitaisia.

Aineistoyhdistelmien haasteita

Aineistoja yhdistelemällä voit laajentaa ilmiöalueen kuvausta tai vertailla eri lähteiden tietoja. Aineistojen yhdistäminen voi olla haastavaa erilaisten kohdeperusjoukkojen, tietojen keruun ajallisten erojen ja tilastorajojen vuoksi. Esimerkiksi yritysrekisterin vuositilastoon tulevat mukaan yritykset, jotka ovat toimineet yli puoli vuotta tilastovuoden aikana, ja jotka ovat työllistäneet enemmän kuin puoli henkilöä tai joiden liikevaihto on ylittänyt vuosittain määritellyn tilastorajan.

Työssäkäyntitilastossa taas henkilöiden työnantajayritys määräytyy vuoden viimeisen viikon tilanteen mukaan. Vuoden aikana aloittaneet ja lopettaneet yritykset eivät välttämättä näy molemmissa aineistoissa samalla tavalla. Muuttujien arvot ja sisällöt voivat myös olla erilaisia ja eri tavoin määriteltyjä eri lähteissä, kuten muuttuja päätoimiala.

Erityisen haasteellista voi olla rekisteri- ja kyselyaineistojen yhdistäminen. Näiden aineistojen yhdistäminen voi edellyttää analysoitavien aineistojen otanta-asetelmien huomioimista ja aineiston painottamista tilastollisin menetelmin.

1.4. Aineistojen laatu ja kattavuus

Aineistoja tarkastellessa on hyvä pitää mielessä, että laajoissa tilastoaineistoissa on poikkeavuuksia ja virheitä, esimerkiksi:

  • toistuvia havaintoja (tuplia)
  • virheellisiä muuttuja-arvoja
  • puuttuvia tietoja.

Tilastojen tuotantoprosessissa vain osa virheistä pystytään korjaamaan. Toisaalta tietosisältö on mahdollisimman laaja, sillä perusaineistot tulevat usein lähes sellaisinaan tutkimuskäyttöön. Tutkijana sinun on myös mahdollista tehdä omat ratkaisusi esimerkiksi poikkeavien havaintojen käsittelyn suhteen. Aineiston alkuanalyysi kannattaa tehdä huolellisesti käyttäen jakaumataulukointia ja graafisia kuvioita. Aikasarjamuotoisissa aineistoissa vuosittain lasketut tunnusluvut kertovat paljon muutoksista.

Tilastoaineistot tarkistetaan havaintojen laadun, puutteiden (yksikkö- ja eräkadon) ja virheiden osalta joko automaattisilla massatarkistuksilla tai manuaalisesti. Huomiota kiinnitetään erityisesti systemaattisiin ja merkittäviin virheisiin. Esimerkiksi suuret yritykset käydään läpi tarkemmin kuin pienet.

Imputointi on aineiston puuttuvien tietojen arviointia

Imputointi tarkoittaa puuttuvien tai virheellisten arvojen menetelmällistä täydentämistä korvikearvoilla, joiden tulee olla mahdollisimman oikeita. Imputoidut havainnot ja käytetyt menetelmät on mahdollisuuksien mukaan merkitty aineistoihin ja dokumentoitu. Joissakin tapauksissa korjaustoimet ovat monivaiheisia sisältäen erilaisia korjauskäytäntöjä ja imputointimenetelmiä (esim. tilinpäätösaineistot).

Imputoitujen muuttujien varianssi pienenee, mihin on syynä toisaalta aineiston koon kasvaminen ja toisaalta imputoitujen arvojen vähäisempi vaihtelu. Imputoituja muuttujia käytettäessä tulee kiinnittää huomiota tutkimusasetelmaan.

Esimerkiksi yritysrekisterissä henkilöstön lukumäärä on osittain estimoitu alle 20 henkilön yrityksille palkkojen perusteella. Tässä ryhmässä palkkojen selittäminen yrityksen koolla ei anna oikeaa kuvaa riippuvuussuhteista. Aineiston laadusta ja katokorjauksista, eli puuttuvien tietojen korjauksista, saat lisätietoa myös tilastokohtaisista laatuselosteista. 


Kertaa käsitteitä

  • Etäkäyttöjärjestelmä tarjoaa tutkijalle työpöydän käyttöluvallisen tutkimusaineiston tietoturvalliseen käsittelyyn omalta työpisteeltä.
  • Imputointi on puuttuvien tai virheellisten arvojen menetelmällistä täydentämistä korvikearvoilla, joiden tulee olla mahdollisimman oikeita. 
  • Mikroaineisto on tilastointia varten kerätty rekisteri- tai kyselyaineisto, joka sisältää tietoja yksittäisistä tilastoyksiköistä, kuten henkilöstä, kotitaloudesta tai yrityksestä.
  • Pseudotunniste on keinotekoinen tunniste, joka korvaa esim. henkilötunnuksen.