Tutkimusaineistot etäkäytössä
Suomalaiset tilastoaineistot tarjoavat harvinaislaatuisen tietopohjan talous- ja yhteiskuntatieteelliseen tutkimukseen. Tilastokeskuksen rekisteri- ja kyselypohjaiset aineistot kokoavat yhteen laajan kokoelman yksityiskohtaista tietoa yhteiskunnan eri osa-alueilta. Tilastokeskus voi tilastolain nojalla antaa käyttöoikeuden hallussaan oleviin, tilastointia varten kerättyihin salassa pidettäviin tietoihin tieteellistä tutkimusta ja yhteiskuntaoloja koskevaa tilastollista selvitystä varten.
Mikroaineistojen tutkimuskäyttö on laajentunut vähitellen, ja mallia on haettu erityisesti muista Pohjoismaista ja Hollannista. Vuonna 2010 lanseerattiin etäkäyttöpalvelu, jotta tutkijat voisivat tasapuolisesti ja helposti päästä käyttämään käyttöluvallisia mikroaineistoja omalta työpisteeltään valvotussa ja tietoturvallisessa ympäristössä.
Yksikkötason tietoja voit saada käyttöösi etäkäyttöympäristössä tai tutkimuslaboratoriossa. Etätyöpöydällä työskentely vastaa omalla koneella työskentelyä, mutta etäkäyttöympäristöstä ei ole verkkoyhteyksiä sisään eikä ulos. Näin ollen etäkäyttöympäristöstä ulos tuotavat tutkimustulokset kulkevat erillisen tietosuojatarkastelun kautta.
Tutkimusaineistoissa yksikkötason suorat tunnisteet, kuten henkilötunnukset tai yritystunnukset, on etäkäyttöpalvelussa korvattu pseudotunnisteilla. Pseudotunniste on suoran yksikkötunnisteen korvaava keinotekoinen tunniste, jolla yksikköä (tai yksilöä) voidaan seurata aineistossa ja yksikön tietoja linkittää eri aineistojen välillä.
Tilastokeskus myöntää käyttölupia monipuolisiin tilastoaineistoihin perustuviin mikroaineistoihin tieteellistä tutkimusta ja tilastollista selvitystä varten. Mikroaineistossa yksikkönä voi olla esimerkiksi yritys, toimipaikka, kotitalous tai henkilö.
Aineistovalikoimaan kuuluvat sekä valmisaineistot, että Tilastokeskuksen aineistoista hankkeiden tarpeisiin räätälöidyt tutkimusaineistot. Aineistojen yhdistäminen omiisi tai muiden organisaatioiden luovuttamiin aineistoihin on myös mahdollista tilastolain puitteissa. Tutkimukseen soveltuvia aineistoja ja aineistokuvauksia kehitetään jatkuvasti yhteistyössä Tilastokeskuksen tilastoasiantuntijoiden ja tutkijoiden kanssa.
Aineistoja on mahdollista yhdistää keskenään suojatuilla, yli ajan yhtenäisillä yksikkötunnuksilla, ns. pseudotunnisteilla, mikä mahdollistaa yksiköiden seuraamisen vuodesta toiseen yli aineistorajojen. Aineistoja yhdistämällä saadaan rakennettua kunkin tutkimustarpeen mukainen, tarvittaessa erittäin laaja tietosisältö. Etäkäyttöpalvelussa voit muodostaa oman aineistokokonaisuutesi yhdistelemällä Tilastokeskuksen aineistoja muista lähteistä koottuihin rekisteri- ja kyselytutkimusaineistoihin.
Yritystoiminnan piirteitä ja kehitystä voit tutkia kokoamalla tietoja konserni-, yritys- ja toimipaikka-aineistoista, jotka pohjautuvat laajoihin hallinnollisiin rekistereihin tai kyselytutkimusten tietoihin.
Saatavilla on tietoja muun muassa:
Väestön ominaisuuksia, käyttäytymistä ja historiaa voit tutkia sekä rekisteripohjaisten että haastatteluaineistoihin pohjautuvien tietojen avulla.
Tietoja on saatavilla:
Yhdistetyt työntekijä–työnantaja-aineistot antavat sinulle mahdollisuudet tutkia erilaisia yritystoimintaa ja työmarkkinoita koskevia ilmiöitä ja näiden välisiä vuorovaikutussuhteita, mm. työntekijöiden ominaisuuksia, henkilöstön liikkuvuutta yritysten ja toimialojen välillä sekä ammattirakenteiden dynamiikkaa. Lisäksi työntekijöiden palkoista ja niiden rakenteesta on saatavilla lisätietoja työnantajittain.
Aineistojen paneeliominaisuuksien ansiosta tilastoyksiköiden kehityshistoriasta saadaan kattava kuvaus. Pisimmät yritysaikasarjat ulottuvat 1970-luvulle asti, ja henkilöistä on otospohjaista tietoa vuoden 1950 väestölaskennasta lähtien. Koko työikäisen väestön kattavaa tietoa on saatavissa vuodesta 1988 lähtien vuosittain.
Valmisaineistoja päivitetään pääsääntöisesti vuosittain aina tilaston valmistumisen jälkeen. Joitakin valmisaineistoja on muokattu siten, että aineistojen sisällöllisiä muutoksia on pyritty yhtenäistämään tai harmonisoimaan mahdollisuuksien mukaan yli ajan. Valmiita harmonisointeja on tehty esimerkiksi toimiala- ja alueluokitusten sekä ammatin suhteen. Lisäksi joissakin aineistoissa on tehty yli ajan yhtenäistettyjä muuttujaryhmittelyjä, summauksia tai muita käsittelyitä valmiiksi. Tarkemmat aineistokohtaiset kuvaukset ovat saatavissa Taika-aineistokatalogista.
Pääosin aineistoja ei kuitenkaan ole harmonisoitu eli yhtenäistetty luokitusten (mm. ammatti, koulutus, toimiala, alue, tuotenimike) tai muuttujasisältöjen ajallisten muutosten suhteen. Myös kohdeperusjoukot ja otoskehikot ovat saattaneet muuttua esimerkiksi tiedonkeruussa tai tietojärjestelmissä tapahtuneiden uudistusten myötä. Luokituksissa tapahtuneet muutokset on pyritty kuvaamaan aineistokuvauksissa.
Jos haluat seurata muutoksia ajan mittaan, esimerkiksi useilta vuosilta, sinun on varmistettava, että käyttämäsi muuttujat mittaavat samaa tutkimuksen kohteena olevaa ilmiötä eri ajankohtina. Voit jäljittää ja tarvittaessa yhtenäistää muutoksia aineistokuvausten ja luokitusten avulla.
Esimerkiksi palkkakäsitteiden tai ammattinimikkeiden pitää koostua samoista tekijöistä (aikayksikkö, peruspalkka, ikälisät, ylityölisät, tulospalkkiot tms.), jotta voidaan luotettavasti arvioida ammattikohtaisia palkan muutoksia. Ammattinimikkeen pitäisi kuvata samaa ammattia tai tekemisen sisältöä eri ajankohtina. Työnantajajärjestöjen ammattiluokitukset, jotka ovat kansallisen ammattiluokituksen taustalla, voivat muuttua ajoittain hyvinkin merkittävästi. Aineistokuvausten ja luokitusten avulla muutoksia on mahdollista jäljittää ja tarvittaessa yhtenäistää.
Tietoa voidaan muodostaa myös päättelysääntöjen avulla sen sijaan, että tietoja kysytään haastattelulomakkeella. Esimerkiksi työssäkäyntitilastossa muuttuja "henkilön pääasiallinen toiminta" päätellään ns. rekisteriestimointimenetelmällä. Siinä tarvitaan tietoja henkilön iästä, työsuhteista, työttömyydestä, opiskelusta, eläkkeen saamisesta jne. Päättelysääntöjen muodostamisessa on käytetty apuna aikaisempien väestölaskentojen tietoja ja rekisteritietoja samalta ajankohdalta. Päättelysääntöihin sisältyy myös eri aineistojen priorisointi siinä tapauksessa, että tiedot ovat ristiriitaisia.
Aineistoja yhdistelemällä voit laajentaa ilmiöalueen kuvausta tai vertailla eri lähteiden tietoja. Aineistojen yhdistäminen voi olla haastavaa erilaisten kohdeperusjoukkojen, tietojen keruun ajallisten erojen ja tilastorajojen vuoksi. Esimerkiksi yritysrekisterin vuositilastoon tulevat mukaan yritykset, jotka ovat toimineet yli puoli vuotta tilastovuoden aikana, ja jotka ovat työllistäneet enemmän kuin puoli henkilöä tai joiden liikevaihto on ylittänyt vuosittain määritellyn tilastorajan.
Työssäkäyntitilastossa taas henkilöiden työnantajayritys määräytyy vuoden viimeisen viikon tilanteen mukaan. Vuoden aikana aloittaneet ja lopettaneet yritykset eivät välttämättä näy molemmissa aineistoissa samalla tavalla. Muuttujien arvot ja sisällöt voivat myös olla erilaisia ja eri tavoin määriteltyjä eri lähteissä, kuten muuttuja päätoimiala.
Erityisen haasteellista voi olla rekisteri- ja kyselyaineistojen yhdistäminen. Näiden aineistojen yhdistäminen voi edellyttää analysoitavien aineistojen otanta-asetelmien huomioimista ja aineiston painottamista tilastollisin menetelmin.
Aineistoja tarkastellessa on hyvä pitää mielessä, että laajoissa tilastoaineistoissa on poikkeavuuksia ja virheitä, esimerkiksi:
Tilastojen tuotantoprosessissa vain osa virheistä pystytään korjaamaan. Toisaalta tietosisältö on mahdollisimman laaja, sillä perusaineistot tulevat usein lähes sellaisinaan tutkimuskäyttöön. Tutkijana sinun on myös mahdollista tehdä omat ratkaisusi esimerkiksi poikkeavien havaintojen käsittelyn suhteen. Aineiston alkuanalyysi kannattaa tehdä huolellisesti käyttäen jakaumataulukointia ja graafisia kuvioita. Aikasarjamuotoisissa aineistoissa vuosittain lasketut tunnusluvut kertovat paljon muutoksista.
Tilastoaineistot tarkistetaan havaintojen laadun, puutteiden (yksikkö- ja eräkadon) ja virheiden osalta joko automaattisilla massatarkistuksilla tai manuaalisesti. Huomiota kiinnitetään erityisesti systemaattisiin ja merkittäviin virheisiin. Esimerkiksi suuret yritykset käydään läpi tarkemmin kuin pienet.
Imputointi tarkoittaa puuttuvien tai virheellisten arvojen menetelmällistä täydentämistä korvikearvoilla, joiden tulee olla mahdollisimman oikeita. Imputoidut havainnot ja käytetyt menetelmät on mahdollisuuksien mukaan merkitty aineistoihin ja dokumentoitu. Joissakin tapauksissa korjaustoimet ovat monivaiheisia sisältäen erilaisia korjauskäytäntöjä ja imputointimenetelmiä (esim. tilinpäätösaineistot).
Imputoitujen muuttujien varianssi pienenee, mihin on syynä toisaalta aineiston koon kasvaminen ja toisaalta imputoitujen arvojen vähäisempi vaihtelu. Imputoituja muuttujia käytettäessä tulee kiinnittää huomiota tutkimusasetelmaan.
Esimerkiksi yritysrekisterissä henkilöstön lukumäärä on osittain estimoitu alle 20 henkilön yrityksille palkkojen perusteella. Tässä ryhmässä palkkojen selittäminen yrityksen koolla ei anna oikeaa kuvaa riippuvuussuhteista. Aineiston laadusta ja katokorjauksista, eli puuttuvien tietojen korjauksista, saat lisätietoa myös tilastokohtaisista laatuselosteista.