Siirry pääsisältöön
Tilasto-oppaat
Tilastokeskuksen etusivulle

Tehokas tilastotiedonhaku

1 Tilastoista tiiviisti

1.1 Tilastolla on erityispiirteensä

Tilastot ovat oma tiedon lajinsa. Niiden käyttäminen vaatii tilastojen ominaisuuksien ymmärtämistä. Todellisuutta ei voi muuttaa numeroiksi tekemättä kompromisseja. Tästä huolimatta tilastotieto on usein paras saatavilla oleva tieto jostain ilmiöstä.

Kun käytät tilastoa, ei riitä, että katsot vain tilaston lukuja, vaan lukujen lisäksi sinun pitää tietää myös taustatietoa tilastosta. Todellisuuden ja tilastotiedon välissä on periaatteita, joista tärkeimpiin syvennymme oppaan edetessä. Tärkeää on tuntea esimerkiksi tilastossa käytetyt käsitteet. Kokonaisuuden ymmärtämisen merkitys korostuu, kun vertailet tilastotietoja eri paikkojen ja aikojen välillä. Tilastojen käyttö vaatii siis numeroiden lisäksi myös taustatietoa ja ajattelua.

Tilaston käyttäjänä sinun on myös tarpeellista ymmärtää miten aika, jota tilasto kuvaa, ja tilaston julkaisemisaika liittyvät toisiinsa. Tässä osiossa tutustut myös tilastotiedon eri julkaisemismuotoihin ja tietojen alueelliseen saatavuuteen.

1.2 Metatieto kertoo, mistä tilastossa on kyse

Vertailu on tilastojen perustehtävä. Jotta voisit vertailla tilastotietoja keskenään, tarvitset tietoa tiedosta itsestään. Tätä tietoa tiedosta kutsutaan metatiedoksi tai metadataksi. Metatietoa on oikeastaan kaikki tilaston varsinaisen sisällön ulkopuolinen, tilastoon liittyvä tieto. Esimerkiksi se, mistä tilaston tiedot ovat peräisin ja minkälaisin menetelmin tietoa on jalostettu, on metatietoa.

Tärkeimpiä metatietoja ovat tilastossa käytetyt käsitteet ja luokitukset. Käsitteiden ja luokitusten yhtenäisyys on edellytys sille, että voit vertailla tilastotietoja. Käsitteisiin ja määritelmiin pureudutaan kohdissa 2.3 Käsitteet ja määritelmät ja 3 Luokitukset.

Tilaston kuvauksessa kerrotaan yleensä siitä, mistä lähteistä ja miltä ajalta tiedot ovat, miltä alueilta tietoja on saatavilla, ja mihin tilastoa voidaan käyttää. Lisänä voi olla esimerkiksi laatu- tai menetelmäselosteiden muodossa tietoa muun muassa siitä, minkälaisia puutteita tai rajoituksia tilastossa kenties on. Luotettavista tilastoista on useimmiten saatavissa jonkinlainen kuvaus ja laatu- tai menetelmäseloste.

Yksinkertaisimmillaan metatieto kertoo

  • mitä jollain tietyllä käsitteellä tietyssä tilastossa tarkoitetaan
  • minkälaista luokitusta tiedon ryhmittelemiseen on käytetty.

Toisaalta metatieto voi kertoa myös

  • minkälaista ja kuinka tarkkaa tietoa tilaston lähdeaineisto sisältää
  • minkälaisia menetelmiä aineiston käsittelyssä on käytetty
  • mihin aineistossa on syytä kiinnittää erityistä huomiota.
  • mitkä ovat aineiston käytön rajoitukset – mitä aineisto ei kerro.

Metatiedon olemassaolo on hyvän tilaston ehdoton edellytys, sillä metatiedon perusteella voit arvioida tilaston luotettavuutta. Oleellinen kysymys tilaston luotettavuutta arvioitaessa on "Mistä tämä tieto on peräisin ja mistä siinä on kyse?" Mitä enemmän tiedät tietystä tilastosta, sen parempia johtopäätöksiä voit sen avulla tehdä.

1.3 Ajalla on tilastoissa väliä

Ajalla on tilastoissa merkitystä. Tilasto kertoo aina menneestä ajasta, ja olennaista on tietää, mistä ajasta. Tätä aikaa tai aikaväliä, jota tilaston tieto kuvaa, nimitetään viiteajankohdaksi. Viiteajankohta voi olla vaikkapa vuoden alun ja lopun välinen aika tai yhden tietyn päivän tilanne. Esimerkiksi Suomen väkiluku tiettynä vuonna ilmoitetaan vuoden viimeisen päivän tilanteen mukaan.

Tilaston julkaisuajankohdalla tarkoitetaan aikaa, jolloin tilasto on julkaistu. Tilaston julkaisuajankohta on ennusteita lukuun ottamatta aina myöhäisempi kuin viiteajankohta, sillä tiedot tietyn ajan ilmiöstä voidaan julkaista vasta, kun tiedot on kerätty ja käsitelty.

Joistakin tilastoista julkaistaan ennakollisia tietoja. Tällöin tiedot eivät ole julkaisuhetkellä vielä aivan varmoja, ja tietoja tarkennetaan julkaisemalla myöhemmin tarkentuneita tietoja. Samasta viiteajankohdasta saatetaan julkaista ennakkotietoja monta kertaa, kunnes tiedot lopulta varmistuvat ja ne julkaistaan lopullisina tietoina. Yleensä tiedot muuttuvat tarkentuessaan. Tiedon ennakollisuus tulee olla erikseen merkitty, ja se on huomioitava etenkin silloin, kun yhdistelee tai vertailee lopullisia tietoja ja ennakkotietoja. (Katso esimerkkejä tilastojen ennakkotiedoista alempana.)

Samasta ilmiöstä voidaan julkaista tietoja eri laajuudessa eri aikoina. Tyypillistä on, että jostakin ilmiöstä julkaistaan kuukausittain suppeita tietoja ja kerran vuodessa monipuolisempaa ja yksityiskohtaisempaa tietoa. Nyrkkisääntönä voidaan pitää, että mitä tarkempaa tietoa tilastosta on saatavissa, sitä enemmän aikaa on kulunut viiteajankohdasta julkaisuhetkeen, sillä tarkkojen tietojen kerääminen ja tarkistaminen vie paljon aikaa.

Tuoreimmat tilastotiedot löydät yleensä päivittyvän tietokantataulukon muodossa. Osana julkistusta tai tiedotetta julkaistussa taulukossa ja etenkin painetussa julkaisussa oleva luku menneeltä ajalta voi olla erilainen kuin tietokannassa oleva. Tämä johtuu siitä, että tietokannassa olevia lukuja on saatettu tarkistaa ja korjata sen jälkeen, kun julkaisu on tehty. "Oikea" luku saattaa tällöin riippua käyttötarkoituksesta.

Lue myös: Miksi tilastot valmistuvat niin hitaasti? – tilastotuotanto on tasapainoilua tarkkuuden ja ajantasaisuuden välillä (Tieto&trendit 24.8.2020)

Esimerkki. Tilastojen ennakkotiedot

Tilastokeskus julkaisee väestön ennakkotilastoa mm. väestönmuutoksista ja väestörakenteesta. Väestönmuutoksista on saatavissa tietoja kuten Suomessa elävänä syntyneet, kuolleet, kuntien sisäiset ja kuntien väliset muutot, siirtolaisuus, solmitut avioliitot, myönnetyt avioerot ja Suomen kansalaisuuden saaneet. Ennakkotilasto tuotetaan kuukausittain. Lopulliset väestönmuutostilastot julkaistaan yleensä seuraavan vuoden huhti–toukokuussa.

Kansantalouden tilinpito on kansainvälisiin sopimuksiin perustuva laaja tilastojärjestelmä, jolla voidaan kuvata kansantalouden toimintaa. Kansantalouden tilinpidon keskeisenä tuloksena saadaan laskettua bruttokansantuote (BKT). Tietoja julkaistaan kuukausi-, neljännes- ja vuositasolla. Ensimmäiset ennakkotiedot edellisestä vuodesta julkaistaan maaliskuussa.

Laajan tietosisällön mukaiset ennakkotiedot julkaistaan t+1 kesäkuun puolivälissä ja tietoja tarkennetaan seuraavan vuoden t+2 maaliskuun puolivälissä. Lopullinen versio julkaistaan t+3 maaliskuussa. Lue lisätietoja: Kansantalouden tilinpidon julkaisuaikataulut uudistuivat – hyödyt esiin koronakriisin seurannassa (Tieto&trendit 9.6.2020).

Osakeasuntojen hinnat -tilasto kuvaa vanhojen osakehuoneistojen hintakehitystä. Se laaditaan verohallinnon varainsiirtoveroaineistosta. Tilastosta julkaistaan erikseen kuukausi-, neljännesvuosi- ja vuositilasto. Kuukausitilaston ennakkotiedoissa on mukana noin 2/5 kaikista kaupoista ja neljännesvuositilastossa noin 2/3 kaikista osakeasuntokaupoista, peittävyys kuitenkin vaihtelee alueittain. Vuositilaston peittävyys on vanhojen osakehuoneistokauppojen osalta lähes täydellinen.

Tulli julkaisee ulkomaankauppatilaston ennakkotiedot aina 39 päivän kuluessa tilastokuukauden päättymisen jälkeen. Yksityiskohtaiset tarkennetut kuukausitilastot julkaistaan kunkin kuukauden ulkomaankaupasta noin 8 viikkoa tilastokuukauden jälkeen. Kunkin vuoden lopulliset tilastot julkaistaan aina seuraavan vuoden elokuun lopussa.

Sivun lopusta löydät lisätietoja merkintätavoista ja viitteistä. Esimerkiksi tilastotaulukoissa käytetään *-merkkiä lukuun liitettynä kertomassa, että kyseessä on tilaston ennakkotieto.

1.4 Tilastotiedon esittämisen tavat

Tilastotietoa esitetään useimmiten kuvioina, taulukoina, tietokannoissa tai teksteinä.

Kuvio ovat hyvä tapa saada nopea käsitys tilastotiedon kuvaamasta ilmiöstä, sen rakenteesta tai kehityksestä. Kuviomuotoinen tieto on myös helppo muistaa.

Taulukko on vakiintunut ja hyvin tehtynä selkeä tapa esittää rajallinen määrä tietoa. Taulukoita ei yleensä voi itse muokata, vaan tieto on tarjolla tiedontuottajan valitsemasta näkökulmasta. Esimerkiksi suomalaisten rakennusten määrät on taulukoitu. Huomaa, että taulukossa on ilmoitettu rakennusten määrät tuhansina.

Tietokanta (tai tietokantataulukko) on monipuolisin tapa esittää tilastotietoa. Tietokantamuodossa on mahdollista esittää suuria tietomääriä ja tietoa voi taulukoida vapaammin kuin kuvioissa tai valmiissa taulukoissa. Tietokannat mahdollistavat perusteellisemman tutustumisen aineistoon ja räätälöityjen taulukoiden tekemisen. Tietokannoista tiedot saa yleensä ladattua ulkopuoliseen ohjelmaan tai tehtyä kuvioksi. Esimerkiksi Tilastokeskus julkaisee postinumeroittain järjestettyä tietoa Paavo-tietokannassa, josta voi poimia itseä kiinnostavia tietoja postinumerotasolla. Löydät Paavon käyttöön opastavan videon sivun lopusta.

Teksti mahdollistaa ilmiöiden taustoittamisen ja kiinnostavien kohtien nostamisen esille. Teksti tarjoaa valmiin tulkinnan tilastotiedosta, mutta tulkinta ei ole ainoa, jonka tilastosta voi tehdä, vaan se tarjoaa yhden näkökulman aiheeseen. Esimerkiksi Maahanmuuttajat ja kotoutuminen -sivustolla esitellään tilastotietoja tekstimuodossa. Tekstiä on elävöitetty tilastokuvioin.

Kaikkeen julkaistavaan tilastotietoon kuuluvat olennaisena osana metatiedot kuten esimerkiksi käytettyjen käsitteiden määritelmät. Tämä perusperiaate on käytössä useilla laadukkaan tilastotiedon tuottajilla niin Suomessa kuin muuallakin.

Esimerkiksi Tilastokeskuksen tilastojulkistus on kokonaisuus, jonka muodostavat

  • julkistuksen teksti
  • mahdolliset liitetaulukot ja -kuviot
  • tietokantataulukot
  • laatuseloste.

Näiden avulla voidaan antaa yleisnäkymä ja tärkeimmät tunnusluvut sekä kenties nostaa esiin tietoja, jotka eivät syystä tai toisesta sovellu tietokantamuotoon. Samalla tarjotaan mahdollisuus tarkempaan aineistoon syventymiseen. Katso esimerkiksi väestöennusteen julkistus Syntyvyyden lasku heijastuu alueiden tulevaan väestökehitykseen (30.9.2019).

Hakukoneita käyttämällä tulokseksi saa tyypillisesti teksti- ja taulukkomuotoista tietoa sekä kuvioita. Tietokantamuotoisen tiedon löytäminen sen sijaan vaatii yleensä enemmän selailua ja lähdesivustoon tutustumista. Yleisimpien lähteiden ja tiedon julkaisijoiden tuntemus on sinulle suureksi avuksi hakutuloksia selatessasi.

1.5 Alueelliset tiedot

Tilastotieto koskee yleensä jotakin tarkkaan rajattua aluetta. Tällainen alue voi olla hallinnollinen alue, kuten kunta tai valtio, tai maantieteellinen alue, kuten maanosa.

Suomea koskevassa tilastotiedossa alueen perusyksikkö on usein kunta. Suomen tilastoissa käytössä olevia alueluokituksia löytyy Tilastokeskuksen luokitussivuilta Alue-ryhmästä. Tutustu luokituksiin seuraavassa osiossa 3 Luokitukset.

Tapa, jolla tilastotieto on kerätty, asettaa rajoituksia alueellisen tiedon saatavuudelle. Tyypillisesti esimerkiksi haastattelututkimuksissa vastaajien määrä riittää antamaan luotettavan kuvan suurista linjoista, kuten mielipiteestä tai jonkin ilmiön kehityksestä suurella alueella, vaikkapa koko maassa. Yksityiskohtaisempaa tietoa ei haastattelututkimuksista useinkaan ole saatavilla, sillä niissä joudutaan usein turvautumaan otoksiin. Otoksissa pienten ryhmien, esimerkiksi yksittäisten kuntien, edustajia on niin vähän, ettei niistä voida tehdä luotettavia johtopäätöksiä.

Tilastokeskus julkaisee yleensä tietonsa verkossa maksutta kuntatasolle saakka, jos aineisto sen mahdollistaa. Jos kuntaa pienemmistä alueista on tietoa saatavilla, se löytyy yleensä maksullisista tietokannoista tai sen saa erikseen tilaamalla. Postinumeroalueittaista perustietoa on kuitenkin julkaistu maksuttomassa Paavo-tietokannassa.

Alueellisesta tiedosta voidaan nyrkkisääntönä sanoa, että mitä laajemmalle alueelle mennään, sitä vähemmän on tarjolla yksityiskohtaista tietoa. Esimerkiksi Euroopan tasolla luokitukset ovat väistämättä karkeampia kuin yksittäisen maan kohdalla.

Tilastoista ei saa yksittäistä yritystä tai henkilöä koskevaa tietoa, koska tietosuoja rajoittaa tietojen julkaisemista. Sama koskee myös pieniä alueita tai alueita, joilla on niin vähän havaintoja, että esimerkiksi yksittäisen henkilön voisi tunnistaa joukosta.


Kertaa käsitteitä

  • Ennakollinen tieto tarkoittaa, että tiedot eivät ole julkaisuhetkellä vielä aivan varmoja, ja tietoja tarkennetaan myöhemmin.
  • Julkaisuajankohdalla tarkoitetaan aikaa, jolloin tilasto on julkaistu.
  • Metatiedolla tarkoitetaan tietoja aineiston hankintamentelmistä, käytetyistä luokituksista, laadusta ym.
  • Tilasto kattaa ilmiöstä kerättyjen havaintojen kokoelman, jonka sisältämää tietoa esitetään taulukoina ja kuvioina. Tohtori Paavo Tikkanen kehitti jo vuonna 1848 suomen kieleen sanan "tilasto", jolla hän viittasi kansakunnan tilan kuvaamiseen.
  • Viiteajankohta tarkoittaa aikaa tai aikaväliä, jota tilaston tieto kuvaa.

Merkintätavat ja viitteet

Alaviitteissä kerrotaan yksittäiseen soluun, riviin tai sarakkeeseen mahdollisesti liittyviä erityistietoja. Alaviitteessä on maininta esimerkiksi siitä, jos tieto on eri vuodelta kuin otsikko ilmoittaa, jos tieto eroaa käsitteellisesti otsikon ilmoittamasta tai on laadultaan poikkeava muista tiedoista (esimerkiksi saatu eri lähteestä).

Jos esitetyssä aikasarjassa on vertailua haittaava katkos, se pitää merkitä selvästi joko soluun tai alaviitteellä.

Taulukko. Merkintätapoja taulukossa
- ei yhtään
0 alle 0,5
. tieto ei loogisesti mahdollinen
.. tietoa ei ole saatu, se on liian epävarma esitettäväksi,
tai sitä ei tietosuojasyistä saa esittää
* lukuun liitettynä kertoo, että kyseessä on ennakkotieto

Taulukon alla tulee tarvittaessa kertoa myös taulukon lähde. Lähdeviite on erityisesti tarpeen silloin, kun käytetään useammasta lähteestä poimittuja taulukoita.