Siirry pääsisältöön
Tilasto-oppaat
Tilastokeskuksen etusivulle

Tehokas tilastotiedonhaku

2 Tiedonhaun perusasioita

2.1 Tiedonhaku on salapoliisityötä

Tiedonhaun perusongelmia ovat kielen epätäsmällisyys ja moniselitteisyys. Sopivien hakusanojen ja parhaiden lähteiden valitseminen saaduista tuloksista ei ole aivan yksinkertaista. Käytännössä tarvitaan usein useampi tiedonhakukierros, joiden aikana käsitys tarjolla olevasta tiedosta ja lähteistä sekä parhaiten aihetta kuvaavien hakusanojen käytöstä tarkentuu.

Hyvään tulokseen tiedonhaussa pääset, kun sinulle on muodostunut kuva siitä:

  • keitä ovat alan keskeiset toimijat
  • miten haluttu tieto olisi voinut syntyä
  • kenellä tietoa voisi olla 
  • missä tietoja julkaistaan.

Kun sinulla on näkemys tiedon olemassaolosta tai sen olemassaolon mahdollisuuksista, on tieto enää löytämistä vailla!

Tilastotiedon tarpeet ovat erilaisia. Yksinkertaisimmillaan haussa on kyse tietyn yksittäisen faktatiedon – luvun, taulukon tai tilaston – paikallistamisesta. Tämäkin voi olla haastavaa. Tilastotiedonhakuun sisältyy usein lähteisiin ja niiden metatietoihin tutustumista, vertailua ja oman tiedontarpeen tarkentumista.

Tarpeeseen vastaavia tilastoja yleensä joko on tai ei ole – luovien tulkintojen tekemisessä on hyvät mahdollisuudet mennä metsään. Sinun on aina syytä varmistaa, mistä löydetty tieto oikeastaan kertoo.

2.2 Näin aloitat tiedonhaun

Kun olet aloittamassa tilastotiedon hakua, mieti seuraavia kysymyksiä:

Vastaukset yleensä tarkentuvat haun edetessä. Kun olet selvittänyt, millaista tietoa tarvitset, voit alkaa miettiä, mistä tieto löytyisi. Siinä voivat auttaa nämä kysymykset:

  • Voisiko tietoa olla olemassa? Tiedon olemassaololle on oltava jokin syy. Se voi syntyä toiminnan sivutuotteena, lainsäädäntö voi velvoittaa keräämään sitä tai jonkin tehtävän hoitaminen saattaa edellyttää tietoa. Asiasta on myös voitu tehdä erillinen tutkimus. Mitä suurempi taloudellinen merkitys jollakin asialla on, sitä todennäköisemmin siitä yleensä löytyy tilastotietoa.
  • Kerääkö joku tietoa? Esimerkiksi organisaatioiden yhteenliittymät tai kattojärjestöt ovat usein kiinnostuneita jäsenistään

Virallinen tilasto on yleensä paras tilastotiedon lähde. Sillä tarkoitetaan Suomen virallisen tilaston kokoelmaa eli SVT-tilastoja. Jos etsimästäsi aiheesta ei ole virallisia tilastoja, voit pohtia muita luotettavia tahoja, kuten viranomaisia ja vakiintuneita järjestöjä. Näiden kartoittaminen voi vaatia välivaiheen ennen varsinaisen tiedon paikallistamista. Tuottajien kautta tiedonhaku rajautuu hallittavaksi. Jollei tarvitsemaasi tietoa löydy, on mietittävä, onko ongelma löytymisessä vai eikö tietoa todella ole olemassa. Vaikeinta on usein varmistua siitä, ettei jotain tietoa ole.

Järjestelmällistä lähestymistä, kuten tiettyjen hyväksi havaittujen lähteiden tarkistamista, on syytä täydentää verkon hakukoneita käyttämällä. Ainoaksi lähestymistavaksi hakukoneiden käyttö ei kuitenkaan yleensä sovellu. Hakukoneiden käytön pääasialliset heikkoudet ovat huono kattavuus ja hakusanojen valinnan vaikeudet. Voit saada tietoa vain hakukoneen tuloksista, et löytymättä jääneistä lähteistä. Toisaalta jos tiedät mitä etsit, hakukone tarjoaa usein paremman käyttöliittymän tiedon paikallistamiseksi kuin tilastojen tuottajat.

Kaikkeen tietoon on aina syytä suhtautua terveen kriittisesti ja pohtia tiedon tuottajan objektiivisuuteen mahdollisesti vaikuttavia tekijöitä.

Esimerkkejä tiedonhaun aloittamisesta

Esimerkkien avulla voit tutustua neljään erilaiseen tilanteeseen, jossa tietoa on tarkoitus lähteä etsimään. Saat käsityksen siitä, miten tiedonhaku kannattaa missäkin tilanteessa aloittaa.

Esimerkki. Mistä löydät tietoa vanhoista väestöennusteista?

Tilastokeskuksen Väestöennuste-tilaston kuvauksessa kerrotaan, että Tilastokeskus (aik. Tilastollinen päätoimisto) julkaisi ensimmäisen Suomen väestönkehitystä koskevan ennustelaskelman vuonna 1934.

Vanhimpien väestöennusteiden painojulkaisemisen voi tarkistaa Tilasto-opas 1982 -käsikirjasta, joka löytyy Otos-palvelusta. Tilasto-oppaan sivuilla 43–44 kerrotaan, että väestöennusteita on julkaistu mm. seuraavasti:

  • Tilastokeskus, Tilastollisia tiedonantoja 1949:38, 1964:4 1, 1969:45 I ja II, 1972:49, 1974:52, 1979:64
  • Tilastokeskus, Tilastotiedotus VÄ 1969:4, VÄ 1971:10, 1971:14, VÄ 1972:7, VÄ 1973:6, VÄ 1975 :12, VÄ 1978:7
  • Tilastokeskus, Tilastokatsaus (ennusteita koskevia artikkeleita), ks. Tilastokatsausten artikkelit 1924–1978

Tilastokeskuksen julkaisuarkistossa on saatavana sähköisessä muodossa Kunnittainen väestöennuste 1975–2010.

Väestöennusteiden tilastoinnin taustasta ja julkaisuista voit lukea tarkemmin Historiallisen tilastotiedon oppaasta.

Lisätietoja väestöennusteista

Esimerkki. Mistä löydät tilastotietoa ylipainosta eri maissa?

Kun tarvitset tilastotietoa ylipainosta ja lihavuudesta, etsi Suomea koskeva tieto kotimaisen terveyden asiantuntijaorganisaation tilastoista. Jos tarvitset vertailutietoa Suomesta ja muista maista, käytä tunnettujen kansainvälisten organisaatioiden tilastoja. Kansainvälisen tilastotiedon hakemisesta voit lukea tarkemmin Kansainvälisen tilastotiedon oppaasta.

  • Suomessa terveyteen liittyviä tilastoja tekee Terveyden ja hyvinvoinnin laitos. Keskeinen THL:n elintapoja raportoiva väestötutkimus on Suomalaisen aikuisväestön terveyskäyttäytyminen ja terveys -tutkimus.
  • Maailman terveysjärjestö eli WHO on ihmisten terveyteen keskittyvä YK:n järjestö. WHO:n tilastoja voit lähestyä teemoittain, joista yksi on lihavuus: Obesity (WHO)
  • OECD on myös luotettava ja tunnettu terveystilastojen julkaisija. Tilastoja on saatavana teemoittain, joista yksi on lihavuus: Obesity Update (OECD)

Esimerkki. Mikä on maksutonta perustietoa ja milloin tieto maksaa?

Suuri osa Suomen virallisesta tilastosta on saatavana maksutta tilastokeskus.fi-palvelusta. Jos perustieto ei riitä esim. toimiala-, ammatti- ja koulutusluokitustasojen ja alueluokitusten osalta, tarjoaa Tilastokeskus myös maksullisia tilasto- ja tilastointipalveluja.

  • Maksulliset erityisselvitykset tehdään asiakkaan tarpeiden mukaan yksittäisenä taulukkona, taulukkopakettina, tilastollisena selvityksenä, graafisina kuvioina tai teemakarttoina. Erityisselvityksissä käytetään Tilastokeskuksen eri tilastojen aineistoja, kuten esim. väestö-, työssäkäynti-, asuntokunta-, asunto-, ja rakennusaineistoja.
  • Tilastokeskuksen rekisteripalveluista (yritysrekisteri, oppilaitosrekisteri) voidaan poimia toimipistekohtaisia osoite- ja muita tietoja koko maasta tai alueittain rekisterikohtaisten luokittelumuuttujien mukaisesti määriteltynä.
  • Asiakaskohtainen suhdannepalvelu tuottaa tietoa liiketoiminnan suhdannekehityksestä asiakkaan tietotarpeen mukaan. Tiedot voidaan tuottaa eri toimialoista, maantieteellisistä alueista tai yritysryhmistä.
  • Tilastokeskuksen tutkijapalvelut tarjoaa yksikkötason aineistoja (eli mikroaineistoja) tieteellisiin tutkimuksiin ja tilastollisiin selvityksiin.

Lisätietoja maksuttomista ja maksullisista palveluista

Esimerkki. Miten saat tilasto- ja tutkimusaineistoja omaan käyttöösi?

Tilastokeskuksen tutkijapalvelut tarjoaa yksikkötason aineistoja eli mikroaineistoja tieteellisiin tutkimuksiin ja tilastollisiin selvityksiin.Yksikkötason aineistojen saamiseksi tutkimustarkoituksiin tarvitaan käyttölupa. On myös hyvä heti aluksi perehtyä siihen, kuinka aineiston hakuprosessi etenee.

Lisäksi Tilastokeskuksen haastattelu- ja tutkimuspalvelut räätälöi asiakkaille kysely- ja haastattelututkimuksia. Markkinatutkimuslaitokset, kuten Taloustutkimus Oy ja Kantar TNS Oy, tekevät markkinatutkimuksia asiakkaiden omiin tiedontarpeisiin.

Lisätietoa tutkimuspalveluista

2.3 Käsitteet ja määritelmät

Olennaisia asioita niin tiedonhaussa kuin tilastojen tulkinnassakin ovat tilastoissa käytetyt käsitteet ja määritelmät. Käsitteet saattavat vaikuttaa aivan tutuilta, suorastaan itsestään selviltä, mutta näin ei aina välttämättä ole.

Tilastokäsite voi poiketa siitä, mitä sen olettaisi tarkoittavan. Tilastojen tekemiseksi täytyy hyvin tarkasti määritellä, millä perustein johonkin asiaan voidaan viitata tietyllä termillä. Eikä kyse ole aina edes tilastoissa yleensä käytettävästä määritelmästä, vaan sama termi voidaan eri tilastoissa määritellä eri tavoin.

Alla olevissa kysymyksissä on esimerkkejä siitä, mitä tilastontekijä joutuu pohtimaan, jotta jokainen yksittäinen tapaus tulee tilastoitua samalla tavoin:

  • Montako tuntia viikossa pitää tehdä töitä ollakseen työllinen?
  • Minkä ikäinen työtön on nuorisotyötön?
  • Kuka on ulkomaalainen?
  • Kuuluuko alivuokralainen samaan asuntokuntaan vuokranantajansa kanssa?

Uusiakin käsitteitä tarvitaan maailman muuttuessa, ja vanhat käsitteet voivat saada uusia merkityksiä. Siksi ajan myötä tietty käsite tietyssä tilastossa voi muuttua.

Tiedonhaussa oikean käsitteen löytyminen auttaa sinua merkittävästi hyvän lopputuloksen saavuttamisessa. Esimerkiksi Suomen köyhyysrajaa et ahkerastikaan hakemalla löydä, mutta tulojen jakautumisesta löydät tietoa. Köyhyys ei ole Suomessa lainkaan käytetty tilastokäsite, vaan tietyn tulomääritelmän alle jäävät ihmiset ovat pienituloisia.

Tilastotiedonhaussa ollaan tekemisissä numeroiden kanssa ja usein halutaan tietää, onko jokin luku suuri vai pieni tai miten se vertautuu vaikkapa aiempiin vuosiin tai toisten maiden vastaaviin tietoihin. Tällöin sinun tiedon hakijana on tärkeä tietää käsitteen merkitys hyvin täsmällisesti, jotta voit varmistua siitä, että numerot kuvaavat samaa asiaa.

 

2.4 Alkuperäisten lähteiden merkitys

Kaikessa tiedonhaussa on syytä pyrkiä löytämään alkuperäinen lähde. Toisen ja useamman käden lähteitä käytettäessä on todennäköistä, että alkuperäistä tietoa on hävinnyt tai tieto on muuttunut matkalla.

Ensi käden tilastolähteet ovat alkuperäistä tietoa ja ne voivat olla esimerkiksi taulukoita, tiedotteita, julkaisuja tai tietokantoja. Ennakollisten tai myöhemmin tarkentuvien tietojen osalta eri aikoina julkaistujen lähteiden välillä voi kuitenkin olla ristiriita. Samasta asiasta voi tällöin olla useita eri-ikäisiä, mutta yhtä alkuperäisiä tietoja.

Toisen käden lähteet voivat olla esimerkiksi alkuperäisiin lähteisiin perustuvia lehtiartikkeleita. Lähteiden ketjun kasvaessa seuraava viittaa edelliseen luottaen, että alkuperäinen tieto on säilynyt muuttumattomana. Julkaisija on kuitenkin saattanut tehdä alkuperäisistä tiedoista omia tulkintojaan ilman, että se käy selvästi ilmi, tai tietojen kopioinnissa on saattanut tapahtua mekaaninen virhe. Usein lähteiden ketjun pidentyessä tiedon määrä muuttuu suppeammaksi. Tämän vuoksi kannattaa aina säilyttää tieto alkuperäisestä lähteestä, vaikka käyttäisikin toisen käden tietoja. Tällöin alkuperäinen tieto voidaan tarvittaessa varmistaa ja tiedon luotettavuutta on helpompi arvioida (ks.esimerkki Vähittäiskaupan tilastot).

Joskus on kuitenkin perusteltua käyttää muuta kuin alkuperäistä lähdettä. Tiedon jalostajat voivat tehdä alkuperäisestä tiedosta helpommin tulkittavaa tai ymmärrettävää. Esimerkiksi silloin, kun tarvitaan kansainvälistä vertailutietoa, tieto voi olla ylikansallisen järjestön tai viranomaisen julkaisemana paremmin vertailtavaa kuin kahden kansallisen, alkuperäisen tiedontuottajan julkaisemana (ks. esimerkki. Kansainväliset vertailutiedot).

Esimerkkejä lähteiden käytöstä

Ensimmäinen esimerkki on toisen käden lähteistä ja toinen esimerkki siitä, että joskus on kuitenkin perusteltua käyttää muuta kuin alkuperäistä lähdettä.

Esimerkki. Vähittäiskaupan tilastot

Toimialajärjestöt hyödyntävät usein virallisia rakenne- ja suhdannetilastoja tehdessään oman toimialan tilastokatsauksia. Järjestöjä ja niiden jäsenyrityksiä kiinnostaa erityisesti oman toimialan tulevat talousnäkymät, joita esim. Tilastokeskus ei tee. Järjestöjen omat ekonomistit tekevät katsauksia ja ennusteita, joissa yhdistetään omien jäsenkyselyiden aineistot esim. valtion tilastotoimen ja markkinatutkimuslaitosten tilastoihin.

Lisätietoja kauppatilastoista

Esimerkki. Kansainväliset vertailutiedot

Tehtävänä on ottaa selville, kuinka monta prosenttia Pohjoismaiden asukkaista ei ole koskaan käyttänyt internetiä. Suomessa Tilastokeskus tekee tilastoa internetin käytöstä. Samankaltaista tilastoa tekee myös Ruotsin tilastokeskus, Statistiska Centralbyrån (SCB). Muistakin Pohjoismaista löytyisi omat tilastonsa.

Nopeampaa ja varmempaa on kuitenkin katsoa Euroopan tilastoviranomaisen, Eurostatin tietoyhteiskuntatilastoista (Digital economy and society) luvut, jotka ovat varmasti vertailukelpoisia keskenään. Tarvittava tilasto löytyy Eurostatin tietokannasta valitsemalla puurakenteesta Science, technology, digital society > Digital economy and society > ICT usage in households and by individuals >

Lisätietoja kansainvälisistä vertailutiedoista

2.5 Näkökulman merkitys

Samasta asiasta tai ilmiöstä voidaan tehdä tilastoja erilaisista näkökulmista (ks. esimerkki. Kalansyöntiä voidaan tarkastella monesta eri näkökulmasta).

Jos kiinnostuksen kohteena ovat esimerkiksi tietyn alan työntekijät, voi asiaa lähestyä joko yritystilastojen tai väestötilastojen näkökulmasta: Yritystilaston näkökulmasta kiinnostavaa on esimerkiksi, kuinka paljon alalla on työntekijöitä, minkä kokoisissa yrityksissä he ovat töissä ja millä alueella yritykset sijaitsevat. Väestötilaston näkökulmasta taas kiinnostavia asioita ovat esimerkiksi työntekijöiden ikä, sukupuoli ja koulutus.

Eri tilastot vastaavat erilaisiin kysymyksiin ja niiden tiedot saatetaan kerätä eri tavalla. Usein eri tilastojen tiedot eivät tästä syystä ole verrattavissa tai yhdisteltävissä, vaikka ne näyttäisivätkin kuvaavan samaa asiaa. Tällöin on valittava parhaiten omaa tiedontarvetta vastaava lähde.

Esimerkki. Kalansyöntiä voidaan tarkastella monesta eri näkökulmasta

Kauppiasta, kalastajaa ja muuta kala-alan yrittäjää saattaisi kiinnostaa tieto siitä, kuinka paljon mitäkin kalaa suomalainen syö. Tämä tieto löytyy Luonnonvarakeskus (Luke) Kalan kulutus -tilastosta. Tilaston mukaan suomalainen söi vuonna 2019 eniten ulkomailta tuotua kasvatettua lohta (3,5 kg/hlö vuodessa). Kotimaisista kaloista eniten syötiin kasvatettua kirjolohta ja silakkaa.

Myös terveystutkijoita kiinnostaa kalan kulutus, mutta näkökulma on toinen. Terveyden ja hyvinvoinnin laitoksen (THL) FinRavinto 2017 -tutkimuksessa on tutkittu elintarvikkeiden kulutusta terveysnäkökulmasta. Tutkimuksessa on selvitetty esimerkiksi, paljonko päivittäisestäd-vitamiinin saannista saadaan kalaruoista.

Syödyn kalamäärän lisäksi tieto siitä, kuinka paljon kotitaloudet käyttävät rahaa kalatuotteisiin, voi olla kala-alan toimijalle tärkeä. Tieto löytyy Tilastokeskuksen Kansantalouden tilinpidon Kotitalouksien kulutusmenot StatFin-taulukosta.

2.6 Erilaisia tulkintoja

Väite tilaston harhaanjohtavuudesta johtuu usein tilaston pohjalta tehdyistä virheellisistä tulkinnoista. Useimmiten kyse on joko tilastografiikan antamasta väärästä kuvasta tai käsitteen virheellisestä tai puutteellisesta tulkinnasta.

Tilastojen parissa on syytä pitää mielessä, että ne mittaavat tai kuvaavat jotakin ilmiötä ennalta sovittujen ja varsin tiukasti määriteltyjen käsitteiden, määritysten ja rajausten pohjalta. Etenkin jos vertaat omaan arkikokemukseesi, voi sinulle helposti syntyä tunne tilastolukujen mahdottomuudesta tai paikkansapitämättömyydestä (ks. esimerkki. Erilaisia tulkintoja ruuan hinnasta).

Tilastot eivät kuitenkaan ole totuus – joskus arkikokemus saattaa hyvinkin antaa paremman kuvan jostakin asiasta. Jukka Hoffrénin blogikirjoitus Tieto&trendit -verkkojulkaisussa käsittelee juuri tätä tematiikkaa. Ehdottoman totuuden sijaan on hyväksyttävä epävarmuus. Tilastotieto nimittäin useimmiten kuvaa asioita yleisellä tasolla, eikä siitä ole mahdollista tehdä yksilötason päätelmiä. Kaikki sukusi vanhukset saattavat elää satavuotiaiksi, vaikka koko väestöä koskeva elinajanodote näyttäisikin kertovan muuta, ks. Elinajanodote (StatFin).

Etenkin silloin, kun vertailet eri asioita tai eri lähteitä keskenään, on tärkeä pitää mielessä, mistä milloinkin puhutaan. Erityisen varovainen sinun on syytä olla silloin, kun mietit asioiden syy-seuraussuhteita. Usein asiat ovat monimutkaisempia kuin minä ne esitetään.

Esimerkki. Erilaisia tulkintoja ruuan hinnasta

Onko ruoan hinta laskenut vai noussut? Vaikka Tilastokeskuksen kuluttajahintaindeksi kertoo, että ruoan hinta on laskenut, miksi minusta tuntuu, että kaikki on kalliimpaa?

Ruoan hinnasta jokaisella ruokakaupassa käyvällä on oma tuntuma. Ruokalaskun hintaan vaikuttavat muun muassa oma ikä, sukupuoli, elämänvaihe, talous- ja työllisyystilanne, ostospaikka sekä ostoskäyttäytymisen muutokset.

Oletetaan, että olet kasvissyöjä. Ruokakoriisi kuuluu silloin paljon hedelmiä ja vihanneksia, joiden hinnat ovat voineet nousta, kun taas lihan hinta on voinut samaan aikaan laskea. Tilastokeskuksen kuluttajahintaindeksi kuvaa kuitenkin tavaroiden ja palveluiden hintakehitystä kaikkien kuluttajien kannalta. Aiheesta voit lukea lisää Tilastokeskuksen eläköityneen hinta-asiantuntijan Ilkka Lehtisen Tieto&trendit-artikkeleista.

Lisätietoja ruuan hintatilastoista


Kertaa käsitteitä

  • Finna on Suomen museoiden, kirjastojen ja arkistojen aineistojen hakupalvelu.
  • Metatiedolla tarkoitetaan tietoja aineiston hankintamenetelmistä, käytetyistä luokituksista, laadusta ym.
  • SVT on Suomen virallisen tilaston lyhenne. Se on yhteiskunnan kehitystä ja tilaa kuvaavien tilastojen kattava kokoelma.
  • Tilastokeskus-Finna on Tilastokirjaston aineistojen hakupalvelu.