Tehokas tilastotiedonhaku
Luokitukset ovat kaikkien tilastojen perusta. Ilman yksittäisiä havaintoja järjestäviä luokituksia havainnot, kuten luvut, ovat vain joukko epämääräistä tietoa.
Luokitukset auttavat aineistojen yhdistämisessä ja summaamisessa eli aggregoinnissa, rajaamisessa ja aikasarjojen vertailuissa. Kansainväliset luokitukset auttavat ilmiöiden kansainvälisessä tutkimuksessa ja eri maiden tietojen vertailuissa.
Onnistunut tilastotiedonhaku edellyttää, että tunnet käytössä olevat luokitukset. Saatat yllättyä iloisesti siitä, miten tarkasti luokitukset soveltuvat tiedontarpeeseesi, tai pettyä, jos et niiden avulla saakaan tarvitsemaasi tietoa.
Tutustumalla ennen tiedonhakua käytössä oleviin luokituksiin, muodostat realistisen käsityksen siitä:
Tilastoluokitus järjestää joukon yksittäisiä havaintoja niiden samanlaisuuden tai erilaisuuden mukaan järkeviin luokkiin. Näin tutkimustuloksista syntyy ymmärrettävää ja hyödyllistä, todellisuutta kuvaavaa tietoa. Tilastoluokitus muodostuu luokista. Luokalla on koodi (eli tunniste) ja nimi. Kukin aineistossa oleva havainto kuuluu vain yhteen luokituksen luokkaan (ks. esimerkki. Tilastoluokitus väestötilastossa).
Tilastossa käytettyjen luokitusten on oltava relevantteja keskeisten käyttäjien ja käyttötarkoitusten näkökulmasta. Ilman tiedon täsmällistä ja systemaattista järjestämistä tilastot eivät ole luotettavia ja vertailukelpoisia.
Useat suomalaiset tilastoluokitukset joko vastaavat täysin kansainvälisesti tunnustettuja virallisia standardeja tai ovat niiden pohjalta rakennettuja. Kansainvälisiä luokituksia ylläpitävät muun muassa Yhdistyneet kansakunnat YK (United Nations Statistics Division UNSD) ja Euroopan unioni (Eurostat).
Suomessa Tilastokeskus laatii ja julkaisee useita tilastoluokituksia. Tilastokeskuksen julkaisemat luokitukset on tarkoitettu käytettäviksi erityisesti tilastoissa, mutta niitä voidaan käyttää myös muissa yhteyksissä.
Suomen väestön luokittelussa käytetään useita väestötieteen muuttujia, kuten sukupuolta, ikää, kieltä, kansalaisuutta, syntymävaltiota ja siviilisäätyä. Väestöä luokitellaan myös esimerkiksi koulutuksen, kotikunnan ja uskontokunnan mukaan. Suomen väestöön kuuluvalla henkilöllä voi viiteajankohtana olla vain yksi sukupuoli, yksi äidinkieli, yksi ikä ja yksi kansalaisuus. Kun tehdään erilaisia muuttujien ristiintaulukointeja, kuten väestö iän, sukupuolen ja kansalaisuuden mukaan kunnittain, summatiedot täsmäävät aina.
Alla on Suomen väestö taulukoitu kahden muuttujan, sukupuolen ja kielen, mukaan. Kun summataan sukupuolet, miehet + naiset, saadaan sama luku, kun summataan kielet, suomi + ruotsi + saame + muut kielet.
sukupuolet | väestö | suomi | ruotsi | saame | muut kielet |
---|---|---|---|---|---|
miehet | 2 728 262 | 2 368 881 | 145 100 | 1 019 | 213 262 |
naiset | 2 797 030 | 2 453 809 | 142 854 | 985 | 199 382 |
yhteensä | 5 525 292 | 4 822 690 | 287 954 | 2 004 | 412 644 |
Lähde: Väestörakenne, 11rl. Kieli iän ja sukupuolen mukaan maakunnittain, 1990– (StatFin)
Yksinkertaisimmillaan tilastoluokitus koostuu nimetyistä luokista ja niiden tunnuksista eli koodeista. Tästä esimerkkinä sukupuoliluokitus:
1 Miehet
2 Naiset
Lähde: Tilastokeskus, Tietoa tilastoista, Luokitukset, Sukupuoli
Usein tilastoluokitus on kuitenkin laajempi ja koostuu
Luokitus voi olla hierarkkinen siten, että ylin luokittelutaso kuvaa tilaston kohteena olevan ilmiön rakennetta, jota tarkennetaan siirryttäessä alemmille luokitustasoille.
Luokituksen luokkien tulee olla:
Luokitus voi rakentua joko yksi- tai monitasoisesti. Monitasoisia luokituksia kutsutaan hierarkkisiksi luokituksiksi. Seuraavassa osiossa voit tutustua lähemmin neljän esimerkin avulla luokitusten erilaiseen rakentumiseen.
Yksitasoisessa luokituksessa on vain yksi hierarkiataso. Silloin kaikki luokituksen luokat ovat samalla tasolla eikä luokituksessa ole summaavia tasoja, joilla koottaisiin luokkia yhteen suuremmiksi kokonaisuuksiksi.
Kunta on useimpien tilastojen perusalueyksikkö. Tilastoinnin lisäksi kuntaluokitus soveltuu käytettäväksi myös muissa tietojärjestelmissä. Jokaisella kunnalla on numerotunnus eli kuntanumero. Kuntien numerotunnukset antaa Digi- ja väestötietovirasto. Kuntaluokitus on yksitasoinen luokitus, jossa Suomen kunnat ovat aakkosjärjestyksessä ja kuntien nimiin on yhdistetty kuntanumero.
Suomen kunnat aakkosjärjestyksessä 2025:
Lähde: Tilastokeskus, Luokitukset, Kunnat 2025
Ammattiluokitus on monitasoinen eli hierarkkinen luokitus. Se on esimerkki laajemmasta luokituksesta, joka sisältää luokkien nimien ja koodien lisäksi myös luokkien sanallisia kuvauksia.
Ammattiluokituksen avulla laaditaan tilastoja väestön ammattirakenteesta ja palkoista. Ammattiluokitusta käytetään myös ammatinvalinnan ohjauksessa ja työnvälityksessä sekä työelämän tutkimuksessa, koulutussuunnitelmissa ja terveystutkimuksissa.
Ammattiluokituksessa on 11 pääryhmätasoa, jotka tarkentuvat hierarkkisesti 5-numerotasolle asti.
Esimerkki hierarkiasta, Terveydenhoitajat ammattiluokituksessa:
Lähde: Tilastokeskus, Luokitukset, Ammattiluokitus 2010
Toimialaluokitus TOL on monitasoinen luokitus kuten edellisen esimerkin ammattiluokituskin. Toimialaluokitusta käytetään esimerkiksi yritysten ryhmittelemiseen. Yritysten Verohallinnolle ilmoittama päätoimiala perustuu Tilastokeskuksen toimialaluokitukseen. Toimialaluokitusta hyödynnetään yritystilastojen lisäksi työllisyystilastoissa ja kansantalouden tilinpidon tilastoinnissa.
Toimialaluokitus muodostuu viidestä hierarkkisesta tasosta. Päätasoa merkitään kirjaimilla A–X. Alemmat tasot merkitään numerokoodeilla.
Toimialaluokitus TOL 2008 noudattaa EU:n virallista toimialaluokitusta NACE 1–4-numerotasoilla. 5-numerotaso on määritelty kansallisesti Suomen omien käyttötarpeiden perusteella.
Esimerkki hierarkiasta, Toimialaluokitus, pääluokka J: Kustannustoiminta, sisällöntuotanto ja -levitys:
Lähde: Tilastokeskus, Luokitukset, Toimialaluokitus 2025
Aina kaikkia mahdollisia luokiteltavia ilmiöitä ei saada kuvattua luokituksessa aukottomasti. Tällaisille tapauksille luokituksissa on jäännösluokkia eli ns. residuaaliluokkia. Jäännösluokkien koodit päättyvät yleensä numeroon 9. Luokan nimekkeessä esiintyy usein sana muu, muut tai muualle luokittelemattomat. Näiden määrittelemättömien luokkien tulisi sisältää suhteellisen vähän tapauksia verrattuna luokittelutason muihin luokkiin.
Ensimmäinen esimerkki on toimialaluokituksesta ja toinen Euroopan yhteisön yhdistetystä nimikkeistöstä tullinimikkeistöstä (CN, Combined Nomenclature):
Esimerkki toimialaluokituksen jäännösluokista, 32 Muu valmistus:
Lähde: Tilastokeskus, Luokitukset, Toimialaluokitus 2025
Jäännösluokkien "hännänhuippuihin" kuuluviin luokkiin voi kuulua mitä erilaisempien tuotteiden valmistusta.
Esimerkin tapauksessa luokkaan 32999 Muu muualla luokittelematon monenlaisten tuotteiden valmistus kuuluu esim. kaikenlaisten kynien valmistus, hajuvesisuihkupullot, kynttilät, tuohukset ja vastaavat tuotteet, ruumisarkkujen ja tuhkauurnien valmistus.
Esimerkki tullinimikkeistön (CN) jäännösluokista:
Lähde: Tulli, tilastot, CN-nimikkeistö
Luokitukset on usein koottu ryhmiin, mikä helpottaa sinua käyttäjänä löytämään sopivat luokitukset niiden käyttötarkoituksen mukaan. Tilastokeskus on ryhmitellyt käyttämänsä luokitukset seuraaviin aiheenmukaisiin ryhmiin:
Seuraavien viiden esimerkin avulla voit tutustua erilaisiin luokitteluryhmiin:
Henkilöitä voidaan luokitella mm. iän, sukupuolen, koulutuksen ja ammatin mukaan. Voit luokitella itsesi ja naapurisi demografisten henkilöluokitusten mukaan.
Lähde liikkeelle Tilastokeskuksen luokitusten ryhmästä Henkilö ja koulutus.
Voit poimia luokituksia omaan henkilöprofiiliisi esimerkiksi seuraavasti:
Naapurisi henkilöprofiilin luokituksia voisivat olla:
Talousluokituksista löydät toimialojen ja tavaroiden luokitukset. Niiden avulla voidaan koota tilastoja mm. tietyllä toimialalla toimivista yrityksistä ja tavaroiden markkinoista.
Mitä luokituksia käyttäisit, jotta saisit selville:
Poimi sopivia luokituksia tilastoasi varten esimerkiksi seuraavasti:
Toimialaluokituksesta, jota käytetään yritysten ja muiden organisaatioiden tai yksittäisten toimipaikkojen luokitteluun niissä harjoitetun taloudellisen toiminnan perusteella:
Prodcom-tuoteluettelosta, jota käytetään teollisuuden tuotantoa koskevien tilastotietojen keräämisessä hyödykkeittäin:
Euroopan yhteisön CN-nimikkeistöstä, jota käytetään EU:n tuonti- ja vientitilastoissa ja jota Suomessa ylläpitää Tulli:
Ulkomaankaupan tilastoinnissa käytetään useita luokituksia (esim. CN-, HS-, SITC- ja CPA-luokitukset sekä NACE). Luokitus tulee valita tilaston käyttötarkoituksen mukaan.
CN-luokitus (Combined Nomenclature) eli yhdistetty nimikkeistö on Euroopan unionin tullihallinnossa ja ulkomaankauppatilastoissa käytetty tavaraluokitus, jossa tarkimmalla, 8-numerotasolla on noin 10000 luokkaa. CN-luokitus soveltuu käytettäväksi parhaiten silloin, kun haluat tilastotietoja yksittäisten, tarkkaan rajattujen tavaroiden ulkomaankaupasta. CN-luokituksen 6-numerotaso vastaa HS-luokitusta.
HS-luokitus (Harmonized System) eli harmonisoitu hyödykenimikkeistö on Maailman tullijärjestön (WCO) julkaisema kansainvälinen kauppatavaroiden kuvailu- ja koodausjärjestelmä. Euroopan unionin CN- ja Taric-nimikkeistöt perustuvat tähän nimikkeistöön. HS-nimikkeistöä uudistetaan 5–6 vuoden välein. HS on luokitus, jota käytetään tullitilastoinnissa yleisesti myös EU:n ulkopuolella.
SITC-luokitus (Standard International Trade Classification) on YK:n vahvistama luokitus, jonka avulla kaupan kokonaiskuva on helpompi hahmottaa mm. verrattaessa maiden välisiä kauppasuhteita tai muita suurempia kokonaisuuksia. SITC-luokituksen tarkimmalla 5-numerotasolla on reilut 3000 luokkaa.
CPA-luokitus (Classification of Products by Activity) on EU:n luokitus, jossa tavarat luokitellaan sen mukaan, missä tuoteluokassa tavaraa tyypillisesti valmistetaan. CPA-luokitusta voit käyttää, kun haluat selvittää tavaroiden ulkomaankaupan kehitystä eri tuoteluokissa.
NACE-luokitus (Nomenclature statistique des activités économiques) on taloudellista toimintaa harjoittavien yksiköiden toimialaluokitus. Suomessa käytettävä toimialaluokitus TOL 2008 pohjautuu Euroopan unionin NACE-luokitukseen. Toimialaluokitus poikkeaa tavaraluokituksesta siten, että yritys voi kuulua vain yhteen toimialaan, kun taas tavaraluokituksissa yrityksen tavarat voivat kuulua useaan eri tavaraluokkaan. Yrityksen toimiala määräytyy yrityksen ilmoittaman päätoimialan mukaan. NACE/TOL-luokitusta kannattaa käyttää, kun haluat selvittää ulkomaankauppaa käyvien yritysten kehitystä eri toimialoilla.
Tullin käyttämiä nimikkeistöjä ja luokituksia pääset tarkastelemaan myös Fintaric-tullinimikepalvelussa.
Tilastoissa käytettävien alueluokitusten tarkoituksena on ilmiöiden alueellisten vaihtelujen ja aluerakenteen kuvaaminen.
Alueluokitukset muuttuvat, kun esim. kuntia lakkautetaan ja yhdistetään, kunnat siirtyvät maakunnasta toiseen, kunnat jakaantuvat, tai tapahtuu osaliitoksia. Myös erilaiset yhteiskunnassa tehtävät hallinnolliset muutokset vaikuttavat alueluokituksiin, vanhoja poistuu ja uusia luodaan. Alueluokitusten muuttuminen vaikuttaa tilastojen vertailukelpoisuuteen yli ajan. Aikasarjoja voi olla työlästä laatia, jos alueuudistuksia on ollut paljon.
Kuntien yhdistyminen voidaan kuitenkin tilastoinnissa hoitaa helposti. Tilastokeskus julkaisee aluetiedot ja aikasarjat tietokannoissa käyttäen päivitysvuonna voimassa olevia aluejakoja.
Ensisijaiset Suomen tilastotoimessa käytettävät alueluokitukset ovat:
Muita yleisiä tilastoissa käytettäviä kuntapohjaisia alueluokituksia ovat:
Kunnan osa-alueet muodostuvat kunnan itsensä määrittelemistä toiminnallisista aluekokonaisuuksista, jotka ovat kunnan oman aluesuunnittelun ja -seurannan pohjana. Tilastokeskus hoitaa uusien osa-aluerajojen digitoinnin sekä raja- ja nimitiedostojen ylläpidon. Kunnilla on mahdollisuus tarkistaa osa-aluejakonsa kerran vuodessa.
Tilastollista kuntaryhmitystä (kaupunkimainen, taajaan asuttu, maaseutumainen kunta) käytetään kuvattaessa kuntien kaupunkimaisuutta. Aiemmin käytössä olleesta kuntamuotoluokituksesta "kaupungit/maalaiskunnat" luovuttiin vuonna 1997.
Suomessa on käytössä vain yksi kuntamuoto (= kunta). Kunta voi itse päättää, käytetäänkö siitä virallisesti kaupunki-nimitystä. 107 kuntaa käyttää vuonna 2020 itsestään nimitystä kaupunki. Kuntien ja kaupunkien lukumäärien kehityksen vuosilta 1917-2020 löydät Kuntaliiton sivulta Kaupunkien ja kuntien lukumäärät ja väestötiedot.
Kielisuhdeluokitus on kuntatyypittely, jonka avulla määritellään kunnan asukkaiden kielellinen jakauma (yksikielinen, kaksikielinen).
Tilastokeskus julkaisee tilastoa myös postinumeroalueittain. Tutustu Paavo – Postinumeroalueittainen avoin tieto -palveluun.
NUTS (Nomenclature des Unités Territoriales Statistiques) on Euroopan unionin (EU) alueluokitusjärjestelmä, jonka mukaisesti laaditaan kaikki EU:n yhteiset alueelliset tilastot. NUTS-luokitus määritellään Euroopan parlamentin ja neuvoston asetuksessa 1059/2003.
Suomen NUTS-aluejako on seuraava:
Maakuntatasoa (NUTS3) tarkempien (NUTS4–NUTS5) tilastovertailujen tekoa varten Eurostat on luonut Local Administrative Unit, LAU-alueluokitusjärjestelmän. Paikallistasolle on määritelty kaksi hallintoyksikköä:
Eurostatin Postcodes and NUTS -verkkosivulla on saatavana luokitusavain 20 EU-maan postinumeroiden ja NUTS3-alueiden välillä.
Luokitukset on yleensä koottu tilastoja tekevien organisaatioiden verkkosivuille omaksi kokonaisuudeksi. Alla olevista linkeistä löydät valikoiman tarjolla olevista luokitussivustoista:
Euroopan unionin tilastotoimiston, Eurostatin käyttämät luokitusstandardit ja linkit useisiin laajassa kansainvälisessä käytössä oleviin luokitusstandardeihin löytyvät Eurostatin sanasto-osiosta (EU Vocabularies).
Yhdistyneet kansakunnat (YK) ja sen alajärjestöt ylläpitävät aihekohtaisia luokituksia:
Maailman tullijärjestö WCO ylläpitää ulkomaankaupan HS-harmonisoitua nimikkeistöä (HS Harmonized System).
Eri maiden omia, kansallisia tilastoluokituksia voit hakea tilastovirastojen verkkosivuilta. Löydät ne osioista, joissa viitataan metatietoihin, esimerkiksi seuraavilla käsitteillä: Classifications, Documentation, Metadata, Publications, Statistical Standards.
Voit hakea luokituskoodeja luokitussovelluksista tai käsikirjoista luokitusten systematiikan, hierarkian tai hakemistojen avulla. Lisäksi voit käyttää erilaisia luokitustiedonhakuun tehtyjä ja soveltuvia hakupalveluja. Alle on koottu esimerkkejä hakuvinkeiksi.
Luokituksia uudistetaan aika ajoin (esim. 10 vuoden välein). Eri aikojen luokitusversioiden käyttöä varten on tehty luokitusavaimia. Luokitusavaimia (correspondence tables) tarvitset, kun selvität luokitusten keskinäisiä vastaavuuksia:
Monet vanhat luokitukset ovat saatavana vain painettuina julkaisuina kirjastojen ja tietopalveluiden kokoelmista. Laajin painettujen kotimaisten, kansainvälisten ja eri maiden tilastoluokitusten kokoelma on Tilastokirjastossa. Tilastokirjaston luokituksia löydät Tilastokeskus-Finnan kautta.
Tilastokeskuksen luokituksia on julkaistu pääasiassa seuraavasti:
Viralliset tilastoluokitukset ja tilastot eivät aina vastaa käyttäjien toiveita ja tarpeita. Silloin tiedonhaussa sinun pitää turvautua muihin lähteisiin.
Jotta voisit vastata esimerkiksi kysymykseen Mikä on lasten, miesten ja naisten vaatteiden vähittäiskaupan markkinan arvo?, tarvitsisit luokittelua, joka kattaisi jokaisen vaatteita myyvän liikkeen vaatemyynnin ja pelkästään sen.
Toimialaluokituksesta, jota käytetään yritystiedon tilastoinnissa, löytyy luokitukset seuraavista:
Näiden avulla selviäisi pelkästään vaateita myyvien liikkeiden tilastoja (esim. liikevaihto). Vaatteita myydään kuitenkin paljon tavallisissa tavarataloissa (ks. luokka 47192 Tavaratalot). Yleistavarataloista et luokituksen avulla saa eroteltua erikseen vaatemyyntiä. Toimialaluokitushaku ei tuota tässä tapauksessa – sukupuoli- ja ikäryhmänäkökulman vuoksi – riittävän tarkkaa jaottelua, ja siksi tilastostakaan et saa näitä tietoja eriteltyä.
Myös usein kysyttyihin kysymyksiin Kuinka paljon Suomessa on etnisiä ravintoloita? tai Mikä on pikaruokaravintoloiden liikevaihto? et löydä vastausta, mikäli yrität hakea vastausta tilastoista toimialaluokituksen avulla. Toimialaluokituksessa on luokka 56 Ravitsemistoiminta, mutta siinä eikä sen alaluokissa luokitella ravintoloita etnisyyden mukaan, ja siksi tilastoistakaan et löydä etnisten ravintoloiden määrää.
Silloin kun virallinen tilasto ja sen luokitusstandardit eivät anna kattavaa vastausta esim. yritystoiminnasta, kannattaa kääntyä alan toimialajärjestöjen puoleen. Niillä on usein omia arviota toimialansa rakenteesta ja suhdanteista.
Tilastokeskus tarjoaa monenlaista aluetietoa käyttöösi. Tietoa alueittain -sivulta löydät kootusti tiedot kaikista maksuttomista ja maksullisista aluetietotuotteista. Kotimaista aluetietoa tarjoavat myös monet muut tahot, joista on koottu lista Aluetietoa muualla -sivulle.