Tehokas tilastotiedonhaku
Luokitukset ovat kaikkien tilastojen perusta. Ilman yksittäisiä havaintoja järjestäviä luokituksia havainnot, kuten luvut, ovat vain joukko epämääräistä tietoa.
Luokitukset auttavat aineistojen yhdistämisessä ja summaamisessa (=aggregoinnissa), rajaamisessa ja aikasarjojen vertailuissa. Kansainväliset luokitukset auttavat ilmiöiden kansainvälisessä tutkimuksessa ja eri maiden tietojen vertailuissa.
Onnistunut tilastotiedonhaku edellyttää, että tunnet käytössä olevat luokitukset. Saatat yllättyä iloisesti siitä, miten tarkasti luokitukset soveltuvat tiedontarpeeseesi, tai pettyä, jos et niiden avulla saakaan tarvitsemaasi tietoa.
Tutustumalla ennen tiedonhakua käytössä oleviin luokituksiin, muodostat realistisen käsityksen siitä:
Tilastoluokitus järjestää joukon yksittäisiä havaintoja niiden samanlaisuuden tai erilaisuuden mukaan järkeviin luokkiin. Näin tutkimustuloksista syntyy ymmärrettävää ja hyödyllistä, todellisuutta kuvaavaa tietoa. Tilastoluokitus muodostuu yleensä koodeista ja termeistä. Kukin havainto kuuluu vain yhteen luokkaan (ks. esimerkki. Tilastoluokitus väestötilastossa).
Tilastossa käytettyjen luokitusten on oltava relevantteja keskeisten käyttäjien ja käyttötarkoitusten näkökulmasta. Ilman tiedon täsmällistä ja systemaattista järjestämistä tilastot eivät ole luotettavia ja vertailukelpoisia.
Useat suomalaiset luokitusstandardit joko vastaavat täysin kansainvälisesti tunnustettuja virallisia standardeja tai ovat niiden pohjalta rakennettuja. Kansainvälisiä luokituksia ylläpitävät muun muassa Yhdistyneet kansakunnat YK (UNSD) ja Euroopan unioni (Eurostat).
Suomessa Tilastokeskus laatii ja julkaisee useita tilastoluokituksia. Tilastokeskuksen julkaisemat luokitukset on tarkoitettu käytettäviksi tilastoissa, mutta niitä voidaan käyttää myös muissa yhteyksissä.
Suomen väestön luokittelussa käytetään useita väestötieteen muuttujia, kuten sukupuolta, ikää, kieltä, kansalaisuutta, syntymävaltiota ja siviilisäätyä. Väestöä luokitellaan myös esimerkiksi koulutuksen, kotikunnan ja uskontokunnan mukaan. Suomen väestöön kuuluvalla henkilöllä voi viiteajankohtana olla vain yksi sukupuoli, yksi äidinkieli, yksi ikä ja yksi kansalaisuus. Kun tehdään erilaisia muuttujien ristiintaulukointeja, kuten väestö iän, sukupuolen ja kansalaisuuden mukaan kunnittain, summatiedot täsmäävät aina.
Alla on Suomen väestö taulukoitu kahden muuttujan, sukupuolen ja kielen, mukaan. Kun summataan sukupuolet, miehet + naiset, saadaan sama luku, kun summataan kielet, suomi + ruotsi + saame + muut kielet.
sukupuolet | väestö | suomi | ruotsi | saame | muut kielet |
---|---|---|---|---|---|
miehet | 2 728 262 | 2 368 881 | 145 100 | 1 019 | 213 262 |
naiset | 2 797 030 | 2 453 809 | 142 854 | 985 | 199 382 |
yhteensä | 5 525 292 | 4 822 690 | 287 954 | 2 004 | 412 644 |
Lähde: Väestörakenne, 11rl. Kieli iän ja sukupuolen mukaan maakunnittain, 1990– (StatFin)
Yksinkertaisimmillaan tilastoluokitus koostuu nimetyistä luokista ja niiden tunnuksista eli koodeista. Koodit voivat muodostua numeroista tai kirjaimista, esimerkiksi sukupuoli:
1 Miehet
2 Naiset
Lähde: Tilastokeskus, Tietoa tilastoista, Luokitukset, Sukupuoli
Yleensä tilastoluokituksen kuvaus on kuitenkin laajempi ja koostuu määrittelyistä, kuten:
Luokitus on yleensä hierarkkinen siten, että ylin luokittelutaso kuvaa tilaston kohteena olevan ilmiön rakennetta, jota tarkennetaan siirryttäessä alemmille luokitustasoille.
Luokituksen luokkien tulee olla:
Tarkemmin määrittelemättömien luokkien, eli ns. kaatoryhmien kuten "muualle luokittelemattomat", tulisi sisältää suhteellisen vähän tapauksia verrattuna luokittelutason muihin luokkiin.
Luokitus voi rakentua joko yksi- tai monitasoisesti. Seuraavassa osiossa voit tutustua lähemmin neljän esimerkin avulla luokitusten erilaiseen rakentumiseen.
Yksitasoisessa luokituksessa on vain yksi taso. Tällainen luokitus on yleensä (luokkien) lista.
Kunta on useimpien tilastojen perusalueyksikkö. Tilastoinnin lisäksi kuntien luokitusjärjestelmä soveltuu käytettäväksi myös muissa tietojärjestelmissä. Jokaisella kunnalla on numerotunnus, kuntanumero. Kuntien numerotunnukset antaa Digi- ja väestötietovirasto (ent. Väestörekisterikeskus) julkisen hallinnon suosituksen mukaisesti. Kuntanumerointi on yksitasoinen luokitus, jossa Suomen kunnat ovat aakkosjärjestyksessä ja kuntien nimiin on yhdistetty kuntanumero.
Suomen kunnat aakkosjärjestyksessä 2020:
Ammattiluokitus on monitasoinen luokitus. Se on esimerkki laajemmasta luokituksesta, jossa käytetään luokkien nimien ja koodien lisäksi myös luokkien sanallisia kuvauksia.
Ammattiluokituksen avulla laaditaan tilastoja väestön ammattirakenteesta ja palkoista. Ammattiluokitusta käytetään myös ammatinvalinnan ohjauksessa ja työnvälityksessä sekä työelämän tutkimuksessa, koulutussuunnitelmissa ja terveystutkimuksissa.
Ammattiluokituksessa on 11 pääryhmätasoa, jotka tarkentuvat hierarkkisesti 5-numerotasolle asti.
Esimerkki hierarkiasta, Terveydenhoitajat ammattiluokituksessa:
Toimialaluokitus TOL on monitasoinen luokitus kuten edellisen esimerkin ammattiluokituskin. Toimialaluokitusta käytetään esimerkiksi yritysten ryhmittelemiseen. Yritysten Verohallinnolle ilmoittama päätoimiala perustuu Tilastokeskuksen toimialaluokitukseen (TOL 2008). Toimialaluokitusta hyödynnetään yritystilastojen lisäksi työllisyystilastoissa ja kansantalouden tilinpidon tilastoinnissa.
Toimialaluokitus muodostuu viidestä hierarkkisesta tasosta. Päätasoa merkitään kirjaimilla A–X. Alemmat tasot merkitään numerokoodeilla.
Toimialaluokitus TOL 2008 noudattaa EU:n virallista toimialaluokitusta NACE Rev. 2:a 1–4-numerotasoilla. 5-numerotaso on määritelty kansallisesti Suomen omien käyttötarpeiden perusteella.
Esimerkki hierarkiasta, Toimialaluokitus, pääluokka J: Informaatio ja viestintä:
Aina kaikkia mahdollisia luokiteltavia ilmiöitä ei saada kuvattua luokituksessa aukottomasti. Tällaisille tapauksille luokituksissa on joskus jäännösluokka, ns. residuaaliluokka. Jäännösluokkien koodit päättyvät yleensä numeroon 9. Luokan nimekkeessä esiintyy usein sana muu, muut tai muualle luokittelemattomat.
Ensimmäinen esimerkki on toimialaluokituksesta ja toinen Euroopan yhteisön yhdistetystä nimikkeistöstä CN (Combined Nomenclature):
Esimerkki toimialaluokituksen jäännösluokista, 32 Muu valmistus:
Lähde: Tilastokeskus, Luokitukset, Toimialaluokitus 2008
Jäännösluokkien "hännänhuippuihin" kuuluviin luokkiin voi kuulua mitä erilaisempien tuotteiden valmistusta.
Esimerkin tapauksessa luokkaan TOL 32999 Muu muualla luokittelemattomien tuotteiden valmistus kuuluu esim. kaikenlaisten kynien valmistus, hajuvesisuihkupullot, kynttilät, tuohukset ja vastaavat tuotteet, ruumisarkkujen ja tuhkauurnien valmistus.
Esimerkki ulkomaankauppaluokituksen (CN) jäännösluokista:
Lähde: Tulli, tilastot, CN-nimikkeistö
Tämän ulkomaankauppaluokituksen ;9505 jäännösluokissa on huomioitu erikseen joulunviettoon liittyvät esineet, jopa materiaalin mukaan. Muut karnevaaliesineet yms. ovat saaneet yhden yhteisen "kaatoluokan".
Luokitukset on usein koottu ryhmiin, mikä helpottaa sinua käyttäjänä löytämään sopivat luokitukset niiden käyttötarkoituksen mukaan. Tilastokeskus on ryhmitellyt käyttämänsä luokitukset seuraaviin aiheenmukaisiin ryhmiin:
Seuraavien viiden esimerkin avulla voit tutustua erilaisiin luokitteluryhmiin:
Henkilöitä voidaan luokitella mm. iän, sukupuolen, koulutuksen ja ammatin mukaan. Voit luokitella itsesi ja naapurisi demografisten henkilöluokitusten mukaan.
Lähde liikkeelle Tilastokeskuksen luokitusten ryhmästä Henkilö ja koulutus.
Voit poimia luokituksia omaan henkilöprofiiliisi esimerkiksi seuraavasti:
Naapurisi henkilöprofiilin luokituksia voisivat olla:
Talousluokituksista löydät toimialojen ja tavaroiden luokitukset. Niiden avulla voit koota tilastoja mm. tietyllä toimialalla toimivista yrityksistä ja tavaroiden markkinoista.
Mitä luokituksia käyttäisit, jotta saisit selville:
Poimi sopivia luokituksia tilastoasi varten esimerkiksi seuraavasti:
Toimialaluokituksesta, jota käytetään yritysten ja muiden organisaatioiden tai yksittäisten toimipaikkojen luokitteluun niissä harjoitetun taloudellisen toiminnan perusteella:
Prodcom-tuoteluettelosta, jota käytetään teollisuuden tuotantoa koskevien tilastotietojen keräämisessä hyödykkeittäin:
Euroopan yhteisön CN-nimikkeistöstä, jota käytetään EU:n tuonti- ja vientitilastoissa ja jota Suomessa ylläpitää Tulli:
Ulkomaankaupan tilastoinnissa käytetään useita luokituksia (esim. CN-, HS-, SITC- ja CPA-luokitukset sekä NACE). Luokitus tulee valita tilaston käyttötarkoituksen mukaan.
CN-luokitus (Combined Nomenclature) eli yhdistetty nimikkeistö on Euroopan unionin tullihallinnossa ja ulkomaankauppatilastoissa käytetty tavaraluokitus, jossa tarkimmalla, 8-numerotasolla on noin 10000 luokkaa. CN-luokitus soveltuu käytettäväksi parhaiten silloin, kun haluat tilastotietoja yksittäisten, tarkkaan rajattujen tavaroiden ulkomaankaupasta. CN-luokituksen 6-numerotaso vastaa HS-luokitusta.
HS-luokitus (Harmonized System) eli harmonisoidun järjestelmän nimikkeistö on Maailman tullijärjestön (WCO) julkaisema kansainvälinen kauppatavaroiden tavarankuvaus- ja koodausjärjestelmä. Euroopan unionin CN- ja Taric-nimikkeistöt perustuvat tähän nimikkeistöön. HS-nimikkeistöä uudistetaan 5–6 vuoden välein. HS on luokitus, jota käytetään tullitilastoinnissa yleisesti myös EU:n ulkopuolella.
SITC-luokitus (Standard International Trade Classification) on YK:n vahvistama luokitus, jonka avulla kaupan kokonaiskuva on helpompi hahmottaa mm. verrattaessa maiden välisiä kauppasuhteita tai muita suurempia kokonaisuuksia. SITC-luokituksen tarkimmalla 5-numerotasolla on reilut 3000 luokkaa.
CPA-luokitus (Classification of Products by Activity) on EU:n luokitus, jossa tavarat luokitellaan sen mukaan, missä tuoteluokassa tavaraa tyypillisesti valmistetaan. CPA-luokitusta voit käyttää, kun haluat selvittää tavaroiden ulkomaankaupan kehitystä eri tuoteluokissa.
Näitä CPA-luokkia on tarkimmalla 6-numerotasolla noin 1400.
NACE-luokitus (Nomenclature statistique des activités économiques) on taloudellista toimintaa harjoittavien yksiköiden toimialaluokitus. Suomessa käytettävä toimialaluokitus TOL 2008 pohjautuu Euroopan unionin NACE-luokitukseen. Toimialaluokitus poikkeaa tavaraluokituksesta siten, että yritys voi kuulua vain yhteen toimialaan, kun taas tavaraluokituksissa yrityksen tavarat voivat kuulua useaan eri tavaraluokkaan. Yrityksen toimiala määräytyy yrityksen ilmoittaman päätoimialan mukaan. NACE/TOL-luokitusta kannattaa käyttää, kun haluat selvittää ulkomaankauppaa käyvien yritysten kehitystä eri toimialoilla.
Tullin käyttämiä nimikkeistöjä ja luokituksia pääset tarkastelemaan myös Fintaric-tullinimikepalvelussa.
Tilastoissa käytettävien alueluokitusten tarkoituksena on ilmiöiden alueellisten vaihtelujen ja aluerakenteen kuvaaminen.
Alueluokitukset muuttuvat, kun esim. kuntia lakkautetaan ja yhdistetään, kunnat siirtyvät maakunnasta toiseen, kunnat jakaantuvat, tai tapahtuu osaliitoksia. Alueluokitusten muuttuminen vaikuttaa tilastojen vertailukelpoisuuteen yli ajan. Aikasarjoja voi olla työlästä laatia, jos alueuudistuksia on ollut paljon.
Kuntien yhdistyminen voidaan kuitenkin tilastoinnissa hoitaa helposti. Tilastokeskus julkaisee henkilötilastojen aluetiedot ja aikasarjat tietokannoissa käyttäen päivitysvuonna voimassa olevia aluejakoja.
Ensisijaiset Suomen tilastotoimessa käytettävät alueluokitukset ovat:
Muita yleisiä tilastoissa käytettäviä kuntapohjaisia alueluokituksia ovat:
Kunnan osa-alueet muodostuvat kunnan itsensä määrittelemistä toiminnallisista aluekokonaisuuksista, jotka ovat kunnan oman aluesuunnittelun ja -seurannan pohjana. Tilastokeskus hoitaa uusien osa-aluerajojen digitoinnin sekä raja- ja nimitiedostojen ylläpidon. Kunnilla on mahdollisuus tarkistaa osa-aluejakonsa kerran vuodessa.
Tilastollista kuntaryhmitystä (kaupunkimainen, taajaan asuttu, maaseutumainen kunta) käytetään kuvattaessa kuntien kaupunkimaisuutta. Aiemmin käytössä olleesta kuntamuotoluokituksesta "kaupungit/maalaiskunnat" luovuttiin vuonna 1997.
Suomessa on käytössä vain yksi kuntamuoto (= kunta). Kunta voi itse päättää, käytetäänkö siitä virallisesti kaupunki-nimitystä. 107 kuntaa käyttää vuonna 2020 itsestään nimitystä kaupunki. Kuntien ja kaupunkien lukumäärien kehityksen vuosilta 1917-2020 löydät Kuntaliiton sivulta Kaupunkien ja kuntien lukumäärät ja väestötiedot.
Kielisuhdeluokitus on kuntatyypittely, jonka avulla määritellään kunnan asukkaiden kielellinen jakauma (yksikielinen, kaksikielinen).
Tilastokeskus julkaisee tilastoa myös postinumeroalueittain. Tutustu Paavo – Postinumeroalueittainen avoin tieto -palveluun.
NUTS (Nomenclature des Unités Territoriales Statistiques) on Euroopan unionin (EU) alueluokitusjärjestelmä, jonka mukaisesti laaditaan kaikki EU:n yhteiset alueelliset tilastot. NUTS-luokitus määritellään Euroopan parlamentin ja neuvoston asetuksessa 1059/2003.
Suomen NUTS-aluejako on seuraava:
Maakuntatasoa (NUTS3) tarkempien (NUTS4–NUTS5) tilastovertailujen tekoa varten Eurostat on luonut Local Administrative Unit, LAU-alueluokitusjärjestelmän. Paikallistasolle on määritelty kaksi hallintoyksikköä:
Eurostatin Postcodes and NUTS -verkkosivulla on saatavana luokitusavain 20 EU-maan postinumeroiden ja NUTS3-alueiden välillä.
Tilastojen metatieto, johon luokitukset kuuluvat, on yleensä koottu tilastoja tekevien organisaatioiden verkkosivuille omiksi kokonaisuuksiksi.
Tilastokeskus ylläpitää ja julkaisee useita alue-, henkilö-, talous- ja muita luokituksia luokitustietokannassa ja luokituskäsikirjoina sekä jakaa luokitusinformaatiota verkossa. Vanhempia luokitusten käsikirjoja on pdf-tiedostoina Doria-julkaisuarkistossa.
Terveyden ja hyvinvoinnin laitos THL osallistuu sosiaali- ja terveydenhuollon luokitusten kansalliseen ja kansainväliseen standardointityöhön. THL julkaisee mm. tauti- ja toimenpideluokituksia (esim. ICD-10-tautiluokitus).
Tulli julkaisee Suomen ulkomaankauppatilastot useiden kansainvälisten tilastoluokitusstandardien mukaan. Yhdistetty nimikkeistö CN on Suomen ulkomaankauppatilaston käyttämä pääasiallinen luokittelustandardi.
Kansallinen luokitus voi kuulua julkisen hallinnon tietohallintoa koskeviin JHS-suosituksiin. Suositukset koskevat valtionhallinnon lisäksi kunnallishallintoa.
Euroopan unionin tilastotoimiston, Eurostatin käyttämät luokitusstandardit ja linkit useisiin laajassa kansainvälisessä käytössä oleviin luokitusstandardeihin löytyvät Eurostatin sanasto-osiosta (EU Vocabularies).
Yhdistyneet kansakunnat (YK) ja sen alajärjestöt ylläpitävät aihekohtaisia luokituksia:
Maailman tullijärjestö WCO ylläpitää ulkomaankaupan HS-harmonisoitua nimikkeistöä (Harmonized System).
Eri maiden omia, kansallisia tilastoluokituksia voit hakea tilastovirastojen verkkosivuilta. Löydät ne osioista, joissa viitataan metatietoihin, esimerkiksi seuraavilla käsitteillä: Classifications, Documentation, Metadata, Publications, Statistical Standards
Voit hakea luokituskoodeja luokitussovelluksista tai käsikirjoista luokitusten systematiikan, hierarkian tai hakemistojen avulla. Lisäksi voit käyttää erilaisia luokitustiedonhakuun tehtyjä ja soveltuvia hakupalveluja. Alle on koottu esimerkkejä hakuvinkeiksi.
Luokituksia uudistetaan aika ajoin (esim. 10 vuoden välein). Eri aikojen luokitusversioiden käyttöä varten on tehty luokitusavaimia. Luokitusavaimia (correspondence tables) tarvitset, kun selvität luokitusten keskinäisiä vastaavuuksia:
Monet vanhat luokitukset ovat saatavana vain painettuina julkaisuina kirjastojen ja tietopalveluiden kokoelmista. Laajin painettujen kotimaisten, kansainvälisten ja eri maiden tilastoluokitusten kokoelma on Tilastokirjastossa. Tilastokirjaston luokituksia löydät Tilastokeskus-Finnan kautta.
Tilastokeskuksen luokituksia on julkaistu pääasiassa seuraavasti:
Viralliset tilastoluokitukset ja tilastot eivät aina vastaa käyttäjien toiveita ja tarpeita. Silloin tiedonhaussa sinun pitää turvautua muihin lähteisiin.
Jotta voisit vastata esimerkiksi kysymykseen Mikä on lasten, miesten ja naisten vaatteiden vähittäiskaupan markkinan arvo?, tarvitsisit luokittelua, joka kattaisi jokaisen vaatteita myyvän liikkeen vaatemyynnin ja pelkästään sen.
Toimialaluokituksesta, jota käytetään yritystiedon tilastoinnissa, löytyy luokitukset seuraavista:
Näiden avulla selviäisi pelkästään vaateita myyvien liikkeiden tilastoja (esim. liikevaihto). Vaatteita myydään kuitenkin paljon tavallisissa tavarataloissa (ks. luokka 47192 Tavaratalot). Yleistavarataloista et luokituksen avulla saa eroteltua erikseen vaatemyyntiä. Toimialaluokitushaku ei tuota tässä tapauksessa – sukupuoli- ja ikäryhmänäkökulman vuoksi – riittävän tarkkaa jaottelua, ja siksi tilastostakaan et saa näitä tietoja eriteltyä.
Myös usein kysyttyihin kysymyksiin Kuinka paljon Suomessa on etnisiä ravintoloita? tai Mikä on pikaruokaravintoloiden liikevaihto? et löydä vastausta, mikäli yrität hakea vastausta tilastoista toimialaluokituksen avulla. Toimialaluokituksessa on luokka 56 Ravitsemistoiminta, mutta siinä eikä sen alaluokissa luokitella ravintoloita etnisyyden mukaan, ja siksi tilastoistakaan et löydä etnisten ravintoloiden määrää.
Silloin kun virallinen tilasto ja sen luokitusstandardit eivät anna kattavaa vastausta esim. yritystoiminnasta, kannattaa kääntyä alan toimialajärjestöjen puoleen. Niillä on usein omia arviota toimialansa rakenteesta ja suhdanteista.
Tilastokeskus tarjoaa monenlaista aluetietoa käyttöösi. Tietoa alueittain -sivulta löydät kootusti tiedot kaikista maksuttomista ja maksullisista aluetietotuotteista. Kotimaista aluetietoa tarjoavat myös monet muut tahot, joista on koottu lista Aluetietoa muualla -sivulle.