Siirry pääsisältöön
Tilasto-oppaat
Tilastokeskuksen etusivulle

Tilastot kartalla

9 Luokittelumenetelmän valinta tilastoteemakarttaan

9.1 Luokittelu lisää kartan informaatiota

Tilastoteemakartassa aineisto luokitellaan, jotta arvojen vaihtelu voidaan visualisoida havainnollisemmin. Hyvin valittu luokittelu kasvattaa kartan informaatioarvoa. 

Tässä osiossa opit erilaisista aineiston jakaumista ja luokkarajoista sekä niiden merkityksestä tilastoteemakartoissa.

9.2 Luokittelumenetelmät

Tilastoaineiston luokittelun tulisi pohjautua johonkin aineiston ominaisuuksia kuvaavaan luokittelumenetelmään. Aineiston luokittelulla on keskeinen merkitys siinä, millaista kuvaa ilmiöstä kartta välittää.

Katso seuraavia karttoja. Ne on laadittu samasta tilastoaineistosta. Miksi kartat sitten näyttävät hiukan erilaisilta?

Esimerkki. Erilaiset luokkarajat koropleettikartassa

Alla näet kaksi koropleettikarttaa, joissa tilastoaineisto on luokiteltu eri luokkaväleillä. Vertaa näitä karttoja. Millaisen vaikutelman kartat mielestäsi antavat esitetyn ilmiön alueellisesta jakaumasta?

Kartta. 65-vuotta täyttäneiden osuus kunnittain luonnollisilla luokkaväleillä

Koko Suomen kartta, jossa näyttää, että 65-vuotta täyttäneitä olisi vähemmän kuin seuraavassa kartassa.

Kartta. 65-vuotta täyttäneiden osuus kunnittain geometrisesti kasvavilla luokkaväleillä

Koko Suomen kartta, jossa näyttää, että 65-vuotta täyttäneitä olisi enemmän kuin ensimmäisessä kartassa.

Lähde: Tilastokeskus, avoimet paikkatietoaineistot. Väestö 2022 vuoden 2023 kuntajaolla

Edellä esitetyissä esimerkeissä tilastoaineisto on jaettu luokkiin ja luokkarajat on määritelty erilaisiksi kummassakin kartassa. Erilaiset luokkarajat antavat erinäköisen kuvan siitä, miltä ilmiö alueellisesti näyttää. Ero näissä kartoissa on kuitenkin varsin pieni.

Yleisimmät luokittelumenetelmät

Teemakartan tilastoaineiston yleisimpiä luokittelumenetelmiä ovat:

  • tasaiset luokkavälit
  • kvantiilit
  • keskihajonta ja keskiarvo
  • aritmeettiset ja geometriset sarjat
  • luonnolliset luokkarajat.

Eri luokittelutavat sopivat erilaisille jakaumille. Tilastoaineiston luokittelumenetelmä tulisi valita niin, että se sopii jakauman muotoon ja säilyttää jakauman muodon luokitellussakin aineistossa.

Aineiston jakauma vaikuttaa luokitteluun

Frekvenssi kertoo esiintymiskertojen määrän. Frekvenssijakaumaa ja sen muotoa tarkastelemalla selviää, onko aineisto normaalijakauman, vinojakauman vai jonkin muun muotoinen. Jakauman tyypin voi selvittää esimerkiksi jakaumakuvion (frekvenssihistogrammin) avulla, mutta se ilmenee myös erilaisten tunnuslukujen avulla (mm. minimi- ja maksimiarvot, keskiluvut, keskihajonta, vinous, huipukkuus).

Tilastoaineiston jakauma vaikuttaa siihen, millä tavalla aineisto kannattaa luokitella ja millaisia luokkarajat ovat.

Esimerkki. Erilaisia tilastoaineiston jakaumia

Seuraavaksi esitellään neljä erilaista tilastoaineiston jakaumaa frekvenssijakaumalla esitettynä (kuviossa vasemmalta oikealle):

  • normaalijakauma
  • tasainen jakauma
  • oikealle vino jakauma
  • jakauman muoto on epämääräinen.

Kuvio. Neljä erilaista jakaumaa

Kuvion sisältö on esitetty tekstissä.
Arvot esitetään pylväin, jossa x-akselina on muuttujan arvo ja y-akselina frekvenssi. Normaalijakaumassa muuttujan arvoja on eniten keskiarvossa. Tasaisessa jakaumassa kaikkia arvoja on tasaisesti. Oikealle vinossa jakaumassa arvot sijoittuvat eniten pieniin arvoihin, ja viimeisessä kuviossa suuria ja pieniä arvoja on sekaisin.

Tasaiset luokkavälit

Tasavälisessä luokituksessa kunkin luokan minimi- ja maksimiarvon väli on yhtä suuri. Tasaiset luokkavälit sopivat parhaiten tasaisen jakauman aineistolle. Luokkavälin leveys määräytyy jakamalla muuttujan maksimi- ja minimiarvon erotus luokkien määrällä. Tarvittaessa minimi- ja maksimiarvot sekä luokkarajojen arvot voidaan pyöristää.

Esimerkki. Tasaiset luokkavälit tasaiselle jakaumalle

Tasaiset luokkavälit sopivat parhaiten tasaisen jakauman aineistolle. Tasaisissa luokkaväleissä kunkin luokan minimi- ja maksimiarvon väli on yhtä suuri.

Kuvio. Tasaväliset luokat tasaiselle jakaumalle

Kaksi kuvaa, jossa ensimmäisessä esitetään tasainen jakauma ja toisessa kuvaan on lisätty tasaväliset luokkavälit. Minimiarvo x-akselilla on nolla ja maksimi 36. Tasaväliset luokkavälit on jaettu 6, 12, 18, 24, 30 ja 36.

Tasaväliluokituksen rinnalla käytetään toisinaan keinotekoisia tasavälisiä luokkarajoja, esimerkiksi tasakymmeniin pyöristettyjä rajoja (10, 20, 30 jne.), joita ei ole määritelty aineiston pohjalta. Nämä luokkarajat ovat lukijan kannalta helposti ymmärrettäviä. Ne kuitenkin kadottavat tietoa jakauman luonteesta, ellei aineisto ole jakaumaltaan tasainen.

Kvantiilit sopivat tasaisille jakaumille

Kvantiilit jakavat aineiston luokkiin niin, että jokaisessa luokassa on yhtä monta havaintoa. Kvantiilien käyttö luokkarajoina sopii parhaiten tasaisille jakaumille ja silloin, kun alueet eivät pinta-alaltaan poikkea suuresti toisistaan. Muilla jakaumilla kvantiileihin perustuvat luokat hävittävät jakauman muodon, eivätkä siten kuvaa tilastoaineiston piirteitä.

Esimerkki. Kvantiilit tasaisille jakaumille

Seuraavasta kuviosta näet, kuinka kvantiililuokittelu jakaa aineiston luokkiin niin, että jokaisessa luokassa on yhtä monta aluetta.

Kuvio. Kvantiilit luokkarajoina tasaisen jakauman aineistossa

Kaksi kuvaa, joista ensimmäisessä on tasaisesti sijoiteltuna pisteitä ja toisessa on pisteet jaettu viiteen luokkaan, joista jokaisessa on kuusi pistettä.

Kvantiilit epätasaiselle jakaumalle

Joissain tapauksissa kvantiilit ovat paikallaan muillakin kuin tasaisen jakauman aineistoilla: esimerkiksi jos halutaan kertoa, missä työttömyysasteeltaan alimpaan neljännekseen eli kvartiiliin kuuluvat alueet sijaitsevat. Lisäksi menetelmää on puolustettu neutraalina luokittelutapana muillakin kuin tasaisilla jakaumilla silloin, kun luokkarajojen määrittelyä varten ei ole saatavissa tietoa aineiston luonteesta.

Kvantiililuokitus saattaa kuitenkin luoda karttaan vaikutelman suuremmista alueiden välisistä eroista, kuin mitä ne todellisuudessa ovat. Sen käyttö voi myös häivyttää todellisia eroja, mikäli aineisto ei ole tasainen. Saman tai lähes saman lukuarvon omaavat alueet voivat kuulua eri luokkiin, mutta saman luokan sisällä voi olla alueiden lukuarvoissa suuriakin eroja. Edellä mainittu ongelma voidaan ratkaista siirtämällä saman arvon saavat alueet samaan luokkaan, jos alueiden lukumäärä eri luokissa ei tämän jälkeen poikkea suuresti toisistaan.

Esimerkki. Kvantiileissa ei aina ole sama määrä alueita

Ensimmäisessä kuviossa on tehty normaali kvantiililuokitus, jossa jokaiseen luokkaan kuuluu yhtä monta aluetta. Saman arvon saavia alueita on kuitenkin joutunut eri luokkiin.

Toisessa oikealla olevassa kuviossa puolestaan saman arvon alueet on laitettu aina samaan luokkaan. Luokissa on nyt hiukan eri määrä alueita.

Kuvio. Kvantiililuokitus voidaan tehdä eri tavoin jakaumasta riippuen

Kaksi epätasaista jakaumaa kuvaavaa kuvaa, joista ensimmäisessä 35 aluetta on jaettu viiteen luokkaan, jolloin yhteen luokkaan tulee 7 aluetta. Toisessa on 36 aluetta, jotka on jaettu kuuteen luokkaan, jolloin yhteen luokkaan tulee 5-7 aluetta

Keskihajonta ja keskiarvo

Keskihajonnan ja keskiarvon käyttö luokkarajoina soveltuu silloin, kun halutaan tarkastella, mitkä alueet ovat keskiarvoalueita ja mitkä alueet jäävät keskiarvon alapuolelle ja mitkä yläpuolelle.

Keskihajonta

Keskihajonnan avulla määriteltävät luokkarajat sopivat normaalijakautuneelle aineistolle. Niin kutsutulla keskihajontamenetelmällä luokkarajat määräytyvät keskihajonnan tai sen monikerran etäisyydelle keskiarvosta.

Esimerkki. Luokittelu keskihajonnalla

Ensimmäisessä vasemmalla olevassa kuviossa on normaalijakautunut aineisto. Oikealla olevassa luokkavälit on muodostettu keskihajonnan perusteella, jossa luokkarajat määräytyvät keskihajonnan tai sen monikerran etäisyydelle keskiarvosta.

Kuvio. Tilastoaineiston luokittelu keskihajonnalla

Kaksi kuvaa, joista ensimmäisessä on normaalijakautunut aineisto ja toisessa keskellä on keskiarvo, jonka molemmin puolin luokkavälit on muodostettu keskihajonnan perusteella.

Kun luokkia on parillinen määrä, keskihajontaluku lisätään tai vähennetään keskiarvosta, jolloin saadaan keskimmäisten luokkien rajat. Seuraavien luokkien rajat määritellään lisäämällä tai vähentämällä keskihajontaluku edellisen luokan raja-arvosta. Luokkavälien pituus on näin ollen vakio. Jos luokkia on pariton määrä, keskimmäinen luokka muodostuu keskiarvon kohdalle tai sen molemmin puolin.

Keskiarvo

Keskiarvo voi toimia myös luokkavälinä. Keskiarvon avulla luokkavälit voidaan määritellä niin, että aineisto jaetaan aineiston keskiarvon kohdalta keskiarvon alle ja keskiarvon yli kuuluviin luokkiin. Tämän jälkeen näiden kummankin luokan aineistolle lasketaan keskiarvo, jolla luokat jaetaan edelleen kahtia. Näin on saatu neljä luokkaa. Jos luokkia halutaan enemmän, jatketaan luokkien jakamista keskiarvolla.

Aritmeettiset ja geometriset sarjat

Aritmeettiset ja geometriset sarjat ovat molemmat erityisesti vinojen jakaumien luokittelumenetelmiä.

Aritmeettinen sarja

Aritmeettisessa lukujonossa kahden peräkkäisen jonon termin välinen erotus on aina vakio. Aritmeettisesti kasvavat luokkavälit soveltuvat aritmeettisesti kasvavalle aineistolle. 

Aritmeettinen jono: a, a+d, a+2d, a+3d, … a + (n -1)d
(a = havaintojen minimiarvo, joka on > 0; d = vakioerotus)

Geometrinen sarja

Geometrisessä lukujonossa kahden peräkkäisen termin välinen osamäärä on aina vakio. Geometrisesti kasvavat luokkavälit soveltuvat jyrkästi vinolle aineistojakaumalle, joka kasvaa geometrisesti.

Geometrinen jono: a, ar, ar2, ar3, ..., arn-1
(a = havaintojen minimiarvo, joka on > 0; d = vakioerotus ja r = vakiosuhde)

Keinotekoisesti kasvavat luokkavälit

Keinotekoiset systemaattisesti kasvavat luokkavälit eivät perustu matemaattisin menetelmin laskettuihin väleihin, vaan ovat muilla kriteereillä valittuja. Luokkien raja-arvot ovat usein tasalukuihin tai vastaaviin pyöristettyjä arvoja, kuten 10, 20 ja 50. Nämä luokkavälit ovat lukijan kannalta selkeitä ja helposti ymmärrettäviä, mutta saattavat hävittää tietoa jakauman luonteesta.

Esimerkki. Keinotekoisesti kasvavat luokkavälit

Esimerkkikuviossa luokkarajoiksi on valittu sopivia tasalukuja (5, 15, 30 ja 50).

Kuvio. Keinotekoisesti kasvavat luokkavälit vinolle jakaumalle

Oikealle vino jakauma, jossa luokkavälit kasvavat seuraavasti: 5, 15, 30 ja 50.

Keinotekoisesti kasvavat luokkavälit sopivat vain oikealle vinon jakauman kuvaamiseen. Käänteisesti voidaan vasemmalle vinolle jakaumalle luoda systemaattisesti pienevät luokkavälit.

Luonnolliset luokkarajat

Tilastoaineistojen jakaumat eivät aina ole tasa-, normaali- tai vinojakaumia, vaan ne voivat olla hyvinkin epämääräisen muotoisia. Tällöin tasaväliluokitus, keskihajontamenetelmä tai aritmeettiset ja geometriset sarjat eivät välttämättä ole sopivia luokittelutapoja. Luonnollisten luokkarajojen etsiminen saattaa olla tällöin paras vaihtoehto.

Luonnollisten luokkarajojen luokituksessa luokkarajat määräytyvät arvojen luontaisen ryhmittymisen perusteella. Laajasti tunnettu ja käytetty menetelmä on Jenksin luonnollinen luokittelu, jossa luokat määräytyvät siten, että ominaisuuden arvojen vaihtelu (keskihajonta) on luokkien sisällä pienempää kuin luokkien välillä. Myös tarkastelemalla jakauman histogrammia, voidaan jakaumasta löytää näitä luonnollisia luokkavälejä.

Esimerkki. Luokittelu luonnollisilla luokkarajoilla

Seuraavassa kuviossa on löydetty kaksi selkeää luonnollista luokkarajaa.

Kuvio. Luonnolliset luokkarajat ovat selkeästi havaittavissa

Luokkarajojen kohdat (15 ja 50) on valittu kohdista, joissa arvoja on vain vähän tai ei ollenkaan. Y-akselilla esitetään aineiden lukumäärä ja muuttujan arvo x-akselilla esitetään 65:een saakka.

Muut luokkarajojen määrittäjät

Tilastoaineiston luokittelun tulisi pääsääntöisesti pohjautua johonkin aineiston ominaisuuksia kuvaavaan luokittelumenetelmään. Luokkarajojen määrittely voi joskus perustua myös muuhun kuin tilastoaineiston luonteen (esim. jakauman) kuvaamiseen. Tällöin luokkarajoja on muodostettava keinotekoisesti.

Oleelliset raja-arvot

Kuvattavalla ilmiöllä voi olla oleellisia raja-arvoja, joiden suhteen alueita halutaan vertailla. Voidaan esimerkiksi tutkia:

  • Millä alueilla yli neljännes asuntojen radonarvoista ylittää riskirajan?
  • Millä alueilla asuntokuntien mediaanitulo jää alle tietyn rajan?

Tällöin jokin luokkarajoista asetetaan riskirajan tai jonkin raja- tai vertailuarvon mukaan. Aina luokkarajojen keinotekoisen määrittelyn ei tarvitse pohjautua riskirajoihin.

Työttömyysaste on esimerkki muuttujasta, jolla on olemassa yleisesti hyväksyttyjä raja-arvoja. Työttömyysasteen voidaan todeta olevan korkea, keskitasoinen tai alhainen. Tällöin luokkarajat voidaan asettaa näiden määriteltyjen tai yleisesti miellettyjen raja-arvojen mukaan. Kartta kertoo tällöin, mitkä alueet on määritelty korkean, keskitason ja alhaisen työttömyyden alueiksi.

Positiiviset ja negatiiviset arvot

Luokkarajoja voidaan joutua asettamaan keinotekoisesti myös silloin, kun kuvattava ilmiö saa sekä positiivisia että negatiivisia arvoja. Esimerkiksi kuvattaessa nettomaassamuuttoa valitaan yhdeksi luokkarajaksi nolla, jolloin positiivisen (muuttovoiton) ja negatiivisen (muuttotappion) kehityksen alueet voidaan erottaa toisistaan. Myös keskiarvoluku, indeksiluku tai muu vastaava saattaa määrittää luokkarajan.

Esimerkki. Nolla-arvo ja keskiarvo luokkarajoina

Alla olevissa kuvioissa on luokkarajoina käytetty muuttujan nolla-arvoa ja keskiarvoa. Ensimmäisessä kuvataan nettomassamuuton luokkia. Kaksi niistä saa negatiivisia arvoja ja kaksi positiivisia arvoja. Näiden väliin sijoittuu nollaluokka. Toisessa kuviossa BKT-indeksin keskiarvo jakaa luokat yli ja alle keskiarvon oleviin.

Kuvio. Nolla-arvon ja keskiarvon määrittelemät luokkarajat

Kuvioiden sisältö kuvattu tekstissä.

Teemakartan luettavuus ja ymmärrettävyys voivat joskus edellyttää luokkarajoja, jotka eivät suoranaisesti perustu tilastoaineiston luonteen kuvaamiseen. Kartan lukijoiden kohderyhmäkin saattaa asettaa lisävaatimuksia luokkarajoille.

Luokittelu voi siis perustua myös muihin kuin tilastoaineiston jakaumaa kuvaaviin kriteereihin silloin, kun niiden käyttö on perusteltua kuvattavan asian esiin tuomiseksi tai ymmärtämiseksi. Aineistoa luokitellessa kannattaa muutenkin pitää mielessä, että teemakartan tehtävänä on tuoda esiin alueellisia ja rakenteellisia piirteitä.

9.3 Luokkien lukumäärä

Välimatka- tai suhdelukuasteikolla mitatun tilastoaineiston jakamisessa luokkiin on ollut vanhana ohjeena, että luokkien määrän tulisi olla lähellä kuutiojuurta havaintojen määrästä.

Esimerkiksi esitettäessä tiedot koko maasta vuoden 2025 kuntajaolla luokkien määräksi tulisi tämän säännön mukaan (pyöristettynä) seitsemän, koska kuntia oli 308.

Tätä teoreettisista ohjetta voit joutua käytännössä kuitenkin soveltamaan. Aineiston jakamista yli kuuteen luokkaan kannattaa tarkoin harkita. Liian suuri luokkamäärä vaikeuttaa tiedon havainnointia, mm. värin tummuusasteiden erottuminen luokkien välillä asettaa omat rajoitteensa.

Määriteltäessä luokkien lukumäärää on hyvä ottaa huomioon tilastoaineiston ominaisuuksia ja ilmiön maantieteellistä jakautumista. Kannattaa myös miettiä, mitä kartan avulla on tarve viestiä. Voit esimerkiksi pohtia seuraavia kysymyksiä:

  • Millainen on kuvattava ilmiö?
  • Millainen on ilmiötä kuvaava aineisto?
  • Mitkä ovat muuttujan saamat arvot?
  • Mikä on arvojen vaihteluväli?
  • Mitä luokittelumenetelmää käytetään?
  • Millainen esitystapa valitaan?

Kertaa käsitteitä

  • Frekvenssi tarkoittaa tutkittavan ilmiön lukumäärää.
  • Histogrammi esittää tarkasteltavien arvojen jakautumisen graafisesti valitun luokkajaon mukaan.
  • Keskiarvo on ns. keskiluvuista kaikkein tavallisin. Se ilmoittaa, mihin kohtaan muuttujan jakauman keskikohta mitatulla ulottuvuudella sijoittuu.
  • Keskihajonta kertoo, miten keskittyneitä havainnot ovat, eli miten kaukana havainnot keskimäärin ovat keskiarvosta.
  • Kvantiili on luokittelumenetelmä, joka jakaa aineiston luokkiin niin, että jokaisessa luokassa on yhtä monta havaintoa.
  • Kvartiili on luokittelumenetelmä, joka jakaa suuruusjärjestykseen lajitellun muuttujan jakauman neljään yhtä suureen osaan. 
  • Luokkaraja on aineiston luokittelussa muodostunut kahden eri luokan välinen raja.
  • Luokkaväli on kahden luokkarajan välinen alue.
  • Mediaanitulo on keskimmäisen tulonsaajan tulo, kun tulonsaajat asetetaan tulojen mukaan suuruusjärjestykseen.