Tilastoteemakartassa aineisto luokitellaan, jotta arvojen vaihtelu voidaan visualisoida havainnollisemmin. Hyvin valittu luokittelu kasvattaa kartan informaatioarvoa.
Tässä osiossa opit erilaisista aineiston jakaumista ja luokkarajoista sekä niiden merkityksestä tilastoteemakartoissa.
Tilastoaineiston luokittelun tulisi pohjautua johonkin aineiston ominaisuuksia kuvaavaan luokittelumenetelmään. Aineiston luokittelulla on keskeinen merkitys siinä, millaista kuvaa ilmiöstä kartta välittää.
Katso seuraavia karttoja. Ne on laadittu samasta tilastoaineistosta. Miksi kartat sitten näyttävät hiukan erilaisilta?
Alla näet kaksi koropleettikarttaa, joissa tilastoaineisto on luokiteltu eri luokkaväleillä. Vertaa näitä karttoja. Millaisen vaikutelman kartat mielestäsi antavat esitetyn ilmiön alueellisesta jakaumasta?
Kartta. 65-vuotta täyttäneiden osuus kunnittain luonnollisilla luokkaväleillä
Kartta. 65-vuotta täyttäneiden osuus kunnittain geometrisesti kasvavilla luokkaväleillä
Lähde: Tilastokeskus, avoimet paikkatietoaineistot. Väestö 2022 vuoden 2023 kuntajaolla
Edellä esitetyissä esimerkeissä tilastoaineisto on jaettu luokkiin ja luokkarajat on määritelty erilaisiksi kummassakin kartassa. Erilaiset luokkarajat antavat erinäköisen kuvan siitä, miltä ilmiö alueellisesti näyttää. Ero näissä kartoissa on kuitenkin varsin pieni.
Teemakartan tilastoaineiston yleisimpiä luokittelumenetelmiä ovat:
Eri luokittelutavat sopivat erilaisille jakaumille. Tilastoaineiston luokittelumenetelmä tulisi valita niin, että se sopii jakauman muotoon ja säilyttää jakauman muodon luokitellussakin aineistossa.
Frekvenssi kertoo esiintymiskertojen määrän. Frekvenssijakaumaa ja sen muotoa tarkastelemalla selviää, onko aineisto normaalijakauman, vinojakauman vai jonkin muun muotoinen. Jakauman tyypin voi selvittää esimerkiksi jakaumakuvion (frekvenssihistogrammin) avulla, mutta se ilmenee myös erilaisten tunnuslukujen avulla (mm. minimi- ja maksimiarvot, keskiluvut, keskihajonta, vinous, huipukkuus).
Tilastoaineiston jakauma vaikuttaa siihen, millä tavalla aineisto kannattaa luokitella ja millaisia luokkarajat ovat.
Seuraavaksi esitellään neljä erilaista tilastoaineiston jakaumaa frekvenssijakaumalla esitettynä (kuviossa vasemmalta oikealle):
Kuvio. Neljä erilaista jakaumaa
Arvot esitetään pylväin, jossa x-akselina on muuttujan arvo ja y-akselina frekvenssi. Normaalijakaumassa muuttujan arvoja on eniten keskiarvossa. Tasaisessa jakaumassa kaikkia arvoja on tasaisesti. Oikealle vinossa jakaumassa arvot sijoittuvat eniten pieniin arvoihin, ja viimeisessä kuviossa suuria ja pieniä arvoja on sekaisin.
Tasavälisessä luokituksessa kunkin luokan minimi- ja maksimiarvon väli on yhtä suuri. Tasaiset luokkavälit sopivat parhaiten tasaisen jakauman aineistolle. Luokkavälin leveys määräytyy jakamalla muuttujan maksimi- ja minimiarvon erotus luokkien määrällä. Tarvittaessa minimi- ja maksimiarvot sekä luokkarajojen arvot voidaan pyöristää.
Tasaiset luokkavälit sopivat parhaiten tasaisen jakauman aineistolle. Tasaisissa luokkaväleissä kunkin luokan minimi- ja maksimiarvon väli on yhtä suuri.
Kuvio. Tasaväliset luokat tasaiselle jakaumalle
Tasaväliluokituksen rinnalla käytetään toisinaan keinotekoisia tasavälisiä luokkarajoja, esimerkiksi tasakymmeniin pyöristettyjä rajoja (10, 20, 30 jne.), joita ei ole määritelty aineiston pohjalta. Nämä luokkarajat ovat lukijan kannalta helposti ymmärrettäviä. Ne kuitenkin kadottavat tietoa jakauman luonteesta, ellei aineisto ole jakaumaltaan tasainen.
Kvantiilit jakavat aineiston luokkiin niin, että jokaisessa luokassa on yhtä monta havaintoa. Kvantiilien käyttö luokkarajoina sopii parhaiten tasaisille jakaumille ja silloin, kun alueet eivät pinta-alaltaan poikkea suuresti toisistaan. Muilla jakaumilla kvantiileihin perustuvat luokat hävittävät jakauman muodon, eivätkä siten kuvaa tilastoaineiston piirteitä.
Seuraavasta kuviosta näet, kuinka kvantiililuokittelu jakaa aineiston luokkiin niin, että jokaisessa luokassa on yhtä monta aluetta.
Kuvio. Kvantiilit luokkarajoina tasaisen jakauman aineistossa
Joissain tapauksissa kvantiilit ovat paikallaan muillakin kuin tasaisen jakauman aineistoilla: esimerkiksi jos halutaan kertoa, missä työttömyysasteeltaan alimpaan neljännekseen eli kvartiiliin kuuluvat alueet sijaitsevat. Lisäksi menetelmää on puolustettu neutraalina luokittelutapana muillakin kuin tasaisilla jakaumilla silloin, kun luokkarajojen määrittelyä varten ei ole saatavissa tietoa aineiston luonteesta.
Kvantiililuokitus saattaa kuitenkin luoda karttaan vaikutelman suuremmista alueiden välisistä eroista, kuin mitä ne todellisuudessa ovat. Sen käyttö voi myös häivyttää todellisia eroja, mikäli aineisto ei ole tasainen. Saman tai lähes saman lukuarvon omaavat alueet voivat kuulua eri luokkiin, mutta saman luokan sisällä voi olla alueiden lukuarvoissa suuriakin eroja. Edellä mainittu ongelma voidaan ratkaista siirtämällä saman arvon saavat alueet samaan luokkaan, jos alueiden lukumäärä eri luokissa ei tämän jälkeen poikkea suuresti toisistaan.
Ensimmäisessä kuviossa on tehty normaali kvantiililuokitus, jossa jokaiseen luokkaan kuuluu yhtä monta aluetta. Saman arvon saavia alueita on kuitenkin joutunut eri luokkiin.
Toisessa oikealla olevassa kuviossa puolestaan saman arvon alueet on laitettu aina samaan luokkaan. Luokissa on nyt hiukan eri määrä alueita.
Kuvio. Kvantiililuokitus voidaan tehdä eri tavoin jakaumasta riippuen
Keskihajonnan ja keskiarvon käyttö luokkarajoina soveltuu silloin, kun halutaan tarkastella, mitkä alueet ovat keskiarvoalueita ja mitkä alueet jäävät keskiarvon alapuolelle ja mitkä yläpuolelle.
Keskihajonnan avulla määriteltävät luokkarajat sopivat normaalijakautuneelle aineistolle. Niin kutsutulla keskihajontamenetelmällä luokkarajat määräytyvät keskihajonnan tai sen monikerran etäisyydelle keskiarvosta.
Ensimmäisessä vasemmalla olevassa kuviossa on normaalijakautunut aineisto. Oikealla olevassa luokkavälit on muodostettu keskihajonnan perusteella, jossa luokkarajat määräytyvät keskihajonnan tai sen monikerran etäisyydelle keskiarvosta.
Kuvio. Tilastoaineiston luokittelu keskihajonnalla
Kun luokkia on parillinen määrä, keskihajontaluku lisätään tai vähennetään keskiarvosta, jolloin saadaan keskimmäisten luokkien rajat. Seuraavien luokkien rajat määritellään lisäämällä tai vähentämällä keskihajontaluku edellisen luokan raja-arvosta. Luokkavälien pituus on näin ollen vakio. Jos luokkia on pariton määrä, keskimmäinen luokka muodostuu keskiarvon kohdalle tai sen molemmin puolin.
Keskiarvo voi toimia myös luokkavälinä. Keskiarvon avulla luokkavälit voidaan määritellä niin, että aineisto jaetaan aineiston keskiarvon kohdalta keskiarvon alle ja keskiarvon yli kuuluviin luokkiin. Tämän jälkeen näiden kummankin luokan aineistolle lasketaan keskiarvo, jolla luokat jaetaan edelleen kahtia. Näin on saatu neljä luokkaa. Jos luokkia halutaan enemmän, jatketaan luokkien jakamista keskiarvolla.
Aritmeettiset ja geometriset sarjat ovat molemmat erityisesti vinojen jakaumien luokittelumenetelmiä.
Aritmeettisessa lukujonossa kahden peräkkäisen jonon termin välinen erotus on aina vakio. Aritmeettisesti kasvavat luokkavälit soveltuvat aritmeettisesti kasvavalle aineistolle.
Aritmeettinen jono: a, a+d, a+2d, a+3d, … a + (n -1)d
(a = havaintojen minimiarvo, joka on > 0; d = vakioerotus)
Geometrisessä lukujonossa kahden peräkkäisen termin välinen osamäärä on aina vakio. Geometrisesti kasvavat luokkavälit soveltuvat jyrkästi vinolle aineistojakaumalle, joka kasvaa geometrisesti.
Geometrinen jono: a, ar, ar2, ar3, ..., arn-1
(a = havaintojen minimiarvo, joka on > 0; d = vakioerotus ja r = vakiosuhde)
Keinotekoiset systemaattisesti kasvavat luokkavälit eivät perustu matemaattisin menetelmin laskettuihin väleihin, vaan ovat muilla kriteereillä valittuja. Luokkien raja-arvot ovat usein tasalukuihin tai vastaaviin pyöristettyjä arvoja, kuten 10, 20 ja 50. Nämä luokkavälit ovat lukijan kannalta selkeitä ja helposti ymmärrettäviä, mutta saattavat hävittää tietoa jakauman luonteesta.
Esimerkkikuviossa luokkarajoiksi on valittu sopivia tasalukuja (5, 15, 30 ja 50).
Kuvio. Keinotekoisesti kasvavat luokkavälit vinolle jakaumalle
Keinotekoisesti kasvavat luokkavälit sopivat vain oikealle vinon jakauman kuvaamiseen. Käänteisesti voidaan vasemmalle vinolle jakaumalle luoda systemaattisesti pienevät luokkavälit.
Tilastoaineistojen jakaumat eivät aina ole tasa-, normaali- tai vinojakaumia, vaan ne voivat olla hyvinkin epämääräisen muotoisia. Tällöin tasaväliluokitus, keskihajontamenetelmä tai aritmeettiset ja geometriset sarjat eivät välttämättä ole sopivia luokittelutapoja. Luonnollisten luokkarajojen etsiminen saattaa olla tällöin paras vaihtoehto.
Luonnollisten luokkarajojen luokituksessa luokkarajat määräytyvät arvojen luontaisen ryhmittymisen perusteella. Laajasti tunnettu ja käytetty menetelmä on Jenksin luonnollinen luokittelu, jossa luokat määräytyvät siten, että ominaisuuden arvojen vaihtelu (keskihajonta) on luokkien sisällä pienempää kuin luokkien välillä. Myös tarkastelemalla jakauman histogrammia, voidaan jakaumasta löytää näitä luonnollisia luokkavälejä.
Seuraavassa kuviossa on löydetty kaksi selkeää luonnollista luokkarajaa.
Kuvio. Luonnolliset luokkarajat ovat selkeästi havaittavissa
Tilastoaineiston luokittelun tulisi pääsääntöisesti pohjautua johonkin aineiston ominaisuuksia kuvaavaan luokittelumenetelmään. Luokkarajojen määrittely voi joskus perustua myös muuhun kuin tilastoaineiston luonteen (esim. jakauman) kuvaamiseen. Tällöin luokkarajoja on muodostettava keinotekoisesti.
Kuvattavalla ilmiöllä voi olla oleellisia raja-arvoja, joiden suhteen alueita halutaan vertailla. Voidaan esimerkiksi tutkia:
Tällöin jokin luokkarajoista asetetaan riskirajan tai jonkin raja- tai vertailuarvon mukaan. Aina luokkarajojen keinotekoisen määrittelyn ei tarvitse pohjautua riskirajoihin.
Työttömyysaste on esimerkki muuttujasta, jolla on olemassa yleisesti hyväksyttyjä raja-arvoja. Työttömyysasteen voidaan todeta olevan korkea, keskitasoinen tai alhainen. Tällöin luokkarajat voidaan asettaa näiden määriteltyjen tai yleisesti miellettyjen raja-arvojen mukaan. Kartta kertoo tällöin, mitkä alueet on määritelty korkean, keskitason ja alhaisen työttömyyden alueiksi.
Luokkarajoja voidaan joutua asettamaan keinotekoisesti myös silloin, kun kuvattava ilmiö saa sekä positiivisia että negatiivisia arvoja. Esimerkiksi kuvattaessa nettomaassamuuttoa valitaan yhdeksi luokkarajaksi nolla, jolloin positiivisen (muuttovoiton) ja negatiivisen (muuttotappion) kehityksen alueet voidaan erottaa toisistaan. Myös keskiarvoluku, indeksiluku tai muu vastaava saattaa määrittää luokkarajan.
Alla olevissa kuvioissa on luokkarajoina käytetty muuttujan nolla-arvoa ja keskiarvoa. Ensimmäisessä kuvataan nettomassamuuton luokkia. Kaksi niistä saa negatiivisia arvoja ja kaksi positiivisia arvoja. Näiden väliin sijoittuu nollaluokka. Toisessa kuviossa BKT-indeksin keskiarvo jakaa luokat yli ja alle keskiarvon oleviin.
Kuvio. Nolla-arvon ja keskiarvon määrittelemät luokkarajat
Teemakartan luettavuus ja ymmärrettävyys voivat joskus edellyttää luokkarajoja, jotka eivät suoranaisesti perustu tilastoaineiston luonteen kuvaamiseen. Kartan lukijoiden kohderyhmäkin saattaa asettaa lisävaatimuksia luokkarajoille.
Luokittelu voi siis perustua myös muihin kuin tilastoaineiston jakaumaa kuvaaviin kriteereihin silloin, kun niiden käyttö on perusteltua kuvattavan asian esiin tuomiseksi tai ymmärtämiseksi. Aineistoa luokitellessa kannattaa muutenkin pitää mielessä, että teemakartan tehtävänä on tuoda esiin alueellisia ja rakenteellisia piirteitä.
Välimatka- tai suhdelukuasteikolla mitatun tilastoaineiston jakamisessa luokkiin on ollut vanhana ohjeena, että luokkien määrän tulisi olla lähellä kuutiojuurta havaintojen määrästä.
Tätä teoreettisista ohjetta voit joutua käytännössä kuitenkin soveltamaan. Aineiston jakamista yli kuuteen luokkaan kannattaa tarkoin harkita. Liian suuri luokkamäärä vaikeuttaa tiedon havainnointia, mm. värin tummuusasteiden erottuminen luokkien välillä asettaa omat rajoitteensa.
Määriteltäessä luokkien lukumäärää on hyvä ottaa huomioon tilastoaineiston ominaisuuksia ja ilmiön maantieteellistä jakautumista. Kannattaa myös miettiä, mitä kartan avulla on tarve viestiä. Voit esimerkiksi pohtia seuraavia kysymyksiä: