Tilastokuviot tutuksi
Edellä opit, että tilastokuvio on verraton työväline havainnollistamaan muun muassa trendejä, määriä ja asioiden välisiä suhteita. Tässä osiossa tutustut yleisimpiin kuviotyyppeihin: viiva-, pystypylväs-, vaakapylväs- ja piirakkakuvioon. Tekstissä esiintyvien termien ja käsitteiden selitykset on koottu tämän osion loppuun.
Eri kuviotyypit soveltuvat juuri tietynlaiseen tehtävään. Tehtävän määrittelee yleensä käytetty data eli se, minkälaisia muuttujia, mitta-asteikkoja ja -yksikköjä siinä on käytetty, ja kuinka paljon arvoja kussakin muuttujassa on.
Eri kuviotyyppien vahvuuksien ja tyypillisimpien käyttökontekstien tunteminen on tärkeää. Tällöin osaat arvioida, välittääkö valittu esittämisen tapa tiedon juuri siihen tilanteeseen sopivalla tavalla. Ja toisaalta, soveltuuko käytetty data valittuun kuvioon. Näiden yleisimpien kuviotyyppien tuntemisella pärjäät joka tapauksessa jo melko pitkälle.
Osion lopusta löydät kertaustehtäviä. Montako saat oikein?
Tavallisin ja käytetyin kuviotyyppi on viivakuvio. Sen pääasiallinen tehtävä on havainnollistaa jonkin ilmiön kehitystrendiä eli muutosta ajassa.
Viivakuvio koostuu pystyakselista eli y-akselista ja vaaka-akselista eli x-akselista. Y-akselilla esitetään jonkin jatkuva-arvoisen mittayksikön arvot, kun taas x-akselilla esitetään viiteajankohdat (esimerkiksi vuosiluvut) eli se, milloin mittaukset on tehty.
Molempien akselien arvojen on oltava jatkuva-arvoisia ja tasavälisiä, jotta kuvio välittää oikean kuvan ilmiön kehitystrendistä. Jokaista yksittäistä arvon mittauskohtaa ei ole välttämätöntä merkitä asteikkoon. Esimerkiksi vuodet merkitään tyypillisesti viiden tai kymmenen vuoden välein. Akselien arvojen ja kuvion hilaviivojen tehtävä on siis vain suurin piirtein havainnollistaa suuruusluokat ja aikaskaala, mikä usein riittää oikean tulkinnan tekemiseksi.
Viivakuvion vaihtoehtona on pystypylväskuvio. Viivakuvio kuitenkin havainnollistaa tehokkaammin nimenomaan ilmiön yleisen trendin eli kehityssuunnan. Viivakuvio sisältää myös illuusion arvojen jatkuvuudesta. Sitä käytetäänkin silloin, kun arvot ovat ainakin teoriassa mitattavissa myös tiheämmin kuin esitettävässä aineistossa. Tutustu viivakuvioesimerkkiin 1, jossa kuvataan kokonaishedelmällisyyden kehitystä.
Tämä esimerkki kuvaa kokonaishedelmällisyyden kehitystä Suomessa vuodesta 1900 lähtien. Kokonaishedelmällisyysluku on laskennallinen arvio siitä, kuinka monta lasta nainen synnyttää keskimäärin elinaikanaan.
Kuviotyypiksi on valittu viivakuvio, koska siitä havaitsee helpoiten ilmiön yleisen trendin. Kuviosta huomaat, että hedelmällisyys on nykyään selvästi alhaisemmalla tasolla kuin sata vuotta sitten, ja vuoden 2019 hedelmällisyys on alhaisin koko mitattavalla ajanjaksolla. Tämä onkin kuvion keskeisin sanoma.
Kun tarkastelet kuviota tarkemmin, huomaat myös sota- ja kriisiaikojen alhaisemman hedelmällisyyden vuodet ja niitä seuraavien vuosien korkeammat hedelmällisyysluvut.
Kuvio. Kokonaishedelmällisyysluku vuosina 1900–2021
Lähde: Syntyneet, taulukko 12dt. Kokonaishedelmällisyysluku, 1776– (StatFin)
Viivakuviossa voi olla useampiakin viivoja samassa näkymässä. Eri viivat voivat tällöin esittää joko yhden ja saman perusjoukon kuten Suomen väestön eri osajoukkoja, kokonaan erillisiä ryhmiä eli omia perusjoukkoja tai jopa kokonaan eri käsitteitä tai ilmiöitä. Tällöin viivakuvion tehtävä on yksittäisten ilmiöiden trendien havainnollistamisen lisäksi vertailla myös eri kehitystrendien suuntien ja vaihteluvälien suhdetta toisiinsa.
Katso kuviota esimerkissä 2 ja pohdi hetki, miksi kuviossa eri trendiviivat eivät ole täysin vertailukelpoisia.
Seuraavassa kuviossa esitetään väestön määrän kehitystä kuudessa eri ikäluokassa. Kuviossa näkyy selvää muutosta kaikkien ikäluokkien koossa viimeisen 30 vuoden aikana. Huomaat, että katse hakeutuu viivojen risteyskohtiin eli ajankohtiin, joissa ikäluokkien kokoa kuvaavat viivat vaihtavat järjestystä. Tilastokuvion ydintehtäviä on juuri nostaa esiin kohtia, joissa tapahtuu merkittäviä muutoksia.
Huomasitko, että kuviossa esitetyt ikäluokat eivät ole tasavälisiä? Tämän takia ikäluokat eivät ole absoluuttisesti täysin vertailukelpoisia keskenään. On täysin loogista, että ikäluokat, jotka sisältävät eniten yksittäisiä vuosiluokkia, ovat suurimpia.
Kuvio. Väestö iän mukaan vuosina 1972–2021
Lähde: Väestörakenne, taulukko 11re -- Väestö iän (1-v.) ja sukupuolen mukaan alueittain, 1972− (StatFin)
Esimerkissä 3 on havainnollistava kuvio Suomen väestönkehityksestä ja siinä tapahtuneista muutoksista vuosikymmenten aikana. Viivakuviossa esitetään kuolleiden ja elävänä syntyneiden lukumäärien kehitystä viimeisen 70 vuoden ajalta. Y-akselilla esitetään lukumäärät ja x-akselilla aika. Aikaa kuvaavalla akselilla on valittu 10 vuoden väli vuosiluvuissa, mikä on kokonaisuuden hahmottamiseksi juuri sopiva.
Heti ensisilmäyksellä näet, että kahden ilmiön välillä on tapahtunut selvä muutos: kuolleiden määrä on pysynyt suhteellisen vakiona, kun taas syntyneiden määrä on selvästi laskenut tutkittavalla aikavälillä. Vuonna 2016 kuolleiden määrä onkin jo "ohittanut" syntyneiden määrän, eli ilman muuttoliikkeen vaikutusta Suomen väestö olisi tuolloin kääntynyt laskuun.
Kuvio. Elävänä syntyneet ja kuolleet vuosina 1950–2020
Lähde: Väestörakenne, taulukko 12at -- Väestönmuutokset ja väkiluku, 1749− (StatFin)
Esimerkissä 4 on esitetty sekä ensimmäisen avioliittonsa solmineiden naisten että ensisynnyttäjien keski-iän kehitystrendit viimeisen 40 vuoden ajalta. Tämä on toinen keskeinen suomalaiseen yhteiskuntaan liittyvä väestöllinen piirre, jota kuvio osuvasti valaisee.
Kuviosta näet, että ensimmäisen avioliiton solmimisikä on kasvanut koko tutkittavalla aikavälillä, mutta ensisynnyttäjien keski-iän kasvu on selvästi hidastunut vuoden 1995 jälkeen. Mitä ajatuksia tämä sinussa herättää?
Havaitset varmasti, että kuviossa esitettävillä muuttujilla on olemassa selkeä looginen yhteys toisiinsa. Kuvio saa miettimään ilmiöiden taustalla vaikuttavia syitä ja niiden yhteyksiä. Juuri tämä on merkki hyvästä tilastokuviosta.
Kuvio. Ensiavioitujan ja ensisynnyttäjän keski-ikä vuosina 1985–2020
Lähde: Siviilisäädyn muutokset
Viivakuviolla on loogista vertailla eri osajoukkojen ajallisten trendien eroja suhteessa toisiinsa. Usein myös täysin eri ryhmien lukumäärällisten erojen vertailu viivakuviolla on varsin järkevää. Sen sijaan kokonaan eri ilmiöiden vertailua samassa viivakuviossa ei voi suositella. Jos kuvion tekijä on kuitenkin päätynyt esittämään eri ilmiöiden kehitystä samassa kuviossa, tulisi sinun vähintäänkin saada jotain lisätietoa näiden ilmiöiden välillä mahdollisesti olevasta loogisesta yhteydestä.
Viivakuviosta ei voi suoraan päätellä eri ilmiöiden välistä riippuvuutta saati syy-seuraussuhdetta, vaikka siltä ensisilmäyksellä saattaisi vaikuttaa. Viivakuvio korkeintaan vihjaa, että kyseinen yhteys on mahdollinen. Viivakuvio havainnollistaa mahdollisen yhteyden, mutta ei tarjoa sille selitystä.
Viivakuviossa esitetyillä ilmiöillä tulisi myös aina olla yhteinen mittayksikkö ja -asteikko. Jos kuviossa käytetään niin sanottuja tupla-asteikkoja, se voi huomaamatta synnyttää vääriä tai harhaanjohtavia mielleyhtymiä eri mittayksiköillä mitattujen ilmiöiden trendien keskinäisistä suhteista ja vaihteluväleistä. Asteikkojen oikea keskinäinen skaalaus edellyttää, että asteikoilla on jokin yhteinen looginen viitearvo (useimmiten 0 tai esim. indeksien tapauksessa 100) ja jokin viiteajankohta (mieluiten kuvion ensimmäinen viiteajankohta), jossa verrattavat tietoviivat leikkaavat toisensa. Tällöin eri mittayksiköt on käytännössä indeksoitu keskenään kyseisen viiteajankohdan mukaan, ja kuviosta on tällöin havaittavissa kummankin (prosentuaalinen) ajallinen muutos suhteessa itseensä. Tämä onkin näiden eri mittayksiköllisten ilmiöiden ainoa loogisesti vertailtavissa oleva yhteys. Katso tästä esimerkki 5 kohdassa 5.3 Harhaanjohtavan tilastokuvion voi tunnistaa.
Pylväskuviolla esitetään ja verrataan määrien suhteita eli paljonko jotain on suhteessa johonkin muuhun. Pystypylväskuvio on viivakuvion tapaan useimmiten aikasarjakuvio, joka trendin sijaan korostaa eri viiteajankohtien määrällisiä eroja. Pylväitä verrataan siis toisiinsa. X-akselilla esitetään eri viiteajankohtia ja y-akselista selviävät määrien suuruudet, kuten seuraavassa esimerkkikuviossa.
Kuviosta näet valmistuneiden asuntojen lukumäärän kehityksen vuosina 1995–2020. Pylväskuvioissa huomio kiinnittyy helposti vierekkäisten pylväiden kokosuhteiden eroihin. Oheisesta kuviosta nousee esiin suuri pudotus vuonna 2009, ja toisaalta ääriarvot vuosilta 1996 ja 2019. Ilmiön selkeät muutospisteet ja ääriarvot saavat huomiota pystypylväskuviossa. Ilmiön trendiä taas on vaikeampi hahmottaa samalla tavalla kuin viivakuviosta.
Kuvio. Valmistuneet asunnot vuosina 1995–2020
Lähde: Rakennus- ja asuntotuotanto kuukausittain (StatFin, taulukko 12fy)
Pystypylväskuvioissa huomio kannattaa kiinnittää y-akseliin. Pylväiden pituuksien tulisi olla suorassa suhteessa niiden numeerisiin suuruuksiin eli toisin kuin viivakuviossa, pylväskuvioiden määrää osoittavaa akselia ei saisi koskaan katkaista.
Viivakuvio ja pystypylväskuvio ovat yleensä toistensa vaihtoehtoja. Niiden keskeisin ero on näkökulmassa: halutaanko korostaa nimenomaan trendejä vai määrällisiä eroja?
Toisinaan oikea valinta on nimenomaan pystypylväskuvio. Pystypylväskuvio on viivakuviota parempi esitystapa esimerkiksi silloin, kun esitettävä asia on mitattavissa vain tiettyinä erillisinä ajankohtina. Ilmiöllä ei siis edes teoriassa ole mielekkäitä arvoja mittausajankohtien välillä. Myös silloin kun mittausajankohdat eivät ole säännöllisen tasavälisiä, eli esimerkiksi kaikilta vuosilta ei ole olemassa tietoja, kuviotyypiksi tulisi valita pystypylväskuvio.
Katso esimerkkiä 6, jossa mittaustulokset saavat myös negatiivisia arvoja.
Julkisyhteisöjen alijäämä suhteessa bruttokansantuotteeseen lasketaan vain vuosittain, joten ei ole edes olemassa teoreettisia arvoja mittausajankohtien välillä.
Muutosprosentit voivat luonnollisesti saada myös negatiivisia arvoja, jolloin pystypylväskuvion pylväät osoittavatkin alaspäin. Pystypylväskuviossa negatiivisten arvojen ero ja niiden "kertymä" suhteessa positiivisiin korostuu selvästi viivakuviota paremmin.
Kuvio. Julkisyhteisöjen EDP-alijäämä (-), suhteessa bruttokansantuotteeseen
Pystypylväskuvioissa voidaan x-akselilla ajan sijasta esittää myös joku muu jatkuva-arvoinen tai järjestysasteikollinen muuttuja, kuten esimerkiksi ikä-, varallisuus- tai koulutusluokat. Jos tutkittava muuttuja ei ole jatkuva-arvoinen tai järjestys-asteikollinen, vaan laatueroasteikollinen, oikea kuviotyyppi onkin vaakapylväskuvio.
Pystypylväskuvion tavoin myös vaakapylväskuviolla korostetaan asioiden määrällisiä eroja eli paljonko jotain on suhteessa johonkin muuhun. Vaakapylväskuvio ei kuitenkaan ole pystypylväskuvion suora vaihtoehto, vaan sitä tulisi käyttää silloin, kun käytetty luokitus on laatueroasteikollinen. Toisin sanoen vaakapylväskuvio on oikea valinta silloin, kun luokilla ei ole olemassa mitään ennalta määrättyä yksiselitteistä järjestystä.
Vaakapylväskuviossa käytetään tehokeinona usein laskevaa suuruusjärjestystä, jolloin eri luokkien erot hahmottuvat paremmin ja tulkinta nopeutuu. Tällöin vaakapylväskuvio toimii ikään kuin visuaalisena rankingjärjestyksenä, jossa merkittävimmät luokat on nostettu esiin. Tämä näkyy hyvin Suomen kansalaisuuksia lähtömaan mukaan kuvaavassa esimerkissä 7.
Kun vaakapylväskuviossa esitetään palkit laskevassa suuruusjärjestyksessä, on kuviosta helppo hahmottaa suurimmat ja pienimmät arvot. Tästä kuviosta näet nopeasti, että venäläiset olivat suurin kansalaisuusryhmä, joka sai Suomen kansalaisuuden vuonna 2020. Seuraavina olivat Irakin, Somalian ja Viron kansalaiset.
Kuvio. Suomen kansalaisuuden saaneet entisen kansalaisuuden mukaan vuonna 2020
Pystypylväskuvion tapaan asteikon (tässä kuviotyypissä x-akselin) katkaiseminen ei ole sallittua, vaan vaakapalkkien pituuksien tulee olla suorassa suhteessa niiden numeerisiin suuruuksiin. Myös vaakapylväskuviolla voidaan esittää mittayksiköitä, jotka saavat negatiivisia arvoja. Tällöin kyseiset pylväät osoittavat vasemmalle.
Vaakapylväskuviossa voidaan lajittelun lisäksi hyödyntää muitakin tehokeinoja, kuten värejä, fontteja tai eri kirjainkokoja hahmottamista helpottamaan. Niiden avulla voidaan korostaa keskiarvoluokkia tai muulla tavoin erityisen mielenkiintoisia luokkia. Tällöin tulee huomioida myös tehokeinojen saavutettavuus. Esimerkiksi värien tulee erottua riittävästi toisistaan, kuten esimerkissä 8.
Kuviossa on esitetty EU-maiden suhteelliset hintatasoindeksit vuodelta 2020. Arvot on asetettu laskevaan järjestykseen, jolloin kuviosta on nopea havaita, että kalleinta on ollut Tanskassa ja edullisinta Romaniassa. Lisäksi kuviossa on korostettu selkeästi erottuvilla väreillä meitä suomalaisia erityisesti kiinnostavat luokat: Suomi ja Euroopan unionin maiden keskiarvo.
Kuvio. Suhteelliset hintatasot EU-maissa vuonna 2020
Lähteet: Comparative price levels (Eurostat)
Piirakkakuvio tunnetaan myös nimellä ympyrädiagrammi. Se koostuu ympyrästä, joka jaetaan lohkoihin eli sektoreihin. Kuvion tarkoituksena on osoittaa kunkin yksittäisen sektorin tai muutaman vierekkäisen sektorin osuus kokonaisuudesta. Piirakkakuvio ei sovellu eri lohkojen keskinäisten suhteiden vertailuun, vaan siihen sopii paremmin edellä esitelty vaakapylväskuvio.
Piirakkakuvio on käytännössä visualisoitu prosenttijakauma. Siinä kuvattujen luokkien tuleekin siis olla toisensa poissulkevia sekä muodostaa järkevä kokonaisuus (summana 100 prosenttia), josta ei ole jätetty mitään luokkia pois. Piirakkakuviolla esitettävän aineiston mittayksikön tulee luonnollisesti olla summautuva, kuten lukumäärät tai jo valmiiksi lasketut osuusprosentit.
Piirakkakuvio ei sovi esitystavaksi muutosprosenteille, indekseille, suhteutetuille luvuille tai muille vastaaville mittayksiköille, jotka eivät summaudu. Piirakka ei myöskään ole aikasarjakuvio. Eri viiteajankohtien tietoja ei siis ole lähtökohtaisesti mielekästä summata keskenään, vaikka ne lukumääriä olisivatkin.
Huomaat, että piirakkakuvio toimii sitä paremmin, mitä vähemmän siinä on lohkoja. Jos esitettävässä aineistossa on paljon luokkia tai yksittäisten luokkien osuudet ovat kovin pieniä, voi olla tarpeen yhdistää joitain luokkia tai ainakin yhdistää pienimmät luokat ns. kaatoluokaksi "Muut". Tällöin kuviosta tulee selkeämpi.
Piirakkakuviossa suositus on, että lohkot asetetaan laskevaan suuruusjärjestykseen kello 12:sta alkaen myötäpäivään, ellei luokilla ole yksiselitteistä järjestystä. Myös selkeästi toisistaan erottuvien värien käyttöä suositellaan. Kun piirakan lohkot vielä nimetään, on kokonaisuuden hahmottaminen entistäkin helpompaa. Tutustu Suomen elinkeinorakennetta kuvaavaan esimerkkiin 9.
Piirakkakuvio on selkeä, kun lohkoja on vähän, ne ovat selvästi erivärisiä ja aseteltu suuruusjärjestykseen. Lisäksi lohkojen selostukset prosenttiosuuksineen on merkitty kuvioon.
Vuonna 2021 Suomen elinkeinorakenne oli seuraavanlainen: Palvelut ja hallinto muodostivat kaikkein suurimman lohkon (74 %), teollisuus ja rakentaminen toiseksi suurimman (21 %) ja maa- ja metsätalous kolmanneksi suurimman (4 %). Viimeinen prosentti oli elinkeinoltaan tuntemattomia tapauksia.
Kuvio. Suomen elinkeinorakenne vuonna 2021
Saatat joskus törmätä piirakkakuvioon, jossa toisiinsa kiinteästi liittyvät lohkot on sijoitettu vierekkäin, vaikka ne eivät kokonsa puolesta siten sijoittuisikaan. Tämä onkin suositeltavaa juuri silloin, kun halutaan visuaalisesti korostaa asioiden yhteyttä. Tehokeinona voidaan lisäksi käyttää värityksessä yhden värin eri tummuusasteita.
Piirakkakuvio on hyvä esimerkki siitä, että aineisto ohjaa ensisijaisesti graafisen esitystavan valintaa ja käytettäviä tehokeinoja, eivätkä ehdottoman tiukat säännöt. Seuraavassa piirakkakuviossa ryhmäkohtainen sijoittelu on tästä esimerkki.
Kuviossa työvoimaa kuvaavat työlliset ja työttömät muodostavat loogisen sisältökokonaisuuden, ja ne on sijoitettu piirakan oikealle puolelle saman sinisen värin eri tummuusasteita hyödyntäen. Työlliset muodostavat 41 prosentin osuuden ja työttömät 6 prosentin osuuden. Loput sektorit eli työvoiman ulkopuolelle jäävät ryhmät on sijoitettu vasemmalle käyttäen toista väriä, purppuraa, tehokeinona.
Näistä suurimman osuuden muodostavat eläkeläiset, joita on 26 %. Toiseksi suurin ryhmä on 0−14-vuotiaat, joita on 16 %. Kolmanneksi suurin ryhmä on opiskelijat/koululaiset, joita on 8 %. Muut työvoiman ulkopuolelle jäävät muodostavat 3 prosentin suuruisen ryhmän.
Kuvio. Väestö pääasiallisen toiminnan mukaan vuonna 2020 (ennakko)