Siirry pääsisältöön
Tilasto-oppaat
Tilastokeskuksen etusivulle

Tilastojen lukutaito

3 Peruskäsitteet tutuiksi

3.1 Peruskäsitteiden tunteminen kannattaa

Edellä opit, että yksittäinen tilastoluku tulee ymmärrettäväksi vasta sitten, kun se esitetään suhteessa johonkin. Paljonko on paljon -kysymykseen on helpompi antaa vastaus nyt, kun tiedät, millaisiin asioihin lukujen tulkinnassa on tärkeää kiinnittää huomiota ja millaisissa tilanteissa on syytä olla tarkkana. 

Erityisen käyttökelpoisia ovat tässä osiossa tutuiksi tulevat tilastotietoa kuvaavat peruskäsitteet ja tunnusluvut. Perusjoukko, otos, keskiarvo, moodi, virhemarginaali – näiden tunteminen auttaa sinua tilastoihin perehtymisessä, sillä samat käsitteet toistuvat eri tilastoissa. Tässä osiossa pääset paneutumaan myös erilaisiin mitta-asteikkoihin.

3.2 Kaikki alkaa perusjoukosta

Perusjoukko on se joukko, jota tutkitaan. Kiinnostuksen kohteena voi olla esimerkiksi Suomen väestö, suomalaiset kotitaloudet, korkeasta verenpaineesta kärsivät, jonkin yrityksen asiakkaat tai vaikkapa kaikki metsäkoneet. Perusjoukosta käytetään myös tarkempaa nimitystä kohdeperusjoukko.

Perusjoukko on yksi keskeisimmistä käsitteistä tilastotiedon tulkinnassa. Kun ymmärrät, mistä joukosta on kyse ja keitä tai mitä tulokset koskevat, voit huolettomammin tarkastella tuloksia ja tehdä niistä päätelmiä.

Verkkokyselyt ovat nykyisin suosittuja. Ne ovat nopeita ja niihin saadaan usein mukavasti vastauksia. Ongelmana on yleensä se, että niihin voi vastata kuka tahansa. Perusjoukon määritteleminen olisi erityisen tärkeää, sillä muuten on vaikea tietää, keitä tulokset koskevat. Näin ei valitettavasti useinkaan ole. Kun perusjoukkoa ei tiedetä, tuloksista vedetään vääriä johtopäätöksiä liian kevein perustein.

Esimerkki 1. Verkkokyselyn perusjoukko voi olla hämärä

Unettomuutta käsittelevien verkkosivujen yhteydessä on kysely unettomuudesta. Kyselyyn saadaan 1 500 vastausta. Voidaanko saatuja tietoja yleistää johonkin perusjoukkoon?

Vastaus: Ei voida. Voitaisiin ajatella, että kyselyyn vastanneet edustavat unettomuudesta kärsiviä, mutta ei ole oikein mitään keinoa selvittää, keitä verkkosivuilla vierailleet ovat olleet, miten vastaajat ovat valikoituneet tai edustavatko juuri noilla verkkosivuilla vierailleet ja kyselyyn vastanneet millään tavalla unettomuudesta kärsiviä.

Rekisterit väestö- ja yritystilastojen perustana

Väestörekisterissä on hyvin todennäköisesti sinunkin tietojasi. Esimerkiksi väestötilastot pohjautuvat kaikki suomalaiset kattavaan väestörekisteriin. Periaatteessa Suomen väestörekisteri sisältää kaikki Suomessa pysyvästi asuvat ihmiset. Siitä kuitenkin puuttuu äskettäin maahan muuttaneita ja vastasyntyneitä ihmisiä ja toisaalta siinä on ihmisiä, jotka ovat joko muuttaneet maasta pois tai kuolleet. Osa maassa asuvista ei rekisteröidy väestörekisteriin – yleensä kyse on täällä vain lyhyen aikaa asuvista, mutta joskus myös pitkään asuneista, esimerkiksi naapurimaiden kansalaisista, jotka ovat Suomessa töissä.

Yritykset löytyvät puolestaan yritys- ja toimipaikkarekisteristä. Tilastokeskuksen ylläpitämä yritys- ja toimipaikkarekisteri kattaa periaatteessa kaikki Suomessa toimivat yritykset. Siinä on samanlaisia päivittämiseen liittyviä ongelmia kuin väestörekisterissä. Erityisesti lopettaneiden yritysten poistuminen yritysrekisteristä on hidasta. Lisäksi joudutaan painiskelemaan määrittelyongelmien kanssa. Joskus voi esimerkiksi olla vaikeaa määritellä, mikä on ylipäätään yritys.

3.3 Otos avuksi perusjoukon tutkimiseen

Otos on varsinaisesta kohderyhmästä poimittu näyte, jonka perusteella voidaan saada kuva koko kohderyhmän eli perusjoukon ominaisuuksista. Näytteen otto tapahtuu tilastotieteen menetelmin. Näyte on tarpeen poimia siksi, että koko perusjoukkoa ei ole useinkaan mahdollista tutkia tai sitä ei edes kannata tutkia. Esimerkiksi kaikkien suomalaisten mielipiteen kysyminen olisi tilastotieteen näkökulmasta tehotonta ja myös äärettömän kallista, joten riittää, että suomalaisista poimitaan edustava otos.

Otantamenetelmiä on erilaisia

Yleensä otos valitaan arpomalla tai arpomista jäljittelevillä menettelyillä, jolloin otokseen päätyvät valikoituvat sattumanvaraisesti. Satunnaiset tekijät vaikuttavat jokaiseen yksittäiseen havaintoon, mutta kun sattumia on riittävän monta, ne kumoavat toisensa. Sattumanvaraisesti poimitusta otoksesta voidaan arvioida eli estimoida perusjoukkoa edustavia tunnuslukuja, esimerkiksi keskiarvoa.

Arpomisen korvikkeena käytetään usein niin sanottua tasavälipoimintaa. Se voidaan tehdä luettelosta, jossa esimerkiksi ihmiset ovat satunnaisessa järjestyksessä. Otos voidaan tällöin poimia luettelosta siten, että valitaan kohteita mukaan tasavälein (esim. joka viides).

Esimerkki 2. Tasavälipoiminta

Suomalaisista voidaan poimia satunnaisotos laittamalla koko väestö nimen mukaan aakkos- tai asuinpaikan mukaiseen järjestykseen. Kun tästä runsaan 5,5 miljoonan nimen listasta poimitaan joka 5 000:s, saadaan kokoon 1 100 hengen satunnaisotos suomalaisista.

Muita otantamenetelmiä ovat esimerkiksi ositettu otanta ja ryväsotanta. Edellisessä pyritään varmistamaan, että otos on mahdollisimman edustava tutkimuksen kannalta merkittävissä ryhmissä. Käytännössä kyse on siitä, että haluttujen ryhmien osuus on otoksessa edustettuina samassa suhteessa kuin perusjoukossa.

Ryväsotannassa puolestaan otanta tehdään vaiheittain käyttäen hyväksi erilaisia ryhmiä eli otosryppäitä. Usein ensin valitaan suurien ryppäiden joukosta ensimmäisen vaiheen otosryppäät ja sen jälkeen näiden otosryppäiden sisältä lopullinen otos. Eli jos halutaan selvittää kuntalaisten mielipiteitä, voidaan ensin poimia otos kunnan alueista ja sen jälkeen varsinainen otos valittujen alueiden asukkaista. Ryväsotantaa käytetään usein suurissa haastattelututkimuksissa ja tilanteessa, jossa perusjoukosta ei ole olemassa kattavaa listaa. Jos kiinnostuit otantamenetelmistä, lue lisää Otanta-asetelma ja otos -osiosta.

Otoksen koko on tärkeä

Otoksen koko usein ratkaisee, kuinka tarkkoja tuloksia aineistosta saadaan ja millaisissa osajoukoissa tuloksia voidaan tarkastella. Jos otos halutaan jakaa moniin alaryhmiin ja sanoa niistä jotakin luotettavaa, on otoksen kokoa kasvatettava. Tutkittavan perusjoukon koolla ei yleensä ole merkitystä otoksen koon määrittelyssä.

Tilastoalalla yleisesti hyväksytyn ajattelun mukaan 1 000 hengen satunnaisotoksen perusteella voidaan perusjoukon ominaisuuksia arvioida muutaman prosenttiyksikön tarkkuudella. Virhemarginaali kasvaa nopeasti jopa yli kymmenen prosenttiyksikön suuruiseksi, kun otoskoko pienenee.

Virhemarginaalilla tarkoitetaan sitä väliä, jolle tulokseksi saatujen arvojen satunnainen vaihtelu todennäköisesti asettuu. Tästä voit lukea tarkemmin jäljempänä (3.7 Luottamusvälit ja virhemarginaalit kertovat tulosten luotettavuudesta).

3.4 Kaikki eivät kyselyihin vastaa

Ideaalitilanteessa perusjoukko tunnetaan ja siitä osataan poimia tutkimuksen kannalta paras otos kuvaamaan koko perusjoukkoa. Valitettavasti otokset eivät aina edusta perusjoukkoa täydellisesti. Joskus voi olla vaikea määritellä perusjoukkoa, josta otos pitäisi poimia tai voi olla hankalaa löytää perusjoukon lähdettä. Toisinaan taas otokseen valikoitumisessa tapahtuu virheitä.

Puhelinnumerotiedoissa on nykyisin suuria puutteita. Matka- ja älypuhelinten aikana pysyvien liittymien rinnalle on tullut käyttöön pre paid -liittymiä, joita käytetään usein lyhytaikaisesti, eivätkä numerot tallennu järjestelmiin. Väestörekisterin tiedot päivittyvät joskus myös viiveellä, mikä vaikeuttaa ajantasaisen tiedon hyödyntämistä. Mutta kyse voi olla muustakin.

Otoksen alipeitto, ylipeitto ja kato heikentävät tulosten tulkintaa

Alipeitto kuvaa tilannetta, jossa otokseen periaatteessa kuuluva henkilö syystä tai toisesta jää otannan ulkopuolelle. Jos alipeitto on laajaa, on selvää, että tällä on vaikutusta tuloksiin. Alipeitto on esimerkiksi kyseessä silloin, jos kotitalouteen on muuttanut henkilöitä otoksen poiminnan jälkeen, eikä sitä oteta huomioon.

Maahanmuuttoa kuvaavissa tilastoissa alipeitto voi tarkoittaa tilannetta, jossa muuttoilmoitus on jäänyt tekemättä. Verkkokyselyissä puolestaan henkilöt, joilla ei ole tietokonetta, jossa on internetyhteys, jäävät alipeittoon, vaikka he muutoin kuuluisivatkin otokseen ja tutkittavaan kohderyhmään.

Ylipeitto puolestaan tarkoittaa sitä, että otokseen valikoituu edelleen henkilöitä, jotka eivät sinne enää kuuluisi. Esimerkiksi maasta muuttanut tai laitokseen siirtynyt henkilö tai vastikään kuollut ovat tällaisia. Tulosten kannalta ylipeitolla on vähemmän merkitystä, ja se on korjattavissa usein vaivatta.

Kato on erittäin tärkeä käsite tulosten tulkinnan näkökulmasta. Se rajoittaa tulosten edustavuutta eli kato heikentää tulosten luotettavuutta. Kadolla tarkoitetaan sitä, että kaikilta otokseen kuuluvilta ei saada kerätyksi tietoja. Osaa ei tavoiteta, osa kieltäytyy vastaamasta tai ei kykene vastaamaan esimerkiksi puutteellisen kielitaidon vuoksi. Suurimmat haasteet nykyisin liittyvätkin oikeiden ihmisten tavoittamiseen ja heidän suostuttelemiseensa vastaamaan. Välinpitämättömyys ja kieltäytyminen ovat hyvin yleisiä syitä kadolle. Katoa korjataan usein painokertoimien avulla, jolloin kadon vaikutusta tuloksiin saadaan vähennettyä.

3.5 Keskiarvo, mediaani ja moodi

Peruskäsitteiden lisäksi tarvitset tilastollisia tunnuslukuja tilastojen ymmärtämiseksi. Tunnuslukujen tarkoituksena on kuvata muuttujan jakaumaa eli sen saamia erilaisia arvoja. Keskiarvo on tyypillisin tunnusluku, muita ovat mediaani ja moodi. Näistä käytetään myös termiä keskiluku. Keskiluvulla halutaan ilmaista jakauman keskikohta, keskimääräinen, tyypillinen tai yleisin arvo.

Luokittelematon aineisto on ns. raakadataa, johon ei ole tehty luokituksia. Siitä keskilukujen laskeminen on vaivatonta, joskin joskus luokiteltu aineisto helpottaa tiedon hahmottamista ja ymmärtämistä. Jos esimerkiksi ikää tarkastellaan prikulleen syntymähetken perusteella, on tietojen vertailu hankalaa. Jos ikäjakaumaa tutkitaan sen sijaan esimerkiksi 10-vuotisikäluokissa, on tulosten tulkinta helpompaa.

Keskiarvo

Keskiarvo on tilastollisista tunnusluvuista käytetyin ja tunnetuin. Keskiarvon saamiseksi lasketaan yhteen kaikkien havaintojen mittausarvot ja jaetaan tulos havaintojen lukumäärällä. Joskus on niin, että keskiarvo kertoo vain vähän itse aineistosta. Saattaa olla, että keskiarvo on aineistossa poikkeava arvo, eikä se tällöin ole kovin luotettava kertomaan, mistä on kyse.

Keskiarvo soveltuu vain suhdelukuasteikolla (esim. raha, paino, pituus) tai välimatka-asteikolla (esim. lämpötila, indeksi) kuvattujen jakaumien kuvaamiseen. Mitta-asteikkoihin tutustut myöhemmin tässä oppaassa (3.8 Mitta-asteikoilla eriasteista tarkkuutta tuloksiin).

Esimerkki 3. Keskiarvon laskeminen

Yhdeksän lapsen pituudet ovat: 100 cm, 130 cm, 165 cm, 182 cm, 130 cm, 153 cm, 130 cm, 100 cm ja 153 cm. Kun haluat tietää, mikä tämän ryhmän keskipituus on, laske keskiarvo summaamalla kaikki pituudet ja jakamalla tulos havaintojen määrällä eli yhdeksällä. Vastaukseksi saat 138 cm.

9 piirroskuvaa ihmisistä satunnaisessa pituusjärjestyksessä. Pituudet ovat 100 cm, 130 cm, 165 cm, 182 cm, 130 cm, 153 cm, 130 cm, 100 cm ja 153 cm.

Tämän ryhmän keskipituus lasketaan:

(100+130+165+182+130+153+130+100+153) jaetaan 9:llä =138 cm

Mediaani

Keskiarvo ei sovellu joka tilanteeseen, joskus tarvitaan muitakin keskilukuja. Kun havainnot keskittyvät jakauman toiseen päähän tai jotkut havainnot poikkeavat keskimääräisestä huomattavasti, (aritmeettinen) keskiarvo antaa harhaanjohtavia tuloksia. Tällöin myös aineiston keskeiset piirteet voivat jäädä huomaamatta. Parempi keskiluku esimerkiksi tuloja kuvattaessa onkin mediaani.

Mediaani ilmoittaa pisteen, joka jakaa jakauman kahteen osaan siten, että molemmissa osissa on puolet havainnoista. Mediaani ei ole yhtä herkkä poikkeaville ääriarvoille kuin (aritmeettinen) keskiarvo. Siksi sitä käytetään järjestysasteikollisten jakaumien ohella myös suhdelukuasteikollisten jakaumien kuvaukseen. Mitta-asteikoista kerrotaan lisää hieman myöhemmin (3.8 Mitta-asteikoilla eriasteista tarkkuutta tuloksiin).

Mediaani on jakauman "tyypillinen" arvo, suuruusjärjestykseen asetettujen havaintoarvojen keskimmäinen arvo. Se voi olla myös kahden keskimmäisen keskiarvo tai jompikumpi keskimmäisistä arvoista, jos havaintoja on parillinen määrä. Esimerkiksi lukujen 1, 2, 3, 3, 4, 6, 7, 7 ja 7 mediaani on 4.

Esimerkki 4. Mediaanin laskeminen

Keskiarvoesimerkissä yhdeksän lapsen pituudet olivat: 100 cm, 130 cm, 165 cm, 182 cm, 130 cm, 153 cm, 130 cm, 100 cm ja 153 cm. Kun pituudet laitetaan pituusjärjestykseen (100 cm, 100 cm, 130 cm, 130 cm, 130 cm, 153 cm, 153 cm, 165 cm ja 182 cm), huomataan, että keskimmäinen havainto eli mediaani on 130 cm. Pituuksista saatu keskiarvo oli sen sijaan 138 cm.

9 piirroskuvaa ihmisistä pituusjärjestyksessä. Pituudet ovat suuruusjärjestyksessä: 100 cm, 100 cm, 130 cm, 130 cm, 130 cm, 153 cm, 153 cm, 165 cm ja 182 cm. Keskimmäinen havainto on 130 cm eli joukon mediaani.

Yksinkertaistaen puolet muuttujan arvoista on mediaania pienempiä ja puolet on mediaania suurempia. Tässä määritelmässä esimerkiksi aineiston suurimman arvon kymmenkertaistuminen ei vaikuta mediaaniin millään tavalla. Sen sijaan keskiarvoon tällainen muutos vaikuttaisi joskus ratkaisevasti. Poikkeavat havainnot vaikuttavat mediaaniin myös vähemmän kuin keskiarvoon.

Yksi hyvä esimerkki on tuloerot. Jos tarkasteltava asia on voimakkaasti polarisoitunut eli jakautunut kahtia, ei (aritmeettinen) keskiarvo anna oikeaa kuvaa tuloista. Erothan syntyvät tässä tapauksessa muun muassa ääripäiden suuresta etäisyydestä.

Esimerkki 5. Keskiarvon ja mediaanin ero: tuloerot

Palkkatulot ovat oiva esimerkki havainnollistamaan tunnuslukujen ongelmia, koska muuttuja saattaa saada epätavallisen suuria arvoja. Keskiarvoon vaikuttaa, jos aineistossa on esimerkiksi vain muutama todella hyvätuloinen henkilö.

Seitsemän henkilön kuukausitulot ovat seuraavat:

  •   1 200 €
  •   1 300 €
  •   1 450 €
  •   1 600 €
  •   2 300 €
  •   2 500 €
  • 15 000 €.

Alla olevassa taulukossa verrataan keskiarvoa ja mediaania. Alkuperäinen aineisto -sarakkeessa poikkeava havainto (15 000) on mukana ja Aineisto ilman suurinta arvoa -sarakkeessa ei. Poikkeavan suuren havainnon poistaminen pienentää selvästi keskiarvoa, mutta ei niinkään mediaania.

Taulukko. Keskiarvo ja mediaani tuloaineistossa
Keskiluku Alkuperäinen aineisto Aineisto ilman suurinta arvoa
Keskiarvo 3 621 1 725
Mediaani 1 600 1 525

Moodi

Keskiarvon ja mediaanin ohella myös moodi on keskiluku, jolla ilmaistaan tietoa muuttujasta. Luokittelemattoman aineiston moodi eli tyyppiarvo on se arvo, joka aineistossa esiintyy useimmiten. Esimerkiksi lukujonon 2, 2, 3, 4, 5, 9 ja 10 moodi on 2.

Luokitellun aineiston moodina ilmoitetaan yleensä sen luokan nimi tai keskikohta, jossa on eniten havaintoja. Esimerkiksi kokonaisansiot jaetaan euron luokkiin. Yleisin moodi on luokka, jossa on lukumäärällisesti eniten palkansaajia. Tulot voidaan jakaa eurojen mukaan luokkiin (esim. 1 000 euroa tai vähemmän, 1001‒2000 euroa, 2 001‒3 000 euroa jne.).

Kun jakauma perustuu laatueroihin, ovat keskiarvo ja mediaani käyttökelvottomia keskilukuja. Jos esimerkiksi kilpailuun osallistuu neljä naista ja kaksi miestä, on mahdotonta laskea keskiarvoa tai osoittaa mediaania. Tällöin ainoa mahdollinen keskiluku on tyyppiarvo eli moodi. Tässä tapauksessa se olisi nainen, joita on 4 kappaletta (miehiä 2).

Moodi soveltuu kaikille mitta-asteikoille. Yleensä moodia käytetään kuitenkin luokitteluasteikolliselle muuttujalle, jolle esimerkiksi keskiarvoa ei voi laskea. Muita tällaisia muuttujia ovat esimerkiksi koulutus ja siviilisääty. Jos aineisto on kovin pieni, myös moodista tulee epävarma keskiluku.

3.6 Jakauma paljastaa hajonnan

Keskiluvut kuvaavat yhtä pistettä kaikkien arvojen muodostamassa kokonaisjakaumassa. Jakauma kuvaa sitä, millaiselle välille arvot ovat jakautuneet ja montako kertaa sama arvo esiintyy tuloksissa.

Jakaumat ovat muodoltaan hyvin monenlaisia. Yleisimmin tunnettu jakauma on normaalijakauma, jota joskus kutsutaan myös Gaussin käyräksi. Siinä valtaosa havainnoista keskittyy keskiarvon lähelle, ja jakauma on symmetrinen.

Symmetrisyys tarkoittaa, että positiivisia poikkeamia keskiarvosta on suunnilleen saman verran kuin negatiivisia. Kun keskiarvosta edetään positiiviseen tai negatiiviseen suuntaan, havaintojen määrä vähenee. Normaalijakaumassa puolet havainnoista on korkeintaan keskihajonnan etäisyydellä keskiarvosta.

Kaikki jakaumat eivät tietenkään ole normaalijakaumia. Jakaumassa voi olla kaksi huippua tai jakaumat voivat olla vinoja. Vinolla jakaumalla tarkoitetaan sitä, että jakauman huippu sijaitsee jakauman toisessa reunassa. Suuri osa tilastollisista teorioista ja malleista on kuitenkin tehty normaalijakaumaa ajatellen. Ajatuksena on, että suurissa joukoissa asiat jakautuvat sattumanvaraisesti niin, että syntyy kellomainen normaalijakauma.

Joskus keskiarvo on satunnainen piste, joka löytyy laajalle levinneiden havaintojen keskeltä, eikä kerro kovinkaan paljon jakaumasta. Joskus taas keskiarvo on selkeä tiivistys toisiaan lähellä olevista havainnoista ja kertoo kaiken olennaisen koko jakaumasta. Esimerkiksi luottamus vallanpitäjiin tai poliisiin vaihtelee merkittävästi maailman maiden välillä, kun taas eurooppalaisten lukutaidottomien osuus väestöstä tuo maat selvästi lähemmäs toisiaan.

Hajonnan avulla ymmärrät myös keskiarvon merkityksen. Hajontalukuja on monia, mutta tässä oppaassa perehdyt kahteen hieman toisistaan poikkeavaan lukuun, vaihteluväliin ja keskihajontaan.

Vaihteluväli

Vaihteluväli kertoo, miten laajalle alueelle havainnot ovat asettuneet jollakin ulottuvuudella. Se on siis muuttujan suurimman ja pienimmän arvon välimatka. Mitä laajempi vaihteluväli, sitä vähemmän keskiarvo ennustaa yksittäisen havainnon suuruutta. Tämän huomasit edellä tuloja koskevassa esimerkissä.

Esimerkki 6. Vaihteluväli: palkansaajan säännöllisen työajan kuukausiansiot

Kymmenen palkansaajan säännöllisen työajan kuukausiansiot (euroina) ovat seuraavat:

  • 1 294
  • 1 766
  • 1 758
  • 1 422
  • 2 611
  • 2 139
  • 2 136
  • 2 845

Pienin havainto on 1 294 euroa ja suurin 2 845 euroa. Sen perusteella vaihteluväli on [1 294, 2 845] ja vaihteluvälin pituus on 1 551 euroa (2 845 euroa – 1 294 euroa = 1 551 euroa).

 

Esimerkki 7. Vaihteluväli: Elinajanodote

Vastasyntyneen elinajanodote vaihteli maailman alueilla vuosien 20152020 tietojen mukaan seuraavasti:

  • Pohjoismaat 80,7‒82,6 vuotta → vaihteluväli 1,9 vuotta
  • Etelä-Amerikka 69,7‒80,0 vuotta → vaihteluväli 10,3 vuotta
  • Oseania 64,2‒83,2 vuotta → vaihteluväli 19,0 vuotta
  • Karibia ja Väli-Amerikka 63,5‒82,3 vuotta → vaihteluväli 18,8 vuotta
  • Muu Eurooppa, USA ja Kanada 71,7‒83,6 vuotta → vaihteluväli 11,9 vuotta
  • Afrikka 52,7–80,0 vuotta → vaihteluväli 27,3 vuotta
  • Aasia 64,3‒84,6 vuotta → vaihteluväli 20,3 vuotta

Vaihteluväli on pienin siellä, missä alueen sisäiset yhteiskunnalliset erot ovat vähäiset, kuten Pohjoismaissa. Myös havaintojen vähäinen määrä pienentää vaihteluväliä.

Lähde: UN World Population Prospects

Keskihajonta

Vaihteluvälin ohella myös keskihajonta on varsin käyttökelpoinen hajontaa kuvaava tunnusluku. Keskihajonta kertoo, miten keskittyneitä havainnot ovat ja miten kaukana havainnot keskimäärin ovat keskiarvosta. Mitä suurempi keskimääräinen etäisyys on, sitä vähemmän keskittynyt jakauma on. Keskihajonta voi olla pieni, vaikka jakauman vaihteluväli olisi suuri.

3.7 Luottamusvälit ja virhemarginaalit kertovat tulosten luotettavuudesta

Puolueiden kannatusmittausten uutisoinnissa olet saattanut kuulla termin virhemarginaali. Tilastotutkimuksissa puhutaan puolestaan usein luottamusvälistä. Molemmissa on kyse kuitenkin samasta asiasta – tietojen luotettavuuden arviointiin liittyvistä tilastollisista työkaluista.

Kun sanotaan, että jokin ero on tilastollisesti merkitsevä, tarkoitetaan sillä sitä, että ero ei jää virhemarginaalin sisään, jolloin se olisi tilastollisessa mielessä satunnaisvaihtelua. Satunnaisuuden tunnistaminen edellyttää tutkijalta tilastotieteellisen valppauden lisäksi aina tutkittavan ilmiön asiantuntemusta.

Satunnaisesti muodostettujen otosten koko vaikuttaa siihen, miten tarkkoja estimaatteja perusjoukosta voidaan esittää. Tilastollisten testien avulla selvitetään satunnaisvirheen merkitys aineistossa, ja tuloksena on aineiston estimaateille lasketut luottamusvälit eli niin sanotut virhemarginaalit.

Varsin yleisesti luottamusvälit (virhemarginaalit) määritellään 95 prosentin todennäköisyydellä. Se tarkoittaa, että saatu tulos on 95 prosentin todennäköisyydellä annetun virhemarginaalin rajojen sisäpuolella. Eli jos tutkimus toistettaisiin 100 kertaa, 95 kerralla tulos osuisi virhemarginaalin sisään ja viidellä kerralla sen ulkopuolelle.

3.8 Mitta-asteikoilla eriasteista tarkkuutta tuloksiin

Edellä opit joukon tärkeitä tilastotiedon tulkintaan liittyviä peruskäsitteitä. Seuraavaksi pääset tutustumaan mitta-asteikkoihin, joihin on jo useamman kerran viitattu.

Kun kerättyä tietoa tulkitaan, käytetyillä mitta-asteikoilla on merkittävä rooli tulosten esittämisessä. Mitta-asteikkoja on useita ja ne soveltuvat erilaisiin tilanteisiin. Esimerkiksi ikä ja syntymävuosi ovat tyypillisiä välimatka-asteikollisia muuttujia, joiden välimatkaa kuvaavana aikayksikkönä on yksi vuosi. Sukupuolta on puolestaan tavattu pitää dikotomisena muuttuja eli muuttujana, jolla on kaksi mahdollista arvoa. Sitä mitataan luokitteluasteikolla. Välimatka- ja luokitteluasteikon lisäksi voit seuraavaksi tutustua myös järjestys- ja suhdelukuasteikkoon.

Lisäksi mitta-asteikkoja voidaan erotella sen mukaan ovatko ne jatkuvia vai epäjatkuvia. Pituus on jatkuva ominaisuus, mutta esimerkiksi perhekoko ei – se sisältää vain kokonaislukuja. Jotta jatkuvaa muuttujaa voisi tarkastella esimerkiksi taulukossa, se pitää luokitella.

Luokitteluasteikko

Luokitteluasteikosta voidaan käyttää myös nimitystä luokittelutason asteikko, luokitusasteikko, laatueroasteikko tai nominaaliasteikko. Asteikko kuvaa laadultaan erilaisia ryhmiä. Sukupuoli on tyypillinen muuttuja, jolla on tällainen luokitteluominaisuus. Sukupuolen mukaan yksiköt (yksilöt) voidaan jakaa luokkiin – naiset ja miehet – eikä niiden välillä ole mitään järjestystä. Luokitteluasteikon numerot voidaan korvata myös symboleilla, eikä numeroista voi laskea keskiarvoa, vaan keskilukuna ilmaistaan suurin eli yleisin arvo siis moodi.

Esimerkki 8. Luokitteluasteikko: kansallisuus

Jos kokoat kaikkien pohjoismaalaisten lukumäärät yhteen tilastotaulukkoon, voit tarkastella eri kansallisuuksien yleisyyttä. Et kuitenkaan voi laskea niille keskiarvoa. Kansallisuus on muuttujan laadullinen ominaisuus, ei numeerinen. Keskiarvo ei ole siksi edes mielekäs tapa kuvata aineistoa. Voit sen sijaan osoittaa taulukosta yleisimmän arvon. Tässä tapauksessa suurin luokka on ruotsalaiset. 

Taulukko. Pohjolan kansat (väkiluku 2018, 1 000 henkeä)*
Kansallisuus Väkiluku
Suomalaiset 5 500
Ruotsalaiset 10 200
Tanskalaiset 5 800
Norjalaiset 5 300
Islantilaiset 400

*Taulukon luvut on esitetty tuhansina henkilöinä. Siis esimerkiksi islantilaisia on 400 000 henkeä.

Järjestysasteikko

Järjestysasteikko asettaa nimensä mukaisesti havainnot järjestykseen. Siitä käytetään myös nimitystä ordinaaliasteikko. Se ei kerro mitään havaintojen välisten erojen suuruudesta, eikä havainnoille voi laskea keskiarvoja. Järjestysasteikolle on kuitenkin tyypillistä, että sille voidaan paikantaa keskipiste: toiseen suuntaan ominaisuus vähenee ja toiseen kasvaa.

Yksi tunnetuimmista järjestysasteikoista on Likert-asteikko, jota käytetään erityisesti mielipidemittauksissa. Tällaisiin kysymyksiin olet saattanut törmätä. Niissä asenneväittämät esitetään usein muodossa:

  • täysin samaa mieltä
  • jokseenkin samaa mieltä
  • ei samaa eikä eri mieltä
  • jokseenkin eri mieltä
  • täysin eri mieltä.

Toinen vastaavanlainen esimerkki järjestysasteikon vastausvaihtoehdoista on:

  • aina
  • usein
  • joskus
  • harvoin
  • ei koskaan.

Tällä lailla voitaisiin kysyä esimerkiksi harrastuksiin liittyvästä toiminnasta. Koulutustasosta puhuttaessa käytetään usein väljää asteikkoa: perusaste – keskiaste – korkea-aste. Asteikko voi olla myös huomattavasti laajempi ja yksityiskohtaisempi.

Esimerkki 9. Järjestysasteikko: Kansallinen koulutusaste 2016

  • 0 Varhaiskasvatus ja esiopetusaste
  • 1 Alempi perusaste
  • 2 Ylempi perusaste
  • 3 Toinen aste
  • 4 Erikoisammattikoulutusaste
  • 5 Alin korkea-aste
  • 6 Alempi korkeakouluaste
  • 7 Ylempi korkeakouluaste
  • 8 Tutkijakoulutusaste
  • 9 Koulutusaste tuntematon

Perusasteen tutkinnon suorittaneet ovat käyneet kansa-, keski- tai peruskoulun. Toisen asteen tutkinnon suorittaneita ovat esim. ylioppilastutkinnon tai 1–3-vuotisen ammatillisen tutkinnon suorittaneet.

Alempaan korkeakouluasteeseen luetaan ammattikorkeakoulututkinnot ja alemmat korkeakoulututkinnot, kuten teknikon, merkonomin ja sairaanhoitajan tutkinnot.

Ylempään korkeakouluasteeseen luetaan esimerkiksi maisteritutkinnot. Tutkijakoulutusasteen tutkinnot ovat lisensiaatin ja tohtorin tutkintoja.

Lähde: Luokitukset, Koulutusaste

Välimatka-asteikko

Välimatka-asteikkoa käytetään numeeriseen mittaamiseen. Siitä käytetään myös nimeä intervalliasteikko. Sanansa mukaisesti välimatka-asteikon muuttujan arvot sijaitsevat säännöllisen välimatkan päässä toisistaan. Sen lisäksi luokkien välimatka on aina yhtä suuri. Keskiarvo voidaan laskea, mutta arvojen suuruussuhteita ei voi ilmaista.

Esimerkki 10. Välimatka-asteikko: lämpömittari (Celsius)

Tyypillinen välimatka-asteikko on lämpömittari (Celsius). Keskilämpötilaa käytetään usein kuvaamaan jonkin alueen ilmastoa, mutta ei voida sanoa, että jollakin alueella olisi kaksi kertaa niin lämmintä kuin jossakin toisessa paikassa. Esimerkiksi 100 ºC ei ole kaksi kertaa suurempi lämpötila kuin 50 ºC.

Välimatka-asteikolla on nollapiste, mutta se ei ole luonnollinen. Lämpömittarin Celsius-asteikko sisältää nollan, mutta se ei ole absoluuttinen nollapiste, kuten Kelvin-asteikossa. Celsius-asteikon nollassa vesi jäätyy, mutta nollaa pienemmät celsiusasteet ovat mahdollisia. Veden kiehumispiste on määritelty 100 celsiusasteeksi.

Aurinko paistaa kirkkaalta taivaalta. Lämpömittari näyttää 25 astetta. Mittarin asteikkoväli on noin -50 asteesta +50 asteeseen.

Joskus asteikkoa voidaan vaihtaa, jotta päästään kiinni tilastollisesti tuloksekkaampiin menetelmiin. Näin voidaan tehdä esimerkiksi asennemuuttujien kohdalla, jos järjestysasteikko muutetaan välimatka-asteikolliseksi. Lämpömittarin ohella toinen tyypillinen välimatka-asteikon muuttuja on syntymävuosi, jonka mittayksikkö on gregoriaanisen kalenterin vuosi. Asteikolla liikuttaessa mittayksikön verran, siirrytään aina yhtä pitkä aika.

Asennemuuttujien kohdalla järjestysasteikon vaihtuessa välimatka-asteikkoon voidaan vastausvaihtoehdot merkitä esimerkiksi näin:

  •  2 täysin samaa mieltä
  •  1 jossain määrin samaa mieltä
  •  0 ei samaa eikä eri mieltä
  • -1 jossain määrin eri mieltä
  • -2 täysin eri mieltä

Toisaalta numerointi voidaan merkitä yhtä hyvin esimerkiksi asteikolla:

  • täysin samaa mieltä (5)
  • jokseenkin samaa mieltä (4)
  • ei samaa eikä eri mieltä (3)
  • jokseenkin eri mieltä (2)
  • täysin eri mieltä (1)

Esimerkki 11. Välimatka-asteikko: asennemittari

Tunnet ehkä entuudestaan kuluttajien luottamusindikaattorin, josta uutisoidaan kerran kuukaudessa. Indikaattoriin on yhdistetty kansalaisten vastauksia kysymyksiin, jotka koskevat oman kotitalouden ja koko maan taloudellista tilannetta. Arvosta ei sinänsä voi päätellä oikein mitään, mutta kun sitä verrataan pitkäaikaiseen keskiarvoon (joulukuussa 2020 -4,6), voidaan todeta, onko taloudellinen mieliala optimistinen vai pessimistinen.

Tuorein tieto: Katso tuorein julkistus kuluttajien luottamuksesta.

Suhdelukuasteikko

Viimeisenä asteikkona tutustut suhdelukuasteikkoon, joka on hyvin lähellä edellä oppimaasi välimatka-asteikkoa. Suhdelukuasteikko edustaa korkeinta mittaamisen tasoa, ja sille on aina määriteltävissä absoluuttinen nollapiste.

Esimerkki 12. Suhdelukuasteikko: lämpömittari (Kelvin)

Kelvin-asteikkoa käytetään fysiikassa usein hyvin pienien lämpötilojen mittaamiseen. Kelvin-asteikossa on absoluuttinen nollapiste 0 ºK, jota pienemmäksi lämpötila ei voi pudota. Kelvin-asteikko on siis suhdelukuasteikko, toisin kuin Celsius-asteikko. Voidaan sanoa, että 100 ºK on kaksi kertaa suurempi lämpötila kuin 50 ºK. Kelvinasteet voidaan aina muuntaa celsiusasteiksi ja päinvastoin, joten mitta-asteikko saadaan tarvittaessa vaihdettua. Esimerkiksi 0 ºK = -273 ºC.

Muita suhdelukuasteikolla kuvattavia muuttujia ovat esimerkiksi pituus, paino, pinta-ala ja tulot. On selvää, että tämäntyyppisistä muuttujista voidaan laskea keskiarvot ja havainnot voidaan asettaa suuruusjärjestykseen.

Jos haluat mahdollisimman tarkan mittaustuloksen, kysy vastaajalta "Kuinka paljon ansaitset kuukaudessa ennen veroja?" tai "Minkä ikäinen olet?" Joskus kuitenkin liiallinen tarkkuustaso voi vastaajasta tuntua epämiellyttävältä ja hän kieltäytyy sen takia vastaamasta. Tällöin parempi vaihtoehto voi olla tarjota valmiita välimatka-asteikollisia vastausluokkia, joista vastaaja voi valita itselleen mieluisimman.

Esimerkki 13. Vastausvaihtoehtojen luokittelu: tulot

Kysymyksen "Kuinka paljon ansaitset kuukaudessa ennen veroja?" vastausvaihtoehdot voidaan luokitella näin:

  • 0–1499 euroa
  • 1500–2 499 euroa
  • 2 500–3 499 euroa
  • 3 500–4 499 euroa
  • 4 500–5 000 euroa
  • 5 000–

Kertaa käsitteitä

  • Alipeitto on kyseessä silloin, kun osa otokseen periaatteessa kuuluvista ihmisistä tai yrityksistä jää otannan ulkopuolelle.
  • Jakauma kuvaa muuttujan eri arvojen suhteellista osuutta, tunnetuin on normaalijakauma.
  • Järjestysasteikko on mitta-asteikko, jolla voi asettaa havainnot järjestykseen, esim. Likert-asteikko. 
  • Kato tarkoittaa niitä otokseen kuuluvia, joilta ei ole saatu kerätyksi tietoja (esim. ei tavoiteta tai kieltäytyvät vastaamasta).
  • Keskiarvo saadaan laskemalla yhteen kaikkien havaintojen mittausarvot ja jakamalla summa havaintojen lukumäärällä.
  • Keskihajonta kertoo, miten keskittyneitä havainnot ovat eli miten kaukana havainnot keskimäärin ovat keskiarvosta.
  • Luokitteluasteikko eli laatueroasteikko on mitta-asteikko, jolla voidaan luokitella havainnot luokkiin vailla mitään järjestystä, esim. sukupuoli.
  • Luottamusvälit eli virhemarginaalit kertovat tulosten luotettavuudesta, esimerkiksi että tulos osuu 95 prosentin todennäköisyydellä virhemarginaalin sisään.
  • Mediaani on keskimmäinen havainto eli se jakaa jakauman kahteen osaan siten, että molemmissa osissa on puolet havainnoista.
  • Moodi on muuttujan arvoista yleisin.
  • Otos on varsinaisesta kohderyhmästä poimittu näyte, jonka perusteella voidaan saada kuva koko kohderyhmän ominaisuuksista
  • Perusjoukko on se joukko, jota tutkitaan, esim. kaikki Suomessa asuvat.
  • Suhdelukuasteikolla on aina absoluuttinen nollapiste ja se edustaa korkeinta mittaamisen tasoa, esim. pituus, paino sekä raha- ja lukumäärämitat.
  • Vaihteluväli kertoo, miten laajalle alueelle havainnot ovat asettuneet jollakin ulottuvuudella. On siis muuttujan suurimman ja pienimmän arvon välimatka.
  • Välimatka-asteikko on mitta-asteikko, jossa luokkien välimatka on aina yhtä suuri, esim. lämpömittari ja kalenteri, jolla mitataan aikaa päivissä.
  • Ylipeitto on kyseessä silloin, kun otokseen tulee esim. ihmisiä, jotka eivät (enää) kuulu kohdeperusjoukkoon (esim. maasta muuttaneet ja kuolleet).

Tutustu Tilastokeskuksen koko käsitekantaan.