Siirry pääsisältöön
Tilasto-oppaat
Tilastokeskuksen etusivulle

Tutkimusaineistot etäkäytössä

5 Etäkäytön hyvät käytännöt

5.1 Järjestelmäresurssit

Tässä osiossa kerrotaan etäkäyttöpalvelun toimintatavoista. Lisäksi opit tehokkaan ohjelmoinnin perusperiaatteita, projektien hallintaa etäkäyttöpalvelussa sekä järjestelmäresurssien järkevää käyttöä.

Tehokas ohjelmointi alkaa suunnittelulla

Tehokkaan ohjelmoinnin taustalla on hyvä suunnittelu. Tavoitteena on tehdä yhtenäinen ja järkevästi jaoteltu ohjelmakoodi, jonka avulla voit tuottaa tulokset uudelleen nopeasti. Ohjelman tulisi olla selkeästi kommentoitu ja mahdollisimman pitkälle automatisoitu. Makrojen ja erilaisten silmukoiden avulla voit tarvittaessa muuttaa koodia tarpeidesi mukaan esim. eri aikaväleille ja muuttujasisällöille (Statassa ks. program). Koodin kopioimista kannattaa välttää, koska tällöin myös virhealttius kasvaa.

Hyvänä periaatteena on, että analyysin kannalta kannattaa turhat muuttujat ja tiedot poistaa ohjelmassa heti, kun niitä ei tarvita. Päällekkäisten aineistojen ja välitiedostojen tallentamista ei suositella. Statassa aineistoa on mahdollista rajata jo tiedoston avausvaiheessa valitsemalla vain tarvittavat muuttujat (use var1 var2 var3 using datax).

Ohjelmien suunnittelua varten kannattaa muodostaa pieni harjoitusdata, jota voit nopeasti ja resursseja säästäen pyöritellä siihen asti, kunnes lopullinen ohjelma hahmottuu. Demodataa varten otat pienen otoksen koko aineistosta (katso esimerkki 1). Ylimääräiset muuttujat, vuodet, toimialat, alueet ja henkilöryhmät kannattaa myös rajata pois heti alussa.

Esimerkki 1. Satunnaisotos

Näillä koodeilla voit esimerkiksi harjoitusdataa varten ottaa satunnaisotoksen Statassa:

  • 5 %:n satunnaisotos: sample 5
  • 5 %:n otos niille, joilla vuosi on 2000, ja koko populaatio niistä, joilla vuosi ei ole 2000: sample 5 if vuosi==2000
  • 10 000 henkilön otos: sample 10000, count

Asettamalla ensin set seed alkuluku, esim. set seed 10000, saat tulokseksi aina saman satunnaisotoksen.

 

Tulosten tarkastusta silmälläpitäen myös tulosten muoto ja tulkittavuus tulisi huomioida jo alussa. Pitkien log-tiedostojen sijaan tulisi tuottaa erillisiä tulostaulukoita tai -kuvioita, jotka on selkeästi nimetty. Myös muuttujien tietosisällön tulisi olla ymmärrettävä. Kussakin taulukon rivissä tulee näkyä havaintojen lukumäärä. Ohjelmaan kannattaa määritellä ehto, ettei havaintojen lukumäärä saa olla alle kolmen (katso esimerkki 2). Minimit ja maksimit eivät yleensä mene tietosuojatarkastuksesta läpi, joten ne kannattaa poistaa jo valmiiksi.  

Ja lopuksi, muistathan tallentaa riittävän usein! Varmuuskopiointi kerran vuorokaudessa takaa, etteivät tallenteesi häviä, jos esim. palvelimiin sattuisi tulemaan toimintahäiriö.

Esimerkki 2. Tiedostojen suojaaminen

Tällä koodilla voit suojata kaikki kansiossa O:\output_date olevat Statan dta-muotoiset tiedostot, joiden nimet päättyvät _date ja joissa on valmiiksi laskettuna havaintojen lukumäärä n_obs kullakin rivillä. Huom. ohjelma tallentaa uuden tiedoston aina vanhan päälle saman nimisenä siten, että kaikki alle 3 havainnon solut on poistettu.

global output_date "O:\output_date\"
cd "${output_date}"
local listaa: dir . files "*_date.dta"
foreach x of local listaa {
 use "`x'", clear
 cap drop if n_obs <= 3
 cap saveold "`x'", replace
 if _rc!=0 {
 save "`x'", replace

Näin hallitset projekteja eri kansioilla

Työskentely etäkäyttöympäristössä vastaa tavallisella Windows-työasemalla työskentelyä. Projektit on nimetty juoksevin numeroin alkaen esimerkkiprojektista a01.

Kullakin hankkeella on käytössään seuraavat levyasemat:

W:\a01 Work
työhakemisto
O:\a01 Output
hakemisto tulosten siirtoa varten
D:\a01 Data
tutkijapalveluiden valmis- ja projektikohtaiset räätälöidyt aineistot, metadata sekä SISU-malli
E:\a01 Backup
pienempi hankekohtainen levy varmuuskopioiden säilyttämistä varten
N:\
CRAN-repositorio R-paketeille

 

Työkansio W

Kullekin tutkimushankkeelle varataan työkansio W:\a01, jossa voit säilyttää hanketta koskevat ohjelma- ja työtiedostot yms.

O-hakemisto tulosten siirtoa varten

Julkaistaviksi tarkoitetut tulostiedostot viedään kansioon O tietosuojatarkastusta varten. Voit luoda omia alakansioitaan kansioihin W ja O, mutta niistä on hyvä myös säännöllisesti poistaa tarpeettomat kansiot, tiedostot ja tulokset, jotka on jo sinulle siirretty.

Tutkijapalveluiden aineistot ja aineistokuvaukset D:llä

Lukuoikeudet D:n valmisaineistokansioihin saat hankekohtaisen tai SISU-mallin käyttöluvan mukaisesti. Hankkeelle räätälöidyt aineistot ja niiden kuvaukset löytyvät myös D:ltä. Valmisaineistoja koskevat kuvaukset sijaitsevat metadatakansiossa. Samasta kansiosta löytyvät myös tutkijapalveluiden säännöt sekä ajankohtaiset tiedotukset esimerkiksi aineistopäivityksistä.

Varmuuskopioiden pitkäaikaista säilyttämistä varten tutkimushankkeille on varattu pienempi E-levy. CRAN-repositoriosta voit ladata tutkimushankkeellesi R-ohjelmiston paketteja. 

SISU-mallin käyttäjille 

SISU-mallin voit kopioida D:n mikrosimuloinnin SISU-kansiosta omaan työkansioosi W:lle. Uusista malliversioista informoidaan käyttäjiä erikseen.

Yhteinen F-kansio

Mikrosimulointi-mallin käyttäjät voivat myös yhteisen Forum-kansion (F) kautta jakaa mallin käyttämistä koskevia tiedostoja etäkäyttöympäristössä muiden käyttäjien kesken.

Henkilökohtainen Mail-sähköpostikansio

Jokaisella SISU-mallin käyttäjällä on etäkäyttöympäristössä oma henkilökohtainen Mail-sähköpostikansio, jonka kautta tiedostoja voit siirtää etäkäyttöympäristöstä omalle työasemallesi. Jokaisesta Mail-kansioon kopioidusta tiedostosta saat erillisen sähköpostiviestin, jonka liitteenä on kansioon kopioitu tiedosto. Tilastokeskus tarkastaa siirrettävät tiedostot jälkikäteen Mikrosimuloinnin sähköpostista.

Tutkimustulosten tietosuojavaatimuksista ja tulosteiden suojaamisesta ja tarkastusmenettelystä kerrotaan tarkemmin luvussa 3 Tutkimusaineistojen tilastollinen tietosuoja.

Olet velvollinen noudattamaan siirrettäviin tietoihin liittyen tutkijapalveluiden etäympäristöä koskevia ohjeita ja sääntöjä, joista on kerrottu tarkemmin tutkijapalveluiden säännöissä.

Näin säästät laskenta- ja ohjelmistoresursseja

Järjestelmässä on käytössä hankekohtaiset laskenta- ja ohjelmistoresurssit. Tämän vuoksi vältä  raskaita yhtäaikaisia ajoja sekä turhaa muistin kulutusta tai varaamista. Isommat ajot kannattaa ajoittaa yöksi tai viikonlopuksi. Tällöin sulje etäyhteysikkuna (disconnect), mutta älä kirjaudu ulos. Omaa resurssien käyttöä voit seurata tehtävienhallinnasta esimerkiksi painamalla näppäimiä ctrl+shift+esc. Omien hankekansioiden levytilan käyttöä kannattaa seurata kansion ominaisuuksista. Tutkimushankkeen käyttöön voi tarvittaessa ostaa lisää levytilaa tai kasvattaa konepaketin kokoa.

Aika ajoin on hyvä kirjautua kokonaan ulos etäkäytöstä valitsemalla sign out, jotta huoltokatkojen päivitykset asentuvat. Uloskirjautuminen ja etäyhteyden katkaiseminen säästää resursseja hankkeen muiden käyttäjien käyttöön isompia ajoja varten.

Laskentaan käytetyn tehon ja säilytyskapasiteetin välinen kompromissi kannattaa arvioida koodatessa. Joskus on järkevämpää säilyttää välitulokset eri vaiheista laajasti, jotta hidasta ohjelmaa, esim. pitkää estimointia tai simulointia, ei tarvitse ajaa aina uudelleen. Toisaalta nopeat koodit, kuten kuvaileva analyysi tai tulostaulukot, voit hyvin ajaa uudelleen, jos on tarvetta muutoksiin.

Näin teet asennuspyynnön

Etäkäytön ohjelmistoihin (esim. Stata) voidaan asentaa lisäpaketteja tai etäkäyttöön voidaan lisätä kokonaan uusia ohjelmistoja. Jokainen lisäasennus kuitenkin arvioidaan esimerkiksi yhteensopivuuden, potentiaalisten ongelmien sekä tietosuojan näkökulmasta, joten asennuspyyntöjen tulisi olla harkittuja ja perusteltuja. 

Liitä vähintään seuraavat tiedot asennuspyyntöön tutkijapalveluille:

  • kohdeohjelman nimi ja versio 
  • asennettavan paketin nimi ja versio (esim. tables)
  • ohjeet, mistä ohjelma/paketti voidaan ladata
  • kuvaus, mitä ohjelma/paketti tekee ja mihin sitä tarvitaan.

Jos asennuspyyntö hyväksytään, ohjelma asennetaan etäkäyttöjärjestelmään tyypillisesti muutaman työpäivän sisällä. Vaativammat asennukset suoritetaan seuraavan etäkäyttöjärjestelmän huoltokatkon yhteydessä.

R-paketit ovat ladattavissa CRAN-kirjastosta. Etäkäyttöjärjestelmän työpöydällä on ohje "CRAN_library_RStudio", jossa neuvotaan, miten CRAN-kirjaston saa käyttöönsä etäkäyttöjärjestelmässä.

5.2 Miten toimit virhetilanteissa?

Etäkäyttöjärjestelmä on verrattain monimutkainen tietotekninen kokonaisuus. Toisinaan voi käydä niin, että jonkin osan virheellinen toiminta johtaa järjestelmän häiriötilanteeseen, jolloin esimerkiksi sisäänkirjautuminen ei useista yrityksistä huolimatta onnistu.

Ota yhteyttä tutkijapalveluihin

Etäkäyttöjärjestelmän huoltokatkoista ja ongelmatilanteista tiedotetaan tutkijapalveluiden FIONA-etäkäyttöjärjestelmä -sivulla.

Virhetilanteessa ota yhteyttä tutkijapalveluihin sähköpostitse: tutkijapalvelut@stat.fi tai mikrosimulointi@stat.fi.

Ilmoita virheet mahdollisimman tarkasti

Virhetilanteista ilmoittaessasi olennaista on kuvailla mahdollisimman tarkasti tilanteeseen johtaneet toimet. Virheen paikantamista ja korjaamista helpottaa, jos ilmoituksestasi käy ilmi:

  • missä vaiheessa virhe on ilmennyt
  • mitä teit ennen virhettä
  • millainen virhetilanne on
  • mitä ohjelmia olet käyttänyt
  • hankekoodi.

Laita sähköpostin liitteeksi mahdollisuuksien mukaan kuvakaappaus virhetilanteesta ja kirjoita mahdollisen virheilmoituksen sisältö. Kuvakaappausta ei kuitenkaan tietosuojan takia ole mahdollista ottaa varsinaisen etätyöpöydän sisällöstä. Tarvittaessa virhetilanteen selvittelyn vaatima keskustelu ohjataan IT-asiantuntijalle.

Virhetilanteen etenemisestä on hyvä ilmoittaa tutkijapalveluihin myös siinä tapauksessa, että saatu ohjeistus tai tehdyt korjaustoimenpiteet poistavat ongelman. Näin voidaan saada varmistus ongelman ratkeamisesta. Muutoin jatketaan tilanteen selvittelyä.

Kaikki virhetilanteet eivät vaadi yhteydenottoa

Joissain tapauksissa vastaantuleva virhetilanne saattaa olla entuudestaan tuttu esimerkiksi saman organisaation tutkijakollegoille. Onkin suositeltavaa kysyä, onko joku kollegoista joskus törmännyt samaan ongelmaan ja saanut sen ratkaisuun jo ohjeistuksen.

Tyypillisin virhetilanne, joka ei välttämättä vaadi yhteydenottoa, on käyttäjätilin lukittuminen. Kirjautumisen yhteydessä esimerkiksi väärin kirjoitetusta salasana saa käyttäjätilin väliaikaisesti lukittumaan. Etäkäyttöjärjestelmässä on automaattinen aikakatkaisu lukituksen poistolle. Käyttäjätili aukeaa automaattisesti 30 minuutin karanteenin jälkeen. Mikäli 30 minuutin odottamisen jälkeen kirjautuminen ei vieläkään toimi, ota yhteyttä tutkijapalveluihin. Varmista myös, että valitsemasi tunnistautumisen tapa on sama kuin tunnusten luonnin yhteydessä määritelty.

5.3 Projektin päättyessä

Projekti päättyy, kun tutkimushankkeelle saamasi käyttölupa umpeutuu. Tarvittaessa voit tätä ennen tehdä selkeän kirjallisen ilmoituksen siitä, että projekti on valmistunut eikä pääsyä aineistoihin enää tarvita.

Pyydä tulokset ja koodit ajoissa

Projektin päättymisen jälkeen kirjautuminen etäkäyttöjärjestelmään ei enää ole mahdollista. Tämän takia pyydä tutkijapalvelun henkilökuntaa hyvissä ajoin ennen käyttöluvan umpeutumista siirtämään sähköpostiisi julkaistavaksi tarkoitetut tulokset ja mahdollisesti tarvittavat koodit. Poista myös projektin kansioista projektin aikana syntyneet tarpeettomat tiedostot ja koodit.

Projektien kansiot säilytetään etäkäyttöjärjestelmässä vähintään kolme kuukautta projektin päättymisestä. Voit viimeistään projektin päättyessä jatkaa projektikansiossa olevien tiedostojen ja koodien säilyttämisaikaa sopimalla siitä Tilastokeskuksen kanssa erikseen.

Tarvitsetko lisäaikaa tai uuden käyttöluvan?

Voit hakea käyttöluvan jatkamista, mikäli tutkimuksesi on keskeneräinen. Tarvittaessa voit hakea laajennusta käyttölupaasi myös uusien käyttäjien tai tutkimusaineistojen lisäämiseksi hankkeeseen.

Mikäli haluat käyttää projektin kansioon tallennettuja aineistoja uudessa tutkimushankkeessa, hae tähän uusi käyttölupa. Mahdollisten referee-muutosten tekemistä varten varmista, että pääset käsittelemään koodeja ja tutkimusaineistoja myös jonkin aikaa tutkimuksen valmistumisen jälkeen.

Varmista, että tutkimushankkeen kaikkien käyttölupien voimassaolo on riittävän pitkä myös muiden kuin Tilastokeskuksen aineistoissa. Tilastokeskuksen aineistoihin linkitetyt muiden rekisterinpitäjien aineistot hävitetään etäkäyttöjärjestelmästä heti aineistoihin myönnettyjen käyttölupien umpeuduttua.

Ohjelmakoodit, joilla räätälöidyt tutkimusaineistot on muodostettu Tilastokeskuksen perusaineistoista, säilytetään Tilastokeskuksessa tutkimushankkeen ajan. Paneelitutkimuksissa voi olla syytä sopia ns. pseudoavaimen säilyttämisestä, jotta samoille otoshenkilöille voit päivittää tietoja uusista aineistoista.

Eihän aineistosta pysty tunnistamaan yksittäisiä henkilöitä?

Kun julkaiset tutkimustuloksia, varmista vielä kerran, ettei tuloksista pysty tunnistamaan edes välillisesti aineistossa olevia henkilöitä tai yrityksiä. Tilastokeskus tulee mainita tutkimusaineistojen lähteenä. Muistathan lähettää käyttölupaehtojen mukaisesti tutkijapalvelut@stat.fi -sähköpostiin kopion tai linkin julkaistuihin tutkimusraportteihin.

Anna palautetta

Onnea tuleviin projekteihin! Voit antaa palautetta tutkijapalveluille (tutkijapalvelut@stat.fi) kaikesta mahdollisesta liittyen aineistoihin, etäkäyttöön ja muihin palveluihin.

5.4 Tutkija, muistathan ainakin nämä

Tutkimusaineistojen etäkäyttäjän muistilista sisältää keskeisiä aineistoa käyttöä koskevia ja käyttäjäksi hakeutumisen periaatteita. Ne kannattaa pitää mielessä, kun valmistelet omaa tutkimustasi. Ja kun olet paneutunut tämän oppaan ohjeistuksiin, olet jo hyvän matkaa edistänyt oman tutkimustyötäsi.

  • Mikroaineistojen käyttöön vaaditaan Tilastokeskuksen myöntämä käyttölupa. Käyttölupa voidaan myöntää tieteellistä tutkimusta ja tilastollista selvitystä varten.
  • SISU-mikrosimulointimalli kuvaa Suomen henkilövero- ja sosiaaliturvajärjestelmää. Mallin avulla tehdään laskelmia mahdollisten henkilöverotukseen tai sosiaaliturvaan liittyvien lakimuutosten vaikutuksista väestöön ja julkiseen talouteen. 
  • Huolehdi tietosuojasta! Yksittäistä henkilöä, kotitaloutta, yritystä tai muuta tilastoyksikköä koskevien tietojen paljastuminen ulkopuolisille on estettävä.
  • Jos haet mikroaineistoja, täytä käyttölupahakemus ja toimita se allekirjoitettuna liitteineen Tilastokeskuksen kirjaamoon. Mikäli aineisto toimitetaan etäkäyttöjärjestelmään, Tilastokeskus laatii kanssasi sopimuksen tutkimuspalvelusta etäkäytössä.
  • FIONA-etäkäyttöjärjestelmän kautta pääset tutkijana käyttämään Tilastokeskuksen aineistoja suojatusti. Saat siirtää järjestelmästä pois tutkimustuloksia tai muuta materiaalia vain tarkastusmenettelyn kautta.

Anna palautetta oppaasta

Löysitkö mitä etsit? Jäitkö kaipaamaan jotain? Anna palautetta tästä oppaasta, niin teemme siitä entistä paremman. Lähetä kommenttisi sähköpostiosoitteeseen koulutuspalvelut@stat.fi.

Puun lehtiä syksyllä. Valokuvaan lehtien päälle on piirretty hymiöitä.