Tutkimusaineistot etäkäytössä
Tässä osiossa kerrotaan etäkäyttöpalvelun toimintatavoista. Lisäksi opit tehokkaan ohjelmoinnin perusperiaatteita, projektien hallintaa etäkäyttöpalvelussa sekä järjestelmäresurssien järkevää käyttöä.
Tehokkaan ohjelmoinnin taustalla on hyvä suunnittelu. Tavoitteena on tehdä yhtenäinen ja järkevästi jaoteltu ohjelmakoodi, jonka avulla voit tuottaa tulokset uudelleen nopeasti. Ohjelman tulisi olla selkeästi kommentoitu ja mahdollisimman pitkälle automatisoitu. Makrojen ja erilaisten silmukoiden avulla voit tarvittaessa muuttaa koodia tarpeidesi mukaan esim. eri aikaväleille ja muuttujasisällöille (Statassa ks. program). Koodin kopioimista kannattaa välttää, koska tällöin myös virhealttius kasvaa.
Hyvänä periaatteena on, että analyysin kannalta kannattaa turhat muuttujat ja tiedot poistaa ohjelmassa heti, kun niitä ei tarvita. Päällekkäisten aineistojen ja välitiedostojen tallentamista ei suositella. Statassa aineistoa on mahdollista rajata jo tiedoston avausvaiheessa valitsemalla vain tarvittavat muuttujat (use var1 var2 var3 using datax).
Ohjelmien suunnittelua varten kannattaa muodostaa pieni harjoitusdata, jota voit nopeasti ja resursseja säästäen pyöritellä siihen asti, kunnes lopullinen ohjelma hahmottuu. Demodataa varten otat pienen otoksen koko aineistosta (katso esimerkki 1). Ylimääräiset muuttujat, vuodet, toimialat, alueet ja henkilöryhmät kannattaa myös rajata pois heti alussa.
Näillä koodeilla voit esimerkiksi harjoitusdataa varten ottaa satunnaisotoksen Statassa:
Asettamalla ensin set seed alkuluku, esim. set seed 10000, saat tulokseksi aina saman satunnaisotoksen.
Tulosten tarkastusta silmällä pitäen myös tulosten muoto ja tulkittavuus tulisi huomioida jo alussa. Pitkien log-tiedostojen sijaan tulisi tuottaa erillisiä tulostaulukoita tai -kuvioita, jotka on selkeästi nimetty. Myös muuttujien tietosisällön tulisi olla ymmärrettävä. Kussakin taulukon rivissä tulee näkyä havaintojen lukumäärä. Ohjelmaan kannattaa määritellä ehto, ettei havaintojen lukumäärä saa olla alle kolmen (katso esimerkki 2). Minimit ja maksimit eivät yleensä mene tietosuojatarkastuksesta läpi, joten ne kannattaa poistaa jo valmiiksi.
Ja lopuksi, muistathan tallentaa riittävän usein! Varmuuskopiointi kerran vuorokaudessa takaa, etteivät tallenteesi häviä, jos esim. palvelimiin sattuisi tulemaan toimintahäiriö.
Tällä koodilla voit suojata kaikki kansiossa O:\output_date olevat Statan dta-muotoiset tiedostot, joiden nimet päättyvät _date ja joissa on valmiiksi laskettuna havaintojen lukumäärä n_obs kullakin rivillä. Huom. ohjelma tallentaa uuden tiedoston aina vanhan päälle saman nimisenä siten, että kaikki alle 3 havainnon solut on poistettu.
global output_date "O:\output_date\"
cd "${output_date}"
local listaa: dir . files "*_date.dta"
foreach x of local listaa {
use "`x'", clear
cap drop if n_obs <= 3
cap saveold "`x'", replace
if _rc!=0 {
save "`x'", replace
Työskentely etäkäyttöympäristössä vastaa tavallisella Windows-työasemalla työskentelyä. Projektit on nimetty juoksevin numeroin alkaen esimerkkiprojektista a01.
Kullakin hankkeella on käytössään seuraavat levyasemat:
Kullekin tutkimushankkeelle varataan työkansio W:\a01, jossa voit säilyttää hanketta koskevat ohjelma- ja työtiedostot yms.
Julkaistaviksi tarkoitetut tulostiedostot viedään kansioon O tietosuojatarkastusta varten. Voit luoda omia alakansioitaan kansioihin W ja O, mutta niistä on hyvä myös säännöllisesti poistaa tarpeettomat kansiot, tiedostot ja tulokset, jotka on jo sinulle siirretty.
Lukuoikeudet D:n valmisaineistokansioihin saat hankekohtaisen tai SISU-mallin käyttöluvan mukaisesti. Hankkeelle räätälöidyt aineistot ja niiden kuvaukset löytyvät myös D:ltä. Valmisaineistoja koskevat kuvaukset sijaitsevat metadatakansiossa. Samasta kansiosta löytyvät myös tutkijapalveluiden säännöt sekä ajankohtaiset tiedotukset esimerkiksi aineistopäivityksistä.
Varmuuskopioiden pitkäaikaista säilyttämistä varten tutkimushankkeille on varattu pienempi E-levy. CRAN-repositoriosta voit ladata tutkimushankkeellesi R-ohjelmiston paketteja.
SISU-mallin voit kopioida D:n mikrosimuloinnin SISU-kansiosta omaan työkansioosi W:lle. Uusista malliversioista informoidaan käyttäjiä erikseen.
Mikrosimulointi-mallin käyttäjät voivat myös yhteisen Forum-kansion (F) kautta jakaa mallin käyttämistä koskevia tiedostoja etäkäyttöympäristössä muiden käyttäjien kesken.
Jokaisella SISU-mallin käyttäjällä on etäkäyttöympäristössä oma henkilökohtainen Mail-sähköpostikansio, jonka kautta tiedostoja voit siirtää etäkäyttöympäristöstä omalle työasemallesi. Jokaisesta Mail-kansioon kopioidusta tiedostosta saat erillisen sähköpostiviestin, jonka liitteenä on kansioon kopioitu tiedosto. Tilastokeskus tarkastaa siirrettävät tiedostot jälkikäteen Mikrosimuloinnin sähköpostista.
Tutkimustulosten tietosuojavaatimuksista ja tulosteiden suojaamisesta ja tarkastusmenettelystä kerrotaan tarkemmin luvussa 3 Tutkimusaineistojen tilastollinen tietosuoja.
Olet velvollinen noudattamaan siirrettäviin tietoihin liittyen tutkijapalveluiden etäympäristöä koskevia ohjeita ja sääntöjä, joista on kerrottu tarkemmin tutkijapalveluiden säännöissä.
Järjestelmässä on käytössä hankekohtaiset laskenta- ja ohjelmistoresurssit. Tämän vuoksi vältä raskaita yhtäaikaisia ajoja sekä turhaa muistin kulutusta tai varaamista. Isommat ajot kannattaa ajoittaa yöksi tai viikonlopuksi. Tällöin sulje etäyhteysikkuna (disconnect), mutta älä kirjaudu ulos. Omaa resurssien käyttöä voit seurata tehtävienhallinnasta esimerkiksi painamalla näppäimiä ctrl+shift+esc. Omien hankekansioiden levytilan käyttöä kannattaa seurata kansion ominaisuuksista. Tutkimushankkeen käyttöön voi tarvittaessa ostaa lisää levytilaa tai kasvattaa konepaketin kokoa.
Aika ajoin on hyvä kirjautua kokonaan ulos etäkäytöstä valitsemalla sign out, jotta huoltokatkojen päivitykset asentuvat. Uloskirjautuminen ja etäyhteyden katkaiseminen säästää resursseja hankkeen muiden käyttäjien käyttöön isompia ajoja varten.
Laskentaan käytetyn tehon ja säilytyskapasiteetin välinen kompromissi kannattaa arvioida koodatessa. Joskus on järkevämpää säilyttää välitulokset eri vaiheista laajasti, jotta hidasta ohjelmaa, esim. pitkää estimointia tai simulointia, ei tarvitse ajaa aina uudelleen. Toisaalta nopeat koodit, kuten kuvaileva analyysi tai tulostaulukot, voit hyvin ajaa uudelleen, jos on tarvetta muutoksiin.
Etäkäytön ohjelmistoihin (esim. Stata) voidaan asentaa lisäpaketteja tai etäkäyttöön voidaan lisätä kokonaan uusia ohjelmistoja. Jokainen lisäasennus kuitenkin arvioidaan esimerkiksi yhteensopivuuden, potentiaalisten ongelmien sekä tietosuojan näkökulmasta, joten asennuspyyntöjen tulisi olla harkittuja ja perusteltuja.
Liitä vähintään seuraavat tiedot asennuspyyntöön tutkijapalveluille:
Jos asennuspyyntö hyväksytään, ohjelma asennetaan etäkäyttöjärjestelmään tyypillisesti muutaman työpäivän sisällä. Vaativammat asennukset suoritetaan seuraavan etäkäyttöjärjestelmän huoltokatkon yhteydessä.
R-paketit ovat ladattavissa CRAN-kirjastosta ja Pythonin paketit Anaconda Pro -repositoriosta. Etäkäyttöjärjestelmän työpöydällä ovat ohjeet ”CRAN_library_RStudio” ja ” Fiona_fix_python_reposities” ohjelmien käyttöönottoon etäkäyttöjärjestelmässä.
Etäkäyttöjärjestelmä on verrattain monimutkainen tietotekninen kokonaisuus. Toisinaan voi käydä niin, että jonkin osan virheellinen toiminta johtaa järjestelmän häiriötilanteeseen, jolloin esimerkiksi sisäänkirjautuminen ei useista yrityksistä huolimatta onnistu.
Etäkäyttöjärjestelmän huoltokatkoista ja ongelmatilanteista tiedotetaan tutkijapalveluiden FIONA-etäkäyttöjärjestelmä -sivulla.
Virhetilanteessa ota yhteyttä FIONA-ylläpitoon (CSC). Ohjeet yhteyden ottamiseen CSC:lle sekä ohjeita yleisimpiin ongelmatilanteisiin: FIONA Remote Access Support Portal - FIONA Technical Support - Eduuni-wiki
Virhetilanteista ilmoittaessasi olennaista on kuvailla mahdollisimman tarkasti tilanteeseen johtaneet toimet. Virheen paikantamista ja korjaamista helpottaa, jos ilmoituksestasi käy ilmi:
Joissain tapauksissa vastaantuleva virhetilanne saattaa olla entuudestaan tuttu esimerkiksi saman organisaation tutkijakollegoille. Onkin suositeltavaa kysyä, onko joku kollegoista joskus törmännyt samaan ongelmaan ja saanut sen ratkaisuun jo ohjeistuksen.
Tyypillisin virhetilanne, joka ei välttämättä vaadi yhteydenottoa, on käyttäjätilin lukittuminen. Kirjautumisen yhteydessä esimerkiksi väärin kirjoitetusta salasana saa käyttäjätilin väliaikaisesti lukittumaan. Etäkäyttöjärjestelmässä on automaattinen aikakatkaisu lukituksen poistolle. Käyttäjätili aukeaa automaattisesti 30 minuutin karanteenin jälkeen. Mikäli 30 minuutin odottamisen jälkeen kirjautuminen ei vieläkään toimi, ota yhteyttä tutkijapalveluihin. Varmista myös, että valitsemasi tunnistautumisen tapa on sama kuin tunnusten luonnin yhteydessä määritelty.
Projekti päättyy, kun tutkimushankkeelle saamasi käyttölupa umpeutuu. Tarvittaessa voit tätä ennen tehdä selkeän kirjallisen ilmoituksen siitä, että projekti on valmistunut eikä pääsyä aineistoihin enää tarvita.
Projektin päättymisen jälkeen kirjautuminen etäkäyttöjärjestelmään ei enää ole mahdollista. Tämän takia pyydä tutkijapalvelun henkilökuntaa hyvissä ajoin ennen käyttöluvan umpeutumista siirtämään sähköpostiisi julkaistavaksi tarkoitetut tulokset ja mahdollisesti tarvittavat koodit. Poista myös projektin kansioista projektin aikana syntyneet tarpeettomat tiedostot ja koodit.
Projektien kansiot säilytetään etäkäyttöjärjestelmässä vähintään kolme kuukautta projektin päättymisestä. Voit viimeistään projektin päättyessä jatkaa projektikansiossa olevien tiedostojen ja koodien säilyttämisaikaa sopimalla siitä Tilastokeskuksen kanssa erikseen.
Voit hakea käyttöluvan jatkamista, mikäli tutkimuksesi on keskeneräinen. Tarvittaessa voit hakea laajennusta käyttölupaasi myös uusien käyttäjien tai tutkimusaineistojen lisäämiseksi hankkeeseen.
Mikäli haluat käyttää projektin kansioon tallennettuja aineistoja uudessa tutkimushankkeessa, hae tähän uusi käyttölupa. Mahdollisten referee-muutosten tekemistä varten varmista, että pääset käsittelemään koodeja ja tutkimusaineistoja myös jonkin aikaa tutkimuksen valmistumisen jälkeen.
Varmista, että tutkimushankkeen kaikkien käyttölupien voimassaolo on riittävän pitkä myös muiden kuin Tilastokeskuksen aineistoissa. Tilastokeskuksen aineistoihin linkitetyt muiden rekisterinpitäjien aineistot hävitetään etäkäyttöjärjestelmästä heti aineistoihin myönnettyjen käyttölupien umpeuduttua.
Ohjelmakoodit, joilla räätälöidyt tutkimusaineistot on muodostettu Tilastokeskuksen perusaineistoista, säilytetään Tilastokeskuksessa tutkimushankkeen ajan. Paneelitutkimuksissa voi olla syytä sopia ns. pseudoavaimen säilyttämisestä, jotta samoille otoshenkilöille voit päivittää tietoja uusista aineistoista.
Kun julkaiset tutkimustuloksia, varmista vielä kerran, ettei tuloksista pysty tunnistamaan edes välillisesti aineistossa olevia henkilöitä tai yrityksiä. Tilastokeskus tulee mainita tutkimusaineistojen lähteenä. Muistathan lähettää käyttölupaehtojen mukaisesti tutkijapalvelut@stat.fi -sähköpostiin kopion tai linkin julkaistuihin tutkimusraportteihin.
Onnea tuleviin projekteihin! Voit antaa palautetta tutkijapalveluille (tutkijapalvelut@stat.fi) kaikesta mahdollisesta liittyen aineistoihin, etäkäyttöön ja muihin palveluihin.
Tutkimusaineistojen etäkäyttäjän muistilista sisältää keskeisiä aineistoa käyttöä koskevia ja käyttäjäksi hakeutumisen periaatteita. Ne kannattaa pitää mielessä, kun valmistelet omaa tutkimustasi. Ja kun olet paneutunut tämän oppaan ohjeistuksiin, olet jo hyvän matkaa edistänyt oman tutkimustyötäsi.
Löysitkö mitä etsit? Jäitkö kaipaamaan jotain? Anna palautetta tästä oppaasta, niin teemme siitä entistä paremman. Lähetä kommenttisi sähköpostiosoitteeseen koulutuspalvelut@stat.fi.