Webinaari Tutkimuksen toistettavuus mit toistettavuus tarkoittaa ja miten
Webinaari: Tutkimuksen toistettavuus; mitä toistettavuus tarkoittaa ja miten tutkimuksesta voi tehdä toistettavaa? 23. 4. 2021 @10 -11: 30 EEST Puhujat: Hanna Koivula (CSC), Maria Lehtivaara (CSC), Katja Mankinen (CSC)
Tutkimuksen toistettavuus, mitä se tarkoittaa? Hanna Koivula, CSC
Tässä esityksessä • Tutkimusetiikka ja tiedonhallintalaki • Datan hallinnan ja avaamisen tarkoitus • FAIR periaatteet • Mitä on tutkimusdata? • Avoimuus ja sen rajoittaminen • Datan elinkaari ja toistettavuus • Miten valita arkistoitava tai julkaistava osuus aineistoista? 3
Uusi tiedonhallintalaki? Mikä muuttui? Hyvä tieteellinen käytäntö vaatii, että tutkimusta tehdään läpinäkyvällä tavalla. Tämä tarkoittaa mm. sitä, että tutkimus suunnitellaan ja toteutetaan ja siitä raportoidaan sekä siinä syntyneet tietoaineistot tallennetaan tieteelliselle tiedolle asetettujen vaatimusten mukaisesti. Tiedonhallintaa ja viranomaisen toiminnan julkisuutta koskeva lainsäädäntö oli pirstaleista ja osin vanhentunutta, ja lakien soveltaminen ja yhteensovittaminen oli muodostunut haasteelliseksi. Teknologian kehittymisen tuomat uudet mahdollisuudet ovat tuoneet myös uudenlaisia sääntelyn tarpeita. Laki julkisen hallinnon tiedonhallinnasta (906/2019) sekä siihen liittyvät lait tulivat voimaan 1. 1. 2020. Laki edistää tiedonhallinnan yhdenmukaistamista, tietoturvallisuutta ja digitalisointia viranomaistoiminnassa. Laissa julkisen hallinnon tiedonhallinnasta säädetään: • julkisuusperiaatteen ja hyvän hallinnon vaatimusten toteuttamisesta viranomaisten tiedonhallinnassa • tiedonhallinnan järjestämisestä ja kuvaamisesta, • tietovarantojen yhteentoimivuudesta, • tietojärjestelmien yhteentoimivuuden toteuttamisesta, • teknisten rajapintojen ja katseluyhteyksien toteuttamisesta • tietoturvallisuuden toteuttamisesta. Koskee kaikkia viranomaisia sekä soveltuvin osin yliopistoja ja ammattikorkeakouluja. Taustalla EU: n uudistuneet PSI ja GDPR direktiivit. Lisätietoja: https: //vm. fi/avoin-tieto 4
Mitä on datanhallinta ja miksi tehdä sitä? • Datanhallinta tarkoittaa kerätyn ja tuotetun informaation käsittelyä. Se on siis olennainen osa tutkimusta. • Datanhallinta lisää datan arvoa tekemällä siitä yhteentoimivaa, helpommin löydettävää ja vaikeammin hukattavaa, ymmärrettävää ja siten myös paremmin uudelleen käytettävää. • Datanhallinnan vakiintuneisiin käytäntöihin kuuluu mm. datanhallinnan suunnittelu, datan ja sen elinkaaren dokumentoiminen, järjestäminen, tallettaminen, jakaminen, julkistaminen, säilyttäminen, tarpeen tullen jopa tuhoaminen. 5 Kuvan lähde: https: //www. openaire. eu/images/easyblog_articles/1120/Registryof-Research-Data-Repositories. png
F FINDABLE – LÖYDETTÄVÄ • Olennaiset tiedot kuvailtu riittävän tarkasti • Kuvailusivu ja ainutkertainen pysyvä tunniste A ACCESSIBLE – SAAVUTETTAVA • Voidaan hakea internetistä • Versiointi ja elinkaaren dokumentointi • Muistosivu jos data on poistettu I R 6 INTEROPERABLE – YHTEENTOIMIVA • Käytössä yleiset, dokumentoidut ja avoimet tiedostomuodot • Myös datan sisältö ja sitä koskevat rajoitteet ovat yhteentoimivia RE-USABLE – UUDELLEENKÄYTETTÄVÄ • Data on hyvin dokumentoitu ja ymmärrettävää • Käyttöoikeudet selkeästi esillä Wilkinson, M. , Dumontier, M. , Aalbersberg, I. et al. The FAIR Guiding Principles for scientific data management and stewardship. Sci Data 3, 160018 (2016). https: //doi. org/10. 1038/sdata. 2016. 18
Rahoittajat ja datanhallinta? Miksi tutkimusaineistojen hallinta ja hallinnan suunnittelu on tärkeää? • Tutkimusaineistojen hallinta ja aineistonhallintasuunnitelman laatiminen ovat osa hyvää tieteellistä käytäntöä! => Läpinäkyvyydellä varmistetaan tutkimuksen laatua! • Aineistojen katoamisen, häviämisen tai tuhoutumisen riski pienenee. • Voit ennakoida omistajuuteen ja käyttöoikeuksiin liittyviä monimutkaisia ongelmia. • Tuet avointa saatavuutta ja luot edellytyksiä tuleville menestyksekkäille yhteistyöhankkeille. • Täytät rahoittajien vaatimukset. • Säästät aikaa ja rahaa. 7 Selkeästi laadittu aineistonhallintasuunnitelma tukee myös avoimen tieteen toimintatapaa ja edistää uusien keksintöjen ja ideoiden syntymistä ja tuloksellista yhteistyötä.
Mitä on tutkimusdata? Kuvat Unsplash palvelusta CC 0 -lisenssillä 8
Datan hyödyntämisen kaksi pullonkaulaa Lähde: https: //www. forbes. com/sites/gilpress/2016/03/23/data-preparation-most-time-consuming-least-enjoyable-data-science-task-survey-says/#7 b 34677 e 6 f 63 9 Lähde: https: //www. elsevier. com/about/open-science/research-data/open-data-report
FAIR periaatteiden soveltaminen koko elinkaaren ajan takaa toistettavuuden • Dokumentoi datan keruu, menetelmät, standardit, sopimukset, arkaluonteisuus • Dokumentoi ja versioi koko aineistonhallinnan prosessi: datan muokkaaminen, käytetyt ohjelmistot, analyysit, koodi, muuttujat, standardit jne. siten, että tutkimus on mahdollista toistaa samalla aineistolla ja menetelmillä • Ylläpidä ja rikasta metadataa koko tutkimusprosessin ajan • Varmista, että metatiedot saavat pysyvän tunnisteen, että siihen voidaan viitata (tutkimusjulkaisussa). 10
FAIR ei tarkoita kaiken tiedon avaamista Metatiedot ovat julkisia Hallinnolliset Data voi olla julkista, rajoitetusti saatavilla tai kokonaan salattua. Käyttöehdot on kuvattu hallinnollisissa metatiedoissa ja koneluettavassa lisenssissä. Kuvailevat Data Rakenteelliset Julkinen tieto 11 Avoin lisenssi / käyttöehdot / rajoitukset
12
Toistettavuus; miten arkistoitava tai julkaistava data valitaan? Kirjoittaja - datan tuottaja Aineiston muokkaus Raakadata Tutkimuksen kohde Datajulkaisu Analyysi Kuvat Työdata Datatuotos Dokumentoitavat vaiheet Taulukot Tutkimusjulkaisu Yhteenvedot Teksti Menetelmä Tutkimuskysymys 13 Lukija – datan hyödyntäjä
Toistettavuuden kysymyslista: 1. Onko koko aineistojen käsittelyprosessi läpinäkyvä? 2. Mitkä osat aineiston keruussa ja käsittelyssä on tehty ”käsin”? Ovatko nämä osat dokumentoitu järjestelmällisesti? => Vastaako dokumentaatio todellisuutta? 3. Onko mahdollisimman moni kohta datan prosessoinnissa automatisoitu (esim. koodaamalla)? 4. Onko aineisto ja muut tuotokset versioitu? 5. Löytyykö käytetyistä ohjelmistoista ja asetuksista dokumentaatiota? 6. Mitä ei saa toistettua alkuperäisen datan ja koodin tai asetusten avulla? 1. (…ja miten tuo osuus on dokumentoitu? ) 7. Onko data ja sen dokumentaatio tallessa viitattavassa muodossa? Näiden kysymysten avulla on mahdollista valikoida mikä osa datasta, koodista, malleista ja dokumentaatiosta säilytetään (ja mahdollisesti julkaistaan).
Avoimen tieteen linjaus • Avoimen tieteen koordinaation tutkimusaineistojen avoimuuden linjaus hyväksytään todennäköisesti Avoimen tieteen kevätpäivillä 4. -5. 5. • Samassa yhteydessä on tarkoitus käynnistää linjauksen toisen osan, menetelmien avoimuuden linjausten, tuottaminen. • Etsimme työryhmään asiantuntijoita, esim. tutkijoita jotka ovat käyttäneet avointa lähdekoodia tai julkaisseet toiminnallisia tutkimustuotoksia (executable articles) • Lisätietoja: https: //avointiede. fi/fi/asiantuntijaryhmat/tutkimusaineistojenavoimuus ; avointiede@tsv. fi (Ilmoittaudu Avointen tutkimusaineistojen työryhmään) 15
- Slides: 15