Deling av forskningsdata
Åpenhet og kunnskapsdeling er en forutsetning for all forskning. Det er en viktig forskningspolitisk målsetting at resultatene av offentlig finansiert forskning skal være så åpent som mulig. Med forskningsresultater mener vi i denne sammenheng data som skapes gjennom forskningsaktiviteter.
Forskningsrådets policy for tilgjengeliggjøring av forskningsdata skal bidra til å gjøre forskningsdata tilgjengelig for relevante brukere, på like betingelser, til lavest mulig kostnad. Retningslinjene i policyen gjelder alle data i prosjekter som er finansiert av oss – med noen unntak. De internasjonale FAIR-prinsippene er utarbeidet som et sett av retningslinjer for å tilrettelegge for videre bruk av forskningsdata. FAIR er et akronym for ordene findable, accessible, interoperable og reusable. Forskningsdata skal med andre ord være av en kvalitet som gjør dem tilgjengelige, gjenfinnbar, samhandlende og gjenbrukbare. Håndtering av forskningsdata i prosjekter som mottar finansiering fra Forskningsrådet skal følge FAIR-prinsippene, så langt det er mulig.
Så åpent som mulig, så lukket som nødvendig
Bedre tilgang til forskningsdata styrker kvaliteten på forskningen, både fordi resultater kan valideres og etterprøves på en bedre måte, og fordi datasett kan brukes på nye måter og i kombinasjon med andre datasett. Åpen tilgang til forskningsdata bidrar dessuten til færre dupliseringer og unødvendig dobbeltarbeid og vil legge til rette for mer tverrfaglig forskning.
Enkelte datasett kan ikke uten videre gjøres åpent tilgjengelig. Forskningsrådets policy opererer derfor med klare unntak. Datasett skal ikke gjøres åpent tilgjengelig hvis det kan true enkeltmenneskers eller nasjonal sikkerhet, er i strid med gjeldende regelverk for personvern, eller andre juridiske bestemmelser. Er du usikker på om du kan dele dine data? Prøv ut Datafabrikkens juridiske veileder for datadeling!
Slik skal data arkiveres
Som hovedprinsipp er det er opp til FoU-utførende virksomhet å avgjøre hvilken arkivløsning som skal brukes. Når det er hensiktsmessig, kan imidlertid Forskningsrådet pålegge å lagre data og/eller metadata i bestemte nasjonale eller internasjonale arkiv.
Når vi krever lagring i ett spesifikt arkiv, vil vi alltid opplyse om dette i selve utlysningsteksten, og vi vil skrive dette inn i kontrakten for prosjektene.
Krav om datahåndteringsplan i prosjekter som håndterer data
En datahåndteringsplan er et verktøy og rammeverk for forskere som bidrar til gjennomtenkt, strukturert og dokumentert datahåndtering, gjennom hele forskningsprosessen. En god datahåndteringsplan gjør forskningsdataene lettere å gjenfinne og forstå for andre, skaper bevissthet om datasikkerhet, kostnader og kvalitet samt gjør forskningen reproduserbar og øker potensial for gjenbruk. Datahåndteringsplan skal være et levende dokument som jevnlig oppdateres gjennom prosjektets levetid. Les mer om datahåndteringsplaner på openscience.no.
Krav om datahåndteringsplan for prosjekter som mottar finansiering fra Forskningsrådet ble innført i 2018. Kravet gjelder for alle prosjekter som har fått tilskudd etter 01.01.2018 og som håndterer data i sitt prosjekt. Prosjekter skal levere første versjon av planen ved revidering av søknad. Oppdatert og endelig versjon leveres sammen med prosjektets sluttrapport. Forskningsrådet vurderer ikke innhold i innleverte planer. Det er prosjektansvarlig institusjon sitt ansvar å godkjenne at planen er i tråd med institusjonens krav og retningslinjer, før den leveres. Datahåndteringsplaner bør så langt det er mulig være offentlige og publiseres åpent slik at fagmiljøer bedre kan følge sine fagfellers praksis.
På bakgrunn av innkomne datahåndteringsplaner vil Forskningsrådet akseptere eventuelle kostnader til å håndtere data som en del av driftskostnadene i de prosjektene vi støtter. I tillegg vil Forskningsrådet legge vekt på å bidra med finansiering av gode infrastrukturer for datalagring og datahåndtering, blant annet gjennom finansieringsordningen Nasjonal satsing på forskningsinfrastruktur.
Veileder: Dette bør en datahåndteringsplan inneholde
Denne veiledningen er et verktøy for prosjekter som håndterer data og skal levere datahåndteringsplan ved revidering av søknad og sluttrapportering til Forskningsrådet. Den tar utgangspunkt i Science Europe sin 'Practical Guide to the International Alignment of Research Data Management'.
Forskningsrådet anbefaler å bruke en tjeneste for datahåndteringsplaner som lar prosjektet generere en maskinhåndterbar datahåndteringsplan, for eksempel etter RDA Common Standard. Inntil videre må prosjektet laste opp datahåndteringsplan i format som pdf, .doc(x) eller lignende. Vi jobber med å utvikle våre systemer for å tilrettelegge for maskinhåndterbare datahåndteringsplaner. Vi anbefaler også å tildele datahåndteringsplan en vedvarende identifikator, slik som en DOI. Flere tjenester for datahåndteringsplaner tilbyr dette.
Datahåndteringsplanen bør inneholde informasjon om prosjektansvarlig institusjon, prosjektleder, prosjektnummer, prosjekttittel, finansiør og versjon.
Datahåndteringsplanen bør inneholde en beskrivelse av hvordan ny data samles inn eller produseres og/eller hvordan eksisterende data skal (gjen)brukes. Dette vil bidra til å gjøre det enklere for andre å forstå den tekniske konteksten dataene oppstår eller (gjen)brukes i, sikrer etterprøvbarhet og muliggjør videre gjenbruk.
Disse punktene bør beskrives:
- Hvilke metoder eller software benyttes hvis ny data samles inn eller produseres?
- Hvordan skal dataproveniens (opprinnelse) dokumenteres?
- Fins det eventuelle begrensninger knyttet til filformat, lisensiert software eller lignende for (gjen)bruk av eksisterende data?
- Er det eventuelle grunner til at eksisterende datakilder ikke gjenbrukes?
Datahåndteringsplanen bør beskrive typer data, dataformat og -volum som samles inn, produseres og/eller gjenbrukes. Dette vil bidra til å identifisere potensielle problemstillinger som kan oppstå ved lagring, deling og langtidsbevaring av dataene.
Disse punktene bør beskrives:
- Hvilke typer data skal prosjektet samle inn, produsere og/eller gjenbruke? Eksempler på type data kan være numerisk, tekst, bilde, lyd, video etc.
- Hvilke format data lagres data i ved innsamling og analyser, for eksempel .pdf, .xls(x), .doc(x), .txt, .rdf.
- På hvilket grunnlag velges bestemte dataformater? For eksempel kan dette være avhengig av ekspertise på bestemte formater, preferanse for åpne filformater, standardformater som er akseptert hos dataarkiv (eng: data repositories), utstrakt bruk av bestemte formater i forskningsmiljøer eller formater som er gitt av utstyr eller software som brukes.
- Hva er (estimert) datavolum som skal lagres underveis i innsamling og analyser, arkiveres og eventuelt langtidsbevares? Dette kan oppgis som lagringsplass (bytes), antall objekter, filer, rader og kolonner.
God organisering av filer, detaljert dokumentasjon og søkelys på datakvalitet er godt håndverk i forskningsprosjekter som håndterer data. Hvem som helst skal kunne forstå ditt prosjekt, datainnsamling, analyser, og filer basert på dokumentasjonen du lager. Det kan hende du ønsker eller blir pålagt å dele dataene dine eller dine forskerkollegaer ønsker å etterprøve, replikereere eller gjenbruke dine data. Datahåndteringsplanen bør derfor inneholde en beskrivelse av (meta)data, hvordan datakvalitet blir ivaretatt i løpet av prosjektet og si noe om dokumentasjonen som vil følge dataene.
Disse punktene bør beskrives:
- Hvilke metadata vil bli brukt for å hjelpe andre med å identifisere og oppdage dataene?
- Hvilke metadatastandarder vil bli brukt? Eksempler kan være DDI, TEI, MARC, CMDI.
- Hvordan skal data organiseres gjennom prosjektet? Dette kan være versjonskontroll, filstruktur, konvensjoner for filnavngivning etc.
- Er det annen dokumentasjon som er nødvendig for å legge til rette for gjenbruk? Det kan være beskrivelse av metodologi, informasjon om analyse og protokoller, definisjoner av variabler, elektroniske lab-bøker, kodebøker, readme.txt filer etc.
- Hvordan blir reliabiliteten og kvaliteten til dataene kontrollert og dokumentert? Dette kan inkludere prosesser som kalibrering av måleinstrumenter, gjentatte målinger og prøver, standardisert datafangst, validering av dataregistrering, fagfellevurdering av data eller bruk av kontrollert vokabular.
Når du håndterer data er det viktig å tenke på datasikkerhet og hvordan du skal lagre dine data underveis i prosjektet, før du samler inn og analyser. Sjekk om din organisasjon har retningslinjer på dette. Datahåndteringsplanen bør inneholde en beskrivelse av hvordan (meta)data vil bli lagret og sikkerhetskopiert og hvordan datasikkerhet blir ivaretatt i løpet av prosjektet. Dette bidrar til å identifisere mulig risiko knyttet til datasikkerhet og -beskyttelse for dine data, slik som tap av data eller utilsiktet tilgang.
Disse punktene bør beskrives:
- Hvor vil (meta)data bli lagret og sikkerhetskopiert gjennom prosjektet, og hvor ofte skal dette utføres? Lagring av data på bærbare pcer, typiske eksterne harddisker, USB-sticks eller lignende er ikke anbefalt på grunn av mindre beskyttelse og større risiko for at data går tapt.
- Hvordan skal data gjenopprettes ved en eventuell utilsiktet hendelse?
- Hvem skal ha tilgang til dataene underveis i prosjektet og hvordan blir tilgang kontrollert? Dette er særlig viktig der prosjektet er et samarbeid med flere forskningsmiljøer/institusjoner.
- Hvis aktuelt, hvordan håndteres datasikkerhet og -risikohåndtering knyttet til sensitive data, slik som persondata og data som ligger til grunn for forretningshemmeligheter?
- Hvilke institusjonelle retningslinjer for datasikkerhet er gjeldende?
Deling av forskningsdata kan begrenses av en rekke juridiske og etiske faktorer knyttet til for eksempel personvern, beskyttelse av sensitiv informasjon og kommersialisering. Avklaring av rettigheter til, og delingsbegrensninger for, forskningsdata er et viktig premiss for å kunne dele data. Ved håndtering av data bør datahåndteringsplanen inneholde en beskrivelse av hvordan forskningsdata skal håndteres i samsvar med juridisk lovverk og forskningsetiske retningslinjer. Dette bidrar til et bevisst forhold til delingsbegrensninger som angår dine data slik at man ikke utilsiktet bruker virkemidler, som en for restriktiv lisens, som begrenser deling av data mer enn nødvendig. I tillegg er avklaring av rettigheter til forskningsdata, særlig i samarbeidsprosjekter og mellom den enkelte forsker og institusjon, ryddig og sørger for hensiktsmessig ansvarsfordeling.
Disse punktene bør beskrives:
- Hvilke(n) juridisk person har rettigheter og/eller råderett til forskningsdataene?
- Vil dataene være åpent tilgjengelig eller med tilgangsbegrensninger, i så fall hvilke tilgangsbegrensninger? Et eksempel er at tilgang til data gis kun via en tjeneste med autentifisering.
- Vil det være eventuelle formålsbegrensninger, for eksempel at dataene bare kan bruke for ikke-kommersielle formål, og i så fall hvorfor?
- Hvilke frigivelseserklæringer eller lisenser skal brukes på forskningsdataene?
- Der hvor prosjektet har flere samarbeidspartnere og/eller flere juridiske eller fysiske personer med rettigheter til forskningsdata; hvordan skal rettigheter til å kontrollere datatilgang håndteres i prosjektet?
- Der hvor forskningsdataene faller inn under opphavsrett eller databasevern i åndsverkloven; hvilke rettigheter gjelder og hvordan vil dette håndteres i prosjektet?
- Ved bruk av data fra en tredjepart; hvilke eventuelle tilgangs- og formålsbegrensninger gjelder for disse dataene?
- Hvilke etiske problemstillinger kan påvirke hvordan data blir lagret og overført, hvem som har datatilgang til å se eller bruke dataene, og hvor lenge de skal oppbevares?
- Hvilke institusjonelle, nasjonale og/eller internasjonale forskningsetiske retningslinjer gjelder for prosjektet? Eksempler kan være godkjenning fra regionale komiteer for medisinsk og helsefaglig forskningsetikk (REK) eller Mattilsynet.
Disse punktene bør beskrives hvis du håndterer persondata:
- Hvordan overholdes GDPR (Personvernforordningen) og personopplysningsloven ved håndtering/prosessering av persondata?
- Blir informert samtykke for langtidsbevaring og eventuelt deling av persondata benyttet?
- Vurderes anonymisering, pseudonymisering eller kryptering av persondata for langtidsbevaring og/eller deling?
- Skal det benyttes en administrert prosedyre for autorisert tilgang til persondata?
Datadeling er et viktig aspekt av forskningsintegritet slik at andre kan etterprøve og gjenbruke dine data. Datadeling kan skje når som helst i ditt forskningsprosjekt, men bør senest deles ved for eksempel vitenskapelige publiseringer der dataene utgjør grunnlaget for vitenskapelige konklusjoner. Det kan virke overveldende å ta stilling til alle aspekter ved datadeling, særlig hvis dette er nytt for deg. Husk at datadeling ikke betyr at du nødvendigvis skal dele åpent, men etter prinsippene "så åpent som mulig, så lukket som nødvendig" og FAIR (eng: findable, accessable, interoperable, re-usable).
Datahåndteringsplanen bør inneholde en beskrivelse av når og hvordan data vil bli tilgjengeliggjort. Dette vil bidra til at du kan ta konkrete valg om hvordan du kan effektivisere din forskning der du for eksempel samarbeider med andre og hvordan du kan synliggjøre dine data, det kan være for forskerkollegaer eller samfunnet som helhet. Det lønner seg å tildele dataene dine en vedvarende identifikator slik at de lettere kan gjenfinnes og refereres til. Datahåndteringsplanen bør i tillegg inneholde en beskrivelse av metoder eller programvare som er nødvendig for å få tilgang til og (gjen)bruke dataene.
Datadeling og gjenbruk må ses i sammenheng med de andre temaene i veilederen, men er her trukket frem som et eget tema fordi det det er et viktig aspekt ved livssyklusen til dine forskningsdata. Derfor vil du kjenne igjen noen av punktene som bør beskrives fra andre deler av veilederen.
Disse punktene bør beskrives:
- Hvordan skal dataene være gjenfinnbare, (eng: findable) og hvordan skal de deles? Eksempler kan være at de gjøres tilgjengelig i et sertifisert datalager (eng: repository), blir indeksert i en katalog, at man bruker en sikker datatjeneste, direkte håndtering av dataforespørsel o.l.
- Når skal dataene deles? Vil det for eksempel bli gjort bruk av en eksklusiv råderett gitt av juridisk lovverk som påvirker tidspunkt for deling og i så fall hvorfor og hvor lenge? Eksempler kan være at man venter til en vitenskapelig publikasjon foreligger eller at man vil beskytte immaterielle rettigheter, slik som patentrett, til man har søkt patent.
- Hvem har mulighet til å gjenbruke dataene? Hvis det er nødvendig med tilgangsbegrensning, for eksempel at bare bestemte grupper/miljøer har tilgang eller det skal brukes en avtale om datadeling bør det forklares hvordan og hvorfor og hvilke tiltak som gjøres for å minimere begrensninger.
- Hvordan kan dataene gjenbrukes i en annen kontekst? For eksempel, er det potensial for kommersiell utnyttelse?
- Trenger potensielle brukere spesifikke verktøy, slik som programvare, for å få tilgang til og (gjen)bruke dataene? Programvarens bærekraftighet for fremtidig tilgang til dataene bør tas i betraktning.
- Vil en vedvarende identifikator (DOI) for datasettene bli bruk? Vedvarende identifikatorer bør brukes på metadata og datasettene slik at de kan gjenfinnes og refereres til på en reliabel og effektiv måte. Bruk av DOI sikrer også at siteringer og gjenbruk kan spores. Et sertifisert datalager for langtidsbevaring (eng: respository) vil ofte gi dette til (meta)data som deponeres der.
Langtidsbevaring av dine data er en viktig del av den vitenskapelige prosessen. Dataene dine kan ha verdi utover forskningsprosjektet de oppstår i. Selv om de ikke kan deles kan de ha historisk verdi for fremtidige forskere eller for eksempel være observasjonsdata som ikke lar seg gjenskape. Den nasjonale strategien for tilgjengeliggjøring og deling av data henviser til forskerfellesskapene som ansvarlige for å ta beslutning om hvilke data det er hensiktsmessig å arkivere. Datahåndteringsplanen bør inneholde en beskrivelse av hvilke kriterier som brukes for å avgjøre hvilke data som skal langtidsbevares og hvor og hvor lenge de skal langtidsbevares. Dette vil blant annet bidra til å identifisere data i ditt prosjekt som du tror er verdifullt å bevare for ettertiden og etablere god praksis for langtidsbevaring av data i ditt forskerfellesskap.
Disse punktene bør beskrives:
- Hvilke data må beholdes eller slettes basert på avtaler, juridisk lovverk og/eller retningslinjer?
- Hvilke data skal langtidsbevares og hvilke kriterier benyttes for å velge ut disse?
- Hva er potensiell(e) fremtidig(e) forskningsformål og/eller brukere av dataene?
- Hvor vil dataene bli langtidsbevares (for eksempel hvilket datalager, eng: repository)? Hvis ikke et bestemt datalager foreslås så bør planen vise at dataene kan kurateres hensiktsmessig etter prosjektets levetid. Det anbefales å vise til retningslinjer og prosedyrer hos datalagre, inkludert metadata standarder og kostnader involvert.
Å definere tydelige ansvarsroller og etablere en god oversikt over kostnads- og ressursbehov knyttet til datahåndtering er viktig for å unngå usikkerhet rundt hvem som gjør hva, uforutsigbare kostnader og ineffektiv bruk av personell. Datahåndteringsplanen bør inneholde en beskrivelse av hvem som vil ha ansvar for datahåndtering i prosjektet samt behov for ressurser, både finansielle og tid, som dedikeres til datahåndtering. Dette bidrar til ansvarliggjøring av ulike deltakere i prosjektet, noe som er spesielt viktig der det er flere samarbeidspartnere, og støtter koordinering av ulike aktiviteter knyttet til datahåndtering. I tillegg vil dette bidra til effektiv planlegging og synliggjøring av behov for ressurser knyttet til datahåndtering i prosjektet, både internt i din organisasjon og når du søker eksterne prosjektmidler. Denne sjekklisten fra UK Data Service kan være nyttig når du skal estimere kostnader i ditt prosjekt.
Disse punktene bør beskrives:
- Hvilke roller har hvilket ansvar for datahåndteringsaktiviteter i prosjektet? Eksempler på aktiviteter er datafangst, produksjon av metadata, datakvalitet, lagring og sikkerhetskopiering, langtidsbevaring og datadeling. Ansvarlige individer bør oppgis, hvis mulig.
- For samarbeidsprosjekter; hvordan koordineres ansvar for datahåndtering mellom partnere?
- Hvem er ansvarlig for å implementere datahåndteringsplanen og for at planen blir gjennomgått og jevnlig oppdatert? I våre retningslinjer er det ansvarlig institusjon som skal godkjenne planen.
- Hvordan budsjetteres og dekkes nødvendige ressurser i prosjektet for å forberede data for deling og langtidsbevaring (kuratering)? Dette kan være kostnader knyttet til lagring, hardware, personaltid, kostnader for å forberede data for deponering og kostnader knyttet til bevaring hos et datalager (eng: repository).
Verktøy og tjenestetilbydere for å lage en god datahåndteringsplan
Det finnes flere tilbydere og verktøy som genererer datahåndteringsplaner for forskningsprosjekter. Løsningene gjør det mulig å oppdatere datahåndteringsplan i løpet av prosjektperioden. Her er eksempler på verktøy og tjenestetilbydere for å generere datahåndteringsplaner:
• Data Stewardship Wizard (DSW), ELIXIR Norway
• Datahåndteringsplan - DMP | Sikt
• Digital Curation Centre
• easyDMP
• Argos (openaire.eu)
Meldinger ved utskriftstidspunkt 23. november 2024, kl. 10.46 CET