Gå til innhold
Illustrasjon: NILU

Nå kan forskere lenke direkte til data om atmosfæren i vitenskapelige artikler

En av verdens største databaser for data om målinger av atmosfærens sammensetning heter EBAS og driftes av NILU. Tidligere har det ikke vært så enkelt å finne ut nøyaktig hvilke datasett som er brukt i ulike vitenskapelige artikler. Men nå kan forskere – og andre – lenke til eller «sitere» ulike atmosfæredata fra EBAS.

– Når forskningsdata er sporbare, blir også vitenskapen basert på dem sporbar og mulig å etterprøve. Det er hovedpoenget med å gjøre datasettene lettere å referere til, sier seniorforsker Cathrine Lund Myhre. Hun jobber i NILUs atmosfære- og klimaavdeling.

Siterbare datasett er stadig viktigere

Det Lund Myhre snakker om kalles som regel «sitering». Det betyr at du viser til andres forskning eller resultater når du skriver om din egen forskning. Det finnes spesifikke regler for hvordan slik sitering skal gjøres. Målet er å vise klart og tydelig hva forskningen er bygget på.

Fram til nylig har det ikke vært så enkelt å sitere datasett, selv om de ofte brukes i forskning på blant annet klimagasser. Det er altså i ferd med å endre seg.

– Noe av det viktigste er at data blir etterprøvbare og enklere å inkludere ved sitering i artikler. Det vil si at det er tydelig hvilke data som danner grunnlag for artikler og store rapporter – som for eksempel rapportene til FNs klimapanel (IPCC). Kunnskapsgrunnlaget blir sikrere når vi kan dokumentere om forskere har brukt samme sett med data i hver sine studier, eller om datasettet er nyere eller eldre, sier Lund Myhre.

Tre av hovedpersonene bak EBAS FAIR er (fra venstre) Jan Øyvind Låte, Markus Fiebig og Cathrine Lund Myhre. Paul Eckhardt var dessverre ikke til stede da bildet ble tatt. Foto: Ingunn Trones, NILU

Sporbare data er mer «FAIR» data

Å gjøre data «FAIR» har NILU jobbet med i lang tid og som del av flere prosjekter knyttet til EBAS-databasen. EBAS er en av verdens største databaser for måledata om atmosfærens sammensetning.

Å kunne referere til datasett fra databaser som EBAS er viktig når man vil ha «FAIR», det vil si «Findable, Accessible, Interoperable og Re-usable» data. På norsk kan vi si gjenfinnbare, tilgjengelige, samhandlende og gjenbrukbare data. I praksis betyr dette å håndtere og beskrive forskningsdata slik at de er tilgjengelige, forståelige og brukbare for alle, både nå og i fremtiden. FAIR-prinsippene skal sikre at alle data beskrives og lagres på en måte som gjør dette mulig.

Senior systemutvikler Jan Øyvind Låte jobber også i atmosfære- og klimaavdelingen. Han er en av flere som har styrket EBAS-teamet på NILU de siste årene, for å jobbe med nettopp sitering av datasett.

Systematisk arbeid med FAIR-data i EBAS startet med prosjektet ENVRI-FAIR i 2019, og er videreført i det pågående og svært omfattende prosjektet ACTRIS-Norway.

Sammen med Paul Eckhardt, som er hjernen bak «FAIRifiseringen» av EBAS, begynte Låte på arbeidet med å sette opp en automatisk arbeidsflyt i 2022. To år senere er arbeidsflyten på plass.

Forskere kan sitere datasett fra EBAS

– Arbeidet EBAS-teamet har utført, har gjort at vi har kommet et godt stykke på vei til å implementere FAIR i EBAS, sier Låte.

Noenlunde enkelt sagt fører den automatiske arbeidsflyten til at hver gang noen gjør endringer i et datasett i EBAS lages det automatisk en landingsside med informasjon om datasettet. Siden beskriver hvilket stoff som er målt, hvor målingene er foretatt, i hvilket tidsrom og av hvem, med mer.  Det er altså enkelt å se om det er gjort endringer, og om det er kommet til nyere versjoner av datasettet.

I tillegg lages en tilhørende NetCDF-fil for datasettet. NetCDF er et standardisert filformat som brukes i forskning og vitenskap for å lagre, organisere og utveksle datasett. Det benyttes også for alle datasettene i EBAS.

Etter at landingssiden og NetCDF-filen er på plass blir det lastet opp metadata til DataCite. Den lager igjen en DOI-lenke under https://doi.org, f.eks. https://doi.nilu.no/doi/FNN8-T9NJ.

DOI står for Digital Object Identifier (DOI), og er det samme systemet som brukes for vitenskapelige artikler.

– Forskere som bruker datasettene våre kan med andre ord sitere dem, akkurat som de gjør med artikler. I skrivende stund inneholder EBAS over 300 000 landingssider som kan siteres med DOI-lenker, sier Låte.

Sitering er en anerkjennelse

Låtes kollega, seniorforsker Markus Fiebig, har ledet utviklingen. Han er veldig glad for å ha fått på plass den nye funksjonaliteten.

– Forskerne som produserer disse måledataene og lange tidsseriene legger mye arbeid i å opprettholde god nok målekvalitet til at vi kan oppdage endringer i atmosfæren på et tidlig tidspunkt. At andre forskere nå kan sitere datasettene deres gir «opphavsforskerne» anerkjennelsen de fortjener, sier han.

Jobben NILU-teamet gjør nå er en del av en større innsats for å oppnå «data-FAIRness» for EBAS-data.

– For å gjøre data FAIR kreves det en del tjenester som skal gjøre dataene enkle å bruke. Identifiserbare og siterbare data er en nøkkelfunksjon i denne sammenhengen, forklarer Fiebig.

EBAS-databasen

EBAS-databasen er en av verdens største databaser for måledata av atmosfærens sammensetning, målt ved bakkestasjoner. EBAS drives av NILU på Kjeller utenfor Oslo, og dataene i EBAS brukes av klima- og miljøforskere over hele verden. Databasen inneholder data fra 84 land, fordelt på 1358 ulike bakkestasjoner som leverer data om totalt 818 atmosfæriske variabler – som for eksempel sporgasser, ozon, karbonpartikler og pollen.

I 2023 fikk EBAS 2494 innleveringer av data. Alle data blir håndtert og kvalitetskontrollert av EBAS-gruppen. I 2022 lastet brukere i mer enn 50 land ned til sammen over 7000 år med data fra EBAS.

Bak de relativt enkle EBAS-landingssidene ligger det en del infrastruktur. Selve prosess-flyten er håndtert av Apache Airflow. Landingssidene blir lagret i MongoDB og NetCDF-filene blir håndtert av Thredds Data Server.