Izena eman

FAIR datuen printzipioak ezartzea: zer dago akronimoaren atzean?

Simon Hodson-ekin hitz egin dugu, ISC Committee on Data (CODATA) zuzendari exekutiboarekin gehiago jakiteko.

Ikerketa zientifikoaren oinarrian dauden datuak dira ulermen zientifikoan aurrerapenak bultzatzen dituztenak. Datu-multzo hauek ezinbesteko arrastoak dituzte zientzialariek gaur egun dituzten galderarik premiazkoenetako askoren inguruan, eta iraganeko aurkikuntzei argi berria eman diezaiekete, zientziaren erregistroa balioztatu edo baliogabetuz, eta ikerketa berrietarako eta ulermen berrirako aukerak irekiz. Hala ere, informazio mota hori askotan desagertzen da aurkikuntza zientifikoak argitaratzeko prozesuan, bai datuak partekatzen ez direlako, edo ez direlako eskuragarri sartzea eta galdeketa erraza den formatuan.

«Zientzian, lan zoragarri asko PDF dokumentu gisa argitaratzen dira. Artikulu bat inprimatu eta irakurri ahal izatea oso ona da gizakientzat, baina PDFan jakinarazitakoa eraikitzeko sartutako informazio asko ezkutuan geratzen da. Ikuspegi orokorra lortu nahi badugu, eta prozesu edo erreakzio jakin bati buruzko literaturan egin diren eta jakinarazi diren esperimentu guztiak aztertu nahi baditugu, oso zaila da PDF horietatik informazio hori guztia ateratzea. ", azaldu du Simon Hodson-ek, zuzendari exekutiboak ISC-CODATA.

Kimikari baten hitzetan. Peter Murray-Rust-ek dioenez, PDFetatik informazio baliagarria ateratzea "behi-hanburgesa batetik behi bat berreraikitzea" bezalakoa izan daiteke.

Irristatu Flickr bidez moztu.

Urte askotako ikerketan zehar datu zientifiko ugari sortu da, baina kasu askotan, ez da posible - eta zalantzarik gabe ez da erraza - datu horiek aurkitzeko eta kontsultatzeko, beste aurkikuntza edo etengabeko lanekin alderatzeko. Asmakizun honen aurrean, eta zientzia irekiaren nahitaezkoaren ildotik, ikertzaileak lanean ari dira datuetan oinarritutako zientzia gehiago ahalbidetzeko datuen irisgarritasuna eta elkarreragingarritasuna onartzen duten esparruen bidez.

Horretarako azken eta nabarmenenetako bat FAIR da, zeintzuk izan behar duten datuak ahalik eta erabilgarrien eta baliotsuen izateko biltzen dituena: FAIR datuak datuak dira. Findaezina; Aeskuragarria; Interoperagarriak eta Re-erabilgarria.

«Aurki daitezke» esan nahi du aurkikuntza zientifikoen oinarrian dauden ebidentzien parte gisa argitaratzen diren datu zientifikoak edo finantzatutako ikerketa publikoen ondorioz sortutakoak, besteek aurkitu eta erabil ditzaten egon behar dutela. Datuek identifikatzaile iraunkor eta anbiguoa izan behar dute, baita aurkikuntza ahalbidetzeko nahikoa metadatu aberatsak ere.

"Arrazoi onak daude datu batzuk babesteko", dio Simon Hodsonek, "baina gogoeta horiek aplikatzen ez direnean, FAIR printzipioek esan nahi dute datuak sarean sartzeko aukera izan behar duzula, agian baimenarekin segurtasun-arazoak izanez gero. . Funtsezkoa, FAIR printzipioek diote zientzialariek ikerketa-datuak programatikoki sartzeko gai izan behar dutela, hau da, beren makinen bidez ere. Ez da soilik datuak eskuratu eta deskargatu ahal izatea: ezin hobea izango zenuke ordenagailuaren kodearekin kontsultatu».

FAIR-en i-ak "elkarreragingarria" aipatzen du, hau da, iturri ezberdinetako datuak konbina ditzakezu: hori neurri handi batean metadatuetarako estandarrak eta adostutako terminologia edo hiztegia izatearen araberakoa da. Esaterako, herrialde jakin bateko gizarte-inkesta baten metadatuek argi azalduko lukete erabili diren adin-kategoriak edo kategoria sozioekonomikoak, eta kategorien mugak non dauden, datuak erraz alderatu ahal izateko gizarte-inkesta bateko datuekin. beste herrialde batean.

R berrerabilgarritasuna esan nahi du: jendeak datuak berrerabiltzea ahalbidetzen duen lizentzia bat izatea dakar eta edozein berrerabilpenaren baldintzak argi adierazten ditu. Datuen jatorriari buruzko informazioa izatea ere esan nahi du (adibidez, nola bildu diren, zer doikuntza edo kalibrazio erabili diren, zer prozesatu eta garbiketa gehiago jasan duten datuak, etab), ikertzaileek izan ditzaketen puntu sendoak eta mugak uler ditzaten. datuak, eta erabili konfiantzaz.

FAIR datuak 'Fully AI Ready' ere badaude. Ikaskuntza automatikoa erabiltzeko ereduak identifikatzeko eta datu-multzo ezberdinetan emaitzak iragartzen hasteko, ezinbestekoa da datu-multzoan aldagai desberdinetarako definizioak izatea, eta definizioak erraz eskura izan behar dira.

“Datuak eta erlazionatutako zerbitzuak BIDEAK direnean, orduan dena deskribatzen da ordenagailuak –eta kodea erabiltzen duen edonork– jakin dezan zer definizio erabili den kontzepturako eta erlazionatutako aldagaiarentzat, neurketak nola lortu diren eta balioak berak. Ondoren, datu-kodearekin elkarreragin dezakegu, agian deskonposatuz, azpimultzo bat hartuz, beste datu batzuekin konbinatuz. Datuak BIDEAK badira, askoz eraginkorrago egin daiteke eta azterketak eta ikerketak berak mesede egiten dio", dio Simon Hodsonek.

Zientziaren hainbat esparrutako oinarrizko kontzeptuak adierazteko hiztegi estandarizatuak izatearen ideia ez da inola ere berria. The Kimika Pura eta Aplikatuaren Nazioarteko Batasuna (IUPAC), ISCko kidea, 1919an sortu zenetik kimikaren nazioarteko estandarizazioaren beharrari erantzuten ari da. Gaur egun, ezinbestekoa da hiztegi estandarrak aro digitalari egokituta egotea eta beraiek BIZITZA izatea. Datuen Dokumentazioa ekimenarekin antolatutako tailer baten ondorioz, Simon Cox-ek zuzendutako talde batek (CODATA Batzorde Exekutiboko kide ohia eta terminologien erabileran aditua) argitaratu zuen 'Hiztegi bat AZOKA egiteko Hamar Arau Soil'.

Jarraibide hauei jarraituz, CODATA FAIR hiztegia lantzen ari da Arriskuen Informazioaren Profilak ISCk argitaratu zuen 2021eko urrian. Horrek deskribatutako arrisku guztientzat web-oinarritutako terminologia sortuko du, GitHub-en eta Research Vocabularies Australia zerbitzuaren bidez eskuragarri egongo dena, edonork erabil dezan. Horrek esan nahi du arriskuak murrizteko eta kudeatzeko estrategiak eta ekintzak garatzen dituzten gobernuek datuak azkar alderatu ahal izango dituztela hondamendien galerari edo txostenak emateko esparruei buruzko datuekin, adibidez.

CODATA FAIR hiztegietan ere lan egiten ari da ISCko hainbat kiderekin, hala nola, Populazioari buruzko Ikerketa Zientifikorako Nazioarteko Batasunarekin (IUSSP). Demografia datu ugariko eremua da, eta oso garrantzitsua da giza garapen iraunkorra ulertzeko. Biztanleria-zientzietako FAIR funtsezko terminologiak eginez, IUSSPk datu demografikoak erabilgarriago egiten lagunduko du estatistika-agentziarentzat eta gizarte-zientzialarientzat, bai eta datu horiek erabiltzen dituztenentzat ere, biztanleriaren datuak erabiltzen dituzten ikerketa-eremu askotan, Iraunkortasunarekin lotutako arlo gehienetan barne. Garapen Helburuak (GEH).

CODATAk ere antzeko lana egingo du IUPACekin, bi urteko proiektu berriaren baitan.Munduko AZOKA: FAIR datuen politika eta praktikari buruzko lankidetza globala', Europako Batzordeak bere bidez finantzatua Horizon Europe Esparru Programa. Koordinatuta CODATA, nirekin Research Data Alliance elkartearen bazkide nagusi gisa, WorldFAIR proiektuak hamaika domeinu eta domeinuen arteko kasu-azterketa multzo batekin lan egingo du FAIR datu-printzipioak inplementatzen aurrera egiteko, batez ere Elkarreragingarritasunari buruzkoak, eta gomendio-multzo bat eta FAIR-erako marko bat garatzeko. ebaluazioa diziplina multzo batean, edo diziplina arteko ikerketa-esparruetan. WorldFAIR CODATAk ISC Proiektuari egingo dion ekarpenaren oinarria izango da Datuak domeinuen arteko erronka handietarako funtzionatzea.

IUPAC kimikaren kasuaren azterketa gidatzen ari da, IUPACek kudeatzen dituen informazio-aktiboak eta terminologiak digitalizazioaren eta FAIR datuen garairako egokiak nola egin aztertzen. IUPAC-ek nanomaterialei eta geokimikari buruzko beste WorldFAIR kasu-azterketekin ere parte hartuko du.

WorldFAIReko beste bazkide bat Drexel Unibertsitatea da, AEB, eta Salud Urbana en América Latina (“Hiri Osasuna Latinoamerikan”) (SALURBAL) proiektua zuzendu zuena. SALURBAL garatu a Herrialde anitzeko datu-multzoa, hala nola, ezaugarri demografikoak, hilkortasun-tasak, osasun-jokabideak eta arriskuak, gizarte-ingurunea eta ingurune eraikia., Latinoamerikako hirietako hirien eta auzoen konparaketak egiteko aukera emanez. Baliabide harrigarri honek eskualdeko hirietako osasun- eta osasun-desberdintasunen eragileei buruzko politikari buruzko ikerketak ahalbidetuko ditu. SALURBALek dagoeneko lan handia egin du datuen harmonizazioan. WorldFAIR lan hori argitzen lagunduko du eta hiri-osasuneko FAIR terminologietarako gomendioak emango ditu.

Interesgarria izan liteke

CAG-CEPT, CODATA eta UHWB podcast-sailak "Hiri-sistemetarako Datu-Ezagutza-Ekintza"ri buruz

Datu-Ezagutza-Ekintza Urban Systems podcast serieak hiri-sistema adimentsuak eraikitzeko erabiltzen diren sistemak aztertzen ditu. Serieak hiriak hiri ongizatea kudeatzeko moldagarri eta adimentsu bihurtzeko behar diren aldaketa sistematikoei buruz hausnartzen du. Geomatika Aplikaturako Zentroak, CODATAk eta Hiri Osasunerako eta Ongizaterako Programak (UHWB) hartzen du.


Otsailaren 15ean eta 16an, Simon Hodsonek CODATAren lanari buruzko informazioa eman zuen ISCko kideentzako ezagutzak partekatzeko saioaren barruan. Zientzia eta Teknologia konbergentea aro digitalean.

bideoa

WorldFAIR proiektuari buruz, CODATAk FAIR hiztegiei buruz egindako lanari buruz eta hainbat ikerketa-diziplinatan datu eta informazio-aktiboak FAIR egiteko ekimenei buruzko informazio gehiago aurki dezakezu hemen. Datuen Nazioarteko Astea 2022, ekainaren 20tik 23ra.


École polytechnique-ren irudia – J.Barande Flickr bidez.