Identificativi univoci e persistenti

Gli identificativi univoci e persistenti (persistent identifier, di seguito PID) sono riferimenti (in genere indirizzi web, URL) che puntano a una risorsa digitale su Internet oppure relativa a qualcosa o qualcuno nel mondo reale. Sono progettati per rimanere univoci e inalterati a tempo indefinito, anche se la posizione della risorsa su Internet o nel mondo reale varia. I PID rappresentano una parte essenziale del processo di adozione del paradigma dell’Open Science perché consentono una affidabile e immediata identificazione di elementi connessi ai processi dell’attività scientifica.

Oltre alla funzione di identificazione di risorse digitali o fisiche, spesso i PID sono associati a una descrizione più o meno estesa dell’elemento che identificano, descrizione disponibile sotto forma di metadati.

Di seguito sono elencati i più diffusi tipi di PID nel campo delle Scienze della Terra, alcuni specifici per determinati tipi di risorse, altri più generici:

ORCID, per identificare e descrivere tramite metadati standardizzati i ricercatori;

DOI, per identificare e descrivere tramite metadati standardizzati varie tipologie di elementi, principalmente pubblicazioni, dati, software, progetti e organizzazioni, ma non solo. Esistono varie organizzazioni che gestiscono DOI, ognuna adotta uno specifico standard di metadati;

Handle, identificativo generico non associato a uno standard di metadati ufficiale;

ROR, per identificare e descrivere tramite metadati standardizzati le organizzazioni.

La possibilità di poter identificare precisamente ogni singolo elemento e di averne spesso anche una descrizione con i metadati, permette di ricostruire l’intero processo della ricerca scientifica, di migliorarne la trasparenza, affidabilità e, auspicabilmente, la riproducibilità. A tal fine, è possibile stabilire una specifica tipologia di relazione tra PID, anche se di tipo diverso. Se i soggetti preposti a gestire gli identificativi stabiliscono diffusamente e correttamente le relazioni tra i vari tipi di elementi è possibile recuperare tutte le tipologie di risultati associati a uno specifico progetto finanziatore, o ancora, tutti i prodotti pubblicati da un persona o da una organizzazione.

Le potenzialità offerte dall’uso corretto e diffuso dei PID sono enormi, ad esempio:

migliorano l’efficienza dei motori di ricerca, perché grazie alla comprensione delle relazioni e dei metadati permettono di recuperare con maggiore velocità, facilità e precisione non solo i risultati scientifici, ma ogni singolo elemento parte del processo scientifico;

aumentano la garanzia di qualità e affidabilità dei prodotti della ricerca, perché tutta la filiera seguita per arrivare al risultato finale è tracciata e trasparente. È quindi più facile rintracciare possibili errori e al contempo più difficile il plagio o la pubblicazione di risultati contraffatti;

permettono una migliore attribuzione dei crediti alle persone direttamente coinvolte nel processo di ricerca, alle organizzazioni che la coordinano e ai soggetti finanziatori. Non solo, grazie alle relazioni tra PID, è possibile ad esempio anche informare gli utenti su quali siano stati i prodotti scientifici utilizzati come dati di base, garantendo da un lato la tracciabilità e dall’altro lato il corretto credito al lavoro altrui.

È ragionevole affermare che con la progressiva adozione del paradigma dell’Open Science, crescerà di conseguenza anche l’importanza della diffusione dell’utilizzo dei PID. È fondamentale familiarizzare con i vari tipi di PID, non solo da parte di chi governa a livello istituzionale la diffusione dei risultati della Ricerca, ma anche da parte dei singoli ricercatori affinché il proprio lavoro possa essere più diffusamente e più correttamente utilizzato dall’intera comunità scientifica e da chiunque nella società ne abbia interesse.

Di seguito vengono descritti i PID più diffusi e affermati nel campo delle Scienze della Terra.

ORCID, per identificare le persone

L’Open Researcher and Contributor ID (ORCID) è un PID nato nel 2012 per identificare le persone che si occupano di fare Ricerca e i cui contenuti sono gestiti direttamente dalle persone che identificano, a prescindere dall’organizzazione a cui sono affiliati in un periodo specifico. L’identificativo ORCID è gestito da una organizzazione internazionale senza scopo di lucro con soci pubblici e privati (molte le case editrici), non legata a una specifica area disciplinare e il cui scopo dichiarato è favorire la connessione tra i ricercatori, le loro affiliazioni e il loro lavoro, in modo gratuito, autonomo, trasparente e affidabile (https://info.orcid.org/what-is-orcid/).

L’ORCID ID si ottiene registrandosi gratuitamente presso il sito https://orcid.org. Non è necessaria alcuna certificazione da parte dell’ente di affiliazione, basta l’accortezza di controllare che il proprio nome non sia già associato al codice ORCID usando il motore di ricerca disponibile sulla piattaforma.

Il sistema ORCID consta di tre elementi:

Un ORCID ID: l’identificativo univoco, persistente, gratuito assegnato ai ricercatori;

Un set di metadati standardizzato collegato all’ORCID ID che permette di descrivere vari aspetti della vita lavorativa del ricercatore, come il percorso formativo, le affiliazioni e i vari tipi di prodotti scientifici. Tramite i metadati, è possibile associare all’ORCID ID anche altri identificativi personali gestiti da altre organizzazioni, solitamente di natura privata, come ad esempio il codice SCOPUS ID gestito da Elsevier, il Researcher ID gestito dalla Clarivate, o ancora il LOOP ID gestito da Frontiers Media.

Un insieme di Application Programming Interfaces (APIs) che permettono l’interoperabilità tra un record ORCID e le organizzazioni associate in modo da consentire una connessione tra i loro ID, le loro affiliazioni e i loro contributi scientifici. Grazie a queste API è possibile ad esempio far comparire automaticamente nel proprio profilo ORCID gli articoli appena questi vengono pubblicati sulle riviste scientifiche che utilizzano l’ORCID ID per gli autori. Le API sono pubbliche e permettono la lettura di tutte le informazioni riportate nel profilo ORCID in modalità machine-readable, permettendo agli sviluppatori di connettersi e di interrogare il database ORCID in maniera automatizzabile.

Tali caratteristiche combinate con la semplicità di utilizzo e la gratuità del servizio, hanno favorito la diffusione in tempi brevi dell’identificativo ORCID. Gli stessi strumenti istituzionali dell’INGV come Earth-prints e il Registro Dati lo utilizzano per identificare gli autori, risolvendo peraltro problemi gestionali legati a omonimie o all’inserimento dei nominativi in modi diversi.

L’utilità del codice ORCID si è infine del tutto affermata nel momento in cui l’Agenzia per la valutazione del sistema Universitario e della ricerca (ANVUR) ha deciso di rendere il possesso dell’ORCID una condizione necessaria per partecipare al processo di Valutazione della Qualità della Ricerca (VQR) nel periodo 2011-2014. Al fine di facilitare l’uso di ORCID, l’Anvur lanciò nel 2015, insieme alla CRUI e al Cineca, il progetto Italian Research Identifier for Evaluation (IRIDE). L’obiettivo del progetto era quello di dotare tutti coloro che in Italia operano nella Ricerca (docenti, ricercatori universitari e degli enti di ricerca, dottorandi e post-doc) di un codice univoco che li identifica a livello internazionale e consente di evitare i problemi legati ad ambiguità ed errori di identificazione nell’associazione ricercatore-pubblicazione.

La disponibilità del codice ORCID sta avendo una serie di ricadute positive a più livelli.

A livello nazionale:

Analisi più precise a livello di ricercatore, ente, nazione.

Allineamento tra le basi dati internazionali (Web of Science, Scopus), nazionali (sito docente loginMIUR) e locali.

Creazione delle premesse per la costituzione dell’anagrafe nazionale della ricerca, utilizzando dati di fonte certa.

Maggiore affidabilità nel calcolo degli indicatori bibliometrici.

A livello di istituzione:

Possibilità di seguire la carriera di ciascun ricercatore indipendentemente dalla sua affiliazione, passata, presente o futura; elemento particolarmente importante per i ricercatori con maggiore mobilità come dottorandi e assegnisti.

Possibilità di monitorare il livello di collaborazione intra- e interistituzionale, nonché internazionale dei ricercatori.

A livello di singoli ricercatori:

Possibilità di usufruire di nuovi servizi come ad esempio la portabilità del proprio curriculum scientifico, ivi compresi progetti, brevetti, pubblicazioni nel trasferimento da una organizzazione all’altra, l’accoppiamento fra ID e la richiesta di un finanziamento, o fra l’ID e la submission di un paper.

ORCID integration

Fig. 1 - Schema delle integrazioni di ORCID come riportate sul sito di ORCID. Source: ORCID website (lista completa presso: https://orcid.org/members) - Kramer, Bianca (2017): Selection of ORCID integrations - visual representation. Figshare. Figure. https://doi.org/10.6084/m9.figshare.4644991.v1

DOI, per identificare elementi di varia natura

Il Digital Object Identifier (DOI) è un identificativo nato inizialmente per il tracciamento di risorse digitali online. DOI è stato creato nel 2000 ed è gestito dalla International DOI Foundation (IDF). Il suo scopo principale è aiutare ricercatori e creatori di contenuti nella gestione e identificazione di oggetti digitali su Internet. DOI è divenuto velocemente una parte importante del processo di comunicazione scientifica, sia per la praticità con cui permette la citazione dei contenuti e il corretto accreditamento della paternità, sia come supporto anti-plagio, in quanto il suo uso identifica con immediatezza la sorgente originale di un articolo o di un prodotto tecnico/scientifico. Inoltre, al fine di facilitare il processo di comunicazione scientifica, DOI assicura l’accuratezza e l’affidabilità delle informazioni, in quanto il link persistente è anche un modo per verificare la sorgente delle informazioni.

Oggi è possibile assegnare codici DOI a moltissime tipologie di oggetti e soggetti, ad esempio:

testi, compresi libri, riviste e pubblicazioni scientifiche in genere, letteratura grigia compresa;

dati (dataset, data collection);

modelli concettuali;

software;

oggetti multimediali come immagini, video, musica e suoni;

progetti, vedi la recente adozione di DOI per identificare i progetti europei censiti da Community Research and Development Information Service (CORDIS);

organizzazioni che finanziano la ricerca scientifica, un servizio a cura dell’agenzia CrossRef;

reti di monitoraggio sismico da parte della International Federation of Digital Seismograph Networks (FDSN).

Diverse sono le agenzie a cui la DOI foundation concede la possibilità di assegnare codici identificativi DOI, le cosiddette DOI Registration Agencies, ciascuna con un proprio standard di metadati.

INGV è un ente accreditato direttamente presso due agenzie per l’assegnazione di codici DOI:

Multilingual European DOI Registration Agency (mEDRA), per l’assegnazione di codici DOI ai numeri della rivista Annals of Geophysics;

DataCite, per l’assegnazione di codici DOI ai propri dati scientifici pubblicati nel Registro Dati istituzionale e ai volumi delle proprie collane editoriali Quaderni di Geofisica, Rapporti Tecnici INGV e Miscellanea INGV.

Handle, per identificare elementi di varia natura

Handle System è un sistema di identificazione distribuito dedicato alle risorse digitali sviluppato dall’organizzazione statunitense senza scopo di lucro Corporation for National Research Initiatives (CNRI). Consiste di un sistema in grado di assegnare una denominazione persistente ad una risorsa digitale (dataset, pubblicazioni, siti web). Il codice identificativo DOI si basa sul sistema Handle a cui è stato assegnato il prefisso iniziale “10.”. Un’accurata spiegazione di come DOI usi Handle System (e del perché i due sistemi non siano in reale competizione) è riportata a questa pagina web.

Handle System è privo di uno schema di metadati proprio ed è stato progettato per essere flessibile ed estensibile, di modo che possa essere utilizzato per diversi scopi. Ad esempio può essere usato per assegnare un nome semplificato (human readable) ad una risorsa in rete ma anche per usi più sofisticati come il tracciamento delle diverse versioni di un prodotto o documento. È progettato secondo un’architettura di tipo client-server. Il server funge da repository centrale immagazzinando informazioni sugli identificatori (handles) e le risorse loro associate (l’indirizzo sul web, URL). Il client è un’applicazione software che interagisce con il server per risolvere gli Handles a - quindi - accedere alle risorse associate. Handle System è progettato per rimanere scalabile ed efficiente, potendo gestire da poche centinaia di identificatori fino a centinaia di milioni.

INGV utilizza l’Handle System nel proprio archivio istituzionale Earth-prints, ogni elemento archiviato è infatti automaticamente associato a un codice Handle. La piattaforma su cui si basa Earth-prints è Open Source e si chiama D-Space, una piattaforma che internamente associa al codice Handle anche un set di metadati bibliografici accessibili tramite delle Application Programming Interface (API) conformi alle specifiche Open Archives Initiative Protocol for Metadata Harvesting (OAI-PMH).

ROR, per identificare le organizzazioni

Il codice Research Organization Registry (ROR) è stato creato nel 2019 e mira a identificare tutte le organizzazioni coinvolte nelle attività di ricerca, a prescindere dalla loro collocazione territoriale, dalla loro forma giuridica o dal ruolo ricoperto nei processi di ricerca. ROR è ad uso gratuito ed è gestito da un consorzio senza scopo di lucro i cui componenti sono enti di ricerca, università, finanziatori, editori e altri consorzi che gestiscono identificativi e metadati come DataCite e CrossRef. Alla data odierna sono più di 100000 le organizzazioni registrate in ROR e sono in crescita.

Il modello di metadati associato al codice identificativo ROR comprende le informazioni essenziali di ogni organizzazione come il nome (locale e internazionale), l’ubicazione geografica, l'indirizzo del sito web istituzionale, la tipologia giuridica, vari tipi di altri identificativi alternativi associati alla stessa organizzazione e infine l’eventuale collegamento ad altre organizzazioni.

I metadati sono liberamente utilizzabili da chiunque senza limitazione e per questo sono pubblicati con licenza Creative Commons CC0 1.0 Universal Public Domain Dedication. Per facilitare ulteriormente l’uso del codice ROR e la diffusione dei suoi metadati sono anche disponibili delle Application Programming Interface (API) che permettono agli sviluppatori di realizzare strumenti e applicazioni in grado di interrogare il registro in modo automatico.

ROR è l’identificativo predefinito supportato da Crossref, DataCite e ORCID nei rispettivi schemi di metadati che vengono associati ai rispettivi identificativi univoci. Il codice ROR è anche adottato dall’INGV per identificare le organizzazioni citate nel Registro Dati istituzionale.

Altre tipologie di PID largamente diffusi

ScopusID. È il codice identificativo dedicato agli autori che pubblicano su riviste scientifiche. È stato sviluppato ed è gestito da Elsevier, una delle aziende più importanti nell’ambito dell’editoria scientifica, ed è parte integrante dello Elsevier’s Scopus Database, un database integrale della letteratura scientifica peer-reviewed che viene spesso utilizzato per calcolare l’h-index. Una volta che un autore è registrato nel database, gli viene assegnato uno Scopus ID che poi viene utilizzato per tracciare e analizzare le pubblicazioni di un autore, le citazioni e altri dati relativi alla sua attività di ricerca.

Loop ID. È il codice identificativo degli autori sviluppato e gestito dall’editore Frontiers. Loop ID viene assegnato automaticamente nel momento della registrazione necessaria per sottomettere un lavoro ad una rivista pubblicata da Frontiers. Da quel momento l’ID (e il ricercatore cui è assegnato) entra a far parte del Loop Research Network che, nelle intenzioni dell’editore, è una piattaforma online progettata per connettere tra di loro ricercatori ed enti di ricerca a livello internazionale, al fine di favorire la collaborazione, la condivisione delle conoscenze e delle risorse.

ResearcherID. È il codice identificativo assegnato agli autori introdotto da Thomson Reuters Corporation e attualmente gestito da Clarivate Analytics. Si tratta del PID assegnato automaticamente quando un utente si registra (gratuitamente) presso il servizio di Web of Science o quando il sistema genera automaticamente un ID per un autore di un lavoro scientifico pubblicato;, quindi essere associati a un ResearcherID non è quindi, necessariamente, una registrazione esplicita al servizio Web of Science. Scopo di ResearcherID è di collegare autori e pubblicazioni, attività di ricerca e affiliazioni. ResearchID è dedicato a ricercatori, università, enti di ricerca, agenzie governative e organizzazioni. Ha come scopo la gestione centralizzata delle informazioni relative alle attività scientifiche come il tracciamento delle pubblicazioni, ricerche e affiliazioni. Inoltre si prefigge come scopo quello di facilitare la collaborazione tra ricercatori e gruppi di ricerca.

Google Scholar ID. È l’identificativo associato agli autori scientifici nel motore di ricerca Google Scholar e che viene assegnato automaticamente nel momento in cui un utente crea un profilo nel sistema. Google Scholar è stato lanciato nel 2004, come una sorta di sottosistema del noto motore di ricerca espressamente dedicato alla letteratura scientifica. È progettato come un ausilio per ricercatori e studenti per localizzare facilmente articoli scientifici nel web. Dell’algoritmo principale del motore di ricerca Google eredita in particolare la capacità di discernere i risultati più attinenti. La ricerca si estende su tutta la letteratura scientifica pubblicata, comprendendo articoli, libri, tesi, brevetti, rapporti tecnici o sentenze giuridiche. Inoltre offre metriche di citazione e analisi.

International Standard Book Number (ISBN). È l’identificativo dedicato ai libri, viene acquistato dagli editori da un’agenzia affiliata alla International ISBN Agency. Quando l’INGV pubblica una monografia assegna contestualmente un codice ISBN.

International Standard Serial Number (ISSN). È l’identificativo dedicato alle pubblicazioni periodiche e viene assegnato da un network di centri nazionali coordinati dall’ISSN International Centre. Il codice ISSN si distingue in due tipologie a seconda che la pubblicazione sia cartacea od online. L’INGV ha assegnati i seguenti codici ISSN:

per la rivista Annals of Geophysics il codice ISSN per la versione cartacea è 1593-5213 mentre per la versione online è 2037-416X;

per la collana Quaderni di Geofisica il codice ISSN per la versione cartacea è 1590-2595;

per la collana Rapporti Tecnici INGV il codice ISSN per la versione cartacea è 2039-7941;

per la collana Miscellanea INGV il codice ISSN per la versione cartacea è 2039-6651.

arXiv Identifier. È il codice identificativo associato ai pre-print depositato presso l’’omonimo archivio arXiv che è gestito dalla statunitense Cornell University ed è finanziato da donatori di varia natura. Il servizio è stato lanciato nel 1991 ed è attualmente il più vasto repository open access di articoli scientifici. I topic accettati sono limitati a fisica, matematica, informatica, biologia quantitativa, finanza quantitativa, statistica, ingegneria elettrica, ingegneria dei sistemi ed economia. L’unico controllo effettuato sui lavori sottomessi è relativo alla fedeltà al topic scelto dall’autore e sul “valore accademico” generale. Non viene fatto un vero peer-review. Un vantaggio di arXiv, almeno per i campi trattati, è quello di fornire, gratuitamente, al ricercatore una visione generale delle ricerche di prossima pubblicazione e di avere una vetrina semplice e immediata per il suo lavoro.

Participant Identification Code (PIC). È l’identificativo assegnato dalla Commissione Europea - Funding & Tender opportunities per identificare le organizzazioni che partecipano ai piani di finanziamento europeo e ideato dalla Single Electronic Data Interchange Area (SEDIA). L’identificativo PIC dell’INGV è 999472675.