Slide 1: Architetture e protocolli dell’OPEN ARCHIVE
Sapienza Università di Roma Scuola Speciale Archivisti e bibliotecari Anno Accademico 2009 – 2010 Informatica per gli Archivi e le Biblioteche Scuola di Specializzazione Prof. Maurizio Caminito II MODULO - LEZIONE 1
1
Slide 2: Premesse
L’avvento delle nuove tecnologie ha: • portato allo scoperto la crisi del modello tradizionale di comunicazione scientifica • fornito soluzioni alternative e innovative per disseminare la letteratura scientifica a costi molto più contenuti • offerto strategie complementari e non concorrenti per garantire l’open access
2
Slide 3: Open Archive o E-prints Server
Noti come Open Archive, o E-prints server, sono archivi preposti al deposito dei documenti scientifici, in forma elettronica, alla loro gestione e conservazione.
3
Slide 4: Archivi Aperti: tipologie
Contenuti C E-prints: pre e post-prints E Materiali multimediali Archivi Aperti Istituzionali Collezioni che raccolgono la produzione scientifica o le attività culturali di una istituzione (Università, centri di ricerca, etc) d Alma-DL (Università di Bologna) ( M.U.S. (Università di Messina) Archivi Aperti Disciplinari Collezione di contributi della stessa disciplina C E-LIS (E-prints in Library and Information Science) ( arXiv (E-prints in Physics, Mathematics, Computer Science and Quantitative Biology)
4
Slide 5: Archivi Aperti: tipologie
• Possono essere organizzati a livello istituzionale o a livello disciplinare. • I documenti elettronici possono essere depositati direttamente dagli autori attraverso un semplice processo noto come auto-archiviazione.
N.B. Non va confusa l’auto-archiviazione (self-archiving) con l’auto-pubblicazione (self-publishing)
5
Slide 6: Archivi Aperti: caratteristiche
• Software “open source” di semplice gestione, distribuiti con licenza GNUGPL, con interfaccia web grafica sia per l’amministrazione che per l’utente finale • Funzione di “self-archiving”: l’autore deposita autonomamente i propri lavori • Accesso aperto ai contenuti dell’archivio: l’utente finale recupera il “full-text” attraverso diverse modalità di ricerca
6
Slide 7: Gli strumenti per l’Open Access
Sono metodi e tecnologie per garantire l’accesso aperto alla letteratura scientifica Sono applicativi software per archivi aperti basati sull’interoperabilità, ossia sulla possibilità di condividere, trasportare, scambiare metadati attraverso l’architettura e il protocollo della Open Archives Initiative Sono iniziative di editoria elettronica che garantiscono al lettore l’accesso al full-text senza pagamento
7
Slide 8: Open Archives Initiative
• Open Archives Initiative sviluppa e promuove dispositivi per l’interoperabilità che mirano ad agevolare l’efficacia della disseminazione dei contenuti sul web • I documenti sono depositati in archivi (repository) per consentire la condivisione dei metadati, la pubblicazione dei contentui e l’archiviazione delle risorse • la descrizione dei documenti avviente mediante Dublin Core non qualificato http://www.openarchives.org
8
Slide 9: Open Access Initiative
• OAI è supportata nelle sue iniziative dalla Digital Library Federation e da Coalition for Networked Information e riceve finanziamenti da National Science Fundation • fonda le sue radici nel continuo sforzo teso al miglioramento dell'accesso ai documenti entro gli archivi e-print, • mette a disposizione strumenti, software e documentazione (protocolli, standard) • promuove l'utilizzo di metadati standard
9
Slide 10: Open Access: le strategie
Le Strategie Per raggiungere l’obiettivo dell’accesso aperto alla letteratura scientifica, sono due e sono complementari: a Open Access self-archiving Attraverso l’implementazione di Archivi Aperti gli autori depositano i loro lavori “certificati” in archivi aperti conformi agli standard OAI a Open Access Publishing (Per sostenere la creazione di nuove riviste ad accesso aperto e/o la conversione di riviste accademiche già esistenti) Gli autori pubblicano i loro lavori in riviste ad accesso aperto, in cui il copyright serve ad assicurare l’accesso permanente e non a limitarlo
10
Slide 11: La prima strategia: Open Access self-archiving
• Implementare archivi aperti • Favorire e promuovere l’immissione dei lavori precedentemente pubblicati dai ricercatori (quindi ‘certificati’, già sottoposti al controllo di qualità) nelle riviste scientifiche Sotto forma di pre-print Sotto forma di post-print, (in accordo con le politiche editoriali della rivista)
11
Slide 12: Open Access self-archiving Archivi Aperti: cosa sono
• Collezioni digitali che raccolgono e conservano la letteratura accademica • Probabilmente, la componente più importante nell’evoluzione della struttura dei nuovi modelli di comunicazione scientifica Nel caso degli OA istituzionali, indicatori tangibili di qualità didattica, canale privilegiato di incremento della visibilità di un’università 12
Slide 13: Archivi Aperti e interoperabilità
• Ciascun documento depositato è corredato da metadati in formato standard che vengono esposti per la raccolta (harvesting) • Gli archivi sono detti “aperti” in quanto possono essere interrogati da un servizio (“service provider”) che si occupa di indicizzare i metadati raccolti dai vari archivi attraverso la funzione di harvesting Un deposito entro l’architettura OAI Open Archive Initivative è noto come “data provider”
13
Slide 14: La licenza GNU-GPL
GNU's Not Unix !!
GNU General Public License G l’autore del software concede agli utilizzatori di eseguirlo, copiarlo, distribuirlo, modificarlo e ridistribuire le modifiche, nel rispetto dell’unica restrizione imposta, ossia che ciascuna copia o modifica erediti le stesse libertà e sia accompagnata dal codice sorgente “aperto” a è considerata da molti, se non tutti, la licenza basilare del software libero.
14
Slide 15: Archivi Aperti: architettura
Centralizzata C I contributi vengono depositati tutti in un unico server centrale Distribuita D I contributi vengono depositati su più servers remoti che sono connessi tra loro da un’unica interfaccia di ricerca
15
Slide 16: Archivi aperti: modello “tradizionale”
“In un certo senso, il modello OA si basa su una concezione ‘tradizionale’ di archivio: i dati sono registrati, certificati, descritti, messi a disposizione… ma finché qualcuno non li richiede non si muovono dall’archivio, e quando qualcuno li richiede, il trasferimento ha solo conseguenze locali. In forme diverse, attraverso feed RSS e sistemi P2P i dati si muovono (il trasferimento ha conseguenze sistemiche)”
(Citazione da: G. Roncaglia, Open archives e altre forme di pubblicazione in rete) 16
Slide 17: Repertori di Open Archive
Il CILEA raccoglie repertori relativi a Open Archive, archivi elettronici istituzionali o disciplinari ad architettura centralizzata o distribuita, allestiti tramite l'impiego di tecnologia open source e incrementati tramite auto-deposito.
http://www.virtual-library.it/SPT--BrowseResources.php?ParentId=211
17
Slide 18: Il caso di E-LIS
• L’archivio E-LIS è stato costituito nel 2003 per il deposito di documenti in biblioteconomia e scienza dell'informazione (LIS – Library and Information Science). • E‘ la prima esperienza internazionale di e-server in questo settore http://eprints.rclis.org/ )
(
•
• •
Deriva dal progetto DoIS (Documents in Information Science) , promosso dal Ministero della Cultura spagnolo e ospitato da team AEPIC su macchine del Consorzio Interuniversitario Lombardo italiano per Elaborazione Automatica (CILEA). E-LIS si basa sul lavoro volontario ed è non-commerciale. E-LIS porta avanti la filosofia Open Access, rendendo disponibili documenti in LIS e campi correlati.
18
Slide 19: Le regole di E-LIS
• E 'possibile depositare le opere in qualsiasi lingua, anche se abstract e parole chiave devono essere inserite in inglese, oltre a abstract e parole chiave nella lingua originale del documento. • COPYRIGHT: Tutti i lavori sul server E-LIS rimangono di proprietà dell'autore. Le opere possono essere lette online, scaricate per uso personale; l'URL di un documento (da questo server) può essere inclusa in altri documenti elettronici. Il testo stesso non può essere pubblicato commercialmente (a stampa o in formato elettronico) o comunque alterato senza il permesso dell'autore.
19
Slide 20: Archivi Aperti: il modello distribuito
RePEc - Research Papers in Economics (http://repec.org/ ) E’ la più grande collezione del mondo di documenti per l'economia ad accesso libero, a modello distribuito • collega oltre 200 archivi con oltre 60.000 articoli e rapporti tecnici di ambito economico disponibili online • È nato nel 1999 per opera di Thomas Krichel • Ciascun archivio diventa mirror e garantisce l’accesso anche ai dati di tutti gli altri archivi
20
Slide 21: Disponibilità delle informazioni attraverso il servizio RePEc
I dati presenti nell’archivio RePEc sono accessibili da siti web come IDEAS (http://ideas.repec.org), EconPapers (http://econpapers.repec.org), NetEc e Inomics. Le stesse informazioni sono inoltre utilizzate per il servizio NEP (New Economic Papers – nuovi articoli di economia – disponibile all’url http://nep.repec.org) che fornisce mailing list organizzate per materia degli articoli resi disponibili in un dato momento. Tutti si possono registrare su RePEc (http://authors.repec.org). Registrandosi e inserendo un link ai propri lavori, inseriti nell’archivio, il sistema crea automaticamente un “CV RePEc” personale collegato ai (e raggiungibile dai) propri 21 articoli.
Slide 22: RePeC – I documenti
Il servizio LogEc (http://logec.repec.org) controlla i contatti, da parte dei vari utenti, ai singoli documenti di RePEc. Queste informazioni sono quindi utilizzate per creare statistiche di accesso per singoli autori, articoli e istituzioni affiliate.
• • • • • • 40,000 documenti di lavoro 510,000 articoli di giornale 1,900 componenti software 19,000 testi e news 23,800 autori 11,500 liste di contatto istituzionale
22
Slide 23: OAI Protocol for Metadata Harvesting
• OAI-PMH Protocol for Metadata Harvesting si basa su uno Schema W3C XML • “L’obiettivo è ‘l’apertura’, favorita dall’esposizione e la raccolta dei metadati attraverso un protocollo http semplice e appositamente definito”
23
Slide 24: OAI-PMH Open Archives Initiative Protocol for Metadata Harvesting
“The Open Archives Initiative Protocol for Metadata Harvesting provides an application-Independent interoperability framework based on Metadata harvesting.”
Ci sono due tipologie di “attori” nell’architettura OAI-PMH
http://www.openarchives.org/OAI/openarchivesprotocol.html#DefinitionsConcepts
24
Slide 25: OAI: gli attori
Data Providers D Sono gli archivi dove vengono depositati sia i metadati che il full-text del lavoro di ricerca (articoli, presentazioni, etc.), essi sono i contenitori “fisici” (repository) Service Providers S Rispetto ai Data Providers, sono sistemi che si collocano ad un livello superiore perchè offrono servizi a valore aggiunto, come la raccolta e l’indicizzazione di metadati da altri Data Providers (harvesting)
25
Slide 26: OAI: gli attori 2
il Data Provider (repository) esporta i propri metadati in formato Dublin Core (simple) a sua volta codificati in uno schema XML il Service Provider, così come i più importanti motori di ricerca del web, raccoglie i metadati secondo il protocollo OAI-PMH (harvesting)
26
Slide 27: Harvesting mediante OAI-PMH
• Data Providers (open archives repositories) forniscono libero accesso ai metadati ed, eventualmente ma non necessariamente, anche ai testi (full text) o ad altre risorse • Service Providers utilizzano le interfacce OAI dei Data Providers per raccogliere e archiviare metadati
– le sessioni di ricerca non avvengono direttamente sulla repository del Data Provider – i servizi si basano sui dati raccolti mediante harvesting
27
Slide 28: Funzionamento di OAI-PMH
28
Slide 29: Data providers
• metadati Dublin Core
convertiti dinamicamente mediante mappatura da un altro schema di metadati a DC oppure archiviati direttamente come DC
• sono disponibili mappature tra DC, EAD e MARC 21 • i dati sono codificati in XML • tutti i record vengono contrassegnati da un elemento cronologico (datestamp) 29
Slide 30: Service providers
• dispongono di dispositivi per l’harvesting
– software per l’harvesting automatico – web robots, cioè programmi che scandiscono lo spazio web automaticamente (crawlers, spiders)
• i web robot fanno uso di protocolli HTTP • forniscono servizi relativi a tutti i dati raccolti
– interfaccia di ricerca – sistemi di peer-review
30
Slide 31: Archivi Aperti: infrastruttura
Il software per gli archivi aperti è principalmente distribuito in modalità “open source” così come il loro software di Supporto:
• MySQL e PostgreSQL come RDBMS databases • Linux come sistema operativo • Java, Perl, PHP e Python come linguaggi di programmazione …usati anche per la loro implementazione • Metadati standard
31
Slide 32: Il modello OAIS
SIP - (Submission Information Package) - IP di Immissione, riversato dal produttore nel deposito. AIP - (Archival Information Package) - IP di Archiviazione, che è il pacchetto conservato nel deposito. 32 DIP - (Dissemination Information Package) - IP di Distribuzione trasferito dal deposito all'utente in risposta ad una richiesta di accesso.
Slide 33: [e-prints] - archive software- 1
sviluppato dall’Università di Southampton tra i primi progetti a sviluppare un OAS • oltre 200 implementazioni in tutto il mondo • “semplice” installazione e facilità d’uso • vasta e attenta comunità di supporto un punto di riferimento tra gli OA
33
Slide 34: [e-prints] – archive software - 2
• Facile da installare
– Script di installazione automatici nella maggior parte dei processi di installazione
• Requisiti minimi: meno di 500 MB di spazio per lo storage. • Indipendenza da altri software di supporto • Facile da usare e da amministrare: basato su Web
34
Slide 35: http://e-prints.unifi.it/
35
Slide 36: 36
Slide 37: 37
Slide 38: La seconda strategia: Open Access Publishing
Implementare (nuove) riviste con accesso aperto agli articoli Convertire le riviste esistenti in riviste ad accesso aperto
38
Slide 39: Mendeley
Mendeley (www.mendeley.com) is a free reference manager and academic social network that can help you organize your research, collaborate with others online, and discover the latest research. • • • • • • Automatically generate bibliographies Collaborate easily with other researchers online Easily import papers from other research software Find relevant papers based on what you’re reading Access your papers from anywhere online Read papers on the go, with our new iPhone app
39
Slide 40: Crescita dell’OA nel mondo: i dati (marzo 2011)
Mendeley, che unisce i servizi di un reference manager tool a quelli di un social network di area accademica, è passato da 300.000 a 800.000 Open Access full text nei primi tre mesi del 2011. • • • • • oltre 6000 riviste “peer reviewed” ad accesso aperto (fonte: Directory of Open Access journals (DOAJ) Tasso di crescita : 4 al giorno Oltre 1800 archivi ad accesso aperto (fonte OpenDOAR). Tasso di crescita 1 al giorno 25 milioni di documenti (di qualità) liberamente disponibili (Fonte: Motore di ricerca (BASE) Tasso di crescita : 6,000 al giorno 271 istituzioni hanno deliberato sull’obbligo di deposito degli articoli da parte degli autori (open access mandate policies) Fonte: ROARMAP. Tasso di crescita: 1 a settimana 20% della letteratura scientifca “peer reviewed” è disponibile liberamente: 20% (fonte Bjork et al)
Fonte: Heather Morrison: http://poeticeconomics.blogspot.com/2011/03/dramatic-growthof-open-access-march-31.html 40
Slide 41: Creazione di una rivista on line 1
OBIETTIVO: Ottenere uno spazio web che possa garantire la persistenza dei dati Lo spazio web è lo spazio "fisico" della pubblicazione che può essere diverso dal dominio E’ possibile registrare un nuovo dominio inoltrando una richiesta al Registration Authority Italiana c/o Istituto per le Applicazioni Telematiche del CNR di Pisa Insieme al dominio è possibile acquistare anche uno spazio fisico I costi non sono rilevanti: circa 30-50 euro l’anno (a seconda dei servizi correlati che si sottoscrivono)
41
Slide 42: Creazione di una rivista on line 2
E’ necessario: Ottenere il numero ISSN identificativo del periodico (Si ottiene compilando ed inviando il relativo modulo al Centro Italiano ISSN, C/o CNR –DAST - II° Sezione di Roma <http://www.isrds.rm.cnr.it/issn> Il numero ISSN è fondamentale e requisito indispensabile Nel caso di e-journals è obbligatorio “esporre” il numero ISSN almeno sulla HomePage
42
Slide 43: Creazione di una rivista on line 3
E’ necessario: Sottoscrivere il D.O.I. (digital object identifier), una stringa alfanumerica (standard) che serve ad identificare in modo univoco e persistente oggetti digitali in rete. E' composto da due parti: un prefisso ed un suffisso <http://www.medra.org/it/faq.htm>
43
Slide 44: Creazione di una rivista on line 4
Il DOI è assegnato da una agenzia riconosciuta dalla DOI Foundation <www.doi.org> in Europa l'agenzia si chiama MEDRA <www.medra.org> dietro cui c’è l‘Associazione Editori Italiana <www.aie.it>, supportata tecnicamente dal CINECA di Bologna.
44
Slide 45: Il problema dei diritti. Il modello Creative Commons
45