PRISMHA (Providing Rich Semantic Metadata for Historical Archives) è un progetto dell’Università degli Studi di Torino, che coinvolge i dipartimenti di Informatica e di Studi Storici in collaborazione con la Fondazione Istituto piemontese Antonio Gramsci e il Polo del ‘900; ha durata triennale (2017-2020), è finanziato dall’Università di Torino e da Compagnia di San Paolo e vede coinvolto un team interdisciplinare composto da storici, archivisti e informatici.
OBIETTIVI
- Creazione di un sistema intelligente di accesso agli archivi, cioè un sistema dotato di conoscenza sul contenuto dei documenti e capace di ragionare su di essa.
- Sperimentazione di un modello procedurale virtuoso, dall’archivio cartaceo all’accesso intelligente, basato sulla collaborazione tra enti di ricerca e istituti culturali
- Avanzamento scientifico dello stato dell’arte sui temi del Natural Language Processing, della Knowledge Representation e dell’Artificial Intelligence
STRUMENTI
PRISMHA utilizza gli strumenti dell’Artificial Intelligence, ontologie computazionali e standard dei linked data (OWL, RDF), per costruire la Base di Conoscenza, uno “strato semantico” al di sopra dei metadati d’archivio.
PRISMHA è un sistema competente: sa di cosa parlano i documenti.
La costruzione dello strato semantico è possibile grazie a:
INFORMATION EXTRACTION + CROWDSOURCING e USER ENGAGEMENT
gli utenti stessi partecipano al processo di arricchimento dei metadati, aiutati con suggerimenti forniti da un modulo di Estrazione Automatica di informazioni dai documenti testuali, basato sulle più avanzate tecniche di Natural Language Processing.
METODOLOGIA
– Costruzione del modello semantico generale (core ontology: concetti di luogo, tempo, entità collettive, partecipanti etc.);
– Individuazione di un periodo storico definito (anni 1968-1969 a Torino);
– Selezione di una serie di risorse (documenti, fotografie e manifesti) dagli archivi della Fondazione Istituto piemontese Antonio Gramsci e costruzione delle relative schede descrittive, sulla base del modello semantico;
– Costruzione del modello semantico specifico (domain ontology), sulla base dell’analisi contenuta nelle schede e del supporto di esperti del periodo storico scelto;
– Digitalizzazione delle risorse e elaborazione tramite OCR delle risorse testuali;
– Progettazione e costruzione di una piattaforma prototipale di crowdsourcing per la costruzione collaborativa dello strato semantico, secondo un approccio partecipativo;
– Sperimentazione di tecniche avanzate di Information Extraction su documenti storici d’archivio.
PER APPROFONDIRE
L’Istituto Gramsci di Torino e PRiSMHA
Paper di presentazione del progetto @Creol2017
© 2023 Fondazione Istituto piemontese Antonio Gramsci Onlus | CF 80100170010 | Privacy e Cookie Policy