SlideShare a Scribd company logo
Giovanni Toffoli
                         Glossari, thesauri, ontologie: annotazione e ricerca dei contenuti su base semantica




   1st Plone for Research and University Day - Bologna, 20 Maggio 2010




           Glossari, thesauri, ontologie:
annotazione e ricerca dei contenuti su base semantica
                       Giovanni Toffoli - LINK srl, Roma




             1st Plone for Research and University Day - Bologna, 20 Maggio 2010
Giovanni Toffoli
                         Glossari, thesauri, ontologie: annotazione e ricerca dei contenuti su base semantica




CLASSIFICAZIONE E RICERCA MEDIANTE KEYWORD - 1

Plone consente di classificare i contenuti associando una o
più keyword a ciascuno di essi.
• nelle recenti versioni di Plone le keyword sono chiamate
   categorie.

Le keyword, o categorie, fanno parte dei metadati standard
di Plone
• le keyword costituiscono il valore del campo Subject, che
   corrisponde all'omonimo campo nello standard
   DublinCore.




             1st Plone for Research and University Day - Bologna, 20 Maggio 2010
Giovanni Toffoli
                          Glossari, thesauri, ontologie: annotazione e ricerca dei contenuti su base semantica




CLASSIFICAZIONE E RICERCA MEDIANTE KEYWORD - 2

Il catalogo di Plone indicizza le keyword nell'indice Subject:
• consente di ricercare tutti i contenuti che siano stati
   classificati mediante almeno una delle keyword
   specificate in una query, o anche tutte.

Chi decide quali keyword si possono usare in un sito?
• si può dare la massima libertà a tutti
• oppure un "amministratore" può definire e mantenere un
  repertorio di keyword ammesse
• ma si può anche seguire una via di mezzo: lasciare una
  libertà di base, ma periodicamente sfoltire il repertorio; in
  questo è di aiuto PloneKeywordManager, un'estensione
  semplice ma utile e di facile uso:
  http://plone.org/products/plonekeywordmanager

              1st Plone for Research and University Day - Bologna, 20 Maggio 2010
Giovanni Toffoli
                         Glossari, thesauri, ontologie: annotazione e ricerca dei contenuti su base semantica




CLASSIFICAZIONE E RICERCA MEDIANTE KEYWORD - 3

Le keyword in linea di principio sono distinte dal contenuto
testuale di un documento, anche se ovviamente possono
ispirarsi ad esso.

Le keyword sono affini ai descrittori o termini controllati
largamente usati in biblioteconomia.

Descrivere un contenuto mediante keyword è come dargli
una collocazione concettuale in aggiunta a quella fisica;
con la differenza che tale collocazione può essere multipla.




             1st Plone for Research and University Day - Bologna, 20 Maggio 2010
Giovanni Toffoli
                         Glossari, thesauri, ontologie: annotazione e ricerca dei contenuti su base semantica




LA RICERCA SEMANTICA - 1

Il termine semantico si usa per lo più per riferirsi al
contenuto "profondo" di un oggetto, di un documento; al suo
"significato", contrapposto al suo aspetto di superficie.

In realtà una persona che ha pratica di ricerca full-text,
anche se cerca per parole, di solito ottiene un'alta
percentuale di risultati che ben realizzano il "concetto" che
egli ha in testa.
Anche se il linguaggio naturale è fortemente impreciso e
ambiguo, bene o male le parole contenute in un documento
costituiscono i principali indizi dell'argomento in esso
trattato.




             1st Plone for Research and University Day - Bologna, 20 Maggio 2010
Giovanni Toffoli
                          Glossari, thesauri, ontologie: annotazione e ricerca dei contenuti su base semantica




LA RICERCA SEMANTICA - 2

Migliorare la qualità della ricerca consiste in
• massimizzare i risultati rilevanti: recall
• minimizzare i risultati spuri: precision

L'uso delle keyword
• può migliorare la qualità della ricerca, specie se la
   classificazione dei contenuti è accurata e completa
• può orientare nell'effettuare la ricerca: si possono
   visualizzare indici inversi o grafici (distribuzioni) che
   evidenzino le keyword usate più di frequente.

E' però possibile raffinare la metodologia di classificazione
e ricerca, e migliorane i risultati, introducendo l'uso di
"strutture di conoscenza" come i glossari, i thesauri, le
ontologie.

              1st Plone for Research and University Day - Bologna, 20 Maggio 2010
Giovanni Toffoli
                          Glossari, thesauri, ontologie: annotazione e ricerca dei contenuti su base semantica




GLOSSARI, THESAURI, ONTOLOGIE - 1

Un glossario è una raccolta di termini di un ambito
specifico e circoscritto .. (Wikipedia)
• può fungere da riferimento terminologico per una
  pubblicazione o una collezione di documenti
• può servire a promuovere un linguaggio comune tra i
  membri di un'organizzazione o i partecipanti a un
  progetto.

Un thesaurus è caratterizzato di solito da
• uno "status" più ufficiale
• una struttura tassonomica: sono definite le relazioni
  broader term e narrower term
• la presenza di termini in più lingue
• l'uso di codici alfanumerici in aggiunta ai label lessicali
  dei termini.
              1st Plone for Research and University Day - Bologna, 20 Maggio 2010
Giovanni Toffoli
                          Glossari, thesauri, ontologie: annotazione e ricerca dei contenuti su base semantica




PRODOTTI PLONE PER GESTIRE GLOSSARI
Da anni esistono almeno due estensioni per Plone che
consentono di creare e mantenere dei glossari.
PloneGlossary
• è uno strumento più completo, un'estensione di Plone
   dedicata
   http://pypi.python.org/pypi/Products.PloneGlossary/1.4.0
   RC2
PloneHelpCenter
• è una suite di strumenti che supporta tutte le attività
   legate alla documentazione di un prodotto, in particolare
   di un software (come Plone stesso)
• tra i numerosi tipi di contenuto specializzati,
   PloneHelpCenter include i tipi Glossary e Definition.
   http://pypi.python.org/pypi/Products.PloneHelpCenter/3.0
   b3
              1st Plone for Research and University Day - Bologna, 20 Maggio 2010
Giovanni Toffoli
                        Glossari, thesauri, ontologie: annotazione e ricerca dei contenuti su base semantica




PLONEGLOSSARY
From the PloneGlossary documentation:




            1st Plone for Research and University Day - Bologna, 20 Maggio 2010
Giovanni Toffoli
                         Glossari, thesauri, ontologie: annotazione e ricerca dei contenuti su base semantica




PLONEHELPCENTER
From the PloneHelpCenter documentation:




A glossary definition describes a particular term used as
concisely as possible - typical definitions:
• CMF: The Content Management Framework
• Workflow: A state machine structure used to model
  business processes


             1st Plone for Research and University Day - Bologna, 20 Maggio 2010
Giovanni Toffoli
                          Glossari, thesauri, ontologie: annotazione e ricerca dei contenuti su base semantica




GLOSSARI, THESAURI, ONTOLOGIE - 2

In termini generali, un'ontologia è la "conoscenza
condivisa di un dominio di interesse" (Usher).

Di solito essa si struttura come un insieme di concetti
corredato dalle definizioni dei concetti stessi e dalle
interrelazioni che sussistono tra i concetti e/o specifiche
istanze dei concetti.

Possiamo anche dire che un'ontologia è una
concettualizzazione di un dominio di interesse.




              1st Plone for Research and University Day - Bologna, 20 Maggio 2010
Giovanni Toffoli
                         Glossari, thesauri, ontologie: annotazione e ricerca dei contenuti su base semantica




GLOSSARI, THESAURI, ONTOLOGIE - 3

Spesso un'ontologia esplicita la struttura tassonomica del
dominio di interesse, usando relazione di generalizzazione /
specializzazione tra concetti.

Da questo punto di vista, un thesaurus assomiglia ad
un'ontologia. Entrambi hanno una struttura tassonomica.

In un thesaurus si parla di broader term e narrower term
(termine più generale e termine più specifico).




             1st Plone for Research and University Day - Bologna, 20 Maggio 2010
Giovanni Toffoli
                          Glossari, thesauri, ontologie: annotazione e ricerca dei contenuti su base semantica




CLASSIFICAZIONE E RICERCA BASATA SU ONTOLOGIE - 1

Quando si cerca di effettuare e supportare la ricerca
efficace ed efficiente di pagine web, di documenti e di altri
contenuti, non esistono confini netti tra i diversi approcci e
le diverse tecniche.

La ricerca per parole e frasi in linea di principio può
sembrare un po’ rozza, ma in molti casi è quella che
presenta il più alto rapporto prestazioni / costo.

Se però fossimo in grado di associare i documenti (e altri
contenuti) ai concetti di un'ontologia o di un'altra struttura di
conoscenza tassonomica, potremmo fare delle ricerche
semantiche di indubbio interesse.



              1st Plone for Research and University Day - Bologna, 20 Maggio 2010
Giovanni Toffoli
                         Glossari, thesauri, ontologie: annotazione e ricerca dei contenuti su base semantica




CLASSIFICAZIONE E RICERCA BASATA SU ONTOLOGIE - 2

Per esempio potremmo trovare
• non solo in quali documenti di parla di "Fido" o "Luna" o
  "Bob"
• ma anche in quali documenti si parla di cani o in quali si
  parla di animali, anche se le parole "cane" o "animale"
  non sono presenti.

Analogamente potremmo cercare
• non solo in quali documenti di parla di alberghi, piscine,
  navi da crociera
• ma anche in quali documenti si parla di turismo o di
  vacanze, senza che questi termini figurino esplicitamente
  nel testo.



             1st Plone for Research and University Day - Bologna, 20 Maggio 2010
Giovanni Toffoli
                         Glossari, thesauri, ontologie: annotazione e ricerca dei contenuti su base semantica




ESTENSIONI DI PLONE PER THESAURI ED ONTOLOGIE

Per la gestione di thesauri e ontologie ho conoscenza di 3
prodotti:
• PloneOntology
  estende il meccanismo delle “keyword” nativo di Plone:
  "PloneOntology is an ontology based replacement for the
  existing keyword mechanism in Plone"
  http://plone.org/products/ploneontology
• OWL Content
  risultato della tesi di laurea preparata da uno studente
  dell’Università “La Sapienza” di Roma
  http://www.hs01.it/area-comunicazione/press/press-
  releases/test
• PloneSaurus
  sviluppato originariamente da LINK srl, per il progetto
  europeo INTEROP (una NoE con decine di partner).

             1st Plone for Research and University Day - Bologna, 20 Maggio 2010
Giovanni Toffoli
                         Glossari, thesauri, ontologie: annotazione e ricerca dei contenuti su base semantica




PLONEONTOLOGY - 1
Funzionalità
• i termini sono legati tra loro da relazioni arbitrarie
• i contenuti sono classificati relazionandoli ai termini
• visualizzazione grafica di tutte le relazioni
• la ricerca sfrutta relazioni tra termini e "pesi" associati
• creazione e manutenzione collaborativa dell'ontologia: gli
  utenti "propongono" nuovi termini e relazioni

Alcuni problemi
• disponibile solo per Plone 2.1.1 e Plone 2.5
• non include visualizzazione ottimizzata per tassonomie
• i contenuti richiedono uno "schema" (Archetipes) esteso
• le "proposte" di nuovi termini e di nuove relazioni sono
  tipi di contenuto diversi dai termini e dalle relazioni
  "accepted".

             1st Plone for Research and University Day - Bologna, 20 Maggio 2010
Giovanni Toffoli
                        Glossari, thesauri, ontologie: annotazione e ricerca dei contenuti su base semantica




PLONEONTOLOGY - 2
Un esempio elaborato:




            1st Plone for Research and University Day - Bologna, 20 Maggio 2010
Giovanni Toffoli
                         Glossari, thesauri, ontologie: annotazione e ricerca dei contenuti su base semantica




OWL CONTENT

Dalla presentazione di Marco De Vitis:

OWL Content aggiunge al CMS la possibilità di inserire e
visualizzare file OWL come normali contenuti.

Sviluppato seguendo gli standard, con uso di librerie
esterne, installazione immediata

Tecnologie coinvolte: semantic web, web 2.0,CMS, XML,
OWL, RDF, Python, XSLT




             1st Plone for Research and University Day - Bologna, 20 Maggio 2010
Giovanni Toffoli
                          Glossari, thesauri, ontologie: annotazione e ricerca dei contenuti su base semantica




PLONESAURUS - 1

PloneSaurus supporta la creazione di tassonomie, cioè di
glossari tassonomici e thesauri; relazioni implementate:
• la relazione ISA: generalizzazione / specializzazione
• la relazione generica related-to

Sviluppato per Plone 2.1, è stato portato a
• Plone 2.5, Plone 3.1, Plone 3.5
• ma non abbiamo mai trovato il tempo per pubblicarlo; il
  problema principale è che nel tempo si sono stratificate
  troppe funzioni e troppi stili di interfaccia utente

Alcune caratteristiche
• varianti lessicali dei termini che “etichettano” un concetto
• definizioni multiple per i concetti
• possibilità di ristrutturare la tassonomia interattivamente.

              1st Plone for Research and University Day - Bologna, 20 Maggio 2010
Giovanni Toffoli
                          Glossari, thesauri, ontologie: annotazione e ricerca dei contenuti su base semantica




PLONESAURUS - 2
Il prodotto include
• un consensus system: i membri di un gruppo possono
   proporre e votare concetti e definizioni
• appositi workflow per gestire diverse fasi del ciclo di vita
   di una tassonomia
• funzioni di import/export da/a documenti OWL.

E' possibile
• creare diverse tassonomie in un sito Plone
• visualizzare graficamente le tassonomie, sia nel corpo
   della pagina, sia in portlet multi-tassonomia
• classificare un contenuto con termini da più tassonomie.




              1st Plone for Research and University Day - Bologna, 20 Maggio 2010
Giovanni Toffoli
                         Glossari, thesauri, ontologie: annotazione e ricerca dei contenuti su base semantica




PLONESAURUS - APPLICAZIONE KMAP - 1
PloneSaurus è stato sviluppato nell'ambito del progetto
europeo INTEROP:
• il "consensus system" ha consentito di raffinare una
  tassonomia di 2000 termini
• classificazione e ricerca semantica dei contenuti della
  KMap: una "Knowledge Map" su attori, attività e risultati
  della ricerca europea nel campo della interoperabilità tra
  imprese e tra sistemi d'impresa.

Nell'applicazione KMap, PloneSaurus supporta
classificazione e ricerca semantica dei contenuti:
• classificazione manuale; classificazione automatica, con
   "estrazione" dei termini-concetti dai documenti
• ricerca semantica, semplice o basata sulla nozione di
   vicinanza semantica.


             1st Plone for Research and University Day - Bologna, 20 Maggio 2010
Giovanni Toffoli
                        Glossari, thesauri, ontologie: annotazione e ricerca dei contenuti su base semantica




PLONESAURUS - APPLICAZIONE KMAP - 2
Applicazione KMap - un termine della tassonomia
sull'interoperabilità di impresa




            1st Plone for Research and University Day - Bologna, 20 Maggio 2010
Giovanni Toffoli
                          Glossari, thesauri, ontologie: annotazione e ricerca dei contenuti su base semantica




PLONESAURUS - APPLICAZIONE KMAP - 3
Il risultato "clusterizzato" di una ricerca semantica di
pubblicazioni: porzione della vista grafica.




              1st Plone for Research and University Day - Bologna, 20 Maggio 2010
Giovanni Toffoli
                         Glossari, thesauri, ontologie: annotazione e ricerca dei contenuti su base semantica




PLONESAURUS - APPLICAZIONE KMAP - 4
Classificazione automatica: indice inverso dei termini dopo
la "batch annotation" di un lotto di documenti.




             1st Plone for Research and University Day - Bologna, 20 Maggio 2010
Giovanni Toffoli
                         Glossari, thesauri, ontologie: annotazione e ricerca dei contenuti su base semantica




PLONESAURUS - ALTRI CASI D'USO
PloneSaurus è stato usato in molti altri progetti, tra cui
• l'ontologia di un altro, più piccolo progetto europeo
• un prototipo di "mappa" di esperienze e competenze, per
  un consorzio privato di imprese; il problema: disporre di
  informazione di facile accesso per rispondere a bandi di
  gara nel campo della sistemistica avanzata
• 2 repositori digitali realizzati per l'ISPESL, Istituto
  Superiore per la Prevenzione e la Sicurezza del lavoro; il
  secondo è un piccolo repository pubblico:
  http://ispesl-oeav.linkback.net
• la "Competence Map" del progetto Cultura&Territorio del
  Dipartimento Patrimonio Culturale del CNR;
  rappresenterà l'offerta CNR nel campo delle tecnologie
  per la conservazione e valorizzazione del patrimonio
  culturale; include circa 10 tassonomie, alcune veramente
  estese!
  http://www.cultura-territorio.cnr.it
             1st Plone for Research and University Day - Bologna, 20 Maggio 2010
Giovanni Toffoli
                         Glossari, thesauri, ontologie: annotazione e ricerca dei contenuti su base semantica




PLONESAURUS - CASI D'USO - ISPESL - 1

ISPESL - Catalogazione semantica di digital repository

In entrambe le applicazioni realizzate per l'ISPESL,
abbiamo implementato in Plone i 3 thesauri di riferimento
per il dominio applicativo:
• CIS - Il thesaurus CIS è il principale strumento di
  indicizzazione dei documenti utilizzato dall'ILO/CIS
  Bulletin e dal database CISDOC
• EUOSHA-OSH - Vocabolario multilingue prodotto
  dall'Agenzia Europea e nuovo strumento di reference nel
  campo OSH (occupational safety and health)
• ATECO-NACE - Classificazione delle attività economiche,
  sviluppato in versione italiana dall'ISTAT e derivato dalla
  classificazione europea della CE.


             1st Plone for Research and University Day - Bologna, 20 Maggio 2010
Giovanni Toffoli
                         Glossari, thesauri, ontologie: annotazione e ricerca dei contenuti su base semantica




PLONESAURUS - CASI D'USO - ISPESL - 2
Un esempio di thesaurus nel sito dello "Osservatorio sui
rischi domestici e negli altri ambienti di vita":




             1st Plone for Research and University Day - Bologna, 20 Maggio 2010
Giovanni Toffoli
                        Glossari, thesauri, ontologie: annotazione e ricerca dei contenuti su base semantica




PLONESAURUS - CASI D'USO - CULTURA E TERRITORIO - 1
CNR-DPC - Portale Cultura e Territorio
• la Competence Map implementa il modello concettuale
  del progetto; tutti i box e gli archi sono "attivi":




            1st Plone for Research and University Day - Bologna, 20 Maggio 2010
Giovanni Toffoli
                         Glossari, thesauri, ontologie: annotazione e ricerca dei contenuti su base semantica




PLONESAURUS - CASI D'USO - CULTURA E TERRITORIO - 2
CNR-DPC - Portale Cultura e Territorio
• parte di un form di ricerca semantica, con portlet multi-
  tassonomia:




             1st Plone for Research and University Day - Bologna, 20 Maggio 2010
Giovanni Toffoli
                          Glossari, thesauri, ontologie: annotazione e ricerca dei contenuti su base semantica




PLONESAURUS - CASI D'USO - CULTURA E TERRITORIO - 3
CNR-DPC - Portale Cultura e Territorio
• parte di un form di ricerca: filtro testuale sui termini




              1st Plone for Research and University Day - Bologna, 20 Maggio 2010

More Related Content

PPT
Mediesystem
PPT
Mediesystem
PPT
Mediesystem
ODP
America
PDF
May 2014 newsletter
PDF
Creative Directors Portfolio
PDF
June 2010 Circle of Safety Newsletter
Mediesystem
Mediesystem
Mediesystem
America
May 2014 newsletter
Creative Directors Portfolio
June 2010 Circle of Safety Newsletter

More from Plone for Research and University (12)

PDF
Biodec haplone p4ur_na
PDF
COACH - Un workbench per l'analisi dei testi e l'estrazione di termini
PDF
La scelta di Plone per la comunicazione istituzionale dell'INAF
ODP
Plone nel panorama dei siti web degli enti pubblici di ricerca
PDF
PDF
Plone per applicazioni Web tecnico-scientifiche
PDF
Plone all'Università di Ferrara: Integrazione e Interoperabilità
PDF
Il modello PloneGov per il riuso di software nella PA Italiana
PDF
Plone: Accessibilita e Riuso
PPT
Esperienze PLONE in ENEA a Bologna
ODP
Migrazione da PostNuke a Plone: la banca dati CROP (S. Carluccio, CNR-ISMAR)
Biodec haplone p4ur_na
COACH - Un workbench per l'analisi dei testi e l'estrazione di termini
La scelta di Plone per la comunicazione istituzionale dell'INAF
Plone nel panorama dei siti web degli enti pubblici di ricerca
Plone per applicazioni Web tecnico-scientifiche
Plone all'Università di Ferrara: Integrazione e Interoperabilità
Il modello PloneGov per il riuso di software nella PA Italiana
Plone: Accessibilita e Riuso
Esperienze PLONE in ENEA a Bologna
Migrazione da PostNuke a Plone: la banca dati CROP (S. Carluccio, CNR-ISMAR)
Ad

Glossari, thesauri, ontologie

  • 1. Giovanni Toffoli Glossari, thesauri, ontologie: annotazione e ricerca dei contenuti su base semantica 1st Plone for Research and University Day - Bologna, 20 Maggio 2010 Glossari, thesauri, ontologie: annotazione e ricerca dei contenuti su base semantica Giovanni Toffoli - LINK srl, Roma 1st Plone for Research and University Day - Bologna, 20 Maggio 2010
  • 2. Giovanni Toffoli Glossari, thesauri, ontologie: annotazione e ricerca dei contenuti su base semantica CLASSIFICAZIONE E RICERCA MEDIANTE KEYWORD - 1 Plone consente di classificare i contenuti associando una o più keyword a ciascuno di essi. • nelle recenti versioni di Plone le keyword sono chiamate categorie. Le keyword, o categorie, fanno parte dei metadati standard di Plone • le keyword costituiscono il valore del campo Subject, che corrisponde all'omonimo campo nello standard DublinCore. 1st Plone for Research and University Day - Bologna, 20 Maggio 2010
  • 3. Giovanni Toffoli Glossari, thesauri, ontologie: annotazione e ricerca dei contenuti su base semantica CLASSIFICAZIONE E RICERCA MEDIANTE KEYWORD - 2 Il catalogo di Plone indicizza le keyword nell'indice Subject: • consente di ricercare tutti i contenuti che siano stati classificati mediante almeno una delle keyword specificate in una query, o anche tutte. Chi decide quali keyword si possono usare in un sito? • si può dare la massima libertà a tutti • oppure un "amministratore" può definire e mantenere un repertorio di keyword ammesse • ma si può anche seguire una via di mezzo: lasciare una libertà di base, ma periodicamente sfoltire il repertorio; in questo è di aiuto PloneKeywordManager, un'estensione semplice ma utile e di facile uso: http://plone.org/products/plonekeywordmanager 1st Plone for Research and University Day - Bologna, 20 Maggio 2010
  • 4. Giovanni Toffoli Glossari, thesauri, ontologie: annotazione e ricerca dei contenuti su base semantica CLASSIFICAZIONE E RICERCA MEDIANTE KEYWORD - 3 Le keyword in linea di principio sono distinte dal contenuto testuale di un documento, anche se ovviamente possono ispirarsi ad esso. Le keyword sono affini ai descrittori o termini controllati largamente usati in biblioteconomia. Descrivere un contenuto mediante keyword è come dargli una collocazione concettuale in aggiunta a quella fisica; con la differenza che tale collocazione può essere multipla. 1st Plone for Research and University Day - Bologna, 20 Maggio 2010
  • 5. Giovanni Toffoli Glossari, thesauri, ontologie: annotazione e ricerca dei contenuti su base semantica LA RICERCA SEMANTICA - 1 Il termine semantico si usa per lo più per riferirsi al contenuto "profondo" di un oggetto, di un documento; al suo "significato", contrapposto al suo aspetto di superficie. In realtà una persona che ha pratica di ricerca full-text, anche se cerca per parole, di solito ottiene un'alta percentuale di risultati che ben realizzano il "concetto" che egli ha in testa. Anche se il linguaggio naturale è fortemente impreciso e ambiguo, bene o male le parole contenute in un documento costituiscono i principali indizi dell'argomento in esso trattato. 1st Plone for Research and University Day - Bologna, 20 Maggio 2010
  • 6. Giovanni Toffoli Glossari, thesauri, ontologie: annotazione e ricerca dei contenuti su base semantica LA RICERCA SEMANTICA - 2 Migliorare la qualità della ricerca consiste in • massimizzare i risultati rilevanti: recall • minimizzare i risultati spuri: precision L'uso delle keyword • può migliorare la qualità della ricerca, specie se la classificazione dei contenuti è accurata e completa • può orientare nell'effettuare la ricerca: si possono visualizzare indici inversi o grafici (distribuzioni) che evidenzino le keyword usate più di frequente. E' però possibile raffinare la metodologia di classificazione e ricerca, e migliorane i risultati, introducendo l'uso di "strutture di conoscenza" come i glossari, i thesauri, le ontologie. 1st Plone for Research and University Day - Bologna, 20 Maggio 2010
  • 7. Giovanni Toffoli Glossari, thesauri, ontologie: annotazione e ricerca dei contenuti su base semantica GLOSSARI, THESAURI, ONTOLOGIE - 1 Un glossario è una raccolta di termini di un ambito specifico e circoscritto .. (Wikipedia) • può fungere da riferimento terminologico per una pubblicazione o una collezione di documenti • può servire a promuovere un linguaggio comune tra i membri di un'organizzazione o i partecipanti a un progetto. Un thesaurus è caratterizzato di solito da • uno "status" più ufficiale • una struttura tassonomica: sono definite le relazioni broader term e narrower term • la presenza di termini in più lingue • l'uso di codici alfanumerici in aggiunta ai label lessicali dei termini. 1st Plone for Research and University Day - Bologna, 20 Maggio 2010
  • 8. Giovanni Toffoli Glossari, thesauri, ontologie: annotazione e ricerca dei contenuti su base semantica PRODOTTI PLONE PER GESTIRE GLOSSARI Da anni esistono almeno due estensioni per Plone che consentono di creare e mantenere dei glossari. PloneGlossary • è uno strumento più completo, un'estensione di Plone dedicata http://pypi.python.org/pypi/Products.PloneGlossary/1.4.0 RC2 PloneHelpCenter • è una suite di strumenti che supporta tutte le attività legate alla documentazione di un prodotto, in particolare di un software (come Plone stesso) • tra i numerosi tipi di contenuto specializzati, PloneHelpCenter include i tipi Glossary e Definition. http://pypi.python.org/pypi/Products.PloneHelpCenter/3.0 b3 1st Plone for Research and University Day - Bologna, 20 Maggio 2010
  • 9. Giovanni Toffoli Glossari, thesauri, ontologie: annotazione e ricerca dei contenuti su base semantica PLONEGLOSSARY From the PloneGlossary documentation: 1st Plone for Research and University Day - Bologna, 20 Maggio 2010
  • 10. Giovanni Toffoli Glossari, thesauri, ontologie: annotazione e ricerca dei contenuti su base semantica PLONEHELPCENTER From the PloneHelpCenter documentation: A glossary definition describes a particular term used as concisely as possible - typical definitions: • CMF: The Content Management Framework • Workflow: A state machine structure used to model business processes 1st Plone for Research and University Day - Bologna, 20 Maggio 2010
  • 11. Giovanni Toffoli Glossari, thesauri, ontologie: annotazione e ricerca dei contenuti su base semantica GLOSSARI, THESAURI, ONTOLOGIE - 2 In termini generali, un'ontologia è la "conoscenza condivisa di un dominio di interesse" (Usher). Di solito essa si struttura come un insieme di concetti corredato dalle definizioni dei concetti stessi e dalle interrelazioni che sussistono tra i concetti e/o specifiche istanze dei concetti. Possiamo anche dire che un'ontologia è una concettualizzazione di un dominio di interesse. 1st Plone for Research and University Day - Bologna, 20 Maggio 2010
  • 12. Giovanni Toffoli Glossari, thesauri, ontologie: annotazione e ricerca dei contenuti su base semantica GLOSSARI, THESAURI, ONTOLOGIE - 3 Spesso un'ontologia esplicita la struttura tassonomica del dominio di interesse, usando relazione di generalizzazione / specializzazione tra concetti. Da questo punto di vista, un thesaurus assomiglia ad un'ontologia. Entrambi hanno una struttura tassonomica. In un thesaurus si parla di broader term e narrower term (termine più generale e termine più specifico). 1st Plone for Research and University Day - Bologna, 20 Maggio 2010
  • 13. Giovanni Toffoli Glossari, thesauri, ontologie: annotazione e ricerca dei contenuti su base semantica CLASSIFICAZIONE E RICERCA BASATA SU ONTOLOGIE - 1 Quando si cerca di effettuare e supportare la ricerca efficace ed efficiente di pagine web, di documenti e di altri contenuti, non esistono confini netti tra i diversi approcci e le diverse tecniche. La ricerca per parole e frasi in linea di principio può sembrare un po’ rozza, ma in molti casi è quella che presenta il più alto rapporto prestazioni / costo. Se però fossimo in grado di associare i documenti (e altri contenuti) ai concetti di un'ontologia o di un'altra struttura di conoscenza tassonomica, potremmo fare delle ricerche semantiche di indubbio interesse. 1st Plone for Research and University Day - Bologna, 20 Maggio 2010
  • 14. Giovanni Toffoli Glossari, thesauri, ontologie: annotazione e ricerca dei contenuti su base semantica CLASSIFICAZIONE E RICERCA BASATA SU ONTOLOGIE - 2 Per esempio potremmo trovare • non solo in quali documenti di parla di "Fido" o "Luna" o "Bob" • ma anche in quali documenti si parla di cani o in quali si parla di animali, anche se le parole "cane" o "animale" non sono presenti. Analogamente potremmo cercare • non solo in quali documenti di parla di alberghi, piscine, navi da crociera • ma anche in quali documenti si parla di turismo o di vacanze, senza che questi termini figurino esplicitamente nel testo. 1st Plone for Research and University Day - Bologna, 20 Maggio 2010
  • 15. Giovanni Toffoli Glossari, thesauri, ontologie: annotazione e ricerca dei contenuti su base semantica ESTENSIONI DI PLONE PER THESAURI ED ONTOLOGIE Per la gestione di thesauri e ontologie ho conoscenza di 3 prodotti: • PloneOntology estende il meccanismo delle “keyword” nativo di Plone: "PloneOntology is an ontology based replacement for the existing keyword mechanism in Plone" http://plone.org/products/ploneontology • OWL Content risultato della tesi di laurea preparata da uno studente dell’Università “La Sapienza” di Roma http://www.hs01.it/area-comunicazione/press/press- releases/test • PloneSaurus sviluppato originariamente da LINK srl, per il progetto europeo INTEROP (una NoE con decine di partner). 1st Plone for Research and University Day - Bologna, 20 Maggio 2010
  • 16. Giovanni Toffoli Glossari, thesauri, ontologie: annotazione e ricerca dei contenuti su base semantica PLONEONTOLOGY - 1 Funzionalità • i termini sono legati tra loro da relazioni arbitrarie • i contenuti sono classificati relazionandoli ai termini • visualizzazione grafica di tutte le relazioni • la ricerca sfrutta relazioni tra termini e "pesi" associati • creazione e manutenzione collaborativa dell'ontologia: gli utenti "propongono" nuovi termini e relazioni Alcuni problemi • disponibile solo per Plone 2.1.1 e Plone 2.5 • non include visualizzazione ottimizzata per tassonomie • i contenuti richiedono uno "schema" (Archetipes) esteso • le "proposte" di nuovi termini e di nuove relazioni sono tipi di contenuto diversi dai termini e dalle relazioni "accepted". 1st Plone for Research and University Day - Bologna, 20 Maggio 2010
  • 17. Giovanni Toffoli Glossari, thesauri, ontologie: annotazione e ricerca dei contenuti su base semantica PLONEONTOLOGY - 2 Un esempio elaborato: 1st Plone for Research and University Day - Bologna, 20 Maggio 2010
  • 18. Giovanni Toffoli Glossari, thesauri, ontologie: annotazione e ricerca dei contenuti su base semantica OWL CONTENT Dalla presentazione di Marco De Vitis: OWL Content aggiunge al CMS la possibilità di inserire e visualizzare file OWL come normali contenuti. Sviluppato seguendo gli standard, con uso di librerie esterne, installazione immediata Tecnologie coinvolte: semantic web, web 2.0,CMS, XML, OWL, RDF, Python, XSLT 1st Plone for Research and University Day - Bologna, 20 Maggio 2010
  • 19. Giovanni Toffoli Glossari, thesauri, ontologie: annotazione e ricerca dei contenuti su base semantica PLONESAURUS - 1 PloneSaurus supporta la creazione di tassonomie, cioè di glossari tassonomici e thesauri; relazioni implementate: • la relazione ISA: generalizzazione / specializzazione • la relazione generica related-to Sviluppato per Plone 2.1, è stato portato a • Plone 2.5, Plone 3.1, Plone 3.5 • ma non abbiamo mai trovato il tempo per pubblicarlo; il problema principale è che nel tempo si sono stratificate troppe funzioni e troppi stili di interfaccia utente Alcune caratteristiche • varianti lessicali dei termini che “etichettano” un concetto • definizioni multiple per i concetti • possibilità di ristrutturare la tassonomia interattivamente. 1st Plone for Research and University Day - Bologna, 20 Maggio 2010
  • 20. Giovanni Toffoli Glossari, thesauri, ontologie: annotazione e ricerca dei contenuti su base semantica PLONESAURUS - 2 Il prodotto include • un consensus system: i membri di un gruppo possono proporre e votare concetti e definizioni • appositi workflow per gestire diverse fasi del ciclo di vita di una tassonomia • funzioni di import/export da/a documenti OWL. E' possibile • creare diverse tassonomie in un sito Plone • visualizzare graficamente le tassonomie, sia nel corpo della pagina, sia in portlet multi-tassonomia • classificare un contenuto con termini da più tassonomie. 1st Plone for Research and University Day - Bologna, 20 Maggio 2010
  • 21. Giovanni Toffoli Glossari, thesauri, ontologie: annotazione e ricerca dei contenuti su base semantica PLONESAURUS - APPLICAZIONE KMAP - 1 PloneSaurus è stato sviluppato nell'ambito del progetto europeo INTEROP: • il "consensus system" ha consentito di raffinare una tassonomia di 2000 termini • classificazione e ricerca semantica dei contenuti della KMap: una "Knowledge Map" su attori, attività e risultati della ricerca europea nel campo della interoperabilità tra imprese e tra sistemi d'impresa. Nell'applicazione KMap, PloneSaurus supporta classificazione e ricerca semantica dei contenuti: • classificazione manuale; classificazione automatica, con "estrazione" dei termini-concetti dai documenti • ricerca semantica, semplice o basata sulla nozione di vicinanza semantica. 1st Plone for Research and University Day - Bologna, 20 Maggio 2010
  • 22. Giovanni Toffoli Glossari, thesauri, ontologie: annotazione e ricerca dei contenuti su base semantica PLONESAURUS - APPLICAZIONE KMAP - 2 Applicazione KMap - un termine della tassonomia sull'interoperabilità di impresa 1st Plone for Research and University Day - Bologna, 20 Maggio 2010
  • 23. Giovanni Toffoli Glossari, thesauri, ontologie: annotazione e ricerca dei contenuti su base semantica PLONESAURUS - APPLICAZIONE KMAP - 3 Il risultato "clusterizzato" di una ricerca semantica di pubblicazioni: porzione della vista grafica. 1st Plone for Research and University Day - Bologna, 20 Maggio 2010
  • 24. Giovanni Toffoli Glossari, thesauri, ontologie: annotazione e ricerca dei contenuti su base semantica PLONESAURUS - APPLICAZIONE KMAP - 4 Classificazione automatica: indice inverso dei termini dopo la "batch annotation" di un lotto di documenti. 1st Plone for Research and University Day - Bologna, 20 Maggio 2010
  • 25. Giovanni Toffoli Glossari, thesauri, ontologie: annotazione e ricerca dei contenuti su base semantica PLONESAURUS - ALTRI CASI D'USO PloneSaurus è stato usato in molti altri progetti, tra cui • l'ontologia di un altro, più piccolo progetto europeo • un prototipo di "mappa" di esperienze e competenze, per un consorzio privato di imprese; il problema: disporre di informazione di facile accesso per rispondere a bandi di gara nel campo della sistemistica avanzata • 2 repositori digitali realizzati per l'ISPESL, Istituto Superiore per la Prevenzione e la Sicurezza del lavoro; il secondo è un piccolo repository pubblico: http://ispesl-oeav.linkback.net • la "Competence Map" del progetto Cultura&Territorio del Dipartimento Patrimonio Culturale del CNR; rappresenterà l'offerta CNR nel campo delle tecnologie per la conservazione e valorizzazione del patrimonio culturale; include circa 10 tassonomie, alcune veramente estese! http://www.cultura-territorio.cnr.it 1st Plone for Research and University Day - Bologna, 20 Maggio 2010
  • 26. Giovanni Toffoli Glossari, thesauri, ontologie: annotazione e ricerca dei contenuti su base semantica PLONESAURUS - CASI D'USO - ISPESL - 1 ISPESL - Catalogazione semantica di digital repository In entrambe le applicazioni realizzate per l'ISPESL, abbiamo implementato in Plone i 3 thesauri di riferimento per il dominio applicativo: • CIS - Il thesaurus CIS è il principale strumento di indicizzazione dei documenti utilizzato dall'ILO/CIS Bulletin e dal database CISDOC • EUOSHA-OSH - Vocabolario multilingue prodotto dall'Agenzia Europea e nuovo strumento di reference nel campo OSH (occupational safety and health) • ATECO-NACE - Classificazione delle attività economiche, sviluppato in versione italiana dall'ISTAT e derivato dalla classificazione europea della CE. 1st Plone for Research and University Day - Bologna, 20 Maggio 2010
  • 27. Giovanni Toffoli Glossari, thesauri, ontologie: annotazione e ricerca dei contenuti su base semantica PLONESAURUS - CASI D'USO - ISPESL - 2 Un esempio di thesaurus nel sito dello "Osservatorio sui rischi domestici e negli altri ambienti di vita": 1st Plone for Research and University Day - Bologna, 20 Maggio 2010
  • 28. Giovanni Toffoli Glossari, thesauri, ontologie: annotazione e ricerca dei contenuti su base semantica PLONESAURUS - CASI D'USO - CULTURA E TERRITORIO - 1 CNR-DPC - Portale Cultura e Territorio • la Competence Map implementa il modello concettuale del progetto; tutti i box e gli archi sono "attivi": 1st Plone for Research and University Day - Bologna, 20 Maggio 2010
  • 29. Giovanni Toffoli Glossari, thesauri, ontologie: annotazione e ricerca dei contenuti su base semantica PLONESAURUS - CASI D'USO - CULTURA E TERRITORIO - 2 CNR-DPC - Portale Cultura e Territorio • parte di un form di ricerca semantica, con portlet multi- tassonomia: 1st Plone for Research and University Day - Bologna, 20 Maggio 2010
  • 30. Giovanni Toffoli Glossari, thesauri, ontologie: annotazione e ricerca dei contenuti su base semantica PLONESAURUS - CASI D'USO - CULTURA E TERRITORIO - 3 CNR-DPC - Portale Cultura e Territorio • parte di un form di ricerca: filtro testuale sui termini 1st Plone for Research and University Day - Bologna, 20 Maggio 2010