SlideShare a Scribd company logo
Hypernexus…

… ovvero un approccio innovativo alla gestione delle informazioni aziendali.
Cos’è Hypernexus
•  Progetto di ricerca di Hyperborea srl finanziato attraverso il bando di Regione
   Toscana “Aiuti allo sviluppo sperimentale 2009”

•  Alcune keywords: Information Management, Semantic Web, Knowledge
   Management

•  Net7 ha partecipato agli sviluppi in qualità di consulente per svolgere l’obiettivo
   operativo “Strumenti Semantici e Supporto al Knowledge Management”

•  Durata del progetto: 12 mesi
Obiettivi
•  Hypernexus nasce come progetto di ricerca industriale allo scopo di
   sperimentare un approccio innovativo alla gestione delle informazioni aziendali.
•  Parte dall’assunto che sempre di più l’informazione aziendale è:
    –  costituita da documenti di tipo eterogeneo (file testuali di tipo diverso
       - .doc, .odf, .pdf, … - , pagine web, mail, …)
    –  dispersa in numerosi repository, diversi per natura (es. file system, sistemi
       documentali, mail server, siti web, database …) e per disposizione (su
       macchine in sede, su server in hosting o in servizi cloud)
•  Queste diversità e dispersione impedisce di avere una visione chiara e
   aggiornata su ciò che succede nelle varie iniziative aziendali (ad es. nei progetti)
I bisogni che vuole soddisfare
•  Hypernexus mira a fornire una visione unificata e globale delle informazioni di
   unʹ′azienda, applicando il principio della separazione delle responsabilità
    –  nei sistemi di Information Management i documenti continuano ad essere conservati e
       gestiti

    –  centralmente viene ricostruita una visione coerente delle informazioni

•  Hypernexus si propone come un organizzatore del corpo informativo di
   unʹ′azienda e un navigatore per recuperare e analizzare i suoi documenti
•  La visione della documentazione aziendale proposta da Hypernexus si basa su
   un modello logico costruito secondo i principi e le tecnologie del Semantic Web
Una visione d’insieme
Logica di elaborazione
•  Hypernexus propone una logica di elaborazione delle informazioni a catena di
   montaggio
•  Degli agenti automatici si occupano periodicamente di recuperare i nuovi
   documenti dai vari repository (Sistemi Informativi), estraendo da essi i metadati
   e il testo, per consentire delle analisi semantiche e l’indicizzazione full-text
•  A partire da queste informazioni, e usando le tecnologie del Semantic Web,
   viene ricostruita in Hypernexus una visione logica dei documenti, individuando
   le relazioni tra di essi e fra questi e le altre entità del modello logico
•  Tecniche automatiche di Business Intelligence Semantica mirano a suggerire
   categorizzazioni per i documenti, individuando i “concetti chiave di cui parlano” e
   evidenziando relazioni “non banali” e “non evidenti” fra di essi
Lʹ′architettura
Il modello logico di Hypernexus
•  Si suppone che le informazioni aziendali siano sempre afferibili a Progetti
•  Ai progetti sono associati i Documenti, conservati e gestiti in Repository.
   Qualche esempio:
     –  documenti testuali (.txt, .doc, .pdf, .odf, etc) su file system, locale o di rete
     –  e-mail
     –  documenti testuali su servizi di Enterprise Content Management (es. Alfresco) via
        protocollo CMIS
     –  documenti testuali in repository cloud (Dropbox, Google Drive, Microsoft SkyDrive)
     –  contenuti pubblicati in siti web e Social Network
•  Altra “entità” rilevante del modello sono gli Attori, ovvero Persone o Aziende
•  È un modello generico, riutilizzabile in vari contesti (dalle aziende private alle PA)
•  Riuso di ontologie standard (Dublin Core, FOAF, SKOS, Schema.org…)
Modello logico
Modello semantico
La logica di funzionamento
•  Il sistema è altamente configurabile. Unʹ′azienda definisce i propri progetti e
   configura i connettori che recuperano i documenti dai vari sistemi informativi

•  I connettori operano in una logica di harvesting : accedono ai sistemi con
   regolarità e recuperano le informazioni cambiate rispetto al precedente
   collegamento

•  Hypernexus ha bisogno di poche informazioni per essere operativo:
   automaticamente arricchisce il modello e crea relazioni

•  Il modello può essere in seguito raffinato dall’utente, per renderlo più preciso
    –  Non è quindi necessaria unʹ′analisi avanzata da eseguire a monte
Business Intelligence Semantica
•  Uso di servizi di Entity Extraction per individuare “entità” nei documenti testuali.
•  Permettono il riconoscimento di “concetti generici” e l’aggancio a elementi della
   Linked Open Data (LOD) cloud (Wikipedia/DBpedia). Questi i servizi disponibili:
    –  TagMe (http://tagme.di.unipi.it/) del gruppo di ricerca A3 Lab del Dipartimento di
       Informatica dell’Università di Pisa - assai efficace sull’Italiano e l’Inglese
    –  AlchemyAPI (http://www.alchemyapi.com/): servizio commerciale - molte lingue supportate
       ma meno efficace di TagMe su Italiano e Inglese
    –  DBpedia Spotlight (http://spotlight.dbpedia.org/): servizio sperimentale - solo Inglese.
       Abbastanza preciso ma molto lento
•  Integrazione delle tecnologie di Apache Stanbol per il riconoscimento di concetti
   da vocabolari privati e configurabili (es. elenco dipendenti/collaboratori
   aziendali, lista di aziende partner, sigle/acronimi ad uso interno, …)
Classificazione automatica di documenti
•  Questa è la logica con cui viene eseguita la classificazione automatica di
   documenti in Hypernexus:
    –  Si parte dalla definizione di una o più tassonomie le cui voci (categorie) sono
       associate a entità della LOD Cloud (es. a voci di Wikipedia o a entità di
       DBpedia)
    –  I servizi di Entity Extraction individuano delle voci nel testo, identificate da
       entità LOD
    –  Se queste entità sono associate a delle categorie di Hypernexus,
       automaticamente si assume che queste classifichino il documento
       esaminato
    –  Lʹ′azione di classificazione è semi-automatica: un operatore può
       dall’interfaccia web di Hypernexus approvare o respingere la classificazione
       suggerita.
La classificazione automatica per immagini
La classificazione automatica per immagini

                               Tassonomia
La classificazione automatica per immagini

                                                       Tassonomia


                                    Conce&o	
  X	
  



                 Conce&o	
  Y	
  



                                    Conce&o	
  Z	
  
La classificazione automatica per immagini
    Documento

                                                       Tassonomia


                                    Conce&o	
  X	
  



                 Conce&o	
  Y	
  



                                    Conce&o	
  Z	
  
La classificazione automatica per immagini
    Documento
                      Concetto riconosciuto            Tassonomia
                       via Entity Extraction


                                    Conce&o	
  X	
  



                 Conce&o	
  Y	
  



                                    Conce&o	
  Z	
  
La classificazione automatica per immagini
    Documento
                      Concetto riconosciuto            Tassonomia
                       via Entity Extraction


                                    Conce&o	
  X	
  



                 Conce&o	
  Y	
  



                                    Conce&o	
  Z	
  
La classificazione automatica per immagini
    Documento
                           Concetto riconosciuto            Tassonomia
                            via Entity Extraction


                                         Conce&o	
  X	
  



                      Conce&o	
  Y	
  



                                         Conce&o	
  Z	
  




                Classificazione
La tecnologia
•  Hypernexus consiste in un applicativo web based che può funzionare in logica
   Cloud
    –  Più aziende/PA accedono in ottica SaaS al servizio
    –  Ognuna vede, con il massimo rispetto della Privacy e della Sicurezza, il proprio universo
       informativo
•  Basato su unʹ′architettura applicativa aperta, completamente estendibile e
   facilmente personalizzabile
•  Software di base 100% open source
    –  Front-End/Presentation layer sviluppato in Java con il framework Spring
    –  Business logic implementata da servizi in esecuzione sull’Enterprise Service Bus JBoss ESB
    –  Data Layer partizionato tra dati relazionali (MariaDB), grafi RDF (Sesame/OpenRDF) e indici
       per la ricerca full-text (Solr)
Hypernexus in azione…
La Dashboard: una visione d’insieme
I concetti identificati e le relazioni tra di essi
Persone/account e la % di interazione
Timeline: distribuzione dei doc nel tempo
Vista di dettaglio a “drill-down” (Box View)
Vista di dettaglio a “drill-down” (Box View)
Dettaglio di un doc: tool di classificazione
Dettaglio di un progetto: concetti frequenti
Dettaglio di un progetto: vista alternativa
Navigazione del “grafo” del modello
Navigazione del “grafo” del modello
Back-office: configurazione progetti
Back-office: configurazione connettori
Back-office: gestione delle tassonomie
desantis@netseven.it




http://www.netseven.it

More Related Content

PPT
Licencia Creative Commons
KEY
Pundit @ Open Humanities Hack
PDF
Looking at Words through Images - Presentation at CASVA, National Gallery of ...
PDF
Orlandofurioso.org: a Digital Archive for Texts and Images
PDF
Agile management
PPTX
Presentation of context: Web Annotations (& Pundit) during the StoM Project (...
PDF
Il web intelligente
PDF
2015-06 Roberto Boselli, Dal dato non strutturato alle ontologie
Licencia Creative Commons
Pundit @ Open Humanities Hack
Looking at Words through Images - Presentation at CASVA, National Gallery of ...
Orlandofurioso.org: a Digital Archive for Texts and Images
Agile management
Presentation of context: Web Annotations (& Pundit) during the StoM Project (...
Il web intelligente
2015-06 Roberto Boselli, Dal dato non strutturato alle ontologie

Similar to Hypernexus... ovvero un approccio innovativo alla gestione delle informazioni aziendali (20)

PPT
La Semantica e il Web dei Dati
PPTX
Presentazione piattaforma semantica per gestione della conoscenza (scuole)
PPT
Faceted Search
PPTX
Evoluzione dei Motori di Ricerca
PDF
Web2.0 Enterprise2.0 Semantic Web
PDF
C'è semantica in questo web
PDF
Il Web Del Futuro Visioni E Idee Sul Web Semantico
PDF
DBpedia nel contesto Linked Data
PDF
Tesi sesb
PDF
La semantica per automatizzare una redazione web: l’esperienza di Innolabspl...
PDF
La semantica per automatizzare una redazione web: l'esperienza di Innolabplus.eu
PPTX
5a. Linked Data
PDF
Dandelion API e Atoka: due strumenti utili al Data Journalism
DOC
Un sistema per l'integrazione di varianti di una stessa ontologia
PPT
Accesso remoto, interfaccia ed architettura dell'informazione
PDF
Andrea D'Andrea - Data, Metadata, Linked Open Data in archeologia
PPT
IC2008 Emanuele Della Valle Semantic Web
PPT
9. Il Web semantico
PPT
Arte di Ascoltare - Slide Rita Marinelli
PPT
Estrazione della conoscenza dalla documentazione tecnica e di progetto
La Semantica e il Web dei Dati
Presentazione piattaforma semantica per gestione della conoscenza (scuole)
Faceted Search
Evoluzione dei Motori di Ricerca
Web2.0 Enterprise2.0 Semantic Web
C'è semantica in questo web
Il Web Del Futuro Visioni E Idee Sul Web Semantico
DBpedia nel contesto Linked Data
Tesi sesb
La semantica per automatizzare una redazione web: l’esperienza di Innolabspl...
La semantica per automatizzare una redazione web: l'esperienza di Innolabplus.eu
5a. Linked Data
Dandelion API e Atoka: due strumenti utili al Data Journalism
Un sistema per l'integrazione di varianti di una stessa ontologia
Accesso remoto, interfaccia ed architettura dell'informazione
Andrea D'Andrea - Data, Metadata, Linked Open Data in archeologia
IC2008 Emanuele Della Valle Semantic Web
9. Il Web semantico
Arte di Ascoltare - Slide Rita Marinelli
Estrazione della conoscenza dalla documentazione tecnica e di progetto
Ad

More from Net7 (20)

PDF
E-RIHS Heritage Hub
PDF
Net7 @ Master Big Data 2017
PDF
iAnnotate 2016 - Demo Pundit web annotator
PDF
Pundit at Digital Humanities Austria 2015
PDF
Pundit at DINI Jahrestagungen, 2015 "Linked Data – Vision und Wirklichkeit"
PDF
Muruca at DiXiT Convention 1: Technology, Software, Standards
PDF
Pundit workshop tutorial at DiXiT Convention 1: Technology, Software, Standards
PDF
Pundit at DiXiT Convention 1: Technology, Software, Standards
PDF
Trend Analysis sui Social Network - I risultati del progetto SenTaClAus
PDF
Word Embedding e word2vec: Introduzione ed Esperimenti Preliminari
PDF
Social Media Analysis... according to Net7
PDF
Io sono qui per voi - Giulio Andreini
PDF
Rethinking the Role of SSH - Culture and Creativity
PDF
Pundit at 3rd DBpedia Community Meeting 2015
PDF
Lod portal and pundit @ Humanities Hack london2014
PPTX
Looking at Words through Images - Presentation at CASVA, National Gallery of ...
PDF
Pundit @ Vienna 2014
PPTX
Apache Solr + ajax solr
PDF
2014 09-18 pundit@dariah2014
PDF
I servizi semantici di analisi testuale nel progetto SenTaClAus
E-RIHS Heritage Hub
Net7 @ Master Big Data 2017
iAnnotate 2016 - Demo Pundit web annotator
Pundit at Digital Humanities Austria 2015
Pundit at DINI Jahrestagungen, 2015 "Linked Data – Vision und Wirklichkeit"
Muruca at DiXiT Convention 1: Technology, Software, Standards
Pundit workshop tutorial at DiXiT Convention 1: Technology, Software, Standards
Pundit at DiXiT Convention 1: Technology, Software, Standards
Trend Analysis sui Social Network - I risultati del progetto SenTaClAus
Word Embedding e word2vec: Introduzione ed Esperimenti Preliminari
Social Media Analysis... according to Net7
Io sono qui per voi - Giulio Andreini
Rethinking the Role of SSH - Culture and Creativity
Pundit at 3rd DBpedia Community Meeting 2015
Lod portal and pundit @ Humanities Hack london2014
Looking at Words through Images - Presentation at CASVA, National Gallery of ...
Pundit @ Vienna 2014
Apache Solr + ajax solr
2014 09-18 pundit@dariah2014
I servizi semantici di analisi testuale nel progetto SenTaClAus
Ad

Hypernexus... ovvero un approccio innovativo alla gestione delle informazioni aziendali

  • 1. Hypernexus… … ovvero un approccio innovativo alla gestione delle informazioni aziendali.
  • 2. Cos’è Hypernexus •  Progetto di ricerca di Hyperborea srl finanziato attraverso il bando di Regione Toscana “Aiuti allo sviluppo sperimentale 2009” •  Alcune keywords: Information Management, Semantic Web, Knowledge Management •  Net7 ha partecipato agli sviluppi in qualità di consulente per svolgere l’obiettivo operativo “Strumenti Semantici e Supporto al Knowledge Management” •  Durata del progetto: 12 mesi
  • 3. Obiettivi •  Hypernexus nasce come progetto di ricerca industriale allo scopo di sperimentare un approccio innovativo alla gestione delle informazioni aziendali. •  Parte dall’assunto che sempre di più l’informazione aziendale è: –  costituita da documenti di tipo eterogeneo (file testuali di tipo diverso - .doc, .odf, .pdf, … - , pagine web, mail, …) –  dispersa in numerosi repository, diversi per natura (es. file system, sistemi documentali, mail server, siti web, database …) e per disposizione (su macchine in sede, su server in hosting o in servizi cloud) •  Queste diversità e dispersione impedisce di avere una visione chiara e aggiornata su ciò che succede nelle varie iniziative aziendali (ad es. nei progetti)
  • 4. I bisogni che vuole soddisfare •  Hypernexus mira a fornire una visione unificata e globale delle informazioni di unʹ′azienda, applicando il principio della separazione delle responsabilità –  nei sistemi di Information Management i documenti continuano ad essere conservati e gestiti –  centralmente viene ricostruita una visione coerente delle informazioni •  Hypernexus si propone come un organizzatore del corpo informativo di unʹ′azienda e un navigatore per recuperare e analizzare i suoi documenti •  La visione della documentazione aziendale proposta da Hypernexus si basa su un modello logico costruito secondo i principi e le tecnologie del Semantic Web
  • 6. Logica di elaborazione •  Hypernexus propone una logica di elaborazione delle informazioni a catena di montaggio •  Degli agenti automatici si occupano periodicamente di recuperare i nuovi documenti dai vari repository (Sistemi Informativi), estraendo da essi i metadati e il testo, per consentire delle analisi semantiche e l’indicizzazione full-text •  A partire da queste informazioni, e usando le tecnologie del Semantic Web, viene ricostruita in Hypernexus una visione logica dei documenti, individuando le relazioni tra di essi e fra questi e le altre entità del modello logico •  Tecniche automatiche di Business Intelligence Semantica mirano a suggerire categorizzazioni per i documenti, individuando i “concetti chiave di cui parlano” e evidenziando relazioni “non banali” e “non evidenti” fra di essi
  • 8. Il modello logico di Hypernexus •  Si suppone che le informazioni aziendali siano sempre afferibili a Progetti •  Ai progetti sono associati i Documenti, conservati e gestiti in Repository. Qualche esempio: –  documenti testuali (.txt, .doc, .pdf, .odf, etc) su file system, locale o di rete –  e-mail –  documenti testuali su servizi di Enterprise Content Management (es. Alfresco) via protocollo CMIS –  documenti testuali in repository cloud (Dropbox, Google Drive, Microsoft SkyDrive) –  contenuti pubblicati in siti web e Social Network •  Altra “entità” rilevante del modello sono gli Attori, ovvero Persone o Aziende •  È un modello generico, riutilizzabile in vari contesti (dalle aziende private alle PA) •  Riuso di ontologie standard (Dublin Core, FOAF, SKOS, Schema.org…)
  • 11. La logica di funzionamento •  Il sistema è altamente configurabile. Unʹ′azienda definisce i propri progetti e configura i connettori che recuperano i documenti dai vari sistemi informativi •  I connettori operano in una logica di harvesting : accedono ai sistemi con regolarità e recuperano le informazioni cambiate rispetto al precedente collegamento •  Hypernexus ha bisogno di poche informazioni per essere operativo: automaticamente arricchisce il modello e crea relazioni •  Il modello può essere in seguito raffinato dall’utente, per renderlo più preciso –  Non è quindi necessaria unʹ′analisi avanzata da eseguire a monte
  • 12. Business Intelligence Semantica •  Uso di servizi di Entity Extraction per individuare “entità” nei documenti testuali. •  Permettono il riconoscimento di “concetti generici” e l’aggancio a elementi della Linked Open Data (LOD) cloud (Wikipedia/DBpedia). Questi i servizi disponibili: –  TagMe (http://tagme.di.unipi.it/) del gruppo di ricerca A3 Lab del Dipartimento di Informatica dell’Università di Pisa - assai efficace sull’Italiano e l’Inglese –  AlchemyAPI (http://www.alchemyapi.com/): servizio commerciale - molte lingue supportate ma meno efficace di TagMe su Italiano e Inglese –  DBpedia Spotlight (http://spotlight.dbpedia.org/): servizio sperimentale - solo Inglese. Abbastanza preciso ma molto lento •  Integrazione delle tecnologie di Apache Stanbol per il riconoscimento di concetti da vocabolari privati e configurabili (es. elenco dipendenti/collaboratori aziendali, lista di aziende partner, sigle/acronimi ad uso interno, …)
  • 13. Classificazione automatica di documenti •  Questa è la logica con cui viene eseguita la classificazione automatica di documenti in Hypernexus: –  Si parte dalla definizione di una o più tassonomie le cui voci (categorie) sono associate a entità della LOD Cloud (es. a voci di Wikipedia o a entità di DBpedia) –  I servizi di Entity Extraction individuano delle voci nel testo, identificate da entità LOD –  Se queste entità sono associate a delle categorie di Hypernexus, automaticamente si assume che queste classifichino il documento esaminato –  Lʹ′azione di classificazione è semi-automatica: un operatore può dall’interfaccia web di Hypernexus approvare o respingere la classificazione suggerita.
  • 15. La classificazione automatica per immagini Tassonomia
  • 16. La classificazione automatica per immagini Tassonomia Conce&o  X   Conce&o  Y   Conce&o  Z  
  • 17. La classificazione automatica per immagini Documento Tassonomia Conce&o  X   Conce&o  Y   Conce&o  Z  
  • 18. La classificazione automatica per immagini Documento Concetto riconosciuto Tassonomia via Entity Extraction Conce&o  X   Conce&o  Y   Conce&o  Z  
  • 19. La classificazione automatica per immagini Documento Concetto riconosciuto Tassonomia via Entity Extraction Conce&o  X   Conce&o  Y   Conce&o  Z  
  • 20. La classificazione automatica per immagini Documento Concetto riconosciuto Tassonomia via Entity Extraction Conce&o  X   Conce&o  Y   Conce&o  Z   Classificazione
  • 21. La tecnologia •  Hypernexus consiste in un applicativo web based che può funzionare in logica Cloud –  Più aziende/PA accedono in ottica SaaS al servizio –  Ognuna vede, con il massimo rispetto della Privacy e della Sicurezza, il proprio universo informativo •  Basato su unʹ′architettura applicativa aperta, completamente estendibile e facilmente personalizzabile •  Software di base 100% open source –  Front-End/Presentation layer sviluppato in Java con il framework Spring –  Business logic implementata da servizi in esecuzione sull’Enterprise Service Bus JBoss ESB –  Data Layer partizionato tra dati relazionali (MariaDB), grafi RDF (Sesame/OpenRDF) e indici per la ricerca full-text (Solr)
  • 23. La Dashboard: una visione d’insieme
  • 24. I concetti identificati e le relazioni tra di essi
  • 25. Persone/account e la % di interazione
  • 27. Vista di dettaglio a “drill-down” (Box View)
  • 28. Vista di dettaglio a “drill-down” (Box View)
  • 29. Dettaglio di un doc: tool di classificazione
  • 30. Dettaglio di un progetto: concetti frequenti
  • 31. Dettaglio di un progetto: vista alternativa