SlideShare a Scribd company logo
Intelligenza artificiale e testo
a cura di: Andrea Guzzo
Che funziona…
at reasonable scale…
Ciao Commit University!
I'm Andrea Guzzo:
- AI Technical Leader @MDPI
- Organizer @PythonBiellaGroup
- Nerd @ByNight
- Sometimes @ComputerScientist
Trying to follow the PEP8 way..
Reach me:
- https://linktr.ee/jeydi92
Grazie di avermi invitato e grazie di essere qui!!!
È vero che solo le big tech possono fare "intelligenza artificiale"?
Di cosa parliamo?
● Cosa vuol dire NLP?
● Qual è lo stato dell’arte dell’Intelligenza Artificiale?
● Quali sono i modelli più utilizzati? Che problemi si possono risolvere?
● Come si può realizzare un Sistema di Intelligenza Artificiale che utilizza il testo
e il linguaggio naturale?
● Facciamo qualche esempio!
NLP, cosa vuol dire?
Cosa vuol dire fare NLP?
- Processare differenti formati di testo scritti in linguaggio naturale in modo che
siano comprensibili da una macchina
- Utilizzare il testo per estrarre informazioni utili tramite l'impiego di algoritmi.
Il linguaggio naturale comporta moltissimi problemi
Un po' di storia
3 / 5 anni fa il mio attuale lavoro non esisteva
Quanto testo "digitale" esiste ora? Quanto è grande il "web" adesso?
Cosa sta succedendo adesso?
https://openai.com/dall-e-2/
https://www.midjourney.com/home/
https://github.com/features/copilot
https://openai.com/blog/whisper/
https://www.theverge.com/2022/9/29/23378210/meta-text-to-video-ai-generation-
make-a-video-model-dall-e
● Ma ci sono sempre gli umani!
Cosa sta succedendo adesso?
● È una beta
● È GPT
● È GROSSO (175 miliardi di parametri)
● È probabilistico e molto arrogante
● Funziona bene su cose semplici
● Sbaglia ancora tanto
● Non è aggiornato
● Potrebbe essere rivoluzionario (però è figo)
Algoritmi e modelli
Quali sono e quali problemi risolvono?
Che problemi posso risolvere?
https://paperswithcode.com/
Si ma concretamente, cosa si può fare?
A partire da degli articoli scientifici (papers e journals):
● Trovare delle similarità semantiche: Article Similarity
● Trovare simili autori e revisori per gli articoli: Peer Reviewer Finder
● Capire di cosa parlano certi articoli: Topic Finder, Article Summarization
● Raggruppare articoli simili: Article Clustering
● Estrarre parole chiave: Topic Modelling
● Capire se ci sono delle copiature o dei problemi: Ethical Project
● Migliorare il processo di revisione manuale: Regole sintattiche e sematiche (POS)
● Suggerire riviste e articoli agli utenti: Finder
● Creare dashboard per l'analisi dei dati
● E tanto tanto altro ancora…
Facciamo qualche esempio!
https://app.scilit.net/publications/2f886c5a1a8858cba1e81d837276cf1c
Di quali algoritmi stiamo parlando?
BERT Model
Word Embeddings
https://medium.com/@hari4om/word-embedding-d816f643140 https://jalammar.github.io/illustrated-bert/
Di quali algoritmi stiamo parlando?
Transformer!
https://jalammar.github.io/illustrated-transformer/ https://jalammar.github.io/how-gpt3-works-visualizations-animations/
Che problemi posso risolvere?
Alcuni concetti fondamentali…
● Algoritmi addestrati da altri: Pre-addestrati
● Modelli pre-addestrati sono molto difficili da addestrare e serve tanto corpus
● Grazie al transfer learning è possibile specializzare gli algoritmi pre addestrati
● È possibile condividere modelli pre addestrati
● Specializzare un algoritmo sui tuoi dati: fine tuning
● Alla fine si ottengono degli embeddings (vettori in uno spazio)
● È possibile applicare della «matematica» agli embeddings per fare calcoli (similarità)
https://huggingface.co/
NLP!
Come si può fare per davvero?
Anatomie delle aziende
● Come faccio a valorizzare i dati e le informazioni che ho a disposizione?
● Posso realizzare anche io un progetto Dati (Science, AI) che funziona davvero?
Ma non dimentichiamo mai
Ogni azienda è unica perchè ha dati unici e persone uniche
I dati sono più importanti degli oggetti che li hanno creati:
- Le informazioni estratte valgono più dei dati
- La conoscenza vale più dell'informazione
- La saggezza ricavata ha un valore inestimabile
“Ogni azienda è una società di analisi dati” Amir Orad, Forbes Feb. 2020
“Chi controlla la spezia controlla l'universo!” Baron Vladimir Harkonnen
Reasonable Scale
Criteri:
- Computazione: hanno una disponibilità limitata di budget per la computazione, non un intero data
center a disposizione
- Grandezza del team: hanno dozzine di ingegneri, non centinaia
- Ricavato: hanno fatturati da milioni all'anno, non miliardi (e magari la tecnologia non è il loro core
business)
- Dati: hanno una disponibilità limitata di datasets (terabytes-sized), non petabytes.
- Impatto: non utilizzano Data Science come strumento quotidiano nel loro lavoro
Jacopo Tagliabue (Adjunct Professor NYU) - StanfordMLSysSeminars
Come possiamo trovare una soluzione e fare un progetto?
Siamo "data people", quindi il nostro compito è quello di creare qualcosa
che abbia un valore (per davvero).
La risposta: Non abbiamo bisogno di una barca più grande!
● Il dato è il Re: ossessionati con la qualità del dati, perchè è il punto in cui il guadagno è maggiore
○ Corollario: importante prima investire in Data Engineers (più che in) Data Scientists
● PaaS è meglio di Iaas: Il tempo è spesso la risorsa più scarsa e ci sono molte soluzioni e strumenti che ci
possono semplificare la vita, usiamole!
○ Corollario = less is more e KISS: non scrivere codice che altri hanno già scritto
● Sforzarsi di essere "agili": L'archiviazione intelligente dei dati, moderni computer portatili, accesso
facilitato alle risorse "scalable computing" è tutto quello di cui c'è bisogno
○ Corollary: il calcolo distribuito (ad esempio Spark) è la radice di tutti i mali
Jacopo Tagliabue (Adjunct Professor NYU) - StanfordMLSysSeminars
Come possiamo trovare una soluzione?
● General trend 1: I modelli sono diventati delle commodities (es: computer vision e NLP),
le pipelines di gestione dei dati rappresentano il vantaggio competitivo (ma fa meno figo)
● General trend 2: al di là di alcuni giganti tecnologici il 95% (ma anche il 99%) degli strumenti,
delle necessità e dei modelli possono essere risolti con strumenti off-the-shelf (principalmente
open source)
Facciamo un esempio!
Reasonable scale: per noi!
Come abbiamo costruito i nostri progetti?
- Partire con il team: creare una metodologia di lavoro che funzioni bene per il
tuo team, coinvolgere sempre il "gestore" dei dati e l'utente finale nel processo.
Bisogna costruire qualcosa che funzioni!
- Creare building blocks: partire dai fondamentali, creare semplici template e generalizzare il codice
per tutti i progetti.
- Get out of the building: bisogna andare in produzione subito, dal giorno 0
- Shiny object syndrome: l'ultimo modello o l'ultima tecnologia sul mercato non risolverà il tuo
problema nella maggior parte dei casi
- Nessuna scusa: se non puoi fare qualcosa, costruisci con quello che hai, e solitamente è più che
abbastanza.
- Deve funzionapre per gli utenti: alla fine, il progetto deve funzionare e deve essere utilizzato dagli
utenti
- Il "perchè" (la domanda di ricerca) è sempre il faro nella notte!
Workflow di lavoro
Architettura
Si, non c'è nessun
cloud qui :)
E adesso?
Cosa ci portiamo a casa?
Si può fare!
- Democratizzazione: al giorno d'oggi l'Intelligenza Artificiale è stata molto
"democratizzata"
- Non solo le big tech: tutti possono realizzare la propria soluzione (non serve una barca
sempre più grande)
- Giusta filosofia: Bisogna conoscere, approfondire, imparare (never ending learning), ma avendo la
giusta metodologia e filosofia di lavoro fin da subito
- Trovare la propria: "reasonable scale"
- Il mondo dell'Intelligenza Artificiale sta evolvendo tantissimo! Soprattutto in alcuni campi
- Attenzione: è un mondo vasto e ci si può perdere facilmente, se non sai cosa stai facendo
- Non cediamo alla fuffa… o a terminator!
Domande?
https://linktr.ee/jeydi92
Grazie!

More Related Content

PDF
Design Portfolio
PPTX
PDF
Android Jetpack
PDF
Jetpack Compose.pdf
PDF
Explicit architecture
PPTX
Using Ansible and PowerShell Together
PDF
From idea to concept - Todi Appy Days 2015
PDF
Smart api
Design Portfolio
Android Jetpack
Jetpack Compose.pdf
Explicit architecture
Using Ansible and PowerShell Together
From idea to concept - Todi Appy Days 2015
Smart api

Similar to Un viaggio alla scoperta dei Language Models e dell’intelligenza artificiale in produzione (20)

PDF
Stop Meeting, Start Coding!
PPTX
Intelligenza Artificiale e Robotica - Applicazioni industriali e responsabili...
PDF
Il modello collaborativo dell'open source per lo sviluppo software
PDF
Francesco Liguori, Giuliano Liguori | Il Project Manager ai tempi dell'IA
PPTX
Introduzione al coding
PDF
Una fugace occhiata al Test Driven Development (2006)
PDF
Analizza i tuoi dati con Intelligenza Artificiale
PDF
2016 Aica - Formazione Animatori Digitali Calabria
PDF
Alice in WordPressLand - "We're all mad here"
PPT
Workshop metodi e tecniche agili
PDF
IoT Design Deck - Il metodo per il Co-Design della UX di prodotti e servizi c...
PPT
AICA Workshop 26 feb 2008 @ SIAM
PDF
Imparare con l'intelligenza artificiale
PDF
Lean Web Solutions with WP [versione italiana]
PDF
Collaborazione, Decisionalità e Gestione della Complessità nel Tempo: cosa ...
PPTX
Coding, pattern e pensiero computazionale
ODP
L'avvento del programmatore sociale
PPTX
Intelligenza artificiale, robotica, rpa, machine learning Smau Bologna 2019
PDF
Laboratorio Web Journalism | 17 dicembre 2010
PPT
Creatività applicata e innovazione nel business
Stop Meeting, Start Coding!
Intelligenza Artificiale e Robotica - Applicazioni industriali e responsabili...
Il modello collaborativo dell'open source per lo sviluppo software
Francesco Liguori, Giuliano Liguori | Il Project Manager ai tempi dell'IA
Introduzione al coding
Una fugace occhiata al Test Driven Development (2006)
Analizza i tuoi dati con Intelligenza Artificiale
2016 Aica - Formazione Animatori Digitali Calabria
Alice in WordPressLand - "We're all mad here"
Workshop metodi e tecniche agili
IoT Design Deck - Il metodo per il Co-Design della UX di prodotti e servizi c...
AICA Workshop 26 feb 2008 @ SIAM
Imparare con l'intelligenza artificiale
Lean Web Solutions with WP [versione italiana]
Collaborazione, Decisionalità e Gestione della Complessità nel Tempo: cosa ...
Coding, pattern e pensiero computazionale
L'avvento del programmatore sociale
Intelligenza artificiale, robotica, rpa, machine learning Smau Bologna 2019
Laboratorio Web Journalism | 17 dicembre 2010
Creatività applicata e innovazione nel business
Ad

More from Commit University (20)

PDF
Accessibilità ed equità digitale: un impegno, non una scelta
PDF
GitHub Copilot:vediamo chi comanda - Commit University.pdf
PDF
Contract Driven Development - Branch 2024.pdf
PPTX
Cybersecurity & AI: Illusioni e Speranze
PDF
Migliorare la Developer Experience in un mondo Cloud Native
PPTX
Scopri come sfruttare la potenza della Hybrid RAG
PDF
Introduzione a AWS Forecast e SageMaker DeepAR: Prevedere la Domanda con il M...
PDF
Oltre l'hype: vulnerabilità e limiti dell'intelligenza artificiale.pdf
PPTX
Alla scoperta dei Vector Database e dei RAG
PDF
Nell’iperspazio con Rocket: il Framework Web di Rust!
PDF
Crea il tuo assistente AI con lo Stregatto (open source python framework)
PDF
Breaking REST Chains_ A Fastify & Mercurius Pathway to GraphQL Glory.pdf
PDF
Accelerating API Development: A Pit Stop with Gin-Gonic in Golang-Slide.pdf
PDF
Slide-10years.pdf
PDF
Vue.js slots.pdf
PPTX
Commit - Qwik il framework che ti stupirà.pptx
PPTX
Sviluppare da zero una Angular Web App per la PA
PDF
Backstage l'Internal Developer Portal Open Source per una migliore Developer ...
PDF
Prisma the ORM that node was waiting for
PDF
Decision-making for Software Development Teams - Commit University
Accessibilità ed equità digitale: un impegno, non una scelta
GitHub Copilot:vediamo chi comanda - Commit University.pdf
Contract Driven Development - Branch 2024.pdf
Cybersecurity & AI: Illusioni e Speranze
Migliorare la Developer Experience in un mondo Cloud Native
Scopri come sfruttare la potenza della Hybrid RAG
Introduzione a AWS Forecast e SageMaker DeepAR: Prevedere la Domanda con il M...
Oltre l'hype: vulnerabilità e limiti dell'intelligenza artificiale.pdf
Alla scoperta dei Vector Database e dei RAG
Nell’iperspazio con Rocket: il Framework Web di Rust!
Crea il tuo assistente AI con lo Stregatto (open source python framework)
Breaking REST Chains_ A Fastify & Mercurius Pathway to GraphQL Glory.pdf
Accelerating API Development: A Pit Stop with Gin-Gonic in Golang-Slide.pdf
Slide-10years.pdf
Vue.js slots.pdf
Commit - Qwik il framework che ti stupirà.pptx
Sviluppare da zero una Angular Web App per la PA
Backstage l'Internal Developer Portal Open Source per una migliore Developer ...
Prisma the ORM that node was waiting for
Decision-making for Software Development Teams - Commit University
Ad

Un viaggio alla scoperta dei Language Models e dell’intelligenza artificiale in produzione

  • 1. Intelligenza artificiale e testo a cura di: Andrea Guzzo Che funziona… at reasonable scale…
  • 2. Ciao Commit University! I'm Andrea Guzzo: - AI Technical Leader @MDPI - Organizer @PythonBiellaGroup - Nerd @ByNight - Sometimes @ComputerScientist Trying to follow the PEP8 way.. Reach me: - https://linktr.ee/jeydi92 Grazie di avermi invitato e grazie di essere qui!!!
  • 3. È vero che solo le big tech possono fare "intelligenza artificiale"? Di cosa parliamo? ● Cosa vuol dire NLP? ● Qual è lo stato dell’arte dell’Intelligenza Artificiale? ● Quali sono i modelli più utilizzati? Che problemi si possono risolvere? ● Come si può realizzare un Sistema di Intelligenza Artificiale che utilizza il testo e il linguaggio naturale? ● Facciamo qualche esempio!
  • 5. Cosa vuol dire fare NLP? - Processare differenti formati di testo scritti in linguaggio naturale in modo che siano comprensibili da una macchina - Utilizzare il testo per estrarre informazioni utili tramite l'impiego di algoritmi. Il linguaggio naturale comporta moltissimi problemi
  • 6. Un po' di storia 3 / 5 anni fa il mio attuale lavoro non esisteva Quanto testo "digitale" esiste ora? Quanto è grande il "web" adesso?
  • 7. Cosa sta succedendo adesso? https://openai.com/dall-e-2/ https://www.midjourney.com/home/ https://github.com/features/copilot https://openai.com/blog/whisper/ https://www.theverge.com/2022/9/29/23378210/meta-text-to-video-ai-generation- make-a-video-model-dall-e ● Ma ci sono sempre gli umani!
  • 8. Cosa sta succedendo adesso? ● È una beta ● È GPT ● È GROSSO (175 miliardi di parametri) ● È probabilistico e molto arrogante ● Funziona bene su cose semplici ● Sbaglia ancora tanto ● Non è aggiornato ● Potrebbe essere rivoluzionario (però è figo)
  • 9. Algoritmi e modelli Quali sono e quali problemi risolvono?
  • 10. Che problemi posso risolvere? https://paperswithcode.com/
  • 11. Si ma concretamente, cosa si può fare? A partire da degli articoli scientifici (papers e journals): ● Trovare delle similarità semantiche: Article Similarity ● Trovare simili autori e revisori per gli articoli: Peer Reviewer Finder ● Capire di cosa parlano certi articoli: Topic Finder, Article Summarization ● Raggruppare articoli simili: Article Clustering ● Estrarre parole chiave: Topic Modelling ● Capire se ci sono delle copiature o dei problemi: Ethical Project ● Migliorare il processo di revisione manuale: Regole sintattiche e sematiche (POS) ● Suggerire riviste e articoli agli utenti: Finder ● Creare dashboard per l'analisi dei dati ● E tanto tanto altro ancora…
  • 13. Di quali algoritmi stiamo parlando? BERT Model Word Embeddings https://medium.com/@hari4om/word-embedding-d816f643140 https://jalammar.github.io/illustrated-bert/
  • 14. Di quali algoritmi stiamo parlando? Transformer! https://jalammar.github.io/illustrated-transformer/ https://jalammar.github.io/how-gpt3-works-visualizations-animations/
  • 15. Che problemi posso risolvere?
  • 16. Alcuni concetti fondamentali… ● Algoritmi addestrati da altri: Pre-addestrati ● Modelli pre-addestrati sono molto difficili da addestrare e serve tanto corpus ● Grazie al transfer learning è possibile specializzare gli algoritmi pre addestrati ● È possibile condividere modelli pre addestrati ● Specializzare un algoritmo sui tuoi dati: fine tuning ● Alla fine si ottengono degli embeddings (vettori in uno spazio) ● È possibile applicare della «matematica» agli embeddings per fare calcoli (similarità) https://huggingface.co/
  • 17. NLP! Come si può fare per davvero?
  • 18. Anatomie delle aziende ● Come faccio a valorizzare i dati e le informazioni che ho a disposizione? ● Posso realizzare anche io un progetto Dati (Science, AI) che funziona davvero?
  • 19. Ma non dimentichiamo mai Ogni azienda è unica perchè ha dati unici e persone uniche I dati sono più importanti degli oggetti che li hanno creati: - Le informazioni estratte valgono più dei dati - La conoscenza vale più dell'informazione - La saggezza ricavata ha un valore inestimabile “Ogni azienda è una società di analisi dati” Amir Orad, Forbes Feb. 2020 “Chi controlla la spezia controlla l'universo!” Baron Vladimir Harkonnen
  • 20. Reasonable Scale Criteri: - Computazione: hanno una disponibilità limitata di budget per la computazione, non un intero data center a disposizione - Grandezza del team: hanno dozzine di ingegneri, non centinaia - Ricavato: hanno fatturati da milioni all'anno, non miliardi (e magari la tecnologia non è il loro core business) - Dati: hanno una disponibilità limitata di datasets (terabytes-sized), non petabytes. - Impatto: non utilizzano Data Science come strumento quotidiano nel loro lavoro Jacopo Tagliabue (Adjunct Professor NYU) - StanfordMLSysSeminars
  • 21. Come possiamo trovare una soluzione e fare un progetto? Siamo "data people", quindi il nostro compito è quello di creare qualcosa che abbia un valore (per davvero). La risposta: Non abbiamo bisogno di una barca più grande! ● Il dato è il Re: ossessionati con la qualità del dati, perchè è il punto in cui il guadagno è maggiore ○ Corollario: importante prima investire in Data Engineers (più che in) Data Scientists ● PaaS è meglio di Iaas: Il tempo è spesso la risorsa più scarsa e ci sono molte soluzioni e strumenti che ci possono semplificare la vita, usiamole! ○ Corollario = less is more e KISS: non scrivere codice che altri hanno già scritto ● Sforzarsi di essere "agili": L'archiviazione intelligente dei dati, moderni computer portatili, accesso facilitato alle risorse "scalable computing" è tutto quello di cui c'è bisogno ○ Corollary: il calcolo distribuito (ad esempio Spark) è la radice di tutti i mali Jacopo Tagliabue (Adjunct Professor NYU) - StanfordMLSysSeminars
  • 22. Come possiamo trovare una soluzione? ● General trend 1: I modelli sono diventati delle commodities (es: computer vision e NLP), le pipelines di gestione dei dati rappresentano il vantaggio competitivo (ma fa meno figo) ● General trend 2: al di là di alcuni giganti tecnologici il 95% (ma anche il 99%) degli strumenti, delle necessità e dei modelli possono essere risolti con strumenti off-the-shelf (principalmente open source)
  • 24. Reasonable scale: per noi! Come abbiamo costruito i nostri progetti? - Partire con il team: creare una metodologia di lavoro che funzioni bene per il tuo team, coinvolgere sempre il "gestore" dei dati e l'utente finale nel processo. Bisogna costruire qualcosa che funzioni! - Creare building blocks: partire dai fondamentali, creare semplici template e generalizzare il codice per tutti i progetti. - Get out of the building: bisogna andare in produzione subito, dal giorno 0 - Shiny object syndrome: l'ultimo modello o l'ultima tecnologia sul mercato non risolverà il tuo problema nella maggior parte dei casi - Nessuna scusa: se non puoi fare qualcosa, costruisci con quello che hai, e solitamente è più che abbastanza. - Deve funzionapre per gli utenti: alla fine, il progetto deve funzionare e deve essere utilizzato dagli utenti - Il "perchè" (la domanda di ricerca) è sempre il faro nella notte!
  • 26. Architettura Si, non c'è nessun cloud qui :)
  • 27. E adesso? Cosa ci portiamo a casa?
  • 28. Si può fare! - Democratizzazione: al giorno d'oggi l'Intelligenza Artificiale è stata molto "democratizzata" - Non solo le big tech: tutti possono realizzare la propria soluzione (non serve una barca sempre più grande) - Giusta filosofia: Bisogna conoscere, approfondire, imparare (never ending learning), ma avendo la giusta metodologia e filosofia di lavoro fin da subito - Trovare la propria: "reasonable scale" - Il mondo dell'Intelligenza Artificiale sta evolvendo tantissimo! Soprattutto in alcuni campi - Attenzione: è un mondo vasto e ci si può perdere facilmente, se non sai cosa stai facendo - Non cediamo alla fuffa… o a terminator!