SlideShare a Scribd company logo
Introduzione Esperimenti Clustering Affinamenti Sviluppi Futuri Riferimenti
Word Embedding e word2vec:
Introduzione ed Esperimenti Preliminari
Luca Baronti
baronti@netseven.it
July 30, 2015
Luca Baronti
Word Embedding e word2vec:Introduzione ed Esperimenti Preliminari
Introduzione Esperimenti Clustering Affinamenti Sviluppi Futuri Riferimenti
Word Embedding
Word Embedding: Una Definizione
Tecnica usata nel natural language processing per l’analisi di testi. Esegue
un addestramento su un testo di training per definire una funzione f (w)
f : V → Rn
in grado di associare ad una parola w ∈ V un vettore di reali di
dimesionalit`a arbitraria.
la dimensionalit`a `e bassa rispetto al numero di parole del
vocabolario;
definisce automaticamente una metrica (parole simili corrispondono
a punti vicini nello spazio vettoriale);
permette l’addestramento unsupervised: per l’apprendimento `e
sufficiente un testo sufficientemente grande (> 10M di parole)
non richiede modifiche dipendenti dal linguaggio del testo;
Luca Baronti
Word Embedding e word2vec:Introduzione ed Esperimenti Preliminari
Introduzione Esperimenti Clustering Affinamenti Sviluppi Futuri Riferimenti
Word Embedding
Perch`e Word Embedding?
In Pratica
Questa tecnica fornisce uno strumento per creare collezioni di concetti
simili in modo automatico, su testi raw e senza competenze linguistiche
avanzate da parte dell’utente
ma...
per ottenere buone performance, necessita di testi molto grandi in
fase di apprendimento;
i testi devono comprendere il maggior numero di vocaboli possibili;
Luca Baronti
Word Embedding e word2vec:Introduzione ed Esperimenti Preliminari
Introduzione Esperimenti Clustering Affinamenti Sviluppi Futuri Riferimenti
Word Embedding
Come viene Implementato
Alcune delle tecniche principali prevedono l’uso di reti neurali:
Continuos Skip-Gram (CSG);
Continuos Bag of Words (CBOW);
diverse varianti (hierarchical softmax);
tecniche di deep learning;
(ev) una o pi`u fasi di preprocessing (word2phrases);
...ma questi sono dettagli tecnici.
Luca Baronti
Word Embedding e word2vec:Introduzione ed Esperimenti Preliminari
Introduzione Esperimenti Clustering Affinamenti Sviluppi Futuri Riferimenti
Word Embedding
Come viene Implementato (in pratica)
Una delle implementazioni pi`u diffuse `e contenuta all’interno di word2vec:
toolkit implementato da Google e rilasciato per scopi di ricerca;
implementa i modelli CSG e CBOW;
scritto in C, ma con diversi wrapper disponibili da terze parti per
altri linguaggi (Python, Java, ecc..);
fornisce funzionalit`a di word embedding e word clustering;
Luca Baronti
Word Embedding e word2vec:Introduzione ed Esperimenti Preliminari
Introduzione Esperimenti Clustering Affinamenti Sviluppi Futuri Riferimenti
Esperimenti Svolti
Per gli esperimenti `e stato usato un corpus costituito da una serie di frasi
inglesi (≈17M di parole) a cui `e stata rimossa qualsiasi punteggiatura.
anarchism originated as a term of abuse first used against early
working class radicals including the diggers of the english revolution
and the sans culottes of the french revolution ...
Su questo `e stato eseguito un training di word2vec, durante il quale:
(preprocessing) sono state riconosciute ed unite le multiword:
new york → new york
`e stata addestrata la rete neurale in modo che implementi la funzione di
conversione f (w) basandosi sul contesto della parola w rispetto al testo
fornito;
sono stati generati dei clusters che racchiudono le parole
pi`u simili (vicine nello spazio Rn
) tra loro;
Luca Baronti
Word Embedding e word2vec:Introduzione ed Esperimenti Preliminari
Introduzione Esperimenti Clustering Affinamenti Sviluppi Futuri Riferimenti
word2vec: Inside the Box
f (cat) =
[-0.11134078 0.04383085 0.14002474 -0.00074196 0.07315301 0.02389991 0.00035233 0.15971933 0.11484507
-0.09671068 0.04652358 -0.05458246 -0.05598487 -0.12167966 0.11768888 0.08552325 0.18600485 0.04761726
0.15063967 0.00659288 -0.11978753 -0.09371857 0.0008762 -0.24838321 0.02709502 -0.0825652 -0.08342774
-0.03579892 -0.02825222 0.22019249 -0.09768973 0.02078852 -0.29285535 0.02559453 -0.088859 -0.03527148
0.09159425 0.06531275 0.05503185 0.00685068 0.20773053 0.07941824 -0.01778516 -0.05104338 -0.05595061
-0.02772092 -0.08554953 -0.11792478 -0.05275105 -0.16732845 -0.00650281 -0.18185572 0.08001928 0.13519208
-0.01377966 -0.04257941 -0.04184306 0.06700175 0.08684982 -0.01686727 -0.0662585 0.11035646 -0.05546115
0.0222393 -0.05285819 -0.01276816 0.06395511 -0.06162843 -0.11211643 -0.12294994 0.07951023 -0.13375825
0.1051971 -0.04290687 -0.08603408 -0.04731709 -0.2139928 0.03048153 -0.00790223 0.02168602 -0.0376488
0.14825463 -0.05066469 0.02342289 -0.02835014 0.16291068 -0.07224877 -0.13152623 0.03056438 0.25988334
0.05614626 -0.08592609 -0.08454169 0.00090796 0.10815397 -0.12006436 -0.0053588 0.11610329 0.00848714
0.00412073]
Luca Baronti
Word Embedding e word2vec:Introduzione ed Esperimenti Preliminari
Introduzione Esperimenti Clustering Affinamenti Sviluppi Futuri Riferimenti
word2vec: Outside the Box
Data una parola, ed un modello addestrato su un testo, `e possibile
ricavare le parole pi`u simili:
S(f (cat)) = {dog, cow, goat, bee, pig, pet, hamster, rabbit, rat}
con le relative distanze (espresse in coseno):
dog 0.87
cow 0.84
goat 0.84
bee 0.83
pig 0.82
pet 0.81
hamster 0.8
rabbit 0.78
rat 0.78
Luca Baronti
Word Embedding e word2vec:Introduzione ed Esperimenti Preliminari
Introduzione Esperimenti Clustering Affinamenti Sviluppi Futuri Riferimenti
Algebra delle “parole”
Dato che le parole vengono convertite in vettori, e che su questi viene
implicitamente generata una metrica, `e possibile derivare in modo
algebrico dei concetti nuovi, a partire da concetti noti.
S (f (king) − f (man) + f (woman))
queen 0.29
empress 0.28
prince 0.27
son 0.27
heir 0.27
throne 0.27
monarch 0.27
wife 0.27
emperor 0.27
aragon 0.27
S (f (daughter) − f (woman) + f (man))
son 0.25
princess 0.24
grandson 0.24
consort 0.24
nephew 0.24
grandfather 0.24
eldest son 0.24
niece 0.23
cousin 0.23
brother 0.23
Luca Baronti
Word Embedding e word2vec:Introduzione ed Esperimenti Preliminari
Introduzione Esperimenti Clustering Affinamenti Sviluppi Futuri Riferimenti
Clustering
Le parole possono essere raggruppate, in base alla loro vicinanza, in un
numero di clusters arbitrario.
cat
Pi`u Simili Meno Simili
cat 1 rakesh 0.25
dog 0.87 daring 0.27
cow 0.84 crom 0.29
bee 0.83 mosaic 0.3
flu
Pi`u Simili Meno Simili
flu 1 clunies ross 0.12
ulcers 0.78 actinidia 0.26
encephalitis 0.78 subgenera 0.26
sclerosis 0.78 baby boom 0.27
Luca Baronti
Word Embedding e word2vec:Introduzione ed Esperimenti Preliminari
Introduzione Esperimenti Clustering Affinamenti Sviluppi Futuri Riferimenti
Altri Esempi
Le ideologie tendono ad essere raggruppate insieme..
communism
Pi`u Simili Meno Simili
communism 1 profit organization 0.13
socialism 0.89 res publica 0.21
fascism 0.88 corporatocracy 0.25
marxism 0.85 rose friedman 0.27
imperialism 0.84 ukusa 0.29
....cos`ı come le persone.
karl marx
Pi`u Simili Meno Simili
karl marx 1 profit organization 0.2
adam smith 0.85 operation iraqi 0.25
marx 0.84 operation enduring 0.26
proudhon 0.83 res publica 0.26
keynes 0.83 hostile 0.28
Luca Baronti
Word Embedding e word2vec:Introduzione ed Esperimenti Preliminari
Introduzione Esperimenti Clustering Affinamenti Sviluppi Futuri Riferimenti
Frutta?
Di fronte ad ambiguit`a, si `e osservato come il modello tenda, dove
possibile, a far polarizzare la parola su un significato solo.
orange
Pi`u Simili Meno Simili
orange 1 inconstant 0.2
purple 0.82 positronic 0.21
grey 0.78 bounty 0.22
pink 0.77 chain gang 0.23
green 0.74 wide shut 0.23
apple
Pi`u Simili Meno Simili
apple 1 howitzer 0.16
macintosh 0.78 amx 0.16
amd 0.78 codepage 0.16
apple computer 0.78 bit bytes 0.19
amiga 0.77 priced 0.19
Luca Baronti
Word Embedding e word2vec:Introduzione ed Esperimenti Preliminari
Introduzione Esperimenti Clustering Affinamenti Sviluppi Futuri Riferimenti
Frutta!(?)
A volte il modello presenta degli accostamenti di parole nello stesso
cluster decisamente insoliti.
banana
Pi`u Simili Meno Simili
banana 1 domiciles 0.13
liqueur 0.82 etc 0.2
vanilla 0.81 avocats 0.2
shrimp 0.8 multitude 0.25
jelly 0.8 tablets 0.28
juice 0.8 creatures 0.29
lime 0.8 genera 0.3
Luca Baronti
Word Embedding e word2vec:Introduzione ed Esperimenti Preliminari
Introduzione Esperimenti Clustering Affinamenti Sviluppi Futuri Riferimenti
Distanza tra i Clusters
Distanza tra i Clusters
Dato che i clusters sono insiemi di punti, `e possibile calcolare i loro
centroidi e valutare la distanza tra loro.
Gli esperimenti eseguiti sul testo di esempio, hanno rilevato i seguenti
clusters come i pi`u vicini:
c1 c2 distanza (cos)
51 16 0.96
54 16 0.96
58 53 0.96
21 93 0.95
44 79 0.95
Luca Baronti
Word Embedding e word2vec:Introduzione ed Esperimenti Preliminari
Introduzione Esperimenti Clustering Affinamenti Sviluppi Futuri Riferimenti
Affinamenti: Stop Words
Il sistema lascia aperte alcune possibilit`a per affinamenti:
In tutti i linguaggi esistono delle parole usate per dare struttura alla
frase senza un significato semantico proprio (congiunzioni, ma non
solo);
Queste parole, chiamate stop words, sono comunque processate da
word2vec generando potenzialmente del noise;
Usando un dizionario contenente le stop words specifiche del
linguaggio analizzato `e possibile identificare i clusters che le
contengono;
Risultati
Dei 100 clusters prodotti nei nostri esperimenti, abbiamo rilevato
173 stop word in appena 24 clusters, segno di una dispersione
limitata di questo tipo di parole, da parte del modello, sui clusters.
Luca Baronti
Word Embedding e word2vec:Introduzione ed Esperimenti Preliminari
Introduzione Esperimenti Clustering Affinamenti Sviluppi Futuri Riferimenti
Sviluppi Futuri
Questi esperimenti svolti non coprono tutte le possibilit`a offerte dal word
embedding. Possibili sviluppi futuri possono prevedere:
l’eliminazione (a priori) delle stop words dal testo o (a posteriori) dei
cluster che le includono;
un’analisi incrociata pi`u approfondita tra i termini di clusters pi`u
simili;
la realizzazione di un grafo di “prossimit`a” a partire dai clusters o
dalle parole pi`u vicine;
l’analisi di testi in lingue diverse (italiano, latino, ecc..);
Luca Baronti
Word Embedding e word2vec:Introduzione ed Esperimenti Preliminari
Introduzione Esperimenti Clustering Affinamenti Sviluppi Futuri Riferimenti
Riferimenti
Homepage del progetto google: https://code.google.com/p/word2vec/
Un esempio di applicazione di word2vec agli emoji:
http://sentimentsymposium.com/SS2015/presentations/
16July-ThursdayPM/33-Dimson-SAS15-16PM.pdf
Letteratura di riferimento:
Tomas Mikolov, Kai Chen, Greg Corrado, and Jeffrey Dean. Efficient
Estimation of Word Representations in Vector Space. In Proceedings
of Workshop at ICLR, 2013;
Tomas Mikolov, Ilya Sutskever, Kai Chen, Greg Corrado, and Jeffrey
Dean. Distributed Representations of Words and Phrases and their
Compositionality. In Proceedings of NIPS, 2013;
Tomas Mikolov, Wen-tau Yih, and Geoffrey Zweig. Linguistic
Regularities in Continuous Space Word Representations. In
Proceedings of NAACL HLT, 2013;
Luca Baronti
Word Embedding e word2vec:Introduzione ed Esperimenti Preliminari

More Related Content

PDF
Word2Vec on Italian language
PDF
Word2vec on the italian language: first experiments
PDF
Word2vec 4 all
PDF
General Tips for participating Kaggle Competitions
PDF
E-RIHS Heritage Hub
PDF
Net7 @ Master Big Data 2017
PPTX
Presentation of context: Web Annotations (& Pundit) during the StoM Project (...
PDF
iAnnotate 2016 - Demo Pundit web annotator
Word2Vec on Italian language
Word2vec on the italian language: first experiments
Word2vec 4 all
General Tips for participating Kaggle Competitions
E-RIHS Heritage Hub
Net7 @ Master Big Data 2017
Presentation of context: Web Annotations (& Pundit) during the StoM Project (...
iAnnotate 2016 - Demo Pundit web annotator

More from Net7 (20)

PDF
Pundit at Digital Humanities Austria 2015
PDF
La semantica per automatizzare una redazione web: l’esperienza di Innolabspl...
PDF
Pundit at DINI Jahrestagungen, 2015 "Linked Data – Vision und Wirklichkeit"
PDF
Muruca at DiXiT Convention 1: Technology, Software, Standards
PDF
Pundit workshop tutorial at DiXiT Convention 1: Technology, Software, Standards
PDF
Pundit at DiXiT Convention 1: Technology, Software, Standards
PDF
Trend Analysis sui Social Network - I risultati del progetto SenTaClAus
PDF
Social Media Analysis... according to Net7
PDF
Io sono qui per voi - Giulio Andreini
PDF
C'è semantica in questo web
PDF
Rethinking the Role of SSH - Culture and Creativity
PDF
Pundit at 3rd DBpedia Community Meeting 2015
PDF
Lod portal and pundit @ Humanities Hack london2014
PDF
Looking at Words through Images - Presentation at CASVA, National Gallery of ...
PPTX
Looking at Words through Images - Presentation at CASVA, National Gallery of ...
PDF
Pundit @ Vienna 2014
PPTX
Apache Solr + ajax solr
PDF
2014 09-18 pundit@dariah2014
PDF
I servizi semantici di analisi testuale nel progetto SenTaClAus
PDF
DM2E project - All WP Meeting 5, Bergen - WP3
Pundit at Digital Humanities Austria 2015
La semantica per automatizzare una redazione web: l’esperienza di Innolabspl...
Pundit at DINI Jahrestagungen, 2015 "Linked Data – Vision und Wirklichkeit"
Muruca at DiXiT Convention 1: Technology, Software, Standards
Pundit workshop tutorial at DiXiT Convention 1: Technology, Software, Standards
Pundit at DiXiT Convention 1: Technology, Software, Standards
Trend Analysis sui Social Network - I risultati del progetto SenTaClAus
Social Media Analysis... according to Net7
Io sono qui per voi - Giulio Andreini
C'è semantica in questo web
Rethinking the Role of SSH - Culture and Creativity
Pundit at 3rd DBpedia Community Meeting 2015
Lod portal and pundit @ Humanities Hack london2014
Looking at Words through Images - Presentation at CASVA, National Gallery of ...
Looking at Words through Images - Presentation at CASVA, National Gallery of ...
Pundit @ Vienna 2014
Apache Solr + ajax solr
2014 09-18 pundit@dariah2014
I servizi semantici di analisi testuale nel progetto SenTaClAus
DM2E project - All WP Meeting 5, Bergen - WP3
Ad

Word Embedding e word2vec: Introduzione ed Esperimenti Preliminari

  • 1. Introduzione Esperimenti Clustering Affinamenti Sviluppi Futuri Riferimenti Word Embedding e word2vec: Introduzione ed Esperimenti Preliminari Luca Baronti baronti@netseven.it July 30, 2015 Luca Baronti Word Embedding e word2vec:Introduzione ed Esperimenti Preliminari
  • 2. Introduzione Esperimenti Clustering Affinamenti Sviluppi Futuri Riferimenti Word Embedding Word Embedding: Una Definizione Tecnica usata nel natural language processing per l’analisi di testi. Esegue un addestramento su un testo di training per definire una funzione f (w) f : V → Rn in grado di associare ad una parola w ∈ V un vettore di reali di dimesionalit`a arbitraria. la dimensionalit`a `e bassa rispetto al numero di parole del vocabolario; definisce automaticamente una metrica (parole simili corrispondono a punti vicini nello spazio vettoriale); permette l’addestramento unsupervised: per l’apprendimento `e sufficiente un testo sufficientemente grande (> 10M di parole) non richiede modifiche dipendenti dal linguaggio del testo; Luca Baronti Word Embedding e word2vec:Introduzione ed Esperimenti Preliminari
  • 3. Introduzione Esperimenti Clustering Affinamenti Sviluppi Futuri Riferimenti Word Embedding Perch`e Word Embedding? In Pratica Questa tecnica fornisce uno strumento per creare collezioni di concetti simili in modo automatico, su testi raw e senza competenze linguistiche avanzate da parte dell’utente ma... per ottenere buone performance, necessita di testi molto grandi in fase di apprendimento; i testi devono comprendere il maggior numero di vocaboli possibili; Luca Baronti Word Embedding e word2vec:Introduzione ed Esperimenti Preliminari
  • 4. Introduzione Esperimenti Clustering Affinamenti Sviluppi Futuri Riferimenti Word Embedding Come viene Implementato Alcune delle tecniche principali prevedono l’uso di reti neurali: Continuos Skip-Gram (CSG); Continuos Bag of Words (CBOW); diverse varianti (hierarchical softmax); tecniche di deep learning; (ev) una o pi`u fasi di preprocessing (word2phrases); ...ma questi sono dettagli tecnici. Luca Baronti Word Embedding e word2vec:Introduzione ed Esperimenti Preliminari
  • 5. Introduzione Esperimenti Clustering Affinamenti Sviluppi Futuri Riferimenti Word Embedding Come viene Implementato (in pratica) Una delle implementazioni pi`u diffuse `e contenuta all’interno di word2vec: toolkit implementato da Google e rilasciato per scopi di ricerca; implementa i modelli CSG e CBOW; scritto in C, ma con diversi wrapper disponibili da terze parti per altri linguaggi (Python, Java, ecc..); fornisce funzionalit`a di word embedding e word clustering; Luca Baronti Word Embedding e word2vec:Introduzione ed Esperimenti Preliminari
  • 6. Introduzione Esperimenti Clustering Affinamenti Sviluppi Futuri Riferimenti Esperimenti Svolti Per gli esperimenti `e stato usato un corpus costituito da una serie di frasi inglesi (≈17M di parole) a cui `e stata rimossa qualsiasi punteggiatura. anarchism originated as a term of abuse first used against early working class radicals including the diggers of the english revolution and the sans culottes of the french revolution ... Su questo `e stato eseguito un training di word2vec, durante il quale: (preprocessing) sono state riconosciute ed unite le multiword: new york → new york `e stata addestrata la rete neurale in modo che implementi la funzione di conversione f (w) basandosi sul contesto della parola w rispetto al testo fornito; sono stati generati dei clusters che racchiudono le parole pi`u simili (vicine nello spazio Rn ) tra loro; Luca Baronti Word Embedding e word2vec:Introduzione ed Esperimenti Preliminari
  • 7. Introduzione Esperimenti Clustering Affinamenti Sviluppi Futuri Riferimenti word2vec: Inside the Box f (cat) = [-0.11134078 0.04383085 0.14002474 -0.00074196 0.07315301 0.02389991 0.00035233 0.15971933 0.11484507 -0.09671068 0.04652358 -0.05458246 -0.05598487 -0.12167966 0.11768888 0.08552325 0.18600485 0.04761726 0.15063967 0.00659288 -0.11978753 -0.09371857 0.0008762 -0.24838321 0.02709502 -0.0825652 -0.08342774 -0.03579892 -0.02825222 0.22019249 -0.09768973 0.02078852 -0.29285535 0.02559453 -0.088859 -0.03527148 0.09159425 0.06531275 0.05503185 0.00685068 0.20773053 0.07941824 -0.01778516 -0.05104338 -0.05595061 -0.02772092 -0.08554953 -0.11792478 -0.05275105 -0.16732845 -0.00650281 -0.18185572 0.08001928 0.13519208 -0.01377966 -0.04257941 -0.04184306 0.06700175 0.08684982 -0.01686727 -0.0662585 0.11035646 -0.05546115 0.0222393 -0.05285819 -0.01276816 0.06395511 -0.06162843 -0.11211643 -0.12294994 0.07951023 -0.13375825 0.1051971 -0.04290687 -0.08603408 -0.04731709 -0.2139928 0.03048153 -0.00790223 0.02168602 -0.0376488 0.14825463 -0.05066469 0.02342289 -0.02835014 0.16291068 -0.07224877 -0.13152623 0.03056438 0.25988334 0.05614626 -0.08592609 -0.08454169 0.00090796 0.10815397 -0.12006436 -0.0053588 0.11610329 0.00848714 0.00412073] Luca Baronti Word Embedding e word2vec:Introduzione ed Esperimenti Preliminari
  • 8. Introduzione Esperimenti Clustering Affinamenti Sviluppi Futuri Riferimenti word2vec: Outside the Box Data una parola, ed un modello addestrato su un testo, `e possibile ricavare le parole pi`u simili: S(f (cat)) = {dog, cow, goat, bee, pig, pet, hamster, rabbit, rat} con le relative distanze (espresse in coseno): dog 0.87 cow 0.84 goat 0.84 bee 0.83 pig 0.82 pet 0.81 hamster 0.8 rabbit 0.78 rat 0.78 Luca Baronti Word Embedding e word2vec:Introduzione ed Esperimenti Preliminari
  • 9. Introduzione Esperimenti Clustering Affinamenti Sviluppi Futuri Riferimenti Algebra delle “parole” Dato che le parole vengono convertite in vettori, e che su questi viene implicitamente generata una metrica, `e possibile derivare in modo algebrico dei concetti nuovi, a partire da concetti noti. S (f (king) − f (man) + f (woman)) queen 0.29 empress 0.28 prince 0.27 son 0.27 heir 0.27 throne 0.27 monarch 0.27 wife 0.27 emperor 0.27 aragon 0.27 S (f (daughter) − f (woman) + f (man)) son 0.25 princess 0.24 grandson 0.24 consort 0.24 nephew 0.24 grandfather 0.24 eldest son 0.24 niece 0.23 cousin 0.23 brother 0.23 Luca Baronti Word Embedding e word2vec:Introduzione ed Esperimenti Preliminari
  • 10. Introduzione Esperimenti Clustering Affinamenti Sviluppi Futuri Riferimenti Clustering Le parole possono essere raggruppate, in base alla loro vicinanza, in un numero di clusters arbitrario. cat Pi`u Simili Meno Simili cat 1 rakesh 0.25 dog 0.87 daring 0.27 cow 0.84 crom 0.29 bee 0.83 mosaic 0.3 flu Pi`u Simili Meno Simili flu 1 clunies ross 0.12 ulcers 0.78 actinidia 0.26 encephalitis 0.78 subgenera 0.26 sclerosis 0.78 baby boom 0.27 Luca Baronti Word Embedding e word2vec:Introduzione ed Esperimenti Preliminari
  • 11. Introduzione Esperimenti Clustering Affinamenti Sviluppi Futuri Riferimenti Altri Esempi Le ideologie tendono ad essere raggruppate insieme.. communism Pi`u Simili Meno Simili communism 1 profit organization 0.13 socialism 0.89 res publica 0.21 fascism 0.88 corporatocracy 0.25 marxism 0.85 rose friedman 0.27 imperialism 0.84 ukusa 0.29 ....cos`ı come le persone. karl marx Pi`u Simili Meno Simili karl marx 1 profit organization 0.2 adam smith 0.85 operation iraqi 0.25 marx 0.84 operation enduring 0.26 proudhon 0.83 res publica 0.26 keynes 0.83 hostile 0.28 Luca Baronti Word Embedding e word2vec:Introduzione ed Esperimenti Preliminari
  • 12. Introduzione Esperimenti Clustering Affinamenti Sviluppi Futuri Riferimenti Frutta? Di fronte ad ambiguit`a, si `e osservato come il modello tenda, dove possibile, a far polarizzare la parola su un significato solo. orange Pi`u Simili Meno Simili orange 1 inconstant 0.2 purple 0.82 positronic 0.21 grey 0.78 bounty 0.22 pink 0.77 chain gang 0.23 green 0.74 wide shut 0.23 apple Pi`u Simili Meno Simili apple 1 howitzer 0.16 macintosh 0.78 amx 0.16 amd 0.78 codepage 0.16 apple computer 0.78 bit bytes 0.19 amiga 0.77 priced 0.19 Luca Baronti Word Embedding e word2vec:Introduzione ed Esperimenti Preliminari
  • 13. Introduzione Esperimenti Clustering Affinamenti Sviluppi Futuri Riferimenti Frutta!(?) A volte il modello presenta degli accostamenti di parole nello stesso cluster decisamente insoliti. banana Pi`u Simili Meno Simili banana 1 domiciles 0.13 liqueur 0.82 etc 0.2 vanilla 0.81 avocats 0.2 shrimp 0.8 multitude 0.25 jelly 0.8 tablets 0.28 juice 0.8 creatures 0.29 lime 0.8 genera 0.3 Luca Baronti Word Embedding e word2vec:Introduzione ed Esperimenti Preliminari
  • 14. Introduzione Esperimenti Clustering Affinamenti Sviluppi Futuri Riferimenti Distanza tra i Clusters Distanza tra i Clusters Dato che i clusters sono insiemi di punti, `e possibile calcolare i loro centroidi e valutare la distanza tra loro. Gli esperimenti eseguiti sul testo di esempio, hanno rilevato i seguenti clusters come i pi`u vicini: c1 c2 distanza (cos) 51 16 0.96 54 16 0.96 58 53 0.96 21 93 0.95 44 79 0.95 Luca Baronti Word Embedding e word2vec:Introduzione ed Esperimenti Preliminari
  • 15. Introduzione Esperimenti Clustering Affinamenti Sviluppi Futuri Riferimenti Affinamenti: Stop Words Il sistema lascia aperte alcune possibilit`a per affinamenti: In tutti i linguaggi esistono delle parole usate per dare struttura alla frase senza un significato semantico proprio (congiunzioni, ma non solo); Queste parole, chiamate stop words, sono comunque processate da word2vec generando potenzialmente del noise; Usando un dizionario contenente le stop words specifiche del linguaggio analizzato `e possibile identificare i clusters che le contengono; Risultati Dei 100 clusters prodotti nei nostri esperimenti, abbiamo rilevato 173 stop word in appena 24 clusters, segno di una dispersione limitata di questo tipo di parole, da parte del modello, sui clusters. Luca Baronti Word Embedding e word2vec:Introduzione ed Esperimenti Preliminari
  • 16. Introduzione Esperimenti Clustering Affinamenti Sviluppi Futuri Riferimenti Sviluppi Futuri Questi esperimenti svolti non coprono tutte le possibilit`a offerte dal word embedding. Possibili sviluppi futuri possono prevedere: l’eliminazione (a priori) delle stop words dal testo o (a posteriori) dei cluster che le includono; un’analisi incrociata pi`u approfondita tra i termini di clusters pi`u simili; la realizzazione di un grafo di “prossimit`a” a partire dai clusters o dalle parole pi`u vicine; l’analisi di testi in lingue diverse (italiano, latino, ecc..); Luca Baronti Word Embedding e word2vec:Introduzione ed Esperimenti Preliminari
  • 17. Introduzione Esperimenti Clustering Affinamenti Sviluppi Futuri Riferimenti Riferimenti Homepage del progetto google: https://code.google.com/p/word2vec/ Un esempio di applicazione di word2vec agli emoji: http://sentimentsymposium.com/SS2015/presentations/ 16July-ThursdayPM/33-Dimson-SAS15-16PM.pdf Letteratura di riferimento: Tomas Mikolov, Kai Chen, Greg Corrado, and Jeffrey Dean. Efficient Estimation of Word Representations in Vector Space. In Proceedings of Workshop at ICLR, 2013; Tomas Mikolov, Ilya Sutskever, Kai Chen, Greg Corrado, and Jeffrey Dean. Distributed Representations of Words and Phrases and their Compositionality. In Proceedings of NIPS, 2013; Tomas Mikolov, Wen-tau Yih, and Geoffrey Zweig. Linguistic Regularities in Continuous Space Word Representations. In Proceedings of NAACL HLT, 2013; Luca Baronti Word Embedding e word2vec:Introduzione ed Esperimenti Preliminari