Word Embedding e word2vec: Introduzione ed Esperimenti Preliminari

Introduzione Esperimenti Clustering Aﬃnamenti Sviluppi Futuri Riferimenti
Word Embedding e word2vec:
Introduzione ed Esperimenti Preliminari
Luca Baronti
baronti@netseven.it
July 30, 2015
Luca Baronti
Word Embedding e word2vec:Introduzione ed Esperimenti Preliminari

Word Embedding
Word Embedding: Una Definizione
Tecnica usata nel natural language processing per l’analisi di testi. Esegue
un addestramento su un testo di training per definire una funzione f (w)
f : V → Rn
in grado di associare ad una parola w ∈ V un vettore di reali di
dimesionalità arbitraria.
la dimensionalità è bassa rispetto al numero di parole del
vocabolario;
definisce automaticamente una metrica (parole simili corrispondono
a punti vicini nello spazio vettoriale);
permette l’addestramento unsupervised: per l’apprendimento è
sufficiente un testo sufficientemente grande (> 10M di parole)
non richiede modifiche dipendenti dal linguaggio del testo;
Luca Baronti

Word Embedding
Perch`e Word Embedding?
In Pratica
Questa tecnica fornisce uno strumento per creare collezioni di concetti
simili in modo automatico, su testi raw e senza competenze linguistiche
avanzate da parte dell’utente
ma...
per ottenere buone performance, necessita di testi molto grandi in
fase di apprendimento;
i testi devono comprendere il maggior numero di vocaboli possibili;
Luca Baronti

Word Embedding
Come viene Implementato
Alcune delle tecniche principali prevedono l’uso di reti neurali:
Continuos Skip-Gram (CSG);
Continuos Bag of Words (CBOW);
diverse varianti (hierarchical softmax);
tecniche di deep learning;
(ev) una o pi`u fasi di preprocessing (word2phrases);
...ma questi sono dettagli tecnici.
Luca Baronti

Word Embedding
Come viene Implementato (in pratica)
Una delle implementazioni più diffuse è contenuta all’interno di word2vec:
toolkit implementato da Google e rilasciato per scopi di ricerca;
implementa i modelli CSG e CBOW;
scritto in C, ma con diversi wrapper disponibili da terze parti per
altri linguaggi (Python, Java, ecc..);
fornisce funzionalità di word embedding e word clustering;
Luca Baronti

Esperimenti Svolti
Per gli esperimenti è stato usato un corpus costituito da una serie di frasi
inglesi (≈17M di parole) a cui è stata rimossa qualsiasi punteggiatura.
anarchism originated as a term of abuse first used against early
working class radicals including the diggers of the english revolution
and the sans culottes of the french revolution ...
Su questo è stato eseguito un training di word2vec, durante il quale:
(preprocessing) sono state riconosciute ed unite le multiword:
new york → new york
è stata addestrata la rete neurale in modo che implementi la funzione di
conversione f (w) basandosi sul contesto della parola w rispetto al testo
fornito;
sono stati generati dei clusters che racchiudono le parole
più simili (vicine nello spazio Rn
) tra loro;
Luca Baronti

word2vec: Inside the Box
f (cat) =
[-0.11134078 0.04383085 0.14002474 -0.00074196 0.07315301 0.02389991 0.00035233 0.15971933 0.11484507
-0.09671068 0.04652358 -0.05458246 -0.05598487 -0.12167966 0.11768888 0.08552325 0.18600485 0.04761726
0.15063967 0.00659288 -0.11978753 -0.09371857 0.0008762 -0.24838321 0.02709502 -0.0825652 -0.08342774
-0.03579892 -0.02825222 0.22019249 -0.09768973 0.02078852 -0.29285535 0.02559453 -0.088859 -0.03527148
0.09159425 0.06531275 0.05503185 0.00685068 0.20773053 0.07941824 -0.01778516 -0.05104338 -0.05595061
-0.02772092 -0.08554953 -0.11792478 -0.05275105 -0.16732845 -0.00650281 -0.18185572 0.08001928 0.13519208
-0.01377966 -0.04257941 -0.04184306 0.06700175 0.08684982 -0.01686727 -0.0662585 0.11035646 -0.05546115
0.0222393 -0.05285819 -0.01276816 0.06395511 -0.06162843 -0.11211643 -0.12294994 0.07951023 -0.13375825
0.1051971 -0.04290687 -0.08603408 -0.04731709 -0.2139928 0.03048153 -0.00790223 0.02168602 -0.0376488
0.14825463 -0.05066469 0.02342289 -0.02835014 0.16291068 -0.07224877 -0.13152623 0.03056438 0.25988334
0.05614626 -0.08592609 -0.08454169 0.00090796 0.10815397 -0.12006436 -0.0053588 0.11610329 0.00848714
0.00412073]
Luca Baronti

word2vec: Outside the Box
Data una parola, ed un modello addestrato su un testo, `e possibile
ricavare le parole pi`u simili:
S(f (cat)) = {dog, cow, goat, bee, pig, pet, hamster, rabbit, rat}
con le relative distanze (espresse in coseno):
dog 0.87
cow 0.84
goat 0.84
bee 0.83
pig 0.82
pet 0.81
hamster 0.8
rabbit 0.78
rat 0.78
Luca Baronti

Algebra delle “parole”
Dato che le parole vengono convertite in vettori, e che su questi viene
implicitamente generata una metrica, `e possibile derivare in modo
algebrico dei concetti nuovi, a partire da concetti noti.
S (f (king) − f (man) + f (woman))
queen 0.29
empress 0.28
prince 0.27
son 0.27
heir 0.27
throne 0.27
monarch 0.27
wife 0.27
emperor 0.27
aragon 0.27
S (f (daughter) − f (woman) + f (man))
son 0.25
princess 0.24
grandson 0.24
consort 0.24
nephew 0.24
grandfather 0.24
eldest son 0.24
niece 0.23
cousin 0.23
brother 0.23
Luca Baronti

Clustering
Le parole possono essere raggruppate, in base alla loro vicinanza, in un
numero di clusters arbitrario.
cat
Più Simili Meno Simili
cat 1 rakesh 0.25
dog 0.87 daring 0.27
cow 0.84 crom 0.29
bee 0.83 mosaic 0.3
flu
flu 1 clunies ross 0.12
ulcers 0.78 actinidia 0.26
encephalitis 0.78 subgenera 0.26
sclerosis 0.78 baby boom 0.27
Luca Baronti

Altri Esempi
Le ideologie tendono ad essere raggruppate insieme..
communism
communism 1 proﬁt organization 0.13
socialism 0.89 res publica 0.21
fascism 0.88 corporatocracy 0.25
marxism 0.85 rose friedman 0.27
imperialism 0.84 ukusa 0.29
....cos`ı come le persone.
karl marx
karl marx 1 proﬁt organization 0.2
adam smith 0.85 operation iraqi 0.25
marx 0.84 operation enduring 0.26
proudhon 0.83 res publica 0.26
keynes 0.83 hostile 0.28
Luca Baronti

Frutta?
Di fronte ad ambiguità, si è osservato come il modello tenda, dove
possibile, a far polarizzare la parola su un significato solo.
orange
orange 1 inconstant 0.2
purple 0.82 positronic 0.21
grey 0.78 bounty 0.22
pink 0.77 chain gang 0.23
green 0.74 wide shut 0.23
apple
apple 1 howitzer 0.16
macintosh 0.78 amx 0.16
amd 0.78 codepage 0.16
apple computer 0.78 bit bytes 0.19
amiga 0.77 priced 0.19
Luca Baronti

Frutta!(?)
A volte il modello presenta degli accostamenti di parole nello stesso
cluster decisamente insoliti.
banana
banana 1 domiciles 0.13
liqueur 0.82 etc 0.2
vanilla 0.81 avocats 0.2
shrimp 0.8 multitude 0.25
jelly 0.8 tablets 0.28
juice 0.8 creatures 0.29
lime 0.8 genera 0.3
Luca Baronti

Distanza tra i Clusters
Distanza tra i Clusters
Dato che i clusters sono insiemi di punti, `e possibile calcolare i loro
centroidi e valutare la distanza tra loro.
Gli esperimenti eseguiti sul testo di esempio, hanno rilevato i seguenti
clusters come i pi`u vicini:
c1 c2 distanza (cos)
51 16 0.96
54 16 0.96
58 53 0.96
21 93 0.95
44 79 0.95
Luca Baronti

Affinamenti: Stop Words
Il sistema lascia aperte alcune possibilità per affinamenti:
In tutti i linguaggi esistono delle parole usate per dare struttura alla
frase senza un significato semantico proprio (congiunzioni, ma non
solo);
Queste parole, chiamate stop words, sono comunque processate da
word2vec generando potenzialmente del noise;
Usando un dizionario contenente le stop words specifiche del
linguaggio analizzato è possibile identificare i clusters che le
contengono;
Risultati
Dei 100 clusters prodotti nei nostri esperimenti, abbiamo rilevato
173 stop word in appena 24 clusters, segno di una dispersione
limitata di questo tipo di parole, da parte del modello, sui clusters.
Luca Baronti

Sviluppi Futuri
Questi esperimenti svolti non coprono tutte le possibilità offerte dal word
embedding. Possibili sviluppi futuri possono prevedere:
l’eliminazione (a priori) delle stop words dal testo o (a posteriori) dei
cluster che le includono;
un’analisi incrociata più approfondita tra i termini di clusters più
simili;
la realizzazione di un grafo di “prossimità” a partire dai clusters o
dalle parole più vicine;
l’analisi di testi in lingue diverse (italiano, latino, ecc..);
Luca Baronti

Riferimenti
Homepage del progetto google: https://code.google.com/p/word2vec/
Un esempio di applicazione di word2vec agli emoji:
http://sentimentsymposium.com/SS2015/presentations/
16July-ThursdayPM/33-Dimson-SAS15-16PM.pdf
Letteratura di riferimento:
Tomas Mikolov, Kai Chen, Greg Corrado, and Jeffrey Dean. Efficient
Estimation of Word Representations in Vector Space. In Proceedings
of Workshop at ICLR, 2013;
Tomas Mikolov, Ilya Sutskever, Kai Chen, Greg Corrado, and Jeffrey
Dean. Distributed Representations of Words and Phrases and their
Compositionality. In Proceedings of NIPS, 2013;
Tomas Mikolov, Wen-tau Yih, and Geoffrey Zweig. Linguistic
Regularities in Continuous Space Word Representations. In
Proceedings of NAACL HLT, 2013;
Luca Baronti

Word Embedding e word2vec: Introduzione ed Esperimenti Preliminari

More Related Content

More from Net7 (20)

Word Embedding e word2vec: Introduzione ed Esperimenti Preliminari