SlideShare a Scribd company logo
Text Mining - ipotesi di analisi 10 ottobre 2015
TEXT MINING
Dal 26 al 30 settembre 2015 Bologna ha ospitato la fiera internazionale della
Ceramica per l’Architettura e l’arredo (cersaie.it). Ho seguito su Twitter l’evento e
mi sono chiesto quali fossero gli argomenti che gli utenti hanno trattato in rete. 

In un week-end ho prelevato i dati con NodeXL utilizzando come key l’hashtag ufficiale
#cersaie2015. Arco temporale 25 settembre - 3 ottobre. Questi i Valori:

• 997 vertici per oltre 21000 relazioni generate [Follows 15.642, Mentions 3.281, RT 117, Tweet
2.042] 

L’andamento dei post è tipico di un
evento di nicchia come quello in esame:
il 44% del volume è stato prodotto negli
ultimi due giorni dell’evento, con una
coda lunga “a morire” successivamente.
Altro elemento che si evince è l’assenza
di una campagna di teasing, a conferma
della settorialità del tema.

Come gli hashtag possono guidarci nelle conversazioni
Twitter: il canale
utilizzato per le
conversazioni
#Cersaie2015
Text Mining - ipotesi di analisi 10 ottobre 2015
Quali gli argomenti maggiormente trattati? La hit degli hashtag utilizzati durante l’evento
può fornire una idea molto grezza di quanto le discussioni hanno trattato, ma non
rappresentano una reale evidenza degli argomenti.

Una risposta può fornircela
l’applicazione del coefficiente di
Gini: tale indicatore offre una
misura della concentrazione di
v a r i a b i l i q u a n t i t a t i v e ,
restituendo la misura della
e t e r o g e n e i t à d i u n a
distribuzione statistica a partire
dalle frequenze ad essa
associata. Il range si muove tra
0 - 1 [0= equidistribuzione 1= concentrazione]

Lavorando sui 21 hashtag identificati e
sulle relative frequenze, otteniamo un
valore dell’indicatore pari a 0,67 che
denota una relativa concentrazione delle
conversazioni attorno ad alcuni hashtag.
Quello con concentrazione maggiore è #design

Selezionamo, quindi, tutte le conversazioni che #design - all’interno del
flusso madre #cersaie2015 - ha generato e le andiamo ad analizzare per
cercare di scoprire i trend argomentativi che le conversazioni hanno determinato.

Prima di procedere, effettuiamo una ulteriore analisi per capire le relazioni che
intercorrono tra tutti gli hashtag all’interno del flusso principale [#cersaie21015] e qui
abbiamo ulteriore conferma di quanto il coefficiente di GINI ci ha mostrato.

#Cersaie2015 - elenco
degli hashtag
maggiormente
utilizzati
“Coefficiente di
GINI come punto
di partenza di
una hashtag
analysis“
#Cersaie2015 - Curva
di Lorenz
Text Mining - ipotesi di analisi 10 ottobre 2015
L’analisi delle conversazioni #design
attraverso l’indice di Zipf restituisce il grafico
che interpola frequenza delle parole (numero
di parole e le volte che sono utilizzate) e il
rango, cioè la sequenza con cui le parole
vengono utilizzate (la posizione delle parole
all’interno della frase). Il grafico mostra come
esista un gran numero di parole di piccole
dimensioni, un numero medio di parole di medie dimensioni ed un piccolo numero di
parole di dimensioni grandi, la pendenza con la quale il fenomeno si presenta rappresenta
quanto velocemente si presenta questa diminuzione. In una struttura lessicale ci sono
sempre due tipologie di famiglie di parole:

• poche parole molto frequenti (articolo, preposizioni, congiunzioni etc.)

• molte parole a bassa frequenza: sono parole “piene” (es. verbi, nomi) molto informative
sul contenuto di un documento (nel nostro caso di una conversazione).

Ordinando per tipologia di parole piene, ecco un primo segnale: il verbo con maggiore
frequenza è dire.
Text Mining - ipotesi di analisi 10 ottobre 2015
L’insight che viene fuori è abbastanza
interessante: una conversazione per
“reinventare” l’interno dei treni Frecciarossa.
Non sto qui ad analizzare Reach ed impressions
(non è oggetto di questa ricerca), ma la cosa
interessante è come un ambiente stimolante
come quello di una fiera, possa essere
interpretato come un moodwall.

Il secondo verbo maggiormente utilizzato tra le
parole a bassa frequenza è presentare, per
certi versi un classico in una fiera. Analizzandola
non sono presenti volumi importanti: solo tweet che non hanno avuto
una eco in termini di coinvolgimento (RT).

Proseguiamo quindi l’analisi individuando i cluster (metodo Reinert) che
le conversazioni formano: ogni cluster rappresenta una tematica che può essere descritta

#Cersaie2015 -
Concordanza verbo
dire
#Cersaie2015 - Cluster
identificati
Text Mining - ipotesi di analisi 10 ottobre 2015
mappando i clustersu
utilizzando l’alberatura di
distribuzione, appaiono
evidenti le connessioni tra le
varie istanze. 

P e r a v e r e c o n f e r m a ,
utilizziamo il test ChiQuadro
per avere conferma sulla
distribuzione di probabilità
sulle variabile aleatorie dei
temi trattati.

La graficizzazione del test
ChiQuadro conferma quanto
anticipato dall’alberatura di
distribuzione, fornendo
ulteriori indicazioni sulle
conversazioni: l’hashtag
i d e n t i fi c a t o a t t r a v e r s o
l’indicatore di Gini, è il nodo dal quale si
dipanano le conversazioni, fino a
comprendere la quasi totalità delle
conversazioni prodotte.

In base a queste indicazioni andiamo ad
analizzare le singole conversazioni per
identificate i trend che, nell’ambito della
ceramica, sono stati evidenziati dagli
operato del settore.

#Cersaie2015 - Test
ChiQuadro
Text Mining - ipotesi di analisi 10 ottobre 2015


Due gli elementi che emergono:

• L’elemento della “sartorialità”, della
produzione fit for user appare più volte come
elemento qualificante, in particolare modo
nell’ambito dei rivestimenti a parete.

• L’elemento della creatività in termini di
“reinventare” lo status quo, nel suo significato
più allagato (non solo mi abito domus).





I trend individuati forniscono spunti ai brand sia in termini di argomenti da trattare ma,
soprattutto, in termini di prodotto e servizio. La Sartorialità, oltre a descrivere la più ovvia
declinazione in termini di personalizzazione, sta ad indicare - per me che non sono un
tecnico del settore - la capacità di poter esprimere personalità attraverso le varie
caratteristiche della materia: manualità ed innovazione viaggiano quindi a stretto contatto
per poter competere in modo significativo in questo settore: innovazione a tutto campo in
un mercato fortemente caratterizzato dalla natura industriale ed automatica dei processi
produttivi.
Text Mining - ipotesi di analisi 10 ottobre 2015


L’aspetto creativo, la capacità di reinventarsi viene espressa al meglio da Porcelanosa
che, con le sue maioliche dalle forme 3D e dai colori “out of the box” segna un
interessante cambio di passo interpretando al meglio la “voglia di colore”

Creatività espressa anche intervenendo sui tagli per restituire mosaici (per pavimenti e
rivestimenti) freschi e fuori dal comune.

Il fattore tagli è l’aspetto più nuovo
che si porta necessariamente dietro
un ulteriore fattore tecnico: lo
spessore.

Appare evidente, quindi, come
l’aspetto creativo possa incidere sulla
flessibilità del processo produttivo.
Text Mining - ipotesi di analisi 10 ottobre 2015
Per concludere l’analisi di text mining restituisce alcuni insight per i brand che vogliono
leggere il proprio mercato attraverso i big data:

• analizzare e classificare molte conversazioni

• approccio semantico per estrarre conoscenza dai dati

• guidare il monitoraggio delle conversazioni

More Related Content

PPS
Ocplab Analisi Testuale di Andrea Nobile
PDF
Dispensa Datajournalism | Maggio 2014 | school.dataninja.it
PDF
Tweet Analysis with Text Mining Algorithms
PDF
Survey On Text Mining
PDF
Indexing, vector spaces, search engines
PDF
OUTDATED Text Mining 4/5: Text Classification
PDF
Motori - Intelligenza Collettiva
PDF
Hackfood report
Ocplab Analisi Testuale di Andrea Nobile
Dispensa Datajournalism | Maggio 2014 | school.dataninja.it
Tweet Analysis with Text Mining Algorithms
Survey On Text Mining
Indexing, vector spaces, search engines
OUTDATED Text Mining 4/5: Text Classification
Motori - Intelligenza Collettiva
Hackfood report

Viewers also liked (20)

PDF
Umbria on the blog - storytelling
PPT
Tutela e prevenzione, come vendere on-line nel pieno rispetto della normativa
PPT
Birds1344 Who
PDF
TEDxVicenza Social Networking Analysis
PDF
Italia italiae
PDF
Ipotesi di analisi lista twitter
PDF
Social Networking Analysis MarketersFestival 2016
PPT
Brainstorming
PDF
TEDxPompeii Social Networking Analysis
PPT
Marketing non convenzionale: approccio
PDF
Document similarity with vector space model
PDF
#BereBasilicata al Vinitaly 2016
PDF
Essere brand
PDF
Web Marketing Festival 2016 visto con gli occhi dei BigData
PPTX
TEDxVicenza_2016_Social_Networking_Analysis
PPT
24hrs Camp Per Rome Camp 2008
PPT
Dr_Who's Words
PDF
#FoodPorn Community Detection
PDF
How can Big data accelerate CDN services ?
PPTX
Machine Learning with Applications in Categorization, Popularity and Sequence...
Umbria on the blog - storytelling
Tutela e prevenzione, come vendere on-line nel pieno rispetto della normativa
Birds1344 Who
TEDxVicenza Social Networking Analysis
Italia italiae
Ipotesi di analisi lista twitter
Social Networking Analysis MarketersFestival 2016
Brainstorming
TEDxPompeii Social Networking Analysis
Marketing non convenzionale: approccio
Document similarity with vector space model
#BereBasilicata al Vinitaly 2016
Essere brand
Web Marketing Festival 2016 visto con gli occhi dei BigData
TEDxVicenza_2016_Social_Networking_Analysis
24hrs Camp Per Rome Camp 2008
Dr_Who's Words
#FoodPorn Community Detection
How can Big data accelerate CDN services ?
Machine Learning with Applications in Categorization, Popularity and Sequence...
Ad

Text mining analysis: ipotesi operativa

  • 1. Text Mining - ipotesi di analisi 10 ottobre 2015 TEXT MINING Dal 26 al 30 settembre 2015 Bologna ha ospitato la fiera internazionale della Ceramica per l’Architettura e l’arredo (cersaie.it). Ho seguito su Twitter l’evento e mi sono chiesto quali fossero gli argomenti che gli utenti hanno trattato in rete. In un week-end ho prelevato i dati con NodeXL utilizzando come key l’hashtag ufficiale #cersaie2015. Arco temporale 25 settembre - 3 ottobre. Questi i Valori: • 997 vertici per oltre 21000 relazioni generate [Follows 15.642, Mentions 3.281, RT 117, Tweet 2.042] L’andamento dei post è tipico di un evento di nicchia come quello in esame: il 44% del volume è stato prodotto negli ultimi due giorni dell’evento, con una coda lunga “a morire” successivamente. Altro elemento che si evince è l’assenza di una campagna di teasing, a conferma della settorialità del tema. Come gli hashtag possono guidarci nelle conversazioni Twitter: il canale utilizzato per le conversazioni #Cersaie2015
  • 2. Text Mining - ipotesi di analisi 10 ottobre 2015 Quali gli argomenti maggiormente trattati? La hit degli hashtag utilizzati durante l’evento può fornire una idea molto grezza di quanto le discussioni hanno trattato, ma non rappresentano una reale evidenza degli argomenti. Una risposta può fornircela l’applicazione del coefficiente di Gini: tale indicatore offre una misura della concentrazione di v a r i a b i l i q u a n t i t a t i v e , restituendo la misura della e t e r o g e n e i t à d i u n a distribuzione statistica a partire dalle frequenze ad essa associata. Il range si muove tra 0 - 1 [0= equidistribuzione 1= concentrazione] Lavorando sui 21 hashtag identificati e sulle relative frequenze, otteniamo un valore dell’indicatore pari a 0,67 che denota una relativa concentrazione delle conversazioni attorno ad alcuni hashtag. Quello con concentrazione maggiore è #design Selezionamo, quindi, tutte le conversazioni che #design - all’interno del flusso madre #cersaie2015 - ha generato e le andiamo ad analizzare per cercare di scoprire i trend argomentativi che le conversazioni hanno determinato. Prima di procedere, effettuiamo una ulteriore analisi per capire le relazioni che intercorrono tra tutti gli hashtag all’interno del flusso principale [#cersaie21015] e qui abbiamo ulteriore conferma di quanto il coefficiente di GINI ci ha mostrato. #Cersaie2015 - elenco degli hashtag maggiormente utilizzati “Coefficiente di GINI come punto di partenza di una hashtag analysis“ #Cersaie2015 - Curva di Lorenz
  • 3. Text Mining - ipotesi di analisi 10 ottobre 2015 L’analisi delle conversazioni #design attraverso l’indice di Zipf restituisce il grafico che interpola frequenza delle parole (numero di parole e le volte che sono utilizzate) e il rango, cioè la sequenza con cui le parole vengono utilizzate (la posizione delle parole all’interno della frase). Il grafico mostra come esista un gran numero di parole di piccole dimensioni, un numero medio di parole di medie dimensioni ed un piccolo numero di parole di dimensioni grandi, la pendenza con la quale il fenomeno si presenta rappresenta quanto velocemente si presenta questa diminuzione. In una struttura lessicale ci sono sempre due tipologie di famiglie di parole: • poche parole molto frequenti (articolo, preposizioni, congiunzioni etc.) • molte parole a bassa frequenza: sono parole “piene” (es. verbi, nomi) molto informative sul contenuto di un documento (nel nostro caso di una conversazione). Ordinando per tipologia di parole piene, ecco un primo segnale: il verbo con maggiore frequenza è dire.
  • 4. Text Mining - ipotesi di analisi 10 ottobre 2015 L’insight che viene fuori è abbastanza interessante: una conversazione per “reinventare” l’interno dei treni Frecciarossa. Non sto qui ad analizzare Reach ed impressions (non è oggetto di questa ricerca), ma la cosa interessante è come un ambiente stimolante come quello di una fiera, possa essere interpretato come un moodwall. Il secondo verbo maggiormente utilizzato tra le parole a bassa frequenza è presentare, per certi versi un classico in una fiera. Analizzandola non sono presenti volumi importanti: solo tweet che non hanno avuto una eco in termini di coinvolgimento (RT). Proseguiamo quindi l’analisi individuando i cluster (metodo Reinert) che le conversazioni formano: ogni cluster rappresenta una tematica che può essere descritta #Cersaie2015 - Concordanza verbo dire #Cersaie2015 - Cluster identificati
  • 5. Text Mining - ipotesi di analisi 10 ottobre 2015 mappando i clustersu utilizzando l’alberatura di distribuzione, appaiono evidenti le connessioni tra le varie istanze. P e r a v e r e c o n f e r m a , utilizziamo il test ChiQuadro per avere conferma sulla distribuzione di probabilità sulle variabile aleatorie dei temi trattati. La graficizzazione del test ChiQuadro conferma quanto anticipato dall’alberatura di distribuzione, fornendo ulteriori indicazioni sulle conversazioni: l’hashtag i d e n t i fi c a t o a t t r a v e r s o l’indicatore di Gini, è il nodo dal quale si dipanano le conversazioni, fino a comprendere la quasi totalità delle conversazioni prodotte. In base a queste indicazioni andiamo ad analizzare le singole conversazioni per identificate i trend che, nell’ambito della ceramica, sono stati evidenziati dagli operato del settore. #Cersaie2015 - Test ChiQuadro
  • 6. Text Mining - ipotesi di analisi 10 ottobre 2015 Due gli elementi che emergono: • L’elemento della “sartorialità”, della produzione fit for user appare più volte come elemento qualificante, in particolare modo nell’ambito dei rivestimenti a parete. • L’elemento della creatività in termini di “reinventare” lo status quo, nel suo significato più allagato (non solo mi abito domus). I trend individuati forniscono spunti ai brand sia in termini di argomenti da trattare ma, soprattutto, in termini di prodotto e servizio. La Sartorialità, oltre a descrivere la più ovvia declinazione in termini di personalizzazione, sta ad indicare - per me che non sono un tecnico del settore - la capacità di poter esprimere personalità attraverso le varie caratteristiche della materia: manualità ed innovazione viaggiano quindi a stretto contatto per poter competere in modo significativo in questo settore: innovazione a tutto campo in un mercato fortemente caratterizzato dalla natura industriale ed automatica dei processi produttivi.
  • 7. Text Mining - ipotesi di analisi 10 ottobre 2015 L’aspetto creativo, la capacità di reinventarsi viene espressa al meglio da Porcelanosa che, con le sue maioliche dalle forme 3D e dai colori “out of the box” segna un interessante cambio di passo interpretando al meglio la “voglia di colore” Creatività espressa anche intervenendo sui tagli per restituire mosaici (per pavimenti e rivestimenti) freschi e fuori dal comune. Il fattore tagli è l’aspetto più nuovo che si porta necessariamente dietro un ulteriore fattore tecnico: lo spessore. Appare evidente, quindi, come l’aspetto creativo possa incidere sulla flessibilità del processo produttivo.
  • 8. Text Mining - ipotesi di analisi 10 ottobre 2015 Per concludere l’analisi di text mining restituisce alcuni insight per i brand che vogliono leggere il proprio mercato attraverso i big data: • analizzare e classificare molte conversazioni • approccio semantico per estrarre conoscenza dai dati • guidare il monitoraggio delle conversazioni