In vorige blogs heb ik nader toegelicht wat data science is en hoe het voor marketing waardevol kan zijn. Ook heb ik de rol van de data scientist, het proces van data science en de databronnen voor data science wat nader beschreven.
2. Marketing Intelligence voor Managers – Data Science Exploratory Analysis
Pg, 2
Deze blog is onderdeel van de themareeks ‘Management & BI’. De themareeks is bedoeld voor
managers die wat meer willen weten over Business Intelligence, maar dan alleen de essentie, in
begrijpelijke taal en zonder alle technische termen en hypes.
In vorige blogs heb ik nader toegelicht wat data science is en hoe het voor marketing waardevol
kan zijn. Ook heb ik de rol van de data scientist, het proces van data science en de databronnen
voor data science wat nader beschreven.
Interne en externe databronnen leveren data op. Data die de data scientist wellicht eerst eens wil
bekijken op eventueel verklarende verbanden. Daarom leek het me goed om deze keer eens te
kijken naar exploratieve data analyse. Anders gezegd: het analyseren van data om te onderzoeken
of daarin verbanden zijn te vinden.
Introductie
Exploratory Data Analysis (EDA) is een eerste stap in het bekijken van de geëxtraheerde en
schoongemaakte data. Meestal doe je dat door deze data visueel te maken in wat genoemd
worden: Exploratory Graphs.
Met exploratieve data analyse wil je een eerste indruk krijgen van de data door deze op
verschillende manieren aan elkaar te relateren. Het is mogelijk dat sommige ‘variabelen’ een
3. Marketing Intelligence voor Managers – Data Science Exploratory Analysis
Pg, 3
onderling verband laten zien en sommige juist niet. Met de gevonden verbanden tussen bepaalde
variabelen kun je dan proberen statistische modellen te vinden die het best aansluiten bij dat
mogelijke verband.
4. Marketing Intelligence voor Managers – Data Science Exploratory Analysis
Pg, 4
Principes van Exploratieve Data Analyse
In paar zaken zijn kenmerkend voor EDA:
• Vergelijkend onderzoek
Het vinden van bewijs voor een bepaalde hypothese is altijd relatief tegenover een alternatieve
hypothese. Je stelt je dus altijd de vraag: “maar vergeleken met wat dan?”. Binnen marketing
gebruik je daarvoor meestal een ‘control groep’. Bijvoorbeeld een groep prospects die niet wordt
blootgesteld aan bepaalde reclame-uitingen. Hiermee krijg je een soort ‘ceteris paribus’ (alle
andere omstandigheden gelijkblijvend). De control groep vertoont het ‘normale’ gedrag zonder de
invloed van prikkels. De target groep krijgt wel prikkels, waardoor je het resulterend gedrag
tussen target en control groep met elkaar kunt vergelijken.
• Causaliteit
Binnen EDA wordt altijd gezocht naar een mogelijke onderliggende verklaring van een
(ogenschijnlijk) verband. Je zoekt naar een oorzaak-gevolg relatie, naar een logisch verklarend
mechanisme of naar een systematische structuur. Veelal probeer je ‘tussenliggende’ variabelen te
vinden die hetzelfde verband laten zien en die bijdragen aan de logische verklaring van het
fenomeen.
5. Marketing Intelligence voor Managers – Data Science Exploratory Analysis
Pg, 5
• Multivariate data
De data scientist werkt meestal met meerdere variabelen tegelijkertijd, omdat er vaak meerdere
variabelen tegelijk van invloed kunnen zijn op het verband dat we proberen te vinden. Ook al
helpt de control/target-groep-constructie om één ‘onafhankelijke’ variabele beïnvloedend te laten
zijn, het is vrijwel onmogelijk om de werkelijke tegenwoordige wereld te temmen. Om ons heen
bestaan zoveel prikkels, dat het zeer onwaarschijnlijk is dat slechts één variabele zo netjes valt te
separeren. Daarom werkt de data scientist in veel gevallen met veel meer variabelen. Stel dat je
een jaar lang meet hoe een wekelijks geplaatste advertentie het aankoopgedrag van het
geadverteerde product beïnvloedt. Als je deze tegenover elkaar zet in een exploratieve grafiek
dan zou je een aflopend verband kunnen vinden en tot de conclusie kunnen komen dat die
advertentie geen positief effect heeft. Stel dat je diezelfde data eens in vier grafieken naast elkaar
zet voor elk van de vier seizoenen, dan kan het blijken dat alle seizoenen een stijgende verkoop
laten zien! Dus: houden, die advertentie. Je zal zeggen: “dat is onmogelijk”. Maar dat is niet zo!
Voor de liefhebbers: het is een voorbeeld van Simpson’s paradox (go check a funny youTube of
kijk even op Wikipedia). Feitelijk verstoort de variabele ‘seizoen’ (confounding variable) de relatie
tussen advertentie en koopgedrag. Daarom is het van belang om veel variabelen mee te nemen
als je verbanden probeert te ontdekken.
• Bewijsvoering
Bij EDA is het belangrijk om de bewijsvoering van je gevonden verbanden niet alleen als grafiek te
tonen met duidelijke labels, grootheden en gebruikte bronnen, maar om die te combineren met
6. Marketing Intelligence voor Managers – Data Science Exploratory Analysis
Pg, 6
beschrijvingen van de logica, in woorden, cijfers en plaatjes. Hierbij geldt: de analyse is zo sterk
als haar kwaliteit, relevantie en integriteit. Ook hier dus ‘content is king’.
Visualisatie van Exploratieve Data Analyse
Bij EDA wordt veel gebruik gemaakt van het visualiseren van data in zogenoemde ‘Exploratory
Graphs’. Dit zijn snel opgestelde ‘plots’ van tegenover elkaar gezette variabelen om patronen
inzichtelijk te maken. De toolbox van de data scientist kent daarvoor bijvoorbeeld in R, drie
algemeen gebruikte graphing-packages namelijk: base, lattice of ggplot2. Naast deze standaard
tools, kun je tegenwoordig echter ook gebruik maken van betaalde visualisatie-tools, zoals Tableau
of QlikSense.
Explorative graphing wordt niet gebruikt om resultaten te presenteren, maar om de eigenschappen
van je data te begrijpen, om patronen te vinden in de data, om suggesties te verkrijgen voor
manieren om de data te modelleren en om fouten uit je analyse te detecteren. Explorative graphs
worden dan ook quick & dirty gemaakt, als een soort try-out en je zal er tijdens de EDA-fase veel
van maken. Ze zijn bedoeld voor persoonlijk inzicht en ze worden niet fraai gemaakt voor
presentatie van de resultaten of voor communicatie.
Voor het weergeven van eendimensionale data worden meestal boxplots, histograms, density plots
of barplots gebruikt. Voor tweedimensionale data zijn dat meestal multiple 1D-plots of (smooth)
scatterplots. Meer dan twee dimensies doet de data scientist vaak in multiple 2D-plots, door het
7. Marketing Intelligence voor Managers – Data Science Exploratory Analysis
Pg, 7
variëren van grootte, kleur of vorm van de meetpunten of zelfs door spinning plots en echte 3D-
plots. Maar die laatste zijn in de praktijk minder bruikbaar.
Ben je nieuwsgierig naar de komende blogs over Marketing Intelligence? Abonneer je via
onderstaande knop dan op het thema ‘Management & BI’. Zodra er een nieuwe blog in de reeks
verschijnt, krijg je automatisch een seintje (per e-mail) met een link.
Laat hier een opmerking achter als je een bepaald onderwerp rond Marketing Intelligence wilt
aandragen. Dan kan het zomaar voorkomen dat jouw situatie of vraag in een dedicated blog binnen
de reeks wordt besproken.