R für Data Science und Machine Learning

Kursunterlagen
R für Data Science und Machine Learning
by Datamics, 2018

if, else und else if
Anweisungen
Eine Einführung
by Datamics, 2018

Die Syntax einer if Anweisung in R lautet:
if (Bedingung){
# Führe Code aus
} else {
# Code sofern die Bedingung zu FALSE führt
}
by Datamics, 2018if, else und else if Anweisungen

While Schleifen
Eine Einführung
by Datamics, 2018

Die Syntax
while (Bedingung){
# Führe diesen Code aus
# Solange die Bedingung erfüllt ist
}
by Datamics, 2018While Schleifen

For Schleifen
Eine Einführung
by Datamics, 2018

Die Syntax
for (temporäre_variable in Objekt){
# Führe für jeden Durchgang diesen Code aus
}
by Datamics, 2018For Schleifen

Funktionen in R
Eine Einführung
by Datamics, 2018

Die Syntax
Dabei fällt folgendes Format auf:
name_der_funktion ( input1, input2, ....)
Die Syntax dazu lautet wie folgt:
name_der_funktion <- function( param1, param2, ...){
# Code der ausgeführt wird
}
by Datamics, 2018Funktionen in R

Apply
Eine Einführung
by Datamics, 2018

Die Syntax
lapply() wird eine Funktion auf eine Liste oder einen Vektor anwenden:
lapply(X, FUNK, ...)
wobei X die Liste/der Vektor ist und FUNK die Funktion.
by Datamics, 2018Apply

Regular Expressions
Eine Einführung
by Datamics, 2018

Die Syntax
grepl(), ergibt einen logischen Wert, der angibt, ob das Muster
gefunden wurde
grep(), ergibt einen Vektor der passenden Indizes der gesuchten
Muster
by Datamics, 2018Regular Expressions

Grammatik von Grafiken
mit ggplot2
Eine Einführung
by Datamics, 2018

ggplot2
Was ist ggplot2?
• ggplot2 ist das am weitesten verbreitete Paket zur Daten
Visualisierung mit R
• Erstellt von Hadley Wickham
• Folgt einer “Grammatik der Grafiken“
• Baut auf einem Ebenen-Konzept auf
• Schauen wir uns diese Ebenen an!
by Datamics, 2018

ggplot2
Die Ebenen von ggplot2
• Die ersten 3 Ebenen sind Data, Aesthetics und Geometries
by Datamics, 2018

ggplot2
• library(ggplot2) # Library
• ggplot(data=mtcars) # Daten (noch keine Visualisierung)
by Datamics, 2018

ggplot2
• ggplot(data=mtcars, aes(x=mpg,y=hp)) # Daten und Aesthetics
by Datamics, 2018

ggplot2
• pl <- ggplot(data=mtcars, aes(x=mpg,y=hp)) # Daten und Aesthetics
• pl + geom_point()
by Datamics, 2018

ggplot2
• Die nächsten 3 Ebenen sind Facets, Statistics und Coordinates
by Datamics, 2018

ggplot2
• pl <- ggplot(data=mtcars, aes(x=mpg,y=hp)) + geom_point()
• Pl + facet_grid(cyl ~.)
by Datamics, 2018

ggplot2
• pl + facet_grid(cyl ~.) + stat_smooth()
by Datamics, 2018

ggplot2
• pl2 <- pl + facet_grid(cyl ~.) + stat_smooth()
• pl2 + coord_cartesian(xlim = c(15,25)
by Datamics, 2018

ggplot2
• Als letztes können wir unserer Grafik auch noch ein Theme als 7.
Ebene hinzufügen
• Wir werden viele der eingebauten Themes anschauen
by Datamics, 2018

ggplot2
Zusammenfassung
• ggplot2 bietet viele Optionen für viele Diagrammarten
• Die Hauptidee besteht darin Ebenen zu kombinieren
• Schauen wir uns nun an, wie wir das zur Daten Visualisierung nutzen
können
by Datamics, 2018

Machine Learning
Eine Einführung
by Datamics, 2018

Begleitende Literatur
• Durch unseren Kurs wird uns das Buch „Introduction to Statistical
Learning“ von Gareth James begleiten.
• Es gibt dieses Buch aktuell nur in der englischen Fassung vor, zählt
jedoch zu den am häufigsten genutzten Werken dieser Thematik
• Deshalb werden wir die wichtigsten Erklärungen in unseren
deutschen Videolektionen wiederholen
• Es ist kostenlos verfügbar:
• Sowohl auf der Homepage
• Als auch in den Ressourcen hier in Udemy
Machine Learning by Datamics, 2018

• Das Buch ist nicht notwendig, um dem Kurs folgen zu können.
• Es soll vielmehr eine zusätzliche Erklärung der mathematischen
Hintergründe dessen sein, was wir in unseren Lektionen besprechen
und lernen

• Schaue Dir zunächst die Kapitel 1 & 2 des Buchs an bevor wir mit dem
Machine Learning Teil weiter machen.

Was ist Machine Learning?
• Machine Learning oder auf Deutsch „Maschinelles Lernen“ ist eine
Methode der Daten Analyse, die die Bildung von analytischen
Modellen automatisiert
• Durch die Verwendung von Algorithmen, die iterativ von den Daten
lernen, erlaubt es Machine Learning einem Computer Einblicke und
Erkenntnisse zu erzeugen ohne zu wissen, wo er danach suchen soll

Wozu wird Machine Learning eingesetzt?
• Betrugserkennung
• Ergebnisse von Websuche
• Echtzeit Werbung auf Webseiten
• Scoring der Kreditwürdigkeit
• Predictive Maintenance
• Neue Pricing-Modelle
• Erkennung von Netzwerk-
Eindringlingen
• Empfehlungssysteme
• Kundensegmentierung
• Analyse von Stimmungen in
Texten
• Vorhersage von
Kundenfluktuation
• Muster- und Bildererkennung
• Spam-Filter für E-Mails
• Finanzmodelle

Machine Learning Prozess
Machine Learning
Daten
Bereinigung
Daten
Akquisition
Modell
Training
Modell
Tests
Modell
Einsatz
Test
Daten
by Datamics, 2018

Machine Learning Algorithmen
• Es gibt hauptsächlich 3 Arten von Machine Learning Algorithmen
• Supervised Learning
• Unsupervised Learning
• Reinforcement Learning
• Lasst uns alle drei kurz besprechen bevor wir uns weitere Details
anschauen!

Machine Learning Algorithmen
• Supervised Learning
• Wir haben gekennzeichnete Daten und versuchen diese Kennzeichnung
anhand von bekannten Features vorherzusagen
• Unsupervised Learning
• Wir haben keine Kennzeichnung unserer Daten und versuchen Gruppen von
Daten Punkten zu finden, die sich hinsichtlich bestimmter Features ähnlich
sind
• Reinforcement Learning
• Algorithmen lernen eine Bestimmte Aufgabe auszuführen indem sie
Erfahrung sammeln

Supervised Learning
• Wir haben gekennzeichnete Daten und versuchen diese
Kennzeichnung anhand von bekannten Features vorherzusagen
• Zum Beispiel könnten Bauteile einer Maschine mit “D“ (defekt) oder
„F“ (funktionstüchtig) gekennzeichnet sein
• Der lernende Algorithmus erhält einen Satz Input mit dem korrekten
Output dazu und lernt dazu indem er seinen tatsächlichen Output mit
dem korrekten (erwarteten) Output vergleicht
• Dann verbessert sich das Modell entsprechend

Supervised Learning
• Durch Methoden wie die Regression nutzt Supervised Learning
Muster, um die Kennzeichnung ungekennzeichneter Daten zu
bestimmen
• Supervised Learning wird häufig in Anwendungen verwendet, in
denen aus historischen Daten eine Aussage über die zukünftigen
Daten getroffen werden soll
• Zum Beispiel kann so bestimmt werden ob Kreditkarten-
Transaktionen betrügerisch sind oder welcher Versicherungskunde
vermutlich einen Fall geltend machen wird
• Oder wir können den Preis eine Hauses anhand bestimmter
Eigenschaften vorhersagen

Unsupervised Learning
• Wir haben keine Kennzeichnung unserer Daten und versuchen
Gruppen von Daten Punkten zu finden, die sich hinsichtlich
bestimmter Features ähnlich sind
• Dem System wird also keine „richtige“ Antwort geliefert. Der
Algorithmus muss sie selbst finden.
• Das Ziel ist die Erkundung der Daten und das Finden von
zugrundeliegenden Mustern.

Unsupervised Learning
• Oder es können beispielsweise die wichtigsten Merkmale gefunden
werden, die Kundensegmente voneinander unterscheiden.
• Häufige Methoden verwenden selbst-organisierende Maps, Nearest-
Neighbor Mapping, K-Means Clustering usw.
• Diese Algorithmen werden auch genutzt um Text-Themen zu
segmentieren, Produkte zu empfehlen oder Ausreißer in Daten zu
identifizieren.

Reinforcement Learning
• Wird im deutschen auch Bestärkendes Lernen oder Verstärkendes
Lernen genannt.
• Steht für eine Reihe von Methoden des Maschinellen Lernens, bei
denen ein Agent selbständig eine Strategie erlernt, um erhaltene
Belohnungen zu maximieren.
• Es wird häufig für Roboter, im Bereich Gaming oder zur Navigation
eingesetzt
• Mit Reinforcement Learning entdeckt der Algorithmus durch trial-
and-error welche Aktionen die besten Ergebnisse liefern

Reinforcement Learning
• Dieses Lernkonzept besteht aus drei primären Bestandteilen:
• Dem Agenten: der Lernende oder Entscheidungstreffende
• Der Umgebung: alles womit der Agent interagiert
• Den Aktionen: alles was der Agent tun kann
• Das Ziel für den Agenten ist es seine Aktionen so zu wählen, dass die
erwartete Belohnung innerhalb einer bestimmten Zeit maximiert wird
• Dieses Ziel erreicht er schließlich durch eine gute „Vorgehensweise“
• Das übergeordnete Ziel ist die Identifikation der besten
Vorgehensweise

Machine Learning in diesem Kurs
• Jeder Algoritmus im Machine Learning Block wird folgendes
beinhalten:
• Optionale Lese-Hausaufgabe im ISLR-Buch
• Kurze Erklärung der Theorie
• Demonstrations-Lektion mit Python
• Machine Learning Projekt Aufgaben
• Übersicht der Lösung zum Projekt
• Schauen wir uns dazu kurz die Notebooks im nbviewer an!

Abschließende Bemerkungen
• Machine Learning zu lernen braucht Zeit
• Die zugrundeliegenden mathematischen Grundlagen können beim
Verständnis sehr hilfreich sein
• Seid geduldig mit euch selbst und postet gerne Fragen im Fragen &
Antworten Forum des Kurses
• Kein einzelner Kurs kann alle Aspekte des Machine Learning
abdecken, da es sehr häufig auf den konkreten Fall ankommt. Sehr
gerne werde ich versuchen euch in die richtige Richtung zu weisen.

Lineare Regression
Eine Einführung
by Datamics, 2018

Mathematischer Hintergrund
• Kapitel 2 & 3 im ISLR-Buch
Lineare Regression by Datamics, 2018

Geschichtlicher Hintergrund
• Alles begann in den 1800er Jahren mit Francis Galton
• Galton untersuchte die Beziehung zwischen Eltern und ihren Kindern
• Insbesondere untersuchte er den Zusammenhang zwischen der
Größe des Vaters mit der des Sohnes
• Er fand heraus, dass ein Sohn ungefähr so groß wie sein Vater war,
plus minus einige Zentimeter
• Sein Durchbruch war jedoch die Entdeckung, dass die Größe des
Sohns näher mit der durchschnittlichen Größe aller Leute
zusammenhängt, als mit der des Vaters

Beispielhafte Veranschaulichung
• Der Basketballspieler Shaquille O‘Neal ist 2,16 Meter groß.
• Sein Sohn wird wahrscheinlich auch relativ groß sein.
• Da Shaq aber selbst schon „außergewöhnlich“ groß (deutlich über
dem Durchschnitt) ist, gibt es eine hohe Wahrscheinlichkeit dafür,
dass sein Sohn nicht genau so groß wie er sein wird
• Und tatsächlich ist sein Sohn ebenfalls relativ groß: 2 Meter
• Galton nannte dieses Phänomen Regression:
• „A father‘s son‘s height trends to regress (or drift towards) the mean
(average) height.“

Beispielhafte Berechnung
• Das einfachste mögliche Beispiel:
• Eine Regression zwischen nur 2
Datenpunkten
Lineare Regression
0
0,5
1
1,5
2
2,5
3
3,5
4
4,5
0 1 2 3 4 5
by Datamics, 2018

• Alles was wir versuchen, wenn
wir unsere Regressionslinie
einzeichnen, ist sie so zu
zeichnen, dass sie so nah wie
möglich an allen Punkten liegt
• Für die klassische lineare
Regression oder „Kleinste
Quadrate Methode“ messen wir
nur die Nähe in die Richtungen
„hoch und runter“
Lineare Regression
0
0,5
1
1,5
2
2,5
3
3,5
4
4,5
0 1 2 3 4 5
by Datamics, 2018

• Wäre es nicht toll wir könnten
das auch für mehr als zwei
Punkte anwenden?
• So könnten wir einem Mann die
wahrscheinliche Größe seines
zukünftigen Sohnes vorhersagen,
noch bevor er geboren wurde.
• Dafür gibt es verschiedene
Methoden, doch alle minimieren
die Distanz zwischen Punkten
und Linie
Lineare Regression
Größe des Vaters
GrößedesSohns by Datamics, 2018

• Die häufigste Methode ist die
„Least Squares Method“
(Methode der kleinsten
Quadrate oder kurz KQ-
Methode)
• Wir haben wie im gezeigten
Beispiel viele blaue Datenpunkte

• Durch diese Datenpunkte legen
wir eine lineare Regressionslinie
hindurch
• Dabei ist die Frage wie man die
beste Linie findet?

• Um zu erfahren welche die beste
Linie ist minimieren wir die
Summe der Quadrierten
Residuen
• In unserem Beispiel rechts
werden diese Residuen durch die
Linien zwischen Punkten und der
Regressionslinie dargestellt

K Nearest Neighbors
Eine Einführung
by Datamics, 2018

• Der weitere Teil des Kapitels 4 (ab 4.4) im ISLR-Buch gibt einen
tieferen Einblick in die Thematik
K Nearest Neighbors by Datamics, 2018

KNN (K Nearest Neighbors)
• K Nearest Neighbors (Nächste-Nachbarn-Klassifikation) ist ein
Klassifizierungsalgorithmus der auf einem sehr einfachen Prinzip
beruht.
• Dieses wird am besten durch ein Beispiel veranschaulicht!
• Stellt euch vor wir hätten Daten zu Hunden und Pferden, mit
Körpergröße (Höhe) und Gewicht.

KNN
K Nearest Neighbors
Rot: Pferd
Blau: Hund
Neuer Datenpunkt:
Ist es ein Hund oder ein Pferd?
Neuer Datenpunkt:
Neuer Datenpunkt:
Pferd vs Hund
Gewicht (lbs)
Größe(ft)
by Datamics, 2018

Algorithmus
Trainingsalgorithmus:
• Speichere alle Daten
Vorhersagealgorithmus:
• Berechne die Distanz von x zu allen Punkten in den Daten
• Sortiere die Punkte nach zunehmender Distanz zu x
• Sage die mehrheitliche Kategorie der „k“ nähesten Punkte voraus

KNN
Die Wahl von “k“ beeinflusst die Klasse zu der x zugeordnet wird.

Vorteile
• Sehr einfach
• Training ist trivial
• Funktioniert mit jeder Anzahl an Klassen
• Einfach neue Daten hinzuzufügen
• Wenige Parameter
• K
• Distanzwert

Nachteile
• Hohe Vorhersagekosten (schlecht für große Datensätze)
• Nicht gut für hochdimensionale Daten
• Kategorische Eigenschaften lassen sich schlecht berücksichtigen

Entscheidungsbäume
Eine Einführung
by Datamics, 2018

• Kapitels 8 im ISLR-Buch gibt einen tieferen Einblick in die Thematik
Tree Methods by Datamics, 2018

Beispiel
• Beginnen wir mit einem schwierigen Experiment, um die Motivation
hinter der Entscheidungsbaum Methode zu verstehen

Beispiel
• Stellt euch vor ich spiele jeden Samstag Tennis und lade dazu immer
einen Freund ein.
• Manchmal taucht meine Freund auf, manchmal nicht.
• Für ihn liegt das an verschiedenen Faktoren wie z.B. das Wetter, die
Temperatur, die Luftfeuchtigkeit, der Wind usw.
• Ich habe damit begonnen festzuhalten, ob er auftaucht oder nicht
und welche Bedingungen jeweils vorliegen.

Bedingungen

Baumstruktur
Tree Methods
• Ich möchte diese Daten
verwenden, um
vorherzusagen, ob er
auftauchen wird oder nicht.
• Ein intuitiver Weg das zu tun
ist ein Entscheidungsbaum
(Decision Tree).
by Datamics, 2018

Baumstruktur
Tree Methods
• In diesem Baum (en. Tree)
haben wir:
• Knoten (Nodes)
• Teilen sich für einen Bestimmten
Wert des Attributs auf
• Kanten (Edges)
• Ergebnis einer Aufteilung zum
nächsten Node
by Datamics, 2018

Baumstruktur
Tree Methods
• In diesem Baum (en. Tree)
haben wir:
• Wurzel (Root)
• Erste Knoten, der eine Aufteilung
durchführt
• Blätter (Leaves)
• Letzte Knoten, die das Ergebnis
vorhersagen
by Datamics, 2018

Herleitung der Aufteilungen
Tree Methods
• Stellen wir uns die folgenden Daten mit 3 Features (X, Y und Z) vor
und zwei möglichen Klassen:
by Datamics, 2018

Tree Methods
• Nach Y aufzuteilen gibt uns eine klare Trennung zwischen den Klassen
by Datamics, 2018

Tree Methods
• Wir hätten auch nach den anderen Features aufteilen können:
Erste Aufteilung
by Datamics, 2018

Tree Methods
• Die Entropie und der Informationsgewinn sind die mathematischen Methoden,
die bei der Auswahl des besten ersten (bzw. nächsten) Splits helfen:
Weiterführende Erklärungen sind im ISLR-Buch!
by Datamics, 2018

Random Forests
• Um die Performance zu verbessern können wir viele Bäume mit
zufälligen Stichproben (mit zurücklegen) der Features als Split nutzen.
• Eine neue zufällige Stichprobe von m Features wird für jeden
einzelnen Split jedes einzelnen Baumes gewählt.
• Zur Klassifizierung wird m meist als Quadratwurzel von p gewählt.

Random Forests
• Warum machen wir das?
• Nehmen wir an es gibt ein sehr starkes Feature im Datensatz. Wenn wir dann
die „bagged“ Trees verwenden, werden die meisten Bäume dieses Feature als
ersten Split wählen, was zu einer Zusammenstellung von vielen gleichen
Bäumen führt. Diese sind stark korreliert.
• Einen Durchschnitt über stark korrelierte Mengen zu bilden verringert die
Varianz nicht signifikant.
• Durch die zufällige Auswahl bzw. Nicht-Auswahl von Features für jeden Split,
können Random Forests die Entscheidungsbäume „dekorrelieren“. Dadurch
kann der Prozess der Durchschnittsbildung die Varianz im Ergebnismodell
reduzieren.

K-Means Clustering
Eine Einführung
by Datamics, 2018

K Means Clustering by Datamics, 2018

K-Means Clustering
• Das K-Means Clustering ist ein Unsupervised Learning
(Unüberwachtes Lernen) Algorithmus der versucht ähnliche Cluster
der Daten zu bilden.
• Wie kann so ein Cluster Problem aussehen?
• Ähnliche Dokumente gruppieren
• Kunden anhand von Eigenschaften gruppieren
• Marktsegmentation
• Identifizierung physisch gleicher Gruppen

K-Means Clustering
• Das übergeordnete Ziel ist es die Daten in distinkte Gruppen
einzuteilen, so dass die Beobachtungen innerhalb einer Gruppe
ähnlich sind.

K-Means Clustering
• K-Means Algorithmus
• Wähle eine Anzahl an Clustern „K“
• Ordne jede Beobachtung zufällig einem Cluster zu
• Wiederhole die folgenden Schritte, bis sich die Cluster nicht mehr verändern:
• Berechne den Mittelpunkt jedes Clusters
• Ordne jeden Punkt dem Cluster zu, zu dessen Mittelpunkt der geringste Abstand besteht

K Means Clustering
• Schauen wir uns einige Wiederholungen dieser Schritte an:

Einen K Wert wählen

Einen K Wert wählen
K Means Clustering
• Es gibt keine leichte Antwort auf die Frage nach dem besten „K“
• Ein Weg ist die „Elbow“ oder Ellenbogen-Methode, die wir schon
kennen
by Datamics, 2018

Elbow-Methode
K Means Clustering
• Als erstes berechnen wir die Summe
der Squared Errors (SSE) für einige k-
Werte (zum Beispiel 2,4,6,8, ...)
• Der SSE wird definiert als die Summe
der Squared Distance zwischen jeden
Punktes des Clusters und seinem
Zentrums.
by Datamics, 2018

Elbow-Methode
K Means Clustering
• Wenn wir dann K gegen die SSE in ein
Diagramm bringen können wir sehen
wie der Error mit steigendem K
abnimmt. Das liegt daran, dass die
Anzahl an Clustern zunimmt
• Wählen wir so viele Cluster wie wir
Beobachtungen haben, dann landen
wir zwar bei 0, haben aber keinen
Informationsgewinn mehr.
by Datamics, 2018

Elbow-Methode
K Means Clustering
• Die Elbow-Methode empfiehlt
den K-Wert zu wählen, an dem
die SSE „abrupt“ abnimmt
• Dieses Abnehmen führt zum
„Elbow“, dem Ellbogen im
Graph
by Datamics, 2018

Support Vector Machines
Eine Einführung
by Datamics, 2018

Support Vector Machines by Datamics, 2018

Übersicht
• Support Vector Machines (SVMs) sind Supervised Learning
Algorithmen, die Daten analysieren und versuchen die
zugrundeliegenden Muster in den Daten zu erkennen, die zur
Klassifizierung und Regressionsanalyse genutzt werden.

• Gegeben ist ein Set an Trainingsdaten, in dem jede Beobachtung zu
einer von zwei Klassen/Kategorien zugeordnet ist.
• Ein SVM Algorithmus bildet ein Modell, dass neue Beobachtungen in
eine der Kategorien einordnet. Somit ist es ein nicht-probabilistischer
binärer Klassifizierer

• Ein SVM Modell ist eine Repräsentation der Beobachtungen im Raum,
die so platziert werden, dass die klare Lücke zwischen den Gruppen
möglichst groß wird.
• Neue Beobachtungen werden dann im selben Raum platziert und
deren Zugehörigkeit zu einer der beiden Kategorien vorhergesagt.
Dabei dient ihre räumliche Position auf einer der Seiten der Lücke als
Grundlage.

• Schauen wir uns die grundlegende Intuition dahinter anhand eines
Beispiel an. Die klassifizierten Trainingsdaten wurden anhand zweier
Eigenschaften wie folgt platziert:

• Wir können eine „Hyperebene“ zwischen die beiden Klassen legen.

• Allerdings kommen viele „Hyperebenen“ in Frage

• Wir suchen „Hyperebenen“ die den Bereich zwischen den beiden Klassen
maximiert
• Die Vektoren, die die Grenzlinien berühren sind als Support Vectors bekannt ->
Daher der Name

• Wir können diese Idee auf nicht-linear trennbare Daten übertragen.
Dazu verwenden wir den „Kern-Trick“.

• Durch hinzufügen einer weiteren Dimension erhalten wir unsere
Hyperebene.

• Wir werden anschließend ein Beispiel durchgehen und Support
Vector Machines nutzen, um zu verstehen, ob ein Tumor gutartig oder
bösartig ist.
• Darauf folgt ein Projekt für euer persönliches Machine Learning
Portfolio. Dazu verwenden wir den berühmten Iris (dt. Lilie) Datensatz
• Danach lernen wir noch, wie wir unsere Modelle durch das
GridSearch-Verfahren verbessern können.

Natural Language Processing
mit R
by Datamics, 2018

Natural Language Processing mit R
• Das Übungsheft ist im Machine Learning als Unterverzeichnis des R
Verzeichnisses.
• Installiere die benötigten R Pakete
• Richte einen Twitter-Account und eine Twitter-App ein
• Gehe zum RStudio und beginne die NLP Analyse mit Tweets!
Natural Language Processing by Datamics, 2018

Einführung in
Neuronale Netzwerke
by Datamics, 2018

Neuronales Netz
Die künstlichen neuronalen Netze haben ein biologisches Vorbild. Man stellt
sie den natürlichen neuronalen Netzen gegenüber, welche
Nervenzellvernetzungen im Gehirn und im Rückenmark bilden. Bei KNNs
geht es jedoch mehr um eine Abstraktion (Modellbildung) von
Informationsverarbeitung.
• Einsatzgebiete:
• Mustererkennung
• Bilderkennnung
• Vorhersagen bei Zeitreihen
• Signalerkennung
• Anomalie Erkennung
• Autonomes Fahren
Neuronale Netzwerke und Deep Learning by Datamics, 2018

Neuronales Netz
Das menschliche Gehirn hat miteinander verbundene Neuronen mit
“dentrites” die den Input erhalten und basierend auf diesen Input, wird
ein elektrisches Output-Signal durch das “axon” erzeugt.

Neuronales Netz
Es gibt Problemstellungen die für Menschen schwierig zu lösen sind
aber für Computer einfach zu lösen sind
• Z.B. die Berechnung eines großen arithmetischen Problems
Dann gibt es Problemstellungen die für Menschen leicht zu lösen sind,
aber für Computer schwer zu lösen sind
• Z.B. Erkennen einer Person von der Seite in einem Bild

Neuronales Netz
Neuronale Netzwerke versuchen diese Probleme, die für Menschen
leicht sind und für Computer schwer sind, zu lösen.
Schauen wir uns ein einfaches Neuronales Netzwerk an, dem
Perzeptron (nach engl. perception, „Wahrnehmung“).

Perceptron
Ein Perceptron besteht aus einem oder mehreren Eingaben (Inputs),
einem Prozessor und einer einzigen Ausgabe (Output).
Ein Perceptron folgt dem „feed-forward“ model, die Inputs werden an
das Neuron gesand, sie werden verarbeitet (processed) und enden als
ein Output.
Neuronale Netzwerke und Deep Learning
Input 0
Input 1
OutputProcessor
by Datamics, 2018

Perceptron
Ein Perceptron Prozess hat 4 Hauptschritte:
1. Empfängt den Input
2. Gewichtung des Input
3. Summiert den Input
4. Generiert den Output
Input 0
Input 1
OutputProcessor
by Datamics, 2018

Perceptron Beispiel: Input
Nehmen wir ein Perceptron mit 2 Eingabewerte an:
Input 0: x1 = 12
Input 1: x2 = 4
Input 0
Input 1
OutputProcessor
by Datamics, 2018

Perceptron Beispiel: Weight
Jeder Eingabewert der zum Neuron gesendet wird, muss zuerst die
Gewichtung bestimmt werden. Z.B. multipliziert mit einen Wert
zwischen -1 und 1.
Input 0
Input 1
OutputProcessor
Weight x
Weight y
by Datamics, 2018

Wenn wir ein Perceptron anlegen, werden wir zunächst zufällige
Gewichte zuweisen.
Weight 0: 0.5
Weight 1: -1
Input 0
Input 1
OutputProcessor
Weight x
Weight y
by Datamics, 2018

Danach nehmen wir jeden Input und multiplizieren diesen mit seinem
Gewicht.
Input 0 * Weight 0 => 12 * 0.5 = 6
Input 1 * Weight 1 => 4 * -1 = -4
Input 0
Input 1
OutputProcessor
Weight x
Weight y
by Datamics, 2018

Perceptron Beispiel: Activation Function
Die Ausgabe des Perceptron wird generiert indem die Summe durch
eine „Aktivierungsfunktion“ (activation function) aufgerufen wird. Im
Falle einer einfachen binären Ausgabe, meldet die Aktivierungsfunktion
an das Perzeptron „feuern“.
Input 0
Input 1
OutputProcessor
Weight x
Weight y
by Datamics, 2018

Perceptron Beispiel: Activation Function
Es gibt viele Aktivierungsfunktionen die man auswählen kann, z.B.
Logitic, Trigonometric, Step. Nehmen wir eine einfache
Aktivierungsfunktion, wenn die Summe eine positive Zahl ist, dann ist
die Ausgabe 1 und wenn die Zahl negativ ist, dann ist die Ausgabe -1.
Input 0
Input 1
OutputProcessor
Weight x
Weight y
by Datamics, 2018

Perceptron Beispiel: Bias
Zusätzlich müssen wir noch den Bias berücksichtigen. Stell dir vor,
beide Eingaben wären gleich 0, dann wäre jede Summe aus der
Multiplikation mit den Gewicht auch in jeden Fall 0!
Input 0
Input 1
OutputProcessor
Weight x
Weight y
by Datamics, 2018

Perceptron Beispiel: Bias
Um dieses Problem zu verhindern, fügen wir einen dritten Input „Bias“
hinzu. Diesem geben wir den Wert 1 damit das Ergebnis nicht 0 wird.
Input 0
Input 1 OutputProcessor
Weight x
Weight y
bias
Weight bias
by Datamics, 2018

Perceptron Beispiel: Train
Um das Perceptron zu trainieren gehen wir durch die folgenden
Schritte:
1. Stelle dem Perceptron Eingabewerte bereit für die es eine bekannte Antwort
gibt.
2. Rufe das Perceptron auf um eine vermutete Antwort zu geben
3. Berechne den Fehler (Wie weit ist das Ergebnis von dem richtigen Wert?)
4. Passe die Gewichte gemäß dem Fehler an.
5. Wiederhole den Prozess ab Schritt 1

Neuronales Netzwerk
Wir wiederholen den Prozess bis wir eine Fehlerrate erhalten mit der wir zufrieden
sind. Dabei definieren wir die Fehlerrate schon vorab.
Jetzt haben wir gesehen wie ein einzelnes Perceptron arbeitet, für ein Neuronales
Netzwerk musst du nur noch viele Perceptrons miteinander zu Schichten
verbinden.

Neuronales Netzwerk
Wir haben ein Input Layer (Schicht) und ein
Output Layer. Alle Layer dazwischen werden
„hidden layers“ genannt, da du nur die Input und
Output Layer direkt siehst.

Deep Learning
Deep Learning ist ein Neurales Netzwerk mit vielen Hidden Layers, die es dann
tief (deep) machen. Zum Beispiel verwendet eine aktuelle Microsoft Video
Erkennung 152 layers.

Verwende den Gutschein „SLIDESHARE2018“ auf Udemy oder die
Shortlinks und erhalte unsere Kurse für nur 10,99€ (95% Rabatt).
Python für Data Science und Machine Learning: https://goo.gl/cE7TQ3
Original Python Bootcamp - Von 0 auf 100: https://goo.gl/gjn7pX
R für Data Science und Machine Learning: https://goo.gl/8h5tH7
Exklusive Gutscheine
Udemy-Kurse by Datamics, 2018https://www.udemy.com/user/rene-brunner/

R für Data Science und Machine Learning

Weitere ähnliche Inhalte

Ähnlich wie R für Data Science und Machine Learning (11)

Mehr von Datamics (16)

R für Data Science und Machine Learning