Reti neurali

Ricordiamo che Esercizi incrociati sulle caratteristiche nel modulo Dati categoriali, che il seguente problema di classificazione non è lineare:

Figura 1. Piano cartesiano delle coordinate, diviso in quattro
      quadranti, ciascuno riempito di punti casuali a forma di
      quadrato. I punti nei quadranti in alto a destra e in basso a sinistra sono blu,
      e i punti nei quadranti in alto a sinistra e in basso a destra sono arancioni.
Figura 1. Problema di classificazione non lineare. Una funzione lineare non può separa in modo pulito tutti i pallini blu da quelli arancioni.

"Non lineare" significa che non puoi prevedere con precisione un'etichetta con un modello del formato \(b + w_1x_1 + w_2x_2\). In altre parole, la "superficie di decisione" non è una linea.

Tuttavia, se eseguiamo un'intersezione di caratteristiche sulle nostre caratteristiche $x_1$ e $x_2$, possiamo rappresentare la relazione non lineare tra le due caratteristiche utilizzando un modello lineare: $b + w_1x_1 + w_2x_2 + w_3x_3$ dove $x_3$ è l'intersezione di caratteristiche tra $x_1$ e $x_2$:

Figura 2. Lo stesso piano cartesiano di coordinate dei punti blu e arancioni come nella Figura 1.  Tuttavia, questa volta una curva iperbolica bianca
      tracciato in cima alla griglia, che separa i punti blu in alto a destra
      e quadranti in basso a sinistra (ora ombreggiati con uno sfondo blu) da
      i punti arancioni nei quadranti in alto a sinistra e in basso a destra (ora
      ombreggiata con uno sfondo arancione).
Figura 2. Aggiungendo l'incrocio di caratteristiche x1x2, il modello lineare può apprendere una forma iperbolica che separa i punti blu da quelli arancioni.

Consideriamo ora il seguente set di dati:

Figura 3. Piano di coordinate cartesiana diviso in quattro quadranti.
      Un cluster circolare di punti blu è centrato sull'origine del
      grafico ed è circondato da un anello di punti arancioni.
Figura 3. Un problema di classificazione non lineare più difficile.

Potresti anche ricordare dagli esercizi sulle intersezioni delle caratteristiche che determinare le intersezioni delle caratteristiche corrette per adattare un modello lineare a questi dati ha richiesto un po' più di impegno e sperimentazione.

E se non dovessi eseguire personalmente tutte queste sperimentazioni? Le reti neurali sono una famiglia di architetture di modelli progettate per trovare pattern non lineari nei dati. Durante l'addestramento di una rete neurale, model automaticamente Apprende gli incroci di caratteristiche ottimali da eseguire sui dati di input per ridurre al minimo o una perdita di dati.

Nelle sezioni seguenti, esamineremo più da vicino come funzionano le reti neurali.