Alla scoperta dei Vector Database e dei RAG

Ciao!
Andrea Guzzo
https://andreaguzzo.com

Alla scoperta dei Vector
Database e dei RAG
Gli strumenti che consentono all'intelligenza
artificiale di dialogare con i tuoi dati.

Di cosa parleremo?
1. Vector database
a. A cosa servono e perché sono importanti
b. Un confronto tra diversi database
c. Concetti principali
2. I Retrieval Augmented Generation systems
a. Cosa sono e a cosa servono?
b. Strumenti e concetti più importanti
c. Agenti, memoria e frameworks
3. Il futuro
3

It is difficult to think of a major industry that AI will not
transform. This includes healthcare, education,
transportation, retail, communications, and agriculture.
There are surprisingly clear paths for AI to make a big
difference in all of these industries.
Despite all the hype and excitement about AI, it's still
extremely limited today relative to what human intelligence
is.
Andrew Ng

Models
Foundational and
Machine Learning
Models (Tabular, NLP,
Vision)
5
App
Software applications
and frameworks (RAG
and Agents)
Tools
Tutto quello che
sostiene lo sviluppo e
i dati (Engineering)
La ricetta per l'intelligenza artificiale
Data Science vs ML Engineering

Models
Foundational and
Machine Learning
Vision)
8
App
and frameworks (RAG
and Agents)
Tools
Tutto quello che

Come sono nati?
Memorizzare e storicizzare vettori a tante dimensioni
Rappresentare dati non strutturati (testo, video, audio) attraverso dei vettori (embeddings)
indicizzati in maniera efficiente.
Cercando ed estraendo informazioni velocemente senza saturare la RAM.
Possibilmente sfruttando il calcolo parallelo (GPU).
All'inizio erano sistemi per rappresentare Knowledge Graphs (turn over 2019)
9

Quali sono?
Diverse soluzioni open source e commerciali
10

Quali sono?
Diverse soluzioni open source e commerciali
11

Come funziona?
Una visione ad alto livello
12

Come funziona?
Una visione ad alto livello
13

Vector Embeddings
Dobbiamo gestire tipologie di dati complesse (Immagini, documenti, audio).
Unimodality and Multimodality encoding.
Spazio latente.
14
Dot product: This produces a
non-normalized value of an
arbitrary magnitude
Cosine distance: This produces
a normalized value (between -1
and 1)

Concetti importanti
Quali sono i concetti importanti in un vector database
15
● Punti: vettori (embeddings) che in un insieme devono avere simile dimensionalità
(confrontabili).
● Collections: uno o più agglomerati di punti.
● Payload: memorizzare informazioni di contesto assieme ai vettori (json - data types).
● Indexing: payload e points indexes.
● Storage: come e dove memorizzare indici e payload.
● Optimizer: ottimizzazione degli indici, dello spazio, del database (tanti tipi).
● Filtering: filtrare le informazioni prima della ricerca utilizzando gli indici del payload.
● Search: ricercare nello spazio vettoriale di punti di una collection.
● Snapshot: archivi contenenti configurazioni e dati per le migrazioni

Generiamo e scriviamo un embedding
Prendiamo dei dati e un modello da hugging face.
Creiamo un interfaccia.
Generiamo un embedding
Inseriamo l'embedding dentro a Qdrant all'interno di una collection
16

Indicizzare e ricercare
L'obiettivo della ricerca per similarità è quello di fornire i vettori top-k più simili al vettore della
query di input.
- Algoritmi ANN (Approximate Nearest Neighbor)
C'è un'importante distinzione tra un algoritmo di ricerca e l'indice su cui un algoritmo ANN
opera.
17

Indicizzare
Vengono indicizzati in realtà anche gli embeddings, ovvero viene creata una strutture dati che
consente una ricerca efficiente restringendo rapidamente lo spazio di ricerca.
- Livello 1: Strutture dati per organizzare gli indici
- Livello 2: Compressione (velocità vs precisione): quantization
18
Indice spezzato in piccoli pezzi e convertiti in interi (o piccoli float)
Scalar quantization (SQ): divisione del vettore in bins di interi tenendo
conto del max e min.
Product quantization (PQ): divisione del vettore in base alla distribuzione
dei valori e poi decomposti utilizzando il prodotto cartesiano

HNSW
Algoritmo più utilizzato al momento in tutti i vector database, molto efficiente e veloce.
- Hierarchical Navigable Small World (HNSW) graphs
19
PRO
Efficienza ad alta dimensionalità su spazi elevati
Ricerca veloce grazie alla struttura gerarchica
Scalabilità avanzata
Bassa memoria
Caratteristiche
Struttura gerarchica a livelli di connessioni
Small-world connectivity (percorsi brevi)
Inserimento incrementale: top-down
Ricerca efficiente incrementale top-down
Contro
Implementazione molto complessa
Inserimento nuovi elementi costoso
Molto suscettibile alla configurazione dei
parametri
Questione dell'entry-point

DiskANN
HNSW può richiedere però tanta RAM in inserimento e ricerca, rendendo complicata la
scalabilità su tanti dati, ecco perchè tutti stanno cercando di implementare:
- Vamana (DiskANN implementation)
20
PRO
Efficienza su tanti dati (terabyte)
Scalabilità con buone prestazioni
Riduzione dei costi di archiviazione
Efficienza nella gestione dei dischi
Approccio Inside-out rispetto outside-out
Performance simili a HNSW
Caratteristiche
Creazione del grafo random basato su direct-graphs
Diversi livelli di ottimizzazione con i nodi connessi vicini
Pruning del grafo per long-range edges e rimozione short edges
Step di ottimizzazione dopo l'inserimento
Batch delle richieste e indicizzazione su disco
Utilizzo di Paging e Caching
Contro
Latenza delle query
Complessità di implementazione, costruzione del
grafo complessa e costosa
Alta dipendenza dall'hardware (costo e
prestazioni)
Performance degradation nel tempo
Più nuovo di HNSW (Microsoft research India)

Models
Foundational and
Machine Learning
Vision)
22
App
and frameworks (RAG
and Agents)
Tools
Tutto quello che

● Il linguaggio naturale non è sempre il miglior input
● È fondamentale cercare di controllare l'output dei modelli
generativi
● Aggiungere funzionalità ai modelli
● Aggiungendo un layer software si possono ottenere
applicazioni incredibili con poco effort e con modelli "scarsi"
Cosa sono i RAG?
Retrieval Augmented Generation: Integrare il recupero di informazioni specifiche (retrieval)
integrato con la generazione di testo (generation)
23
● Question and answering systems
● Content creation and summarization
● Conversational agents (chatbots)
● Information Retrieval
● Educational tools and resources
● Legal research and analysis
● Content recommended system
Agganciare i modelli e i vector database con altre funzionalità
(bridge)

Cosa sono i RAG?
24
Un esempio con i documenti

Diverse soluzioni e approcci
25
Ci sono molti "design pattern" e sistemi diversi che si possono costruire

Cosa sta succedendo?
26
Tantissima ricerca, stanno nascendo degli standard e ci sono diverse direzioni

Stregatto (cheshire-cat)
27
Un progetto open source tutto Italiano

Conversation walking
28
Creare RAG avanzati che ti aiutino a navigare un problema, seguendo una conversazione o
eseguendo dei task (multi-shot retrieval o anche conversation chain), non single shot.
● Walking RAG: vogliamo migliorare le risposte generate con un processo iterativo di raccolta e perfezionamento
delle informazioni prima di dare una risposta finale
● Ricerca iterativa: Eseguire più cicli di ricerca raccogliendo informazioni gradualmente
● Riuso di fatti parziali: In ogni ciclo devo estrarre dei fatti parziali per le interrogazioni successive
● Connessione ad altre applicazioni: Utilizzare altri strumenti e altre applicazioni per creare una risposta più
completa.
● Tenere memoria della conversazione: Memoria di breve e lungo periodo per ricordarsi cosa si è stato detto e
recuperare il contesto della conversazione.

Tool agents
29
Un agente è un componente software in grado di interagire con un modello e creare delle
sequenze di azioni da eseguire, utilizzando dei dialogue template.
● Sono diversi dai rag, non sono "lineari"
● ReAct agents: Reason + Act
● Tanti tipi di agenti diversi
● Possibile integrare altri tipi di chiamate (altri strumenti, altre
API, altre funzioni)
● Interagire con output di diversi formati (XML, Json)
● In pratica: è un LLM con un "reflection agent" che prende delle
decisioni e ha accesso ad un set di strumenti per completare
dei task.
Flusso
- Il RAG riceve il messaggio dell'utente
- Il RAG cerca un contesto nella memoria usando il messaggio
come query
- Se c'è un particolare pattern o una particolare call to action il
Tool Agent inizia il suo loop.
- BIAS rispetto ad uno specifico approccio
- È importante integrare con risorse esterne
(google)
- Problema della "risposta finale"
- Sempre suscettibili rispetto al prompt

Memory
30
È fondamentale in questi sistemi il concetto di memoria, solitamente basata su un vector
database (cheshire cat memory system)
● Episodic memory: contiene l'estratto di quello che l'utente ha detto nel passato
● Declarative memory: contiene un estratto dei documenti in un vector database
● Procedural memory: funzioni, azioni, API, altri modelli che è possibile utilizzare (agents)

Frameworks (AI Engines)
31
Ci sono diversi frameworks che consentono di costruire tutta questa infrastruttura software.
- Langchain: il più utilizzato e completo, ma molto confusionario
- LlamaIndex: meno utilizzato, più adatto per i RAG, ma molto
chiaro
- Haystack: nato per NLP, si è adattato agli LLM e ai RAG.
Interessante e semplice da utilizzare.

Prima alcune considerazioni
Alcuni problemi che sto affrontando
34
Generazione statica di contenuto
- Recuperare informazioni è difficile: Attenzione ad utilizzare solamente sistemi vettoriali e modelli
- Velocità e memoria: Servono tante risorse, i modelli sono lenti, tanti tipi di ottimizzazione diverse
- Rendere il modello capace di rispondere come ci si aspetta: Spesso è importante pilotare una conversazione, mettere
dei limiti e dei confini ad una conversazione.
Altri problemi
- Multimodalità: È difficile interagire con collezioni diverse
- Dati Tabulari: Sono il 90% dei dati nelle aziende, ma è ancora difficile creare degli embeddings
- Grandi modelli: Come sappiamo i modelli LLM sono molto grandi, ma è proprio necessario usare grandi modelli?
- Licenze: È un gran casino al momento :)
- Data quality management: dei documenti e dei dati aziendali
- Scalabilità e infrastruttura

Le sfide del futuro
È un mondo estremamente in fermento, a diversi livelli…cosa sta succedendo?
35
- Evoluzione degli agenti: Migliori frameworks, nuovi design patterns, nuovi linguaggi, interazioni ad alto livello (similarità
con i sistemi operativi).
- Sviluppi Interdisciplinare (multimodality): Integrare diverse modalità in diverse aree (Modelli versatili e omnicomprensivi)
- Migliore efficienza: velocità di generazione dei tokens.
- Migliore scalabilità: modelli più rapidi, veloci e facili da deployare (con anche nuovi strumenti di orchestrazione e
deploy)
- Nuovi algoritmi: Nuovi algoritmi a tutti i livelli (vector, llm, base models), ma spero che l'AI generativa non cannibalizzi
tutta la ricerca e il mercato.
- Etica e osservabilità: ovviamente servono strumenti per controllare i modelli, per osservare il loro stato e capire cosa
stanno facendo e per quale motivo (contenere, limitare, indirizzare, spiegare).
E la ricerca di base?

Q&A
Grazie per l'attenzione
Andrea Guzzo
https://andreaguzzo.com

Alla scoperta dei Vector Database e dei RAG

More Related Content

What's hot (20)

Similar to Alla scoperta dei Vector Database e dei RAG (20)

More from Commit University (20)

Alla scoperta dei Vector Database e dei RAG

Editor's Notes