SlideShare a Scribd company logo
向量資料庫與 Qdrant 的介紹
Ko Ko, Microsoft AI MVP
2024/07/22 @ R-Ladies
KoKo 大魔術熊貓工程師
關於 Ko Ko
● 連續五年當選 Microsoft AI MVP。
● 國內外大型技術年會講師,包含 COSCUP、ModernWeb、名古屋開源年
會、香港開源年會、PyCon APAC、PyCon HK、DevDays Asia 等。
● 合著有《駕馭 ChatGPT 4: 探索 Azure OpenAI 與 Cognitive Service for
Language 開發實踐 (使用.NET 與 Node.js)》、《極速 ChatGPT 開發者兵器
指南跨界整合 Prompt Flow、LangChain 與 Semantic Kernel 框架》
● 經營粉專「大魔術熊貓工程師」
天瓏書局當年排行第二名: 內容80%至今未過時
當年第一本針對軟體工程師所撰寫之 ChatGPT 專書
用 .NET 和 Node.JS 雙語言範例程式碼
第一本針對 Azure OpenAI 所撰寫之專書
第一本針對 Cognitive Service for Language 專書
第一本教你如何 Fine tune GPT 模型之專書
第一本教你 Semantic Kernel 與 RAG pattern 專書
大量範例與實戰,內容至今 80% 可用
極速 ChatGPT 開發者兵器指南
跨界整合 Prompt Flow 、LangChain 與 Semantic Kernel 框架
天瓏書局五月排名第二的書
台灣第一本介紹 LangChain 0.1 穩定版的書,
也是第一本介紹 Prompt Flow 的書,
也是第一本介紹 Samentic Kernel 1.0 版之後的書
(第一本 1.0 版之前的 SK 書也是我們寫的)
KoKo 大魔術熊貓工程師
稀疏向量( Sparse vector )
每一個維度對應一個單詞
對應該單詞的維度的值為1,其餘所有維度的值都為0
one-hot encoding
維度數量隨著詞彙量的增長而急劇增加
向量無法捕獲單詞之間的語義相關性
假設由100萬個單詞形成的語料庫,其維度也會變成100萬維,相當
地龐大。
KoKo 大魔術熊貓工程師
密集向量( Dense vector )
密集向量與稀疏向量是一種相對的概念
這個低維可能是100維、200維等,如 Ada 是 1536 維。
這些向量能夠捕獲單詞的語義,並且將語義相近的單詞投影到
嵌入空間中的相近位置。
可以捕獲單詞之間的相關性。
KoKo 大魔術熊貓工程師
舉例
「柯」可能被表示為 [1, 0, 0, 0]
「克」可能被表示為 [0, 1, 0, 0]
「是」可能被表示為 [0, 0, 1, 0]
「好人」可能被表示為 [0, 0, 0, 1]
「柯」可能被表示為 [0.1, 0.3]
「克」可能被表示為 [0.4, 0.2]
「是」可能被表示為 [0.5, 0.7]
「好人」 可能被表示為 [0.9, 0.8]
KoKo 大魔術熊貓工程師
Cosine Metrics
KoKo 大魔術熊貓工程師
Cosine Metrics
餘弦相似度 (Cosine Similarity):其值範圍從-1(完全相反)到1(完全相同),其
中0表示兩者獨立,無相關性。但是在 NLP 中,往往是取 0 到 1。
餘弦距離 (Cosine Distance):範圍是從0(無距離,表示完全相同)到2(完全不
同)
Cosine Distance(A,B)=1−Cosine Similarity(A,B)
餘弦距離是補充的表示,不是真正的距離(像是心和心的距離)
KoKo 大魔術熊貓工程師
向量資料庫
專門儲存向量的資料庫,本日使用 Qdrant。
可以在高維度空間檢索資料,尤其是文本相似度搜尋
實作 Approximate Nearest Neighbor (ANN) 之類的算法,可以快速找到目標
可以支援分散式系統架構
可以視為當代 AI 應用的基礎建設之一
KoKo 大魔術熊貓工程師
PostgreSQL with pgvector
只要再 PostgreSQL 上安裝 pgvector 這個套件就可
以使用
語法類似 SQL
也有 Python SDK
資料大時會比較慢
有開源
KoKo 大魔術熊貓工程師
Redis
KV 性質的 NoSQL
In-memory 的儲存,常常被拿來當 Cache
RediSearch 是 Redis 的一個模組,可用於向量搜尋
有開源
KoKo 大魔術熊貓工程師
Pinecone
相當主流的向量資料庫
是雲平台的服務
可以大規模部署,宣稱可以在億級資料中做到毫秒級搜尋
沒有開源,目前無法本地端自建
KoKo 大魔術熊貓工程師
Milvus
相當主流的向量資料庫
Milvus 能在毫秒級別上對萬億向量資料集進行搜索
2.0 版本之後開始支援雲原生
有開源
KoKo 大魔術熊貓工程師
Weaviate
相當主流的向量資料庫
有 Module 的功能,讓開發者可以更容易搭配 AI model 使用
支援使用 GraphQL inferface 來做開發
有開源
KoKo 大魔術熊貓工程師
Chroma
新興的向量資料庫
常常和 LangChain 的範例搭配使用
有開源
KoKo 大魔術熊貓工程師
Azure AI Search
以前叫 Cognitive search
Azure 內建的服務
貴
KoKo 大魔術熊貓工程師
Qdrant
常見主流的向量資料庫
搜尋效能相當強大
可以大規模部署
最近還創造了全新的演算法
有開源
KoKo 大魔術熊貓工程師
工具如何選?
KoKo 大魔術熊貓工程師
都架設在 Azure 上的Standard D8s v3 機器
KoKo 大魔術熊貓工程師
為什麼不選 Pinecone?
Pinecone 只提供了 SaaS 服務,而 Qdrant 有 SaaS 服務,也有開源
版本可以讓企業在本地端自架。
SaaS 版本 Pinecone 每月 70 美元起,而 Qdrant 是 25 美元。
Qdrant 一個點可以有兩種不同的向量資料(如圖片和文字)
KoKo 大魔術熊貓工程師
Qdrant 重要名詞
Collections:A collection is a named set of points (vectors
with a payload) among which you can search.
Payload:To store additional information along with vectors.
Point:The points are the central entity that Qdrant operates
with. A point is a record consisting of a vector and an optional
payload.
KoKo 大魔術熊貓工程師
Qdrant 本地端架設
KoKo 大魔術熊貓工程師
Qdrant SaaS
KoKo 大魔術熊貓工程師
Qdrant On Azure
KoKo 大魔術熊貓工程師
DEMO:向量資料庫如何搭配 embedding
model 做使用
KoKo 大魔術熊貓工程師
其實還有這個: RAG (Retrieval Augmented Generation )
https://www.e2enetworks.com/blog/
guide-to-building-a-rag-based-llm-a
pplication
與緯育合作的課程已經要開第四期
優惠碼 KOKOVIP

More Related Content

PDF
портфолио л.иванова
PDF
Kubernetes Deployment Tutorial | Kubernetes Tutorial For Beginners | Kubernet...
PPTX
Observability For You and Me with OpenTelemetry
PDF
PostgreSQL continuous backup and PITR with Barman
 
DOC
Портфолио на Катя Лукова Джубелиева
PPT
PDF
GitOps with Amazon EKS Anywhere by Dan Budris
PDF
Do do tich-phan-thai_thuan_quang mearsure and intergral
портфолио л.иванова
Kubernetes Deployment Tutorial | Kubernetes Tutorial For Beginners | Kubernet...
Observability For You and Me with OpenTelemetry
PostgreSQL continuous backup and PITR with Barman
 
Портфолио на Катя Лукова Джубелиева
GitOps with Amazon EKS Anywhere by Dan Budris
Do do tich-phan-thai_thuan_quang mearsure and intergral

What's hot (19)

PPTX
High performance web sites with multilevel caching
PDF
Automate Your Kafka Cluster with Kubernetes Custom Resources
PPTX
24 май
PDF
Phụ thuộc hàm và các dạng chuẩn - dhcntt
PPT
Нашите домашни любимци
PPTX
Учителко портфолио- Ангел Ангелов
DOCX
Килограм 1.клас
PDF
Room 1 - 4 - Phạm Tường Chiến & Trần Văn Thắng - Deliver managed Kubernetes C...
PDF
Thêm sửa-xóa-combobox - c#
PPTX
Паничка мед
PPTX
стихове за деца
PPTX
Hot tutorials
PDF
Primeiros passos com a API do Zabbix
PPTX
Giới thiệu và triển khai private cloud
PDF
Terraform modules and best-practices - September 2018
PPT
жизнени процеси
PDF
портфолио р.стоянова
PDF
Bai giang-toan-kinh-te-tin-hoc
PPTX
ОСНОВНИ ОРГАНИ В ЧОВЕШКОТО ТЯЛО, 3 КЛАС.pptx
High performance web sites with multilevel caching
Automate Your Kafka Cluster with Kubernetes Custom Resources
24 май
Phụ thuộc hàm và các dạng chuẩn - dhcntt
Нашите домашни любимци
Учителко портфолио- Ангел Ангелов
Килограм 1.клас
Room 1 - 4 - Phạm Tường Chiến & Trần Văn Thắng - Deliver managed Kubernetes C...
Thêm sửa-xóa-combobox - c#
Паничка мед
стихове за деца
Hot tutorials
Primeiros passos com a API do Zabbix
Giới thiệu và triển khai private cloud
Terraform modules and best-practices - September 2018
жизнени процеси
портфолио р.стоянова
Bai giang-toan-kinh-te-tin-hoc
ОСНОВНИ ОРГАНИ В ЧОВЕШКОТО ТЯЛО, 3 КЛАС.pptx
Ad

Similar to The theory of vector database and qdrant (20)

PDF
應用 LLM 框架:LangChain 入門工作坊,LangChain Workshop
PDF
20240912 Hello World Dev Conference 工作坊「使用 LangServe 快速部署 AI」
PDF
LangServe source code explain in 2024 COSCUP
PPTX
DevDays Asia 2024 Demo LangChain 與 Azure
PDF
Building Chatbot With Huggging Face
PDF
Introduction Hugging face.pdf
PDF
Langchain and Azure ML and Open AI
PPTX
2024/11/29 DevOps Taiwan #64 : 從初建到進階:打造符合公司需求的混合雲端 GitLab DevOps 流水線
PDF
20230830 淺談 Azure OpenAI.pdf
PDF
從雲端到邊緣 Azure IoT Edge 幫工廠設備長智慧
PDF
開放原始碼作為新事業: 台灣本土經驗談 (COSCUP 2011)
PPTX
Artifacts management with CI and CD
PPT
使用GoogleAppEngine建立个人信息中心
PDF
玩轉 .NET Interactive Notebooks 一次就上手
PPTX
2021 ee大会-旷视ai产品背后的研发效能工具建设
PDF
20200905_tcn_python_opencv_part1_omnixri
PPTX
OpenAI ChatGPT techtalk .pptx
PPTX
实习生答辩Finally
PDF
[2021 DevDays]Microsoft Teams 整合 Azure DevOps之實務應用
PPTX
HoloLens 2的 MR(Mixed Reality)開發入門
應用 LLM 框架:LangChain 入門工作坊,LangChain Workshop
20240912 Hello World Dev Conference 工作坊「使用 LangServe 快速部署 AI」
LangServe source code explain in 2024 COSCUP
DevDays Asia 2024 Demo LangChain 與 Azure
Building Chatbot With Huggging Face
Introduction Hugging face.pdf
Langchain and Azure ML and Open AI
2024/11/29 DevOps Taiwan #64 : 從初建到進階:打造符合公司需求的混合雲端 GitLab DevOps 流水線
20230830 淺談 Azure OpenAI.pdf
從雲端到邊緣 Azure IoT Edge 幫工廠設備長智慧
開放原始碼作為新事業: 台灣本土經驗談 (COSCUP 2011)
Artifacts management with CI and CD
使用GoogleAppEngine建立个人信息中心
玩轉 .NET Interactive Notebooks 一次就上手
2021 ee大会-旷视ai产品背后的研发效能工具建设
20200905_tcn_python_opencv_part1_omnixri
OpenAI ChatGPT techtalk .pptx
实习生答辩Finally
[2021 DevDays]Microsoft Teams 整合 Azure DevOps之實務應用
HoloLens 2的 MR(Mixed Reality)開發入門
Ad

More from Ko Ko (20)

PDF
Learn Django With ChatGPT
PDF
Triton As NLP Model Inference Back-end
PDF
Run Bokeh in back-end, draw real-time charts to front-end, and make data sc...
PDF
入門 Teams Bot
PDF
Introduction to MLOps in Azure Machine Learning with Live Demo
PDF
Azure Machine Learning 重頭學
PDF
SignalR整合LINE,在LIFF裡建立一對一聊天管道
PDF
來玩 Bot Framework Composer 2.0版吧!
PDF
用 C# 與 .NET 也能打造機器學習模型:你所不知道的 ML.NET 初體驗
PDF
聊天機器人的行銷與開發技巧應用在婚禮上
PPTX
ML.NET 在遷移式學習的應用與挑戰
PDF
Bot Framework 和它的快樂夥伴Composer
PDF
Bot framework composer---用圖形化介面來建立聊天機器人
PDF
簡介Azure在Chatbot開發上的應用
PDF
用 Azure 快速部署與開發 LINE bot
PDF
簡介Wordpress部署在AWS上的幾種架構
PDF
業界都在用的自然語言理解工具,教你快速建構Line對話機器人
PDF
自然語言理解的 Line 機器人實戰
PDF
三十分鐘內,不用寫程式,教你打造具自然語言能力的聊天機器人
PPTX
從負面案例來討論接案工程師該有什麼軟技能
Learn Django With ChatGPT
Triton As NLP Model Inference Back-end
Run Bokeh in back-end, draw real-time charts to front-end, and make data sc...
入門 Teams Bot
Introduction to MLOps in Azure Machine Learning with Live Demo
Azure Machine Learning 重頭學
SignalR整合LINE,在LIFF裡建立一對一聊天管道
來玩 Bot Framework Composer 2.0版吧!
用 C# 與 .NET 也能打造機器學習模型:你所不知道的 ML.NET 初體驗
聊天機器人的行銷與開發技巧應用在婚禮上
ML.NET 在遷移式學習的應用與挑戰
Bot Framework 和它的快樂夥伴Composer
Bot framework composer---用圖形化介面來建立聊天機器人
簡介Azure在Chatbot開發上的應用
用 Azure 快速部署與開發 LINE bot
簡介Wordpress部署在AWS上的幾種架構
業界都在用的自然語言理解工具,教你快速建構Line對話機器人
自然語言理解的 Line 機器人實戰
三十分鐘內,不用寫程式,教你打造具自然語言能力的聊天機器人
從負面案例來討論接案工程師該有什麼軟技能

The theory of vector database and qdrant