SlideShare a Scribd company logo
Hoang	
  Anh	
  Tuan	
  
CTO	
  Admicro	
  -­‐	
  VCCORP	
  
tuanhoanganh@vccorp.vn	
  
1	
  
Nội	
  dung	
  
—  Giới	
  thiệu	
  về	
  VCCORP	
  
—  Những	
  thách	
  thức	
  tại	
  VCCORP	
  
—  Những	
  bài	
  toán	
  chính	
  
2	
  
1.	
  Giới	
  thiệu	
  về	
  VCCORP	
  
3	
  
4	
  
Overview
ü  First	
  mover	
  DNA	
  
ü  50%	
  YoY	
  Growth	
  
ü  33M	
  web	
  audience	
  
ü  22M	
  mobile	
  
audience	
  
ü  1,600	
  employees	
  
Investors
1.	
  Giới	
  thiệu	
  về	
  VCCORP	
  
1.	
  Big	
  Data	
  ở	
  VCCORP	
  
—  Bắt	
  đầu	
  sớm	
  từ	
  2007	
  với	
  dự	
  án	
  Baamboo	
  search.	
  
—  Từ	
  năm	
  2009,	
  bắt	
  đầu	
  thử	
  nghiệm	
  xây	
  dựng	
  hệ	
  thống	
  
Big	
  Data	
  phục	
  vụ	
  hệ	
  thống	
  quảng	
  cáo.	
  
—  Hiện	
  nay	
  được	
  nghiên	
  cứu	
  phát	
  triển	
  xây	
  dựng	
  các	
  
sản	
  phẩm	
  phục	
  vụ	
  cho	
  các	
  hệ	
  thống	
  
—  Quảng	
  cáo	
  
—  Nội	
  dung	
  số	
  
—  Thương	
  mại	
  điện	
  tử	
  
—  Game	
  
—  Nhân	
  sự	
  hiện	
  tại:	
  60	
  người	
  
5	
  
2.	
  Những	
  thách	
  thức	
  ở	
  VCCORP	
  
—  Tự	
  xây	
  dựng	
  và	
  làm	
  chủ	
  công	
  nghệ	
  (in	
  house)	
  
—  Lượng	
  dữ	
  liệu	
  và	
  quy	
  mô	
  dữ	
  liệu	
  lớn	
  
—  Số	
  lượng	
  bài	
  toán	
  cần	
  xử	
  lý	
  lớn,	
  trải	
  rộng	
  trên	
  nhiều	
  
lĩnh	
  vực	
  
—  Luôn	
  phải	
  sáng	
  tạo	
  mới,	
  đáp	
  ứng	
  bài	
  toán	
  mới,	
  đặc	
  
thù	
  riêng	
  
—  Nhân	
  lực	
  chưa	
  đủ	
  
6	
  
2.	
  Qui	
  mô	
  dữ	
  liệu	
  
7	
  
3.	
  Những	
  nhóm	
  bài	
  toán	
  chính	
  
—  Nhận	
  diện	
  hành	
  vi	
  người	
  dùng	
  Internet	
  
—  Tối	
  ưu	
  hóa	
  quảng	
  cáo	
  
—  Core	
  NLP	
  và	
  ứng	
  dụng	
  
—  Hệ	
  thống	
  phân	
  phối,	
  gợi	
  ý	
  tin	
  tức	
  
—  Recommendation	
  Engine	
  
8	
  
3.1.	
  Nhận	
  diện	
  hành	
  vi	
  người	
  dùng	
  
Internet	
  
—  Bao	
  gồm	
  các	
  bài	
  toán	
  
—  Demographic:	
  giới	
  tính,	
  nhóm	
  tuổi	
  
—  Behavioral:	
  sở	
  thích,	
  thói	
  quen	
  
—  Cross	
  devices:	
  nhận	
  diện	
  cùng	
  1	
  người	
  dùng	
  trên	
  nhiều	
  
thiết	
  bị	
  
9	
  
Demographic	
  -­‐	
  Behavioral	
  
—  Nhận	
  diện	
  theo	
  giới	
  tính:	
  nam/nữ.	
  
—  Nhận	
  diện	
  theo	
  nhóm	
  tuổi:	
  dưới	
  18,	
  từ	
  18	
  –	
  24,	
  từ	
  25	
  –	
  
34,	
  từ	
  35	
  –	
  49,	
  trên	
  50.	
  
—  Nhận	
  diện	
  theo	
  sở	
  thích:	
  tập	
  12	
  sở	
  thích	
  cơ	
  bản.	
  
—  Kết	
  quả:	
  
—  Độ	
  chính	
  xác	
  nhận	
  diện	
  giới	
  tính:	
  82.5%	
  
—  Độ	
  chính	
  xác	
  nhận	
  diện	
  nhóm	
  tuổi:	
  67.5%	
  
10	
  
Demographic	
  -­‐	
  Behavioral	
  
11	
  
Cross	
  Device	
  
12	
  
Cross	
  devices	
  
—  Giải	
  pháp:	
  xây	
  dựng	
  thuật	
  toán	
  đoán	
  nhận	
  người	
  
dùng	
  dựa	
  trên	
  các	
  thói	
  quen	
  về:	
  
—  IP	
  
—  Website	
  
—  Sở	
  thích,	
  thói	
  quen	
  
—  Demographic	
  
—  Time	
  frame	
  
—  Kết	
  quả:	
  độ	
  chính	
  xác	
  68%	
  
13	
  
3.2.	
  Tối	
  ưu	
  hóa	
  quảng	
  cáo	
  
—  Áp	
  dụng	
  các	
  kỹ	
  thuật	
  tiên	
  tiến	
  nhất	
  trên	
  thế	
  giới:	
  
—  Personalization	
  
—  Audience	
  Targeting	
  Platform	
  
—  Real	
  Time	
  Bidding	
  
—  Retargeting	
  
—  Contextual	
  Targeting	
  
14	
  
15	
  
PersonalizaYon	
  
Audience	
  TargeYng	
  Pla[orm	
  
—  Lựa	
  chọn	
  tập	
  khách	
  hàng	
  mục	
  tiêu	
  theo	
  các	
  tiêu	
  chí:	
  
—  Web	
  site	
  
—  Location	
  
—  Nam/nữ	
  
—  Nhóm	
  tuổi	
  
—  Retargeting	
  
—  Sở	
  thích/thói	
  quen	
  
—  Tạo	
  ra	
  được	
  tập	
  khách	
  hàng	
  đúng	
  mục	
  tiêu	
  
16	
  
Real	
  Time	
  Bidding	
  
—  Đấu	
  giá	
  quảng	
  cáo	
  theo	
  thời	
  gian	
  thực	
  
—  Người	
  mua	
  quảng	
  cáo	
  lựa	
  chọn	
  giá	
  mua	
  tại	
  từng	
  thời	
  
điểm,	
  theo	
  nhu	
  cầu,	
  khả	
  năng.	
  
—  Lợi	
  ích:	
  
—  Mua	
  theo	
  nhu	
  cầu	
  
—  Kiểm	
  soát	
  được	
  giá	
  mua	
  
—  Hiệu	
  quả	
  cao	
  
17	
  
RetargeYng	
  
—  Đeo	
  bám	
  người	
  dùng	
  Internet	
  trên	
  các	
  hệ	
  thống	
  sau	
  
khi	
  họ	
  xem	
  sản	
  phẩm	
  của	
  nhà	
  quảng	
  cáo.	
  
—  Độ	
  phủ	
  rộng,	
  phủ	
  đến	
  tập	
  người	
  dùng	
  lớn.	
  
—  Hiệu	
  suất	
  quảng	
  cáo	
  cao:	
  gấp	
  từ	
  4	
  –	
  20	
  lần	
  quảng	
  cáo	
  
thông	
  thường.	
  
—  Cung	
  cấp	
  hệ	
  thống	
  Dynamic	
  Retargeting	
  
18	
  
Contextual	
  TargeYng	
  
—  Giải	
  pháp	
  quảng	
  cáo	
  theo	
  ngữ	
  cảnh,	
  nội	
  dung	
  của	
  bài	
  
viết.	
  
—  Khách	
  hàng	
  có	
  thể	
  lựa	
  chọn	
  từ	
  khóa,	
  nội	
  dung	
  muốn	
  
quảng	
  cáo	
  và	
  quảng	
  cáo	
  của	
  khách	
  hàng	
  sẽ	
  được	
  ưu	
  
tiên	
  hiển	
  thị	
  tại	
  các	
  nội	
  dung	
  này.	
  
—  Ví	
  dụ:	
  ngân	
  hàng	
  A	
  có	
  thể	
  lựa	
  chọn	
  các	
  nội	
  dung	
  nói	
  
về	
  họ,	
  hoặc	
  các	
  từ	
  khóa	
  về	
  họ	
  như	
  ngân	
  hàng	
  bán	
  lẻ,	
  
hệ	
  thống	
  ATM…	
  
—  Hiệu	
  suất	
  quảng	
  cáo:	
  hiệu	
  suất	
  cao,	
  đúng	
  ngữ	
  cảnh.	
  
19	
  
3.3.	
  CORE	
  NLP	
  
—  Tokenizer:	
  98.8%	
  
—  POS	
  Tagging:	
  94.50%	
  
—  NER:	
  84.8%	
  
—  Coreference:	
  57%	
  
—  Dependency	
  Grammar:	
  73%	
  
—  Chunking:	
  83%	
  
20	
  
SenYment	
  Analysis	
  
21	
  
SenYment	
  Analysis	
  
—  Thuật	
  toán:	
  sử	
  dụng	
  kết	
  quả	
  của	
  NLP,	
  ứng	
  dụng	
  
Machine	
  Learning	
  
—  Kết	
  quả:	
  độ	
  chính	
  xác	
  70%	
  
22	
  
3.4.	
  Phân	
  phối	
  và	
  gợi	
  ý	
  Yn	
  tức	
  
—  Personalization	
  cho	
  news	
  
—  Các	
  bài	
  toán	
  xử	
  lý:	
  
—  Event	
  detection	
  
—  Trending	
  detection	
  
—  Breaking	
  news	
  detection	
  
—  Áp	
  dụng	
  thử	
  nghiệm	
  trên	
  các	
  báo	
  lớn:	
  dantri,	
  kenh14,	
  
soha…	
  
23	
  
3.5.	
  RecommendaYon	
  Engine	
  
—  Xây	
  dựng	
  hệ	
  thống	
  gợi	
  ý	
  mua	
  hàng	
  cho	
  các	
  trang	
  thương	
  
mại	
  điện	
  tử	
  
—  Đưa	
  ra	
  gợi	
  ý	
  dựa	
  trên	
  các	
  thông	
  tin	
  
—  Lịch	
  sử	
  mua	
  hàng	
  và	
  thói	
  quen	
  sử	
  dụng	
  Internet	
  
—  Thông	
  tin	
  về	
  sản	
  phẩm	
  và	
  người	
  mua	
  
—  Thuật	
  toán	
  áp	
  dụng:	
  
—  NER	
  +	
  Deep	
  Neural	
  Network	
  
—  Knowledge	
  Network	
  thông	
  tin	
  sản	
  phẩm	
  
—  Collaborative	
  filtering	
  
—  Kết	
  quả:	
  40%	
  sản	
  lượng	
  website	
  đến	
  từ	
  hệ	
  thống	
  gợi	
  ý	
  
mua	
  hàng	
  
24	
  
Kết	
  quả	
  RE	
  
25	
  
Và	
  thêm	
  nữa…	
  
26	
  
Thanks	
  
27	
  

More Related Content

PDF
B-GATE Ads Network
PPT
Impacto de las tic en la cultura de la mediación a distancia para la educació...
PDF
Cement Plug Leakage
PDF
40 proven social media marketing tips for seafood industry
PDF
Gino SA
PPS
O Cego E O Publicitário
PPTX
Evolution of Social Networks
B-GATE Ads Network
Impacto de las tic en la cultura de la mediación a distancia para la educació...
Cement Plug Leakage
40 proven social media marketing tips for seafood industry
Gino SA
O Cego E O Publicitário
Evolution of Social Networks

Viewers also liked (9)

PPS
Homenagem Aos Quartistas
PDF
Stress Ratio Trajectory Simulations
PPS
Familia
PPTX
Evaluation Question 5 - How did you attract address your audience?
PDF
Material para empreendedores
PPT
Monosílabos, interrogativos y exclamativos
PDF
Portfolio - Ismael Carrasco Fricker
PPT
Внешний вид сотрудников ОАО Газпром нефть
DOCX
Conjugate the following verbs in the present tense
Homenagem Aos Quartistas
Stress Ratio Trajectory Simulations
Familia
Evaluation Question 5 - How did you attract address your audience?
Material para empreendedores
Monosílabos, interrogativos y exclamativos
Portfolio - Ismael Carrasco Fricker
Внешний вид сотрудников ОАО Газпром нефть
Conjugate the following verbs in the present tense
Ad

Similar to Data scientist vccorp 2016 (20)

PDF
Big data vccorp
PPTX
thương mại điện tử học viện công nghệ bưu chính viễn thông
PDF
Personalization and targeting in Advertising
PDF
Website Analysis.pdfWebsite Ample.pdfWebsite Ample.pdf
PPTX
[Vietnam Mobile Day 2014] Cá nhân hóa và xác định Khách hàng mục tiêu trong q...
PPTX
Awing vietnam
PDF
PACE CMO - Part 9 - Internet Marketing Planning & Implementation & Evaluation
PPT
Online Campaign
PDF
Nhắm mục tiêu theo đối tượng
PPTX
Hanh vi tim kiem cua nguoi dung & chien luoc cua doanh nghiep
PPSX
Chien luoc xay dung thuong hieu tren mang xa hoi dinh huong tiep thi truc t...
PDF
[Nielsen] Technology and consumer behavior (VIE 2014) (Công nghệ và hành vi c...
PDF
Công nghệ đã thay đổi thế giới như thế nào?
PDF
Công nghệ đã thay đổi thế giới như thế nào?
PDF
Technology and Consumer Behavior Vietnam 2014 - Nielsen
PDF
ÔN TẬP CUỐI KÌ MÔN MARKETING MẠNG XÃ HỘI NEU
PDF
ÔN TẬP CUỐI KÌ MÔN MARKETING MẠNG XÃ HỘI NEU
PPTX
Workshop digital marketing 2013
PPTX
E marketing seminar
PPTX
E marketing seminar
Big data vccorp
thương mại điện tử học viện công nghệ bưu chính viễn thông
Personalization and targeting in Advertising
Website Analysis.pdfWebsite Ample.pdfWebsite Ample.pdf
[Vietnam Mobile Day 2014] Cá nhân hóa và xác định Khách hàng mục tiêu trong q...
Awing vietnam
PACE CMO - Part 9 - Internet Marketing Planning & Implementation & Evaluation
Online Campaign
Nhắm mục tiêu theo đối tượng
Hanh vi tim kiem cua nguoi dung & chien luoc cua doanh nghiep
Chien luoc xay dung thuong hieu tren mang xa hoi dinh huong tiep thi truc t...
[Nielsen] Technology and consumer behavior (VIE 2014) (Công nghệ và hành vi c...
Công nghệ đã thay đổi thế giới như thế nào?
Công nghệ đã thay đổi thế giới như thế nào?
Technology and Consumer Behavior Vietnam 2014 - Nielsen
ÔN TẬP CUỐI KÌ MÔN MARKETING MẠNG XÃ HỘI NEU
ÔN TẬP CUỐI KÌ MÔN MARKETING MẠNG XÃ HỘI NEU
Workshop digital marketing 2013
E marketing seminar
E marketing seminar
Ad

Recently uploaded (6)

PPTX
chuong2TTHCMupdate14tdddddddđ7n2024.pptx
PDF
BÁO CÁO THỰC TẬP CTY TNHH VIET NAM VICERA
PPTX
CÁC HẠN CHẾ CỦA MÔ HÌNH AI NỀN CÁC HẠN CHẾ CỦA MÔ HÌNH AI NỀN
PPT
Tham Khao bài giảng trí tuệ nhân tại.ppt
PPTX
KỸ THUẬT GỢI Ý NÂNG CAO KỸ THUẬT GỢI Ý NÂNG CAO
PPTX
CÁC HẠN CHẾ CỦA MÔ HÌNH AI NỀN KỸ THUẬT GỢI Ý NÂNG CAO
chuong2TTHCMupdate14tdddddddđ7n2024.pptx
BÁO CÁO THỰC TẬP CTY TNHH VIET NAM VICERA
CÁC HẠN CHẾ CỦA MÔ HÌNH AI NỀN CÁC HẠN CHẾ CỦA MÔ HÌNH AI NỀN
Tham Khao bài giảng trí tuệ nhân tại.ppt
KỸ THUẬT GỢI Ý NÂNG CAO KỸ THUẬT GỢI Ý NÂNG CAO
CÁC HẠN CHẾ CỦA MÔ HÌNH AI NỀN KỸ THUẬT GỢI Ý NÂNG CAO

Data scientist vccorp 2016

  • 1. Hoang  Anh  Tuan   CTO  Admicro  -­‐  VCCORP   tuanhoanganh@vccorp.vn   1  
  • 2. Nội  dung   —  Giới  thiệu  về  VCCORP   —  Những  thách  thức  tại  VCCORP   —  Những  bài  toán  chính   2  
  • 3. 1.  Giới  thiệu  về  VCCORP   3  
  • 4. 4   Overview ü  First  mover  DNA   ü  50%  YoY  Growth   ü  33M  web  audience   ü  22M  mobile   audience   ü  1,600  employees   Investors 1.  Giới  thiệu  về  VCCORP  
  • 5. 1.  Big  Data  ở  VCCORP   —  Bắt  đầu  sớm  từ  2007  với  dự  án  Baamboo  search.   —  Từ  năm  2009,  bắt  đầu  thử  nghiệm  xây  dựng  hệ  thống   Big  Data  phục  vụ  hệ  thống  quảng  cáo.   —  Hiện  nay  được  nghiên  cứu  phát  triển  xây  dựng  các   sản  phẩm  phục  vụ  cho  các  hệ  thống   —  Quảng  cáo   —  Nội  dung  số   —  Thương  mại  điện  tử   —  Game   —  Nhân  sự  hiện  tại:  60  người   5  
  • 6. 2.  Những  thách  thức  ở  VCCORP   —  Tự  xây  dựng  và  làm  chủ  công  nghệ  (in  house)   —  Lượng  dữ  liệu  và  quy  mô  dữ  liệu  lớn   —  Số  lượng  bài  toán  cần  xử  lý  lớn,  trải  rộng  trên  nhiều   lĩnh  vực   —  Luôn  phải  sáng  tạo  mới,  đáp  ứng  bài  toán  mới,  đặc   thù  riêng   —  Nhân  lực  chưa  đủ   6  
  • 7. 2.  Qui  mô  dữ  liệu   7  
  • 8. 3.  Những  nhóm  bài  toán  chính   —  Nhận  diện  hành  vi  người  dùng  Internet   —  Tối  ưu  hóa  quảng  cáo   —  Core  NLP  và  ứng  dụng   —  Hệ  thống  phân  phối,  gợi  ý  tin  tức   —  Recommendation  Engine   8  
  • 9. 3.1.  Nhận  diện  hành  vi  người  dùng   Internet   —  Bao  gồm  các  bài  toán   —  Demographic:  giới  tính,  nhóm  tuổi   —  Behavioral:  sở  thích,  thói  quen   —  Cross  devices:  nhận  diện  cùng  1  người  dùng  trên  nhiều   thiết  bị   9  
  • 10. Demographic  -­‐  Behavioral   —  Nhận  diện  theo  giới  tính:  nam/nữ.   —  Nhận  diện  theo  nhóm  tuổi:  dưới  18,  từ  18  –  24,  từ  25  –   34,  từ  35  –  49,  trên  50.   —  Nhận  diện  theo  sở  thích:  tập  12  sở  thích  cơ  bản.   —  Kết  quả:   —  Độ  chính  xác  nhận  diện  giới  tính:  82.5%   —  Độ  chính  xác  nhận  diện  nhóm  tuổi:  67.5%   10  
  • 13. Cross  devices   —  Giải  pháp:  xây  dựng  thuật  toán  đoán  nhận  người   dùng  dựa  trên  các  thói  quen  về:   —  IP   —  Website   —  Sở  thích,  thói  quen   —  Demographic   —  Time  frame   —  Kết  quả:  độ  chính  xác  68%   13  
  • 14. 3.2.  Tối  ưu  hóa  quảng  cáo   —  Áp  dụng  các  kỹ  thuật  tiên  tiến  nhất  trên  thế  giới:   —  Personalization   —  Audience  Targeting  Platform   —  Real  Time  Bidding   —  Retargeting   —  Contextual  Targeting   14  
  • 16. Audience  TargeYng  Pla[orm   —  Lựa  chọn  tập  khách  hàng  mục  tiêu  theo  các  tiêu  chí:   —  Web  site   —  Location   —  Nam/nữ   —  Nhóm  tuổi   —  Retargeting   —  Sở  thích/thói  quen   —  Tạo  ra  được  tập  khách  hàng  đúng  mục  tiêu   16  
  • 17. Real  Time  Bidding   —  Đấu  giá  quảng  cáo  theo  thời  gian  thực   —  Người  mua  quảng  cáo  lựa  chọn  giá  mua  tại  từng  thời   điểm,  theo  nhu  cầu,  khả  năng.   —  Lợi  ích:   —  Mua  theo  nhu  cầu   —  Kiểm  soát  được  giá  mua   —  Hiệu  quả  cao   17  
  • 18. RetargeYng   —  Đeo  bám  người  dùng  Internet  trên  các  hệ  thống  sau   khi  họ  xem  sản  phẩm  của  nhà  quảng  cáo.   —  Độ  phủ  rộng,  phủ  đến  tập  người  dùng  lớn.   —  Hiệu  suất  quảng  cáo  cao:  gấp  từ  4  –  20  lần  quảng  cáo   thông  thường.   —  Cung  cấp  hệ  thống  Dynamic  Retargeting   18  
  • 19. Contextual  TargeYng   —  Giải  pháp  quảng  cáo  theo  ngữ  cảnh,  nội  dung  của  bài   viết.   —  Khách  hàng  có  thể  lựa  chọn  từ  khóa,  nội  dung  muốn   quảng  cáo  và  quảng  cáo  của  khách  hàng  sẽ  được  ưu   tiên  hiển  thị  tại  các  nội  dung  này.   —  Ví  dụ:  ngân  hàng  A  có  thể  lựa  chọn  các  nội  dung  nói   về  họ,  hoặc  các  từ  khóa  về  họ  như  ngân  hàng  bán  lẻ,   hệ  thống  ATM…   —  Hiệu  suất  quảng  cáo:  hiệu  suất  cao,  đúng  ngữ  cảnh.   19  
  • 20. 3.3.  CORE  NLP   —  Tokenizer:  98.8%   —  POS  Tagging:  94.50%   —  NER:  84.8%   —  Coreference:  57%   —  Dependency  Grammar:  73%   —  Chunking:  83%   20  
  • 22. SenYment  Analysis   —  Thuật  toán:  sử  dụng  kết  quả  của  NLP,  ứng  dụng   Machine  Learning   —  Kết  quả:  độ  chính  xác  70%   22  
  • 23. 3.4.  Phân  phối  và  gợi  ý  Yn  tức   —  Personalization  cho  news   —  Các  bài  toán  xử  lý:   —  Event  detection   —  Trending  detection   —  Breaking  news  detection   —  Áp  dụng  thử  nghiệm  trên  các  báo  lớn:  dantri,  kenh14,   soha…   23  
  • 24. 3.5.  RecommendaYon  Engine   —  Xây  dựng  hệ  thống  gợi  ý  mua  hàng  cho  các  trang  thương   mại  điện  tử   —  Đưa  ra  gợi  ý  dựa  trên  các  thông  tin   —  Lịch  sử  mua  hàng  và  thói  quen  sử  dụng  Internet   —  Thông  tin  về  sản  phẩm  và  người  mua   —  Thuật  toán  áp  dụng:   —  NER  +  Deep  Neural  Network   —  Knowledge  Network  thông  tin  sản  phẩm   —  Collaborative  filtering   —  Kết  quả:  40%  sản  lượng  website  đến  từ  hệ  thống  gợi  ý   mua  hàng   24  
  • 25. Kết  quả  RE   25