DeepLearning_AspectbasedSentimentAnalysis.pptx

PHÂN TÍCH CẢM XÚC THEO KHÍA
CẠNH
Giảng viên hướng dẫn: PGS.TS Nguyễn Thị Kim
Anh
Sinh viên thực hiện: Trần Trọng Khang

3
NỘI DUNG
1. Giới thiệu đề tài
2. Cơ sở lý thuyết
3. Phương pháp đề xuất
4. Đánh giá thực
nghiệm
5. Kết luận

4
• Lượng dữ liệu khổng lồ về bình luận
đánh giá gây khó khăn trong việc
nắm bắt và xử lý thông tin.
• Khó khăn trong việc xác định cảm
xúc cụ thể đối với từng khía cạnh của
sản phẩm hoặc dịch vụ trong các
phản hồi đa chiều.
• Sự đa dạng phong phú trong cách
diễn đạt ý kiến của người dùng dẫn
đến khó khăn trong việc xử lý ngôn
ngữ tự nhiên và thực hiện các tác vụ
phân loại, trích rút.
Cần phải có công cụ trích rút ra các đánh giá ý kiến và tổng
hợp các thông tin để nhằm nhanh chóng cải thiện chất lượng
dịch vụ.

5
Mục tiêu:
- Khắc phục hạn chế của các phương pháp truyền thống.
- Phát triển mô hình hợp lý, khi tài nguyên và bộ nhớ hạn chế.
- Mô hình đảm bảo ổn định, kỳ vọng đầu ra đầy đủ, chính xác.
Định hướng:
- Tìm hiểu nghiên cứu mô hình hiện tại tốt hiện nay có khả
năng giải quyết được các thách thức của bài toán, phân tích
hạn chế của mô hình này để cải tiến.
- Sử dụng các kỹ thuật hợp lý nhằm nâng cao hiệu quả mô
hình tìm hiểu.

6
NỘI DUNG
2. Các nghiên cứu liên
quan
4. Đánh giá thực nghiệm
5. Kết luận

7
2. Các nghiên cứu liên quan
Phát biểu bài toán “trích rút bộ ba cảm xúc theo
khía cạnh với miền dữ liệu cụ thể”
1. Đầu vào: Một câu, đoạn văn bản đánh giá các khía cạnh trong miền
dữ liệu
2. Đầu ra: Tập các bộ ba cảm xúc. Một bộ ba cảm xúc được định nghĩa
gồm: từ chỉ khía cạnh, từ chỉ cảm xúc và nhãn phân cực cảm xúc.
Ví dụ:

8
Mô hình đường ống hai giai đoạn TSF
Gồm 2 giai đoạn:
• Đồng thời xác định các cụm từ khía
cạnh và cụm từ ý kiến và hoán vị
thành tập các ứng cử viên.
• Tăng cường thông tin và đưa vào
mô-đun phân loại.
Nhược điểm:
• Lỗi xếp tầng
• Khó tối ưu hóa toàn cục.

9
Cơ chế gán nhãn lưới GTS
Đặc điểm:
• Với câu đầu vào gồm n từ,
tạo một ma trận nxn.
• Học các đặc trưng và gán
nhãn cho từng cặp từ.
• Phương pháp chỉ gồm 1 bước
duy nhất, bỏ qua lỗi xếp
tầng.
Nhược điểm:
• Chưa tận dụng, khai thác
thông tin cú pháp, thẻ từ
loại.

10
Mô hình SA-Transformer
Đặc điểm:
• Dựa trên cơ chế gán nhãn
lưới GTS.
• Tăng cường thông tin cú
pháp vào biểu diễn của câu
thông qua cơ chế SA-
Transformer.
• Cải thiện vấn đề cụm từ khía
cạnh, cụm từ ý kiến qua cơ
chế suy luận kề.
Nhược điểm:
• Chưa tận dụng thông tin thẻ
từ loại.
• Biểu diễn cặp từ còn đơn
giản (ghép nối biểu diễn của
từng từ trong cặp từ với
thông tin khoảng cách trên
cây cú pháp).

11
NỘI DUNG
quan
5. Kết luận

12
Mô hình đề xuất gồm 4 mô-đun:
1. Mô-đun biểu diễn câu
2. Mô-đun tăng cường thông
tin cú pháp
3. Mô-đun tích hợp
4. Mô-đun phân loại

13
Mô-đun biểu diễn câu
Đầu vào: câu X gồm n từ.
Đầu tiên, X được đưa qua nhúng GloVe, thu được biểu diễn khởi tạo từ:
Biểu diễn này được đưa qua một mạng LSTM 2 chiều:
Dùng toán tử ghép nối, thu được biểu diễn ẩn của từ i:

14
Mô-đun biểu diễn câu
Sử dụng SpaCy để tạo thẻ từ loại cho câu đầu vào, đưa qua một ma trận
nhúng từ loại, thu được chuỗi nhúng từ loại cho câu đầu vào:
Thực hiện ghép nối nhúng từ với nhúng từ loại tương ứng của nó, thu
được biểu diễn câu đầu vào:

15
Mô-đun tăng cường thông tin cú pháp
Cơ chế chú ý cạnh kề (Adjacent Edge Attention)
Sử dụng SpaCy để phân tích ra các quan hệ phụ thuộc trong câu.
Phân tích thành 2 ma trận A (ma trận kề) và ma trận R (ma trận quan hệ)

16
Đưa ma trận R qua một ma trận nhúng cạnh
thu được biểu diễn khởi tạo cạnh
Z =z,j
Ma trận kề A=,j và R = ,j được đưa vào để
học biểu diễn cạnh giữa 2 từ xi và xj dựa
trên các cạnh kề với xi thông qua cơ chế chú
ý đa đầu:

17
Tương tự, học biểu diễn cạnh giữa 2 từ xi và
xj dựa trên các cạnh kề với xj
Gộp 2 thông tin này qua một cơ chế cổng để
tạo thành biểu diễn cạnh giữa 2 từ xi và xj

18
Tích hợp thông tin cú pháp vào biểu diễn câu
Biểu diễn cạnh E vừa học được sẽ được
thêm vào vec-tơ biểu diễn từ qua cơ
chế chú ý đa đầu
SA-Transformer gồm L lớp
Mỗi lớp được tính bởi biểu diễn của lớp
hiện tại và lớp trước:
Trong đó:

19
Tích hợp thông tin cú pháp vào biểu diễn câu
Mỗi biểu diễn từ đều được tăng
cường thêm thông tin cú pháp qua cơ
chế attention:

20
Mô-đun tích hợp
Cơ chế Biaffine Attention lần đầu được
giới thiệu vào năm 2017 trong bài toán
phân tích quan hệ phụ thuộc dựa trên
mạng nơ-ron.
Đặc điểm:
• Tính toán trọng số chú ý giữa các
cặp từ trong câu.
• Sử dụng một hàm ánh xạ tuyến tính
và song tuyến tính.

21
Mô-đun tích hợp
Tăng cường thêm thông tin quan hệ
qua lớp Biaffine Attention
Ghép nối các thông tin cần thiết, ta thu
được biểu diễn cặp từ, là đầu vào cho
mô-đun phân loại:

22
Mô-đun phân loại
Xem xét đến các thẻ kề với thẻ hiện tại thông qua cơ chế suy luận kề gồm T
vòng lặp
Tính phân phối xác suất của thẻ liền kề
Tính toán lại phân phối xác suất của thẻ hiện tại
Gộp thông tin qua một hàm cổng
Sau T lần lặp, thu được

23
Huấn luyện mô hình
Sử dụng hàm mất mát entropy chéo (cross entropy)
Việc thêm hàm mất mát tại đầu ra của lớp Biaffine Attention có tác
dụng:
• Hiệu chỉnh mô hình tốt hơn
• Luồng đạo hàm tốt hơn

24
NỘI DUNG
quan
5. Kết luận

25
Độ đo đánh giá
Các độ đo chính xác, đầy đủ và
trung bình điều hòa:
Các độ đo vi mô:

26
Dữ liệu huấn luyện
Mô hình được thực hiện huấn luyện và đánh giá trên hai tập dữ liệu Res14 và
Lap14
Thống kê tập Res14
Thống kê tập Lap14

27
Tiền xử lý dữ liệu
• Đánh chỉ số cho các từ xuất hiện trong tập huấn luyện và lưu vào file
word2idx.json
• Sử dụng công cụ SpaCy để lấy ra thẻ từ loại, sau đó lưu vào file .posTagging
• Sử dụng công cụ SpaCy để lấy ra thông tin quan hệ phụ thuộc, sau đó phân
tách thành ma trận để lưu vào file .dependency
• Từ ma trận trên, trích xuất thông tin khoảng cách trên cây cú pháp và lưu
vào file .syntaxPosition

28
Cấu hình thử nghiệm
• Số epoch huấn luyện là 150 với thuật toán tối ưu Adam.
• Kích thước lô huấn luyện là 16.
• Số lượng lớp SA-Transformer: 3 với tập Res14 và 2 với tập Lap14
• Số lượng vòng lặp T trong mô-đun phân loại: 2
• Số lượng đầu chú ý trong lớp chú ý đa đầu: 5
• Tốc độ học: 1e−3

29
Hiệu năng của mô hình đề xuất so với các mô hình
tham chiếu
Tập Res14
Tập Lap14

30
Ảnh hưởng của các thành phần trong mô hình đề
xuất
Tập Res14
Tập Lap14

31
Một số lỗi

32
NỘI DUNG
quan
5. Kết luận

33
5. Kết luận
Kết luận
• Đồ án đã cải thiện mô hình SA-Transformer với tác vụ trích xuất
bộ ba cảm xúc theo khía cạnh đạt kết quả tốt hơn và chạy ổn
định trên tập dữ liệu Res14 và Lap14.
• Đóng góp:
1. Thực hiện nhúng từ loại vào biểu diễn từ.
2. Tăng cường thêm thông tin quan hệ của lớp Biaffine Attention
vào biểu diễn thẻ cặp từ.

34
5. Kết luận
Hướng phát triển trong tương lai
• Thực hiện mô hình với các kỹ thuật nhúng từ hiện đại hơn
như BERT, Sentence-Transformer
• Áp dụng kỹ thuật học tăng cường từ phản hồi của người
dùng Reinforcement Learning from Human Feedback – RLHF.
• Nâng cấp cấu hình thiết bị tránh những hạn chế trong quá
trình huấn luyện và đánh giá, tránh sự sụt giảm kết quả.

35
Xin cảm ơn thầy
cô và các bạn đã
lắng nghe!

DeepLearning_AspectbasedSentimentAnalysis.pptx

More Related Content

Similar to DeepLearning_AspectbasedSentimentAnalysis.pptx (20)

DeepLearning_AspectbasedSentimentAnalysis.pptx

Editor's Notes