2. PHÂN TÍCH CẢM XÚC THEO KHÍA
CẠNH
Giảng viên hướng dẫn: PGS.TS Nguyễn Thị Kim
Anh
Sinh viên thực hiện: Trần Trọng Khang
3. 3
NỘI DUNG
1. Giới thiệu đề tài
2. Cơ sở lý thuyết
3. Phương pháp đề xuất
4. Đánh giá thực
nghiệm
5. Kết luận
4. 4
1. Giới thiệu đề tài
• Lượng dữ liệu khổng lồ về bình luận
đánh giá gây khó khăn trong việc
nắm bắt và xử lý thông tin.
• Khó khăn trong việc xác định cảm
xúc cụ thể đối với từng khía cạnh của
sản phẩm hoặc dịch vụ trong các
phản hồi đa chiều.
• Sự đa dạng phong phú trong cách
diễn đạt ý kiến của người dùng dẫn
đến khó khăn trong việc xử lý ngôn
ngữ tự nhiên và thực hiện các tác vụ
phân loại, trích rút.
Cần phải có công cụ trích rút ra các đánh giá ý kiến và tổng
hợp các thông tin để nhằm nhanh chóng cải thiện chất lượng
dịch vụ.
5. 5
1. Giới thiệu đề tài
Mục tiêu:
- Khắc phục hạn chế của các phương pháp truyền thống.
- Phát triển mô hình hợp lý, khi tài nguyên và bộ nhớ hạn chế.
- Mô hình đảm bảo ổn định, kỳ vọng đầu ra đầy đủ, chính xác.
Định hướng:
- Tìm hiểu nghiên cứu mô hình hiện tại tốt hiện nay có khả
năng giải quyết được các thách thức của bài toán, phân tích
hạn chế của mô hình này để cải tiến.
- Sử dụng các kỹ thuật hợp lý nhằm nâng cao hiệu quả mô
hình tìm hiểu.
6. 6
NỘI DUNG
1. Giới thiệu đề tài
2. Các nghiên cứu liên
quan
3. Phương pháp đề xuất
4. Đánh giá thực nghiệm
5. Kết luận
7. 7
2. Các nghiên cứu liên quan
Phát biểu bài toán “trích rút bộ ba cảm xúc theo
khía cạnh với miền dữ liệu cụ thể”
1. Đầu vào: Một câu, đoạn văn bản đánh giá các khía cạnh trong miền
dữ liệu
2. Đầu ra: Tập các bộ ba cảm xúc. Một bộ ba cảm xúc được định nghĩa
gồm: từ chỉ khía cạnh, từ chỉ cảm xúc và nhãn phân cực cảm xúc.
Ví dụ:
8. 8
2. Các nghiên cứu liên quan
Mô hình đường ống hai giai đoạn TSF
Gồm 2 giai đoạn:
• Đồng thời xác định các cụm từ khía
cạnh và cụm từ ý kiến và hoán vị
thành tập các ứng cử viên.
• Tăng cường thông tin và đưa vào
mô-đun phân loại.
Nhược điểm:
• Lỗi xếp tầng
• Khó tối ưu hóa toàn cục.
9. 9
2. Các nghiên cứu liên quan
Cơ chế gán nhãn lưới GTS
Đặc điểm:
• Với câu đầu vào gồm n từ,
tạo một ma trận nxn.
• Học các đặc trưng và gán
nhãn cho từng cặp từ.
• Phương pháp chỉ gồm 1 bước
duy nhất, bỏ qua lỗi xếp
tầng.
Nhược điểm:
• Chưa tận dụng, khai thác
thông tin cú pháp, thẻ từ
loại.
10. 10
2. Các nghiên cứu liên quan
Mô hình SA-Transformer
Đặc điểm:
• Dựa trên cơ chế gán nhãn
lưới GTS.
• Tăng cường thông tin cú
pháp vào biểu diễn của câu
thông qua cơ chế SA-
Transformer.
• Cải thiện vấn đề cụm từ khía
cạnh, cụm từ ý kiến qua cơ
chế suy luận kề.
Nhược điểm:
• Chưa tận dụng thông tin thẻ
từ loại.
• Biểu diễn cặp từ còn đơn
giản (ghép nối biểu diễn của
từng từ trong cặp từ với
thông tin khoảng cách trên
cây cú pháp).
11. 11
NỘI DUNG
1. Giới thiệu đề tài
2. Các nghiên cứu liên
quan
3. Phương pháp đề xuất
4. Đánh giá thực nghiệm
5. Kết luận
12. 12
3. Phương pháp đề xuất
Mô hình đề xuất gồm 4 mô-đun:
1. Mô-đun biểu diễn câu
2. Mô-đun tăng cường thông
tin cú pháp
3. Mô-đun tích hợp
4. Mô-đun phân loại
13. 13
3. Phương pháp đề xuất
Mô-đun biểu diễn câu
Đầu vào: câu X gồm n từ.
Đầu tiên, X được đưa qua nhúng GloVe, thu được biểu diễn khởi tạo từ:
Biểu diễn này được đưa qua một mạng LSTM 2 chiều:
Dùng toán tử ghép nối, thu được biểu diễn ẩn của từ i:
14. 14
3. Phương pháp đề xuất
Mô-đun biểu diễn câu
Sử dụng SpaCy để tạo thẻ từ loại cho câu đầu vào, đưa qua một ma trận
nhúng từ loại, thu được chuỗi nhúng từ loại cho câu đầu vào:
Thực hiện ghép nối nhúng từ với nhúng từ loại tương ứng của nó, thu
được biểu diễn câu đầu vào:
15. 15
3. Phương pháp đề xuất
Mô-đun tăng cường thông tin cú pháp
Cơ chế chú ý cạnh kề (Adjacent Edge Attention)
Sử dụng SpaCy để phân tích ra các quan hệ phụ thuộc trong câu.
Phân tích thành 2 ma trận A (ma trận kề) và ma trận R (ma trận quan hệ)
16. 16
3. Phương pháp đề xuất
Mô-đun tăng cường thông tin cú pháp
Đưa ma trận R qua một ma trận nhúng cạnh
thu được biểu diễn khởi tạo cạnh
Z =z,j
Ma trận kề A=,j và R = ,j được đưa vào để
học biểu diễn cạnh giữa 2 từ xi và xj dựa
trên các cạnh kề với xi thông qua cơ chế chú
ý đa đầu:
17. 17
3. Phương pháp đề xuất
Mô-đun tăng cường thông tin cú pháp
Tương tự, học biểu diễn cạnh giữa 2 từ xi và
xj dựa trên các cạnh kề với xj
Gộp 2 thông tin này qua một cơ chế cổng để
tạo thành biểu diễn cạnh giữa 2 từ xi và xj
18. 18
3. Phương pháp đề xuất
Mô-đun tăng cường thông tin cú pháp
Tích hợp thông tin cú pháp vào biểu diễn câu
Biểu diễn cạnh E vừa học được sẽ được
thêm vào vec-tơ biểu diễn từ qua cơ
chế chú ý đa đầu
SA-Transformer gồm L lớp
Mỗi lớp được tính bởi biểu diễn của lớp
hiện tại và lớp trước:
Trong đó:
19. 19
3. Phương pháp đề xuất
Mô-đun tăng cường thông tin cú pháp
Tích hợp thông tin cú pháp vào biểu diễn câu
Mỗi biểu diễn từ đều được tăng
cường thêm thông tin cú pháp qua cơ
chế attention:
20. 20
3. Phương pháp đề xuất
Mô-đun tích hợp
Cơ chế Biaffine Attention lần đầu được
giới thiệu vào năm 2017 trong bài toán
phân tích quan hệ phụ thuộc dựa trên
mạng nơ-ron.
Đặc điểm:
• Tính toán trọng số chú ý giữa các
cặp từ trong câu.
• Sử dụng một hàm ánh xạ tuyến tính
và song tuyến tính.
21. 21
3. Phương pháp đề xuất
Mô-đun tích hợp
Tăng cường thêm thông tin quan hệ
qua lớp Biaffine Attention
Ghép nối các thông tin cần thiết, ta thu
được biểu diễn cặp từ, là đầu vào cho
mô-đun phân loại:
22. 22
3. Phương pháp đề xuất
Mô-đun phân loại
Xem xét đến các thẻ kề với thẻ hiện tại thông qua cơ chế suy luận kề gồm T
vòng lặp
Tính phân phối xác suất của thẻ liền kề
Tính toán lại phân phối xác suất của thẻ hiện tại
Gộp thông tin qua một hàm cổng
Sau T lần lặp, thu được
23. 23
3. Phương pháp đề xuất
Huấn luyện mô hình
Sử dụng hàm mất mát entropy chéo (cross entropy)
Việc thêm hàm mất mát tại đầu ra của lớp Biaffine Attention có tác
dụng:
• Hiệu chỉnh mô hình tốt hơn
• Luồng đạo hàm tốt hơn
24. 24
NỘI DUNG
1. Giới thiệu đề tài
2. Các nghiên cứu liên
quan
3. Phương pháp đề xuất
4. Đánh giá thực nghiệm
5. Kết luận
25. 25
4. Đánh giá thực nghiệm
Độ đo đánh giá
Các độ đo chính xác, đầy đủ và
trung bình điều hòa:
Các độ đo vi mô:
26. 26
4. Đánh giá thực nghiệm
Dữ liệu huấn luyện
Mô hình được thực hiện huấn luyện và đánh giá trên hai tập dữ liệu Res14 và
Lap14
Thống kê tập Res14
Thống kê tập Lap14
27. 27
4. Đánh giá thực nghiệm
Tiền xử lý dữ liệu
• Đánh chỉ số cho các từ xuất hiện trong tập huấn luyện và lưu vào file
word2idx.json
• Sử dụng công cụ SpaCy để lấy ra thẻ từ loại, sau đó lưu vào file .posTagging
• Sử dụng công cụ SpaCy để lấy ra thông tin quan hệ phụ thuộc, sau đó phân
tách thành ma trận để lưu vào file .dependency
• Từ ma trận trên, trích xuất thông tin khoảng cách trên cây cú pháp và lưu
vào file .syntaxPosition
28. 28
4. Đánh giá thực nghiệm
Cấu hình thử nghiệm
• Số epoch huấn luyện là 150 với thuật toán tối ưu Adam.
• Kích thước lô huấn luyện là 16.
• Số lượng lớp SA-Transformer: 3 với tập Res14 và 2 với tập Lap14
• Số lượng vòng lặp T trong mô-đun phân loại: 2
• Số lượng đầu chú ý trong lớp chú ý đa đầu: 5
• Tốc độ học: 1e−3
29. 29
4. Đánh giá thực nghiệm
Hiệu năng của mô hình đề xuất so với các mô hình
tham chiếu
Tập Res14
Tập Lap14
30. 30
4. Đánh giá thực nghiệm
Ảnh hưởng của các thành phần trong mô hình đề
xuất
Tập Res14
Tập Lap14
32. 32
NỘI DUNG
1. Giới thiệu đề tài
2. Các nghiên cứu liên
quan
3. Phương pháp đề xuất
4. Đánh giá thực nghiệm
5. Kết luận
33. 33
5. Kết luận
Kết luận
• Đồ án đã cải thiện mô hình SA-Transformer với tác vụ trích xuất
bộ ba cảm xúc theo khía cạnh đạt kết quả tốt hơn và chạy ổn
định trên tập dữ liệu Res14 và Lap14.
• Đóng góp:
1. Thực hiện nhúng từ loại vào biểu diễn từ.
2. Tăng cường thêm thông tin quan hệ của lớp Biaffine Attention
vào biểu diễn thẻ cặp từ.
34. 34
5. Kết luận
Hướng phát triển trong tương lai
• Thực hiện mô hình với các kỹ thuật nhúng từ hiện đại hơn
như BERT, Sentence-Transformer
• Áp dụng kỹ thuật học tăng cường từ phản hồi của người
dùng Reinforcement Learning from Human Feedback – RLHF.
• Nâng cấp cấu hình thiết bị tránh những hạn chế trong quá
trình huấn luyện và đánh giá, tránh sự sụt giảm kết quả.
#16:Biểu diễn của đầu chú ý thứ m học biểu diễn cạnh i,j dựa trên các cạnh kề với đỉnh i
#17:Cổng quyết định mức độ đóng góp thông tin giữa 2 đầu
#18:Dg là biểu diễn thông tin của câu được tăng cường thông tin cú pháp tại đầu thứ g.
#20:SA-Transformer và một số mô hình trước đây chỉ xem xét ghép nối biểu diễn của cặp từ làm đầu vào cho lớp phân loại thực thể [1], [8]. Tuy nhiên, cách tiếp cận này không nắm bắt được đầy đủ thông tin trong các đặc trưng được ghép nối. Để tạo ra biểu diễn mang nhiều thông tin hơn, tôi đề xuất sử dụng một mạng Biaffine Attention để thu được thêm thông tin biểu diễn quan hệ giữa các cặp từ với hy vọng cải thiện hiệu suất của tác vụ phân loại nhãn cho cặp từ
#23:Khi thêm một loss vào đầu ra của lớp Biaffine, tôi buộc mô hình tại lớp này phải học các đặc trưng có ý nghĩa hơn. Hàm loss tại biểu diễn đầu ra Biaffine attention như một tín hiệu hướng dẫn sớm. Nó giúp kết quả sau lớp Biaffine phù hợp hơn với mục tiêu đầu ra cuối cùng, thay vì chỉ dựa vào việc học ngẫu nhiên qua tầng kế tiếp. Điều này giúp tránh việc các đặc trưng từ lớp này trở nên quá phức tạp hoặc nhiễu, từ đó cải thiện khả năng tổng quát hóa của mô hình
Khi thêm một loss tại lớp Biaffine, tôi đã thêm một đường dẫn ngược( backpropagation) mới cho gradient. Điều này giúp giảm thiểu tình trạng gradient suy biến (độ lớn gradient giảm dần qua các tầng), đặc biệt trong các mô hình sâu. Lớp này sẽ được cập nhật hiệu quả hơn, cải thiện chất lượng đầu ra của nó
#31:Ởmẫu a, mô hình chỉ bắt được từ chỉ khía cạnh là "delivery", không đầy đủ là "delivery times". Ở mẫu b, mô hình bắt thừa từ chỉ ý kiến là "hot ready" (thực tế chỉ có "hot"). Ở mẫu c, mô hình dự đoán sai do sự phức tạp về mặt ngữ nghĩa.
Lỗi phổ biến nhất là mô hình đề xuất có thể dự đoán sai span, so với kết quả thực tế chỉ sai khác một vài từ, thường là các từ/cụm từ bổ nghĩa như tính từ, trạng từ, .... Lỗi này thường hay xuất hiện, đặc biệt trên tập dữ liệu theo miền cụ thể như Lap14 hay Res14
Đôi khi mô hình dự đoán đúng các mối quan hệ so với cách gán nhãn nhưng chúng lại không đúng trong thực tế. Ví dụ trong câu: "The menu is interesting and quite reasonably priced .", cụm từ "reasonably priced" vừa là từ chỉ ý kiến ứng với từ chỉ khía cạnh "menu", tuy nhiên chúng cũng có thể tách ra thành từ chỉ ý kiến là "reasonably" và từ chỉ khía cạnh "priced".
#35:Độ đo F1-score được ưu tiên sử dụng thay cho Accuracy trong một số trường hợp cụ thể bởi vì nó phản ánh tốt hơn hiệu suất của mô hình trong các tình huống có sự mất cân bằng giữa các lớp dữ liệu.
Cả lỗi dương tính giả (False Positive) và âm tính giả (False Negative) đều quan trọng.Bạn muốn đảm bảo rằng mô hình vừa nhận diện đúng các mẫu dương, vừa không dự đoán sai quá nhiều.