1. BÁO CÁO ĐỒ ÁN CUỐI
KỲ Môn: Lập trình Python
GV: ThS. Trần Quang Khải
Đề tài
TRUY XUẤT DỮ LIỆU
VÀ
PHÂN TÍCH
HÀNH VI NGƯỜI
DÙNG REDDIT
2. BÁO CÁO ĐỒ ÁN CUỐI
KỲ Môn: Lập trình Python
GV: ThS. Trần Quang Khải
Đề tài
TRUY XUẤT DỮ LIỆU
VÀ
PHÂN TÍCH
HÀNH VI NGƯỜI
DÙNG REDDIT
NHÓM BÁO
CÁO
Trần Quang Minh -
23110269
Huỳnh Duy Nguyên -
23110270
Trần Trí Tình -
23110341
3. MỞ
ĐẦU
1.
Lý do
chọn đề tài
2.
Mục tiêu
đề tài
3.
Đối tượng
nghiên cứu
• Khám phá hành vi, xu hướng, sở thích của cộng đồng
trên nền tảng trực tuyến lớn nhất thế giới.
• Reddit là nguồn dữ liệu phong phú, đa dạng, hữu ích
trong tiếp thị, nghiên cứu xã hội học và phân tích tâm lý.
4. MỞ
ĐẦU
1.
Lý do
chọn đề tài
2.
Mục tiêu
đề tài
3.
Đối tượng
nghiên cứu
• Nghiên cứu phương pháp khai thác dữ liệu từ API
Reddit.
• Xây dựng quy trình hoàn chỉnh: truy xuất, làm sạch, phân
tích dữ liệu.
• Phát triển công cụ trực quan hóa và ứng dụng kết quả
vào nghiên cứu thực tiễn.
• Khám phá hành vi, xu hướng, sở thích của cộng đồng
trên nền tảng trực tuyến lớn nhất thế giới.
• Reddit là nguồn dữ liệu phong phú, đa dạng, hữu ích
trong tiếp thị, nghiên cứu xã hội học và phân tích tâm lý.
5. MỞ
ĐẦU
1.
Lý do
chọn đề tài
2.
Mục tiêu
đề tài
3.
Đối tượng
nghiên cứu
• Nghiên cứu phương pháp khai thác dữ liệu từ API
Reddit.
• Xây dựng quy trình hoàn chỉnh: truy xuất, làm sạch, phân
tích dữ liệu.
• Phát triển công cụ trực quan hóa và ứng dụng kết quả
vào nghiên cứu thực tiễn.
• Khám phá hành vi, xu hướng, sở thích của cộng đồng
trên nền tảng trực tuyến lớn nhất thế giới.
• Reddit là nguồn dữ liệu phong phú, đa dạng, hữu ích
trong tiếp thị, nghiên cứu xã hội học và phân tích tâm lý.
• Bài đăng công khai trên Reddit, dựa vào các subreddit
• Tuân thủ quy định quyền riêng tư và giới hạn từ API
chính thức của Reddit.
6. I.
CƠ SỞ LÝ THUYẾT
1. Giới thiệu API và
API của Reddit
2.Phương pháp truy
cập dữ liệu từ API
7. I.
CƠ SỞ LÝ THUYẾT
1. Giới thiệu API và
API của Reddit
2.Phương pháp truy
cập dữ liệu từ API
API là gì?
• Tập hợp giao diện và phương thức cho
phép các ứng dụng giao tiếp.
• Hoạt động như cầu nối giữa các hệ
thống.
API của Reddit:
• Cung cấp quyền truy cập dữ liệu công
khai
• Giao thức RESTful: Gửi yêu cầu HTTP,
nhận dữ liệu dạng JSON.
8. I.
CƠ SỞ LÝ THUYẾT
1. Giới thiệu API và
API của Reddit
2.Phương pháp truy
cập dữ liệu từ API
• Dữ liệu công khai: Không cần
đăng nhập, truy cập dễ dàng.
• Cần token được cấp qua OAuth
2.0 để thực hiện
9. II
.
MÔ TẢ DỮ LIỆU
VÀ TRUY XUẤT
1.Trường dữ liệu và
dữ liệu thu thập
2. Quy trình truy xuất
dữ liệu
10. II
.
MÔ TẢ DỮ LIỆU
VÀ TRUY XUẤT
1.Trường dữ liệu và
dữ liệu thu thập
2. Quy trình truy xuất
dữ liệu
11. II
.
MÔ TẢ DỮ LIỆU
VÀ TRUY XUẤT
1.Trường dữ liệu và
dữ liệu thu thập
2. Quy trình truy xuất
dữ liệu
Cài đặt
thư viện
Kết nối
API Reddit
Truy xuất
dữ liệu
Xử lý và
Lưu trữ
12. II
.
MÔ TẢ DỮ LIỆU
VÀ TRUY XUẤT
1.Trường dữ liệu và
dữ liệu thu thập
2. Quy trình truy xuất
dữ liệu
Cài đặt
thư viện
Kết nối
API Reddit
Truy xuất
dữ liệu
Xử lý và
Lưu trữ
13. II
.
MÔ TẢ DỮ LIỆU
VÀ TRUY XUẤT
1.Trường dữ liệu và
dữ liệu thu thập
2. Quy trình truy xuất
dữ liệu
Cài đặt
thư viện
Kết nối
API Reddit
Truy xuất
dữ liệu
Xử lý và
Lưu trữ
14. II
.
MÔ TẢ DỮ LIỆU
VÀ TRUY XUẤT
1.Trường dữ liệu và
dữ liệu thu thập
2. Quy trình truy xuất
dữ liệu
Cài đặt
thư viện
Kết nối
API Reddit
Truy xuất
dữ liệu
Xử lý và
Lưu trữ
15. II
.
MÔ TẢ DỮ LIỆU
VÀ TRUY XUẤT
1.Trường dữ liệu và
dữ liệu thu thập
2. Quy trình truy xuất
dữ liệu
Cài đặt
thư viện
Kết nối
API Reddit
Truy xuất
dữ liệu
Xử lý và
Lưu trữ
16. III.
PHÂN TÍCH
DỮ LIỆU
1. Tiền xử lý
3. Phân tích dữ liệu
bằng biểu đồ
2. Chức năng thao tác
trên tập dữ liệu
17. III.
PHÂN TÍCH
DỮ LIỆU
1. Tiền xử lý
3. Phân tích dữ liệu
bằng biểu đồ
2. Chức năng thao tác
trên tập dữ liệu
Loại bỏ bài viết không hợp lệ:
• Thiếu giá trị thuộc tính hoặc chứa giá trị
không mong muốn.
• Không đúng số ký tự phân cách quy định.
• Bài viết trùng lặp (dựa trên ID).
Lợi ích:
• Giảm thiểu lỗi trong dữ liệu đầu vào.
• Tăng độ chính xác khi phân tích và khai
thác thông tin từ người dùng Reddit.
18. III.
PHÂN TÍCH
DỮ LIỆU
1. Tiền xử lý
3. Phân tích dữ liệu
bằng biểu đồ
2. Chức năng thao tác
trên tập dữ liệu
CRU
D
Create:
Thêm mới dữ
liệu, đảm bảo
cập nhật và mở
rộng thông tin.
Read:
Xem, tìm kiếm,
và phân tích sơ
bộ dữ liệu hiện
có.
Update:
Đồng bộ hóa
thông tin để
đảm bảo tính
chính xác.
Delete:
Loại bỏ dữ liệu
không cần thiết,
tối ưu hóa dung
lượng lưu trữ.
19. III.
PHÂN TÍCH
DỮ LIỆU
1. Tiền xử lý
3. Phân tích dữ liệu
bằng biểu đồ
2. Chức năng thao tác
trên tập dữ liệu
Phân tích tỷ lệ bài viết có chứa nội dung 18
Mô tả:
• Biểu đồ tròn giúp so sánh tỷ lệ phần trăm giữa
nội dung người lớn và nội dung phổ biến trên
Reddit.
• Giúp người quản lý hoặc phân tích nội dung
đưa ra quyết định về quản lý nội dung người
lớn.
• Cung cấp thông tin quan trọng cho người dùng
về sự phù hợp của Reddit với trẻ em và thanh
thiếu niên.
• Lợi ích: Hiểu rõ sự phân bố nội dung và kỳ vọng
khi sử dụng nền tảng.
20. III.
PHÂN TÍCH
DỮ LIỆU
1. Tiền xử lý
3. Phân tích dữ liệu
bằng biểu đồ
2. Chức năng thao tác
trên tập dữ liệu
Phân tích tỷ lệ bài viết có chứa nội dung 18
Biểu đồ tròn phân tích nội dung người lớn trên
Reddit
21. III.
PHÂN TÍCH
DỮ LIỆU
1. Tiền xử lý
3. Phân tích dữ liệu
bằng biểu đồ
2. Chức năng thao tác
trên tập dữ liệu
Phân tích tỷ lệ bài viết có chứa nội dung 18
• Tỷ lệ chênh lệch lớn (99% vs 1%)
cho thấy:
• Kiểm soát mạnh mẽ từ nền
tảng.
• Chính sách nghiêm ngặt và hiệu
quả trong việc hạn chế nội dung
nhạy cảm.
• Người dùng có xu hướng tự
kiểm duyệt cao.
22. III.
PHÂN TÍCH
DỮ LIỆU
1. Tiền xử lý
3. Phân tích dữ liệu
bằng biểu đồ
2. Chức năng thao tác
trên tập dữ liệu
Phân tích so sánh các bài viết
nhiều tương tác nhất
Biểu đồ thanh ngang so sánh các bài viết thu hút nhất
23. III.
PHÂN TÍCH
DỮ LIỆU
1. Tiền xử lý
3. Phân tích dữ liệu
bằng biểu đồ
2. Chức năng thao tác
trên tập dữ liệu
Phân tích so sánh các bài viết
nhiều tương tác nhất
• Nổi bật, khả năng gây tranh luận
lớn hoặc có yếu tố gây sốc.
• Nội dung thường tập trung vào
giải trí, người nổi tiếng, hoặc sự
kiện thời sự.
24. III.
PHÂN TÍCH
DỮ LIỆU
1. Tiền xử lý
3. Phân tích dữ liệu
bằng biểu đồ
2. Chức năng thao tác
trên tập dữ liệu
Biểu đồ phân phối thể hiện giờ đăng các bài viết trong ngày
Phân tích bài viết
theo giờ đăng trong ngày
25. III.
PHÂN TÍCH
DỮ LIỆU
1. Tiền xử lý
3. Phân tích dữ liệu
bằng biểu đồ
2. Chức năng thao tác
trên tập dữ liệu
Phân tích bài viết
theo giờ đăng trong ngày
Cao điểm:
• 16-22h: Thời gian nghỉ ngơi thông
thường, liên quan đến lịch trình sinh
hoạt hằng ngày
Để tiếp cận đến nhiều người nhất: 16h,
10h, 17h, 19h và 21h.
26. III.
PHÂN TÍCH
DỮ LIỆU
1. Tiền xử lý
3. Phân tích dữ liệu
bằng biểu đồ
2. Chức năng thao tác
trên tập dữ liệu
Biểu đồ phân phối so sánh số lượng các bài viết theo ty lệ upvote
Phân tích số lượng các bài viết
được quan tâm theo tỷ lệ upvote
27. III.
PHÂN TÍCH
DỮ LIỆU
1. Tiền xử lý
3. Phân tích dữ liệu
bằng biểu đồ
2. Chức năng thao tác
trên tập dữ liệu
• Chất lượng nội dung tương đối cao
• Bài đăng đáp ứng nhu cầu phần lớn cộng
đồng
• Khuyến khích tạo thêm nội dung cho nền
tảng
Phần lớn bài đăng nhận được đánh giá tích
cực, cho thấy chất lượng nội dung cao và sự
đồng thuận từ cộng đồng.
Phân tích số lượng các bài viết
được quan tâm theo tỷ lệ upvote
28. III.
PHÂN TÍCH
DỮ LIỆU
1. Tiền xử lý
3. Phân tích dữ liệu
bằng biểu đồ
2. Chức năng thao tác
trên tập dữ liệu
Biêu đồ tròn thể hiện tỉ lệ xuất hiện của từ khóa ‘Rap’
Phân tích tần suất xuất hiện
của từ khóa
29. III.
PHÂN TÍCH
DỮ LIỆU
1. Tiền xử lý
3. Phân tích dữ liệu
bằng biểu đồ
2. Chức năng thao tác
trên tập dữ liệu
Phân tích tần suất xuất hiện
của từ khóa
• Chứa từ khóa "rap" (1%): Đại diện
một phần nhỏ bài viết, cho thấy chủ
đề này chỉ nhận được sự quan tâm
hạn chế.
• Không chứa từ khóa "rap" (90%):
Phần lớn bài viết không đề cập đến
chủ đề này.
• Chủ đề "rap" chưa phải điểm nhấn
chính trên Reddit tại thời điểm
phân tích.
31. IV.
XÂY
DỰNG
GIAO
DIỆN
1.Định nghĩa mục tiêu
và yêu cầu từ người
dùng
2. Mô tả kiến trúc giao
diện
• Giao diện (Interface) là cách thức mà người
dùng hoặc các hệ thống tương tác với nhau,
thông qua các phương thức giao tiếp.
• Nó giúp tạo ra sự kết nối giữa người sử dụng và
phần mềm, thiết bị, hoặc giữa các hệ thống
khác nhau, từ đó nâng cao hiệu quả và trải
nghiệm người dùng.
32. IV.
XÂY
DỰNG
GIAO
DIỆN
1.Định nghĩa mục tiêu
và yêu cầu từ người
dùng
2. Mô tả kiến trúc giao
diện
Mục tiêu và yêu cầu từ người dùng:
• Hiển thị rõ ràng
• Tương tác linh hoạt
• Hỗ trợ quyết định
• Trải nghiệm người dùng tối ưu
Mục tiêu là tạo ra một công cụ giúp người dùng
phân tích và hiểu dữ liệu hiệu quả, dễ dàng.
42. IV.
HƯỚNG PHÁT
TRIỂN DỰ ÁN
• Chưa mang hết tính năng lên GUI
• Tổ chức các file rối
• Bố cục giao diện chưa tiện cho người dùng
• Cơ bản hoàn thành các chức năng
• Tìm hiểu thêm về xử lí dữ liệu
• Đề tài có ứng dụng
• Hoàn thiện các năng còn thiếu
• Tổ chức lại các file
• Chỉnh sửa cho tiện với người dùng