SlideShare a Scribd company logo
BÁO CÁO ĐỒ ÁN CUỐI
KỲ Môn: Lập trình Python
GV: ThS. Trần Quang Khải
Đề tài
TRUY XUẤT DỮ LIỆU
VÀ
PHÂN TÍCH
HÀNH VI NGƯỜI
DÙNG REDDIT
BÁO CÁO ĐỒ ÁN CUỐI
KỲ Môn: Lập trình Python
GV: ThS. Trần Quang Khải
Đề tài
TRUY XUẤT DỮ LIỆU
VÀ
PHÂN TÍCH
HÀNH VI NGƯỜI
DÙNG REDDIT
NHÓM BÁO
CÁO
Trần Quang Minh -
23110269
Huỳnh Duy Nguyên -
23110270
Trần Trí Tình -
23110341
MỞ
ĐẦU
1.
Lý do
chọn đề tài
2.
Mục tiêu
đề tài
3.
Đối tượng
nghiên cứu
• Khám phá hành vi, xu hướng, sở thích của cộng đồng
trên nền tảng trực tuyến lớn nhất thế giới.
• Reddit là nguồn dữ liệu phong phú, đa dạng, hữu ích
trong tiếp thị, nghiên cứu xã hội học và phân tích tâm lý.
MỞ
ĐẦU
1.
Lý do
chọn đề tài
2.
Mục tiêu
đề tài
3.
Đối tượng
nghiên cứu
• Nghiên cứu phương pháp khai thác dữ liệu từ API
Reddit.
• Xây dựng quy trình hoàn chỉnh: truy xuất, làm sạch, phân
tích dữ liệu.
• Phát triển công cụ trực quan hóa và ứng dụng kết quả
vào nghiên cứu thực tiễn.
• Khám phá hành vi, xu hướng, sở thích của cộng đồng
trên nền tảng trực tuyến lớn nhất thế giới.
• Reddit là nguồn dữ liệu phong phú, đa dạng, hữu ích
trong tiếp thị, nghiên cứu xã hội học và phân tích tâm lý.
MỞ
ĐẦU
1.
Lý do
chọn đề tài
2.
Mục tiêu
đề tài
3.
Đối tượng
nghiên cứu
• Nghiên cứu phương pháp khai thác dữ liệu từ API
Reddit.
• Xây dựng quy trình hoàn chỉnh: truy xuất, làm sạch, phân
tích dữ liệu.
• Phát triển công cụ trực quan hóa và ứng dụng kết quả
vào nghiên cứu thực tiễn.
• Khám phá hành vi, xu hướng, sở thích của cộng đồng
trên nền tảng trực tuyến lớn nhất thế giới.
• Reddit là nguồn dữ liệu phong phú, đa dạng, hữu ích
trong tiếp thị, nghiên cứu xã hội học và phân tích tâm lý.
• Bài đăng công khai trên Reddit, dựa vào các subreddit
• Tuân thủ quy định quyền riêng tư và giới hạn từ API
chính thức của Reddit.
I.
CƠ SỞ LÝ THUYẾT
1. Giới thiệu API và
API của Reddit
2.Phương pháp truy
cập dữ liệu từ API
I.
CƠ SỞ LÝ THUYẾT
1. Giới thiệu API và
API của Reddit
2.Phương pháp truy
cập dữ liệu từ API
API là gì?
• Tập hợp giao diện và phương thức cho
phép các ứng dụng giao tiếp.
• Hoạt động như cầu nối giữa các hệ
thống.
API của Reddit:
• Cung cấp quyền truy cập dữ liệu công
khai
• Giao thức RESTful: Gửi yêu cầu HTTP,
nhận dữ liệu dạng JSON.
I.
CƠ SỞ LÝ THUYẾT
1. Giới thiệu API và
API của Reddit
2.Phương pháp truy
cập dữ liệu từ API
• Dữ liệu công khai: Không cần
đăng nhập, truy cập dễ dàng.
• Cần token được cấp qua OAuth
2.0 để thực hiện
II
.
MÔ TẢ DỮ LIỆU
VÀ TRUY XUẤT
1.Trường dữ liệu và
dữ liệu thu thập
2. Quy trình truy xuất
dữ liệu
II
.
MÔ TẢ DỮ LIỆU
VÀ TRUY XUẤT
1.Trường dữ liệu và
dữ liệu thu thập
2. Quy trình truy xuất
dữ liệu
II
.
MÔ TẢ DỮ LIỆU
VÀ TRUY XUẤT
1.Trường dữ liệu và
dữ liệu thu thập
2. Quy trình truy xuất
dữ liệu
Cài đặt
thư viện
Kết nối
API Reddit
Truy xuất
dữ liệu
Xử lý và
Lưu trữ
II
.
MÔ TẢ DỮ LIỆU
VÀ TRUY XUẤT
1.Trường dữ liệu và
dữ liệu thu thập
2. Quy trình truy xuất
dữ liệu
Cài đặt
thư viện
Kết nối
API Reddit
Truy xuất
dữ liệu
Xử lý và
Lưu trữ
II
.
MÔ TẢ DỮ LIỆU
VÀ TRUY XUẤT
1.Trường dữ liệu và
dữ liệu thu thập
2. Quy trình truy xuất
dữ liệu
Cài đặt
thư viện
Kết nối
API Reddit
Truy xuất
dữ liệu
Xử lý và
Lưu trữ
II
.
MÔ TẢ DỮ LIỆU
VÀ TRUY XUẤT
1.Trường dữ liệu và
dữ liệu thu thập
2. Quy trình truy xuất
dữ liệu
Cài đặt
thư viện
Kết nối
API Reddit
Truy xuất
dữ liệu
Xử lý và
Lưu trữ
II
.
MÔ TẢ DỮ LIỆU
VÀ TRUY XUẤT
1.Trường dữ liệu và
dữ liệu thu thập
2. Quy trình truy xuất
dữ liệu
Cài đặt
thư viện
Kết nối
API Reddit
Truy xuất
dữ liệu
Xử lý và
Lưu trữ
III.
PHÂN TÍCH
DỮ LIỆU
1. Tiền xử lý
3. Phân tích dữ liệu
bằng biểu đồ
2. Chức năng thao tác
trên tập dữ liệu
III.
PHÂN TÍCH
DỮ LIỆU
1. Tiền xử lý
3. Phân tích dữ liệu
bằng biểu đồ
2. Chức năng thao tác
trên tập dữ liệu
Loại bỏ bài viết không hợp lệ:
• Thiếu giá trị thuộc tính hoặc chứa giá trị
không mong muốn.
• Không đúng số ký tự phân cách quy định.
• Bài viết trùng lặp (dựa trên ID).
Lợi ích:
• Giảm thiểu lỗi trong dữ liệu đầu vào.
• Tăng độ chính xác khi phân tích và khai
thác thông tin từ người dùng Reddit.
III.
PHÂN TÍCH
DỮ LIỆU
1. Tiền xử lý
3. Phân tích dữ liệu
bằng biểu đồ
2. Chức năng thao tác
trên tập dữ liệu
CRU
D
Create:
Thêm mới dữ
liệu, đảm bảo
cập nhật và mở
rộng thông tin.
Read:
Xem, tìm kiếm,
và phân tích sơ
bộ dữ liệu hiện
có.
Update:
Đồng bộ hóa
thông tin để
đảm bảo tính
chính xác.
Delete:
Loại bỏ dữ liệu
không cần thiết,
tối ưu hóa dung
lượng lưu trữ.
III.
PHÂN TÍCH
DỮ LIỆU
1. Tiền xử lý
3. Phân tích dữ liệu
bằng biểu đồ
2. Chức năng thao tác
trên tập dữ liệu
Phân tích tỷ lệ bài viết có chứa nội dung 18
Mô tả:
• Biểu đồ tròn giúp so sánh tỷ lệ phần trăm giữa
nội dung người lớn và nội dung phổ biến trên
Reddit.
• Giúp người quản lý hoặc phân tích nội dung
đưa ra quyết định về quản lý nội dung người
lớn.
• Cung cấp thông tin quan trọng cho người dùng
về sự phù hợp của Reddit với trẻ em và thanh
thiếu niên.
• Lợi ích: Hiểu rõ sự phân bố nội dung và kỳ vọng
khi sử dụng nền tảng.
III.
PHÂN TÍCH
DỮ LIỆU
1. Tiền xử lý
3. Phân tích dữ liệu
bằng biểu đồ
2. Chức năng thao tác
trên tập dữ liệu
Phân tích tỷ lệ bài viết có chứa nội dung 18
Biểu đồ tròn phân tích nội dung người lớn trên
Reddit
III.
PHÂN TÍCH
DỮ LIỆU
1. Tiền xử lý
3. Phân tích dữ liệu
bằng biểu đồ
2. Chức năng thao tác
trên tập dữ liệu
Phân tích tỷ lệ bài viết có chứa nội dung 18
• Tỷ lệ chênh lệch lớn (99% vs 1%)
cho thấy:
• Kiểm soát mạnh mẽ từ nền
tảng.
• Chính sách nghiêm ngặt và hiệu
quả trong việc hạn chế nội dung
nhạy cảm.
• Người dùng có xu hướng tự
kiểm duyệt cao.
III.
PHÂN TÍCH
DỮ LIỆU
1. Tiền xử lý
3. Phân tích dữ liệu
bằng biểu đồ
2. Chức năng thao tác
trên tập dữ liệu
Phân tích so sánh các bài viết
nhiều tương tác nhất
Biểu đồ thanh ngang so sánh các bài viết thu hút nhất
III.
PHÂN TÍCH
DỮ LIỆU
1. Tiền xử lý
3. Phân tích dữ liệu
bằng biểu đồ
2. Chức năng thao tác
trên tập dữ liệu
Phân tích so sánh các bài viết
nhiều tương tác nhất
• Nổi bật, khả năng gây tranh luận
lớn hoặc có yếu tố gây sốc.
• Nội dung thường tập trung vào
giải trí, người nổi tiếng, hoặc sự
kiện thời sự.
III.
PHÂN TÍCH
DỮ LIỆU
1. Tiền xử lý
3. Phân tích dữ liệu
bằng biểu đồ
2. Chức năng thao tác
trên tập dữ liệu
Biểu đồ phân phối thể hiện giờ đăng các bài viết trong ngày
Phân tích bài viết
theo giờ đăng trong ngày
III.
PHÂN TÍCH
DỮ LIỆU
1. Tiền xử lý
3. Phân tích dữ liệu
bằng biểu đồ
2. Chức năng thao tác
trên tập dữ liệu
Phân tích bài viết
theo giờ đăng trong ngày
Cao điểm:
• 16-22h: Thời gian nghỉ ngơi thông
thường, liên quan đến lịch trình sinh
hoạt hằng ngày
Để tiếp cận đến nhiều người nhất: 16h,
10h, 17h, 19h và 21h.
III.
PHÂN TÍCH
DỮ LIỆU
1. Tiền xử lý
3. Phân tích dữ liệu
bằng biểu đồ
2. Chức năng thao tác
trên tập dữ liệu
Biểu đồ phân phối so sánh số lượng các bài viết theo ty lệ upvote
Phân tích số lượng các bài viết
được quan tâm theo tỷ lệ upvote
III.
PHÂN TÍCH
DỮ LIỆU
1. Tiền xử lý
3. Phân tích dữ liệu
bằng biểu đồ
2. Chức năng thao tác
trên tập dữ liệu
• Chất lượng nội dung tương đối cao
• Bài đăng đáp ứng nhu cầu phần lớn cộng
đồng
• Khuyến khích tạo thêm nội dung cho nền
tảng
Phần lớn bài đăng nhận được đánh giá tích
cực, cho thấy chất lượng nội dung cao và sự
đồng thuận từ cộng đồng.
Phân tích số lượng các bài viết
được quan tâm theo tỷ lệ upvote
III.
PHÂN TÍCH
DỮ LIỆU
1. Tiền xử lý
3. Phân tích dữ liệu
bằng biểu đồ
2. Chức năng thao tác
trên tập dữ liệu
Biêu đồ tròn thể hiện tỉ lệ xuất hiện của từ khóa ‘Rap’
Phân tích tần suất xuất hiện
của từ khóa
III.
PHÂN TÍCH
DỮ LIỆU
1. Tiền xử lý
3. Phân tích dữ liệu
bằng biểu đồ
2. Chức năng thao tác
trên tập dữ liệu
Phân tích tần suất xuất hiện
của từ khóa
• Chứa từ khóa "rap" (1%): Đại diện
một phần nhỏ bài viết, cho thấy chủ
đề này chỉ nhận được sự quan tâm
hạn chế.
• Không chứa từ khóa "rap" (90%):
Phần lớn bài viết không đề cập đến
chủ đề này.
• Chủ đề "rap" chưa phải điểm nhấn
chính trên Reddit tại thời điểm
phân tích.
IV.
XÂY
DỰNG
GIAO
DIỆN
1.Định nghĩa mục tiêu
và yêu cầu từ người
dùng
2. Mô tả kiến trúc giao
diện
IV.
XÂY
DỰNG
GIAO
DIỆN
1.Định nghĩa mục tiêu
và yêu cầu từ người
dùng
2. Mô tả kiến trúc giao
diện
• Giao diện (Interface) là cách thức mà người
dùng hoặc các hệ thống tương tác với nhau,
thông qua các phương thức giao tiếp.
• Nó giúp tạo ra sự kết nối giữa người sử dụng và
phần mềm, thiết bị, hoặc giữa các hệ thống
khác nhau, từ đó nâng cao hiệu quả và trải
nghiệm người dùng.
IV.
XÂY
DỰNG
GIAO
DIỆN
1.Định nghĩa mục tiêu
và yêu cầu từ người
dùng
2. Mô tả kiến trúc giao
diện
Mục tiêu và yêu cầu từ người dùng:
• Hiển thị rõ ràng
• Tương tác linh hoạt
• Hỗ trợ quyết định
• Trải nghiệm người dùng tối ưu
Mục tiêu là tạo ra một công cụ giúp người dùng
phân tích và hiểu dữ liệu hiệu quả, dễ dàng.
IV.
XÂY
DỰNG
GIAO
DIỆN
1.Định nghĩa mục tiêu
và yêu cầu từ người
dùng
2. Mô tả kiến trúc giao
diện
Giao diện chính
Trang chủ
IV.
XÂY
DỰNG
GIAO
DIỆN
1.Định nghĩa mục tiêu
và yêu cầu từ người
dùng
2. Mô tả kiến trúc giao
diện
Giao diện tìm kiếm
Nhập từ khóa để tìm kiếm
IV.
XÂY
DỰNG
GIAO
DIỆN
1.Định nghĩa mục tiêu
và yêu cầu từ người
dùng
2. Mô tả kiến trúc giao
diện
Giao diện sắp xếp
Chọn kiểu sắp xếp ở menu
IV.
XÂY
DỰNG
GIAO
DIỆN
1.Định nghĩa mục tiêu
và yêu cầu từ người
dùng
2. Mô tả kiến trúc giao
diện
Giao diện xem dữ liệu
Xem dữ liệu được lọc ra
IV.
XÂY
DỰNG
GIAO
DIỆN
1.Định nghĩa mục tiêu
và yêu cầu từ người
dùng
2. Mô tả kiến trúc giao
diện
Thông tin bài đăng
Thông tin của từng bài đăng
IV.
XÂY
DỰNG
GIAO
DIỆN
1.Định nghĩa mục tiêu
và yêu cầu từ người
dùng
2. Mô tả kiến trúc giao
diện
Giao diện tạo biểu đồ
Tạo biểu đồ từ dữ liệu hiện có
IV.
XÂY
DỰNG
GIAO
DIỆN
1.Định nghĩa mục tiêu
và yêu cầu từ người
dùng
2. Mô tả kiến trúc giao
diện
Giao diện tạo biểu đồ
Biểu đồ được tạo từ chức năng
IV.
XÂY
DỰNG
GIAO
DIỆN
1.Định nghĩa mục tiêu
và yêu cầu từ người
dùng
2. Mô tả kiến trúc giao
diện
Giao diện thêm dữ liệu
Biểu đồ được tạo từ chức năng
IV.
HƯỚNG PHÁT
TRIỂN DỰ ÁN
IV.
HƯỚNG PHÁT
TRIỂN DỰ ÁN
• Chưa mang hết tính năng lên GUI
• Tổ chức các file rối
• Bố cục giao diện chưa tiện cho người dùng
• Cơ bản hoàn thành các chức năng
• Tìm hiểu thêm về xử lí dữ liệu
• Đề tài có ứng dụng
• Hoàn thiện các năng còn thiếu
• Tổ chức lại các file
• Chỉnh sửa cho tiện với người dùng
Thanks for your attention

More Related Content

PDF
Tìm hiểu MongoDB
PPTX
Analyze Facebook social networks using OrientDB NoSQL database management
PDF
Luận văn: Phương pháp xử lý phân tích trực tuyến áp dụng trong xây dựng hệ tr...
PDF
đề Tài xây dựng website tin tức cho trường thpt 2662447
PDF
Báo cáo thực tập công nghệ thông tin.
PDF
1_kl_trang_1__9358.pdf
PDF
sentiment analysis using bert hugging face
PDF
Luận văn: Bài toán khai thác thông tin về sản phẩm từ Web, HAY
Tìm hiểu MongoDB
Analyze Facebook social networks using OrientDB NoSQL database management
Luận văn: Phương pháp xử lý phân tích trực tuyến áp dụng trong xây dựng hệ tr...
đề Tài xây dựng website tin tức cho trường thpt 2662447
Báo cáo thực tập công nghệ thông tin.
1_kl_trang_1__9358.pdf
sentiment analysis using bert hugging face
Luận văn: Bài toán khai thác thông tin về sản phẩm từ Web, HAY

Similar to Slides for project about data management (20)

PPTX
Hệ thống phân tích tình trạng giao thông: Ứng dụng công cụ xử lý dữ liệu lớn...
PDF
Luan van
DOCX
KHAITHACDULIEU WEKA.docx
PDF
Bắt đầu nghiên cứu Big Data
DOC
Đồ Án Tốt Nghiệp Về Nghiên Cứu Và Đề Xuất Giải Pháp Tích Hợp Các Csdl Phân Tá...
DOC
Báo Cáo Bài Tập Lớn Môn Lập Trình Web Xây Dựng Website Tin Tức
DOC
Xây dựng website tin tức cho trường THPT
DOC
Luận Văn Xây Dựng Hệ Thống Quản Lý Thông Tin Tuyển Sinh Đại Học, Cao Đẳng Và ...
PPTX
Nhom 16 big data
PDF
Phan tich thiet_ke_he_thong_quan_ly_part_4
PDF
Phan tich thiet_ke_he_thong_quan_ly_part_4
PDF
Phan tich thiet_ke_he_thong_quan_ly_part_4
DOC
Đồ Án Tốt Nghiệp Về Các Phương Pháp Điều Khiển Tương Tranh Và Truy Cập Dữ Liệ...
DOCX
Quản lý hoạt động giảng dạy sử dụng ASP.NET
PPTX
Báo cáo bài tập Lưu trữ và xử lý dữ liệu lớn.pptx
PDF
Luận văn Ứng dụng khai thác dữ liệu để dự đoán sự tăng trưởng số thuê bao di ...
DOCX
Uml hà
PDF
Luận văn: Các kỹ thuật phân tích và lấy tin tự động từ Website
DOCX
TaiLieu KhaoSat.docx
PPTX
Gioi_thieu_mon_hoc CSDLNC.pptx
Hệ thống phân tích tình trạng giao thông: Ứng dụng công cụ xử lý dữ liệu lớn...
Luan van
KHAITHACDULIEU WEKA.docx
Bắt đầu nghiên cứu Big Data
Đồ Án Tốt Nghiệp Về Nghiên Cứu Và Đề Xuất Giải Pháp Tích Hợp Các Csdl Phân Tá...
Báo Cáo Bài Tập Lớn Môn Lập Trình Web Xây Dựng Website Tin Tức
Xây dựng website tin tức cho trường THPT
Luận Văn Xây Dựng Hệ Thống Quản Lý Thông Tin Tuyển Sinh Đại Học, Cao Đẳng Và ...
Nhom 16 big data
Phan tich thiet_ke_he_thong_quan_ly_part_4
Phan tich thiet_ke_he_thong_quan_ly_part_4
Phan tich thiet_ke_he_thong_quan_ly_part_4
Đồ Án Tốt Nghiệp Về Các Phương Pháp Điều Khiển Tương Tranh Và Truy Cập Dữ Liệ...
Quản lý hoạt động giảng dạy sử dụng ASP.NET
Báo cáo bài tập Lưu trữ và xử lý dữ liệu lớn.pptx
Luận văn Ứng dụng khai thác dữ liệu để dự đoán sự tăng trưởng số thuê bao di ...
Uml hà
Luận văn: Các kỹ thuật phân tích và lấy tin tự động từ Website
TaiLieu KhaoSat.docx
Gioi_thieu_mon_hoc CSDLNC.pptx
Ad

Recently uploaded (20)

PDF
BÀI TẬP TEST FOR UNIT TIẾNG ANH LỚP 8 GLOBAL SUCCESS CẢ NĂM THEO TỪNG ĐƠN VỊ ...
PPTX
Powerpoint cho Ke toan tai chinh KET307_Bai1_SV.pptx
PPT
Bài giảng Power Point 2003, hướng dẫn học tập
PDF
Quyền-biểu-tình-của-công-dân-theo-hiến-pháp-Việt-Nam.pdf
PPTX
Direct Marketing- chieu thi truyen thong
PPTX
White and Purple Modern Artificial Intelligence Presentation.pptx
PDF
BỘ TÀI LIỆU CHINH PHỤC ĐỈNH CAO TIẾNG ANH NĂM 2026 CHUYÊN ĐỀ ÔN HỌC SINH GIỎI...
PDF
PHÁT TRIỂN NĂNG LỰC KHÁM PHÁ TỰ NHIÊN CHO HỌC SINH TRONG DẠY HỌC CHỦ ĐỀ VẬT S...
DOC
TẦM QUAN TRỌNG CỦA VIỆC TUÂN THỦ CÁC QUY TẮC AN TOÀN GIAO THÔNG ĐƯỜNG BỘ
PPTX
Bài 6 Du an bua an ket noi yeu thuong.pptx
DOCX
Bài tập trăc nghiệm vận tốc. tốc độ trong chuyển động thẳng
PPTX
1 CHƯƠNG MÔT- KHÁI LUẬN VỀ TRIẾT HỌC (1) [Read-Only].pptx
DOCX
Luận văn group-Bài tiểu luận Ý thức - Giấc mơ.docx
PPTX
14. thoát vị bẹn nghẹt bệnh học ngoại khoa.pptx
PPT
SINH 8 TUYẾN YÊN TUYẾN GIÁP CÂU TẠO VÀ CHỨC NĂNG
PDF
12894-44864-1-CE-1037-1038_Văn bản của bài báo.pdf
PPTX
Tốc độ và vận tốc trong chuyển động thẳng
DOCX
6.CQ_KT_Ke toan tai chinh 2_Pham Thi Phuong Thao.docx
PPTX
24. 9cqbq2reu57m5igbsz-signature-40d40b8bd600bcde0d0584523c684ec4933c280de74a...
PDF
100-Mon-Ngon-Christine-Ha.pdfnfeifefefefef
BÀI TẬP TEST FOR UNIT TIẾNG ANH LỚP 8 GLOBAL SUCCESS CẢ NĂM THEO TỪNG ĐƠN VỊ ...
Powerpoint cho Ke toan tai chinh KET307_Bai1_SV.pptx
Bài giảng Power Point 2003, hướng dẫn học tập
Quyền-biểu-tình-của-công-dân-theo-hiến-pháp-Việt-Nam.pdf
Direct Marketing- chieu thi truyen thong
White and Purple Modern Artificial Intelligence Presentation.pptx
BỘ TÀI LIỆU CHINH PHỤC ĐỈNH CAO TIẾNG ANH NĂM 2026 CHUYÊN ĐỀ ÔN HỌC SINH GIỎI...
PHÁT TRIỂN NĂNG LỰC KHÁM PHÁ TỰ NHIÊN CHO HỌC SINH TRONG DẠY HỌC CHỦ ĐỀ VẬT S...
TẦM QUAN TRỌNG CỦA VIỆC TUÂN THỦ CÁC QUY TẮC AN TOÀN GIAO THÔNG ĐƯỜNG BỘ
Bài 6 Du an bua an ket noi yeu thuong.pptx
Bài tập trăc nghiệm vận tốc. tốc độ trong chuyển động thẳng
1 CHƯƠNG MÔT- KHÁI LUẬN VỀ TRIẾT HỌC (1) [Read-Only].pptx
Luận văn group-Bài tiểu luận Ý thức - Giấc mơ.docx
14. thoát vị bẹn nghẹt bệnh học ngoại khoa.pptx
SINH 8 TUYẾN YÊN TUYẾN GIÁP CÂU TẠO VÀ CHỨC NĂNG
12894-44864-1-CE-1037-1038_Văn bản của bài báo.pdf
Tốc độ và vận tốc trong chuyển động thẳng
6.CQ_KT_Ke toan tai chinh 2_Pham Thi Phuong Thao.docx
24. 9cqbq2reu57m5igbsz-signature-40d40b8bd600bcde0d0584523c684ec4933c280de74a...
100-Mon-Ngon-Christine-Ha.pdfnfeifefefefef
Ad

Slides for project about data management

  • 1. BÁO CÁO ĐỒ ÁN CUỐI KỲ Môn: Lập trình Python GV: ThS. Trần Quang Khải Đề tài TRUY XUẤT DỮ LIỆU VÀ PHÂN TÍCH HÀNH VI NGƯỜI DÙNG REDDIT
  • 2. BÁO CÁO ĐỒ ÁN CUỐI KỲ Môn: Lập trình Python GV: ThS. Trần Quang Khải Đề tài TRUY XUẤT DỮ LIỆU VÀ PHÂN TÍCH HÀNH VI NGƯỜI DÙNG REDDIT NHÓM BÁO CÁO Trần Quang Minh - 23110269 Huỳnh Duy Nguyên - 23110270 Trần Trí Tình - 23110341
  • 3. MỞ ĐẦU 1. Lý do chọn đề tài 2. Mục tiêu đề tài 3. Đối tượng nghiên cứu • Khám phá hành vi, xu hướng, sở thích của cộng đồng trên nền tảng trực tuyến lớn nhất thế giới. • Reddit là nguồn dữ liệu phong phú, đa dạng, hữu ích trong tiếp thị, nghiên cứu xã hội học và phân tích tâm lý.
  • 4. MỞ ĐẦU 1. Lý do chọn đề tài 2. Mục tiêu đề tài 3. Đối tượng nghiên cứu • Nghiên cứu phương pháp khai thác dữ liệu từ API Reddit. • Xây dựng quy trình hoàn chỉnh: truy xuất, làm sạch, phân tích dữ liệu. • Phát triển công cụ trực quan hóa và ứng dụng kết quả vào nghiên cứu thực tiễn. • Khám phá hành vi, xu hướng, sở thích của cộng đồng trên nền tảng trực tuyến lớn nhất thế giới. • Reddit là nguồn dữ liệu phong phú, đa dạng, hữu ích trong tiếp thị, nghiên cứu xã hội học và phân tích tâm lý.
  • 5. MỞ ĐẦU 1. Lý do chọn đề tài 2. Mục tiêu đề tài 3. Đối tượng nghiên cứu • Nghiên cứu phương pháp khai thác dữ liệu từ API Reddit. • Xây dựng quy trình hoàn chỉnh: truy xuất, làm sạch, phân tích dữ liệu. • Phát triển công cụ trực quan hóa và ứng dụng kết quả vào nghiên cứu thực tiễn. • Khám phá hành vi, xu hướng, sở thích của cộng đồng trên nền tảng trực tuyến lớn nhất thế giới. • Reddit là nguồn dữ liệu phong phú, đa dạng, hữu ích trong tiếp thị, nghiên cứu xã hội học và phân tích tâm lý. • Bài đăng công khai trên Reddit, dựa vào các subreddit • Tuân thủ quy định quyền riêng tư và giới hạn từ API chính thức của Reddit.
  • 6. I. CƠ SỞ LÝ THUYẾT 1. Giới thiệu API và API của Reddit 2.Phương pháp truy cập dữ liệu từ API
  • 7. I. CƠ SỞ LÝ THUYẾT 1. Giới thiệu API và API của Reddit 2.Phương pháp truy cập dữ liệu từ API API là gì? • Tập hợp giao diện và phương thức cho phép các ứng dụng giao tiếp. • Hoạt động như cầu nối giữa các hệ thống. API của Reddit: • Cung cấp quyền truy cập dữ liệu công khai • Giao thức RESTful: Gửi yêu cầu HTTP, nhận dữ liệu dạng JSON.
  • 8. I. CƠ SỞ LÝ THUYẾT 1. Giới thiệu API và API của Reddit 2.Phương pháp truy cập dữ liệu từ API • Dữ liệu công khai: Không cần đăng nhập, truy cập dễ dàng. • Cần token được cấp qua OAuth 2.0 để thực hiện
  • 9. II . MÔ TẢ DỮ LIỆU VÀ TRUY XUẤT 1.Trường dữ liệu và dữ liệu thu thập 2. Quy trình truy xuất dữ liệu
  • 10. II . MÔ TẢ DỮ LIỆU VÀ TRUY XUẤT 1.Trường dữ liệu và dữ liệu thu thập 2. Quy trình truy xuất dữ liệu
  • 11. II . MÔ TẢ DỮ LIỆU VÀ TRUY XUẤT 1.Trường dữ liệu và dữ liệu thu thập 2. Quy trình truy xuất dữ liệu Cài đặt thư viện Kết nối API Reddit Truy xuất dữ liệu Xử lý và Lưu trữ
  • 12. II . MÔ TẢ DỮ LIỆU VÀ TRUY XUẤT 1.Trường dữ liệu và dữ liệu thu thập 2. Quy trình truy xuất dữ liệu Cài đặt thư viện Kết nối API Reddit Truy xuất dữ liệu Xử lý và Lưu trữ
  • 13. II . MÔ TẢ DỮ LIỆU VÀ TRUY XUẤT 1.Trường dữ liệu và dữ liệu thu thập 2. Quy trình truy xuất dữ liệu Cài đặt thư viện Kết nối API Reddit Truy xuất dữ liệu Xử lý và Lưu trữ
  • 14. II . MÔ TẢ DỮ LIỆU VÀ TRUY XUẤT 1.Trường dữ liệu và dữ liệu thu thập 2. Quy trình truy xuất dữ liệu Cài đặt thư viện Kết nối API Reddit Truy xuất dữ liệu Xử lý và Lưu trữ
  • 15. II . MÔ TẢ DỮ LIỆU VÀ TRUY XUẤT 1.Trường dữ liệu và dữ liệu thu thập 2. Quy trình truy xuất dữ liệu Cài đặt thư viện Kết nối API Reddit Truy xuất dữ liệu Xử lý và Lưu trữ
  • 16. III. PHÂN TÍCH DỮ LIỆU 1. Tiền xử lý 3. Phân tích dữ liệu bằng biểu đồ 2. Chức năng thao tác trên tập dữ liệu
  • 17. III. PHÂN TÍCH DỮ LIỆU 1. Tiền xử lý 3. Phân tích dữ liệu bằng biểu đồ 2. Chức năng thao tác trên tập dữ liệu Loại bỏ bài viết không hợp lệ: • Thiếu giá trị thuộc tính hoặc chứa giá trị không mong muốn. • Không đúng số ký tự phân cách quy định. • Bài viết trùng lặp (dựa trên ID). Lợi ích: • Giảm thiểu lỗi trong dữ liệu đầu vào. • Tăng độ chính xác khi phân tích và khai thác thông tin từ người dùng Reddit.
  • 18. III. PHÂN TÍCH DỮ LIỆU 1. Tiền xử lý 3. Phân tích dữ liệu bằng biểu đồ 2. Chức năng thao tác trên tập dữ liệu CRU D Create: Thêm mới dữ liệu, đảm bảo cập nhật và mở rộng thông tin. Read: Xem, tìm kiếm, và phân tích sơ bộ dữ liệu hiện có. Update: Đồng bộ hóa thông tin để đảm bảo tính chính xác. Delete: Loại bỏ dữ liệu không cần thiết, tối ưu hóa dung lượng lưu trữ.
  • 19. III. PHÂN TÍCH DỮ LIỆU 1. Tiền xử lý 3. Phân tích dữ liệu bằng biểu đồ 2. Chức năng thao tác trên tập dữ liệu Phân tích tỷ lệ bài viết có chứa nội dung 18 Mô tả: • Biểu đồ tròn giúp so sánh tỷ lệ phần trăm giữa nội dung người lớn và nội dung phổ biến trên Reddit. • Giúp người quản lý hoặc phân tích nội dung đưa ra quyết định về quản lý nội dung người lớn. • Cung cấp thông tin quan trọng cho người dùng về sự phù hợp của Reddit với trẻ em và thanh thiếu niên. • Lợi ích: Hiểu rõ sự phân bố nội dung và kỳ vọng khi sử dụng nền tảng.
  • 20. III. PHÂN TÍCH DỮ LIỆU 1. Tiền xử lý 3. Phân tích dữ liệu bằng biểu đồ 2. Chức năng thao tác trên tập dữ liệu Phân tích tỷ lệ bài viết có chứa nội dung 18 Biểu đồ tròn phân tích nội dung người lớn trên Reddit
  • 21. III. PHÂN TÍCH DỮ LIỆU 1. Tiền xử lý 3. Phân tích dữ liệu bằng biểu đồ 2. Chức năng thao tác trên tập dữ liệu Phân tích tỷ lệ bài viết có chứa nội dung 18 • Tỷ lệ chênh lệch lớn (99% vs 1%) cho thấy: • Kiểm soát mạnh mẽ từ nền tảng. • Chính sách nghiêm ngặt và hiệu quả trong việc hạn chế nội dung nhạy cảm. • Người dùng có xu hướng tự kiểm duyệt cao.
  • 22. III. PHÂN TÍCH DỮ LIỆU 1. Tiền xử lý 3. Phân tích dữ liệu bằng biểu đồ 2. Chức năng thao tác trên tập dữ liệu Phân tích so sánh các bài viết nhiều tương tác nhất Biểu đồ thanh ngang so sánh các bài viết thu hút nhất
  • 23. III. PHÂN TÍCH DỮ LIỆU 1. Tiền xử lý 3. Phân tích dữ liệu bằng biểu đồ 2. Chức năng thao tác trên tập dữ liệu Phân tích so sánh các bài viết nhiều tương tác nhất • Nổi bật, khả năng gây tranh luận lớn hoặc có yếu tố gây sốc. • Nội dung thường tập trung vào giải trí, người nổi tiếng, hoặc sự kiện thời sự.
  • 24. III. PHÂN TÍCH DỮ LIỆU 1. Tiền xử lý 3. Phân tích dữ liệu bằng biểu đồ 2. Chức năng thao tác trên tập dữ liệu Biểu đồ phân phối thể hiện giờ đăng các bài viết trong ngày Phân tích bài viết theo giờ đăng trong ngày
  • 25. III. PHÂN TÍCH DỮ LIỆU 1. Tiền xử lý 3. Phân tích dữ liệu bằng biểu đồ 2. Chức năng thao tác trên tập dữ liệu Phân tích bài viết theo giờ đăng trong ngày Cao điểm: • 16-22h: Thời gian nghỉ ngơi thông thường, liên quan đến lịch trình sinh hoạt hằng ngày Để tiếp cận đến nhiều người nhất: 16h, 10h, 17h, 19h và 21h.
  • 26. III. PHÂN TÍCH DỮ LIỆU 1. Tiền xử lý 3. Phân tích dữ liệu bằng biểu đồ 2. Chức năng thao tác trên tập dữ liệu Biểu đồ phân phối so sánh số lượng các bài viết theo ty lệ upvote Phân tích số lượng các bài viết được quan tâm theo tỷ lệ upvote
  • 27. III. PHÂN TÍCH DỮ LIỆU 1. Tiền xử lý 3. Phân tích dữ liệu bằng biểu đồ 2. Chức năng thao tác trên tập dữ liệu • Chất lượng nội dung tương đối cao • Bài đăng đáp ứng nhu cầu phần lớn cộng đồng • Khuyến khích tạo thêm nội dung cho nền tảng Phần lớn bài đăng nhận được đánh giá tích cực, cho thấy chất lượng nội dung cao và sự đồng thuận từ cộng đồng. Phân tích số lượng các bài viết được quan tâm theo tỷ lệ upvote
  • 28. III. PHÂN TÍCH DỮ LIỆU 1. Tiền xử lý 3. Phân tích dữ liệu bằng biểu đồ 2. Chức năng thao tác trên tập dữ liệu Biêu đồ tròn thể hiện tỉ lệ xuất hiện của từ khóa ‘Rap’ Phân tích tần suất xuất hiện của từ khóa
  • 29. III. PHÂN TÍCH DỮ LIỆU 1. Tiền xử lý 3. Phân tích dữ liệu bằng biểu đồ 2. Chức năng thao tác trên tập dữ liệu Phân tích tần suất xuất hiện của từ khóa • Chứa từ khóa "rap" (1%): Đại diện một phần nhỏ bài viết, cho thấy chủ đề này chỉ nhận được sự quan tâm hạn chế. • Không chứa từ khóa "rap" (90%): Phần lớn bài viết không đề cập đến chủ đề này. • Chủ đề "rap" chưa phải điểm nhấn chính trên Reddit tại thời điểm phân tích.
  • 30. IV. XÂY DỰNG GIAO DIỆN 1.Định nghĩa mục tiêu và yêu cầu từ người dùng 2. Mô tả kiến trúc giao diện
  • 31. IV. XÂY DỰNG GIAO DIỆN 1.Định nghĩa mục tiêu và yêu cầu từ người dùng 2. Mô tả kiến trúc giao diện • Giao diện (Interface) là cách thức mà người dùng hoặc các hệ thống tương tác với nhau, thông qua các phương thức giao tiếp. • Nó giúp tạo ra sự kết nối giữa người sử dụng và phần mềm, thiết bị, hoặc giữa các hệ thống khác nhau, từ đó nâng cao hiệu quả và trải nghiệm người dùng.
  • 32. IV. XÂY DỰNG GIAO DIỆN 1.Định nghĩa mục tiêu và yêu cầu từ người dùng 2. Mô tả kiến trúc giao diện Mục tiêu và yêu cầu từ người dùng: • Hiển thị rõ ràng • Tương tác linh hoạt • Hỗ trợ quyết định • Trải nghiệm người dùng tối ưu Mục tiêu là tạo ra một công cụ giúp người dùng phân tích và hiểu dữ liệu hiệu quả, dễ dàng.
  • 33. IV. XÂY DỰNG GIAO DIỆN 1.Định nghĩa mục tiêu và yêu cầu từ người dùng 2. Mô tả kiến trúc giao diện Giao diện chính Trang chủ
  • 34. IV. XÂY DỰNG GIAO DIỆN 1.Định nghĩa mục tiêu và yêu cầu từ người dùng 2. Mô tả kiến trúc giao diện Giao diện tìm kiếm Nhập từ khóa để tìm kiếm
  • 35. IV. XÂY DỰNG GIAO DIỆN 1.Định nghĩa mục tiêu và yêu cầu từ người dùng 2. Mô tả kiến trúc giao diện Giao diện sắp xếp Chọn kiểu sắp xếp ở menu
  • 36. IV. XÂY DỰNG GIAO DIỆN 1.Định nghĩa mục tiêu và yêu cầu từ người dùng 2. Mô tả kiến trúc giao diện Giao diện xem dữ liệu Xem dữ liệu được lọc ra
  • 37. IV. XÂY DỰNG GIAO DIỆN 1.Định nghĩa mục tiêu và yêu cầu từ người dùng 2. Mô tả kiến trúc giao diện Thông tin bài đăng Thông tin của từng bài đăng
  • 38. IV. XÂY DỰNG GIAO DIỆN 1.Định nghĩa mục tiêu và yêu cầu từ người dùng 2. Mô tả kiến trúc giao diện Giao diện tạo biểu đồ Tạo biểu đồ từ dữ liệu hiện có
  • 39. IV. XÂY DỰNG GIAO DIỆN 1.Định nghĩa mục tiêu và yêu cầu từ người dùng 2. Mô tả kiến trúc giao diện Giao diện tạo biểu đồ Biểu đồ được tạo từ chức năng
  • 40. IV. XÂY DỰNG GIAO DIỆN 1.Định nghĩa mục tiêu và yêu cầu từ người dùng 2. Mô tả kiến trúc giao diện Giao diện thêm dữ liệu Biểu đồ được tạo từ chức năng
  • 42. IV. HƯỚNG PHÁT TRIỂN DỰ ÁN • Chưa mang hết tính năng lên GUI • Tổ chức các file rối • Bố cục giao diện chưa tiện cho người dùng • Cơ bản hoàn thành các chức năng • Tìm hiểu thêm về xử lí dữ liệu • Đề tài có ứng dụng • Hoàn thiện các năng còn thiếu • Tổ chức lại các file • Chỉnh sửa cho tiện với người dùng
  • 43. Thanks for your attention