SlideShare a Scribd company logo
2
Most read
3
Most read
Mục lục
HỌC PHẦN 1: FOUNDATIONS: DATA, DATA, EVERYWHERE..............................14
Tuần 1: Giới thiệu về Phân tích dữ liệu ................................................................................................... 14
Chương 1: Bắt đầu ................................................................................................................................. 14
Chào mừng đến với Chứng nhận nghề nghiệp Phân tích dữ liệu của Google......14
Giới thiệu về khóa học................................................................................................17
Chương 2: Chuyển đổi dữ liệu thành thông tin chi tiết ...................................................................... 19
Phân tích dữ liệu trong cuộc sống hàng ngày ..........................................................19
Cassie: Kích thước của phân tích dữ liệu.................................................................20
Chương 3: Hiểu về hệ sinh thái dữ liệu ................................................................................................ 23
Hệ sinh thái dữ liệu là gì?...........................................................................................23
Dữ liệu giúp đưa ra quyết định tốt hơn như thế nào?.............................................25
Chương 4: Kỳ vọng của chương trình và sử dụng hợp lý diễn đàn thảo luận.................................. 27
Những gì mong đợi để tiến lên phía trước?..............................................................27
Tuần 2: Tất cả về tư duy phân tích........................................................................................................... 28
Chương 1: Nắm bắt kỹ năng phân tích dữ liệu của bạn?.................................................................. 28
Khám phá bộ kỹ năng dữ liệu ...................................................................................28
Kỹ năng phân tích dữ liệu chính ...............................................................................28
Chương 2: Suy nghĩ về tư duy phân tích.............................................................................................. 32
Tất cả về tư duy phân tích .........................................................................................32
Chương 3: Nghĩ về kết quả.................................................................................................................... 33
Sử dụng dữ liệu để thúc đẩy kết quả thành công ....................................................33
Phép thuật dữ liệu trong thế giới thực......................................................................34
Tuần 3: Thế giới tuyệt vời của dữ liệu...................................................................................................... 37
Chương 1: Theo dõi vòng đời dữ liệu ................................................................................................... 37
Tìm hiểu về các giai đoạn và công cụ dữ liệu...........................................................37
Các giai đoạn của vòng đời dữ liệu ...........................................................................38
Chương 2: Phác thảo quá trình phân tích dữ liệu............................................................................... 40
Sáu giai đoạn phân tích dữ liệu .................................................................................40
Molly: Ví dụ về quy trình dữ liệu..............................................................................42
Chương 3: Hộp công cụ phân tích dữ liệu............................................................................................ 45
Khám phá các công cụ phân tích dữ liệu..................................................................45
Tuần 4: Thiết lập hộp công cụ của bạn .................................................................................................... 48
Chương 1: Nắm vững kiến thức cơ bản về bảng tính ......................................................................... 48
Thông tin chi tiết về các công cụ dữ liệu cốt lõi .......................................................48
Cột và hàng và ô, ôi chao! ..........................................................................................49
Chương 2: Ngôn ngữ truy vấn có cấu trúc (SQL)............................................................................... 56
SQL trong hoạt động..................................................................................................56
Angie: Vật lộn mỗi ngày khi học những kỹ năng mới.............................................57
Chương 3: Trực quan hóa dữ liệu ........................................................................................................ 59
Becoming a data viz whiz...........................................................................................59
Tuần 5: Khả năng nghề nghiệp vô tận ..................................................................................................... 64
Chương 1: Cơ hội việc làm chuyên viên phân tích dữ liệu................................................................. 64
Hãy bắt tay vào công việc...........................................................................................64
Công việc của một nhà phân tích dữ liệu .................................................................65
Joey: Con đường trở thành nhà phân tích dữ liệu ..................................................66
Tony: Hỗ trợ sự nghiệp trong lĩnh vực phân tích dữ liệu.......................................67
Chương 2: Tầm quan trọng của các quyết định kinh doanh công bằng .............................................. 69
Sức mạnh của dữ liệu trong kinh doanh ..................................................................69
Rachel: Thám tử dữ liệu ............................................................................................70
Hiểu dữ liệu và sự công bằng.....................................................................................71
Alex: Quyết định dữ liệu công bằng và có đạo đức .................................................73
Chương 3: Tùy chọn: Khám phá công việc tiếp theo của bạn ........................................................... 75
Nhà phân tích dữ liệu trong các ngành khác nhau..................................................75
Chiến lược làm bài kiểm tra........................................................................................................................ 76
HỌC PHẦN 2: ĐẶT CÂU HỎI ĐỂ ĐƯA RA QUYẾT ĐỊNH DỰA TRÊN DỮ LIỆU.78
Tuần 1: Câu hỏi hiệu quả .......................................................................................................................... 78
Chương 1: Giải quyết vấn đề và đặt câu hỏi hiệu quả........................................................................ 78
Giới thiệu về giải quyết vấn đề và đặt câu hỏi hiệu quả .........................................78
Chương 2: Hành động với dữ liệu......................................................................................................... 80
Dữ liệu đang hoạt động ..............................................................................................80
Nikki: Quá trình xử lý dữ liệu hoạt động.................................................................81
Chương 3: Giải quyết vấn đề với dữ liệu.............................................................................................. 83
Các loại vấn đề phổ biến ............................................................................................83
Các vấn đề trong thực tế..............................................................................................85
Anmol: Từ giả thuyết đến kết quả...............................................................................87
Chương 4: Tạo câu hỏi hiệu quả........................................................................................................... 88
SMART questions.......................................................................................................88
Evan: Dữ liệu mở ra cánh cửa...................................................................................91
Tuần 2: Quyết định dựa trên dữ liệu........................................................................................................ 93
Chương 1: Hiểu được sức mạnh của dữ liệu........................................................................................ 93
Dữ liệu và quyết định .................................................................................................93
Cách dữ liệu trao quyền quyết định..........................................................................94
Dữ liệu định tính và định lượng ................................................................................96
Chương 2: Theo dõi bằng chứng........................................................................................................... 98
Tiết lộ lớn: Chia sẻ những phát hiện của bạn ..........................................................98
Dữ liệu so với số liệu .................................................................................................103
Chương 4: Kết nối các điểm dữ liệu ................................................................................................... 105
Tư duy toán học ........................................................................................................105
Tuần 3: Thêm kiến thức cơ bản về bảng tính........................................................................................ 106
Chương 1: Làm việc với bảng tính ..................................................................................................... 107
Bảng tính tuyệt vời....................................................................................................107
Làm việc với bảng tính.............................................................................................108
Từng bước trong bảng tính......................................................................................109
Chương 2: Công thức trong bảng tính ............................................................................................... 113
Công thức để thành công .........................................................................................113
Lỗi bảng tính và cách khắc phục.............................................................................115
Chương 3: Hàm trong bảng tính......................................................................................................... 118
Chức năng 101...........................................................................................................118
Chương 4: Tiết kiệm thời gian với tư duy có cấu trúc...................................................................... 120
Trước khi giải quyết một vấn đề, hãy hiểu nó .......................................................120
Phạm vi công việc và tư duy có cấu trúc ................................................................120
Duy trì mục tiêu ........................................................................................................122
Tuần 4: Luôn ghi nhớ các bên liên quan................................................................................................ 125
Chương 1: Cân bằng nhu cầu của nhóm và các bên liên quan ........................................................ 125
Giao tiếp với nhóm của bạn.....................................................................................125
Cân bằng nhu cầu và mong đợi trong nhóm của bạn ...........................................125
Chương 2: Giao tiếp là chìa khóa ....................................................................................................... 128
Mẹo giao tiếp hiệu quả .............................................................................................128
Cân bằng giữa kỳ vọng và mục tiêu thực tế của dự án .........................................130
Sarah: Làm thế nào để giao tiếp với các bên liên quan ........................................132
Đánh đổi dữ liệu: Tốc độ so với độ chính xác ........................................................133
Nghĩ về quá trình và kết quả của bạn.....................................................................134
Chương 3: Tinh thần đồng đội tuyệt vời............................................................................................ 136
Đáp ứng các phương pháp hay nhất.......................................................................136
Ximena: Tham gia một nhóm mới ..........................................................................138
Từ xung đột đến hợp tác ..........................................................................................139
Nathan: Từ Thủy quân lục chiến Hoa Kỳ đến phân tích dữ liệu.........................140
HỌC PHẦN 3: CHUẨN BỊ DỮ LIỆU ĐỂ KHÁM PHÁ................................................142
Tuần 1: Các kiểu và cấu trúc dữ liệu...................................................................................................... 142
Chương 1: Khám phá dữ liệu.............................................................................................................. 142
Giới thiệu về khám phá dữ liệu ...............................................................................142
Hallie: Những hiểu biết sâu sắc về dữ liệu .............................................................144
Chương 2: Thu thập dữ liệu................................................................................................................ 146
Thu thập dữ liệu trong thế giới của chúng ta.........................................................146
Xác định dữ liệu cần thu thập .................................................................................147
Chương 3: Phân biệt giữa các định dạng và cấu trúc dữ liệu .......................................................... 150
Khám phá các định dạng dữ liệu.............................................................................150
Hiểu dữ liệu có cấu trúc ...........................................................................................153
Chương 4: Khám phá các loại dữ liệu, trường và giá trị.................................................................. 155
Biết loại dữ liệu mà bạn đang làm việc...................................................................155
Thành phần bảng dữ liệu.........................................................................................157
Đáp ứng dữ liệu rộng và dài ....................................................................................158
Tuần 2: Xu hướng, độ tin cậy, quyền riêng tư, đạo đức và quyền truy cập........................................ 162
Chương 1: Dữ liệu khách quan và không thiên vị............................................................................. 162
Đảm bảo tính toàn vẹn của dữ liệu..........................................................................162
Thiên kiến: Từ câu hỏi đến kết luận.......................................................................163
Dữ liệu thiên vị và không thiên vị............................................................................164
Hiểu về sự thiên vị trong dữ liệu .............................................................................165
Chương 2: Khám phá độ tin cậy của dữ liệu ..................................................................................... 168
Xác định nguồn dữ liệu tốt.......................................................................................168
Dữ liệu "xấu" là gì?..................................................................................................169
Chương 3: Đạo đức dữ liệu và quyền riêng tư................................................................................... 172
Giới thiệu về đạo đức dữ liệu...................................................................................172
Giới thiệu về quyền riêng tư dữ liệu .......................................................................174
Andrew: Việc sử dụng dữ liệu có đạo đức..............................................................175
Chương 2: Hiểu dữ liệu mở................................................................................................................. 176
Đặc điểm của dữ liệu mở..........................................................................................176
Andrew: Các bước sử dụng dữ liệu có đạo đức.....................................................177
Tuần 3: Cơ sở dữ liệu: Nơi dữ liệu tồn tại.............................................................................................. 179
Chương 1: Làm việc với cơ sở dữ liệu ................................................................................................ 179
Tất cả về cơ sở dữ liệu ..............................................................................................179
Tính năng cơ sở dữ liệu............................................................................................180
Quản lý dữ liệu với siêu dữ liệu...............................................................................183
Sử dụng siêu dữ liệu như một nhà phân tích .........................................................184
Quản lý siêu dữ liệu ..................................................................................................185
Megan: Vui với siêu dữ liệu .....................................................................................187
Chương 3: Truy cập các nguồn dữ liệu khác nhau ........................................................................... 189
Làm việc với nhiều nguồn dữ liệu hơn....................................................................189
Nhập dữ liệu từ bảng tính và cơ sở dữ liệu ............................................................190
Chương 4: Sắp xếp và lọc .................................................................................................................... 194
Sắp xếp và lọc............................................................................................................194
Chương 5: Làm việc với bộ dữ liệu lớn trong SQL........................................................................... 197
Thiết lập BigQuery, bao gồm sandbox và tùy chọn thanh toán...........................197
Cách sử dụng BigQuery ...........................................................................................199
BigQuery trong hành động ......................................................................................201
Tuần 4: Tổ chức và bảo vệ dữ liệu của bạn............................................................................................ 208
Chương 1: Tổ chức dữ liệu hiệu quả .................................................................................................. 208
Cảm thấy tự tin vào dữ liệu của bạn.......................................................................208
Hãy sắp xếp lại ..........................................................................................................208
Tất cả về đặt tên tập tin............................................................................................210
Chương 2: Bảo mật dữ liệu.................................................................................................................. 212
Các tính năng bảo mật trong bảng tính..................................................................212
Tuần 5: Tùy chọn: Tham gia vào cộng đồng dữ liệu............................................................................. 214
Chương 1: Tạo hoặc nâng cao sự hiện diện trực tuyến của bạn...................................................... 214
Quản lý sự hiện diện của bạn với tư cách là nhà phân tích dữ liệu.....................214
Tại sao sự hiện diện trực tuyến lại quan trọng ......................................................214
Mẹo để tăng cường sự hiện diện trực tuyến của bạn.............................................216
Chương 2: Xây dựng mạng lưới phân tích dữ liệu............................................................................ 218
Kiến thức về mạng....................................................................................................218
Lợi ích của cố vấn .....................................................................................................219
Rachel: Người cố vấn là chìa khóa..........................................................................220
HỌC PHẦN 4: XỬ LÝ DỮ LIỆU TỪ BẨN SANG SẠCH.............................................221
Tuần 1: Tầm quan trọng của sự chính trực........................................................................................... 221
Chương 1: Tập trung vào sự chính trực............................................................................................. 221
Giới thiệu tập trung vào sự trung thực...................................................................221
Chương 2: Tính toàn vẹn của dữ liệu và mục tiêu phân tích ........................................................... 223
Tại sao tính toàn vẹn của dữ liệu lại quan trọng? .................................................223
Cân bằng các mục tiêu với tính toàn vẹn dữ liệu...................................................224
Chương 3: Vượt qua những thách thức của việc thiếu dữ liệu........................................................ 226
Xử lý dữ liệu không đầy đủ......................................................................................226
Tầm quan trọng của cỡ mẫu....................................................................................227
Chương 4: Kiểm tra dữ liệu của bạn.................................................................................................. 229
Sử dụng sức mạnh thống kê.....................................................................................229
Xác định kích thước mẫu tốt nhất...........................................................................230
Chương 5: Xem xét giới hạn sai số...................................................................................................... 233
Đánh giá độ tin cậy của dữ liệu ...............................................................................233
Chương 2: Làm sạch dữ liệu là điều bắt buộc ................................................................................... 235
Dọn dẹp nào! .............................................................................................................235
Tại sao làm sạch dữ liệu lại quan trọng..................................................................236
Nhận biết và khắc phục dữ liệu bẩn........................................................................238
Chương 2: Bắt đầu làm sạch dữ liệu................................................................................................... 240
Công cụ và kỹ thuật làm sạch dữ liệu.....................................................................240
Làm sạch dữ liệu từ nhiều nguồn............................................................................242
Chương 3: Làm sạch dữ liệu trong bảng tính.................................................................................... 244
Các tính năng làm sạch dữ liệu trong bảng tính....................................................244
Tối ưu hóa quy trình làm sạch dữ liệu....................................................................246
Các quan điểm dữ liệu khác nhau...........................................................................249
Chương 3: Sử dụng SQL để làm sạch dữ liệu.................................................................................... 250
Sử dụng SQL để làm sạch dữ liệu ...........................................................................250
Sally: Vì tình yêu SQL..............................................................................................250
Hiểu các khả năng của SQL.....................................................................................251
Bảng tính so với SQL................................................................................................252
Chương 2: Tìm hiểu các truy vấn SQL cơ bản.................................................................................. 255
Các truy vấn SQL được sử dụng rộng rãi..............................................................255
Evan: Vui vẻ với SQL...............................................................................................258
Làm sạch các biến chuỗi bằng SQL........................................................................259
Chương 3: Chuyển đổi dữ liệu ............................................................................................................ 267
Các chức năng làm sạch dữ liệu nâng cao, phần 1 ................................................267
Các chức năng làm sạch dữ liệu nâng cao, phần 2 ................................................270
Tuần 4: Xác minh và báo cáo về kết quả làm sạch của bạn ................................................................. 274
Chương 1: Làm sạch dữ liệu thủ công................................................................................................. 274
Kiểm tra và báo cáo kết quả....................................................................................274
Dọn dẹp và kỳ vọng dữ liệu của bạn .......................................................................275
Bước cuối cùng trong quá trình làm sạch dữ liệu .................................................277
Chương 3: Ghi lại kết quả và quá trình làm sạch ............................................................................. 278
Ghi lại những thay đổi trong quá trình làm sạch ..................................................278
Tại sao tài liệu lại quan trọng..................................................................................280
Phản hồi và làm sạch ................................................................................................281
Tuần 5: Thêm dữ liệu vào sơ yếu lý lịch của bạn .................................................................................. 282
Chương 1: Quy trình tuyển dụng chuyên viên phân tích dữ liệu .................................................... 282
Giới thiệu về quy trình tuyển dụng chuyên viên phân tích dữ liệu .....................282
Quy trình xin việc của nhà phân tích dữ liệu.........................................................283
Tạo sơ yếu lý lịch.......................................................................................................285
Chương 2: Hiểu các yếu tố của sơ yếu lý lịch phân tích dữ liệu....................................................... 289
Làm cho sơ yếu lý lịch của bạn trở nên độc đáo....................................................289
Joseph: Người da đen và người Mỹ gốc Phi tham gia vào ngành công nghiệp dữ
liệu ..............................................................................................................................290
Chương 3: Làm nổi bật kinh nghiệm trong sơ yếu lý lịch................................................................ 292
Kinh nghiệm làm việc trong quá khứ .....................................................................292
Kate: Con đường sự nghiệp của tôi với tư cách là một nhà phân tích dữ liệu ...294
Chương 4: Khám phá các lĩnh vực quan tâm.................................................................................... 296
Đâu là sở thích của bạn? ..........................................................................................296
HỌC PHẦN 5: PHÂN TÍCH DỮ LIỆU ĐỂ TRẢ LỜI CÂU HỎI ................................298
Tuần 1: Tổ chức dữ liệu để phân tích..................................................................................................... 298
Chương 1: Hãy tổ chức........................................................................................................................ 298
Giới thiệu về tổ chức.................................................................................................298
Chương 2: Phân tích dữ liệu cơ bản ................................................................................................... 300
Quy trình phân tích ..................................................................................................300
Ayanna: Gắn bó với nó.............................................................................................301
Chương 3: Tổ chức dữ liệu để phân tích............................................................................................ 303
Luôn luôn cần phải tổ chức......................................................................................303
Tìm hiểu thêm về sắp xếp và lọc..............................................................................304
Chương 4: Sắp xếp dữ liệu trong bảng tính....................................................................................... 307
Sắp xếp tập dữ liệu ...................................................................................................307
Hàm SẮP XẾP ..........................................................................................................308
Emma: Hành trình đến với sự nghiệp ý nghĩa.......................................................310
Chương 5: Sắp xếp dữ liệu bằng SQL................................................................................................ 311
Sắp xếp truy vấn trong SQL....................................................................................311
Tuần 2: Định dạng và điều chỉnh dữ liệu............................................................................................... 315
Chương 1: Chuyển đổi và định dạng dữ liệu..................................................................................... 315
Bắt đầu với định dạng dữ liệu .................................................................................315
Từ loại này sang loại khác........................................................................................315
Xác nhận dữ liệu .......................................................................................................318
Định dạng có điều kiện.............................................................................................319
Chương 2: Kết hợp nhiều bộ dữ liệu .................................................................................................. 321
Hợp nhất và nhiều nguồn.........................................................................................321
Chuỗi trong bảng tính ..............................................................................................323
Chương 3: Nhận hỗ trợ trong quá trình phân tích ........................................................................... 325
Phải làm gì khi bạn gặp khó khăn...........................................................................325
Layla: Tất cả về giai đoạn phân tích.......................................................................326
Gặp thử thách? Đừng lo lắng! .................................................................................327
Khi nào sử dụng công cụ nào...................................................................................330
Tuần 3: Tổng hợp dữ liệu để phân tích.................................................................................................. 332
Chương 1: VLOOKUP để tổng hợp dữ liệu....................................................................................... 332
Tổng hợp dữ liệu để phân tích.................................................................................332
Chuẩn bị cho VLOOKUP ........................................................................................332
VLOOKUP đang hoạt động.....................................................................................332
Xác định các lỗi VLOOKUP phổ biến....................................................................332
Chương 2: Sử dụng JOINS để tổng hợp dữ liệu trong SQL ............................................................ 332
Hiểu về JOINS...........................................................................................................332
COUNT và COUNT DISTINCT.............................................................................332
Chương 3: Làm việc với các truy vấn con.......................................................................................... 332
Truy vấn trong truy vấn...........................................................................................333
Sử dụng truy vấn con để tổng hợp dữ liệu .............................................................333
Justin: Phân tích dữ liệu đưa bạn đến đâu.............................................................333
Tuần 4: Thực hiện tính toán dữ liệu....................................................................................................... 334
Chương 1: Bắt đầu tính toán dữ liệu.................................................................................................. 334
Tính toán dữ liệu.......................................................................................................334
Các công thức tính phổ biến ....................................................................................335
Chức năng và điều kiện............................................................................................338
Chương 2: Pivot...pivot...pivot............................................................................................................. 340
Bắt đầu làm việc với các bảng tổng hợp .................................................................340
Tiếp tục bảng tổng hợp.............................................................................................342
Chương 3: Tìm hiểu thêm các phép tính SQL................................................................................... 345
Truy vấn và tính toán...............................................................................................345
Nhúng các phép tính đơn giản vào SQL.................................................................347
Tính toán với các câu lệnh khác..............................................................................350
Chương 4: Quy trình xác thực dữ liệu ............................................................................................... 352
Kiểm tra và kiểm tra lại...........................................................................................352
Chương 5: Sử dụng SQL với các bảng tạm thời................................................................................ 355
Bảng tạm thời............................................................................................................355
Nhiều biến thể bảng..................................................................................................357
HỌC PHẦN 6: CHIA SẺ DỮ LIỆU THÔNG QUA NGHỆ THUẬT TRỰC QUAN
HÓA .....................................................................................................................................360
Tuần 1: Trực quan hóa dữ liệu ............................................................................................................... 360
Chương 1: Truyền đạt thông tin chi tiết về dữ liệu của bạn............................................................. 360
Giới thiệu về cách truyền đạt thông tin chi tiết về dữ liệu của bạn .....................360
Chương 2: Hiểu về trực quan hóa dữ liệu.......................................................................................... 362
Tại sao trực quan hóa dữ liệu lại quan trọng.........................................................362
Kết nối hình ảnh với dữ liệu ....................................................................................364
Một công thức cho một trực quan hóa mạnh mẽ...................................................370
Trực quan hóa động .................................................................................................374
Chương 3: Thiết kế trực quan hóa dữ liệu......................................................................................... 378
Các yếu tố của nghệ thuật........................................................................................378
Tác động trực quan hóa dữ liệu ..............................................................................382
Tư duy thiết kế và trực quan hóa............................................................................387
Chương 4: Khám phá những cân nhắc về trực quan hóa................................................................. 390
Tiêu đề, phụ đề và nhãn ...........................................................................................390
Hình ảnh trực quan có thể truy cập........................................................................392
Andrew: Làm cho dữ liệu có thể truy cập được ....................................................396
Tuần 2: Tạo trực quan hóa dữ liệu với Tableau.................................................................................... 398
Chương 1: Bắt đầu với Tableau.......................................................................................................... 398
Trực quan hóa dữ liệu với Tableau.........................................................................398
Tableau Public và các công cụ trực tuyến khác.....................................................399
Gặp Tableau..............................................................................................................402
Tạo trực quan hóa dữ liệu trong Tableau ..............................................................406
Chương 3: Tùy chọn: Làm việc với nhiều nguồn dữ liệu ................................................................. 409
Liên kết dữ liệu trong Tableau................................................................................409
Tuần 3: Xây dựng kho dữ liệu chuyên nghiệp....................................................................................... 412
Chương 1: Sử dụng dữ liệu để phát triển câu chuyện....................................................................... 412
Tạo câu chuyện với Dữ liệu......................................................................................412
Chương 2: Sử dụng bảng điều khiển Tableau ................................................................................... 414
Khái niệm cơ bản về bảng điều khiển Tableau......................................................414
Chương 3: Câu chuyện chia sẻ dữ liệu ............................................................................................... 415
Mẹo thuyết trình hấp dẫn ........................................................................................415
Chia sẻ một câu chuyện............................................................................................416
Sundas: Làm thế nào để kiểm soát hội chứng kẻ mạo danh.................................418
Tuần 4: Phát triển bài thuyết trình và trình chiếu................................................................................ 420
Chương 1: Nghệ thuật và khoa học của một bài thuyết trình hiệu quả .......................................... 420
Kéo tất cả lại với nhau..............................................................................................420
Trình bày với khung.................................................................................................420
Dệt dữ liệu vào bài thuyết trình của bạn................................................................423
Brittany: Kỹ năng trình bày cho các nhà phân tích dữ liệu mới .........................427
Connor: Ví dụ lộn xộn về trình bày dữ liệu ...........................................................428
Connor: Ví dụ điển hình về trình bày dữ liệu........................................................432
Chương 2: Xác định các kỹ năng và thực hành thuyết trình ........................................................... 433
Mẹo thuyết trình đã được chứng minh...................................................................433
Trình bày như một người chuyên nghiệp...............................................................434
Chương 3: Hãy cẩn thận và hạn chế đối với dữ liệu ......................................................................... 437
Dự đoán câu hỏi ........................................................................................................437
Xử lý phản đối...........................................................................................................439
Chương 4: Lắng nghe, phản hồi và bao gồm ..................................................................................... 441
Thực tiễn tốt nhất về hỏi đáp...................................................................................441
Connor: Trở thành một chuyên gia biên dịch dữ liệu...........................................444
HỌC PHẦN 7: PHÂN TÍCH DỮ LIỆU VỚI LẬP TRÌNH R........................................446
Tuần 1: Lập trình và phân tích dữ liệu.................................................................................................. 446
Chương 1: Thế giới lập trình thú vị.................................................................................................... 446
Giới thiệu về thế giới thú vị của lập trình...............................................................446
Vui cùng R.................................................................................................................448
Carrie: Bắt đầu với R...............................................................................................450
Chương 2: Lập trình như một nhà phân tích dữ liệu ....................................................................... 452
Ngôn ngữ lập trình....................................................................................................452
Giới thiệu về R ..........................................................................................................453
Chương 3: Học lập trình bằng RStudio ............................................................................................. 456
Giới thiệu Rstudio.....................................................................................................456
Tuần 2: Lập trình sử dụng Rstudio........................................................................................................ 459
Chương 1: Hiểu các khái niệm lập trình cơ bản................................................................................ 459
Lập trình sử dụng Rstudio.......................................................................................459
Nguyên tắc cơ bản về lập trình................................................................................460
Chương 2: Khám phá cách viết mã trong R ...................................................................................... 463
Toán tử và tính toán .................................................................................................463
Chương 3: Tìm hiểu về các gói R........................................................................................................ 467
Những món quà không ngừng đưa ra.....................................................................467
Chào mừng đến với tidyverse ..................................................................................468
Chương 4: Khám phá tidyverse .......................................................................................................... 472
Thông tin thêm về tidyverse.....................................................................................472
Làm việc với các đường ống (pipes)........................................................................473
Connor: Mẹo viết mã................................................................................................480
Tuần 3: Làm việc với dữ liệu trong R.................................................................................................... 483
Chương 1: Khám phá dữ liệu và R..................................................................................................... 483
Dữ liệu trong R..........................................................................................................483
Khung dữ liệu R........................................................................................................484
Làm việc với khung dữ liệu......................................................................................485
Chương 2: Làm sạch dữ liệu ............................................................................................................... 487
Làm sạch với những điều cơ bản.............................................................................487
Sắp xếp dữ liệu của bạn............................................................................................489
Chuyển đổi dữ liệu....................................................................................................493
Chương 3: Xem xét kỹ hơn dữ liệu..................................................................................................... 498
Dữ liệu giống nhau, kết quả khác nhau..................................................................498
Hàm thiên vị ..............................................................................................................500
Tuần 4: Tìm hiểu thêm về trực quan hóa, thẩm mỹ và chú thích........................................................ 503
Chương 1: Tạo trực quan hóa dữ liệu trong R.................................................................................. 503
Trực quan hóa trong R.............................................................................................503
Khái niệm cơ bản về trực quan hóa trong R và tidyverse ....................................504
Getting started with ggplot()....................................................................................509
Joseph: Con đường sự nghiệp đến phân tích con người.......................................512
Chương 2: Khám phá thẩm mỹ trong phân tích............................................................................... 514
Tăng cường trực quan hóa trong R ........................................................................514
Làm nhiều hơn với ggplot........................................................................................518
Thẩm mỹ và các khía cạnh ......................................................................................526
Chương 3: Chú thích và lưu trực quan hóa....................................................................................... 534
Lớp chú thích ............................................................................................................534
Lưu trực quan hóa của bạn .....................................................................................536
Tuần 5: Tài liệu và báo cáo...................................................................................................................... 538
Chương 1: Phát triển tài liệu và báo cáo trong Rstudio ................................................................... 538
Tài liệu và báo cáo ....................................................................................................538
Tổng quan về R Markdown.....................................................................................539
Sử dụng R Markdown trong Rstudio .....................................................................540
Chương 2: Tạo tài liệu R Markdown ................................................................................................. 542
Sử dụng R Markdown trong Rstudio .....................................................................542
Meg: Lập trình là nâng cao sức mạnh....................................................................544
Thậm chí nhiều yếu tố tài liệu hơn..........................................................................545
Chương 3: Hiểu các đoạn mã và xuất................................................................................................. 547
Đoạn mã.....................................................................................................................547
Xuất tài liệu ...............................................................................................................549
HỌC PHẦN 8: GOOGLE DATA ANALYTICS CAPSTONE: HOÀN THÀNH MỘT
NGHIÊN CỨU ĐIỂN HÌNH..............................................................................................551
Tuần 1: Tìm hiểu về capstone cơ bản..................................................................................................... 551
Chương 1: Giới thiệu về capstone....................................................................................................... 551
Giới thiệu dự án capstone ........................................................................................551
Chương 2: Các trường hợp mẫu cho các nhà phân tích dữ liệu...................................................... 555
Best-in-class........................................................................................................................................... 555
Tuần 2: Tùy chọn: Xây dựng portfolio của bạn.................................................................................... 562
Chương 1: Bắt đầu ............................................................................................................................... 562
Bắt đầu với case study của bạn................................................................................562
Chương 2: Case study 1: Làm việc với các câu hỏi và bộ dữ liệu hiện có...........564
Chương 3: Case study 2: Chọn câu hỏi và bộ dữ liệu của riêng bạn...................564
Chương 3: Chia sẻ case study và portfolio của bạn...............................................565
Chia sẻ danh mục đầu tư của bạn...........................................................................565
Tuần 3: Tùy chọn: Sử dụng portfolio của bạn....................................................................................... 567
Chương 1: Chia sẻ công việc của bạn với nhà tuyển dụng ............................................................... 567
Thảo luận về portfolio của bạn................................................................................567
Chương 2: Trong cuộc phỏng vấn...........................................................................569
Video kịch bản: Giới thiệu.......................................................................................569
Video tình huống: Nghiên cứu điển hình................................................................571
Video tình huống: Giải quyết vấn đề ......................................................................573
Học phần 1: Foundations: Data, data, everywhere
Tuần 1: Giới thiệu về Phân tích dữ liệu
Dữ liệu giúp chúng ta đưa ra quyết định trong cuộc sống hàng ngày và trong kinh doanh.
Trong phần đầu tiên này của khóa học, bạn sẽ tìm hiểu cách các nhà phân tích dữ liệu sử dụng
phân tích dữ liệu và các công cụ giao dịch (their trade) của họ để đưa ra các quyết định đó.
Bạn cũng sẽ khám phá thêm về khóa học này và những kỳ vọng tổng thể của chương trình.
Mục tiêu học tập
 Xác định các khái niệm chính liên quan đến phân tích dữ liệu bao gồm dữ liệu, phân
tích dữ liệu và hệ sinh thái dữ liệu
 Thảo luận về việc sử dụng dữ liệu trong các quyết định cuộc sống hàng ngày
 Xác định các tính năng chính của môi trường học tập và công dụng của chúng
 Mô tả các nguyên tắc và thực hành sẽ giúp tăng cơ hội thành công của một người trong
chứng chỉ này
 Giải thích việc sử dụng dữ liệu trong việc ra quyết định của tổ chức
 Mô tả các khái niệm chính sẽ được thảo luận trong chương trình, bao gồm kết quả học
tập
Chương 1: Bắt đầu
Chào mừng đến với Chứng nhận nghề nghiệp Phân tích dữ liệu của
Google
Các công ty trong lĩnh vực thương mại điện tử, giải trí, chăm sóc sức khỏe, sản xuất,
tiếp thị, tài chính, công nghệ và hàng trăm ngành khác đều có điểm chung là gì? Chắc bạn
cũng đoán ra rồi, tất cả họ đều sử dụng dữ liệu. Các tổ chức thuộc mọi loại hình cần các nhà
phân tích dữ liệu để giúp họ cải thiện quy trình, xác định cơ hội và xu hướng, ra mắt sản phẩm
mới, cung cấp dịch vụ khách hàng tuyệt vời và đưa ra quyết định chu đáo.
Xin chào, tôi là Tony, người quản lý chương trình tại Google và cũng là nhà phân tích
dữ liệu. Tôi muốn chào mừng bạn đến với Chứng chỉ Google Data Analytics. Bây giờ, có rất
nhiều lý do tuyệt vời để kiếm được chứng chỉ này. Có thể bạn đang nghĩ đến việc bắt đầu sự
nghiệp trong thế giới thú vị của phân tích dữ liệu hoặc có thể bạn chỉ bị mê hoặc bởi sức mạnh
của dữ liệu như tôi. Bất kể điều gì đã đưa bạn đến đây, bạn đang ở đúng nơi để bắt đầu sự
nghiệp và học các kỹ năng liên quan đến ngành về phân tích dữ liệu. Nhưng trước tiên, dữ liệu
chính xác là gì? Data is a collection of facts (Dữ liệu là một tập hợp các dữ kiện). Bộ sưu tập
này có thể bao gồm các con số, hình ảnh, video, từ ngữ, phép đo, quan sát, v.v.
Sau khi bạn có dữ liệu, phân tích sẽ đưa dữ liệu đó vào hoạt động thông qua phân tích.
Data analysis is the collection, transformation, and organization of data in order to draw
conclusion, make predictions, and drive informed decision – making (Phân tích dữ liệu là quá
trình thu thập, biến đổi và tổ chức dữ liệu để rút ra kết luận, đưa ra các dự đoán và thúc đẩy
việc ra quyết định sáng suốt). Và nó không dừng lại ở đó. Dữ liệu phát triển theo thời gian,
điều đó có nghĩa là phân tích (analysis) hoặc phân tích (analytics) này, như cách chúng tôi
gọi, có thể cung cấp cho chúng tôi thông tin mới trong toàn bộ vòng đời của dữ liệu.
Dữ liệu ở khắp mọi nơi. Bạn sử dụng và tạo dữ liệu hàng ngày. Bạn đã bao giờ đọc các
nhận xét về một sản phẩm trước khi quyết định có mua nó hay không? Đó là phân tích dữ liệu.
Hoặc có thể bạn đeo thiết bị theo dõi sức khỏe để đếm số bước chân để có thể duy trì hoạt
động suốt cả ngày. Đó là phân tích dữ liệu.
Nhưng bạn không chỉ sử dụng dữ liệu. Bạn cũng tạo ra một lượng lớn nó mỗi ngày. Bất
cứ khi nào bạn sử dụng điện thoại của mình, tìm kiếm thứ gì đó trực tuyến, phát nhạc trực
tuyến, mua sắm bằng thẻ tín dụng, đăng lên phương tiện truyền thông xã hội hoặc sử dụng
GPS để lập bản đồ tuyến đường, bạn đang tạo dữ liệu.
Thế giới kỹ thuật số của chúng ta và hàng triệu thiết bị thông minh bên trong nó đã làm
cho lượng dữ liệu có sẵn thực sự đáng kinh ngạc. Tại Google, chúng tôi xử lý hơn 40.000 lượt
tìm kiếm mỗi giây. Đó là 3,5 tỷ lượt tìm kiếm mỗi ngày và 1,2 nghìn tỷ lượt tìm kiếm mỗi
năm. Đây là một cách khác để suy nghĩ về nó. YouTube có gần hai tỷ người dùng. Nếu người
dùng YouTube tạo thành một quốc gia, quốc gia đó sẽ là quốc gia lớn nhất thế giới.
Tất cả dữ liệu đó đang biến đổi thế giới xung quanh chúng ta. Ấn phẩm The Economist
gần đây đã gọi dữ liệu là nguồn tài nguyên quý giá nhất thế giới. Thật dễ hiểu tại sao các nhà
phân tích dữ liệu lại được các tổ chức của họ đánh giá cao như vậy. Chính xác thì một nhà
phân tích dữ liệu làm gì? Nói một cách đơn giản, Data analyst is someone who collects,
transforms, and organizes data in order to help make informed decisions (Nhà phân tích dữ
liệu là người thu thập, biến đổi và sắp xếp dữ liệu để thúc đẩy việc ra quyết định sáng suốt).
Bên cạnh bản thân vai trò, một trong những phần thú vị nhất khi trở thành nhà phân tích dữ
liệu là số lượng cơ hội có sẵn. Nhu cầu đối với các nhà phân tích dữ liệu lớn hơn số lượng
người đủ điều kiện để lấp đầy các cơ hội việc làm này. Chương trình chứng chỉ này là bước
đầu tiên tuyệt vời trong hành trình tìm kiếm công việc bạn yêu thích.
Các nhà phân tích dữ liệu đến từ nhiều nền tảng khác nhau và có đủ loại kinh nghiệm
sống. Bạn không cần hàng chục năm kinh nghiệm làm việc hoặc học vấn đắt đỏ để bắt đầu.
Nhiều nhà phân tích dữ liệu đã tự dạy mình những kỹ năng cần thiết để có được công việc đầu
tiên, giống như bạn đang làm bây giờ.
Bây giờ chúng ta hãy nói nhiều hơn về những gì bạn sẽ học. Chứng chỉ Google Data
Analytics được chia thành các khóa học dựa trên các quy trình phân tích dữ liệu khác nhau.
Đó là hỏi, chuẩn bị, xử lý, phân tích, chia sẻ và hành động. Lên kế hoạch xem các video này
theo thứ tự. Mỗi chủ đề bao gồm một chủ đề mới và mỗi chủ đề được xây dựng dựa trên những
gì bạn đã học trước đây, giúp bạn dễ dàng theo dõi tiến trình của mình.
Bạn đang ngồi ở ghế lái. Mặc dù bạn có thể thấy mọi thứ được sắp xếp theo tuần, nhưng
mọi thứ có thể được hoàn thành theo tốc độ của riêng bạn. Vì vậy, bạn quyết định bạn muốn
làm bao nhiêu mỗi ngày. Khi kết thúc chương trình, bạn sẽ sử dụng mọi thứ đã học và biến nó
thành một dự án mà bạn có thể sử dụng để thể hiện các kỹ năng của mình và khiến các nhà
tuyển dụng phải thán phục trong các cuộc phỏng vấn xin việc của bạn.
Bây giờ, bạn cũng sẽ nghe được ý kiến từ nhân viên của Google (Googlers). Đó là cách
chúng tôi gọi những người làm việc tại Google. Họ sẽ cung cấp cho bạn Insights về cảm giác
làm việc trong ngành của chúng tôi và chia sẻ những câu chuyện cá nhân về cách họ tham gia
vào lĩnh vực này. Họ cũng sẽ cung cấp cho bạn một số lời khuyên tuyệt vời về cách đạt được
công việc mơ ước của bạn. Giữ nguyên. Một số người trong số họ sẽ giới thiệu bản thân chỉ
trong giây lát.
Tôi sẽ là người hướng dẫn của bạn cho khóa học đầu tiên. Tôi sẽ đưa bạn qua từng mô-
đun bao gồm một chủ đề cụ thể theo một số cách khác nhau. Bạn sẽ có video, tài liệu đọc, câu
đố, hoạt động thực hành và gợi ý thảo luận để bạn trò chuyện với các sinh viên khác trong một
diễn đàn trực tuyến.
Tôi thực sự vui mừng được hướng dẫn bạn trong suốt khóa học này, nhưng tôi đặc biệt
vui mừng vì bạn đã chọn cuộc phiêu lưu này. Học tập suốt đời là điều mà tôi rất đam mê. Khi
lớn lên, khi nhìn xung quanh, tôi thường không thấy có nhiều lựa chọn cho mình. Mãi cho đến
khi tôi bắt đầu nghiêm túc với việc học hành của mình, tôi mới nhận ra rằng mình có quyền
kiểm soát để tạo ra cơ hội cho riêng mình với giáo dục là chìa khóa mở ra những cánh cửa đó.
Tôi càng học hỏi nhiều và càng làm việc chăm chỉ thì càng có nhiều khả năng mở ra. Nếu tôi
không theo đuổi kiến thức đó và tiếp tục thử thách bản thân, có lẽ tôi đã không được như ngày
hôm nay. Việc học cho phép tôi phát triển cá nhân, thành công, đến thăm những nơi mà tôi
chưa từng thấy và gặp gỡ những người mà tôi chưa từng biết.
Được rồi, bạn có hào hứng với tiềm năng trở thành nhà phân tích dữ liệu không? Rất
nhiều là có thể với dữ liệu. Bạn sắp bước vào một thế giới hoàn toàn mới. Sẳn sàng chưa? Đi
nào.
Ask Prepare Process Analyze Share Act
Giới thiệu về khóa học
“Data! Data! Data!... I can’t make bricks without clay’’. ("Dữ liệu! Dữ liệu! Dữ liệu!
Tôi không thể làm gạch mà không có đất sét.") Có đoán được ai đã nói điều này không? Tôi
sẽ cho bạn một gợi ý. Đó không phải là một CEO công nghệ nổi tiếng hay một nhà phân tích
dữ liệu. Người nói điều này đã sống rất lâu trước khi các công ty công nghệ tồn tại. Nhưng tôi
cá là bạn vẫn nghe nói về anh ấy. Dòng này được nói bởi Sherlock Holmes, thám tử nổi tiếng
được tạo ra bởi Sir Arthur Conan Doyle. Ý của Doyle là Holmes không thể đưa ra bất kỳ kết
luận nào, đó sẽ là những viên gạch mà anh ta đề cập mà không có dữ liệu, hay là đất sét.
Bạn có thể không ở đây để trở thành một thám tử nổi tiếng thế giới, nhưng dữ liệu vẫn
là khối xây dựng mà bạn sẽ sử dụng cho mọi thứ bạn làm trong sự nghiệp phân tích dữ liệu
mới của mình, Sherlock Holmes sẽ đồng ý. Khi bắt đầu chương trình này, bạn đã chứng tỏ
rằng bạn và Sherlock Holmes có điểm chung, cả hai đều có hứng thú tìm hiểu thêm. Đó là một
trong những phẩm chất quan trọng nhất mà các nhà phân tích dữ liệu có thể có. Hiện tại, có
rất nhiều cách khác nhau để khám phá dữ liệu, nhưng một trong những điều tuyệt vời về phân
tích dữ liệu là bạn có thể thường xuyên tìm hiểu cách bạn muốn, vào thời điểm bạn muốn.
Điều đó có thể có nghĩa là bạn tự nghiên cứu, nói chuyện với những người trong ngành hoặc
tham gia các khóa học trực tuyến. Như đã nói, chào mừng bạn đến với khóa học đầu tiên của
bạn. Đây là phần giới thiệu của bạn về thế giới phân tích dữ liệu tuyệt vời. Vì phân tích dữ
liệu là khoa học về dữ liệu nên bạn sẽ sử dụng khóa học này để bắt đầu tìm hiểu tất cả về dữ
liệu.
Data analytics is The science of data. (Phân tích dữ liệu là khoa học về dữ liệu).
Data is A collection of facts. (Dữ liệu là một tập hợp các dữ kiện). Dữ liệu về cơ bản là tập
hợp các dữ kiện hoặc thông tin và thông qua phân tích, bạn sẽ học cách sử dụng dữ liệu để
đưa ra kết luận, đưa ra dự đoán và quyết định.
Cá nhân tôi đã không nhảy ngay vào lĩnh vực phân tích dữ liệu. Tôi nghĩ phân tích dữ
liệu là dành cho các kỹ sư máy tính. Thay vào đó, tôi bắt đầu với ước mơ làm việc trong lĩnh
vực tài chính. Tuy nhiên, khi tôi đã trải qua một kỳ thực tập, tôi nhận ra rằng đó không phải
là con đường sự nghiệp mà tôi muốn đi. Tôi bắt đầu tìm hiểu về lập kế hoạch và phân tích tài
chính, và tất cả công việc của các nhà phân tích tài chính đều làm với dữ liệu. Tôi nhận ra rằng
các nhà phân tích tài chính thực sự chỉ là những nhà phân tích dữ liệu làm việc trong bộ phận
tài chính. Những nhà phân tích này đã giúp hướng dẫn các quyết định kinh doanh bằng cách
biết cách sử dụng dữ liệu. Đó là lúc tôi nhận ra sức mạnh của dữ liệu và tôi bắt đầu nắm lấy
nó. Chẳng mấy chốc, tôi nhận ra rằng mình có thể tự mình phân tích dữ liệu này.
Phân tích dữ liệu là một thế giới cơ hội rộng mở. Có rất nhiều lĩnh vực mà kỹ năng
phân tích của bạn có thể được áp dụng và theo mọi cách khác nhau.
Nếu bạn là người mới trong thế giới này, bạn sẽ học cách xác định con đường và ngành
nào có thể phù hợp với kỹ năng và sở thích của bạn nhất.
Đối với những bạn đã có một số kinh nghiệm, chúng tôi sẽ giúp bạn mở ra những cơ
hội mới và thú vị. Một trong những kỹ năng bạn sẽ đạt được từ chương trình là cách tuân theo
các phương pháp hay nhất mà các nhà phân tích sử dụng để giúp đưa ra quyết định dựa trên
dữ liệu. Máy tính là một phần của quy trình, nhưng các nhà phân tích dựa vào nhiều hơn thế
để đưa ra quyết định.
Computer + Your brain+ Your skills+ Your traits= Job Success
Tôi biết bạn đã biết cách đưa ra quyết định đúng đắn, sau cùng thì bạn đã chọn ở đây.
Trong khóa học đầu tiên này, bạn sẽ tìm hiểu thêm về từng giai đoạn của quy trình phân tích
dữ liệu. Hỏi, chuẩn bị, xử lý, phân tích, chia sẻ và hành động. Là nhà phân tích dữ liệu, bạn sẽ
trải qua các bước này khi sử dụng dữ liệu để đưa ra quyết định của mình.
Cuối cùng, bạn sẽ thấy bản thân chương trình này hoạt động như thế nào, phiên
bản riêng của quá trình này. Mặc dù tôi biết bạn sẽ thích xem những video này, nhưng chuyến
đi đến khóa học đầu tiên của bạn sẽ bao gồm nhiều điều hơn thế nữa. Các video khác sẽ ở
dạng quảng cáo chi tiết, nơi bạn sẽ học hỏi từ các chuyên gia phân tích dữ liệu, những người
đã thành danh trong sự nghiệp của họ. Họ sẽ đưa ra những lời khôn ngoan cũng như những
câu chuyện về kinh nghiệm của chính họ khi bắt đầu trên con đường sự nghiệp.
Bạn sẽ bắt đầu nhật ký dữ liệu của riêng mình, nhật ký này sẽ giúp bạn theo dõi những
gì bạn đã học được trong suốt khóa học. Bạn cũng sẽ thêm những suy nghĩ của riêng mình về
những gì bạn đang học trong suốt chương trình. Bạn sẽ đọc về cách điều hướng chương trình
này trong thế giới phân tích dữ liệu.
Bạn sẽ hoàn thành các hoạt động, bao gồm một số hoạt động sẽ giúp bạn có tư duy của
một nhà phân tích dữ liệu. Trên đường đi, bạn cũng sẽ có cơ hội kết nối với những người bạn
học của mình. Gợi ý thảo luận sẽ cho bạn cơ hội chia sẻ suy nghĩ của mình, đồng thời xem
đồng nghiệp nghĩ gì về tất cả những gì bạn đang học. Những lời nhắc này sẽ giúp bạn xây
dựng một hệ thống hỗ trợ cộng đồng để sử dụng trong suốt chương trình. Nói đủ rồi, chúng ta
hãy bắt đầu trên con đường thú vị này. Bước tiếp theo của bạn đang chờ đợi.
Program features:
 Video vignettes
 Data journal
 Readings
 Activities
Finance Healthcare Communitcations Government
Consumer
products
And lots more
Chương 2: Chuyển đổi dữ liệu thành thông tin chi tiết
Phân tích dữ liệu trong cuộc sống hàng ngày
Chào mừng trở lại. Tại thời điểm này, bạn đã được giới thiệu về thế giới phân tích dữ
liệu và công việc của các nhà phân tích dữ liệu. Bạn cũng đã học cách khóa học này sẽ chuẩn
bị cho bạn một sự nghiệp thành công với tư cách là một nhà phân tích.
Sắp tới, bạn sẽ tìm hiểu tất cả các cách dữ liệu có thể được sử dụng và bạn sẽ khám phá
lý do tại sao các nhà phân tích dữ liệu lại có nhu cầu cao như vậy. Tôi không phóng đại khi
nói rằng mọi mục tiêu và thành công mà tôi và nhóm của tôi đã đạt được đều không thể thực
hiện được nếu không có dữ liệu.
Tại Google, tất cả các sản phẩm của chúng tôi đều được xây dựng dựa trên dữ liệu và
quá trình ra quyết định dựa trên dữ liệu. Từ ý tưởng đến phát triển đến ra mắt, chúng tôi đang
sử dụng dữ liệu để tìm ra hướng đi tốt nhất. Và chúng tôi không đơn độc. Vô số tổ chức khác
cũng nhìn thấy giá trị đáng kinh ngạc của dữ liệu và tất nhiên, các nhà phân tích dữ liệu giúp
họ tận dụng nó.
Vì vậy, chúng tôi biết dữ liệu mở ra rất nhiều cơ hội. Nhưng để giúp bạn tìm hiểu về
tất cả các cách bạn thực sự có thể sử dụng dữ liệu, hãy xem qua một vài ví dụ từ cuộc sống
hàng ngày.
Bạn có thể không nhận ra, nhưng mọi người luôn phân tích dữ liệu. Ví dụ, tôi là một
người buổi sáng. Cách đây rất lâu, tôi nhận ra rằng mình sẽ hạnh phúc hơn và làm việc hiệu
quả hơn nếu đi ngủ sớm và dậy sớm. Tôi đi đến kết luận này sau khi nhận thấy một khuôn
mẫu trong trải nghiệm hàng ngày của mình. Khi tôi ngủ đủ bảy tiếng và thức dậy lúc 6:30, tôi
là người thành công nhất. Vì vậy, tôi nghĩ về mối quan hệ giữa mô hình này và cuộc sống
hàng ngày của mình, và tôi dự đoán rằng ngủ sớm dậy sớm sẽ là lựa chọn đúng đắn cho tôi.
Và tôi chắc chắn là người tốt nhất của tôi( my best self) khi tôi thức dậy sớm và sáng.
Tôi cá là bạn cũng đã xác định được các khuôn mẫu và các mối quan hệ trong cuộc
sống của mình. Có thể là về chu kỳ giấc ngủ của chính bạn hoặc cảm giác của bạn sau khi ăn
một số loại thực phẩm nhất định hoặc thời gian bạn muốn tập thể dục trong ngày. Tất cả những
điều này là những ví dụ tuyệt vời về các kiểu mẫu và mối quan hệ trong cuộc sống thực mà
bạn có thể sử dụng để đưa ra dự đoán về những hành động phù hợp cần thực hiện và đó là một
phần quan trọng của phân tích dữ liệu ngay tại đó.
Bây giờ, hãy đưa quy trình này vào môi trường kinh doanh. Bạn có thể nhớ từ một
video trước đó rằng có rất nhiều dữ liệu ở đó. Và mỗi phút mỗi giờ mỗi ngày, nhiều dữ liệu
hơn đang được tạo ra. Các doanh nghiệp cần một cách để kiểm soát tất cả dữ liệu đó để họ có
thể sử dụng dữ liệu đó nhằm cải thiện quy trình, xác định cơ hội và xu hướng, ra mắt sản phẩm
mới, phục vụ khách hàng và đưa ra quyết định sáng suốt. Đó là lý do tại sao các công ty này
thuê các nhà phân tích dữ liệu để kiểm soát làn sóng dữ liệu họ thu thập hàng ngày, hiểu ý
nghĩa của nó và sau đó đưa ra kết luận hoặc đưa ra dự đoán. Đây là quá trình biến dữ liệu
thành thông tin chi tiết (insights) và là cách các nhà phân tích giúp các doanh nghiệp sử dụng
tốt tất cả dữ liệu của họ.
Đây thực sự là một cách tốt để suy nghĩ về phân tích: biến dữ liệu thành thông tin chi
tiết. Xin nhắc lại, định nghĩa chi tiết hơn mà bạn đã học trước đó là phân tích dữ liệu là việc
thu thập, chuyển đổi và tổ chức dữ liệu để đưa ra kết luận, đưa ra dự đoán và thúc đẩy quá
trình ra quyết định sáng suốt.
Vì vậy, sau khi các nhà phân tích đã tạo ra những hiểu biết sâu sắc từ dữ liệu, điều gì
sẽ xảy ra? Vâng, rất nhiều. Những hiểu biết sâu sắc đó được chia sẻ với những người khác,
các quyết định được đưa ra và các doanh nghiệp hành động. Và đây là nơi nó có thể trở nên
thực sự thú vị. Phân tích dữ liệu có thể giúp các tổ chức suy nghĩ lại hoàn toàn về những gì họ
làm hoặc hướng họ theo một hướng hoàn toàn mới.
Ví dụ: có thể dữ liệu dẫn họ đến một sản phẩm mới hoặc dịch vụ độc đáo hoặc có thể
dữ liệu giúp họ tìm ra cách mới để mang lại trải nghiệm tuyệt vời cho khách hàng. Chính
những khoảnh khắc tuyệt vời này có thể giúp doanh nghiệp đạt đến một cấp độ khác và điều
đó khiến các nhà phân tích dữ liệu trở nên quan trọng đối với bất kỳ doanh nghiệp nào.
Giờ đây, bạn đã biết thêm về những cách tuyệt vời mà dữ liệu đang được sử dụng hàng
ngày, bạn có thể hiểu tại sao các nhà phân tích dữ liệu lại có nhu cầu cao như vậy. Chúng tôi
sẽ tiếp tục khám phá cách các nhà phân tích có thể chuyển đổi dữ liệu thành thông tin chi tiết
dẫn đến hành động. Và trước khi bạn biết điều đó, bạn sẽ sẵn sàng giúp bất kỳ tổ chức nào tìm
ra những cách mới và thú vị để chuyển đổi dữ liệu của họ.
Cassie: Kích thước của phân tích dữ liệu
Chào. Tôi là Cassie và tôi lãnh đạo Quyết định Thông minh cho Google Cloud. Quyết
định thông minh là sự kết hợp của khoa học dữ liệu ứng dụng và khoa học xã hội và quản lý.
Đó là tất cả về việc khai thác sức mạnh và vẻ đẹp của dữ liệu. Tôi giúp Google Cloud và khách
hàng của Google biến dữ liệu của họ thành tác động và làm cho doanh nghiệp của họ cũng
như thế giới trở nên tốt đẹp hơn.
Một nhà phân tích dữ liệu là một nhà thám hiểm, một thám tử và một nghệ sĩ, tất cả
đều hòa làm một. Phân tích là tìm kiếm nguồn cảm hứng. Bạn không biết điều gì sẽ truyền
cảm hứng cho bạn trước khi bạn khám phá, trước khi bạn nhìn xung quanh. Khi bạn bắt đầu,
bạn không biết mình sẽ tìm thấy gì và thậm chí liệu bạn có tìm thấy gì không. Bạn phải dũng
cảm đi sâu vào những điều chưa biết và khám phá những gì nằm trong dữ liệu của mình. Có
một huyền thoại phổ biến rằng ai đó làm việc trong lĩnh vực dữ liệu nên biết mọi thứ về dữ
liệu. Tôi nghĩ rằng điều đó không hữu ích vì vũ trụ dữ liệu đã mở rộng. Nó được mở rộng đến
mức chuyên môn hóa trở nên quan trọng. Rất, rất khó để một người biết và là tất cả của dữ
liệu. Đó là lý do tại sao chúng ta cần những vai trò khác nhau này.
Lời khuyên mà tôi dành cho những người sắp bước vào không gian là hãy chọn chuyên
môn của họ dựa trên hương vị nào, loại tác động nào phù hợp nhất với tính cách của họ.
Giờ đây, khoa học dữ liệu, nguyên tắc làm cho dữ liệu trở nên hữu ích, là một thuật
ngữ chung bao gồm ba nguyên tắc: học máy( Machine Learning) , thống kê (statistics) và phân
tích (Analytics).
Chúng được phân tách bằng số lượng quyết định mà bạn biết bạn muốn đưa ra trước
khi bắt đầu với chúng. Nếu bạn muốn đưa ra một số quyết định quan trọng trong điều kiện
không chắc chắn, đó là số liệu thống kê. Nói cách khác, nếu bạn muốn tự động hóa, hãy đưa
ra rất, rất nhiều quyết định trong điều kiện không chắc chắn, đó là máy học và AI.
Nhưng nếu bạn không biết mình muốn đưa ra bao nhiêu quyết định trước khi bắt đầu
thì sao? Nếu những gì bạn đang tìm kiếm là nguồn cảm hứng thì sao? Bạn muốn chạm trán
với những ẩn số chưa biết của mình. Bạn muốn hiểu thế giới của bạn. Đó là phân tích.
Khi bạn đang cân nhắc về khoa học dữ liệu và chọn lĩnh vực chuyên sâu, tôi khuyên
bạn nên đi theo tính cách của mình. Bạn cảm thấy cái nào trong số ba điểm xuất sắc trong
khoa học dữ liệu phù hợp hơn với bạn?
Sự xuất sắc của số liệu thống kê là sự chặt chẽ. Các nhà thống kê thực chất là những
nhà triết học, nhà nhận thức luận. Họ rất, rất cẩn thận trong việc bảo vệ những người ra quyết
định khỏi những kết luận sai lầm. Nếu sự quan tâm và nghiêm ngặt đó là điều bạn đam mê,
thì tôi khuyên bạn nên sử dụng số liệu thống kê.
Hiệu suất là sự xuất sắc của kỹ sư máy học và AI. Bạn biết đó là giải pháp dành cho
bạn nếu ai đó nói với bạn: "Tôi cá là bạn không thể xây dựng một hệ thống tự động hóa thực
hiện nhiệm vụ này với độ chính xác 99,99999%" và câu trả lời của bạn là: "Hãy quan sát tôi".
Làm thế nào về phân tích? Sự xuất sắc của một nhà phân tích là tốc độ.
Bạn có thể lướt qua lượng dữ liệu khổng lồ nhanh như thế nào để khám phá nó và khám
phá những viên ngọc quý, những hiểu biết sâu sắc tiềm ẩn đáng để biết và mang đến cho
những người ra quyết định của bạn?
Bạn có bị kích thích bởi sự mơ hồ của khám phá không? Bạn có hào hứng với ý tưởng
làm việc trên nhiều thứ khác nhau, xem xét nhiều nguồn dữ liệu khác nhau và suy nghĩ về
lượng thông tin khổng lồ, đồng thời hứa sẽ không bỏ qua những hiểu biết quan trọng tiềm
năng không? Bạn có ổn không khi được nói: "Đây là cả đống dữ liệu. Chưa có ai xem xét nó
trước đây. Hãy đi tìm thứ gì đó thú vị"? Bạn có phát triển mạnh về các dự án sáng tạo, kết
thúc mở không? Nếu đó là bạn, thì phân tích có lẽ phù hợp nhất với bạn.
Một lời khuyên mà tôi dành cho các nhà phân tích khi bắt đầu cuộc hành trình này là
việc khám phá những điều chưa biết có thể khá đáng sợ. Nhưng tôi khuyên bạn nên từ bỏ một
chút cám dỗ về chủ nghĩa hoàn hảo và thay vào đó, hãy tận hưởng niềm vui, cảm giác hồi hộp
khi khám phá.
Đừng lo lắng về câu trả lời đúng. Xem bạn có thể mở món quà này nhanh như thế nào
và tìm hiểu xem có điều gì thú vị trong đó không. Nó giống như sinh nhật của bạn, mở ra một
loạt các thứ. Một số trong số họ bạn thích. Một số trong số họ bạn sẽ không. Nhưng thật thú
vị khi biết những gì thực sự ở đó?
Chương 3: Hiểu về hệ sinh thái dữ liệu
Hệ sinh thái dữ liệu là gì?
Xin chào lần nữa. Bạn đã tìm hiểu về việc trở thành nhà phân tích dữ liệu và cách chương
trình này sẽ giúp bạn chuẩn bị cho sự nghiệp tương lai.
Bây giờ, đã đến lúc khám phá hệ sinh thái dữ liệu, tìm ra nơi phân tích dữ liệu phù hợp
với hệ thống đó và xem xét một số quan niệm sai lầm phổ biến mà bạn có thể gặp phải trong
lĩnh vực phân tích dữ liệu.
Nói một cách đơn giản, một hệ sinh thái là một nhóm các yếu tố tương tác với nhau.
Các hệ sinh thái có thể rộng lớn, chẳng hạn như rừng rậm trong rừng mưa nhiệt đới hoặc vùng
hẻo lánh của Úc. Hoặc, nhỏ xíu, như nòng nọc trong vũng nước, hoặc vi khuẩn trên da của
bạn. Và giống như chuột túi và gấu koala ở vùng hẻo lánh của Úc, dữ liệu cũng tồn tại trong
hệ sinh thái của chính nó. Data ecosystems is The various elements that interact with one
another in order to produce, manage, store, organize, analyze, and share data. (Hệ sinh thái dữ
liệu được tạo thành từ nhiều yếu tố khác nhau tương tác với nhau để sản xuất, quản lý, lưu trữ,
sắp xếp, phân tích và chia sẻ dữ liệu). Những yếu tố này bao gồm các công cụ phần cứng và
phần mềm và những người sử dụng chúng. Những người như bạn. Dữ liệu cũng có thể được
tìm thấy trong một thứ gọi là đám mây. Cloud is A place to keep data online, rather than a
computer hard drive. (Đám mây là nơi lưu giữ dữ liệu trực tuyến, thay vì trên ổ cứng máy
tính). Vì vậy, thay vì lưu trữ dữ liệu ở đâu đó bên trong mạng của tổ chức bạn, dữ liệu đó được
truy cập qua internet.
Vì vậy, đám mây chỉ là một thuật ngữ chúng tôi sử dụng để mô tả vị trí ảo. Đám mây
đóng một vai trò quan trọng trong hệ sinh thái dữ liệu và với tư cách là nhà phân tích dữ liệu,
nhiệm vụ của bạn là khai thác sức mạnh của hệ sinh thái dữ liệu đó, tìm thông tin phù hợp và
cung cấp cho nhóm phân tích giúp họ đưa ra quyết định thông minh.
Ví dụ: bạn có thể truy cập vào cơ sở dữ liệu của cửa hàng bán lẻ, đây là một hệ sinh
thái chứa đầy tên, địa chỉ, giao dịch mua trước đó và đánh giá của khách hàng. Với tư cách là
nhà phân tích dữ liệu, bạn có thể sử dụng thông tin này để dự đoán những gì những khách
hàng này sẽ mua trong tương lai và đảm bảo cửa hàng có sản phẩm và hàng dự trữ khi họ cần.
Một ví dụ khác, hãy nghĩ về một hệ sinh thái dữ liệu được sử dụng bởi bộ phận nhân
sự. Hệ sinh thái này sẽ bao gồm các thông tin như bài đăng từ các trang web việc làm, số liệu
thống kê về thị trường lao động hiện tại, tỷ lệ việc làm và dữ liệu truyền thông xã hội về nhân
viên tiềm năng. Một nhà phân tích dữ liệu có thể sử dụng thông tin này để giúp nhóm của họ
tuyển dụng nhân viên mới và cải thiện tỷ lệ gắn kết và giữ chân nhân viên.
Nhưng hệ sinh thái dữ liệu không chỉ dành cho các cửa hàng và văn phòng. Họ cũng
làm việc trong các trang trại. Các công ty nông nghiệp thường xuyên sử dụng hệ sinh thái dữ
liệu bao gồm thông tin bao gồm các mô hình địa chất trong các chuyển động thời tiết. Các nhà
phân tích dữ liệu có thể sử dụng dữ liệu này để giúp nông dân dự đoán năng suất cây trồng.
Một số nhà phân tích dữ liệu thậm chí đang sử dụng hệ sinh thái dữ liệu để cứu hệ sinh
thái môi trường thực. Tại Viện Hải dương học Scripps, các rạn san hô trên khắp thế giới được
theo dõi kỹ thuật số, vì vậy họ có thể thấy các sinh vật thay đổi theo thời gian như thế nào,
theo dõi sự phát triển của chúng và đo lường bất kỳ sự gia tăng hoặc suy giảm nào trong các
thuộc địa riêng lẻ. Các khả năng là vô tận.
Được rồi, bây giờ hãy nói về một số quan niệm sai lầm phổ biến mà bạn có thể gặp
phải. Đầu tiên là sự khác biệt giữa nhà khoa học dữ liệu và nhà phân tích dữ liệu. Thật dễ dàng
để nhầm lẫn giữa hai, nhưng những gì họ làm thực sự rất khác nhau. Data science is Creating
new ways of modeling and understanding the unknown by using raw data (Khoa học dữ liệu
là Một lĩnh vực nghiên cứu sử dụng dữ liệu thô để tạo ra những cách mới để mô hình hóa
những điều chưa biết). Khoa học dữ liệu được định nghĩa là tạo ra những cách mới để mô hình
hóa và hiểu những điều chưa biết bằng cách sử dụng dữ liệu thô. Đây là một cách tốt để suy
nghĩ về nó.
Các nhà khoa học dữ liệu tạo ra các câu hỏi mới bằng cách sử dụng dữ liệu, trong khi
các nhà phân tích tìm câu trả lời cho các câu hỏi hiện có bằng cách tạo thông tin chi tiết từ các
nguồn dữ liệu. Ngoài ra còn có nhiều từ và cụm từ bạn sẽ nghe thấy trong suốt khóa học này,
rất dễ bị lẫn lộn. Ví dụ: phân tích dữ liệu và phân tích dữ liệu nghe có vẻ giống nhau, nhưng
chúng thực sự rất khác nhau.
Data analysis is The collection, transformation, and organization of data in order to
draw conclusions, make predictions, and drive informed decision-making (Phân tích dữ liệu
là Quá trình thu thập, biến đổi, tổ chức dữ liệu để rút ra kết luận, đưa ra dự đoán và thúc đẩy
việc đưa ra quyết định sáng suốt).
Data analytics is The science of data (Lĩnh vực phân tích dữ liệu là Khoa học về dữ
liệu). Đó là một khái niệm rất rộng bao gồm mọi thứ, từ công việc quản lý và sử dụng dữ liệu
đến các công cụ và phương pháp mà nhân viên dữ liệu sử dụng hàng ngày.
Vì vậy, khi bạn nghĩ về dữ liệu, phân tích dữ liệu và hệ sinh thái dữ liệu, điều quan
trọng là phải hiểu rằng tất cả những thứ này đều phù hợp với ô phân tích dữ liệu.
Được rồi, giờ bạn đã biết thêm một chút về hệ sinh thái dữ liệu và sự khác biệt giữa
lĩnh vực phân tích dữ liệu (data analytics) và phân tích dữ liệu (data analysis), bạn đã sẵn sàng
khám phá cách sử dụng dữ liệu để đưa ra các quyết định hiệu quả. Bạn sẽ thấy quá trình ra
quyết định dựa trên dữ liệu trong thực tế.
Dữ liệu giúp đưa ra quyết định tốt hơn như thế nào?
Cho đến nay, bạn đã phát hiện ra rằng có nhiều cách khác nhau để sử dụng dữ liệu.
Trong cuộc sống hàng ngày, chúng ta sử dụng dữ liệu khi đeo thiết bị theo dõi thể dục hoặc
đọc các bài đánh giá sản phẩm để đưa ra quyết định mua hàng.
Và trong kinh doanh, chúng tôi sử dụng dữ liệu để tìm hiểu thêm về khách hàng của
mình, cải thiện quy trình và giúp nhân viên thực hiện công việc của họ hiệu quả hơn. Nhưng
đây chỉ là phần nổi của tảng băng chìm. Một trong những cách hiệu quả nhất mà bạn có thể
đưa dữ liệu vào hoạt động là ra quyết định dựa trên dữ liệu.
Data-driven decision-making is Using facts to guide business strategy (Ra quyết định
dựa trên dữ liệu là Sử dụng dữ kiện để định hướng chiến lược kinh doanh). Ra quyết định dựa
trên dữ liệu được định nghĩa là sử dụng dữ kiện để định hướng chiến lược kinh doanh.
Các tổ chức trong nhiều ngành khác nhau luôn được các nhà phân tích dữ liệu trao
quyền để đưa ra các quyết định tốt hơn, dựa trên dữ liệu. Bước đầu tiên trong quá trình ra
quyết định dựa trên dữ liệu là tìm ra nhu cầu kinh doanh. Thông thường, đây là một vấn đề
cần được giải quyết. Ví dụ, một vấn đề có thể là một công ty mới cần thiết lập sự công nhận
thương hiệu tốt hơn để có thể cạnh tranh với các đối thủ lớn hơn, nổi tiếng hơn. Hoặc có thể
một tổ chức muốn cải thiện sản phẩm và cần tìm ra cách tìm nguồn cung ứng các bộ phận từ
một nhà cung cấp bền vững hơn hoặc có trách nhiệm về mặt đạo đức. Hoặc, đó có thể là một
doanh nghiệp đang cố gắng giải quyết vấn đề nhân viên không hài lòng, mức độ gắn bó, hài
lòng và giữ chân nhân viên thấp.
Bất kể vấn đề là gì, sau khi được xác định, nhà phân tích dữ liệu sẽ tìm dữ liệu, phân
tích và sử dụng dữ liệu đó để khám phá các xu hướng, mô hình và mối quan hệ. Đôi khi, chiến
lược dựa trên dữ liệu sẽ được xây dựng dựa trên những gì đã hoạt động trong quá khứ. Những
lần khác, nó có thể hướng dẫn một doanh nghiệp phát triển theo một hướng hoàn toàn mới.
Hãy xem xét một ví dụ thực tế. Hãy nghĩ về một dịch vụ truyền phát nhạc hoặc phim.
Làm thế nào để các công ty này biết những gì mọi người muốn xem hoặc nghe, và làm thế
nào để họ cung cấp nó? Bằng cách sử dụng tốt quá trình ra quyết định dựa trên dữ liệu, họ thu
thập thông tin về nội dung mà khách hàng của họ hiện đang nghe, phân tích nội dung đó, sau
đó sử dụng thông tin chi tiết mà họ có được để đưa ra đề xuất về những nội dung mà mọi
người có thể sẽ thích trong tương lai. Điều này giúp khách hàng hài lòng và quay trở lại nhiều
hơn, đồng nghĩa với việc mang lại nhiều doanh thu hơn cho công ty.
Một ví dụ khác về việc ra quyết định dựa trên dữ liệu có thể được nhìn thấy trong sự
phát triển của thương mại điện tử. Cách đây không lâu, hầu hết các giao dịch mua được thực
hiện tại một cửa hàng thực, nhưng dữ liệu cho thấy sở thích của mọi người đang thay đổi. Vì
vậy, rất nhiều công ty đã tạo ra các mô hình kinh doanh hoàn toàn mới loại bỏ cửa hàng thực
tế và cho phép mọi người mua sắm ngay từ máy tính hoặc điện thoại di động của họ với các
sản phẩm được giao ngay trước cửa nhà họ.
Trên thực tế, việc ra quyết định dựa trên dữ liệu có thể rất mạnh mẽ, nó có thể khiến
toàn bộ phương pháp kinh doanh trở nên lỗi thời.
Ví dụ, dữ liệu đã giúp các công ty loại bỏ hoàn toàn điện thoại có dây và thay thế chúng
bằng điện thoại di động. Bằng cách đảm bảo rằng dữ liệu được tích hợp vào mọi chiến lược
kinh doanh, các nhà phân tích dữ liệu đóng vai trò quan trọng đối với thành công của công ty
họ, nhưng điều quan trọng cần lưu ý là cho dù việc ra quyết định dựa trên dữ liệu có giá trị
đến đâu, thì chỉ riêng dữ liệu sẽ không bao giờ mạnh bằng dữ liệu kết hợp với kinh nghiệm,
sự quan sát và đôi khi cả trực giác của con người.
Để tận dụng tối đa quá trình ra quyết định dựa trên dữ liệu, điều quan trọng là phải bao
gồm thông tin chi tiết từ những người quen thuộc với vấn đề kinh doanh. Những người này
được gọi là chuyên gia về chủ đề và họ có khả năng xem xét kết quả phân tích dữ liệu và xác
định mọi điểm không nhất quán, hiểu được các vùng màu xám và cuối cùng xác thực các lựa
chọn được đưa ra. Các tổ chức hoạt động theo cách này đặt dữ liệu vào trọng tâm của mọi
chiến lược kinh doanh, nhưng cũng được hưởng lợi từ thông tin chuyên sâu của nhân viên. Đó
là một kết quả đôi bên cùng có lợi và tốt cho tất cả.
Với tư cách là nhà phân tích dữ liệu, bạn đóng vai trò chính trong việc trao quyền cho
các tổ chức này đưa ra quyết định dựa trên dữ liệu, đó là lý do tại sao việc hiểu dữ liệu đóng
vai trò như thế nào trong quá trình ra quyết định lại quan trọng đến vậy.
Gut instinct: trực giác
Chương 4: Kỳ vọng của chương trình và sử dụng hợp lý diễn đàn thảo
luận
Những gì mong đợi để tiến lên phía trước?
Chúng tôi đã đảm bảo rất nhiều. Tôi chắc rằng bạn có rất nhiều điều để suy nghĩ về rồi.
Đó là một điều tốt. Điều đó có nghĩa là bạn đã bắt đầu thu thập dữ liệu và bạn đang thực hiện
phân tích cá nhân của riêng mình. Tất cả là như thế đấy.
Bạn đã xây dựng một cơ sở tuyệt vời rồi. Khi khóa học này tiếp tục, kiến thức và kỹ
năng phân tích dữ liệu của bạn sẽ tiếp tục phát triển. Khi bạn đã thiết lập được nền tảng vững
chắc, bạn sẽ áp dụng những gì đã học được vào phần còn lại của chương trình.
Quá trình phân tích dữ liệu sẽ giúp cung cấp một khuôn khổ cho mọi thứ bạn làm.
Chẳng bao lâu nữa, bạn sẽ thực hiện bài đánh giá được xếp loại đầu tiên của mình. Đó là một
cách tuyệt vời để kiểm tra sự hiểu biết của bạn về các khái niệm và xây dựng sự tự tin vào
kiến thức của bạn.
Mọi người đều học ở tốc độ khác nhau. Vì vậy, không cần phải vội vàng. Làm quen
với các khái niệm. Ngay khi bạn cảm thấy sẵn sàng, bạn có thể tiếp tục và bắt đầu. Hãy nhớ
rằng, nếu tại bất kỳ thời điểm nào, bạn không chắc chắn về một câu hỏi, bạn luôn có thể xem
lại các video và bài đọc để nhắc nhở bản thân về câu trả lời. Tất cả chúng ta đều nói về các bài
kiểm tra sách mở ở đây. Khi bạn đã vượt qua, bạn sẽ sẵn sàng để tiếp tục. Bạn đã có cái này.
Trước khi bạn biết điều đó, bạn sẽ hoàn thành tất cả các khóa học và bạn sẽ sẵn sàng
tạo nghiên cứu điển hình của riêng mình. Sau đó, nếu đó là điều bạn muốn làm, bạn sẽ bắt đầu
quá trình tìm kiếm việc làm của mình, được trang bị các công cụ và kỹ năng sẽ khiến bất kỳ
công ty nào bạn nói chuyện phải thán phục.
Tôi nóng lòng muốn biết bạn sẽ đi đến đâu với phân tích dữ liệu. Tuy nhiên, bây giờ,
hãy tự khen ngợi bản thân vì đã hoàn thành tốt công việc. Hẹn sớm gặp lại.
Tuần 2: Tất cả về tư duy phân tích
Các nhà phân tích dữ liệu cân bằng nhiều vai trò khác nhau trong công việc của họ.
Trong phần này của khóa học, bạn sẽ tìm hiểu về một số vai trò này và các kỹ năng chính mà
các nhà phân tích sử dụng. Bạn cũng sẽ khám phá tư duy phân tích và cách nó liên quan đến
việc ra quyết định dựa trên dữ liệu.
Mục tiêu học tập:
 Giải thích khái niệm ra quyết định dựa trên dữ liệu bao gồm các ví dụ cụ thể.
 Mô tả các đặc điểm chính của tư duy phân tích.
 Tự đánh giá tư duy phân tích, nêu ví dụ cụ thể về ứng dụng của tư duy phân tích.
 Thể hiện sự hiểu biết về năm kỹ năng phân tích chính được sử dụng bởi các nhà phân
tích dữ liệu.
 Giải thích cách tư duy phân tích cho phép ra quyết định.
 Bắt đầu hỏi những câu hỏi hiệu quả hơn.
Chương 1: Nắm bắt kỹ năng phân tích dữ liệu của bạn?
Khám phá bộ kỹ năng dữ liệu
Chào mừng. Bây giờ bạn đã có nền tảng vững chắc về kiến thức cơ bản của dữ liệu, đã
đến lúc tập trung vào một số kỹ năng và đặc điểm cụ thể sẽ là chìa khóa cho sự nghiệp tương
lai của bạn với tư cách là nhà phân tích dữ liệu.
Chúng ta sẽ bắt đầu với năm kỹ năng chính, chuyển sang các đặc điểm của tư duy phân
tích và sau đó tìm hiểu cách các nhà phân tích dữ liệu cân bằng giữa vai trò và trách nhiệm
của họ. Đồng thời, bạn cũng sẽ khám phá cách khai thác khả năng tự nhiên của mình về chiến
lược, chuyên môn kỹ thuật và thiết kế dữ liệu.
Đây là những kỹ năng vô cùng hữu ích cần có và bạn sẽ học cách làm cho chúng trở
nên mạnh mẽ hơn nữa. Cuối cùng, bạn sẽ được giới thiệu một số ví dụ thực tế hấp dẫn về cách
dữ liệu ảnh hưởng đến cuộc sống của mọi người trên khắp thế giới.
Được rồi. Bắt đầu nào.
Kỹ năng phân tích dữ liệu chính
Trước đó, tôi đã nói với bạn rằng bạn đã có kỹ năng phân tích. Bạn có thể chưa biết nó.
Khi học những điều mới, đôi khi mọi người bỏ qua các kỹ năng của chính họ, nhưng điều
quan trọng là bạn dành thời gian để nhận ra chúng, đặc biệt vì những kỹ năng này sẽ giúp ích
cho bạn với tư cách là một nhà phân tích dữ liệu. Trên thực tế, có lẽ bạn đã chuẩn bị nhiều
hơn bạn nghĩ. Không tin tôi? Vâng, hãy để tôi chứng minh điều đó. Hãy bắt đầu bằng cách
xác định những gì tôi đang nói ở đây.
Analytical skills is Qualities and characteristics associated with solving problems
using facts (Kỹ năng phân tích là Khả năng sử dụng các dữ kiện để giải bài toán cho trước).
Kỹ năng phân tích là những phẩm chất và đặc điểm liên quan đến việc giải quyết vấn
đề bằng cách sử dụng dữ kiện. Có rất nhiều khía cạnh đối với kỹ năng phân tích, tuy nhiên,
chúng tôi sẽ tập trung vào năm điểm thiết yếu.
Bây giờ, bạn có thể nghĩ, "Tôi không có những loại kỹ năng này" hoặc "Tôi chỉ có một
vài trong số đó." Nhưng hãy ở lại với tôi, và tôi cá là bạn sẽ thay đổi quyết định.
Hãy bắt đầu với sự tò mò. Tò mò là tất cả về việc muốn tìm hiểu một cái gì đó. Những
người tò mò thường tìm kiếm những thử thách và trải nghiệm mới. Điều này dẫn đến kiến
thức. Việc bạn đang ở đây với tôi lúc này chứng tỏ rằng bạn có tính tò mò. Đó là một điều dễ
dàng.
Bây giờ hãy nghĩ về việc hiểu ngữ cảnh. Context is The condition in which something
exists or happens. (Ngữ cảnh là điền kiện trong một cái gì đó tồn tại hoặc xảy ra). Đây có thể
là một cấu trúc hoặc một môi trường. Một cách đơn giản để hiểu ngữ cảnh là đếm đến 5. Một,
hai, ba, bốn, năm. Tất cả những con số đó tồn tại trong ngữ cảnh từ một đến năm. Nhưng nếu
một người bạn của bạn nói với bạn, một, hai, bốn, năm, ba thì sao? Vâng, ba sẽ được ra khỏi
ngữ cảnh. Đơn giản, phải không?
Nhưng nó có thể là một chút khó khăn. Có một cơ hội tốt mà bạn thậm chí có thể không nhận
thấy cả ba nằm ngoài ngữ cảnh nếu bạn không chú ý kỹ. Đó là lý do tại sao việc lắng nghe và
cố gắng hiểu bức tranh toàn cảnh là rất quan trọng. Trong cuộc sống của riêng bạn, bạn luôn
đặt mọi thứ vào bối cảnh. Ví dụ, hãy nghĩ về danh sách thực phẩm của bạn. Nếu bạn nhóm
các mặt hàng như bột mì, đường và men lại với nhau, thì bạn đang thêm bối cảnh vào cửa
curiosity (sự tò mò)
understanding context (hiểu bối cảnh)
having technical mindset (có tư duy kĩ thuật)
data design (thiết kế dữ liệu)
data strategy (chiến lược dữ liệu)
hàng tạp hóa của mình. Điều này giúp bạn tiết kiệm thời gian khi bạn đang ở lối đi nướng
bánh tại cửa hàng tạp hóa. Hãy xem xét một ví dụ khác. Bạn đã bao giờ xáo trộn một cỗ bài
và chú ý đến quân hề chưa? Nếu bạn đang chơi một trò chơi không bao gồm những người pha
trò, việc xác định lá bài đó có nghĩa là bạn hiểu nó nằm ngoài ngữ cảnh. Xóa nó đi và bạn sẽ
có nhiều khả năng chơi một trò chơi thành công hơn. Bây giờ chúng tôi biết bạn có cả sự tò
mò và khả năng hiểu ngữ cảnh.
Hãy chuyển sang kỹ năng thứ ba, tư duy kỹ thuật. A technical mindset is The ability
to break things down into smaller steps or pieces and work with them in an orderly and logical
way. (Tư duy kỹ thuật là Khả năng chia nhỏ bài toán thành các bược hoặc các phần nhỏ hơn
và xử lý chúng một cách có trật tự và hợp lý.) Chẳng hạn, khi thanh toán hóa đơn, bạn có thể
đã chia quy trình thành các bước nhỏ hơn. Có thể bạn bắt đầu bằng cách sắp xếp chúng theo
ngày đến hạn. Tiếp theo, bạn có thể cộng chúng lại và so sánh số tiền đó với số dư trong tài
khoản ngân hàng của mình. Điều này sẽ giúp bạn biết liệu bạn có thể thanh toán các hóa đơn
của mình ngay bây giờ hay không hay liệu bạn có nên đợi đến kỳ lương tiếp theo hay không.
Cuối cùng, bạn sẽ trả tiền cho họ. Khi bạn thực hiện một việc gì đó giống như một nhiệm vụ
đơn lẻ, chẳng hạn như thanh toán hóa đơn, và chia nó thành các bước nhỏ hơn với một quy
trình có trật tự, thì đó là sử dụng tư duy kỹ thuật.
Bây giờ chúng ta hãy khám phá phần thứ tư của bộ kỹ năng phân tích, thiết kế dữ liệu.
Data design is How you organize information. (Thiết kế dữ liệu là Cách thông tin được tổ
chức). Là một nhà phân tích dữ liệu, thiết kế thường phải thực hiện với cơ sở dữ liệu thực tế.
Tuy nhiên, một lần nữa, những kỹ năng tương tự có thể dễ dàng áp dụng vào cuộc sống hàng
ngày. Ví dụ, hãy nghĩ về cách bạn sắp xếp các số liên lạc trong điện thoại của mình. Đó thực
sự là một kiểu thiết kế dữ liệu. Có thể bạn liệt kê họ theo tên thay vì họ hoặc có thể bạn sử
dụng địa chỉ email thay vì tên của họ. Những gì bạn đang thực sự làm là thiết kế một danh
sách hợp lý, rõ ràng cho phép bạn gọi điện hoặc nhắn tin cho một số liên lạc một cách nhanh
chóng và đơn giản.
Yếu tố cuối cùng nhưng không kém phần quan trọng, yếu tố thứ năm và cũng là yếu tố
cuối cùng của kỹ năng phân tích là chiến lược dữ liệu. Data strategy is The management of
the people, processes and tools used in data. (Chiến lược dữ liệu là Việc quản lý con người,
quy trình và công cụ được sử dụng trong phân tích dữ liệu). Hãy phá vỡ nó xuống. (Break
that down?) Bạn quản lý mọi người bằng cách đảm bảo rằng họ biết cách sử dụng đúng dữ
liệu để tìm giải pháp cho vấn đề mà bạn đang giải quyết.
Đối với các quy trình, đó là việc đảm bảo đường dẫn đến giải pháp đó rõ ràng và dễ
tiếp cận. Đối với các công cụ, bạn đảm bảo rằng công nghệ phù hợp đang được sử dụng cho
công việc. Bây giờ, bạn có thể nghi ngờ khả năng của tôi trong việc cung cấp cho bạn một ví
dụ từ cuộc sống thực thể hiện chiến lược dữ liệu. Nhưng hãy kiểm tra điều này.
Hãy tưởng tượng cắt một bãi cỏ. Bước 1 sẽ được đọc hướng dẫn sử dụng của chủ sở
hữu cho máy cắt. Đó là đảm bảo những người liên quan, hoặc bạn, trong ví dụ này, biết cách
sử dụng dữ liệu có sẵn. Sách hướng dẫn sẽ hướng dẫn bạn đeo kính bảo hộ và đi giày bít mũi.
Sau đó, chuyển sang bước 2: làm cho quy trình, lộ trình trở nên rõ ràng và dễ tiếp cận. Điều
này sẽ liên quan đến việc bạn đi dạo quanh bãi cỏ, nhặt những cây gậy hoặc tảng đá lớn có thể
cản đường bạn. Cuối cùng, đối với bước 3, bạn kiểm tra máy cắt cỏ, dụng cụ của mình để đảm
bảo rằng máy có đủ xăng và dầu, và đang ở tình trạng hoạt động để có thể cắt cỏ an toàn.
Bây giờ bạn đã biết năm kỹ năng cần thiết của một nhà phân tích dữ liệu. Tò mò, hiểu
ngữ cảnh, có tư duy kỹ thuật, thiết kế dữ liệu và chiến lược dữ liệu. Tôi đã nói với bạn rằng
bạn đã là một nhà tư tưởng phân tích. Bây giờ, bạn có thể bắt đầu tích cực thực hành những
kỹ năng này khi bạn chuyển qua phần còn lại của khóa học này. Tò mò về những gì tiếp theo?
Chuyển sang video tiếp theo.
Chương 2: Suy nghĩ về tư duy phân tích
Tất cả về tư duy phân tích
Bây giờ bạn đã biết năm kỹ năng cần thiết của một nhà phân tích dữ liệu, bạn đã sẵn
sàng để tìm hiểu thêm về ý nghĩa của tư duy phân tích.
Mọi người không thường nghĩ về suy nghĩ. Suy nghĩ là bản chất thứ hai đối với chúng
ta. Nó chỉ diễn ra một cách tự động, nhưng thực ra có nhiều cách nghĩ khác nhau. Một số
người suy nghĩ sáng tạo, một số suy nghĩ chín chắn và một số người suy nghĩ theo những cách
trừu tượng. Hãy nói về tư duy phân tích.
Analytical thinking is Identifying and defining a problem and then solving it by using
data in an organized, step-by-step manner. (Tư duy phân tích là Quá trình xác định và xác định
một vấn đề, sau đó giải quyết nó bằng cách sử dụng dữ liệu một cách có tổ chức, từng bước).
Là nhà phân tích dữ liệu, làm thế nào để chúng ta suy nghĩ phân tích?
Chà, để trả lời câu hỏi đó, bây giờ chúng ta sẽ nói về bộ năm thứ hai. Năm khía cạnh
chính của tư duy phân tích. Đó là
Hãy bắt đầu với trực quan hóa.
Visualization is The graphical representation of information ( Trực quan hóa là biểu diễn đồ
họa của thông tin)
Một số ví dụ bao gồm đồ thị, bản đồ hoặc các yếu tố thiết kế khác. Hình ảnh hóa rất
quan trọng vì hình ảnh có thể giúp các nhà phân tích dữ liệu hiểu và giải thích thông tin hiệu
quả hơn.
Visualization (trực quan hóa)
Strategy (chiến lược)
Problem- orientation (định hướng vấn đề)
Correlation (mối tương quan)
Big-picture and detail-oriented thinking (tư duy định hướng
chi tiết và bức tranh toàn cảnh)
Chương 3: Nghĩ về kết quả
Sử dụng dữ liệu để thúc đẩy kết quả thành công
Trong một video trước đó, bạn đã học về năm kỹ năng phân tích thiết yếu. Xin nhắc
lại, họ tò mò, hiểu ngữ cảnh, có tư duy kỹ thuật, thiết kế dữ liệu và chiến lược dữ liệu. Trong
một số video tiếp theo, chúng ta sẽ khám phá cách tất cả những khả năng này trở thành một
phần của quá trình ra quyết định dựa trên dữ liệu.
Nhưng trước tiên, hãy xem khái niệm ra quyết định dựa trên dữ liệu và lý do tại sao nó
có nhiều khả năng dẫn đến kết quả thành công hơn. Data-driven decision-making is Using
facts to guide business strategy (Ra quyết định dựa trên dữ liệu là Sử dụng dữ kiện để định
hướng chiến lược kinh doanh).
Bạn có thể nhớ rằng việc ra quyết định dựa trên dữ liệu liên quan đến việc sử dụng các
sự kiện để hướng dẫn chiến lược kinh doanh. Các nhà phân tích dữ liệu có thể khai thác sức
mạnh của dữ liệu để làm tất cả những điều tuyệt vời. Với dữ liệu, họ có thể thu được những
hiểu biết có giá trị, xác minh lý thuyết hoặc giả định của mình, hiểu rõ hơn về cơ hội và thách
thức, hỗ trợ mục tiêu, giúp lập kế hoạch, v.v.
Trong kinh doanh, việc ra quyết định dựa trên dữ liệu có thể cải thiện kết quả theo
nhiều cách khác nhau. Ví dụ, giả sử một nông dân chăn nuôi bò sữa muốn bắt đầu sản xuất và
bán kem. Họ có thể đoán được hương vị mà khách hàng thích, nhưng có một cách tốt hơn để
lấy thông tin. Người nông dân có thể khảo sát mọi người và hỏi họ thích hương vị nào. Điều
này cung cấp cho người nông dân dữ liệu họ cần để chọn hương vị kem mà mọi người sẽ thích.
Đây là một ví dụ khác. Giả sử chủ tịch của một tổ chức tò mò về những đặc quyền mà
nhân viên đánh giá cao nhất. Cô hỏi giám đốc nhân sự, người nói rằng mọi người coi trọng
quy tắc ăn mặc giản dị. Đó là một linh cảm, nhưng giám đốc nhân sự chứng minh điều đó với
thực tế là anh ta nhìn thấy rất nhiều người mặc quần jean và áo phông. Nhưng điều gì sẽ xảy
ra nếu công ty này sử dụng quy trình phản hồi của nhân viên có cấu trúc hơn, chẳng hạn như
một cuộc khảo sát? Nó có thể tiết lộ rằng nhân viên thực sự thích thẻ giao thông công cộng
miễn phí nhất. Giám đốc nhân sự không nhận ra điều đó vì anh ta lái xe đi làm.
Đây chỉ là một số lợi ích của việc ra quyết định dựa trên dữ liệu. Nó mang lại cho bạn
sự tự tin hơn về sự lựa chọn của bạn và khả năng của bạn để giải quyết những thách thức kinh
doanh. Nó giúp bạn trở nên chủ động hơn khi có cơ hội, đồng thời giúp bạn tiết kiệm thời gian
và công sức khi hướng tới mục tiêu. Bây giờ, hãy tìm hiểu thêm về cách năm kỹ năng này
giúp bạn khai thác tất cả tiềm năng của việc ra quyết định dựa trên dữ liệu.
Đầu tiên, hãy nghĩ về sự tò mò (curiosity) và bối cảnh (context). Bạn càng tìm hiểu
nhiều về sức mạnh của dữ liệu, bạn càng có khả năng trở nên tò mò hơn. Bạn sẽ bắt đầu thấy
các khuôn mẫu và mối quan hệ trong cuộc sống hàng ngày, cho dù bạn đang đọc tin tức, xem
phim hay đến một cuộc hẹn trong thành phố. Các nhà phân tích đưa suy nghĩ của họ tiến thêm
một bước bằng cách sử dụng bối cảnh để đưa ra dự đoán, nghiên cứu câu trả lời và cuối cùng
đưa ra kết luận về những gì họ đã khám phá. Quá trình tự nhiên này là bước đầu tiên tuyệt vời
để trở nên dựa trên dữ liệu nhiều hơn.
Có một tư duy kỹ thuật (Having technical mindset) đến tiếp theo. Mọi người đều có
bản năng, hoặc như trong trường hợp ví dụ về giám đốc nhân sự của chúng tôi, trực giác. Các
nhà phân tích dữ liệu cũng không khác. Họ cũng có trực giác. Nhưng họ đã rèn luyện bản thân
để xây dựng những cảm xúc đó và sử dụng một cách tiếp cận kỹ thuật hơn để khám phá chúng.
Họ làm điều này bằng cách luôn tìm kiếm sự thật, đưa chúng vào hoạt động thông qua phân
tích và sử dụng insights mà họ có được để đưa ra quyết định sáng suốt.
Tiếp theo, chúng ta đến với thiết kế dữ liệu (data design), có mối liên hệ chặt chẽ với
việc ra quyết định dựa trên dữ liệu. Nói một cách đơn giản, việc thiết kế dữ liệu của bạn sao
cho dữ liệu được tổ chức theo cách hợp lý giúp các nhà phân tích dữ liệu dễ dàng truy cập,
hiểu và tận dụng tối đa thông tin có sẵn. Và điều quan trọng cần lưu ý là thiết kế dữ liệu không
chỉ áp dụng cho cơ sở dữ liệu. Kiểu suy nghĩ này cũng có thể phù hợp với tất cả các loại tình
huống thực tế. Ý tưởng cơ bản là thế này. Nếu bạn đưa ra quyết định dựa trên dữ liệu, bạn có
nhiều khả năng đưa ra quyết định sáng suốt và hiệu quả hơn.
Khả năng cuối cùng là chiến lược dữ liệu (data strategy) , kết hợp con người, quy trình
và công cụ được sử dụng để giải quyết vấn đề. Đây là một điều quan trọng cần nhớ vì chiến
lược dữ liệu cung cấp cho bạn cái nhìn tổng thể về con đường bạn cần thực hiện để đạt được
mục tiêu của mình.
Ngoài ra, việc ra quyết định dựa trên dữ liệu không phải là công việc của một người.
Sẽ có nhiều khả năng thành công hơn nếu mọi người tham gia và cùng 1 chí hướng, vì vậy,
điều quan trọng là phải đảm bảo các quy trình cụ thể được áp dụng và công nghệ bạn đang sử
dụng phù hợp với chiến lược dựa trên dữ liệu của bạn.
Bây giờ bạn đã biết năm kỹ năng phân tích thiết yếu này hoạt động như thế nào để đưa
ra các quyết định dựa trên dữ liệu tốt hơn. Cho đến nay, nhiều ví dụ bạn đã nghe là giả thuyết.
Điều đó có nghĩa là chúng có thể đúng về mặt lý thuyết, nhưng không phải là trường hợp cụ
thể trong thế giới thực. Tiếp theo, chúng ta sẽ xem xét một số ví dụ thực tế. Tôi nóng lòng
muốn chia sẻ cách các nhà phân tích dữ liệu đưa dữ liệu vào hoạt động để đạt được kết quả
đáng kinh ngạc.
Phép thuật dữ liệu trong thế giới thực
Trong video này, tôi sẽ chia sẻ một số nghiên cứu điển hình làm nổi bật công việc đáng
kinh ngạc của các nhà phân tích dữ liệu. Mỗi tình huống trong số này thể hiện sức mạnh của
việc ra quyết định dựa trên dữ liệu theo những cách không ngờ tới. Câu chuyện đầu tiên là về
Google.
Như tôi đã đề cập trước đây một chút, tại Google, sứ mệnh của chúng tôi là sắp xếp
thông tin của thế giới và làm cho thông tin đó trở nên hữu ích và có thể truy cập được trên
toàn cầu. Tất cả các sản phẩm của chúng tôi, từ ý tưởng đến phát triển đến ra mắt, đều được
xây dựng dựa trên dữ liệu và quá trình ra quyết định dựa trên dữ liệu.
Có rất nhiều ví dụ ở đây tại Google về những người sử dụng dữ kiện để tạo chiến lược
kinh doanh. Nhưng một trong những điều nổi tiếng nhất liên quan đến nguồn nhân lực của
Google. Đây là cách nó đã đi. Bộ phận nhân sự muốn biết liệu có giá trị gì khi có các nhà quản
lý hay không. Những đóng góp của họ có đáng giá không? Hay mọi người chỉ nên là một
người đóng góp cá nhân? Để trả lời câu hỏi đó, nhóm phân tích con người của Google đã xem
xét các bài đánh giá hiệu suất trong quá khứ và các cuộc khảo sát nhân viên. Dữ liệu họ tìm
thấy được vẽ trên biểu đồ vì như bạn đã biết, hình ảnh cực kỳ hữu ích khi cố gắng hiểu một
vấn đề hoặc khái niệm.
Biểu đồ tiết lộ rằng nhân viên Google có cảm xúc tích cực về người quản lý của họ,
nhưng dữ liệu khá chung chung và nhóm muốn tìm hiểu thêm. Vì vậy, họ đào sâu hơn và chia
dữ liệu thành các phần tư. Một phần tư chia các điểm dữ liệu thành bốn phần hoặc bốn phần
bằng nhau. Đây là nơi những thứ thực sự thú vị bắt đầu xảy ra.
Các nhà phân tích dữ liệu đã phát hiện ra rằng có một sự khác biệt lớn giữa các phần
tư trên cùng và dưới cùng. Hóa ra, các nhóm có người quản lý tốt nhất vui vẻ hơn, làm việc
hiệu quả hơn và có nhiều khả năng muốn tiếp tục làm việc tại Google hơn. Điều này khẳng
định rằng các nhà quản lý được đánh giá cao và tạo ra sự khác biệt lớn. Do đó, ý tưởng chỉ có
những người đóng góp cá nhân đã không được thực hiện.
Nhưng vẫn còn nhiều việc phải làm. Chỉ biết rằng những người quản lý tuyệt vời tạo
ra kết quả tuyệt vời không dẫn đến những hiểu biết có thể hành động. Bạn phải xác định chính
xác điều gì tạo nên một người quản lý tuyệt vời, vì vậy nhóm đã thực hiện thêm hai bước để
thu thập thêm dữ liệu. Đầu tiên, họ đưa ra một chương trình giải thưởng để nhân viên có thể
đề cử người quản lý yêu thích của họ. Đối với mỗi lần gửi, bạn phải cung cấp các ví dụ hoặc
dữ liệu về điều gì làm cho người quản lý đó trở nên tuyệt vời. Bước thứ hai liên quan đến việc
phỏng vấn các nhà quản lý, những người được xếp vào các nhóm trên cùng và dưới cùng.
Điều này đã giúp nhóm phân tích thấy được sự khác biệt giữa các hành vi quản lý thành công
và kém thành công.
Các hành vi tốt nhất được xác định là những lý do phổ biến nhất khiến người quản lý
cần cải thiện. Bước cuối cùng là chia sẻ những hiểu biết sâu sắc này và đưa ra một quy trình
để đánh giá các nhà quản lý dựa trên những phẩm chất này. Quyết định dựa trên dữ liệu này
tiếp tục tạo ra văn hóa công ty đặc biệt cho tôi và đồng nghiệp. Cảm ơn, dữ liệu.
Một ví dụ thú vị khác đến từ lĩnh vực phi lợi nhuận. Tổ chức phi lợi nhuận là các tổ
chức dành riêng cho việc thúc đẩy sự nghiệp xã hội hoặc ủng hộ một nỗ lực cụ thể, chẳng hạn
như an ninh lương thực, giáo dục hoặc nghệ thuật.
Trong trường hợp này, các nhà phân tích dữ liệu đã nghiên cứu cách các nhà báo có thể
tạo ra tác động có ý nghĩa hơn cho các tổ chức phi lợi nhuận mà họ sẽ viết về. Bởi vì các nhà
báo viết báo, tạp chí và các hãng tin tức khác, họ có thể giúp các tổ chức phi lợi nhuận tiếp
cận những độc giả như bạn và tôi, những người sau đó sẽ hành động để giúp các tổ chức phi
lợi nhuận đạt được mục tiêu của họ.
Chẳng hạn, giả sử bạn đọc về vấn đề biến đổi khí hậu trên một tạp chí trực tuyến. Nếu
bài báo có hiệu quả, bạn sẽ tìm hiểu thêm về nguyên nhân và thậm chí có thể buộc phải đưa
ra những lựa chọn xanh hơn trong cuộc sống hàng ngày của mình, tình nguyện cho một tổ
chức phi lợi nhuận hoặc quyên góp. Đó là một ví dụ về công việc của nhà báo mang lại nhận
thức, sự hiểu biết và sự tham gia.
Vì vậy, trở lại câu chuyện. Các nhà phân tích dữ liệu đã sử dụng trình theo dõi để theo
dõi các chủ đề câu chuyện, số lần nhấp, lưu lượng truy cập web, nhận xét, lượt chia sẻ, v.v.
Sau đó, họ đánh giá thông tin để đưa ra khuyến nghị về cách các nhà báo có thể làm công việc
của họ tốt hơn nữa. Cuối cùng, họ đã đưa ra một số ý tưởng tuyệt vời về cách các tổ chức phi
lợi nhuận và nhà báo có thể thúc đẩy mọi người ở khắp mọi nơi cùng nhau làm việc và biến
thế giới thành một nơi tốt đẹp hơn.
Thực sự không có giới hạn cho những gì bạn có thể làm với tư cách là một nhà phân
tích dữ liệu. Khi bạn tiến bộ thông qua chương trình này, bạn sẽ khám phá ra nhiều khả năng
hơn nữa. Bạn đã làm rất tốt theo chủ đề của một vài video trước đây. Bạn đã học tất cả về kỹ
năng phân tích và năm đặc điểm chính của nhà phân tích dữ liệu. Bạn thậm chí có thể đã học
được rằng bạn đã là một người chuyên nghiệp trong hầu hết những điều này rồi. Tiếp theo,
bạn đã khám phá ra ý nghĩa của việc tư duy phân tích và các kỹ năng cụ thể mà nhà phân tích
dữ liệu phát triển để giúp họ thực hiện điều đó.
Bạn đã khám phá các công cụ và quy trình cho phép các nhà phân tích dữ liệu xác định
chính xác vấn đề và đặt câu hỏi phù hợp để giải quyết chúng. Cuối cùng, một số câu chuyện
thực tế đã giúp minh họa lý do tại sao việc ra quyết định dựa trên dữ liệu thường thành công
hơn các phương pháp khác. Bạn đang xây dựng một nền tảng tuyệt vời cho sự nghiệp của
mình với tư cách là một nhà phân tích dữ liệu.
Với mỗi kỹ năng, bạn sẽ tiếp tục mở rộng và hiểu biết của bạn về các khái niệm phân
tích dữ liệu chính sẽ ngày càng mạnh mẽ hơn. Chẳng mấy chốc, bạn sẽ có cơ hội kiểm tra mọi
thứ bạn đã học. Đây là một cơ hội thực sự hữu ích để kiểm tra mức độ hiểu biết của bạn về tất
cả các khái niệm mà chúng ta đã thảo luận và nếu bạn không chắc chắn về một câu hỏi nào
đó, bạn có thể xem lại các video và bài đọc để tìm câu trả lời. Đây là một cách tuyệt vời khác
để thực hành thu thập dữ liệu.
Tuần 3: Thế giới tuyệt vời của dữ liệu
Dữ liệu có vòng đời riêng và công việc của các nhà phân tích dữ liệu thường giao thoa
với vòng đời đó. Trong phần này của khóa học, bạn sẽ tìm hiểu cách cả vòng đời dữ liệu và
hoạt động của các nhà phân tích dữ liệu liên quan đến tiến trình của bạn thông qua chương
trình này. Bạn cũng sẽ được giới thiệu các ứng dụng được sử dụng trong quá trình phân tích
dữ liệu.
Mục tiêu học tập:
 Xác định các ứng dụng phần mềm quan trọng đối với công việc của nhà phân tích dữ
liệu bao gồm bảng tính, cơ sở dữ liệu, ngôn ngữ truy vấn và công cụ trực quan
 Xác định mối quan hệ giữa quy trình phân tích dữ liệu và các khóa học trong Chứng
chỉ Google Data Analytics
 Giải thích quy trình phân tích dữ liệu, đưa ra tham chiếu cụ thể đến các giai đoạn hỏi,
chuẩn bị, xử lý, phân tích, chia sẻ và hành động
 Thảo luận về việc sử dụng dữ liệu trong các quyết định cuộc sống hàng ngày
 Thảo luận về vai trò của bảng tính, ngôn ngữ truy vấn và công cụ trực quan hóa dữ liệu
trong phân tích dữ liệu
 Thảo luận về các giai đoạn của vòng đời dữ liệu
Chương 1: Theo dõi vòng đời dữ liệu
Tìm hiểu về các giai đoạn và công cụ dữ liệu
Chào. Thật tuyệt khi có bạn trở lại. Chúng ta đã nói một chút về quá trình phân tích dữ
liệu. Để ôn lại nhanh, các giai đoạn của quy trình phân tích dữ liệu là hỏi, chuẩn bị, xử lý,
phân tích, chia sẻ và hành động.
Bạn có thể nhớ tôi đã nói trước đó rằng toàn bộ chương trình này được lập mô hình
theo các bước này. Bây giờ, chúng ta sẽ thực sự đào sâu và khám phá cách mỗi giai đoạn này
phối hợp với nhau. Nhưng tôi đang đi trước mình một chút. Đầu tiên, chúng ta hãy dành một
ít thời gian để tìm hiểu vòng đời của dữ liệu. Không, dữ liệu không thực sự tồn tại, nhưng nó
có vòng đời.
Làm thế nào để các nhà phân tích dữ liệu đưa dữ liệu vào cuộc sống? Chà, nó bắt đầu
với công cụ phân tích dữ liệu phù hợp. Chúng bao gồm bảng tính, cơ sở dữ liệu, ngôn ngữ
truy vấn và phần mềm trực quan hóa. Đừng lo lắng nếu bạn không biết chúng hoạt động như
thế nào, hoặc thậm chí chúng là gì. Tại một thời điểm, mọi nhà phân tích dữ liệu đều ở đúng
vị trí của bạn hiện tại và họ có thể có rất nhiều câu hỏi giống nhau.
Tôi nhớ khi tôi mới bắt đầu tìm hiểu về bảng tính. Tôi là một thực tập sinh trẻ tuổi và
công ty tôi đang làm việc đang trong quá trình thay đổi hệ thống lớn. Điều đó có nghĩa là
chúng tôi phải chuyển hàng tấn báo cáo từ hệ thống cũ sang hệ thống mới. Sau một vài tuần,
tôi nhận thấy rằng ngay cả những người đã đi xa hơn trong sự nghiệp của họ cũng không có
đầu óc kỹ thuật như tôi. Điều đó đã trở thành một cơ hội tuyệt vời để tôi gia tăng giá trị. Thời
điểm bảng tính aha của tôi đến khi tôi bắt đầu nghiên cứu các phím tắt mà tôi có thể sử dụng
để làm việc với các bảng tính hiệu quả hơn.
Điều này thực sự sẽ hợp lý hóa quá trình chuyển các báo cáo đó sang hệ thống mới.
Khi mọi thứ bắt đầu suôn sẻ, tôi nhớ đã nhận được email từ các nhà phân tích tài chính khác
tại công ty. Họ rất biết ơn vì đã có người đến và khắc phục sự cố mà không ai khác có thể làm
được. Điều đó đã truyền cảm hứng cho tôi tiến xa hơn nữa và học cách sử dụng bảng tính theo
nhiều cách lạ thường.
Khi bạn tiếp tục học qua khóa học này, tôi cá là bạn cũng sẽ ấn tượng như tôi. Và trước
khi bạn biết điều đó, bạn cũng sẽ đưa dữ liệu vào cuộc sống. Bắt đầu nào.
Các giai đoạn của vòng đời dữ liệu
Đây là một câu hỏi cho bạn. Khi bạn nghĩ về một vòng đời, điều đầu tiên bạn nghĩ đến
là gì? Bây giờ tôi không phải là người đọc suy nghĩ, nhưng tôi biết bất cứ điều gì bạn đang
nghĩ là đúng. Thực ra không có câu trả lời sai vì mọi thứ đều có vòng đời. Một trong những
ví dụ nổi tiếng nhất về vòng đời là một con bướm. Bướm bắt đầu từ trứng, nở thành sâu bướm
và sau đó trở thành nhộng. Đó là nơi phép màu thực sự xảy ra.
Dữ liệu cũng có vòng đời của riêng nó. Trong video này, chúng ta sẽ nói về từng giai
đoạn trong vòng đời đó để giúp bạn hiểu dữ liệu về các giai đoạn riêng lẻ trải qua.
Vòng đời của dữ liệu là lập kế hoạch, nắm bắt, quản lý, phân tích, lưu trữ và tiêu hủy.
Hãy bắt đầu với giai đoạn đầu tiên, lập kế hoạch. Điều này thực sự xảy ra tốt trước khi
bắt đầu một dự án phân tích. Trong quá trình lập kế hoạch, doanh nghiệp quyết định loại dữ
liệu nào họ cần, cách thức quản lý dữ liệu trong suốt vòng đời của nó, ai sẽ chịu trách nhiệm
về dữ liệu đó và kết quả tối ưu.
Ví dụ: giả sử một nhà cung cấp điện muốn hiểu rõ hơn về cách tiết kiệm năng lượng
cho mọi người. Trong giai đoạn lập kế hoạch, họ có thể quyết định nắm bắt thông tin về lượng
điện mà khách hàng sử dụng mỗi năm, loại tòa nhà nào đang được cấp điện và loại thiết bị
nào đang được cấp điện bên trong chúng. Công ty điện lực cũng sẽ quyết định thành viên nào
trong nhóm sẽ chịu trách nhiệm thu thập, lưu trữ và chia sẻ dữ liệu đó. Tất cả điều này xảy ra
trong quá trình lập kế hoạch và nó giúp thiết lập phần còn lại của dự án.
Plan Capture Manage Analyze Archive Destroy
Giai đoạn tiếp theo là khi bạn thu thập dữ liệu. Đây là nơi dữ liệu được thu thập từ
nhiều nguồn khác nhau và được đưa vào tổ chức. Với rất nhiều dữ liệu được tạo ra hàng ngày,
các cách để thu thập nó thực sự là vô tận. Một phương pháp phổ biến là lấy dữ liệu từ các
nguồn bên ngoài.
Ví dụ: nếu bạn đang thực hiện phân tích dữ liệu về các kiểu thời tiết, có thể bạn sẽ lấy
dữ liệu từ bộ dữ liệu có sẵn công khai như Trung tâm Dữ liệu Khí hậu Quốc gia. Một cách
khác để lấy dữ liệu là từ các tài liệu và tệp của chính công ty, thường được lưu trữ bên trong
cơ sở dữ liệu. Mặc dù chúng tôi đã đề cập đến cơ sở dữ liệu trước đây, nhưng chúng tôi chưa
đi sâu vào chi tiết về chúng là gì. Database is A collection of data stored in a computer system
( Cơ sở dữ liệu là Tập hợp dữ liệu được lưu trữ trong máy tính). Trong trường hợp nhà cung
cấp điện của chúng tôi, doanh nghiệp có thể sẽ đo lường việc sử dụng dữ liệu giữa các khách
hàng của mình trong cơ sở dữ liệu mà họ sở hữu.
Lưu ý nhanh, khi bạn duy trì cơ sở dữ liệu thông tin khách hàng, việc đảm bảo tính
toàn vẹn, độ tin cậy và quyền riêng tư của dữ liệu đều là những mối quan tâm quan trọng. Bạn
sẽ học được nhiều hơn về điều đó sau này. Bây giờ chúng ta đã nắm bắt được dữ liệu của mình,
chúng tôi sẽ chuyển sang giai đoạn tiếp theo của vòng đời dữ liệu, quản lý.
Ở đây, chúng tôi đang nói về cách chúng tôi chăm sóc dữ liệu của mình, cách thức và
vị trí dữ liệu được lưu trữ, các công cụ được sử dụng để giữ dữ liệu an toàn và bảo mật cũng
như các hành động được thực hiện để đảm bảo dữ liệu được duy trì đúng cách. Giai đoạn này
rất quan trọng đối với việc làm sạch dữ liệu mà chúng tôi sẽ đề cập sau.
Tiếp theo là thời gian để phân tích dữ liệu của bạn. Đây là nơi các nhà phân tích dữ liệu
thực sự tỏa sáng. Trong giai đoạn này, dữ liệu được sử dụng để giải quyết vấn đề, đưa ra quyết
định tuyệt vời và hỗ trợ các mục tiêu kinh doanh. Ví dụ, một trong những mục tiêu của công
ty điện lực của chúng ta có thể là tìm cách giúp khách hàng tiết kiệm năng lượng.
Di chuyển dọc theo vòng đời dữ liệu hiện phát triển sang giai đoạn lưu trữ. Lưu trữ có
nghĩa là lưu trữ dữ liệu ở một nơi vẫn có sẵn nhưng không được sử dụng lại. Trong quá trình
phân tích, các nhà phân tích xử lý lượng dữ liệu khổng lồ. Bạn có thể tưởng tượng nếu chúng
ta phải sắp xếp tất cả dữ liệu có sẵn ở đó, ngay cả khi nó không còn hữu ích và phù hợp với
công việc của chúng ta nữa không? Sẽ hợp lý hơn khi lưu trữ nó hơn là giữ nó xung quanh.
Và cuối cùng, bước cuối cùng của vòng đời dữ liệu, giai đoạn phá hủy. Vâng, nghe có
vẻ buồn, nhưng khi bạn hủy dữ liệu, nó sẽ không gây hại một chút nào. Vì vậy, hãy quay lại
ví dụ về nhà cung cấp điện của chúng ta. Họ sẽ có dữ liệu được lưu trữ trên nhiều ổ cứng. Để
phá hủy nó, công ty sẽ sử dụng một phần mềm xóa dữ liệu an toàn. Nếu có bất kỳ tệp giấy
nào, chúng cũng sẽ bị cắt nhỏ. Điều này rất quan trọng để bảo vệ thông tin riêng tư của công
ty, cũng như dữ liệu riêng tư về khách hàng của công ty.
And there you have it, vòng đời dữ liệu. Và bây giờ bạn đã hiểu các giai đoạn khác
nhau mà dữ liệu trải qua trong vòng đời của nó, bạn có thể hiểu rõ hơn về cách tiếp cận quy
trình phân tích dữ liệu mà chúng ta sẽ sớm nói đến.
Chương 2: Phác thảo quá trình phân tích dữ liệu
Sáu giai đoạn phân tích dữ liệu
Bây giờ bạn đã hiểu tất cả các giai đoạn của vòng đời dữ liệu, đã đến lúc chuyển sang
các giai đoạn phân tích dữ liệu. Chúng nghe có vẻ giống nhau, nhưng là hai thứ khác nhau.
Phân tích dữ liệu không phải là một vòng đời. Đó là quá trình phân tích dữ liệu. Sắp tới, chúng
ta sẽ xem xét từng bước của quy trình phân tích dữ liệu và nó sẽ liên quan như thế nào đến
công việc của bạn với tư cách là nhà phân tích dữ liệu. Ngay cả chương trình này cũng được
thiết kế để thực hiện theo các bước này.
Hiểu được những kết nối này sẽ giúp hướng dẫn phân tích của riêng bạn và công việc
của bạn trong chương trình này. Bạn đã biết rằng chương trình này được mô phỏng theo các
giai đoạn của quy trình phân tích dữ liệu. Chương trình này được chia thành các khóa học, sáu
trong số đó dựa trên các bước phân tích dữ liệu: hỏi, chuẩn bị, xử lý, phân tích, chia sẻ và hành
động.
Hãy bắt đầu với bước đầu tiên trong phân tích dữ liệu, giai đoạn hỏi. Trong giai đoạn
này, chúng tôi làm hai việc. Chúng tôi xác định vấn đề cần giải quyết và chúng tôi đảm bảo
rằng chúng tôi hiểu đầy đủ về kỳ vọng của các bên liên quan. Stakeholders is People who
have invested time and resources into a project and are interested in the outcome. (Bên liên
quan là Những người đầu tư thời gian và nguồn lực vào một dự án và quan tâm đến kết quả
của nó). Đầu tiên, xác định một vấn đề có nghĩa là bạn nhìn vào trạng thái hiện tại và xác định
nó khác với trạng thái lý tưởng như thế nào.
Thông thường, có một trở ngại mà chúng ta cần loại bỏ hoặc điều gì đó sai trái cần
được sửa chữa. Chẳng hạn, một nhà thi đấu thể thao có thể muốn giảm thời gian người hâm
mộ phải chờ xếp hàng mua vé. Trở ngại là tìm ra cách đưa khách hàng đến chỗ ngồi của họ
nhanh hơn.
Một phần quan trọng khác của giai đoạn hỏi là hiểu được kỳ vọng của các bên liên
quan. Bước đầu tiên ở đây là xác định các bên liên quan là ai. Điều đó có thể bao gồm người
quản lý của bạn, nhà tài trợ điều hành hoặc đối tác bán hàng của bạn. Có thể có rất nhiều bên
liên quan. Nhưng điểm chung của tất cả chúng là chúng giúp đưa ra quyết định, tác động đến
các hành động và chiến lược, đồng thời có những mục tiêu cụ thể mà chúng muốn đạt được.
Họ cũng quan tâm đến dự án và đó là lý do tại sao việc hiểu được kỳ vọng của họ lại
quan trọng đến vậy. Ví dụ: nếu người quản lý của bạn giao cho bạn một dự án phân tích dữ
liệu liên quan đến rủi ro kinh doanh, bạn nên xác nhận xem họ có muốn bao gồm tất cả các
loại rủi ro có thể ảnh hưởng đến công ty hay chỉ những rủi ro liên quan đến thời tiết như bão
và lốc xoáy.
Giao tiếp với các bên liên quan là chìa khóa để đảm bảo bạn luôn tham gia và đi đúng
hướng trong suốt dự án. Vì vậy, với tư cách là một nhà phân tích dữ liệu, việc phát triển các
chiến lược truyền thông hiệu quả là rất quan trọng. Phần này của giai đoạn hỏi giúp bạn tiếp
tục tập trung vào chính vấn đề chứ không chỉ các triệu chứng của nó. Như bạn đã biết trước
đó, năm câu hỏi tại sao cực kỳ hữu ích ở đây. Trong khóa học sắp tới, bạn sẽ học cách đặt câu
hỏi hiệu quả và xác định vấn đề bằng cách làm việc với các bên liên quan. Bạn cũng sẽ đề cập
đến các chiến lược có thể giúp bạn chia sẻ những gì bạn khám phá theo cách khiến mọi người
quan tâm.
Sau đó, chúng ta sẽ chuyển sang bước chuẩn bị của quy trình phân tích dữ liệu. Đây là
nơi các nhà phân tích dữ liệu thu thập và lưu trữ dữ liệu mà họ sẽ sử dụng cho quá trình phân
tích sắp tới. Bạn sẽ tìm hiểu thêm về các loại dữ liệu khác nhau và cách xác định loại dữ liệu
nào hữu ích nhất để giải quyết một vấn đề cụ thể. Bạn cũng sẽ khám phá ra lý do tại sao dữ
liệu và kết quả của bạn phải khách quan và không thiên vị lại quan trọng đến vậy. Nói cách
khác, bất kỳ quyết định nào được đưa ra từ phân tích của bạn phải luôn dựa trên thực tế và
phải công bằng, không thiên vị.
Tiếp theo là bước quy trình. Tại đây, các nhà phân tích dữ liệu tìm và loại bỏ mọi lỗi
và điểm không chính xác có thể cản trở kết quả. Điều này thường có nghĩa là làm sạch dữ liệu,
chuyển đổi dữ liệu thành định dạng hữu ích hơn, kết hợp hai hoặc nhiều bộ dữ liệu để làm cho
thông tin đầy đủ hơn và loại bỏ các giá trị ngoại lai, tức là bất kỳ điểm dữ liệu nào có thể làm
sai lệch thông tin.
Sau đó, bạn sẽ học cách kiểm tra dữ liệu bạn chuẩn bị để đảm bảo dữ liệu đó hoàn chỉnh
và chính xác. Giai đoạn này là tất cả về việc làm đúng các chi tiết. Vì vậy, bạn cũng sẽ sửa lỗi
chính tả, sự không nhất quán hoặc dữ liệu bị thiếu và không chính xác. Trên hết, bạn sẽ có
được các chiến lược để xác minh và chia sẻ quá trình làm sạch dữ liệu của mình với các bên
liên quan.
Sau đó là thời gian để phân tích. Phân tích dữ liệu bạn đã thu thập liên quan đến việc
sử dụng các công cụ để chuyển đổi và sắp xếp thông tin đó để bạn có thể rút ra kết luận hữu
ích, đưa ra dự đoán và thúc đẩy quá trình ra quyết định sáng suốt.
Có rất nhiều công cụ mạnh mẽ mà các nhà phân tích dữ liệu sử dụng trong công việc
của họ và trong khóa học này, bạn sẽ tìm hiểu về hai trong số đó, bảng tính và ngôn ngữ truy
vấn có cấu trúc hoặc SQL, thường được phát âm là "phần tiếp theo". Khóa học tiếp theo dựa
trên giai đoạn chia sẻ. Tại đây, bạn sẽ tìm hiểu cách các nhà phân tích dữ liệu giải thích kết
quả và chia sẻ chúng với những người khác để giúp các bên liên quan đưa ra quyết định dựa
trên dữ liệu hiệu quả.
Trong giai đoạn chia sẻ, trực quan hóa là người bạn tốt nhất của nhà phân tích dữ liệu.
Vì vậy, khóa học này sẽ nêu bật lý do tại sao trực quan hóa lại cần thiết để khiến người khác
hiểu dữ liệu của bạn đang nói gì với bạn. Với hình ảnh phù hợp, các dữ kiện và số liệu trở nên
dễ nhìn hơn rất nhiều và các khái niệm phức tạp trở nên dễ hiểu hơn.
Chúng ta sẽ khám phá các loại hình ảnh khác nhau và một số công cụ trực quan hóa dữ
liệu tuyệt vời. Bạn cũng sẽ thực hành các kỹ năng thuyết trình của riêng mình bằng cách tạo
các trình chiếu hấp dẫn và học cách chuẩn bị đầy đủ để trả lời các câu hỏi.
Sau đó, chúng tôi sẽ tạm dừng quá trình phân tích dữ liệu để cho bạn thấy tất cả những
điều thực sự thú vị mà bạn có thể làm với ngôn ngữ lập trình R. Bạn không cần phải quen
thuộc với R hoặc các ngôn ngữ lập trình nói chung. Chỉ cần biết rằng R là một công cụ phổ
biến để thao tác, tính toán và trực quan hóa dữ liệu.
Đối với giai đoạn phân tích dữ liệu cuối cùng của chúng tôi, chúng tôi đã hành động.
Đây là thời điểm thú vị khi doanh nghiệp sử dụng tất cả thông tin chi tiết mà bạn, nhà phân
tích dữ liệu, đã cung cấp và vận dụng chúng để giải quyết vấn đề kinh doanh ban đầu và sẽ
hành động dựa trên những gì bạn đã học được trong suốt chương trình này. Đây là lúc bạn
chuẩn bị cho việc tìm kiếm việc làm của mình và có cơ hội hoàn thành một dự án nghiên cứu
điển hình. Đó là một cơ hội tuyệt vời để bạn tập hợp mọi thứ bạn đã làm trong suốt khóa học
này.
Ngoài ra, việc thêm một nghiên cứu điển hình vào danh mục đầu tư của bạn sẽ giúp
bạn nổi bật so với các ứng viên khác khi bạn phỏng vấn cho công việc phân tích dữ liệu đầu
tiên của mình. Bây giờ bạn đã biết các bước khác nhau của quy trình phân tích dữ liệu và cách
khóa học của chúng tôi phản ánh quy trình đó. Bạn có mọi thứ bạn cần để hiểu khóa học này
hoạt động như thế nào và các đồng nghiệp Google của tôi và tôi sẽ ở đây để hướng dẫn bạn
từng bước.
Molly: Ví dụ về quy trình dữ liệu
Bất kể bạn đang tiến hành loại phân tích dữ liệu nào, quy trình này thường giống nhau.
Ví dụ mà tôi sẽ xem qua là cuộc khảo sát về mức độ gắn kết của nhân viên của chúng tôi,
nhưng bạn có thể tưởng tượng rằng quy trình này chỉ áp dụng cho bất kỳ phân tích dữ liệu nào
mà bạn sẽ thực hiện với tư cách là nhà phân tích.
Điều đầu tiên bạn muốn làm là hỏi. Bạn muốn hỏi tất cả các câu hỏi phù hợp khi bắt
đầu tham gia để bạn hiểu rõ hơn những gì các nhà lãnh đạo và các bên liên quan của bạn cần
từ phân tích này. Các loại câu hỏi mà tôi thường hỏi xoay quanh vấn đề mà chúng tôi đang cố
gắng giải quyết là gì? Mục đích của phân tích này là gì? Chúng ta hy vọng học được gì từ nó?
Sau khi bạn đã hỏi tất cả các câu hỏi phù hợp và bạn đã nắm được phạm vi phân tích
mà bạn cần tiến hành, bước tiếp theo là chuẩn bị. Chúng ta cần suy nghĩ về loại dữ liệu nào
chúng ta cần để trả lời những câu hỏi chính đó. Đây có thể là bất cứ thứ gì từ dữ liệu định
lượng hoặc dữ liệu định tính. Nó có thể là mặt cắt ngang hoặc thời điểm so với chiều dọc trong
một khoảng thời gian dài. Chúng ta cần suy nghĩ về loại dữ liệu chúng ta cần để trả lời các câu
hỏi mà chúng ta đã đặt ra để trả lời dựa trên những gì chúng ta học được khi đặt câu hỏi đúng.
Chúng tôi cũng cần suy nghĩ về cách chúng tôi sẽ thu thập dữ liệu đó hoặc liệu chúng tôi có
cần thu thập dữ liệu đó hay không.
Có thể xảy ra trường hợp chúng tôi cần thu thập dữ liệu hoàn toàn mới này. Vì vậy,
chúng tôi cần suy nghĩ về loại dữ liệu nào chúng tôi sẽ thu thập và cách thức thu thập. Đối với
khảo sát mức độ gắn kết của nhân viên, chúng tôi thực hiện điều đó thông qua khảo sát cả câu
hỏi định lượng và định tính. Nhưng thực tế có thể xảy ra trường hợp đối với nhiều phân tích,
dữ liệu mà bạn đang tìm kiếm đã tồn tại. Sau đó, vấn đề là làm việc với những chủ sở hữu dữ
liệu đó để đảm bảo rằng bạn có thể tận dụng dữ liệu đó và sử dụng dữ liệu đó một cách có
trách nhiệm.
Sau khi bạn đã thực hiện tất cả các công việc khó khăn để thu thập dữ liệu của mình,
bây giờ bạn cần xử lý dữ liệu đó. Nó bắt đầu với việc làm sạch. Đối với tôi, đây là phần thú vị
nhất của quá trình phân tích dữ liệu. Chúng tôi có thể coi đó là phần giới thiệu ban đầu hoặc
cái bắt tay, xin chào, với dữ liệu của bạn. Đây là nơi bạn có cơ hội hiểu cấu trúc, đặc điểm,
sắc thái của nó và bạn thực sự có cơ hội hiểu sâu về loại dữ liệu bạn sẽ làm việc và hiểu tiềm
năng của dữ liệu đó để trả lời tất cả các câu hỏi của bạn.
Đây cũng là một phần quan trọng, nơi chúng tôi đang thực hiện tất cả các kiểm tra đảm
bảo chất lượng của mình. Ví dụ: chúng tôi có tất cả dữ liệu mà chúng tôi dự đoán sẽ có không?
Chúng tôi đang thiếu dữ liệu một cách ngẫu nhiên hay dữ liệu bị thiếu một cách có hệ thống
đến mức có thể đã xảy ra sự cố với nỗ lực thu thập dữ liệu của chúng tôi? Nếu cần, chúng tôi
đã mã hóa tất cả dữ liệu của mình đúng cách chưa? Có bất kỳ ngoại lệ nào mà chúng ta cần
đối xử khác đi không? Đây là phần mà chúng tôi dành nhiều thời gian thực sự đào sâu vào cấu
trúc và sắc thái của dữ liệu để đảm bảo rằng bạn có thể phân tích dữ liệu một cách thích hợp
và có trách nhiệm.
Sau khi làm sạch dữ liệu của chúng tôi và chạy tất cả các kiểm tra đảm bảo chất lượng,
giờ là lúc chúng tôi phân tích dữ liệu của mình, đảm bảo làm như vậy theo cách khách quan
và không thiên vị nhất có thể. Để làm điều này, điều đầu tiên chúng tôi làm là thực hiện một
loạt phân tích mà chúng tôi đã lên kế hoạch trước dựa trên những câu hỏi mà chúng tôi biết
rằng mình muốn trả lời ngay từ đầu của quá trình.
Một điều có lẽ khó nhất trong quy trình cụ thể này, điều khó nhất khi phân tích dữ liệu,
là chúng tôi với tư cách là nhà phân tích được đào tạo để tìm kiếm các mẫu. Theo thời gian
khi chúng ta ngày càng trở nên giỏi hơn trong công việc của mình, điều mà chúng ta thường
nhận thấy là chúng ta có thể bắt đầu trực cảm những gì chúng ta có thể thấy trong dữ liệu.
Chúng tôi có thể có một sự nghi ngờ lén lút về những gì dữ liệu sẽ cho chúng tôi biết. Đây là
điểm mà chúng ta phải lùi lại một bước và để dữ liệu tự nói lên điều đó.
Là nhà phân tích dữ liệu, chúng tôi là những người kể chuyện, nhưng chúng tôi cũng
phải nhớ rằng đó không phải là câu chuyện của chúng tôi để kể. Câu chuyện đó thuộc về dữ
liệu và công việc của chúng tôi với tư cách là nhà phân tích là khuếch đại và kể câu chuyện
đó theo cách công bằng và khách quan nhất có thể.
Bước tiếp theo là chia sẻ tất cả dữ liệu và thông tin chi tiết mà bạn đã tạo từ các phân
tích của mình. Hiện nay, thông thường đối với khảo sát về mức độ gắn kết của nhân viên,
chúng tôi bắt đầu bằng cách chia sẻ những phát hiện cấp cao với nhóm điều hành của mình.
Chúng tôi muốn họ có cái nhìn bao quát về cảm giác của tổ chức và chúng tôi muốn đảm bảo
rằng không có bất kỳ điều gì bất ngờ khi họ đào sâu hơn nữa vào dữ liệu để hiểu cảm giác của
các nhóm và cảm giác của từng nhân viên.
Tất cả những công việc này từ việc đặt câu hỏi phù hợp đến thu thập dữ liệu của bạn,
đến phân tích và chia sẻ, sẽ không có ý nghĩa gì nhiều nếu chúng ta không thực hiện hành
động đối với những gì chúng ta vừa học được.
Đối với tôi, đây là phần quan trọng nhất, đặc biệt là trong cuộc khảo sát về mức độ gắn
kết của nhân viên của chúng tôi. Tôi muốn nói rằng cuộc khảo sát thực sự là một phần dễ dàng
và hành động dựa trên kết quả thực sự là nơi công việc thực sự bắt đầu. Đây là nơi chúng tôi
sử dụng tất cả những hiểu biết dựa trên dữ liệu đó để quyết định loại can thiệp nào chúng tôi
muốn giới thiệu, không chỉ ở cấp độ tổ chức mà còn ở cấp độ nhóm.
Ví dụ, chúng ta có thể thấy rằng tổ chức đang thực hiện một loạt các biện pháp can
thiệp để giúp cải thiện một phần trải nghiệm của nhân viên, trong khi các nhóm riêng lẻ có
thêm vai trò, trách nhiệm để thực hiện, để củng cố một số nỗ lực đó hoặc giới thiệu những nỗ
lực mới cho gặp gỡ nhóm của họ tốt hơn ở những điểm mạnh và lĩnh vực cơ hội của họ.
Quá trình phân tích dữ liệu là nghiêm ngặt, nhưng nó kéo dài. Tôi hoàn toàn có thể
đánh giá cao rằng chúng tôi với tư cách là nhà phân tích dữ liệu, rất hào hứng với việc đi sâu
vào dữ liệu và làm những gì chúng tôi làm tốt nhất.
Thách thức là nếu chúng ta không thực hiện toàn bộ quy trình, nếu chúng ta cố bỏ qua
các bước, thì chúng ta sẽ không thể gợi ra những hiểu biết sâu sắc mà chúng ta đang tìm kiếm.
Tôi rất thích công việc của mình. Tôi đánh giá rất cao dữ liệu và những gì nó có thể làm cũng
như loại hiểu biết sâu sắc nào mà chúng ta có thể rút ra từ nó
Chương 3: Hộp công cụ phân tích dữ liệu
Khám phá các công cụ phân tích dữ liệu
Tôi rất mong được giới thiệu với bạn một số công cụ mà nhà phân tích dữ liệu sử dụng
hàng ngày. Có rất nhiều lựa chọn ngoài kia. Nhưng những thứ phổ biến nhất mà bạn sẽ thấy
nhà phân tích sử dụng là bảng tính, ngôn ngữ truy vấn và công cụ trực quan. Và video này sẽ
cung cấp cho bạn cái nhìn nhanh về cách các nhà phân tích dữ liệu đang sử dụng các công cụ
này hàng ngày.
Dù bạn có tin hay không thì tùy, tôi đã có vài năm trong sự nghiệp kế toán và tài chính
của mình trước khi tôi thấy tất cả những công cụ này hoạt động cùng nhau. Vào thời điểm đó,
tôi đã có rất nhiều kinh nghiệm với bảng tính và đã làm việc trong các tập dữ liệu lớn với một
số chương trình cơ sở dữ liệu truyền thống. Tôi đã có bộ kỹ năng cơ bản để sử dụng các ngôn
ngữ truy vấn và tôi đã tìm hiểu kỹ về trực quan hóa, nhưng tôi chưa bao giờ kết hợp tất cả
chúng lại với nhau.
Sau đó, tôi được thuê tại Google. Và thật là mở mang tầm mắt khi đến một nơi như thế
này với vô số thông tin ở mọi nơi bạn nhìn thấy. Là một nhà phân tích tại Google, sức mạnh
thực sự của những công cụ này trở nên rõ ràng hơn rất nhiều đối với tôi. Tôi trở nên tập trung
hơn vào việc thực sự tối đa hóa mọi thứ mà những công cụ này có thể làm, hợp lý hóa báo cáo
của tôi và chỉ làm cho công việc của tôi trở nên đơn giản hơn.
Đột nhiên, tôi có nhiều thời gian và không gian hơn để dành cho việc xác định các vấn
đề mới cần giải quyết và thúc đẩy quá trình ra quyết định. Không còn nghi ngờ gì nữa, một
khi bạn đã học được sức mạnh của những công cụ này, bạn sẽ tiếp tục trở thành nhà phân tích
dữ liệu giỏi nhất có thể. Được rồi, tôi hy vọng câu chuyện đó đã giúp bạn có thêm động lực
cho khóa học này.
Hãy bắt đầu với bảng tính. Một lần nữa, có rất nhiều giải pháp bảng tính khác nhau,
nhưng hai tùy chọn phổ biến là Microsoft Excel và Google Trang tính. Nói một cách đơn giản,
bảng tính là một bảng tính kỹ thuật số. Nó lưu trữ, tổ chức và sắp xếp dữ liệu. Điều này rất
quan trọng vì tính hữu ích của dữ liệu của bạn phụ thuộc vào mức độ cấu trúc của dữ liệu đó.
Khi đưa dữ liệu của mình vào bảng tính, bạn có thể xem các mẫu, nhóm thông tin và dễ dàng
tìm thấy thông tin mình cần. Bảng tính cũng có một số tính năng thực sự hữu ích được gọi là
công thức và hàm. Formula is A set of instructions that performs a specific calculation using
the data in a spreadsheet. (Công thức là một tập hợp các hướng dẫn thực hiện một phép tính
cụ thể bằng cách sử dụng dữ liệu trong bảng tính). Các công thức có thể làm những việc cơ
bản như cộng, trừ, nhân và chia, nhưng chúng không dừng lại ở đó. Bạn cũng có thể sử dụng
công thức để tìm giá trị trung bình của một tập hợp số. Tra cứu một giá trị cụ thể, trả về tổng
của một tập hợp các giá trị đáp ứng một quy tắc cụ thể, v.v. A function is a preset command
that automatically performs a specific process or task using the data in a spreadsheet. Hàm là
một lệnh đặt trước tự động thực hiện một quy trình hoặc tác vụ cụ thể bằng cách sử dụng dữ
liệu trong bảng tính. Điều đó nghe có vẻ khá kỹ thuật, tôi biết, vì vậy hãy chia nhỏ nó ra. Chỉ
cần nghĩ về một chức năng như một cách đơn giản hơn, hiệu quả hơn để làm một việc gì đó
mà thông thường sẽ mất rất nhiều thời gian. Nói cách khác, các chức năng có thể giúp bạn làm
việc hiệu quả hơn. Đó là những điều cơ bản về bảng tính cho bây giờ. Sau này, bạn sẽ thấy
chúng hoạt động và tự mình bắt đầu làm việc với bảng tính.
Công cụ phân tích dữ liệu tiếp theo được gọi là ngôn ngữ truy vấn. Ngôn ngữ truy vấn
là ngôn ngữ lập trình máy tính cho phép bạn truy xuất và thao tác dữ liệu từ cơ sở dữ liệu. Bạn
sẽ học một thứ gọi là ngôn ngữ truy vấn có cấu trúc, thường được gọi là SQL. SQL là ngôn
ngữ cho phép các nhà phân tích dữ liệu giao tiếp với cơ sở dữ liệu. A database is a collection
DA
tools
Spreadsheets
SQL
Visualization tools
of data stored in a computer system. (Cơ sở dữ liệu là Tập hợp dữ liệu được lưu trữ trong hệ
thống máy tính).
SQL là ngôn ngữ truy vấn có cấu trúc được sử dụng rộng rãi nhất vì một vài lý do. Thật
dễ hiểu và hoạt động rất tốt với tất cả các loại cơ sở dữ liệu. Với SQL, các nhà phân tích dữ
liệu có thể truy cập dữ liệu họ cần bằng cách thực hiện truy vấn. Mặc dù truy vấn có nghĩa là
câu hỏi, nhưng tôi thích coi nó giống như một yêu cầu hơn. Vì vậy, bạn đang yêu cầu cơ sở
dữ liệu làm điều gì đó cho bạn. Bạn có thể yêu cầu nó thực hiện rất nhiều việc khác nhau như
chèn, xóa, chọn hoặc cập nhật dữ liệu. Được rồi, đó là cái nhìn cấp cao nhất về SQL. Trong
video sau, chúng ta sẽ khám phá thêm về nó và sử dụng SQL để thực hiện một số điều thực
sự thú vị với dữ liệu.
Cuối cùng, hãy nói về trực quan hóa dữ liệu. Bạn đã học được rằng trực quan hóa dữ
liệu là biểu diễn đồ họa của thông tin. Một số ví dụ bao gồm đồ thị, bản đồ và bảng. Hầu hết
mọi người xử lý hình ảnh dễ dàng hơn so với chỉ từ ngữ. Đó là lý do tại sao hình dung rất quan
trọng. Họ giúp các nhà phân tích dữ liệu truyền đạt những hiểu biết của họ cho người khác
theo cách hiệu quả và hấp dẫn. Khi bạn nghĩ về quy trình phân tích dữ liệu, sau khi dữ liệu
được chuẩn bị, xử lý và phân tích, thông tin chi tiết sẽ được trực quan hóa để có thể hiểu và
chia sẻ.
Điều này giúp các bên liên quan dễ dàng đưa ra kết luận, đưa ra quyết định và đưa ra
các chiến lược. Một số công cụ trực quan phổ biến là Tableau và Looker. Các nhà phân tích
dữ liệu thích sử dụng Tableau vì nó giúp họ tạo ra các hình ảnh rất dễ hiểu. Điều này có nghĩa
là ngay cả những người dùng không có kỹ thuật cũng có thể nhận được thông tin họ cần.
Looker cũng phổ biến với các nhà phân tích dữ liệu vì nó giúp họ dễ dàng tạo hình ảnh trực
quan dựa trên kết quả của truy vấn. Với Looker, bạn có thể cung cấp cho các bên liên quan
một bức tranh hoàn chỉnh về công việc của mình bằng cách hiển thị cho họ dữ liệu trực quan
hóa và dữ liệu thực tế liên quan đến nó. Tất cả các công cụ trực quan đều có các tính năng
tuyệt vời hữu ích trong các tình huống khác nhau. Bạn sẽ sớm học cách quyết định sử dụng
công cụ nào cho một công việc cụ thể.
Và đó là tất cả những gì bạn cần biết về vòng đời dữ liệu và quy trình phân tích dữ liệu.
Bạn sẽ có cơ hội kiểm tra những gì bạn biết, vì vậy bạn có thể cảm thấy tự tin tiến về phía
trước trong khóa học này. Vui lòng dành chút thời gian để làm quen lại với các khái niệm và
khi bạn đã sẵn sàng, hãy cố gắng hết sức.
Nếu bạn không chắc chắn về câu trả lời, bạn luôn có thể quay lại và xem lại các video
và bài đọc. Sau đó, bạn sẽ sẵn sàng chuyển sang nhóm video tiếp theo, nơi chúng tôi sẽ tiếp
tục khám phá các công cụ phân tích dữ liệu mà bạn đã đề cập. Và bạn sẽ nhận được một số
thông tin chi tiết thực sự hấp dẫn về chính xác cách chúng hoạt động. Chẳng bao lâu, bạn sẽ
có kiến thức và sự tự tin để tự mình bắt đầu sử dụng chúng.
Tuần 4: Thiết lập hộp công cụ của bạn
Khi bạn đang học, bảng tính, ngôn ngữ truy vấn và công cụ trực quan hóa dữ liệu đều
là một phần quan trọng trong công việc của nhà phân tích dữ liệu. Trong phần này của khóa
học, bạn sẽ tìm hiểu thêm về các khái niệm cơ bản có liên quan và khám phá một số ví dụ về
cách các công cụ này hoạt động.
Mục tiêu học tập:
 Mô tả bảng tính, ngôn ngữ truy vấn và công cụ trực quan hóa dữ liệu, đưa ra các ví dụ
cụ thể
 Thể hiện sự hiểu biết về cách sử dụng, tính năng cơ bản và chức năng của bảng tính
 Giải thích các khái niệm cơ bản liên quan đến việc sử dụng SQL bao gồm các ví dụ cụ
thể về truy vấn
 Xác định các khái niệm cơ bản liên quan đến trực quan hóa dữ liệu, đưa ra các ví dụ cụ
thể
Chương 1: Nắm vững kiến thức cơ bản về bảng tính
Thông tin chi tiết về các công cụ dữ liệu cốt lõi
Chào mừng trở lại. Trong một số video tiếp theo, bạn sẽ tiếp tục khám phá các công cụ
phân tích dữ liệu mà chúng ta đã thảo luận trước đó và bạn sẽ có cơ hội xem chúng hoạt động
một chút. Điều này sẽ cung cấp cho bạn một bức tranh rõ ràng hơn về cách sử dụng các công
cụ này. Phần còn lại của chương trình sẽ được xây dựng dựa trên những gì bạn học được ở
đây.
Chúng ta sẽ bắt đầu xem xét kỹ hơn về bảng tính. Chúng ta sẽ chia bảng tính thành
những điều cơ bản để hiểu rõ hơn về một số tính năng và chức năng của chúng. Bạn cũng sẽ
tìm hiểu cách bạn có thể muốn sử dụng chúng trong công việc của mình với tư cách là nhà
phân tích dữ liệu. Ví dụ: bạn sắp xếp dữ liệu như thế nào để dễ sử dụng hơn? Chúng ta sẽ tìm
hiểu.
Tiếp theo, chúng ta sẽ thấy SQL hoạt động. Các nhà phân tích dữ liệu luôn sử dụng
SQL trong công việc của họ. Chẳng hạn như khi họ cần một lượng lớn dữ liệu trong vài giây
để giúp trả lời nhanh một câu hỏi kinh doanh. Rất có thể, bạn không quen thuộc với SQL.
Không sao đâu. Bạn sẽ học cách sử dụng SQL giống như gọi đồ ăn tại một nhà hàng siêu tốc.
Truy vấn SQL của bạn có thể không ngon bằng nhưng bạn sẽ không phải đợi lâu để nhận được
đơn đặt hàng của mình.
Nói về thực phẩm, chủ đề nào tốt hơn món tráng miệng? Bạn có thể coi trực quan hóa
dữ liệu như món tráng miệng cho bữa ăn phân tích dữ liệu. Nó được cung cấp ở phần cuối của
quá trình phân tích sau khi bạn đã hoàn thành những gì cần thiết để có được dữ liệu phù hợp
cho một câu hỏi hoặc nhiệm vụ. Chúng ta đã thấy rằng hình ảnh hóa có nhiều dạng, chẳng hạn
như đồ thị hoặc biểu đồ. Cũng giống như món tráng miệng, chúng là một món ăn đáng để
thưởng thức.
Bạn sẽ tìm hiểu thêm về các biểu diễn trực quan này và xem các ví dụ khác về hình
thức của chúng. Sau đó, bạn sẽ nói chuyện về hình ảnh hóa với các nhà phân tích dữ liệu tương
lai khác giống như bạn. Chúng tôi sẽ kết thúc mọi thứ bằng một bài đánh giá, nhưng bạn sẽ
có thời gian để xem lại những gì bạn đã học được trước đó. Được rồi, chúng ta hãy tiếp tục đi.
Nhân tiện, bây giờ có ai đói không?
Cột và hàng và ô, ôi chao!
Bảng tính là một phần quan trọng trong phân tích dữ liệu. Làm bạn với bảng tính càng
sớm càng tốt. Tin tôi đi, chúng sẽ giúp bạn tiết kiệm rất nhiều thời gian với tư cách là nhà
phân tích dữ liệu và giúp toàn bộ công việc của bạn trở nên dễ dàng hơn.
Bảng tính này là một ví dụ về hình thức của một bảng tính có tổ chức.
Trong video này, chúng tôi sẽ trình bày một số khái niệm bảng tính cơ bản cho tất cả
các bạn mới làm quen với thế giới này. Đây có thể là bài đánh giá dành cho một số bạn có
nhiều kinh nghiệm hơn ngoài kia, nhưng thực hành những gì bạn biết sẽ không hại gì.
Ngoài ra, bạn vẫn có thể học được một hoặc hai mẹo. Tôi đã cho bạn thấy hình ảnh này
trước đó. Hãy khám phá thêm vì đây là một ví dụ tuyệt vời về ba tính năng chính của bảng
tính: ô, hàng và cột. Chúng sẽ là một phần của hầu hết mọi thứ bạn làm trong bảng tính để tạo
danh sách tạp hóa đơn giản cho đến phân tích tập dữ liệu phức tạp.
Tôi sử dụng bảng tính để quản lý mọi thứ, từ tài chính cá nhân của mình cho đến bữa
tiệc về quê hàng năm mà tôi và bạn bè tổ chức hàng năm. Tôi là người lập kế hoạch, vì vậy
tôi sử dụng bảng tính để sắp xếp mọi thứ ngăn nắp, đảm bảo rằng chúng tôi có mọi thứ mình
cần.
Nói về việc giữ mọi thứ theo thứ tự, các cột được sắp xếp theo chiều dọc trong bảng
tính và được sắp xếp theo chữ cái. Và các hàng được sắp xếp theo chiều ngang và được sắp
xếp theo số. Vì vậy, khi bạn nói về một ô cụ thể, bạn đặt tên cho nó bằng cách kết hợp chữ cái
của cột và số hàng của ô đó. Ví dụ: trong bảng tính này, hàng từ nằm trong ô D3.
Hãy bắt đầu với một bảng tính thực tế. Bạn có thể hoàn thành tất cả các bước trong bất
kỳ chương trình bảng tính nào. Bây giờ chúng ta hãy làm quen với bảng tính của bạn tốt hơn
một chút. Chúng ta sẽ bắt đầu với một số thao tác cơ bản. Hãy nhớ rằng, với tư cách là nhà
phân tích, không phải lúc nào bạn cũng tạo tập dữ liệu của riêng mình. Nhưng bây giờ, chúng
ta hãy làm điều đó.
Tôi sẽ nhấp vào ô A2 và nhập tên của mình như thế này. Sau đó, tôi sẽ nhấp vào ô B2
và nhập họ của mình. Đừng lo lắng nếu tên của bạn không vừa trong ô, bạn luôn có thể làm
cho cột rộng hơn nếu cần. Tất cả những gì bạn phải làm là nhấp và kéo cạnh phải của cột cho
đến khi tên của bạn khớp. Hoặc bạn có thể sử dụng tính năng ngắt dòng văn bản, tính năng
này sẽ đặt các ô tự động thay đổi chiều cao của chúng để cho phép văn bản trong ô vừa vặn.
Để sử dụng tính năng này, hãy chọn các ô, cột hoặc hàng có văn bản, sau đó sử dụng menu
định dạng để xem các tùy chọn ngắt dòng văn bản. Nó được tự động thiết lập để cho phép văn
bản tràn ra khỏi ô. Nhưng thay vào đó, bạn có thể ngắt văn bản để tất cả văn bản được hiển
thị. Tùy chọn clip sẽ cắt văn bản trong ô để chỉ hiển thị văn bản phù hợp. Nó đây rồi. Chúng
tôi đã thêm dữ liệu.
` Bây giờ hãy gắn nhãn cho nó. Điều này rất quan trọng đối với tổ chức. Việc thêm nhãn
vào đầu cột sẽ giúp bạn tham khảo và tìm dữ liệu dễ dàng hơn sau này khi bạn thực hiện phân
tích. Các nhãn cột này thường được gọi là thuộc tính. Attribute is A characteristic or quality
of data used to label a column in a table. ( Thuộc tính là một đặc điểm hoặc chất lượng của dữ
liệu được sử dụng để gắn nhãn cho một cột trong bảng). Thông thường hơn, các thuộc tính
được gọi là tên cột, nhãn cột, tiêu đề hoặc hàng tiêu đề.
Hãy thêm một số tiêu đề vào bảng của chúng tôi. Tôi sẽ nhấp vào ô A1 và nhập các từ
tên. Trong ô B1, tôi sẽ nhập họ. Chúng tôi sẽ in đậm các thuộc tính này để chúng nổi bật hơn.
Bảng tính có thể trở nên rất lớn, vì vậy bạn muốn đảm bảo dữ liệu của mình được dán nhãn rõ
ràng và dễ tìm. Tôi có thể sử dụng con trỏ để chọn các ô có thuộc tính. Sau đó, tôi sẽ nhấp vào
biểu tượng in đậm để in đậm chúng. Nhìn tốt cho đến nay. Sẵn sàng để thêm một số dữ liệu?
Hãy bắt đầu với một số thuộc tính mới. Đầu tiên, tôi sẽ thêm một cột cho số lượng anh chị em
ruột bằng cách nhập anh chị em ruột vào ô C1. Sau đó, tôi sẽ thêm hai thuộc tính nữa vào hai
cột tiếp theo. Hãy chọn màu sắc yêu thích và món tráng miệng yêu thích. Tôi cũng sẽ in đậm
chúng. Để các nhãn vừa với các ô, tôi sẽ điều chỉnh kích thước của các cột giống như trước
đây.
Bây giờ, hãy nhớ rằng có nhiều cách hơn để điều chỉnh kích thước của cột và hàng.
Nếu bạn có thắc mắc về cách sử dụng bảng tính, tìm kiếm nhanh trực tuyến thường sẽ giúp
bạn tìm thấy những gì bạn cần. Chúng tôi cũng đã bao gồm một bài đọc với nhiều mẹo và
thông tin hơn về bảng tính. OK, chúng ta hãy quay lại với nó. Bây giờ, tôi có thể thêm dữ liệu
của riêng mình vào tập dữ liệu. Tôi sẽ nhập số anh chị em của tôi và màu sắc và món tráng
miệng yêu thích của tôi vào các ô thích hợp. Tiếp theo, tôi sẽ thêm dữ liệu cho hai người
nữa.Bây giờ chúng ta có ba hàng dữ liệu. Trong tập dữ liệu, một hàng còn được gọi là một
quan sát. (An observation includes all of the attributes for something contained in a row of a
data table). Một quan sát bao gồm tất cả các thuộc tính cho một cái gì đó có trong một hàng
của bảng dữ liệu. Trong trường hợp này, hàng 3 là một quan sát của Willa Stein vì chúng ta
thấy tất cả các thuộc tính của cô ấy trong hàng này.
` Trong trường hợp này, hàng 3 là một quan sát của Willa Stein vì chúng ta thấy tất cả
các thuộc tính của cô ấy trong hàng này. Vì vậy, bây giờ chúng tôi biết bảng tính cho phép
bạn làm nhiều việc với dữ liệu. Bạn có thể lưu trữ và sắp xếp dữ liệu như chúng tôi đã làm
trong bảng tính này. Nhưng bạn có thể tiến xa hơn nữa và nhận ra dữ liệu hiện có. Ở đây, tôi
sẽ chỉ cho bạn làm thế nào. Giả sử chúng ta muốn sắp xếp dữ liệu của mình theo số anh chị
em của mỗi người. Có một cách đơn giản để làm điều đó. Trước tiên, chúng ta sẽ cần chọn tất
cả các cột có dữ liệu để tất cả cột được sắp xếp lại với nhau. Sau đó, chúng ta có thể vào menu
dữ liệu của mình. Ở đây chúng tôi có một số tùy chọn. Hãy chọn phạm vi sắp xếp. Điều này
sẽ cho phép chúng tôi chọn cách tổ chức cột.
Tiếp theo, chúng tôi sẽ chọn A đến Z, sẽ sắp xếp các số của chúng tôi theo thứ tự từ nhỏ nhất
đến lớn nhất. Bây giờ, chúng tôi muốn xem hàng tiêu đề, đó là từ anh chị em ruột, thuộc tính
cho cột này. Chúng tôi sẽ kiểm tra hộp này. Điều này đảm bảo từ anh chị em giữ nguyên vị
trí. Bây giờ chúng tôi đã sẵn sàng để sắp xếp. Thì đấy, chúng tôi vừa sắp xếp lại dữ liệu của
mình bằng cách sắp xếp dữ liệu từ số nhỏ nhất đến số lớn nhất.
`
`
Khi chúng ta tiếp tục, bạn sẽ khám phá ra nhiều cách khác để làm việc với dữ liệu trong
bảng tính, bao gồm các hàm và công thức. Hãy kết thúc bằng một ví dụ nhanh về công thức.
Bạn có thể coi công thức là một cách để thao tác dữ liệu trong bảng tính. Các công thức giống
như một máy tính, nhưng mạnh mẽ hơn. Công thức là một tập hợp các hướng dẫn thực hiện
một hành động cụ thể bằng cách sử dụng dữ liệu trong bảng tính. Để làm điều này, công thức
sử dụng các tham chiếu ô cho các giá trị mà nó đang tính toán. Tôi se cho bạn xem. Chúng tôi
sẽ nhấp vào ô tiếp theo trong cột anh chị em. Sau đó, chúng ta sẽ gõ một dấu bằng. Tất cả các
công thức bắt đầu với biểu tượng này. Tiếp theo, chúng tôi sẽ nhập các ô mà chúng tôi muốn
cộng lại với nhau. Trong trường hợp này, chúng tôi sẽ nhập C2 cộng với C3 cộng với C4. Bây
giờ chúng ta có thể nhấn "Enter". Nó đây rồi. Công thức đã cho chúng ta tổng số anh chị em
được đại diện trong bộ dữ liệu này. Chúng tôi vừa phân tích một số dữ liệu. Chúng tôi sẽ muốn
lưu trữ dữ liệu để sử dụng sau này.
Trong Google trang tính, bảng tính được lưu tự động vào Google Drive của bạn. Đối
với Excel và các bảng tính khác, bạn sẽ lưu chúng dưới dạng tệp. Bây giờ bạn đã biết một số
điều cơ bản để sử dụng bảng tính. Khi bạn đã quen với những khái niệm này, bạn sẽ có thể
tìm hiểu thêm về các công cụ bảng tính.
Hãy xem lại video này và tự mình thực hành. Bạn thậm chí có thể tạo phiên bản bảng
tính của riêng mình bằng dữ liệu của riêng bạn. Tạm biệt bây giờ.
Chương 2: Ngôn ngữ truy vấn có cấu trúc (SQL)
SQL trong hoạt động
Như bạn có thể nhớ, trước đó chúng ta đã đề cập đến ngôn ngữ truy vấn SQL. Trong
video này, bạn sẽ thấy SQL hoạt động và tìm hiểu những gì bạn có thể làm với nó, với một số
ví dụ về các truy vấn cụ thể. Tôi đoán bạn có thể gọi đây là phần tiếp theo của SQL. Chúng
tôi sẽ cố gắng làm cho bản này hay hơn bản gốc.
Hãy nhớ rằng, SQL có thể thực hiện nhiều thao tác tương tự với dữ liệu mà bảng tính
có thể thực hiện. Bạn có thể sử dụng nó để lưu trữ, sắp xếp và phân tích dữ liệu của mình,
trong số những thứ khác.
Nhưng giống như bất kỳ phần tiếp theo hay nào, nó ở quy mô lớn hơn, lớn hơn, nhiều
hành động hơn. Hãy nghĩ về nó như bảng tính siêu lớn. Ví dụ: bạn có thể muốn xem xét một
bảng tính khi bạn có tập dữ liệu nhỏ hơn, chẳng hạn như bảng tính chỉ có 100 hàng. Nhưng
nếu tập dữ liệu của bạn dường như tiếp tục mãi mãi và bảng tính của bạn đang cố gắng theo
kịp, thì SQL sẽ là giải pháp phù hợp.
Khi bạn sử dụng SQL, bạn cần một nơi để hiểu ngôn ngữ SQL. Nếu bạn đã từng đi đâu
đó và không biết ngôn ngữ đó, việc giao tiếp có thể gặp khó khăn. Bạn có thể nghĩ rằng bạn
đang yêu cầu một thứ và nhận được một thứ hoàn toàn khác.
Chà, SQL biết cảm giác đó. SQL cần một cơ sở dữ liệu sẽ hiểu ngôn ngữ của nó. Hãy
nói chuyện. Có một số cơ sở dữ liệu sử dụng SQL. Bạn có thể sử dụng một vài trong số chúng
SQL
Store
Organize
Analyze
trong thời gian làm nhà phân tích dữ liệu. Nhưng vấn đề là, bất kể bạn sử dụng cơ sở dữ liệu
nào, SQL về cơ bản hoạt động giống nhau trong mỗi cơ sở dữ liệu.
Ví dụ, trong SQL, các truy vấn là phổ biến. Trước đây, chúng ta đã nói về các truy vấn,
nhưng việc ôn lại không bao giờ là vấn đề. Query is A request for data or information from a
database ( Câu truy vấn là Yêu cầu dữ liệu hoặc thông tin từ cơ sở dữ liệu).
Ví dụ, trong SQL, các truy vấn là phổ biến. Trước đây, chúng ta đã nói về các truy vấn,
nhưng việc ôn lại không bao giờ là vấn đề. Truy vấn là yêu cầu dữ liệu hoặc thông tin từ cơ
sở dữ liệu. Đây là cấu trúc của một truy vấn cơ bản. Bạn có thể thấy rằng với truy vấn này,
chúng tôi có thể chọn dữ liệu cụ thể từ một bảng bằng cách thêm nơi chúng tôi có thể lọc dữ
liệu dựa trên các điều kiện nhất định.
Bắt đầu nào. Chúng ta sẽ mở cơ sở dữ liệu của mình và xem cách SQL có thể giao tiếp
với nó để thực hiện một số tác vụ dữ liệu đơn giản. Trước tiên, hãy chọn tập dữ liệu của chúng
tôi. Chúng tôi sẽ sử dụng dấu hoa thị để chọn tất cả dữ liệu từ bảng. Với truy vấn đơn giản đó,
cơ sở dữ liệu sẽ gọi ra bảng mà chúng ta cần. Ảo thuật. Hãy thêm Vị trí vào truy vấn của chúng
ta để cho biết điều đó thay đổi dữ liệu chúng ta nhận được như thế nào. Bạn có thể thấy dữ
liệu hiện chỉ chiếu những bộ phim thuộc thể loại hành động.
Vậy là xong một câu truy vấn cơ bản trong SQL. Khá tuyệt phải không? Bạn sẽ sớm
tìm hiểu về cách xây dựng các truy vấn phức tạp hơn. Tuy nhiên, hiện tại, chúng ta có thể ăn
mừng khi tìm hiểu về cấu trúc của một truy vấn SQL cơ bản, chọn, từ và ở đâu. Khi bạn tiếp
tục chương trình, bạn có cơ hội tự mình sử dụng SQL. Tôi hy vọng video này là một cái nhìn
lén lút hữu ích về những gì sẽ xảy ra sau này.
Angie: Vật lộn mỗi ngày khi học những kỹ năng mới
Tôi là Angie, tôi là Giám đốc Kỹ thuật Chương trình tại Google. Tôi hiện đang học
chứng chỉ Data Analytics. Trước đây, tôi là nhà nghiên cứu về phân tích con người. Tôi cũng
là người mà tôi gọi là lính đánh thuê phân tích làm việc cho nhiều công ty khác nhau để giúp
họ hiểu dữ liệu của mình.
Mỗi khi tôi học được một kỹ năng mới, tôi cảm thấy như mình đang học cách nói lại
từ đầu. Tôi nhớ lần đầu tiên tôi học SQL, tôi đã rất thất vọng vì mọi người xung quanh tôi, có
cảm giác như họ thông thạo, họ biết chính xác những gì họ đang làm. Tôi nhớ mình đã phải
vật lộn với những điều cơ bản nhất, chẳng hạn như lấy dữ liệu ra khỏi bảng hoặc tôi nhớ ai đó
đã yêu cầu tôi chỉ tìm giá trị trung bình của một thứ gì đó và tôi liên tục gặp lỗi. Nó thực sự
có cảm giác như bạn đang học một ngôn ngữ mới và bạn đang ở trình độ chập chững biết đi
và mọi người xung quanh bạn dường như có thể thông thạo.
Cha mẹ tôi di cư đến đất nước này khi họ ở độ tuổi 30. Sau khi họ đã học được một
ngôn ngữ khác và họ phải bắt đầu lại và học tiếng Anh. Tôi nhớ khi còn nhỏ chứng kiến họ
vật lộn mỗi ngày để học một ngôn ngữ mới, để làm những việc thực sự cơ bản, chẳng hạn như
nhờ giúp đỡ ở cửa hàng tạp hóa. Tôi nhớ mình đã gọi điện cho công ty truyền hình cáp khi tôi
lên sáu tuổi, hỏi họ về hóa đơn thanh toán vì bố mẹ tôi không thể. Tôi nhớ họ đã làm việc
chăm chỉ như thế nào để học ngôn ngữ mới này và trở nên thông thạo và mỗi khi tôi học một
ngôn ngữ dữ liệu mới như SQL hoặc R, tôi lại nghĩ về việc đó hẳn đã khó khăn như thế nào.
Tôi nghĩ nếu họ làm được điều đó thì tôi có thể học SQL. Nếu họ có thể yêu cầu trợ giúp về
những điều cơ bản nhất, tôi có thể hỏi Nhà phân tích dữ liệu bên cạnh cách viết câu lệnh SQL
và cách lấy dữ liệu ra khỏi bảng. Điều đó thực sự đã giúp tôi, chỉ cần có suy nghĩ đó và biết
rằng tôi có thể nhờ giúp đỡ.
Chương 3: Trực quan hóa dữ liệu
Becoming a data viz whiz
Hộp công cụ phân tích dữ liệu của bạn đã đầy. Tìm hiểu về cả Bảng tính và SQL sẽ
giúp bạn tiến xa trong thế giới phân tích dữ liệu. Tất nhiên, còn nhiều điều để tìm hiểu và
nhiều công cụ khác mà bạn có thể sử dụng, nhưng tương lai của bạn có vẻ tươi sáng. Nó thậm
chí còn sáng sủa hơn vì chúng ta ở đây để nói nhiều hơn về trực quan hóa dữ liệu.
Tôi sẽ cho bạn biết thêm một chút về vai trò của các công cụ trực quan hóa dữ liệu và
phân tích dữ liệu, đồng thời cho bạn cơ hội xem những công cụ đó hoạt động ở phần sau trong
video này. Bạn có thể nhớ rằng trực quan hóa dữ liệu là biểu diễn đồ họa của thông tin. Đối
với rất nhiều nhà phân tích dữ liệu, đó là phần thú vị nhất trong công việc của họ vì họ thấy
công việc khó khăn của mình được đền đáp bằng một điều gì đó thú vị.
Chưa kể rằng trực quan hóa dữ liệu là đẹp và hữu ích. Tôi đã rất phấn khích khi truy
cập Google và bắt đầu nhận được báo cáo dữ liệu hàng quý trong e-mail của mình và có một
trang trình bày lớn nơi mọi người đóng góp hình ảnh trực quan của họ. Đó chắc chắn là một
nguồn sáng khi tôi bắt đầu xây dựng những hình dung của riêng mình.
Nếu bạn không ấn tượng với câu chuyện của tôi, hãy để tôi kể cho bạn nghe về Florence
Nightingale. Cái tên đó có rung chuông không? Cô ấy chịu trách nhiệm về phần lớn triết lý
của ngành điều dưỡng hiện đại và tin hay không thì tùy, cô ấy cũng là một nhà phân tích dữ
liệu. Trong Chiến tranh Krym vào những năm 1850, hàng ngàn binh sĩ thiệt mạng mỗi ngày,
Nightingale muốn tìm cách giảm số người chết. Sau khi kiểm tra dữ liệu, cô ấy phát hiện ra
rằng phần lớn binh lính đang chết vì những điều kiện có thể ngăn ngừa được. Để thuyết phục
các nhà quản lý bệnh viện rằng họ cần tập trung vào những tình trạng này, cô ấy đã tạo một
biểu đồ thể hiện số ca tử vong trong vài tháng. Các phần màu xanh lam lớn hơn nhiều trong
hình ảnh đại diện cho những cái chết có thể ngăn ngừa được. Công việc của cô đã trực tiếp
dẫn đến những thay đổi lớn trong việc chăm sóc bệnh nhân. Cô ấy đã làm tất cả những điều
này hơn 150 năm trước mà không cần máy tính.
Một trong những lý do chính khiến Nightingale tạo ra hình ảnh trực quan này là để giúp
khán giả của cô ấy tiếp thu dữ liệu dễ dàng hơn. Cô ấy cảm thấy mình sẽ thành công hơn khi
thuyết phục các bên liên quan bằng cách sử dụng hình ảnh thay vì chỉ từ ngữ và con số. Cô ấy
đã đúng, các bảng chứa đầy dữ liệu, mặc dù cần thiết để phân tích, nhưng không thể hiển thị
các xu hướng và mẫu nhanh chóng và rõ ràng như hình ảnh trực quan có thể.
Hãy tưởng tượng, bạn nhận được một nhiệm vụ cần phải hoàn thành ngay trong ngày.
Bạn thu thập dữ liệu bạn cần trong một bảng, bạn có thể giải thích những phát hiện của mình
bằng bảng không? Có, bạn có thể làm được, nhưng một ý tưởng tốt hơn là sử dụng hình ảnh
trực quan như biểu đồ thanh này. Một cái gì đó như thế này giúp bạn giải thích nhanh chóng
dễ dàng hơn nhiều và bạn đã nhận được lợi ích của một hình ảnh tuyệt vời để sao lưu phân
tích của mình.
Là một nhà phân tích dữ liệu, bạn sẽ muốn tạo các hình ảnh trực quan giúp dữ liệu dễ
hiểu và thú vị khi xem, vì vậy hãy thể hiện nó. Các bên liên quan có thể không có nhiều thời
gian để dành cho dữ liệu, công việc của bạn sẽ là làm cho thời gian của họ trở nên đáng giá.
Hãy quay lại bảng dữ liệu mà chúng ta đã tạo trước đó trong khóa học. Nếu bạn đã tạo
của riêng mình để thực hành, bạn có thể mở nó ngay bây giờ hoặc thử sau. Đây là dữ liệu
chúng tôi đã thêm trước đó. Hãy tạo trực quan hóa dữ liệu bằng cách chèn biểu đồ, biểu đồ
thanh. Bạn có thể thấy rằng bảng tính đã trực quan hóa dữ liệu từ bảng của chúng tôi theo cách
có ý nghĩa nhất. Nó tạo ra một biểu đồ thanh hoặc biểu đồ cột để so sánh tuổi của từng người
theo tên, nhưng bạn có thể đã hình dung ra điều đó rồi.
Đó
là vẻ đẹp của trực quan hóa, nó cho thấy phân tích dữ liệu một cách nhanh chóng và rõ ràng.
Chúng ta có thể sử dụng chart editor để điều chỉnh biểu đồ. Các chương trình bảng tính
khác nhau có thể có những cách khác nhau để thực hiện việc này, nhưng tất cả chúng đều có
chức năng trực quan hóa và cách chỉnh sửa những trực quan hóa đó.
Bây giờ, chúng ta hãy xem các biểu đồ gợi ý. Chúng ta có thể làm cho các thanh đi theo
chiều ngang bằng cách sử dụng biểu đồ thanh. Điều đó trông thật tuyệt, vì vậy hãy đóng trình
chỉnh sửa Biểu đồ. Có rất nhiều tùy chọn để xem xét, nhưng bây giờ chúng tôi sẽ giữ nó ở
mức cơ bản. Hãy thử các hình dung khác nếu bạn thực hành sau này. Bây giờ, chúng ta có thể
điều chỉnh biểu đồ của mình để làm cho toàn bộ bảng tính của chúng ta trông rõ ràng và chuyên
nghiệp. Xuất sắc. Tôi hy vọng bạn học cách yêu thích trực quan hóa dữ liệu nhiều như tôi.
Có thể bạn sẽ trở thành người tiên phong về trực quan hóa dữ liệu, giống như Florence
Nightingale. Là một nhà phân tích dữ liệu mới bắt đầu, bạn đã bắt đầu lấp đầy vành đai tiện
ích của mình bằng các công cụ có giá trị mà bạn sẽ sử dụng trong suốt phần còn lại của chương
trình. Có bảng tính, SQL và bí quyết trực quan hóa dữ liệu sẽ giúp bạn trở thành một thám tử
dữ liệu xuất sắc. Bạn sẽ có thể sử dụng các công cụ này trong suốt quá trình phân tích dữ liệu
khi bạn tiến lên phía trước.
Tiếp theo, bạn hoàn thành một vài hoạt động để kết thúc phần này của chương trình.
Bạn cũng sẽ hoàn thành một bài đánh giá để kiểm tra sự hiểu biết của mình về tất cả những gì
bạn học được. Đây là một cơ hội tuyệt vời để suy nghĩ về một số lĩnh vực mà bạn sẽ tiếp tục
khám phá trong khóa học này và trong sự nghiệp của mình.
Như thường lệ, vui lòng xem lại các video và bài đọc để giúp nhắc nhở bạn về các chủ
đề và ý tưởng nhất định, ngay cả khi bạn đã chuẩn bị sẵn sàng. Bạn chỉ còn vài bước nữa là
đến khóa học tiếp theo, đó là một tiến bộ tuyệt vời. Keep it up.
Tuần 5: Khả năng nghề nghiệp vô tận
Các doanh nghiệp thuộc mọi loại hình đều đánh giá cao công việc được thực hiện bởi
các nhà phân tích dữ liệu. Trong phần này của khóa học, bạn sẽ tìm hiểu về các doanh nghiệp
này cũng như các công việc và nhiệm vụ cụ thể mà các nhà phân tích thực hiện cho họ. Bạn
cũng sẽ tìm hiểu cách chứng chỉ nhà phân tích dữ liệu sẽ giúp bạn đáp ứng nhiều yêu cầu cho
một vị trí trong các doanh nghiệp này.
Mục tiêu học tập:
 Mô tả vai trò của nhà phân tích dữ liệu với tham chiếu cụ thể đến vai trò công việc
 Thảo luận về cách Chứng chỉ Google Data Analytics có thể giúp ứng viên đáp ứng các
yêu cầu của một công việc nhất định
 Giải thích cách một nhiệm vụ kinh doanh có thể phù hợp với nhà phân tích dữ liệu, có
liên quan đến sự công bằng và giá trị của nhà phân tích dữ liệu
 Xác định các công ty có khả năng thuê các nhà phân tích dữ liệu
 Mô tả cách kinh nghiệm trước đây của một người có thể được áp dụng cho sự nghiệp
là nhà phân tích dữ liệu
 Xác định xem việc sử dụng dữ liệu có cấu thành các thông lệ công bằng hay không
công bằng hay không
 Hiểu các cách khác nhau mà các tổ chức sử dụng dữ liệu
 Giải thích khái niệm ra quyết định dựa trên dữ liệu bao gồm các ví dụ cụ thể
Chương 1: Cơ hội việc làm chuyên viên phân tích dữ liệu
Hãy bắt tay vào công việc
Này, thật tuyệt khi có bạn trở lại. Bây giờ là lúc để bắt tay vào công việc. Chúng ta sẽ
bắt đầu nói về những cách thực tế mà các doanh nghiệp đang sử dụng dữ liệu và những cơ hội
mà dữ liệu đó có thể tạo ra cho bạn. Cho đến nay, bạn đã học được rất nhiều kỹ năng phân
tích dữ liệu thực tế. Với một vài video tiếp theo này, chúng ta sẽ chuyển hướng một chút và
nói về lý do tại sao bạn học những kỹ năng này. Hy vọng rằng điều này sẽ cung cấp cho bạn
nhiều góc nhìn hơn về những loại cơ hội nào dành cho bạn.
Sắp tới, chúng ta sẽ nói nhiều hơn về:
 Vai trò của các nhà phân tích dữ liệu
 Nhiệm vụ mà những vai trò này yêu cầu
 Tầm quan trọng của sự công bằng, tránh thiên vị
 Phân tích dữ liệu đối với nhiệm vụ kinh doanh
 Cơ hội mà bạn có thể khai thác trong tương lai
Vì vậy, với tất cả những điều đó trong tâm trí, hãy bắt đầu.
Công việc của một nhà phân tích dữ liệu
Trước đây, chúng ta đã tìm hiểu về công việc của một nhà phân tích dữ liệu và tại sao
công việc đó lại có giá trị như vậy. Bây giờ, hãy xem nơi các nhà phân tích dữ liệu thực sự
làm công việc của họ. Bạn sẽ tìm hiểu thêm về các ngành mà bạn có thể làm việc với tư cách
là nhà phân tích dữ liệu. Và cách các công ty trong các lĩnh vực này đã sử dụng phân tích dữ
liệu để thực hiện một số điều thực sự thú vị.
Có rất nhiều doanh nghiệp ngoài kia có nhu cầu lớn về các kỹ năng mà bạn đang
học ngay bây giờ. Trong các ngành như công nghệ, tiếp thị, tài chính, chăm sóc sức khỏe, v.v.
các công ty thực sự đã sử dụng phân tích dữ liệu để đi đầu. Và họ càng sử dụng nhiều dữ liệu
trong doanh nghiệp của mình, họ càng hiểu tầm quan trọng của nhà phân tích dữ liệu như bạn
đối với thành công của họ.
Hãy xem một ví dụ thực tế về thương hiệu mà bạn có thể sẽ nhận ra, Coca-Cola. Dữ
liệu đang thay đổi cách Coca-Cola tiếp cận các chiến lược tiếp thị của mình. Coca-Cola sử
dụng dữ liệu được thu thập từ phản hồi của người tiêu dùng để tạo quảng cáo nói chuyện trực
tiếp với các đối tượng khác nhau với những sở thích khác nhau. Cái này hoạt động ra sao?
Bạn có biết những chiếc máy bán Coca-Cola công nghệ cao mà đôi khi bạn thấy ở rạp chiếu
phim không? Thật thú vị khi được tạo ra hương vị của riêng bạn. Chà, những cỗ máy đó được
tích hợp sẵn các công cụ phân tích dữ liệu và trí tuệ nhân tạo. Điều này giúp Coca-Cola nhìn
thấy tất cả các kiểu kết hợp hương vị khác nhau mà mọi người đang nghĩ ra, sau đó họ có thể
sử dụng chúng làm nguồn cảm hứng cho các sản phẩm mới. Thật ngầu làm sao!
Bạn đã bao giờ tự hỏi làm thế nào Google cung cấp cho bạn câu trả lời đúng cho bất kỳ
câu hỏi nào chỉ trong vài giây chưa? Điều đó cũng được cung cấp bởi dữ liệu. Chúng tôi sử
dụng tất cả các loại dữ liệu để xác định độ tin cậy và độ chính xác của trang web nhằm đảm
bảo bạn nhận được kết quả hữu ích nhất cho bất kỳ tìm kiếm nào bạn thực hiện.
Nhưng không chỉ các công ty lớn như Coca-Cola và Google sử dụng dữ liệu. Các doanh
nghiệp nhỏ ở khắp mọi nơi cũng đang bắt đầu tận dụng những hiểu biết sâu sắc dựa trên dữ
liệu để cải thiện hoạt động của họ và đưa ra quyết định tốt hơn. Các doanh nghiệp nhỏ có thể
sử dụng dữ liệu để làm mọi thứ. Họ có thể sử dụng phân tích dữ liệu để hiểu rõ hơn về thói
quen mua hàng của khách hàng, tạo thông điệp truyền thông xã hội hiệu quả hơn hoặc trong
trường hợp sở thú và thủy cung của một thành phố, dự đoán số lượng khách hàng ngày dựa
trên dữ liệu khí hậu địa phương.
Vườn thú và thủy cung thành phố nhận ra rằng, vào những ngày mưa, họ chứng kiến
lượng người tham dự giảm đi rất nhiều, nhưng họ không có cách nào để dự đoán chính xác
khi nào những ngày mưa đó sẽ đến. Điều này làm cho nhân sự trở thành một thách thức thực
sự. Có những ngày họ thấy mình thừa nhân viên, những ngày khác họ không chuẩn bị cho
lượng khách đổ về. Để giải quyết vấn đề này, nhà phân tích dữ liệu đã lấy nhiều năm ghi lại
thời tiết từ sở thú và sử dụng dữ liệu đó để dự đoán chính xác các kiểu thời tiết trong tương
lai. Điều này giúp sở thú dễ dàng biết họ cần bao nhiêu nhân viên khi nào. Vì sở thú có thể dự
đoán và quản lý nhu cầu nhân sự của họ chính xác hơn nên họ có thể cung cấp trải nghiệm tốt
hơn cho khách tham quan và dành nhiều nguồn lực hơn để tạo ra trải nghiệm tốt hơn cho động
vật.
Chúng tôi thấy một điều tương tự trong ngành chăm sóc sức khỏe. Các nhà phân tích
dữ liệu của họ xem xét dữ liệu về số lượng người đến phòng khám để giúp các bệnh viện và
văn phòng bác sĩ dự đoán khi nào sẽ đến giờ cao điểm để họ có thể sẵn sàng cho việc đó. Bệnh
viện thành phố địa phương của bạn là một ví dụ tuyệt vời.
Giả sử họ nhận được phàn nàn về thời gian chờ đợi lâu. Đôi khi kéo dài một giờ hoặc
hơn, điều này khiến một số bệnh nhân khó nhận được sự chăm sóc mà họ cần. Vì vậy, nhà
phân tích dữ liệu sử dụng dữ liệu về lưu lượng người qua lại hàng ngày của bệnh viện để giúp
họ đưa ra quyết định sáng suốt hơn về số lượng bác sĩ mà họ cần trong đội ngũ nhân viên tại
bất kỳ thời điểm nào. Điều này giúp giảm thời gian chờ đợi, cải thiện trải nghiệm của bệnh
nhân và tận dụng tốt hơn thời gian của nhân viên y tế.
Như tôi đã nói, có nhiều cách mà các công ty trong các ngành khác nhau đưa dữ liệu
vào sử dụng, nhưng họ chỉ có thể làm điều đó nếu họ có nhà phân tích dữ liệu mà họ có thể
dựa vào. Vì vậy, bạn có thể tự hỏi, làm thế nào bạn phù hợp với phương trình?
Chà, bạn có rất nhiều lựa chọn, nhưng bạn không cần phải quyết định ngay mình muốn
làm việc trong ngành nào. Sẽ có nhiều thời gian để suy nghĩ về điều đó khi bạn hoàn thành
chương trình này. Vào thời điểm bạn hoàn thành chương trình này, bạn có các kỹ năng cốt lõi
giúp bạn có giá trị trong bất kỳ ngành nào đưa ra quyết định dựa trên dữ liệu. Hóa ra, đó là
hầu hết các ngành công nghiệp, thậm chí cả sở thú.
Sắp tới, chúng ta sẽ kiểm tra nhiệm vụ kinh doanh mà dữ liệu có thể hữu ích. Và, chúng
ta sẽ khám phá nhiều hơn nữa cách các nhà phân tích dữ liệu trao quyền cho các doanh nghiệp
thông qua dữ liệu. Tôi sẽ gặp bạn sau.
Joey: Con đường trở thành nhà phân tích dữ liệu
Xin chào, tôi là Joey và tôi làm việc với tư cách là người quản lý chương trình phân
tích trong REWS. Bây giờ REWS là viết tắt của dịch vụ bất động sản và nơi làm việc, và công
việc của tôi là đưa dữ liệu và phân tích vào quá trình ra quyết định ở đây, đặc biệt là liên quan
đến việc tạo ra một môi trường làm việc an toàn và vui vẻ. Hành trình đến với phân tích của
tôi hơi khác một chút ở chỗ tôi không có kế hoạch hoặc thực sự không thấy mình đang ở vị trí
hiện tại.
Bây giờ may mắn thay, tôi đã bắt đầu tham gia một chương trình luân phiên có tên là
chương trình HRA trong các hoạt động của con người, chương trình này giúp tôi có khả năng
đóng ba vai trò khác nhau về cơ bản. Tôi đã có năng lực tổng quát trong vai trò chuyên gia và
là một nhà phân tích, và tôi thực sự tìm thấy tình yêu và niềm đam mê trong công việc phân
tích.
Tôi bắt đầu tham gia nhóm trí tuệ doanh nghiệp, công việc của họ là cung cấp báo cáo
dựa trên SQL cho doanh nghiệp. Tôi nhận ra rằng phân tích là con đường sự nghiệp phù hợp
với mình khi tôi thấy mình thích đi làm và hoàn thành công việc của mình. Và tôi nghĩ rằng
tôi có thể kết nối điều đó với hai niềm đam mê của tôi. Đầu tiên là giải quyết vấn đề. Tôi thích
giải quyết một vấn đề phức tạp, một bí ẩn, một câu đố và có thể tìm ra câu trả lời cũng như
đưa ra giải pháp. Và điều thứ hai là có thể làm việc với mọi người và giúp đỡ mọi người.
Trong phân tích, tôi cảm thấy chìa khóa thành công là có thể kết hợp khía cạnh cá nhân
với khía cạnh kỹ thuật. Khi bắt đầu sự nghiệp của mình, tôi tập trung nhiều hơn một chút vào
các phần kỹ thuật và tôi muốn đảm bảo rằng mình có kiến thức kỹ thuật phù hợp để có thể trả
lời các câu hỏi. Nhưng những gì tôi nhận thấy là theo thời gian, tôi cần phát triển mặt khác
cũng nhiều như vậy. Và tôi nghĩ rằng sự nghiệp của mình đã cho phép tôi có những cơ hội đó
để vận dụng sức lực đó, phần tương tác của con người và phần kỹ thuật để đảm bảo rằng cả
hai đều phát triển vào cuối ngày.
Tony: Hỗ trợ sự nghiệp trong lĩnh vực phân tích dữ liệu
Đối với bất kỳ nhà phân tích nào, đối với bất kỳ người nào thì trung thực là ở giai đoạn
đầu của sự nghiệp, việc hiểu dữ liệu, tôn trọng dữ liệu và biết cách làm việc với dữ liệu là vô
cùng quan trọng bởi vì, tầm nhìn của tôi là mọi vai trò dưới một hình thức hoặc thời trang nào
đó sẽ liên quan đến dữ liệu và dữ liệu của nó sử dụng trong việc tìm hiểu cách rút ra những
hiểu biết sâu sắc từ nó sẽ là cốt lõi của bất kỳ vai trò quan trọng nào trong bất kỳ tổ chức công
ty nào.
Nói chung trong hai năm đầu tiên đó, bạn đang phát triển các bộ kỹ năng cốt lõi giúp
bạn trở thành một nhà tổng quát tuyệt vời, và sau đó trong 2-5 năm tiếp theo, bạn sẽ học về
một điều gì đó rất cụ thể vì nó liên quan đến công việc của bạn. Cho dù đó là lĩnh vực mà bạn
đang hỗ trợ hay có thể là một thành phần rất kỹ thuật. Chẳng hạn, giả sử bạn muốn trở thành
chuyên gia SQL để có thể thao tác với các tập dữ liệu lớn cho mục đích phân tích tài chính.
Tương tự, ngay cả khi bạn tham gia lĩnh vực tài chính với tư cách là nhà phân tích dữ
liệu, bạn vẫn có thể rời khỏi lĩnh vực tài chính và chuyển sang lĩnh vực mà nhiều người thích
gọi là doanh nghiệp, thường là Bộ phận Hoạt động của bạn và trở thành nhà phân tích kinh
doanh hoặc nhà phân tích dữ liệu. Có rất nhiều con đường khác nhau mà bạn có thể đi từ điểm
bắt đầu mà bạn thực sự không thể đoán trước được kết thúc của mình.
Tôi thực sự đam mê làm việc cùng và hỗ trợ những người trẻ tuổi cũng như thực sự
giúp họ có bước khởi đầu trong sự nghiệp. Thành thật mà nói, điều này bắt nguồn từ kinh
nghiệm cá nhân của tôi, trong hai năm đầu tiên của sự nghiệp, về cơ bản tôi không nhận được
sự hỗ trợ nào từ người quản lý và chuỗi quản lý trực tiếp của mình.
Trải qua trải nghiệm đó trong vài năm đầu tiên của tôi, tôi nhận ra và tôi cảm thấy kinh nghiệm
rằng điều đó có thể làm bạn chậm lại như thế nào, và đặc biệt khi bạn là người có nhiều tiềm
năng và nhiều khả năng, bạn muốn ở trong một môi trường khuyến khích khả năng đó và thực
sự muốn thấy bạn phát triển.
Tôi nghĩ rằng việc có những chương trình như thế này là vô cùng quan trọng để loại bỏ
tất cả các rào cản loại bỏ bất kỳ cấu trúc nào ngăn cản mọi người tìm ra những gì họ cần để
trở thành trong một ngành như thế này, để thành công trong vai trò như một nhà phân tích dữ
liệu, để bản thân họ có thể mơ về nơi họ có thể đi tới trong sự nghiệp của mình. Tôi tên la
Tony. Tôi là người quản lý chương trình Tài chính tại Google.
Chương 2: Tầm quan trọng của các quyết định kinh doanh công bằng
Sức mạnh của dữ liệu trong kinh doanh
Là một nhà phân tích dữ liệu, bạn sẽ giải quyết các nhiệm vụ kinh doanh giúp các công
ty sử dụng dữ liệu. Sắp tới, chúng ta sẽ nói nhiều hơn về nhiệm vụ kinh doanh thực sự là gì và
một số ví dụ về những gì chúng có thể trông như thế nào trong công việc phân tích dữ liệu
thực tế. Hãy dành một chút thời gian và nghĩ lại những ví dụ thực tế về các doanh nghiệp sử
dụng phân tích dữ liệu và hoạt động của họ mà chúng ta đã thấy trước đây.
Bạn có thể nhận thấy một chủ đề chung trong mọi ví dụ. Tất cả đều có vấn đề cần khám
phá, câu hỏi cần trả lời hoặc vấn đề cần giải quyết. Thật dễ dàng để những thứ này trộn lẫn
với nhau. Đây là một cách để giữ chúng thẳng thắn khi chúng ta nói về chúng trong phân tích
dữ liệu.
 Issue is A topic or subject to investigate.
 Question is Designed to discover information.
 Problem is An obstacle or complication that needs to be worked out.
Coca-Cola đã có một câu hỏi về sản phẩm mới. Phân tích dữ liệu đã cho họ cái nhìn sâu sắc
về hương vị mới mà khách hàng đã thích. Sở thú và Thủy cung Thành phố gặp vấn đề về nhân
sự. Dữ liệu, đã giúp họ tìm ra chiến lược nhân sự tốt nhất. Những câu hỏi và vấn đề này trở
thành nền tảng cho tất cả các loại nhiệm vụ kinh doanh mà bạn sẽ giúp giải quyết với tư cách
là nhà phân tích dữ liệu.
Business task is The question or problem data analysis answers for a business. (Tác vụ
nghiệp vụ là Bài toán hay câu hỏi cần phân tích dữ liệu để giải quyết vấn đề cho một doanh
nghiệp.)
Đây là nơi bạn tập trung nhiều nỗ lực vào công việc bạn sẽ làm cho các nhà tuyển dụng
trong tương lai. Hãy tiếp tục với ví dụ sở thú của chúng ta và xem liệu chúng ta có thể hình
dung tác vụ nghiệp vụ của sở thú sẽ như thế nào không. Chúng tôi biết vấn đề, thời tiết không
thể đoán trước khiến sở thú khó dự đoán nhu cầu nhân sự. Có thể nhiệm vụ kinh doanh có thể
giống như phân tích dữ liệu thời tiết từ thập kỷ trước để xác định các mẫu có thể dự đoán được.
Sau đó, các nhà phân tích dữ liệu có thể lập kế hoạch cách tốt nhất để thu thập, phân tích và
trình bày dữ liệu cần thiết để giải quyết nhiệm vụ này và đáp ứng các mục tiêu của sở thú. Sau
đó, bằng cách sử dụng dữ liệu, sở thú sẽ có thể đưa ra quyết định sáng suốt về nhân sự hàng
ngày của họ. Chúng ta đã nói một chút về việc ra quyết định dựa trên dữ liệu trong các video
trước. Nhưng chỉ trong trường hợp bạn cần bồi dưỡng, nó đây.
Data-driven decision-making is Using facts to guide business strategy. (Ra quyết định dựa
trên dữ liệu là Sử dụng dữ kiện để định hướng chiến lược kinh doanh.)
Cách đơn giản nhất để nghĩ về việc ra quyết định là đó là sự lựa chọn giữa hậu quả, tốt,
xấu hoặc kết hợp cả hai. Trong ví dụ về sở thú của chúng tôi, sở thú có dữ liệu họ cần để đưa
ra quyết định sáng suốt nhằm giải quyết vấn đề của họ. Nhưng nếu họ đưa ra quyết định này
mà không có dữ liệu thì sao? Giả sử họ chỉ dựa vào khả năng quan sát và trí nhớ để theo dõi
thời tiết và lập lịch trình nhân sự. Chà, chúng tôi đã biết rằng điều đó sẽ không giải quyết được
vấn đề của họ lâu dài. Phân tích dữ liệu đã cung cấp cho họ thông tin họ cần để tìm giải pháp
tốt nhất có thể cho vấn đề của họ. Đó là sức mạnh của dữ liệu.
Quan sát và trực giác là những công cụ mạnh mẽ trong việc ra quyết định, nhưng chúng
chỉ có thể đưa chúng ta đi xa hơn khi chúng ta đưa ra quyết định chỉ dựa trên quan sát và cảm
tính, chúng ta chỉ nhìn thấy một phần của bức tranh.
Dữ liệu giúp chúng ta nhìn thấy toàn bộ. Với dữ liệu, chúng tôi có một bức tranh toàn cảnh về
vấn đề và nguyên nhân của nó, cho phép chúng tôi tìm ra các giải pháp mới và đáng ngạc
nhiên mà chúng tôi chưa từng thấy trước đây. Phân tích dữ liệu giúp doanh nghiệp đưa ra
quyết định tốt hơn. Tất cả bắt đầu với một nhiệm vụ kinh doanh và câu hỏi mà nó đang cố
gắng trả lời.
Với các kỹ năng bạn sẽ học trong suốt chương trình này, bạn sẽ có thể đặt câu hỏi phù
hợp, lập kế hoạch cách tốt nhất để thu thập và phân tích dữ liệu, sau đó trình bày dữ liệu đó
một cách trực quan để trang bị cho nhóm của bạn để họ có thể đưa ra dữ liệu đầy đủ thông tin,
đưa ra quyết định. Điều đó làm cho bạn trở nên quan trọng đối với sự thành công của bất kỳ
doanh nghiệp nào mà bạn làm việc.
Dữ liệu là một công cụ mạnh mẽ. Với sức mạnh to lớn đến, tốt, bạn biết phần còn lại.
Và bạn đang làm rất tốt việc thu thập tất cả thông tin này. Tiếp theo, chúng ta sẽ nói về trách
nhiệm của bạn với tư cách là nhà phân tích dữ liệu để đảm bảo rằng bạn đang thu thập, phân
tích và trình bày dữ liệu theo cách công bằng với những người được dữ liệu đó đại diện.
Rachel: Thám tử dữ liệu
Xin chào, tên tôi là Rachel và tôi là Trưởng nhóm phân tích và hệ thống kinh doanh tại
Verily. Có rất nhiều loại vấn đề khác nhau mà một nhà phân tích dữ liệu có thể giải quyết. Tôi
đã đủ may mắn trong sự nghiệp của mình để được chứng kiến rất nhiều trong số chúng và tiếp
nhận rất nhiều loại dữ liệu rất khác nhau và giúp biến chúng thành những câu trả lời có ý nghĩa.
Tôi nghĩ một trong những điều quan trọng nhất cần nhớ về phân tích dữ liệu là dữ liệu
là dữ liệu. Tôi là một nhà phân tích dữ liệu tài chính và do đó, vai trò của tôi tại Verily là lấy
tất cả thông tin tài chính của chúng tôi, tất cả thông tin về số tiền chúng tôi đang chi tiêu và số
tiền chúng tôi đang kiếm được, rồi chuyển chúng thành các báo cáo và thông tin chi tiết để
đầu mối kinh doanh của chúng tôi có thể hiểu những gì chúng tôi đang làm.
Một trong những điều quan trọng nhất mà tôi đã làm tại Verily gần đây là giúp tạo ra
cái được gọi là báo cáo lãi lỗ cho từng đơn vị kinh doanh của chúng tôi. Điều đó có nghĩa là
trong thời gian thực, các nhóm của chúng tôi có thể biết ngân sách của họ là bao nhiêu và họ
đang chi tiêu như thế nào so với ngân sách đó. Điều đó giúp các nhóm của chúng tôi duy trì
ngân sách đó bằng cách tăng dòng doanh thu của họ để họ có nhiều tiền hơn để chơi hoặc
giảm chi tiêu để họ có thể giữ mình trong ngân sách đó. Tất cả những điều đó thực sự giúp
chúng tôi đi đúng hướng với tư cách là một công ty trong việc đảm bảo rằng chúng tôi đang
đạt được các mục tiêu của mình.
Tôi thấy rằng dữ liệu hoạt động như một thứ sống và thở. Khi bạn có rất nhiều điểm dữ
liệu, bạn có thể bị choáng ngợp khi lần đầu tiên ngồi xuống để hiểu ý nghĩa của nó. Bạn có
hàng tấn cột, hàng tấn bản ghi, hàng tấn loại dữ liệu khác nhau và việc tìm ra cách hiểu được
điều đó thực sự khó khăn và đó là lúc chuyên môn của một nhà phân tích dữ liệu phát huy tác
dụng. Đó là một trong những khoảnh khắc khó chịu nhất trong sự nghiệp của tôi, nhưng cũng
là một trong những công việc bổ ích nhất mà tôi từng làm khi cuối cùng nó kết hợp với nhau.
Lời khuyên tốt nhất mà tôi dành cho bất kỳ nhà phân tích dữ liệu nào mới bắt đầu là
hãy kiên trì. Nếu góc bạn đang chụp không hiệu quả, hãy thử tìm một góc khác. Hãy thử tiếp
cận nó theo một cách khác, thử đặt một câu hỏi khác, và cuối cùng dữ liệu sẽ mang lại kết quả
và bạn sẽ nhận được thông tin chi tiết mà mình đang tìm kiếm.
Hiểu dữ liệu và sự công bằng
Cho đến nay, chúng ta đã đề cập đến các vai trò khác nhau của các nhà phân tích dữ
liệu trong môi trường kinh doanh và các loại nhiệm vụ đi kèm với các vai trò đó. Nhưng các
nhà phân tích dữ liệu có một trách nhiệm quan trọng khác: đảm bảo rằng các phân tích của họ
là công bằng.
Bây giờ, tôi biết bạn có thể đang nghĩ gì, dữ liệu dựa trên các sự kiện được thu thập,
làm sao có thể không công bằng? Vâng, đó là một câu hỏi hay. Hãy cùng tìm hiểu ý nghĩa của
sự công bằng khi chúng ta nói về phân tích dữ liệu và lý do tại sao điều quan trọng đối với bạn
với tư cách là một nhà phân tích là phải ghi nhớ. Fairness is Ensuring that you analysis doesn’t
create or reinforce bias ( Công bằng là Chất lượng phân tích dữ liệu không tạo ra hoặc gia tăng
sự thiên vị). Nói cách khác, với tư cách là nhà phân tích dữ liệu, bạn muốn giúp tạo ra các hệ
thống công bằng và toàn diện cho mọi người. Nghe có vẻ đủ đơn giản? Chà, đây là phần khó
nhất về tính công bằng trong phân tích dữ liệu. Không có một định nghĩa tiêu chuẩn nào về
nó, nhưng hy vọng rằng cách chúng tôi vừa mô tả có thể cho bạn một cách để nghĩ về sự công
bằng ngay lúc này, nhưng nó sắp trở nên phức tạp hơn một chút.
Đôi khi kết luận dựa trên dữ liệu có thể đúng và không công bằng. Bạn có thể làm gì
sau đó? Vâng, chúng ta hãy tìm hiểu với một ví dụ. Giả sử chúng ta có một công ty nổi tiếng
là một câu lạc bộ nam. Không có nhiều đại diện của các giới tính khác. Công ty này muốn
xem nhân viên nào đang làm tốt, vì vậy họ bắt đầu thu thập dữ liệu về hiệu suất của nhân viên
và văn hóa công ty của chính họ. Dữ liệu cho thấy nam giới là những người duy nhất thành
công tại công ty này. Kết luận của họ? Rằng họ nên thuê thêm đàn ông. Rốt cuộc, họ đang làm
rất tốt ở đây, phải không? Nhưng đó không phải là một kết luận công bằng vì một vài lý do.
Đầu tiên, nó thậm chí không xem xét tất cả các dữ liệu có sẵn về văn hóa công ty, vì vậy nó
vẽ nên một bức tranh không hoàn chỉnh. Thứ hai, nó không nghĩ đến các yếu tố xung quanh
khác ảnh hưởng đến dữ liệu, hay nói cách khác, kết luận không xem xét những khó khăn mà
những người thuộc các giới tính khác nhau gặp phải khi cố gắng điều hướng trong một môi
trường làm việc độc hại. Nếu công ty chỉ nhìn vào kết luận này, họ sẽ không thừa nhận và giải
quyết mức độ nguy hại của văn hóa của họ và họ sẽ không hiểu tại sao một số người được
thiết lập để thất bại trong đó. Đó là lý do tại sao điều quan trọng là phải ghi nhớ về sự công
bằng khi phân tích dữ liệu. Kết luận rằng chỉ có đàn ông thành công ở công ty này là đúng,
nhưng nó bỏ qua các yếu tố mang tính hệ thống khác góp phần gây ra vấn đề này.
Nhưng đừng lo lắng, có một cách để đưa ra một kết luận công bằng ở đây. Một nhà
phân tích dữ liệu đạo đức có thể xem xét dữ liệu thu thập được và kết luận rằng văn hóa công
ty đang ngăn cản một số nhân viên thành công và công ty cần giải quyết những vấn đề đó để
tăng hiệu suất. Hãy xem phần kết luận này vẽ nên một bức tranh hoàn chỉnh và công bằng hơn
nhiều như thế nào. Nó nhận ra thực tế là một số người đang làm việc không tốt trong công ty
này và giải thích lý do tại sao điều đó có thể xảy ra thay vì phân biệt đối xử với một số lượng
lớn ứng viên trong tương lai.
Là một nhà phân tích dữ liệu, bạn có trách nhiệm đảm bảo phân tích của mình công
bằng và tính đến các yếu tố trong bối cảnh xã hội phức tạp có thể tạo ra sự thiên vị trong kết
luận của bạn. Điều quan trọng là phải suy nghĩ về sự công bằng từ thời điểm bạn bắt đầu thu
thập dữ liệu cho một nhiệm vụ kinh doanh cho đến khi bạn trình bày kết luận của mình với
các bên liên quan.
Chúng ta sẽ tìm hiểu thêm về sự thiên vị trong quy trình phân tích dữ liệu sau trong
một khóa học khác. Bây giờ, hãy xem một ví dụ về phân tích dữ liệu thực hiện tốt công việc
xem xét tính công bằng trong kết luận của nó.
Một nhóm các nhà khoa học dữ liệu của Harvard đang phát triển một nền tảng di động
để theo dõi những bệnh nhân có nguy cơ mắc bệnh tim mạch ở một khu vực của Hoa Kỳ có
tên là Vành đai Đột quỵ. Điều quan trọng là phải chỉ ra rằng có nhiều lý do khiến những người
sống trong khu vực này có thể gặp nhiều rủi ro hơn. Với ý nghĩ đó, các nhà khoa học dữ liệu
này đã nhận ra rằng sự công bằng cần phải được ưu tiên cho dự án này, vì vậy họ đã xây dựng
sự công bằng trong các mô hình của mình.
Nhóm đã thực hiện một số biện pháp công bằng để đảm bảo rằng họ công bằng nhất có
thể khi kiểm tra dữ liệu nhạy cảm và có khả năng gây sai lệch. Đầu tiên, họ hợp tác với các
nhà phân tích với các nhà khoa học xã hội, những người có thể cung cấp những hiểu biết sâu
sắc về thành kiến của con người và bối cảnh xã hội đã tạo ra họ. Họ cũng thu thập dữ liệu tự
báo cáo trong một hệ thống riêng biệt để tránh khả năng thiên vị chủng tộc có thể làm sai lệch
kết quả nghiên cứu của họ và đại diện cho bệnh nhân một cách không công bằng. Để đảm bảo
dân số mẫu này là đại diện, họ đã lấy mẫu quá mức các nhóm không chiếm ưu thế để đảm bảo
mô hình bao gồm họ. Rõ ràng là nhóm đã ưu tiên hàng đầu cho sự công bằng trong mọi bước
tiến. Điều này giúp họ thu thập dữ liệu và đưa ra kết luận không tác động tiêu cực đến cộng
đồng mà họ đang nghiên cứu.
Hy vọng rằng những ví dụ này đã cho bạn ý tưởng tốt hơn về ý nghĩa của sự công bằng
trong phân tích dữ liệu. Nhưng chúng ta sẽ tiếp tục xây dựng hiểu biết của mình về sự công
bằng trong suốt chương trình này và bạn sẽ được thực hành với một số hoạt động.
Alex: Quyết định dữ liệu công bằng và có đạo đức
Xin chào, tôi là Alex. Tôi là một nhà khoa học nghiên cứu tại Google. Nhóm của tôi
được gọi là nhóm AI có đạo đức, chúng tôi là một nhóm gồm những người thực sự quan tâm
không chỉ về cách thức hoạt động của công nghệ AI mà còn về cách nó tương tác với xã hội
và cách nó có thể giúp đỡ hoặc gây hại cho các cộng đồng bị thiệt thòi. Khi chúng ta nói về
đạo đức dữ liệu, chúng ta nghĩ về cách sử dụng dữ liệu tốt và đúng đắn là gì? Điều gì sẽ là
cách sử dụng dữ liệu sẽ có lợi cho mọi người?
Khi nói đến đạo đức dữ liệu, nó không chỉ là giảm thiểu tác hại mà còn thực sự là khái
niệm về lợi ích. Làm thế nào để chúng ta thực sự cải thiện cuộc sống của mọi người bằng cách
sử dụng dữ liệu? Khi chúng ta nghĩ về đạo đức dữ liệu, chúng ta đang nghĩ đến ai đang thu
thập dữ liệu? Tại sao họ thu thập nó? Làm thế nào họ thu thập nó và cho mục đích gì?
Do cách mà các tổ chức có nhu cầu kiếm tiền hoặc báo cáo với ai đó hoặc cung cấp
một số phân tích, chúng tôi cũng phải ghi nhớ kỹ điều này thực sự sẽ mang lại lợi ích cho mọi
người như thế nào vào cuối ngày. Những người được đại diện trong dữ liệu này sẽ được hưởng
lợi từ điều này?
Tôi nghĩ đó là điều bạn không bao giờ muốn đánh mất với tư cách là một nhà khoa học
dữ liệu hoặc nhà phân tích dữ liệu. Tôi nghĩ rằng các nhà phân tích dữ liệu đầy tham vọng cần
lưu ý rằng rất nhiều dữ liệu mà bạn sắp gặp phải là dữ liệu đến từ con người, vì vậy, cuối cùng
thì dữ liệu cũng chính là con người. Bạn muốn có trách nhiệm với những người được đại diện
trong những dữ liệu đó.
Thứ hai, là suy nghĩ về cách giữ cho các khía cạnh dữ liệu của họ được bảo vệ và riêng
tư. Chúng tôi không muốn trải qua quá trình thực hành của mình khi nghĩ về các trường hợp
dữ liệu như một thứ mà chúng tôi có thể đưa lên web. Không, cần phải cân nhắc về cách lưu
giữ thông tin đó và những điểm tương đồng như hình ảnh, giọng nói hoặc văn bản của họ.
Làm thế nào để chúng tôi giữ điều đó riêng tư?
Chúng tôi cũng cần suy nghĩ về cách chúng tôi có thể có các cơ chế cung cấp cho người
dùng và cho phép người tiêu dùng nhiều quyền kiểm soát hơn đối với dữ liệu của họ. Sẽ không
đủ nếu chỉ nói rằng, chúng tôi thu thập tất cả dữ liệu này và tin tưởng giao tất cả dữ liệu này
cho chúng tôi. Nhưng chúng tôi cần đảm bảo rằng có những cách khả thi để mọi người có thể
đồng ý cung cấp những dữ liệu đó và những cách mà họ có thể yêu cầu thu hồi hoặc xóa dữ
liệu đó. Dữ liệu ngày càng tăng và đồng thời, chúng ta cần trao quyền cho mọi người có quyền
kiểm soát dữ liệu của chính họ.
Tương lai là dữ liệu luôn phát triển, chúng tôi chưa thấy bất kỳ bằng chứng nào cho
thấy dữ liệu đang thực sự bị thu hẹp. Với kiến thức rằng dữ liệu ngày càng tăng, những vấn
đề này ngày càng trở nên gay gắt hơn và ngày càng trở nên quan trọng hơn để suy nghĩ.
Chương 3: Tùy chọn: Khám phá công việc tiếp theo của bạn
Nhà phân tích dữ liệu trong các ngành khác nhau
Đến bây giờ, chúng tôi biết rằng có đủ loại công việc trong các ngành khác nhau dành
cho các nhà phân tích dữ liệu. Nhưng bây giờ là lúc để nghĩ về một điều quan trọng không
kém, làm thế nào bạn có thể biết liệu một công việc có phù hợp với bạn và mục tiêu nghề
nghiệp của bạn hay không? Một khó khăn. Đừng lo lắng, đó chính xác là những gì chúng tôi
sẽ đề cập trong video này.
Có rất nhiều yếu tố quan trọng cần suy nghĩ khi tìm kiếm công việc mơ ước của bạn.
Trước tiên, hãy nói về một số yếu tố phổ biến nhất, ngành, công cụ, địa điểm, du lịch và văn
hóa. Dữ liệu đã được vô số ngành sử dụng theo đủ mọi cách khác nhau, công nghệ, tiếp thị,
tài chính, chăm sóc sức khỏe, v.v. Nhưng một điều quan trọng cần lưu ý là mọi ngành đều có
nhu cầu dữ liệu cụ thể và các nhà phân tích dữ liệu của họ phải giải quyết theo cách khác nhau.
Các nhà phân tích dữ liệu trong ba ngành khác nhau, dịch vụ tài chính, Viễn thông và
công nghệ có thể sử dụng cùng một dữ liệu doanh thu theo ba cách khác nhau. Ví dụ: một nhà
phân tích tài chính tại một ngân hàng đăng dữ liệu doanh thu công khai của công ty Viễn thông
X để tạo dự báo dự đoán doanh thu sẽ ở đâu trong tương lai để đề xuất giá cổ phiếu. Nhà phân
tích kinh doanh tại công ty Viễn thông X sử dụng cùng dữ liệu đó để tư vấn cho nhóm bán
hàng. Sau đó, một nhà phân tích dữ liệu tại công ty đã tạo ra công cụ quản lý khách hàng cho
công ty Viễn thông X sẽ sử dụng dữ liệu doanh thu đó để xác định mức độ hiệu quả của phần
mềm. Tài chính, viễn thông và công nghệ đều sử dụng dữ liệu khác nhau, vì vậy họ cần những
nhà phân tích có kỹ năng khác nhau.
Tất cả đều phụ thuộc vào nhu cầu của ngành là gì. Những nhu cầu đó sẽ quyết định bạn
sẽ được giao nhiệm vụ gì, những câu hỏi bạn sẽ trả lời và thậm chí cả cách bạn tiếp cận tìm
kiếm việc làm. Nếu bạn mới bắt đầu, một cách tuyệt vời để hướng dẫn tìm kiếm của bạn là
nghĩ trước tiên về những gì bạn quan tâm.
Việc giúp mọi người khỏe mạnh hơn có ý nghĩa với bạn không? Có thể bạn muốn tập
trung vào việc sử dụng dữ liệu để cải thiện việc nhập viện. Còn việc giúp mọi người tiết kiệm
để có một cuộc sống hưu trí hạnh phúc thì sao? Bạn có thể muốn một công việc sử dụng dữ
liệu để xác định các yếu tố rủi ro trong đầu tư tài chính. Hoặc có thể bạn quan tâm đến việc
giúp báo chí phát triển trong thành phố của mình. Công việc sử dụng dữ liệu để giúp tìm trang
web tin tức địa phương của bạn để tìm thêm người đăng ký có thể là vai trò hoàn hảo dành
cho bạn.
Điều quan trọng là suy nghĩ về sở thích của bạn sớm trong tìm kiếm việc làm của bạn.
Điều đó sẽ dẫn bạn đi đúng hướng và nó cũng sẽ giúp bạn trong các cuộc phỏng vấn. Các nhà
tuyển dụng tiềm năng sẽ muốn biết lý do tại sao bạn quan tâm đến công ty của họ và cách bạn
có thể đáp ứng nhu cầu của họ, vì vậy nếu bạn có thể nói về động lực làm việc trong lĩnh vực
phân tích dữ liệu trong các cuộc phỏng vấn, bạn sẽ khiến mình trở nên nổi bật một cách tuyệt
vời.
Bạn sẽ có các lựa chọn khi nói đến nơi bạn làm việc và bạn làm việc cho ai. Nhưng hãy
nhớ rằng, bạn muốn tận hưởng những gì mình làm, vì vậy bạn nên suy nghĩ về cách bạn muốn
sử dụng các kỹ năng của mình. Sau đó tìm kiếm các công việc cho phép bạn làm điều đó. Tiếp
theo trong danh sách những điều cần suy nghĩ, địa điểm và du lịch.
Khi bạn bắt đầu tìm kiếm việc làm, bạn cần đưa ra một số quyết định về nơi bạn muốn
sống, vì vậy sẽ rất hữu ích khi tự hỏi bản thân một số câu hỏi, ngành công nghiệp ưa thích của
bạn có cơ hội ở khu vực của bạn không? Bạn đang cố gắng ở lại địa phương hay bạn sẽ vui vẻ
chuyển chỗ ở? Bạn sẵn sàng đi làm mỗi ngày trong bao lâu? Bạn sẽ lái xe đi làm, đi bộ, đi
phương tiện công cộng? Có thể quanh năm không? Bạn cảm thấy thế nào khi làm việc từ xa?
Làm việc ở nhà khiến bạn phấn khích hay chán nản? Tất nhiên, bạn sẽ muốn xem xét chi phí
sinh hoạt và liệu bạn có muốn sự tiện lợi của cuộc sống ở thành phố hay một ngôi nhà ngoại
ô yên tĩnh hay không, và đó không chỉ là nơi bạn sẽ làm việc, một số công việc có thể yêu cầu
bạn đi du lịch, đó có thể là một cơ hội thú vị để nhìn thế giới hoặc một công cụ phá vỡ thỏa
thuận. Đó là tất cả về những gì bạn muốn từ công việc này, vì vậy hãy bắt đầu tự hỏi mình
một số câu hỏi sau.
Tìm ra câu trả lời có thể giúp bạn thu hẹp phạm vi tìm kiếm của mình hơn nữa, vì vậy
bạn chỉ tìm kiếm những công việc mà bạn thực sự chấp nhận. Khi bạn đã trả lời đủ câu hỏi,
bạn sẽ có thể xác định một số công ty cụ thể phù hợp với nhu cầu của mình. Tại thời điểm này,
đây là thời điểm tốt để suy nghĩ về các giá trị của bạn và văn hóa công ty nào phù hợp với bạn.
Sẵn sàng, đây là một số câu hỏi khác, bạn làm việc tốt nhất theo nhóm hay một mình?
Bạn thích có một thói quen cố định hay bạn thích tham gia một dự án mới và thử những điều
mới? Giá trị của bạn có phù hợp với giá trị của công ty không? Bạn sẽ muốn chú ý đến những
điều này trong quá trình tìm kiếm việc làm và phỏng vấn, để bạn có thể chắc chắn rằng bạn
đã đầu tư đầy đủ vào công ty mà bạn đang làm việc. Đó là cách tốt nhất để bắt đầu xây dựng
một sự nghiệp thú vị và viên mãn.
Chiến lược làm bài kiểm tra
Như bạn đã biết, chương trình này yêu cầu bạn hoàn thành các bài đánh giá được xếp
loại vào cuối mỗi mô-đun và khóa học. Các đánh giá đôi khi có thể khiến bạn cảm thấy choáng
ngợp, nhưng việc tiếp cận chúng bằng một chiến lược có thể khiến chúng trở nên dễ quản lý
hơn. Dưới đây là danh sách các mẹo bạn có thể sử dụng để giúp mình thành công.
Trước khi đánh giá:
 Xem lại ghi chú của bạn, video, bài đọc và bảng thuật ngữ gần đây nhất để làm mới nội
dung của bạn.
 Tìm một hình ảnh của một cái gì đó hoặc một đối tượng mà làm cho bạn cảm thấy hạnh
phúc. Ví dụ, bạn có thể nhìn vào bức ảnh chụp một bãi biển xinh đẹp hoặc một khu
rừng thanh bình khi bạn cảm thấy choáng ngợp.
Trong quá trình đánh giá:
 Xem lại bài kiểm tra trước khi điền câu trả lời. Hãy nhớ kiểm tra công việc của bạn
trước khi bạn nhấp vào gửi.
 Hãy dành thời gian của bạn. Bạn có đủ năm phút cho mỗi câu hỏi trong tất cả các bài
đánh giá đã được phân loại.
 Trả lời các câu hỏi dễ trước; bỏ qua những câu bạn không biết câu trả lời ngay lập tức.
 Đối với các câu hỏi trắc nghiệm, hãy tập trung vào việc loại bỏ các câu trả lời sai trước.
 Đọc mỗi câu hỏi hai lần. Thường có những manh mối rất dễ bỏ sót trong lần đầu tiên.
 Hãy nhớ chậm lại và tin tưởng vào kiến thức của bạn. Bạn có thể biết nhiều hơn những
gì bạn cho mình.
 Hít một hơi thật sâu và cho mình phản hồi tích cực.
 Hãy dành một chút thời gian trong quá trình đánh giá để nghỉ ngơi trong vài giây, vươn
vai và bắt tay. Điều này thực sự có thể giúp làm dịu thần kinh của bạn.
Nếu bạn bắt đầu cảm thấy lo lắng:
 Đánh vần ngược tên của bạn hoặc làm một bài toán dễ. Điều này đưa bạn trở lại thùy
trán của não bộ, giúp bạn nhớ lại thông tin dễ dàng hơn.
 Tập trung vào hơi thở bình tĩnh, đều đặn.
 Hình dung thành công.
Trước khi bạn gửi đánh giá:
Kiểm tra công việc của bạn, nhưng hãy tự tin. Đôi khi mọi người thay đổi câu trả lời đúng vì
họ cảm thấy sai, nhưng họ thực sự đúng. Bản năng đầu tiên của bạn thường đúng.
Học phần 2: Đặt câu hỏi để đưa ra quyết định dựa trên
dữ liệu
Tuần 1: Câu hỏi hiệu quả
Để thực hiện công việc của một nhà phân tích dữ liệu, bạn cần đặt câu hỏi và giải quyết
vấn đề. Trong phần này của khóa học, bạn sẽ kiểm tra một số thách thức phân tích phổ biến
và cách các nhà phân tích giải quyết chúng. Bạn cũng sẽ tìm hiểu về các kỹ thuật đặt câu hỏi
hiệu quả có thể giúp hướng dẫn phân tích của bạn.
Mục tiêu học tập:
 Giải thích các đặc điểm của câu hỏi hiệu quả với tham chiếu đến khuôn khổ SMART
 Thảo luận về các loại vấn đề phổ biến được giải quyết bởi một nhà phân tích dữ liệu
 Giải thích cách mỗi bước của lộ trình giải quyết vấn đề đóng góp vào các tình huống
phân tích chung
 Giải thích quy trình phân tích dữ liệu, đưa ra tham chiếu cụ thể đến các giai đoạn hỏi,
chuẩn bị, xử lý, phân tích, chia sẻ và hành động
 Mô tả các ý tưởng chính liên quan đến tư duy có cấu trúc bao gồm lĩnh vực vấn đề,
phạm vi công việc và bối cảnh
Chương 1: Giải quyết vấn đề và đặt câu hỏi hiệu quả
Giới thiệu về giải quyết vấn đề và đặt câu hỏi hiệu quả
Chào mừng bạn đến với khóa học thứ hai về chứng chỉ Google Data Analytics. Nếu
bạn đã hoàn thành Khóa học Một, chúng ta sẽ gặp nhau một thời gian ngắn lúc đầu, nhưng đối
với những bạn mới tham gia với chúng tôi, tên tôi là Ximena và tôi là nhà phân tích dữ liệu
của Google Finance. Tôi nghĩ thật tuyệt vời khi bạn ở đây cùng tôi tìm hiểu về lĩnh vực phân
tích dữ liệu hấp dẫn.
Học tập và giáo dục luôn luôn rất quan trọng đối với tôi. Khi tôi còn nhỏ, mẹ tôi luôn
nói: "Mẹ không thể để lại cho con tài sản thừa kế, nhưng mẹ có thể cho con một nền giáo dục
mở ra nhiều cánh cửa." Điều đó luôn thôi thúc tôi không ngừng học hỏi và sự giáo dục đó đã
giúp tôi tự tin nộp đơn xin việc tại Google.
Bây giờ tôi có thể làm công việc thực sự có ý nghĩa mỗi ngày. Gần đây, tôi đã làm việc
với tư cách là nhà phân tích trong một nhóm có tên là Verily Life Science. Chúng tôi đã giúp
đỡ để có được nguồn cung cấp y tế cứu mạng cho những người cần nó nhất. Để làm điều này,
chúng tôi đã dự báo những gì các chuyên gia chăm sóc sức khỏe sẽ cần trong tay và sau đó
chia sẻ thông tin đó với các mạng. Thông tin mà nhóm của tôi cung cấp đã giúp đưa ra các
quyết định dựa trên dữ liệu thực sự đã cứu được mạng sống.
Tôi rất vui mừng được trở thành người hướng dẫn của bạn cho khóa học này. Chúng ta
sẽ nói về sự khác biệt giữa các câu hỏi hiệu quả và không hiệu quả, đồng thời tìm hiểu cách
đặt những câu hỏi hay dẫn đến những hiểu biết sâu sắc có thể giúp bạn giải quyết các vấn đề
kinh doanh. Bạn sẽ khám phá ra rằng các câu hỏi hiệu quả giúp bạn tận dụng tối đa tất cả các
giai đoạn phân tích dữ liệu.
Bạn có thể nhớ rằng các giai đoạn này bao gồm hỏi, chuẩn bị, xử lý, phân tích, chia sẻ
và hành động. Trong bước đặt câu hỏi, chúng tôi xác định vấn đề mà chúng tôi đang giải quyết
và đảm bảo rằng chúng tôi hiểu đầy đủ về kỳ vọng của các bên liên quan. Điều này sẽ giúp
bạn tập trung vào vấn đề thực tế, dẫn đến kết quả thành công hơn.
Vì vậy, chúng ta sẽ bắt đầu khóa học này bằng cách nói về cách giải quyết vấn đề và
một số loại vấn đề kinh doanh phổ biến mà các nhà phân tích dữ liệu giúp giải quyết. Và bởi
vì khóa học này tập trung vào giai đoạn đặt câu hỏi, bạn sẽ học cách tạo ra những câu hỏi hiệu
quả giúp bạn thu thập dữ liệu phù hợp để giải quyết những vấn đề đó.
Tiếp theo, chúng ta sẽ nói về nhiều loại dữ liệu khác nhau. Bạn sẽ tìm hiểu làm thế nào
và khi nào là hữu ích nhất. Bạn cũng sẽ có cơ hội khám phá thêm các bảng tính và khám phá
cách chúng có thể giúp phân tích dữ liệu của bạn hiệu quả hơn nữa.
Và sau đó chúng ta sẽ bắt đầu tìm hiểu về tư duy cấu trúc. Structured thinking is The
process of recognizing the current problem or situation, organizing available information,
revealing gaps and opportunities, and identifying the options. ( Tư duy có cấu trúc là Quá
trình nhận ra vấn đề hoặc tình huống hiện tại, sắp xếp thông tin sẵn có, bộc lộ những khoảng
trống và cơ hội, đồng thời xác định các lựa chọn.) Trong quá trình này, bạn giải quyết một vấn
đề mơ hồ, phức tạp bằng cách chia nhỏ nó thành các bước nhỏ hơn, sau đó các bước đó sẽ dẫn
bạn đến một giải pháp hợp lý.
Chúng ta sẽ làm việc cùng nhau để đảm bảo bạn hiểu đầy đủ cách sử dụng tư duy có
cấu trúc và phân tích dữ liệu. Cuối cùng, chúng ta sẽ tìm hiểu một số chiến lược đã được chứng
minh để giao tiếp với người khác một cách hiệu quả. Tôi rất nóng lòng được chia sẻ thêm về
niềm đam mê phân tích dữ liệu của mình với bạn, vì vậy hãy bắt đầu nào.
Chương 2: Hành động với dữ liệu
Dữ liệu đang hoạt động
Trong video này, tôi sẽ chia sẻ một trường hợp nghiên cứu thú vị về phân tích dữ liệu.
Nó sẽ minh họa cách giải quyết vấn đề liên quan đến từng giai đoạn của quy trình phân tích
dữ liệu và làm sáng tỏ cách các giai đoạn này hoạt động trong thế giới thực. Đó là về một
doanh nghiệp nhỏ đã sử dụng dữ liệu để giải quyết một vấn đề đặc biệt mà nó đang gặp phải.
Công việc kinh doanh có tên là Anywhere Gaming Repair. Đó là nhà cung cấp dịch vụ đến
với bạn để sửa chữa các phụ kiện hoặc hệ thống trò chơi điện tử bị hỏng của bạn. Chủ sở hữu
muốn mở rộng kinh doanh của mình. Anh ấy biết quảng cáo là một cách đã được chứng minh
để có được nhiều khách hàng hơn, nhưng anh ấy không biết bắt đầu từ đâu.
Có tất cả các loại chiến lược quảng cáo khác nhau, bao gồm báo in, biển quảng cáo,
quảng cáo trên TV, phương tiện giao thông công cộng, podcast và đài phát thanh. Một trong
những điều quan trọng cần suy nghĩ khi chọn phương thức quảng cáo là đối tượng mục tiêu
của bạn, nói cách khác, những người cụ thể mà bạn đang cố gắng tiếp cận.
Ví dụ: nếu một nhà sản xuất thiết bị y tế muốn tiếp cận các bác sĩ, việc đăng quảng cáo
trên tạp chí sức khỏe sẽ là một lựa chọn thông minh. Hoặc nếu một công ty cung cấp thực
phẩm muốn tìm đầu bếp mới, họ có thể quảng cáo bằng cách sử dụng áp phích tại trạm xe
buýt gần trường dạy nấu ăn. Cả hai cách này đều là những cách tuyệt vời để quảng cáo của
bạn được khán giả mục tiêu nhìn thấy.
Điều thứ hai cần nghĩ đến là ngân sách của bạn và chi phí của các phương pháp quảng
cáo khác nhau là bao nhiêu. Chẳng hạn, quảng cáo trên TV có thể đắt hơn quảng cáo trên đài
phát thanh. Một bảng quảng cáo lớn có thể sẽ đắt hơn một tấm áp phích nhỏ ở phía sau xe
buýt thành phố.
Chủ doanh nghiệp đã nhờ chuyên gia phân tích dữ liệu, Maria, đưa ra khuyến nghị. Cô
bắt đầu với bước đầu tiên trong quy trình phân tích dữ liệu, Hỏi. Maria bắt đầu bằng cách
xác định vấn đề cần giải quyết. Để làm được điều này, trước tiên cô ấy phải thu nhỏ và xem
xét toàn bộ tình huống trong bối cảnh. Bằng cách đó, cô ấy có thể chắc chắn rằng mình
đang tập trung vào vấn đề thực sự chứ không chỉ các triệu chứng của nó.
Điều này dẫn chúng ta đến một phần quan trọng khác của quá trình giải quyết vấn đề,
cộng tác với các bên liên quan và hiểu nhu cầu của họ. Đối với Anywhere Gaming Repair, các
bên liên quan bao gồm chủ sở hữu, phó chủ tịch truyền thông và giám đốc tiếp thị và tài chính.
Làm việc cùng nhau, Maria và các bên liên quan đã đồng ý về vấn đề, chưa biết loại hình
quảng cáo ưa mà đối tượng khán giả mục tiêu ưu chuộng.
Bước tiếp theo là giai đoạn chuẩn bị, trong đó Maria thu thập dữ liệu cho quá trình
phân tích sắp tới. Nhưng trước tiên, cô cần hiểu rõ hơn đối tượng mục tiêu của công ty, những
người sử dụng hệ thống trò chơi điện tử. Sau đó, Maria thu thập dữ liệu về các phương thức
quảng cáo khác nhau. Bằng cách này, cô ấy sẽ có thể xác định đâu là quảng cáo phổ biến nhất
với đối tượng mục tiêu của công ty.
Sau đó cô chuyển sang bước xử lý. Ở đây, Maria đã làm sạch dữ liệu để loại bỏ bất
kỳ lỗi hoặc điểm không chính xác nào có thể cản trở kết quả. Như chúng ta đã biết, khi bạn
làm sạch dữ liệu, bạn sẽ chuyển đổi dữ liệu đó thành một định dạng hữu ích hơn, tạo thông tin
đầy đủ hơn và loại bỏ các giá trị ngoại lệ.
Sau đó là thời gian để phân tích. Trong bước này, Maria muốn tìm hiểu hai điều. Đầu
tiên, ai có nhiều khả năng sở hữu một hệ thống chơi game video nhất? Thứ hai, những người
này có nhiều khả năng xem quảng cáo nhất ở đâu? Maria, lần đầu tiên phát hiện ra rằng
những người trong độ tuổi từ 18 đến 34 có nhiều khả năng thực hiện các giao dịch mua hàng
liên quan đến trò chơi điện tử. Cô ấy có thể khẳng định rằng đối tượng mục tiêu của Anywhere
Gaming Repair là những người từ 18-34 tuổi. Đây là người mà họ nên cố gắng tiếp cận. Với
suy nghĩ này, Maria sau đó biết được rằng cả quảng cáo trên TV và podcast đều rất phổ biến
với khán giả mục tiêu. Bởi vì Maria biết Anywhere Gaming Repair có ngân sách hạn chế và
hiểu được chi phí quảng cáo trên truyền hình cao, nên đề xuất của cô ấy là quảng cáo trên
podcast vì chúng tiết kiệm chi phí hơn.
Bây giờ cô ấy đã phân tích xong, đã đến lúc Maria chia sẻ đề xuất của mình để công ty
có thể đưa ra quyết định dựa trên dữ liệu. Cô tóm tắt kết quả của mình bằng cách sử dụng hình
ảnh phân tích rõ ràng và hấp dẫn. Điều này đã giúp các bên liên quan của cô ấy hiểu được
giải pháp cho vấn đề ban đầu.
Cuối cùng, Anywhere Gaming Repair đã hành động, họ đã làm việc với một công ty
sản xuất podcast địa phương để tạo một quảng cáo dài 30 giây về dịch vụ của họ. Quảng cáo
đã chạy trên podcast trong một tháng và nó đã hoạt động. Họ đã thấy lượng khách hàng tăng
lên chỉ sau tuần đầu tiên. Đến cuối tuần thứ 4, họ có 85 khách hàng mới. Như vậy đó. Để giải
quyết vấn đề hiệu quả ta áp dụng các giai đoạn phân tích dữ liệu.
Bây giờ, bạn đã thấy sáu giai đoạn phân tích dữ liệu có thể được áp dụng như thế nào
để giải quyết vấn đề và cách bạn có thể sử dụng nó để giải quyết các vấn đề trong thế giới
thực.
Nikki: Quá trình xử lý dữ liệu hoạt động
Tôi là Nikki và tôi quản lý nhóm giáo dục, đánh giá, đánh giá và nghiên cứu. Phần yêu
thích của tôi trong quy trình phân tích dữ liệu là tìm ra vấn đề khó nhất và đặt hàng triệu câu
hỏi về vấn đề đó và xem liệu có thể có câu trả lời hay không. Một trong những vấn đề mà
chúng tôi đã giải quyết ở đây tại Google là chương trình giới thiệu Noogler của chúng tôi, đây
là cách chúng tôi giới thiệu nhân viên mới.
Một trong những điều chúng tôi đã làm là đặt câu hỏi, làm thế nào để chúng tôi biết
liệu các Noogler có đang tích hợp nhanh hơn thông qua chương trình tích hợp mới của chúng
tôi so với chương trình tích hợp cũ mà chúng tôi đã từng giảng cho họ hay không. Chúng tôi
làm việc sát sao với các nhà cung cấp nội dung để hiểu được cách chính xác nhằm giúp mọi
người hòa nhập nhanh hơn?
Khi đã đặt ra các câu hỏi, chúng tôi đã chuẩn bị dữ liệu bằng cách tìm hiểu đâu là quần
thể nhân viên mới mà ta đang đánh giá. Chúng tôi đã chuẩn bị dữ liệu bằng cách xem qua và
hiểu quần thể của chúng tôi là ai, bằng cách hiểu tập hợp mẫu của chúng tôi là ai, nhóm kiểm
soát của chúng tôi là ai, nhóm thử nghiệm của chúng tôi là ai, nguồn dữ liệu của chúng tôi ở
đâu và đảm bảo rằng dữ liệu đó nằm trong một tập hợp, ở định dạng rõ ràng và dễ hiểu để
chúng tôi viết các tập lệnh phù hợp.
Vì vậy, bước tiếp theo đối với chúng tôi là xử lý dữ liệu để đảm bảo rằng dữ liệu ở định
dạng mà chúng tôi thực sự có thể phân tích bằng SQL, đảm bảo rằng dữ liệu ở đúng định dạng,
đúng cột và đúng bảng.
Để phân tích dữ liệu, chúng tôi đã viết các tập lệnh bằng SQL và R để tương quan dữ
liệu với nhóm kiểm soát hoặc nhóm thử nghiệm và diễn giải dữ liệu để hiểu, có bất kỳ thay
đổi nào trong các chỉ báo hành vi mà chúng tôi đã thấy không?
Khi chúng tôi phân tích tất cả dữ liệu, chúng tôi muốn báo cáo về dữ liệu đó theo cách
mà các bên liên quan của chúng tôi có thể hiểu được. Tùy thuộc vào các bên liên quan của
chúng tôi là ai, chúng tôi đã chuẩn bị các báo cáo, bảng điều khiển và bản trình bày, đồng thời
chia sẻ thông tin đó ra bên ngoài.
Khi tất cả các báo cáo của chúng tôi đã hoàn thành, chúng tôi đã thấy kết quả thực sự
tích cực và quyết định hành động dựa trên kết quả đó bằng cách tiếp tục chương trình tích hợp
học tập dựa trên dự án của chúng tôi. Thật sự hài lòng khi biết rằng chúng tôi có dữ liệu để hỗ
trợ nó và nó thực sự, thực sự hiệu quả. Và không chỉ có dữ liệu ở đó, mà chúng tôi còn biết
rằng học sinh của mình đang học và họ làm việc hiệu quả hơn, quay lại công việc nhanh hơn.
Chương 3: Giải quyết vấn đề với dữ liệu
Các loại vấn đề phổ biến
Trong video trước, tôi đã chia sẻ cách phân tích dữ liệu giúp một công ty tìm ra nơi
quảng cáo dịch vụ của mình. Một phần quan trọng của quá trình này là kỹ năng giải quyết vấn
đề mạnh mẽ. Là một nhà phân tích dữ liệu, bạn sẽ thấy rằng các vấn đề là trung tâm của những
gì bạn làm hàng ngày, nhưng đó là một điều tốt. Hãy coi các vấn đề là cơ hội để vận dụng các
kỹ năng của bạn và tìm ra các giải pháp sáng tạo và sâu sắc.
Các vấn đề có thể lớn hoặc nhỏ, đơn giản hoặc phức tạp, không vấn đề nào giống vấn
đề nào và tất cả chúng đều yêu cầu cách tiếp cận hơi khác nhau nhưng bước đầu tiên luôn
giống nhau: Hiểu vấn đề bạn đang giải quyết và đó là điều chúng tôi sẽ nói bây giờ.
Việc phân tích dữ liệu có thể áp dụng với nhiều loại vấn đề. Trong video này, chúng ta
sẽ tập trung vào sáu loại phổ biến. Chúng bao gồm:
1. Making predictions (Dự đoán)
2. Categorizing things (Phân loại)
3. Spotting something unsual (Phát hiện điểm khác biệt)
4. Identifying themes (Xác định chủ đề)
5. Discovering connections (Phát hiện các liên kết)
6. Finding patterns (Tìm ra mẫu)
Bây giờ chúng ta hãy định nghĩa từng cái trong số này.
1. Making predictions is Using data to make informed decision about things may be in
the future. (Dự đoán là việc sử dụng dữ liệu để đưa ra quyết định sáng suốt về diễn
biến của mọi chuyện trong tương lai)
Ví dụ: hệ thống bệnh viện có thể sử dụng theo dõi bệnh nhân từ xa để dự đoán các sự
kiện sức khỏe cho bệnh nhân mắc bệnh mãn tính. Các bệnh nhân sẽ đo sức khỏe của
họ tại nhà mỗi ngày và thông tin đó kết hợp với dữ liệu về tuổi, các yếu tố rủi ro và các
chi tiết quan trọng khác có thể cho phép thuật toán của bệnh viện dự đoán các vấn đề
sức khỏe trong tương lai và thậm chí giảm số lần nhập viện trong tương lai..
2. Categorizing things is Assigning information to different groups or clusters based
on common features. (Phân loại là chỉ định thông tin vào các nhóm hoặc các cụm khác
nhau dựa trên các thuộc tính giống nhau).
Một ví dụ về loại vấn đề này là một nhà sản xuất xem xét dữ liệu về hiệu suất của nhân
viên tại cửa hàng. Một nhà phân tích có thể tạo một nhóm cho những nhân viên làm
việc hiệu quả nhất và kém hiệu quả nhất trong lĩnh vực kỹ thuật. Một nhóm dành cho
những nhân viên sửa chữa và bảo trì hiệu quả nhất và kém nhất, lắp ráp hiệu quả nhất
và kém nhất, và nhiều nhóm hoặc cụm khác.
3. Spotting something unusual is Identifying data that is different from the norm
(Phát hiện điểm khác biệt là Xác định dữ liệu khác với tiêu chuẩn).
Một ví dụ về việc phát hiện ra điều gì đó bất thường trong thực tế là một trường học có
số lượng học sinh đăng ký tăng đột biến, có thể lên tới mức tăng 30% học sinh. Một
nhà phân tích dữ liệu phân tích về sự gia tăng này và phát hiện ra rằng một số khu
chung cư mới đã được xây dựng gần trường học vào đầu năm đó. Họ có thể sử dụng
phân tích này để đảm bảo trường có đủ nguồn lực để xử lý các học sinh mới.
4. Identifying themes is Grouping categorized information into broader concepts.
(Việc xác định chủ đề là phân loại ở mức độ cao hơn bằng các nhóm thông tin thành
các khái niệm rộng hơn).
Quay trở lại với nhà sản xuất của chúng tôi vừa xem xét dữ liệu về nhân viên của cửa
hàng. Đầu tiên, những người này được nhóm theo loại và nhiệm vụ. Nhưng giờ đây,
một nhà phân tích dữ liệu có thể lấy các danh mục đó và nhóm chúng thành khái niệm
rộng hơn về năng suất thấp và năng suất cao. Điều này sẽ giúp doanh nghiệp có thể
xem ai là người làm việc hiệu quả nhất và kém hiệu quả nhất, để thưởng cho những
người làm việc hiệu quả nhất và hỗ trợ thêm cho những người lao động cần được đào
tạo thêm.
5. Discovering connections is Finding similar challenges faced by different entities and
combining data and insights to address them. (Phát hiện các liên kết là tìm thấy các thử
thách tương tự mà nhiều thực thể khác nhau gặp phải, sau đó kết hợp các dữ liệu và
thông tin chuyên sâu để xử lý vấn đề).
Ý tôi là thế này: Một công ty xe tay ga đang gặp sự cố với bánh xe mà họ nhận được
từ nhà cung cấp bánh xe. Công ty đó sẽ phải ngừng sản xuất cho đến khi có thể lấy lại
bánh xe chất lượng, an toàn. Nhưng trong khi đó, các công ty sản xuất bánh xe gặp vấn
đề với cao su mà họ sử dụng để làm bánh xe, hóa ra nhà cung cấp cao su cũng không
thể tìm được nguyên liệu phù hợp. Nếu tất cả các thực thể này có thể nói về các vấn đề
họ đang gặp phải và chia sẻ dữ liệu một cách cởi mở, họ sẽ tìm thấy rất nhiều thách
thức tương tự và tốt hơn nữa là có thể cộng tác để tìm ra giải pháp.
6. Finding patterns Using historical data to understand what happened in the past and
is therefore likely to happen again. (Tìm ra mẫu là Sử dụng dữ liệu để tìm ra mẫu
thông qua các dữ liệu trước đó để hiểu về những chuyện xảy ra trước đây và có khả
năng tái diễn).
Các công ty thương mại điện tử luôn sử dụng dữ liệu để tìm các mẫu. Các nhà phân
tích dữ liệu xem xét dữ liệu giao dịch để hiểu thói quen mua hàng của khách hàng tại
các thời điểm nhất định trong năm. Họ có thể thấy rằng khách hàng mua nhiều hàng
đóng hộp hơn ngay trước cơn bão hoặc họ mua ít phụ kiện thời tiết lạnh hơn như mũ
và găng tay trong những tháng ấm hơn. Các công ty thương mại điện tử có thể sử dụng
những thông tin chi tiết này để đảm bảo rằng họ dự trữ đúng số lượng sản phẩm vào
những thời điểm quan trọng này.
Được rồi, giờ bạn đã học được sáu loại vấn đề cơ bản mà các nhà phân tích dữ liệu thường
gặp phải. Là một nhà phân tích dữ liệu trong tương lai, đây sẽ là kiến thức quý giá cho sự
nghiệp của bạn.
Sắp tới, chúng ta sẽ nói thêm một chút về các loại vấn đề này và tôi sẽ cung cấp nhiều
ví dụ hơn nữa về việc các nhà phân tích dữ liệu giải quyết chúng. Cá nhân tôi thích những ví
dụ thực tế. Chúng thực sự giúp tôi hiểu rõ hơn về những khái niệm mới. Tôi nóng lòng muốn
chia sẻ nhiều trường hợp thực tế hơn nữa với bạn. Hẹn gặp lại.
Các vấn đề trong thực tế
Bạn đã tìm hiểu về sáu loại vấn đề mà các nhà phân tích dữ liệu gặp phải, bao gồm dự
đoán, phân loại, phát hiện các điểm khác biệt, xác định chủ đề, phát hiện các liên kết và tìm
ra mẫu.
Hãy nghĩ về ví dụ thực tế trong video trước. Trong ví dụ đó, Anywhere Gaming Repair
muốn tìm cách thu hút khách hàng mới. Vấn đề là làm thế nào để xác định phương pháp quảng
cáo hay nhất với đối tượng mục tiêu của Anywhere Gaming Repair. Để hỗ trợ giải quyết vấn
đề này, công ty sử dụng dữ liệu để hình dung điều gì sẽ xảy ra nếu ta quảng cáo ở một địa
điểm khác. Không ai có thể biết được tương lai nhưng dữ liệu sẽ giúp họ đưa ra quyết định
sáng suốt về việc mọi chuyện sẽ diễn ra như thế nào. Như vậy, loại vấn đề của họ là dự đoán.
Bây giờ hãy nghĩ về loại vấn đề thứ hai, phân loại. Đây là ví dụ về vấn đề liên quan
đến việc phân loại. Giả sử một doanh nghiệp muốn cải thiện mức độ hài lòng của khách hàng.
Các nhà phân tích dữ liệu có thể xem xét các cuộc gọi được ghi lại tại bộ phận chăm sóc khách
hàng ở công ty và đánh giá mức độ hài lòng của từng người gọi. Họ có thể nhận diện một vài
từ khóa hoặc cụm từ xuất hiện trong các cuộc gọi và phân loại vào các nhóm như lịch sự, hài
lòng, không hài lòng, thấu cảm, và hơn thế nữa.
Phân loại những từ khóa này cho chúng ta các dữ liệu để công ty xác định những người đại
diện dịch vụ khách hàng có thành tích tốt nhất, và những người cần đào tạo thêm. Điều này
giúp nhiều khách hàng hài lòng hơn và có được điểm số dịch vụ khách hàng cao hơn.
Được rồi, bây giờ hãy nói về vấn đề liên quan đến việc phát hiện các điểm khác biệt.
Có thể các bạn có đồng hồ thông minh, ứng dụng yêu thích của tôi là theo dõi sức khỏe. Ứng
dụng này có thể giúp mọi người giữ gìn sức khỏe bằng cách thu thập các dữ liệu như nhịp tim,
chu kỳ ngủ, thói quen tập thể dục, và nhiều hơn thế. Có rất nhiều câu chuyện về việc ứng dụng
sức khỏe có thể cứu sống mạng người. Câu chuyện đầu tiên là về một phụ nữ trẻ, năng hoạt
động và trước đây không có vấn đề nào về sức khỏe. Một đêm, cô ấy nghe thấy một tiếng bíp
từ đồng hồ thông minh của mình, có thông báo rằng nhịp tim của cô ấy tăng cao.
Trong ví dụ này, hãy coi đồng hồ là nhà phân tích dữ liệu. Đồng hồ đã thu thập và phân
tích các dữ liệu sức khỏe. Khi nhịp tim lúc đang nghỉ của cô ấy tăng đến 120 nhịp một phút,
đồng hồ phát hiện có điều gì đó bất thường vì theo dữ liệu, nhịp tim bình thường vào khoảng
70. Nhờ có dữ liệu từ đồng hồ thông minh, cô ấy đã tới bệnh viện và phát hiện mình gặp phải
một căn bệnh có thể dẫn đến biến chứng nguy hiểm tới tính mạng nếu không được hỗ trợ về
y tế.
Tiếp theo là loại vấn đề xác định chủ đề. Ta sẽ gặp nhiều ví dụ về loại này trong lĩnh
vực trải nghiệm người dùng. Nhà thiết kế trải nghiệm người dùng nghiên cứu và làm việc để
cải thiện tương tác của mọi người với sản phẩm họ dùng hàng ngày. Giả sử nhà thiết kế trải
nghiệm người dùng muốn biết cảm nhận của khách hàng về máy pha cà phê mà công ty đó
sản xuất. Doanh nghiệp này thu thập dữ liệu khảo sát ẩn danh từ người dùng, ta có thể sử dụng
dữ liệu này để trả lời câu hỏi. Nhưng để hiểu được tất cả, họ cần tìm ra chủ đề chung đại diện
cho dữ liệu có giá trị nhất, nhất là những thông tin họ có thể sử dụng để cải thiện trải nghiệm
người dùng. Vấn đề mà công ty của nhà thiết kế trải nghiệm người dùng gặp phải là làm thế
nào để cải thiện trải nghiệm người dùng cho máy pha cà phê.
Quy trình ở đây giống như tìm kiếm các mục đối với từ khóa và cụm từ trong các cuộc
trao đổi dịch vụ khách hàng. Nhưng việc xác định chủ đề còn hơn thế, ta sẽ nhóm các thông
tin vào một chủ đề chung. Sau đó nhà thiết kế có thể xác định các chủ đề phổ biến mất. Trong
trường hợp này, họ biết rằng người dùng không thể phân biệt máy pha cà phê có đang bật hay
không. Cuối cùng họ đã tối ưu hóa thiết kế bằng cách cải thiện vị trí và ánh sáng của nút bật/tắt,
từ đó cải tiến sản phẩm và khiến người dùng hài lòng hơn.
Bây giờ là đến vấn đề phát hiện liên kết. Ví dụ này là từ ngành giao thông vận tải, ta
áp dụng khái niệm dịch vụ hậu cần của bên thứ ba. Các đối tác hậu cần bên thứ ba giúp các
doanh nghiệp vận chuyển sản phẩm khi không có xe tải, máy bay hoặc tàu riêng. Một vấn đề
phổ biến mà các đối tác này gặp phải là việc giảm thời gian chờ đợi. Thời gian chờ đợi là khi
tài xế xe tải của nhà cung cấp dịch vụ hậu cần bên thứ ba đến nơi nhận lô hàng nhưng lô hàng
lại chưa sẵn sàng. Vậy là họ phải đợi. Việc này làm tiêu tốn cả thời gian và tiền bạc, khiến xe
tải không thể tiếp tục hành trình vận chuyển. Làm thế nào để giải quyết vấn đề này? Bằng
cách chia sẻ dữ liệu, các công ty đối tác có thể xem lịch trình của nhau và biết được nguyên
nhân giao hàng chậm trễ. Từ đó họ có thể tìm cách ngăn chặn các vấn đề này trong tương lai.
Vậy là vấn đề của một doanh nghiệp sẽ không gây ra tác động tiêu cực cho doanh nghiệp kia.
Ví dụ, nếu lô hàng bị chậm trễ vì có một công ty chỉ giao hàng vào thứ Hai, thứ Tư và
thứ Sáu, và công ty khác chỉ giao hàng vào thứ Ba và thứ Năm, thì các công ty có thể lựa chọn
giao hàng vào cùng ngày để giảm thiểu thời gian chờ đợi cho khách hàng.
Và bây giờ là loại vấn đề cuối cùng, tìm ra mẫu. Các công ty dầu khí phải liên tục làm
việc để giữ cho máy móc của họ hoạt động đúng cách. Vì vậy, vấn đề là, làm thế nào để ngăn
máy móc ngừng hoạt động. Nhà phân tích dữ liệu có thể xem xét các mẫu trong dữ liệu trước
đó của công ty. Ví dụ, họ có thể tìm hiểu cách thức và thời điểm một máy cụ thể ngừng hoạt
động trước đây và tìm hiểu thông tin về nguyên nhân gây ra việc đó. Trong trường hợp này,
công ty phát hiện được mẫu chỉ ra rằng máy bắt đầu hỏng ở tốc độ nhanh hơn nếu không thể
bảo dưỡng theo chu kỳ 15 ngày. Sau đó họ có thể theo dõi điều kiện hiện tại và can thiệp nếu
xảy ra vấn đề này lần nữa. Khá là tuyệt, phải không?
Tôi luôn ngạc nhiên khi nghe về việc dữ liệu có thể giúp các cá nhân và doanh nghiệp
trong thực tế tạo ra thay đổi có ý nghĩa như thế nào. Hy vọng bạn cũng làm được điều đó. Hẹn
gặp lại.
Anmol: Từ giả thuyết đến kết quả
Xin chào, tôi là Anmol. Tôi là Trưởng Bộ phận Phân tích tiếp thị dành cho nhà quảng
cáo lớn trong Nhóm tiếp thị tại Google.
Cốt lõi công việc của tôi là kết nối đúng người dùng với đúng thông điệp vào đúng thời
điểm. Bước đầu tiên là hiểu được bao quát về mẫu cụ thể đang diễn ra.
Ví dụ, ta biết rằng phân khúc người dùng này phản ứng nhanh hơn với loại nội dung
này. Khi ta có thể thực sự xem xét giả thuyết này thông qua dữ liệu, ta tiến hành kiểm tra để
đảm bảo rằng giả thuyết là thực sự đúng. Ví dụ, ta sẽ thử gửi những nội dung này cho phân
khúc người dùng này, và thực sự xác minh trong một môi trường được kiểm soát để xem tỷ lệ
phản hồi với loại nội dung này có thực sự cao hơn hay không.
Khi đã xác minh được giả thuyết đó, ta sẽ quay lại với các bên liên quan, trong trường
hợp này là các nhà tiếp thị, và nói rằng chúng tôi đã chứng minh ở mức độ chắc chắn tương
đối cao là phân khúc này sẽ phản hồi nhanh hơn với loại nội dung này, vì thế, chúng tôi khuyến
khích bạn sản xuất nhiều loại nội dung như vậy hơn.
Các bên liên quan sẽ thấy được toàn bộ quá trình phát triển từ giả thuyết đến khái niệm
đã được chứng minh, và họ có thể cùng đồng hành với chúng tôi trên hành trình chứng minh
các giả thuyết này sau đó biến chúng thành các chiến lược và kiến nghị cho doanh nghiệp.
Kết quả trong trường hợp này là chúng tôi đã có thể thực sự thay đổi cách nhóm tiếp
thị làm việc để tập trung vào người dùng hơn. Thay vì xét từ góc độ của ta, sản xuất ra các nội
dung mà ta nghĩ rằng người dùng cần, ta sẽ thực sự đi theo hướng xác định nhu cầu của người
dùng trước, chứng minh rằng họ cần những thứ nhất định hoặc họ không cần những thứ nhất
định, sau đó sử dụng thông tin đó để quay lại với các nhà tiếp thị và sáng tạo ra các nội dung
đáp ứng nhu cầu của họ. Việc này sẽ thay đổi đường hướng sản xuất mọi thứ.
Chương 4: Tạo câu hỏi hiệu quả
SMART questions
Bây giờ chúng ta đã nói về sáu loại vấn đề cơ bản, đã đến lúc bắt đầu giải quyết chúng.
Để làm được điều đó, các nhà phân tích dữ liệu bắt đầu bằng cách đặt những câu hỏi phù hợp.
Trong video này, chúng ta sẽ tìm hiểu cách đặt câu hỏi hiệu quả dẫn đến những hiểu biết chính
mà bạn có thể sử dụng để giải quyết mọi loại vấn đề.
Là một nhà phân tích dữ liệu, tôi liên tục đặt câu hỏi. Đó là một phần rất lớn của công
việc. Nếu ai đó yêu cầu tôi làm việc trong một dự án, tôi sẽ đặt câu hỏi để đảm bảo rằng chúng
tôi có cùng quan điểm về kế hoạch và mục tiêu. Và khi tôi nhận được một kết quả, tôi đặt câu
hỏi về nó. Là dữ liệu cho tôi thấy một cái gì đó hời hợt? Có xung đột ở đâu đó cần được giải
quyết không? Bạn càng đặt nhiều câu hỏi, bạn càng tìm hiểu nhiều hơn về dữ liệu của mình
và hiểu biết sâu sắc của bạn sẽ càng mạnh mẽ hơn vào cuối ngày.
Một số câu hỏi hiệu quả hơn những câu hỏi khác. Giả sử bạn đang ăn trưa với một
người bạn và họ nói, "Đây là những chiếc bánh mì kẹp ngon nhất từ trước đến nay phải
không?" Chà, câu hỏi đó không thực sự cho bạn cơ hội để chia sẻ ý kiến của riêng mình, đặc
biệt nếu bạn không đồng ý và không thích bánh sandwich lắm. Đây được gọi là câu hỏi dẫn
dắt (leading question) vì nó dẫn bạn đến câu trả lời theo một cách nhất định.
Hoặc có thể bạn đang thực hiện một dự án và bạn quyết định phỏng vấn một thành viên
trong gia đình. Giả sử bạn hỏi chú của bạn, bạn có thích lớn lên ở Malaysia không? Anh ta có
thể trả lời, "Có." Nhưng bạn chưa học được nhiều về kinh nghiệm của anh ấy ở đó. Câu hỏi
của bạn là câu hỏi đóng (closed-ended) . Điều đó có nghĩa là nó có thể được trả lời bằng có
hoặc không. Những loại câu hỏi này hiếm khi dẫn đến những hiểu biết có giá trị.
Bây giờ nếu ai đó hỏi bạn, bạn thích sô cô la hay vani hơn? Chà, cụ thể họ đang nói về
cái gì vậy? Kem, bánh pudding, hương liệu cà phê hay thứ gì khác? Nếu bạn thích kem sô cô
la nhưng vani trong cà phê của bạn thì sao? Nếu bạn không thích một trong hai hương vị thì
sao? Đó là vấn đề với câu hỏi này. Nó quá mơ hồ và thiếu ngữ cảnh. Biết được sự khác biệt
giữa các câu hỏi hiệu quả và không hiệu quả là điều cần thiết cho sự nghiệp tương lai của bạn
với tư cách là một nhà phân tích dữ liệu. Xét cho cùng, quy trình phân tích dữ liệu bắt đầu với
giai đoạn hỏi.
Vì vậy, điều quan trọng là chúng tôi đặt câu hỏi đúng. Các câu hỏi hiệu quả tuân theo
phương pháp SMART.
 Specific questions are simple, significant and focused on a single topic or a few closely
related ideas. Các câu hỏi cụ thể đơn giản, quan trọng và tập trung vào một chủ đề duy
nhất hoặc một vài ý tưởng liên quan chặt chẽ.
Điều này giúp chúng tôi thu thập thông tin liên quan đến những gì chúng tôi đang điều tra.
Nếu một câu hỏi quá chung chung, hãy cố gắng thu hẹp nó lại bằng cách chỉ tập trung vào một
yếu tố.
Ví dụ, thay vì hỏi một câu hỏi đóng, chẳng hạn như ngày nay trẻ em có hoạt động thể
chất đủ không? Hỏi có bao nhiêu phần trăm trẻ em đạt được 60 phút hoạt động thể chất được
khuyến nghị ít nhất năm ngày một tuần? Câu hỏi đó cụ thể hơn nhiều và có thể cung cấp cho
bạn nhiều thông tin hữu ích hơn.
 Measurable questions can be quantified and assessed. Các câu hỏi đo lường có thể
định lượng và đánh giá được.
Một ví dụ về câu hỏi không thể đo lường được là tại sao một video gần đây lại lan truyền như
vậy? Thay vào đó, bạn có thể hỏi video của chúng tôi đã được chia sẻ bao nhiêu lần trên các
kênh xã hội trong tuần đầu tiên nó được đăng? Câu hỏi đó có thể đo lường được vì nó cho
phép chúng tôi đếm các lượt chia sẻ và đi đến một con số cụ thể.
 Action-oriented questions encourage change. Các câu hỏi định hướng hành động
khuyến khích sự thay đổi.
Bạn có thể nhớ rằng giải quyết vấn đề là nhìn thấy trạng thái hiện tại và tìm ra cách biến nó
thành trạng thái lý tưởng trong tương lai. Chà, các câu hỏi định hướng hành động sẽ giúp bạn
đạt được điều đó. Vì vậy, thay vì hỏi, làm thế nào chúng ta có thể khiến khách hàng tái chế
bao bì sản phẩm của mình? Bạn có thể hỏi, những tính năng thiết kế nào sẽ giúp bao bì của
chúng ta dễ tái chế hơn? Điều này mang lại cho bạn câu trả lời mà bạn có thể hành động.
Specific
Measurable
Action-oriented
Relevant
Time-bound
 Relevant questions matter, are important and have significance to the problem you're
trying to solve. Các câu hỏi liên quan quan trọng, rất quan trọng và có ý nghĩa đối với
vấn đề bạn đang cố gắng giải quyết.
Giả sử bạn đang giải quyết một vấn đề liên quan đến một loài ếch đang bị đe dọa. Và bạn đã
hỏi, tại sao ếch cây Pine Barrens bắt đầu biến mất? Đây là một câu hỏi không liên quan vì câu
trả lời sẽ không giúp chúng ta tìm ra cách ngăn chặn những con ếch này tuyệt chủng. Một câu
hỏi phù hợp hơn sẽ là, những yếu tố môi trường nào đã thay đổi ở Durham, Bắc Carolina từ
năm 1983 đến năm 2004 có thể khiến ếch cây Pine Barrens biến mất khỏi Vùng Sandhills?
Câu hỏi này sẽ cung cấp cho chúng tôi câu trả lời mà chúng tôi có thể sử dụng để giúp giải
quyết vấn đề của mình.
 Time-bound questions specify the time to be studied. Câu hỏi giới hạn thời gian xác
định thời gian được nghiên cứu.
Khoảng thời gian chúng tôi muốn nghiên cứu là từ năm 1983 đến năm 2004. Điều này giới
hạn phạm vi khả năng và cho phép nhà phân tích dữ liệu tập trung vào dữ liệu liên quan.
Được rồi, bây giờ bạn đã có hiểu biết chung về các câu hỏi SMART, có một điều khác
rất quan trọng cần lưu ý khi đặt câu hỏi, đó là sự công bằng. Chúng tôi đã đề cập đến tính công
bằng trước đây, nhưng xin nhắc lại, tính công bằng có nghĩa là đảm bảo rằng các câu hỏi của
bạn không tạo ra hoặc củng cố sự thiên vị.
Để nói về điều này, hãy quay lại ví dụ về bánh sandwich của chúng ta. Ở đó, chúng tôi
có một câu hỏi không công bằng vì nó được đặt ra để dẫn bạn đến một câu trả lời nhất định.
Điều này khiến bạn khó trả lời một cách trung thực nếu bạn không đồng ý về chất lượng bánh
sandwich. Một ví dụ phổ biến khác về câu hỏi không công bằng là câu hỏi đưa ra các giả định.
Ví dụ: giả sử một cuộc khảo sát về mức độ hài lòng dành cho những người đến thăm
bảo tàng khoa học. Nếu cuộc khảo sát hỏi, bạn thích điều gì nhất về triển lãm của chúng tôi?
Điều này giả định rằng khách hàng yêu thích các cuộc triển lãm, điều này có thể đúng hoặc
không.
Công bằng cũng có nghĩa là đặt ra những câu hỏi có ý nghĩa với tất cả mọi người. Điều
quan trọng là các câu hỏi phải rõ ràng và có cách diễn đạt đơn giản mà bất kỳ ai cũng có thể
dễ dàng hiểu được. Những câu hỏi không công bằng cũng có thể khiến công việc của bạn với
tư cách là một nhà phân tích dữ liệu trở nên khó khăn hơn. Chúng dẫn đến phản hồi không
đáng tin cậy và bỏ lỡ cơ hội để đạt được một số hiểu biết thực sự có giá trị.
Bạn đã học được nhiều điều về cách đặt câu hỏi hiệu quả, như cách sử dụng khung
SMART trong khi tạo câu hỏi và cách đảm bảo rằng câu hỏi của bạn công bằng và khách quan.
Trong tương lai, bạn sẽ khám phá các loại dữ liệu khác nhau và tìm hiểu cách sử dụng
từng loại dữ liệu để hướng dẫn các quyết định kinh doanh. Bạn cũng sẽ tìm hiểu thêm về trực
quan hóa và cách số liệu hoặc thước đo có thể giúp tạo nên thành công. Nó sẽ trở nên tuyệt
vời!
Evan: Dữ liệu mở ra cánh cửa
Xin chào, Tôi là Evan. Tôi là người quản lý danh mục đầu tư học tập tại Google và tôi
có một trong những công việc thú vị nhất trên thế giới, tôi được xem xét các công nghệ khác
nhau ảnh hưởng tới dữ liệu lớn sau đó áp dụng vào các khóa đào tạo như khóa học này để học
viên tham gia.
Tôi ước rằng mình có khóa học như vậy khi mới tốt nghiệp đại học hay trung học. Đây
là khóa học phân tích dữ liệu đi theo hướng này, nếu bạn đã học theo một vài video, khóa học
này sẽ cho bạn hành trang để làm bất cứ điều gì mình muốn. Khóa học này sẽ mở mọi cánh
cửa mà bạn muốn đối với bất kỳ vai trò nào trong chương trình dữ liệu. Vậy một số vai trò đó
là gì?
Có rất nhiều con đường sự nghiệp khác nhau dành cho những người quan tâm đến dữ
liệu. Nhìn chung, nếu bạn giống tôi, bạn có thể trở thành nhà phân tích dữ liệu làm việc với
bảng tính, có thể làm việc với cơ sở dữ liệu nhỏ, vừa và lớn, nhưng tất cả những gì bạn phải
nhớ là 3 vai trò cốt lõi khác nhau. Có nhiều lĩnh vực khác nhau trong từng sự nghiệp này,
nhưng ba vai trò đó là nhà phân tích dữ liệu, nhìn chung đó là những người làm việc với SQL,
bảng tính, cơ sở dữ liệu, có thể hoạt động như một nhóm trí tuệ doanh nghiệp để xây dựng các
dashboard.
Những dữ liệu này tới từ đâu? Nhìn chung, nhà phân tích dữ liệu sẽ làm việc với kỹ sư
dữ liệu để biến dữ liệu thô thành đường ống có thể hành động. Vậy là ta có nhà phân tích dữ
liệu, kỹ sư dữ liệu, và cuối cùng là nhà khoa học dữ liệu, ví dụ như các kỹ sư dữ liệu đã xây
dựng các đường ống dữ liệu rất tuyệt vời này, đôi khi nhà phân tích cũng làm việc đó, các nhà
phân tích mang lại các dữ liệu rõ ràng và có thể hành động, sau đó các nhà khoa học sẽ biến
dữ liệu đó thành các mô hình học máy hoặc suy luận thống kế rất tuyệt vời, vượt quá những
gì bạn có thể tưởng tượng ra.
Chúng tôi sẽ chia sẻ rất nhiều nguồn tài nguyên trong các liên kết để bạn có thể nuôi
dưỡng sự hào hứng với từng vai trò đól Phần hay nhất là, nếu bạn giống tôi khi đi học, tôi
không hề biết mình muốn gì và ban đầu bạn chưa cần biết mình muốn đi theo con đường nào.
Hãy thử tất cả mọi thứ. Để xem bạn thực sự thích điều gì. Đây là việc cá nhân.
Trở thành nhà phân tích dữ liệu rất thú vị. Tại sao? Vì đây không chỉ là bàn đạp cho
một mục tiêu khác. Đây là con đường sự nghiệp mà nhiều người tài giỏi đã từng đi và tạo ra
các công cụ và công nghệ dễ dàng hơn cho bạn và tôi ngày nay. Ví dụ, khi tôi bắt đầu học
SQL hay ngôn ngữ truy vấn có cấu trúc mà bạn sẽ được học trong khóa học này, tôi làm việc
trên máy tính cá nhân và mỗi truy vấn sẽ mất khoảng 20 đến 30 phút để chạy và rất khó để
theo dõi các câu lệnh SQL khác nhau mà tôi đang viết hoặc chia sẻ với người khác. Đó là từ
10 đến 15 năm trước.
Bây giờ, với rất nhiều công ty và công cụ khác nhau đang tạo ra các công cụ và công
nghệ phân tích dữ liệu để bạn làm việc dễ dàng hơn, bạn sẽ có thể dễ dàng tạo ra những kiến
thức chuyên sâu mà ít gặp phải cản trở hơn như khi tôi mới bắt đầu. Tôi rất nóng lòng được
nghe về suy nghĩ và trải nghiệm của bạn.
Tuần 2: Quyết định dựa trên dữ liệu
Trong phân tích, dữ liệu thúc đẩy quá trình ra quyết định. Trong phần này của khóa
học, bạn sẽ khám phá các loại dữ liệu và tác động của nó đối với các lựa chọn và chiến lược
thực tế. Bạn cũng sẽ tìm hiểu cách chia sẻ dữ liệu của mình thông qua báo cáo và trang tổng
quan.
Mục tiêu học tập:
 Thảo luận về việc sử dụng dữ liệu trong quá trình ra quyết định
 So sánh và đối chiếu việc ra quyết định dựa trên dữ liệu với việc ra quyết định hướng
dữ liệu
 Giải thích sự khác biệt giữa dữ liệu định lượng và định tính bao gồm tham chiếu đến
việc sử dụng chúng và các ví dụ cụ thể
 Thảo luận về tầm quan trọng và lợi ích của bảng điều khiển và báo cáo cho nhà phân
tích dữ liệu có liên quan đến Tableau và bảng tính
 Phân biệt giữa dữ liệu và số liệu, đưa ra các ví dụ cụ thể
 Thể hiện sự hiểu biết về những gì liên quan đến việc sử dụng phương pháp toán học để
phân tích một vấn đề
Chương 1: Hiểu được sức mạnh của dữ liệu
Dữ liệu và quyết định
Chào mừng các bạn trở lại. Bây giờ đã đến lúc tiến xa hơn nữa và phát triển dựa trên
những gì bạn đã học về giải quyết vấn đề trong phân tích dữ liệu và xây dựng các câu hỏi hiệu
quả. Tiếp theo, ta sẽ đề cập đến nhiều chủ đề khác nhau.
Ta sẽ tìm hiểu về cách dữ liệu có thể tác động đến các quyết định của mình, dù lớn hay
nhỏ; điểm khác biệt giữa phân tích định lượng và định tính và khi nào thì sử dụng cách nào;
ưu và nhược điểm của những công cụ trực quan hóa dữ liệu khác nhau; các chỉ số là gì, các
nhà phân tích sử dụng chúng như thế nào; làm thế nào để áp dụng tư duy toán học nhằm liên
kết các nội dung.
Thành thật mà nói, tôi vẫn đang tìm hiểu thêm về những điều này mỗi ngày, và bạn
cũng vậy, chẳng hạn như cách dữ liệu định lượng và định tính có thể kết hợp với nhau. Với
vai trò của tôi trong lĩnh vực tài chính, phần lớn công việc của tôi là định lượng, nhưng gần
đây tôi đang làm việc với dự án tập trung vào sự thấu cảm và tin tưởng, và điều đó thực sự
mới mẻ đối với tôi. Ta sẽ quan tâm hơn đến những nội dung định tính khi phân tích, điều đó
giúp tôi hiểu được cách dữ liệu định tính và định lượng có thể kết hợp với nhau để giúp ta đưa
ra những quyết định hiệu quả. Bây giờ bạn đang bắt đầu xây dựng bộ công cụ phân tích dữ
liệu của riêng mình.
Có thể bạn chưa ngờ đến, bạn đã tự phân tích rất nhiều loại dữ liệu khác nhau và học
hỏi được nhiều điều khi làm việc đó. Trước hết, hãy bắt đầu từ sức mạnh của việc quan sát.
Cách dữ liệu trao quyền quyết định
Chúng ta đã nói rất nhiều về dữ liệu là gì và nó đóng vai trò như thế nào trong quá trình
ra quyết định. Chúng ta đã biết những gì rồi? Chà, chúng tôi biết rằng dữ liệu là một tập hợp
các sự kiện. Chúng ta cũng biết rằng phân tích dữ liệu tiết lộ các mẫu và thông tin chi tiết quan
trọng về dữ liệu đó. Cuối cùng, chúng ta biết rằng phân tích dữ liệu có thể giúp chúng ta đưa
ra quyết định sáng suốt hơn. Bây giờ, chúng ta sẽ xem xét cách dữ liệu đóng vai trò trong quá
trình ra quyết định và xem nhanh sự khác biệt giữa các quyết định dựa trên dữ liệu và dựa trên
dữ liệu.
Hãy xem xét một ví dụ thực tế. Hãy nghĩ về lần cuối cùng bạn tìm kiếm "nhà hàng gần
tôi" và sắp xếp kết quả theo xếp hạng để giúp bạn quyết định nhà hàng nào có vẻ tốt nhất. Đó
là một quyết định bạn đưa ra bằng cách sử dụng dữ liệu. Các doanh nghiệp và các tổ chức
khác luôn sử dụng dữ liệu để đưa ra các quyết định tốt hơn. Có hai cách họ có thể làm điều
này, với việc ra quyết định dựa trên dữ liệu hoặc lấy cảm hứng từ dữ liệu.
Chúng ta sẽ nói nhiều hơn về việc Data-inspired decision-making ở phần sau, nhưng bây giờ
đây là một định nghĩa ngắn gọn. Data-inspired decision-making is Explores different data
sources to find out what they have in common. ( Ra quyết định hướng dữ liệu là Quá trình
khám phá nhiều nguồn dữ liệu khác nhau để tìm ra điểm tương đồng).
Tại Google, chúng tôi sử dụng dữ liệu hàng ngày theo những cách rất đáng ngạc nhiên.
Ví dụ: chúng tôi sử dụng dữ liệu để giúp cắt giảm lượng năng lượng dành cho việc làm mát
trung tâm dữ liệu của bạn. Sau nhiều năm phân tích dữ liệu được thu thập bằng trí tuệ nhân
tạo, chúng tôi đã có thể đưa ra các quyết định giúp giảm hơn 40% năng lượng sử dụng để làm
mát các trung tâm dữ liệu của mình.
Nhóm Hoạt động nhân sự của Google cũng sử dụng dữ liệu để cải thiện cách chúng tôi
thuê nhân viên Google mới và cách chúng tôi giúp họ bắt đầu một cách thuận lợi. Chúng tôi
muốn đảm bảo rằng chúng tôi không bỏ qua bất kỳ ứng viên tài năng nào và chúng tôi đã giúp
họ chuyển sang vai trò mới một cách suôn sẻ nhất có thể. Sau khi phân tích dữ liệu về các ứng
dụng, các cuộc phỏng vấn và quy trình định hướng tuyển dụng mới, chúng tôi bắt đầu sử dụng
một thuật toán. Algorithm is A process or set of rules to be followed for a specific task (Thuật
toán là Quy trình hoặc tập hợp các quy tắc phải tuân theo cho một nhiệm vụ cụ thể).
Với thuật toán này, chúng tôi đã xem xét những ứng viên không vượt qua quy trình
sàng lọc ban đầu để tìm ra những ứng viên phù hợp. Dữ liệu cũng giúp chúng tôi xác định số
lượng cuộc phỏng vấn lý tưởng dẫn đến các quyết định tuyển dụng tốt nhất có thể. Chúng tôi
đã tạo các chương trình giới thiệu mới để giúp nhân viên mới bắt đầu công việc mới của họ.
Dữ liệu ở khắp mọi nơi.
Ngày nay, chúng ta tạo ra nhiều dữ liệu đến mức các nhà khoa học ước tính 90 phần
trăm dữ liệu của thế giới đã được tạo ra chỉ trong vài năm qua. Hãy nghĩ về tiềm năng ở đây.
Chúng ta càng có nhiều dữ liệu, chúng ta càng có thể giải quyết các vấn đề lớn hơn và các giải
pháp của chúng ta càng hiệu quả hơn. Nhưng thu thập dữ liệu một cách có trách nhiệm chỉ là
một phần của quá trình. Chúng tôi cũng phải biến dữ liệu thành kiến thức giúp chúng tôi đưa
ra các giải pháp tốt hơn.
Tôi sẽ để người bạn của Google, Ed, nói thêm về điều đó. Ed: “Chỉ có hàng tấn dữ liệu
là không đủ. Chúng ta phải làm điều gì đó có ý nghĩa với nó. Bản thân dữ liệu cung cấp ít giá
trị.
Trích lời Jack Dorsey, người sáng lập Twitter và Square, "Mọi hành động đơn lẻ mà
chúng ta làm trên thế giới này đều kích hoạt một số lượng dữ liệu và hầu hết dữ liệu đó là vô
nghĩa cho đến khi ai đó thêm một số diễn giải về nó hoặc ai đó thêm một câu chuyện xung
quanh nó." Dữ liệu rõ ràng, các dữ kiện được thu thập cùng nhau, các giá trị mô tả điều gì đó.
Các điểm dữ liệu riêng lẻ trở nên hữu ích hơn khi chúng được thu thập và cấu trúc, nhưng bản
thân chúng vẫn hơi vô nghĩa. Chúng ta cần diễn giải dữ liệu để biến nó thành thông tin.
Hãy nhìn vào thời gian của Michael Phelps trong cuộc đua tranh huy chương 200 mét
cá nhân, một phút 54 giây. Không cho chúng ta biết nhiều. Tuy nhiên, khi chúng ta so sánh nó
với thời gian của đối thủ cạnh tranh của anh ấy trong cuộc đua, chúng ta có thể thấy rằng
Michael đã về nhất và giành được huy chương vàng. Phân tích của chúng ta lấy dữ liệu, trong
trường hợp này là danh sách các cuộc đua và thời gian của Michael và biến nó thành thông tin
bằng cách so sánh nó với các dữ liệu khác.
Bối cảnh là quan trọng. Chúng ta cần biết rằng cuộc đua này là một trận chung kết
Olympic chứ không phải một cuộc đua ngẫu nhiên nào khác để xác định rằng đây là cuộc đua
giành huy chương vàng. Nhưng đây vẫn chưa phải là kiến thức. Khi chúng ta sử dụng thông
tin, hiểu nó và áp dụng nó, đó là lúc dữ liệu hữu ích nhất. Nói cách khác, Michael Phelps là
một vận động viên bơi lội nhanh.”
Thật thú vị khi chúng ta có thể biến dữ liệu thành kiến thức giúp chúng ta theo mọi
cách, cho dù đó là tìm nhà hàng hoàn hảo hay tạo ra những thay đổi thân thiện với môi trường.
Nhưng hãy nhớ rằng, có những hạn chế đối với phân tích dữ liệu. Đôi khi, chúng tôi không có
quyền truy cập vào tất cả dữ liệu mình cần hoặc dữ liệu được đo lường khác nhau giữa các
chương trình, điều này có thể gây khó khăn cho việc tìm các ví dụ cụ thể. Chúng tôi sẽ đề cập
chi tiết hơn về những điều này sau, nhưng điều quan trọng là bạn phải bắt đầu nghĩ về chúng
ngay bây giờ.
Bây giờ bạn đã biết dữ liệu thúc đẩy quá trình ra quyết định như thế nào, bạn đã biết
vai trò của nhà phân tích dữ liệu quan trọng như thế nào đối với doanh nghiệp. Dữ liệu là một
công cụ mạnh mẽ để ra quyết định và bạn có thể giúp cung cấp cho doanh nghiệp thông tin họ
cần để giải quyết vấn đề và đưa ra quyết định mới, nhưng trước đó, bạn sẽ cần tìm hiểu thêm
một chút về các loại dữ liệu mà bạn sẽ sử dụng. làm việc với và làm thế nào để đối phó với
nó.
Dữ liệu định tính và định lượng
Xin chào các bạn. Với quy trình đưa ra quyết định, dữ liệu là yếu tố chủ chốt. Nhưng
ta cũng biết được rằng có rất nhiều loại câu hỏi khác nhau mà dữ liệu có thể giúp ta trả lời, và
những câu hỏi này sẽ mang lại các loại dữ liệu khác nhau.
Có hai loại dữ liệu mà chúng ta sẽ nhắc đến trong video này, đó là dữ liệu định lượng
và định tính. Quantitative data is Specific objective measures of numerical facts. (Dữ liệu
định lượng là Một thước đo cụ thể và khách quan, có thể đo lường bằng số). Thường là câu
trả lời cho câu hỏi cái gì, bao nhiêu và tần suất là gì của một vấn đề.
 The what?
 How many?
 How often?
Nói cách khác, đó là những thứ bạn có thể đo lường, ví dụ như có bao nhiên người đi làm bằng
tàu mỗi tuần. Là nhà phân tích tài chính, tôi thường xuyên làm việc với dữ liệu định lượng, tôi
thích tính chắc chắn và chính xác của các con số.
Qualitative data is Subjective or explanatory measures or qualities and characteristics
(Dữ liệu định tính là Một thước đo chủ quan dùng để giải thích về chất lượng hoặc đặc tính,
không thể đo lường bằng số). Dữ liệu định tính phù hợp để giúp ta trả lời câu hỏi tại sao. Ví
dụ, tại sao mọi người thích người nổi tiếng này hay món ăn vặt này hơn.
Với dữ liệu định lượng, ta có thể xem xét các con số được minh họa trực quan dưới
dạng biểu đồ hoặc đồ thị. Dữ liệu định lượng có thể giúp ta hiểu ở cấp độ cao hơn về lý do có
những con số như vậy. Điều này quan trọng vì nó giúp ta bổ sung bối cảnh cho một vấn đề.
Là một nhà phân tích dữ liệu, bạn sẽ phải phân tích cả định lượng và định tính, tùy theo nhiệm
vụ công việc.
Các đánh giá là một ví dụ rất hay. Hãy nhớ lại những lần bạn xem đánh giá để quyết
định có nên mua gì đó hay đi đâu đó không. Các đánh giá này có thể cho bạn biết có bao nhiêu
người không thích điều đó và tại sao. Các doanh nghiệp cũng đọc những bài đánh giá này,
nhưng họ sử dụng dữ liệu theo những cách khác nhau.
Hãy xem xét ví dụ về một doanh nghiệp sử dụng dữ liệu từ đánh giá của khách hàng
để xem dữ liệu định lượng và định tính sẽ được sử dụng như thế nào. Giả sử một cửa hàng
kem địa phương bắt đầu sử dụng các bài đánh giá trực tuyến để tương tác với khác hàng và
xây dựng thương hiệu của mình. Những đánh giá này giúp cửa hàng kem biết được trải nghiệm
của khách hàng, từ đó có thể đưa ra quyết định sáng suốt.
Người chủ nhận thấy rằng mức đánh giá của họ đang giảm. Anh ấy thấy rằng, gần đây
cửa hàng của mình nhận nhiều đánh giá tiêu cực hơn. Anh ấy muốn biết lý do, nên bắt đầu đặt
ra câu hỏi. Đầu tiên là những câu hỏi có thể đo lường được.
 Có bao nhiêu đánh giá tiêu cực?
 Mức đánh giá trung bình là bao nhiêu?
 Có bao nhiêu đánh giá trong số này sử dụng những từ khóa giống nhau?
Những câu hỏi này tạo ra dữ liệu định lượng, các kết quả số để xác nhận rằng khách hàng
không hài lòng.
Dữ liệu này có thể khiến họ đặt ra những câu hỏi khác.
 Tại sao khách hàng không hài lòng?
 Làm thế nào để cải thiện trải nghiệm của họ?
Đây là những câu hỏi tạo ra dữ liệu định tính.
Sau khi xem xét các đánh giá, chủ cửa hàng kem nhận thấy điểm chung, 17 đánh giá
tiêu cực đều sử dụng từ "bực bội". Đó là dữ liệu định lượng. Bây giờ ta có thể bắt đầu thu thập
dữ liệu định tính bằng cách đặt câu hỏi tại sao từ này lặp lại? Anh ấy phát hiện rằng khách
hàng bực bội vì cửa hàng không còn những vị phổ biến khi vẫn còn đang bán hàng. Biết được
điều này, cửa hàng kem có thể thay đổi đơn hàng hàng tuần để đảm bảo cửa hàng có đủ những
vị kem mà khách hàng muốn.
Với cả dữ liệu định lượng và định tính, chủ cửa hàng kem đã có thể phát hiện ra khách
hàng của mình không hài lòng và hiểu được lý do tại sao. Khi có cả hai loại dữ liệu, anh ấy có
thể thực hiện những thay đổi đúng đắn và cải thiện công việc kinh doanh của mình.
Bây giờ bạn đã biết sự khác biệt giữa dữ liệu định lượng và dữ liệu định tính, bạn biết
làm thế nào để có được các loại dữ liệu khác nhau bằng cách đặt ra những câu hỏi khác nhau.
Công việc của thám tử dữ liệu là biết được cần hỏi câu nào để có được giải pháp đúng đắn.
Sau đó bạn có thể suy nghĩ về những cách thức thú vị và sáng tạo để giúp các bên liên quan
hiểu rõ hơn về dữ liệu. Ví dụ như dashboard tương tác, mà sau đây ta sẽ bắt đầu tìm hiểu.
Chương 2: Theo dõi bằng chứng
Tiết lộ lớn: Chia sẻ những phát hiện của bạn
Dữ liệu rất tuyệt, nhưng nếu chúng ta không thể truyền đạt câu chuyện mà dữ liệu đang
kể, thì nó sẽ không hữu ích cho bất kỳ ai. Chúng tôi cần các cách để tổ chức dữ liệu giúp chúng
tôi biến nó thành thông tin. Có tất cả các loại công cụ để giúp bạn trực quan hóa và chia sẻ
phân tích dữ liệu của mình với các bên liên quan. Ở đây, chúng ta sẽ nói về hai công cụ trình
bày dữ liệu:
 Báo cáo (Report)
 Bảng điều khiển (Dashboard)
Báo cáo và bảng điều khiển đều hữu ích cho việc trực quan hóa dữ liệu. Nhưng có những ưu
và nhược điểm cho mỗi người trong số họ.
Report is Static collection of data given to stakeholders periodically (Báo cáo là Một
tập hợp dữ liệu tĩnh được cung cấp định kì cho các bên liên quan).
Dashboard is Monitors live, incoming data (Bảng tổng quan là Một công cụ giám sát
dữ liệu đi đến trực tiếp theo thời gian thực).
Trước tiên hãy nói về các báo cáo. Báo cáo là công cụ tuyệt vời để cung cấp ảnh chụp
nhanh dữ liệu lịch sử cấp cao cho một tổ chức. Ví dụ, doanh số hàng tháng của một công ty
tài chính. Báo cáo đi kèm với rất nhiều lợi ích. Chúng có thể được thiết kế và gửi đi định kỳ,
thường là hàng tuần hoặc hàng tháng, dưới dạng thông tin có tổ chức và dễ tham khảo. Chúng
được thiết kế nhanh chóng và dễ sử dụng miễn là bạn liên tục bảo trì chúng. Cuối cùng, vì các
báo cáo sử dụng dữ liệu tĩnh hoặc dữ liệu không thay đổi sau khi được ghi lại nên chúng phản
ánh dữ liệu đã được làm sạch và sắp xếp. Có một số nhược điểm cần lưu ý. Các báo cáo cần
được bảo trì thường xuyên và không hấp dẫn về mặt hình ảnh. Vì chúng không tự động hoặc
động nên các báo cáo không hiển thị dữ liệu trực tiếp, đang phát triển.
Pros:
 High-level historical data
 Easy to design
 Pre-cleaned and sorted data
Cons:
 Continual maintenance
 Less visually appealing
 Static
Để phản ánh trực tiếp dữ liệu đến, bạn sẽ muốn thiết kế một trang tổng quan. Trang
tổng quan rất tuyệt vời vì nhiều lý do, chúng cung cấp cho nhóm của bạn nhiều quyền truy
cập hơn vào thông tin được ghi lại, bạn có thể tương tác thông qua dữ liệu bằng cách sử dụng
các bộ lọc và vì chúng linh hoạt nên chúng có giá trị lâu dài. Nếu các bên liên quan cần liên
tục truy cập thông tin, bảng điều khiển có thể hiệu quả hơn so với việc phải kéo đi xem lại các
báo cáo, đây là cách tiết kiệm thời gian lớn cho bạn. Cuối cùng nhưng không kém phần quan
trọng, chúng thật tuyệt khi nhìn vào. Nhưng bảng điều khiển cũng có một số nhược điểm. Thứ
nhất, chúng mất nhiều thời gian để thiết kế và thực sự có thể kém hiệu quả hơn báo cáo nếu
chúng không được sử dụng thường xuyên. Nếu bảng cơ sở bị hỏng bất cứ lúc nào, chúng cần
được bảo trì rất nhiều để sao lưu và chạy lại. Bảng điều khiển đôi khi cũng có thể khiến mọi
người choáng ngợp với thông tin. Nếu bạn không quen xem qua dữ liệu trên trang tổng quan,
bạn có thể bị lạc trong đó.
Pros Cons
 Dynamic, automatic, and interactive
 More stakeholder access
 Low maintenance
 Labor-intensive design
 Can be confusing
 Potentially uncleaned data
Là một nhà phân tích dữ liệu, bạn cần quyết định cách tốt nhất để truyền đạt thông tin
tới các bên liên quan của mình. Ví dụ: điều gì sẽ xảy ra nếu các bên liên quan của bạn quan
tâm đến hoạt động tương tác trên mạng xã hội của công ty? Báo cáo hàng tháng cho họ biết
số lượng người theo dõi mới cho trang của họ có hữu ích không? Hoặc một bảng điều khiển
theo dõi sự tham gia của phương tiện truyền thông xã hội trực tiếp trên nhiều nền tảng?
Sau này, bạn sẽ tạo các báo cáo và bảng điều khiển của riêng mình để thực hành sử
dụng các công cụ này. Nhưng bây giờ, tôi muốn cho bạn thấy báo cáo và bảng điều khiển có
thể trông như thế nào.
Chúng ta sẽ bắt đầu bằng cách sử dụng một công cụ mà chúng ta đã quen thuộc, bảng
tính. Hãy xem một cách dữ liệu bảng tính có thể được hiển thị trong một báo cáo. Bảng tính
này có tập dữ liệu với chi tiết đơn đặt hàng từ một công ty bán buôn. Đó là rất nhiều thông tin.
Từ các tiêu đề, chúng ta có thể thấy những thứ khác nhau được ghi lại ở đây, như ngày đặt
hàng, nhân viên bán hàng, đơn giá và doanh thu cho mỗi giao dịch được ghi lại. Đó là tất cả
thông tin hữu ích, nhưng hơi khó hiểu.
Chúng tôi muốn một báo cáo dễ đọc hơn. Giả sử các bên liên quan của bạn muốn xem
nhanh doanh thu của nhân viên bán hàng. Sử dụng dữ liệu, bạn có thể biến chúng thành bảng
tổng hợp với biểu đồ hiển thị thông tin đó.
Pivot table is A data summarization tool that is used in data processing. Pivot tables
are used to summarize, sort, reorganize, group, count, total or average data stored in a database.
( Bảng tổng hợp là công cụ tóm tắt dữ liệu được sử dụng để sắp xếp, tổ chức lại, nhóm, đếm,
tính tổng hoặc lấy trung bình dữ liệu).
Bài giảng khóa học Google Data Analytics.docx
Nó cho phép người dùng chuyển đổi cột thành hàng và hàng thành cột. Chúng ta sẽ
thực sự tìm hiểu thêm về bảng tổng hợp sau. Nhưng tôi sẽ chỉ cho bạn một cái thật nhanh.
Chúng tôi sẽ chọn menu Dữ liệu và nhấp vào nút Bảng tổng hợp. Nó có thể lấy dữ liệu từ bảng
này. Chúng ta chỉ cần nhấn tạo và nó sẽ hiện ra một trang tính mới. Ở đây, nó cung cấp cho
chúng tôi các trường bảng tổng hợp mà chúng tôi có thể chọn. Bấm chọn, nhân viên bán hàng
và doanh thu. Cứ như vậy, nó lập biểu đồ cho chúng tôi. Tại thời điểm này, bạn có thể tìm
hiểu xem biểu đồ trông như thế nào, nhưng tất cả thông tin đều ở đó.
Hãy chuyển sang trang tổng quan. Nếu bạn cần một cách năng động hơn để chia sẻ
thông tin với các bên liên quan, thì bảng điều khiển chính là người bạn đồng hành của bạn.
Bạn có thể tạo một cái gì đó giống như bảng điều khiển Tableau này. Với các biểu đồ
tương tác hiển thị nhiều chế độ xem dữ liệu. Với điều này, người dùng có thể thay đổi vị trí,
phạm vi ngày hoặc bất kỳ khía cạnh nào khác của dữ liệu họ đang xem bằng cách nhấp qua
các yếu tố khác nhau trên trang tổng quan. Khá tuyệt đúng không?
Ở phần sau của chương trình này, chúng ta sẽ xem xét cách bạn có thể tạo trực quan
hóa dữ liệu của riêng mình. Chúng ta có rất nhiều điều phải học trước khi đạt được điều đó.
Nhưng tôi hy vọng đây là cái nhìn thú vị đầu tiên về các công cụ trực quan khác nhau mà bạn
sẽ sử dụng với tư cách là nhà phân tích dữ liệu.
Dữ liệu so với số liệu
Trong video trước, ta đã học cách trực quan hóa dữ liệu bằng báo cáo và dashboard để
trình bày phát hiện của bạn theo những cách thú vị. Trong một ví dụ của chúng ta, công ty
muốn xem doanh thu bán hàng của mỗi nhân viên bán hàng. Việc đo lường dữ liệu đó được
thực hiện nhờ có các chỉ số. Bây giờ, tôi muốn nói thêm về sự khác biệt giữa dữ liệu và chỉ
số. Và có thể sử dụng chỉ số như thế nào để biến dữ liệu thành thông tin hữu ích.
Metric is Single, quantifiable typy of data that can be used for measurement. (Chỉ số
là một loại dữ liệu duy nhất, có thể định lượng, được sử dụng để đo lường). Hãy hình dung
thế này. Dữ liệu bắt đầu từ tập hợp các thông tin thô, cho đến khi ta sắp xếp chúng thành các
chỉ số riêng lẻ để biểu diễn một loại dữ liệu.
Có thể kết hợp các chỉ số thành công thức mà bạn có thể gắn dữ liệu số vào. Trong ví
dụ trước đó về doanh thu bán hàng, tất cả các dữ liệu không có nhiều ý nghĩa trừ khi ta sử
dụng một chỉ số cụ thể để sắp xếp. Bây giờ hãy coi doanh số tính theo từng nhân viên bán
hàng là chỉ số. Ta có thể biết được nhân viên nào đem lại doanh thu cao nhất. Các chỉ số
thường liên quan đến các phép toán đơn giản. Ví dụ, doanh thu là số lần bán hàng nhân với
giá bán hàng. Việc chọn được chỉ số phù hợp là rất quan trọng.
Dữ liệu bao gồm rất nhiều thông tin thô về vấn đề mà ta đang khám phá. Nhưng ta cần
chỉ số phù hợp để có được câu trả lời ta đang tìm kiếm. Các ngành khác nhau sử dụng các loại
chỉ số khác nhau để đo lường trong bộ dữ liệu. Hãy cùng tìm hiểu một số cách sử dụng chỉ số
của các doanh nghiệp trong các ngành khác nhau. Từ đó bạn có thể tìm ra cách áp dụng chỉ số
với dữ liệu bạn đã thu thập.
Bạn đã từng nghe tới ROI chưa?
Các công ty sử dụng chỉ số này rất nhiều. ROI=Return on Investment is is essentially
a formula designed using metrics that let a business know how well an investment is doing.
(Tỷ suất hoàn vốn là một công thức sử dụng chỉ số để doanh nghiệp biết được việc đầu tư
được thực hiện tốt tới đâu).
ROI bao gồm hai chỉ số, lợi nhuận ròng trong một khoảng thời gian và chi phí đầu
tư. Bằng cách so sánh hai chỉ số này, lợi nhuận và chi phí đầu tư, công ty có thể phân tích dữ
liệu họ có để biết được hiệu quả đầu tư đến đâu. Việc này có thể giúp họ quyết định cách thức
đầu tư trong tương lai và nên ưu tiên đầu tư vào đâu.
Chỉ số cũng được sử dụng trong tiếp thị. Ví dụ, có thể sử dụng chỉ số để tính toán tỷ lệ
giữ chân khách hàng, hay khả năng giữ khách hàng của công ty trong một thời gian. Tỷ lệ giữ
chân khách hàng có thể giúp công ty so sánh số lượng khách hàng lúc đầu và lúc kết thúc một
khoảng thời gian để biết được tỷ lệ giữ chân. Như vậy, công ty sẽ biết được các chiến lược
tiếp thị thành công đến đâu, và họ có cần nghiên cứu thêm các phương án mới để khách hàng
quay lại hay không.
Các ngành khác nhau sử dụng các loại chỉ số khác nhau. Nhưng chúng có một điểm
chung, tất cả đều nhắm đến việc đạt được mục tiêu cụ thể bằng cách đo lường dữ liệu. Metric
goal is a measureable goal set by a company and evaluated using metrics ( Mục tiêu chỉ số là
một mục tiêu có thể đo lường do công ty thiết lập và được đánh giá qua các chỉ số). Giống
như việc có rất nhiều chỉ số, cũng có rất nhiều mục tiêu khác nhau.
Có thể tổ chức muốn đạt được doanh số bán hàng hàng tháng nhất định, hoặc số phần
trăm khách hàng quay trở lại cụ thể. Bằng cách sử dụng chỉ số để tập trung vào các khía cạnh
riêng lẻ của dữ liệu, bạn có thể bắt đầu nhận thấy câu chuyện mà dữ liệu đang kể. Mục tiêu
chỉ số và công thức là những cách hay để đo lường và hiểu dữ liệu. Nhưng đó không phải
những cách duy nhất. Ta sẽ nói thêm về cách diễn giải và hiểu dữ liệu trong khóa học này.
Chương 4: Kết nối các điểm dữ liệu
Tư duy toán học
Ta đã tìm hiểu rất nhiều về cách tư duy như một nhà phân tích dữ liệu. Ta đã khám phá
một vài cách tư duy khác nhau. Bây giờ, tôi muốn bạn tiến thêm một bước bằng cách sử dụng
cách tiếp cận toán học để giải quyết vấn đề.
Mathematical thinking là một kỹ năng quan trọng giúp bạn giải quyết các vấn đề và
nhìn ra các cách giải quyết mới. Bây giờ, hãy dành thời gian nói về tư duy toán học là gì, và
cách ta có thể bắt đầu áp dụng.
Việc áp dụng cách tiếp cận toán học không có nghĩa là bạn đột ngột trở thành thần đồng
toán học. Nó có nghĩa rằng bạn xem xét một vấn đề và chia nhỏ thành từng bước có logic để
thấy được quan hệ giữa các mẫu trong dữ liệu, và áp dụng điều đó để phân tích vấn đề của
mình.
Cách tư duy này có thể giúp bạn tìm ra công cụ tốt nhất để phân tích vì nó cho phép ta
nhìn nhận các khía cạnh khác nhau của vấn đề và lựa chọn phương án logic nhất. Có rất nhiều
yếu tố cần xem xét khi lựa chọn công cụ hữu ích nhất để phân tích. Một cách để lựa chọn công
cụ là theo kích thước của bộ dữ liệu.
Khi làm việc với dữ liệu, bạn sẽ thấy rằng có dữ liệu lớn và nhỏ. Dữ liệu nhỏ có thể rất
nhỏ. Những loại dữ liệu như vậy thường được tạo thành từ bộ dữ liệu liên quan đến các chỉ số
cụ thể trong một khoảng thời gian ngắn, được xác định rõ ràng. Ví dụ như lượng nước bạn
uống trong ngày. Dữ liệu nhỏ có thể hữu ích khi đưa ra quyết định hàng ngày, ví dụ như quyết
định uống nhiều nước hơn. Small data:
 Specific
 Short time-period
 Day-to-day decisions
Nhưng nó không có ảnh hưởng lớn đến các khung lớn hơn như hoạt động kinh doanh. Bạn có
thể sử dụng trang tính để sắp xếp và phân tích các bộ dữ liệu nhỏ hơn khi mới bắt đầu.
Mặt khác, dữ liệu lớn có các bộ dữ liệu lớn hơn, ít cụ thể hơn, bao hàm một khoảng
thời gian dài hơn. Ta thường phải chia nhỏ ra để phân tích. Dữ liệu lớn phù hợp khi xem xét
các câu hỏi và vấn đề quy mô lớn, và chúng giúp các công ty đưa ra quyết định lớn. Big data:
 Large and less-specific
 Long time-period
 Big decisions
Khi bạn làm việc với dữ liệu ở quy mô lớn, có thể chuyển sang SQL.
Hãy cùng xem xét ví dụ về cách nhà phân tích dữ liệu làm việc ở bệnh viện áp dụng
tư duy toán học để giải quyết vấn đề với công cụ phù hợp. Bệnh viện có thể phát hiện ra rằng
họ đang gặp vấn đề với việc thừa hoặc thiếu giường bệnh. Dựa vào đó, bệnh viện có thể đặt
mục tiêu là tối ưu hóa giường bệnh. Họ muốn đảm bảo rằng có sẵn giường bệnh cho những
bệnh nhân cần chúng, nhưng không lãng phí nguồn lực bệnh viện như không gian hay ngân
quỹ vào việc duy trì các giường trống.
Áp dụng tư duy toán học, bạn có thể chia nhỏ vấn đề này thành từng bước quy trình để
giúp bạn tìm ra các mẫu trong dữ liệu. Có rất nhiều biến trong bối cảnh này. Nhưng bây giờ,
hãy giữ mọi việc đơn giản và chỉ tập trung vào những phần quan trọng. Có những chỉ số liên
quan đến vấn đề này sẽ cho ta thấy các mẫu trong dữ liệu: ví dụ như số giường trống và số
giường được sử dụng trong một khoảng thời gian. Đã có sẵn một công thức cho nội dung này.
Ta có tỷ lệ sử dụng giường, tỷ lệ này được tính theo tổng số ngày nhập viện, và tổng số giường
có sẵn trong một đơn vị thời gian. Việc ta cần làm là chọn các biến quan trọng và xem xét
quan hệ của chúng để biết được các mẫu có thể giúp bệnh viện đưa ra quyết định.
Để làm vậy, ta phải chọn được công cụ phù hợp cho công việc này. Các bệnh viện tạo
ra rất nhiều dữ liệu bệnh nhân trong một khoảng thời gian dài. Theo logic, ta cần công cụ có
thể xử lý bộ dữ liệu lớn. SQL là một lựa chọn hợp lý.
Trong trường hợp này, bạn nhận thấy bệnh viện luôn có những giường không được sử
dụng. Biết được điều đó, họ có thể lựa chọn bỏ đi một số giường, để giúp tiết kiệm không gian
và ngân quỹ để mua và lưu trữ các thiết bị bảo vệ. Khi cân nhắc các phần riêng lẻ của vấn đề
này một cách logic, tư duy toán học có thể giúp ta thấy được các góc nhìn mới để dẫn đến giải
pháp.
Tạm thời là vậy. Tốt lắm. Bạn đã tìm hiểu rất nhiều nội dung. Bạn đã học cách sử dụng
dữ liệu khi đưa ra quyết định, tìm hiểu về khác biệt giữa phân tích định tính và định lượng, sử
dụng báo cáo và dashboard để trực quan hóa dữ liệu, chỉ số, và áp dụng cách tiếp cận toán học
để xử lý vấn đề. Tiếp theo, ta sẽ tìm hiểu nội dung cơ bản về trang tính. Bạn sẽ có thể áp dụng
những điều bạn đã học vào thực tế và học thêm một công cụ mới để giúp bạn trong quy trình
phân tích dữ liệu. Hẹn gặp lại.
Tuần 3: Thêm kiến thức cơ bản về bảng tính
Bảng tính là một công cụ phân tích dữ liệu rất quan trọng. Trong phần này của khóa
học, bạn sẽ tìm hiểu về cách các nhà phân tích dữ liệu sử dụng bảng tính trong công việc của
họ hàng ngày. Bạn cũng sẽ khám phá lý do tại sao tư duy có cấu trúc giúp các nhà phân tích
hiểu rõ hơn về vấn đề và đưa ra giải pháp.
Mục tiêu học tập:
 Thảo luận về việc sử dụng bảng tính của nhà phân tích dữ liệu có liên quan đến vai trò
và trách nhiệm
 Chứng minh việc sử dụng bảng tính để hoàn thành các nhiệm vụ cơ bản của nhà phân
tích dữ liệu bao gồm nhập và sắp xếp dữ liệu
 Thể hiện sự hiểu biết về việc sử dụng các công thức trong bảng tính bao gồm định nghĩa
và các ví dụ cụ thể
 So sánh công thức và hàm có quy chiếu để thấy sự giống và khác nhau
 Mô tả các ý tưởng chính liên quan đến tư duy có cấu trúc bao gồm lĩnh vực vấn đề,
phạm vi công việc và bối cảnh
Chương 1: Làm việc với bảng tính
Bảng tính tuyệt vời
Xin chào, rất vui khi được gặp lại bạn. Trong chương trình này, ta sẽ xem xét các trang
tính. Trang tính là công cụ hiệu quả và linh hoạt, vậy nên nó là một phần quan trọng trong gần
như mọi công việc của các nhà phân tích dữ liệu.
Nhiều khả năng là trang tính sẽ là công cụ đầu tiên mà bạn tìm đến khi đang cố gắng
trả lời các câu hỏi hướng dữ liệu. Sau khi đã xác định cần làm gì với dữ liệu, bạn sẽ tìm đến
trang tính để xây dựng các thông tin và sau đó có thể trực quan hóa, và sử dụng chúng để củng
cố các phát hiện của bạn.
Trang tính được coi là những anh hùng thầm lặng trong thế giới dữ liệu. Công cụ này
thường không nhận được sự coi trọng xứng đáng, nhưng là thám tử dữ liệu, bạn cần có công
cụ này khi thu thập bằng chứng thông tin.
Tôi biết rằng các trang tính đã giúp tôi rất nhiều. Tôi đã thêm dữ liệu về đơn mua hàng
vào một trang, thiết lập các công thức trong một thẻ, và sử dụng những công cụ đó trong các
thẻ khác. Cách này cho tôi thêm thời gian để thực hiện các công việc khác. Tôi không thể
tưởng tượng mình sẽ làm gì nếu không có trang tính. Toán học là phần cốt lõi trong công việc
của mọi nhà phân tích dữ liệu, nhưng không phải ai cũng yêu thích toán học. May mắn là trang
tính có thể giúp việc tính toán dễ thở hơn một chút, tức là dễ dàng hơn một chút. Hãy cùng
tìm hiểu xem.
Trang tính có thể thực hiện tính toán đơn giản và phức tạp một cách tự động. Điều này
không chỉ giúp bạn làm việc hiệu quả hơn, mà còn giúp bạn thấy được kết quả và hiểu được
làm thế nào để có kết quả đó. Sau đây là một vài hàm mà bạn sẽ sử dụng khi thực hiện tính
toán.
Nhiều hàm có thể được sử dụng trong công thức toán học. Có thể sử dụng các hàm và
công thức theo cách khác, và ta cũng sẽ xem xét những phần đó. Ta sẽ tiến thêm một bước
nữa qua các bài tập sử dụng dữ liệu thực tế từ cơ sở dữ liệu. Đây là cơ hội để sắp xếp lại trang
tính, phân tích dữ liệu thực sự, và mày mò dữ liệu một chút.
Làm việc với bảng tính
Các nhà phân tích dữ liệu dành rất nhiều thời gian để sắp xếp dữ liệu và thực hiện tính
toán. May mắn là có rất nhiều công cụ khác nhau để giúp ta làm điều đó, bao gồm các trang
tính. Trong video này, ta sẽ tìm hiểu các cách mà nhà phân tích dữ liệu sử dụng trang tính để
giúp họ xử lý các trách nhiệm hàng ngày. Sau đó, bạn sẽ được tự thực hiện một số nội dung
đó, nhưng bây giờ, hãy bắt đầu bằng việc xem xét cách các nhà phân tích dữ liệu sử dụng trang
tính để thực hiện công việc của mình.
Việc này sẽ thay đổi tùy theo công việc bạn cần hoàn thành. Đây là tổng quan về một
số nhiệm vụ quan trọng. Tưởng tượng bạn làm việc cho một công ty xây dựng. Công ty của
bạn cần đến kỹ năng sử dụng trang tính để phân tích dữ liệu về chi phí, nên bạn sẽ tiếp cận
các dữ liệu phù hợp và thêm vào trang tính. Tôi sẽ không nhắc đến mọi chi tiết của dự án này,
nhưng bạn sẽ có cơ hội tận mắt xem xét nhiều tính năng trang tính trong những phần sau.
Bạn sẽ làm gì với dữ liệu khi chúng đã ở trong trang tính? Việc này là khác nhau với
từng công việc, nhưng bạn có thể bắt đầu bằng cách sắp xếp dữ liệu trong công việc mà bạn
được giao. Ví dụ, bạn có thể thêm dữ liệu vào pivot table. Ta đã nói về pivot table trong khóa
học này. Lát nữa ta sẽ nói thêm về chi tiết, nhưng bây giờ, hãy coi đó là những bảng hữu ích
được sắp xếp hợp lý. Tiếp theo, bạn có thể lọc dữ liệu trong pivot table. Việc sắp xếp và lọc
dữ liệu là một phần phổ biến trong hầu hết các công việc. Việc này giúp bạn tập trung vào dữ
liệu cần để phân tích. Trong ví dụ này, có thể bạn chỉ cần chi phí trong một khoảng thời gian,
ví dụ như ba tháng qua. Sau khi lọc dữ liệu, bạn có thể thực hiện tính toán để tìm hiểu thêm
về dữ liệu đó. Có thể bạn cần tìm ra dự án xây dựng nào tiêu tốn nhiều tiền nhất. Đây là lúc
cần đến các hàm và công thức. Lát nữa ta sẽ nói về chúng, nhưng công thức và hàm rất phù
hợp để tính toán nhanh, nhất là khi bạn không có đủ ngón tay và ngón chân để đếm.
Bạn đã biết được một số cách mà nhà phân tích dữ liệu sử dụng trang tính trong công
việc hàng ngày đối với các công việc khác nhau, bao gồm việc sắp xếp dữ liệu và thực hiện
tính toán. Bạn sẽ được làm việc với các trang tính của riêng mình.
Từng bước trong bảng tính
Ta đã nói về việc các trang tính rất phù hợp để sắp xếp dữ liệu và thực hiện tính toán.
Bây giờ, đã đến lúc vào việc và bắt đầu tạo một trang tính thực sự.
Trong video này, tôi sẽ trình bày một số nhiệm vụ cơ bản mà các nhà phân tích dữ liệu
sẽ sử dụng trang tính, bao gồm việc nhập và sắp xếp dữ liệu. Ta sẽ bắt đầu với một quy trình
từng bước để cho bạn thấy một số công cụ sắp xếp dữ liệu trong trang tính. Hãy coi các bước
sau là phần cơ bản. Bạn không cần phải luôn thực hiện theo các bước này khi làm việc với các
bộ dữ liệu, nhưng nếu dữ liệu bạn nhận được có chút rối rắm, những bước này sẽ giúp bạn
chuẩn bị dữ liệu để phân tích.
Hãy bắt đầu từ việc mở trang tính mới. Là một nhà phân tích dữ liệu, có thể bạn sẽ
không bắt đầu với một trang tính trống, nhưng biết cách thực hiện cũng tốt, đề phòng bạn thực
sự phải làm vậy. Bắt đầu từ việc mở Excel, Google Sheets hay bất cứ phần mềm trang tính
nào mà bạn đang sử dụng, sau đó chọn một tệp tin trống mới.
Đầu tiên, khi bạn mở trang tính mới, hãy đặt tiêu đề cho trang tính đó. Đây là một mẹo
rất hay. Tiêu đề phải ngắn gon, rõ ràng, trình bày chính xác nội dung của dữ liệu trong trang
tính. Tin tôi đi, điều này sẽ giúp việc tìm kiếm dễ dàng hơn rất nhiều.
Việc tạo một thư mục trên máy tính dành riêng cho trang tính và các tệp tin liên quan
cũng sẽ giúp bạn dễ tìm hơn. Trang tính này đã được lưu sẵn trong Drive. Ta sẽ mở menu File,
nhấp chuột vào Move. Sau đó ta tạo một thư mục mới, đặt tên là "Dữ liệu dân số", và chuyển
trang tính vào đó. Trang tính của ta đã có một ngôi nhà mới.
Cách này sẽ giúp bạn đỡ mất công nhấp chuột và đau đầu tìm kiếm tệp tin này. Có
nhiều cách để các nhà phân tích dữ liệu có được dữ liệu họ cần làm việc. Tùy thuộc vào công
việc, bạn có thể sử dụng dữ liệu từ một nguồn mở, có thể bạn được giao dữ liệu cho để làm
việc, hoặc bạn được yêu cầu phải tự tìm dữ liệu. Ở phần sau của chương trình, bạn sẽ được
trải nghiệm tất cả.
Có rất nhiều nguồn dữ liệu mở trực tuyến, ở đó dữ liệu có sẵn cho tất cả mọi người.
 World Bank
 World Health Organization
 Google Public Data Explorer
 U.S. Census Bureau
Có rất nhiều nguồn dữ liệu mở trực tuyến, ở đó dữ liệu có sẵn cho tất cả mọi người. Ví dụ, ta
sẽ sử dụng dữ liệu từ worldbank.org, đã có sẵn trong trang tính. Dữ liệu cho thấy dân số của
các nước Mỹ Latinh và Caribê từ 2010 đến 2019. Hãy mở trang tính này.
Đã đến lúc chuẩn bị dữ liệu để phân tích. Ta sẽ bắt đầu bằng việc lựa chọn toàn bộ
trang tính và tăng độ rộng của cột bằng cách kéo đường ranh giới của một cột. Điều này sẽ
giúp ta xem được dữ liệu rõ ràng hơn, sau đó ta có thể điều chỉnh bất cứ cột nào mà ta cần.
Bạn có thể tăng độ rộng cột bằng những cách khác, nhưng tạm thời ta sẽ dùng cách này.
Hàng đầu của trang tính dành cho các thuộc tính dữ liệu hoặc các biến. Đây chính là
phần gắn nhãn cho các loại dữ liệu trong từng cột. Hãy làm cho phần thuộc tính này nổi hơn
so với các hàng còn lại bằng cách lựa chọn và thêm màu. Ta cũng sẽ in đậm các nhãn tên gọi
này. Nếu muốn thêm một thuộc tính dữ liệu giữa hai thuộc tính, bạn có thể thêm cột mới. Hãy
nhấp chuột vào một ô bất kỳ trong cột, sử dụng menu Insert để thêm cột mới. Cột mới sẽ xuất
hiện bên cạnh cột mà bạn vừa nhấp chuột, rất đơn giản. Xóa cột cũng đơn giản như vậy. Để
xóa cột, nhấp chuột phải vào một ô trong cột mà bạn muốn xóa bỏ.
Hãy thêm một phần nữa vào bảng dữ liệu: đường viền. Cách này sẽ giúp bạn thấy rõ
các dữ liệu hơn. Để thêm đường viền, nhấp chuột vào nút chọn tất cả ở góc trên bên trái của
trang tính. Đây giống như một nút ma thuật vì bạn có thể nhấp chuột bất cứ khi nào bạn muốn
thay đổi từng ô trong trang tính. Sau đó nhấp chuột vào nút Border trong menu, và chọn loại
đường viền bạn muốn. Để trang tính được thống nhất, ta sẽ chọn đường viền cho tất cả các ô.
Như vậy, từ trang tính thô, ta đã có trang tính điều chỉnh. Bây giờ trang tính có đủ các dữ liệu
và trông rất đẹp mắt.
Việc sử dụng các công cụ sắp xếp trước khi phân tích có thể giúp bạn tập trung vào dữ
liệu khi bắt đầu phân tích. Bây giờ ta đã tìm hiểu một số cách sử dụng trang tính để sắp xếp
dữ liệu, bạn đã sẵn sàng tự thực hiện. Tiếp theo bạn sẽ tìm hiểu thêm về trang tính, bao gồm
một số lỗi thường gặp và cách xử lý.
Chương 2: Công thức trong bảng tính
Công thức để thành công
Ta đã tìm hiểu về cách bắt đầu một bảng tính mới, nhập dữ liệu, và trình bày sao cho
bảng tính được điều chỉnh và sẵn sàng để phân tích nghiêm túc. Bây giờ ta sẽ học cách thực
hiện tính toán trong trang tính. Bạn cần tính toán mọi thứ từ tính tổng đến tính trung bình, cho
đến tìm giá trị lớn nhất và nhỏ nhất. Bạn sẽ thực hiện tính toán đối với nhiều loại công việc
khác nhau. Trong video này, ta sẽ tập trung tìm hiểu nội dung cơ bản sau đó làm một số phép
toán với các dữ liệu bán hàng để luyện tập. Trước hết hãy nói về các công thức. Formula is
A set of instructions that performs a specific calculation (Công thức là một tập hợp chỉ thị
được sử dụng để thực hiện phép tính bằng cách sử dụng dữ liệu trong bảng tính).
Về cơ bản, các công thức có thể tính toán cho bạn. Ngoài việc tính toán, chúng có thể
làm được nhiều hơn thế. Bạn sẽ được tìm hiểu các cách khác nhau để sử dụng công thức thông
qua quy trình phân tích dữ liệu. Operator is A symbol that names the type of operation or
calculation to be performed. (Toán tử là một ký hiệu đặt tên cho thao tác hoặc phép tính sẽ
được thực hiện). Ví dụ, ký hiệu dấu cộng là một toán tử thường gặp. Các công thức mà nhà
phân tích dữ liệu sử dụng sẽ bao gồm ít nhất một toán tử.
Bây giờ, hãy nói về các biểu thức hay phương trình toán học. Chúng có nhiều dạng
khác nhau, nhưng có thể bạn đã quen với phần này. 3 - 1, 15 + 8 / 2, 846 x 513. Đó là ví dụ về
các biểu thức Bạn có nhớ hồi học tiểu học không? Hồi còn học toán, bạn sẽ học cách hoàn
thiện một biểu thức bằng cách thêm dấu bằng và kết quả. Trang tính thì khác một chút. Khi
tạo một công thức bằng cách sử dụng biểu thức trong trang tính, bạn bắt đầu công thức bằng
dấu bằng.
Ví dụ, nếu muốn thực hiện phép trừ, ta nhập dấu bằng, sau đó là phần còn lại của biểu
thức và không có dấu cách trong công thức. Bây giờ hãy thử một biểu thức khó hơn một chút.
Ta sẽ nhập 31982, sau đó là dấu gạch nối để làm dấu trừ, rồi nhập 17795. Để thực hiện phép
tính, ta nhấn "Enter". Bạn sẽ sử dụng công thức như thế này khi phải xử lý các con số lớn và
các biểu thức có nhiều bước.
Đây là các toán tử mà bạn sẽ sử dụng để hoàn thành công thức. Ký hiệu dấu cộng dành
cho phép cộng, dấu trừ hay dấu gạch nối dành cho phép trừ, dấu sao dành cho phép nhân, và
dấu gạch chéo dành cho phép chia. Ký hiệu phép chia và phép nhân có thể sẽ khác so với
những gì bạn đã quen. Thay đổi nhỏ hơn, nhưng bạn cần phải nhớ.
+ addition
- Subtraction
* multiplication
/ division
Nếu đã có dữ liệu trong trang tính, bạn có thể sử dụng tham chiếu ô trong công thức.
Cell reference is A cell or a range of cells in a worksheet that can be used in a formula (Tham
chiếu ô là một ô hoặc một dải ô trong bảng tính, thường được sử dụng trong các công thức và
hàm). Tham chiếu ô chứa chữ cái chỉ cột và số chỉ hàng chứa dữ liệu.
Range is a collection of two or more cells (Phạm vi là tập hợp hai hoặc nhiều ô trong
bảng tính). Dải ô có thể bao gồm các ô trong cùng hàng hoặc cùng cột, hoặc ở khác hàng và
cột được tổng hợp với nhau. Tôi sẽ cho bạn xem một ví dụ trong video tiếp theo.
Bây giờ hãy áp dụng những gì ta vừa học với dữ liệu bán hàng. Nếu muốn tính tổng
các số này để tính tổng doanh thu của dòng dữ liệu đầu tiên, bạn có nhấp chuột vào ô F2. Từ
đó, ta có thể bắt đầu với dấu bằng và sử dụng tham chiếu ô để thêm giá trị vào biểu thức của
bạn. Ta sẽ bắt đầu với ô B2 vì số năm ở ô A2 không phải giá trị mà ta muốn cộng vào tổng.
Sau đó nhấn "Enter". Như vậy, tổng doanh thu bán hàng đã được tính, nhưng nếu bạn nhận ra
một giá trị trong dữ liệu sai thì sao? Không vấn đề gì. Bạn có thể thay đổi giá trị trong bất cứ
ô nào nhờ có công thức và tổng doanh thu sẽ được cập nhật tự động. Điểm hay khi sử dụng
tham chiếu ô là chúng sẽ tự động cập nhật khi sao chép công thức sang ô mới. Ta sẽ tiết kiệm
được nhiều thời gian. Thay vì nhập lại công thức cho mỗi bộ tham chiếu ô mới, bạn chỉ cần
sao chép tham chiếu nhờ có menu hoặc phím tắt trên màn hình như Ctrl + C. Sau đó dán công
thức tại nơi mà bạn muốn áp dụng qua phím tắt Ctrl + V. Vậy là xong! Công thức sẽ cập nhật
chính xác tất cả các ô và giá trị mới.
Bây giờ, giả sử bạn muốn tính doanh thu bán hàng trung bình. Để làm vậy, bạn tạo
công thức mới ở một ô khác. Để nhóm các giá trị trong công thức, hãy dùng dấu ngoặc. Làm
vậy để cho trang tính biết rằng cần tính giá trị nào và thứ tự thực hiện phép tính. Ví dụ =(B2
+ C2 + D2 + E2)/4. Bạn đang cộng tổng các giá trị trong bốn ô sau đó sử dụng dấu gạch chéo
để chia tổng cho 4, giống như ví dụ trước, ta có thể sao chép và dán công thức. Đây là một
công thức khác mà bạn có thể sử dụng khi muốn tìm phần trăm thay đổi về doanh số giữa
tháng Sáu và tháng Bảy. Khi công thức tính được giá trị, bạn có thể sử dụng nút % để chuyển
giá trị sang dạng phần trăm. Khi áp dụng công thức sang các hàng khác, cả công thức và phần
trăm sẽ tự động cập nhật. Trông không giống đáp án đúng. Có vẻ như ta gặp lỗi rồi. Đừng lo.
Ta có thể gặp lỗi ở mọi giai đoạn khi phân tích dữ liệu, bao gồm cả khi bạn sử dụng
trang tính. Công thức phải thật chính xác. Nếu có lỗi với một tham chiếu ô, công thức sẽ không
hoạt động. Ta gặp phải lỗi gì? Bạn có thể thấy rằng giá trị ở ô D4 không có. Sẽ mất thời gian
và công sức tìm hiểu để tìm được giá trị đúng, nhưng rất xứng đáng. Phần phân tích phải chính
xác nhất có thể. Khi cộng các giá trị, công thức sẽ lo phần còn lại.
Ta đã nói về rất nhiều thứ. Cảm ơn bạn đã chú ý. Bạn sẽ có thể áp dụng những điều ta
học về công thức bây giờ và trong phần sau của chương trình để phân tích hiệu quả hơn và
công việc của bạn cũng dễ dàng hơn, và bạn sẽ có thể làm việc với trang tính của riêng mình.
Hãy làm việc với trang tính thật vui.
Lỗi bảng tính và cách khắc phục
Chào mừng bạn trở lại với khóa học. Gần đây ta đã tìm hiểu về công thức. Đôi khi các
nhà phân tích dữ liệu gặp phải vấn đề với công thức và phát hiện thấy lỗi. Ta đều đã trải qua
việc này và thật khó chịu. Nhưng có cách giải quyết, và đó là điều mà ta sẽ tìm hiểu trong
video này.
Một lỗi mà bạn có thể gặp phải là lỗi DIV. #DIVO! is A formula is trying to divide a
value in a cell by 0 or by an empty cell. Lỗi DIV xảy ra khi công thức thực hiện phép chia
giá trị trong một ô với 0 hoặc một ô trống.
Trong trang tính này, giá trị phần trăm hoàn thành trong cột C được tính bằng cách chia
giá trị trong cột Nhiệm vụ hoàn thành cho giá trị trong cột Nhiệm vụ cần thực hiện. Lưu ý
rằng cột C đã có sẵn định dạng phần trăm. Lỗi DIV nằm ở ô C4 vì ta chia giá trị trong ô A4
cho 0. Để tránh vấn đề này, ta có thể thiết lập để trang tính tự động nhập Not applicable khi
một ô trong cột A chứa giá trị 0 có thể gây ra lỗi. Để làm vậy, ta sẽ sử dụng hàm IFERROR.
=IFERROR(B4/A4, “Not applicable”) Nếu gặp phải lỗi DIV do một ô có chứa 0, ta sẽ thêm
cụm Not applicable.
Bây giờ hãy chuyển sang ERROR.(in Google Sheets only) #ERROR is A formula
can’t be interpreted as input (also known as a parsing error). Trong Google Sheets, ERROR
cho ta biết công thức không thể được diễn giải như đã nhập vào. Đây còn được gọi là lỗi phân
tích cú pháp.
Giả sử ta muốn đếm tổng số nhiệm vụ trong cột B và C, ta sẽ sử dụng hàm SUM, nhưng
công thức tính tổng từ B2 đến B6 và C2 đến C6 lại gặp lỗi. Khi kiểm tra kỹ hơn, ta nhận thấy
dấu phẩy bị thiếu giữa dải ô B2 đến B6 và C2 đến C6. Ta có thể sửa lại bằng cách thêm dấu
phẩy giữa dải ô để thể hiện phần kết thúc của từng mục dữ liệu. Đây còn được gọi là dấu phân
cách (delimiter), lát nữa bạn sẽ được tìm hiểu sau. Bây giờ, công thức có thể tính chính xác
tổng số nhiệm vụ là 25.
Một loại lỗi khác là N/A. Data in a formula can’t be found by the spreadsheet. Lỗi N/A
cho bạn biết rằng trang tính không thể tìm thấy dữ liệu trong công thức của bạn. Nhìn chung,
điều này có nghĩa rằng dữ liệu không tồn tại. Lỗi này thường xảy ra khi sử dụng các hàm như
VLOOKUP, để tìm một giá trị cụ thể trong một cột để trả về thông tin tương ứng.
Đây là một danh sách tổng hợp các loại hạt và giá của chúng. Khi sử dụng VLOOKUP,
trang tính sẽ tìm giá trong danh sách, sau đó tính giá cho từng cửa hàng bằng cách sử dụng
phần đánh dấu được chỉ định. Nhưng ta gặp lỗi N/A trong ô B49 và C49. Công thức
VLOOKUP chính xác, vậy chuyện gì đã xảy ra? Nếu ta nhìn kỹ vào tên của loại hạt, "almond"
không trùng khớp trong bảng lookup, bảng lookup sử dụng từ số nhiều "almonds". Nên ta sẽ
đổi từ almond thành almonds, khi đã sửa lỗi sai chính tả đó, ta sẽ có các giá đúng.
Nhắc đến lỗi sai chính tả, đôi khi nó có thể gây ra lỗi NAME. #NAME is a formula ir
function name isn’t understood (Lỗi NAME xảy ra khi không thể nhận diện hay hiểu được tên
của công thức). Giả sử ta thấy lỗi NAME trong trang tính giá các loại hạt. Nếu quan sát kỹ,
hàm VLOOKUP ở ô B21 bị viết sai, thừa một chữ O; việc này gây ra lỗi NAME cho cả phần
giá và kết quả phép tính phần đánh dấu cho cửa hàng. Để sửa lỗi này, ta có thể xóa chữ O
trong VLOOKUP. Hoàn hảo. Đôi khi ta gặp lỗi do thông tin sai hoặc không thống nhất.
#NUM is a formula or function calculation can’t be performed as specified (Lỗi NUM
cho biết rằng ta không thể thực hiện phép tính của công thức như dữ liệu đã xác định). Dữ liệu
không có nghĩa gì với phép tính đó. Điều tôi định nói ở đây là giả sử ta đang làm việc với một
dự án xây dựng lớn, sử dụng trang tính để theo dõi dự án mất bao nhiêu thời gian để hoàn
thành các mốc quan trọng. Ta có thể sử dụng hàm DATEDIF để tính số tháng giữa ngày bắt
đầu và kết thúc. Hàm này yêu cầu ngày bắt đầu phải ở ô được tham chiếu đầu tiên và ngày kết
thúc phải ở ô được tham chiếu thứ hai. Trong trường hợp của ta, đó là ô B2 và C2. Chữ M viết
tắt cho months (tháng), giống như ta muốn trang tính này tính toán số tháng giữa ngày bắt đầu
và ngày kết thúc. Nhưng ta gặp lỗi NUM trong ô D6. Ta có thể thấy rằng ngày kết thúc đến
trước ngày bắt đầu, nên hàm DATEDIF không thể tính số tháng giữa hai ngày đó. Có vẻ như
ngày bắt đầu và ngày kết thúc vô tình bị tráo đổi. Ta có thể yêu cầu xác minh dữ liệu để đảm
bảo. Trong lúc đó, hãy đảo thứ tự của của các ô trong công thức để tạm thời sửa lỗi này. Bây
giờ, kết quả là chín tháng.
Nếu tên của khách hàng vô tình bị thêm vào ngày bắt đầu trong trang tính thì sao? Ta
sẽ gặp lỗi. #VALUE is a general error that could indicate a problem with a formula or
referenced cells (Lỗi VALUE thể hiện vấn đề với công thức hoặc ô được tham chiếu).
Thường thì ta sẽ không biết ngay vấn đề làm gì, lỗi này mất công sửa chữa hơn. Trong trường
hợp này, John Welty được nhập vào phần ngày bắt đầu, khiến ta không thể tính toán với hàm
DATEDIF trong ô D6. Ta sẽ thay thế văn bản John Welty với ngày bắt đầu đúng là 1/9/16.
Cuối cùng là lỗi REF. #REF is a formula is referencing a cell that is no longer valid or
has been deleted (Lỗi REF thường xuất hiện khi ô được tham chiếu trong công thức đã bị xóa,
khiến công thức không thể thực hiện phép tính). Đây là trang tính để tính toán số ghế sẵn có
cho bữa trưa của công ty. Giả sử công ty quyết định không sử dụng tầng 2, nên ta sẽ xóa hàng
4. Việc này gây ra lỗi REF khi tính tổng số ghế sẵn có ở ô B5. Để sửa lại, ta có thể thay đổi
công thức để thêm giá trị trong ô B2 và B3. Trong trường hợp này, ta có thể tránh lỗi REF
bằng cách sử dụng hàm SUM và một dải ô thay vì thêm giá trị ô bằng cách tham chiếu trực
tiếp. Bây giờ, nếu xóa hàng 10, hàm SUM sẽ tính tổng số ghế sẵn có.
Ta đã sửa một số lỗi trang tính thường gặp nhất. Khi gặp lại các lỗi đó, bạn sẽ biết lỗi
đó là gì. Khắc phục sự cố là một phần quan trọng trong phân tích dữ liệu, nên việc tìm cách
giải quyết là kỹ năng quan trọng đối với các nhà phân tích dữ liệu.
Bài giảng khóa học Google Data Analytics.docx
Chương 3: Hàm trong bảng tính
Chức năng 101
Công thức là một cách hay để sử dụng trang tính hiệu quả hơn, nhất là khi bạn thêm
các phím tắt như sao chép và dán. Khi tiếp tục công việc phân tích dữ liệu, bạn sẽ có thể học
được nhiều phím tắt hơn để giúp bạn thực hiện các yêu cầu. Nhưng bây giờ đã đến lúc chuyển
sang các hàm. Mặc dù chúng có liên quan chặt chẽ đến các công thức, nhưng chúng không
giống hệt nhau. Đến cuối video này, bạn sẽ nhận thấy được sự khác biệt và biết được khi nào
sử dụng loại nào.
Function is A preset command that automatically performs a specific process or task
using the data (Hàm là Một lệnh đặt trước tự động thực hiện một quy trình hoặc tác vụ cụ thể
bằng cách sử dụng dữ liệu trong bảng tính). Có thể bạn vẫn còn nhớ một số phím tắt mà ta đã
học để sử dụng với các công thức. Hãy coi các hàm như các phím tắt hữu dựng nhất.
Rất hay là các hàm trong trang tính đều có tên gọi để thể hiện hoạt động chúng thực
hiện. Có rất nhiều hàm khác nhau. Khi tiếp tục làm việc với các trang tính, bạn sẽ thấy rằng
có những loại bạn sử dụng rất nhiều, có những loại lại ít sử dụng hoặc không bao giờ sử dụng.
Bây giờ, hãy xem xét một số chức năng mà ta có thể áp dụng với dữ liệu bán hàng trong video
trước.
Ta sẽ bắt đầu với tổng doanh thu bán hàng. Hãy sử dụng hàm SUM cho phần này trong
ô F2. Các bước đầu tiên khá giống với những gì ta đã làm ở video trước. Đầu tiên, ta sẽ chọn
ô mà mình muốn thực hiện tính toán. Nhập dấu =, sau đó thêm từ SUM để chỉ hàm. Một trong
những điểm hay về hàm là không phải lúc nào cũng cần toán tử, ví dụ như dấu + để thể hiện
phép cộng. Trong trường hợp này, sau dấu mở ngoặc, bạn có thể tiếp tục chọn dải ô mà bạn
muốn tính tổng. Dấu hai chấm giữa các tham chiếu ô thể hiện rằng bạn đang sử dụng dải ô.
Trong trường hợp này, dải ô bao gồm các ô trong cùng một hàng. Sau khi đóng ngoặc, ta nhấn
Enter. Như vậy, ta có được tổng doanh thu bán hàng. Giống như công thức mà ta sử dụng
trước đó, ta có thể sao chép và dán các hàm vào các ô khác trong cùng một cột.
Trang tính có một công cụ gọi là fill handle. Đó là một ô nhỏ hiển thị ở góc dưới bên
phải khi bạn nhấp chuột vào một ô. Nếu đặt con trỏ vào ô đó, bạn có thể kéo fill handle sang
các ô khác trong cùng hàng hoặc cột. Công thức hay hàm có trong ô đó sẽ được tự động thêm
vào các ô mà bạn kéo đến, fill handle sẽ cập nhật công thức để tham chiếu ô trùng với hàng
và cột của ô mà bạn kéo đến.
Điều này có nghĩa rằng công thức được tính toán dựa trên dữ liệu trong từng hàng hoặc
cột. Ta không thể điền như vậy trong mọi tình huống, nhưng đây vẫn là một mẹo hay. Bây giờ
hãy tính doanh thu trung bình trong từng tháng bằng cách sử dụng hàm AVERAGE.
Giả sử bạn được yêu cầu tìm doanh thu hàng tháng thấp nhất trong bộ dữ liệu này. Có
một hàm để làm việc đó. Đó là hàm MIN, là viết tắt của minimum (giá trị nhỏ nhất). Hàm này
hoạt động như sau. Giả sử bạn muốn tìm doanh thu hàng tháng thấp nhất trong toàn bộ dữ liệu.
Bạn cần thiết lập hàm. Sau dấu mở ngoặc, chọn các giá trị từ cả ba hàng.
Đây có thể là thông tin quan trọng với các bên liên quan. Hãy thêm màu vào ô có giá
trị đó, trong bộ dữ liệu để nổi bật hơn. Trong trường hợp này, nhấp chuột vào ô D2 sau đó
chọn biểu tượng Fill color, có hình như một thùng sơn, sau đó chọn một màu. Tôi sẽ sử dụng
màu vàng. Bạn có thể thực hiện các bước tương tự để tìm doanh thu cao nhất bằng cách sử
dụng hàm MAX.
Có vẻ như ta có thông báo lỗi. Có gì đã sai? Ta quên thêm dấu ngoặc sau hàm. Đừng
lo, ta sửa được ngay thôi. Nhưng đây là lời nhắc rằng bạn phải liên tục kiểm tra định dạng của
hàm và công thức khi bạn sử dụng. Ta sẽ tìm hiểu thêm về thông báo lỗi và cách xử lý chúng
sau. Như vậy tốt hơn. Bây giờ ta sẽ thêm màu vào ô có doanh thu cao nhất.
Đây chỉ là một cách để nhấn mạnh dữ liệu quan trọng. Bạn sẽ tìm hiểu về những cách
khác sau. Bạn đã được xem một số cách để thêm và sắp xếp dữ liệu trong trang tính. Bạn cũng
có thể thấy hiệu quả của các công thức và hàm khi áp dụng vào dữ liệu thực tế. Là một nhà
phân tích dữ liệu, đây chỉ là bắt đầu trải nghiệm với trang tính. Bạn sẽ sớm biết được còn rất
nhiều điều nữa mà trang tính có thể thực hiện. Trong lúc đó, bạn hoàn toàn có thể tự luyện tập
với các công thức và hàm này, cũng như là các quy trình khác. Bạn có thể mày mò thêm. tìm
hiểu xem trang tính có thể làm gì. Bạn sẽ sớm được chuyển từ các trang tính sang tư duy có
cấu trúc. Các mảnh ghép về phân tích dữ liệu đang gần được gắn kết. Tiếp theo sẽ là những
điều thú vị. Hãy tiếp tục theo dõi.
Chương 4: Tiết kiệm thời gian với tư duy có cấu trúc
Trước khi giải quyết một vấn đề, hãy hiểu nó
Albert Einstein từng nói "Nếu tôi có một giờ để cứu trái đất, tôi sẽ dành 59 phút để xác
định vấn đề và 1 phút để giải quyết vấn đề đó. Điều này nghe có vẻ cực đoan, nhưng nó thể
hiện tầm quan trọng của việc xác định vấn đề trước khi cố gắng giải quyết vấn đề đó. Nhiều
khi, các nhóm thường bắt tay vào phân tích dữ liệu ngay để rồi sau vài tháng, họ nhận ra rằng
mình đang giải quyết nhầm vấn đề hoặc họ không có dữ liệu chính xác.
Trong video này, ta sẽ học cách phát triển phương án có cấu trúc để xác định miền vấn
đề. Việc này rất quan trọng vì nếu bạn xác định được vấn đề rõ ràng ngay từ đầu, ta sẽ dễ giải
quyết hơn, từ đó giúp tiết kiệm thời gian, tiền bạc, và nguồn lực.
Đối với dữ liệu, ta gọi mảnh ghép đầu tiên này là miền vấn đề. Problem domain is
The specific area of analysis that encompasses every activity affecting or affected by the
problem. (Phạm vi vấn đề là Lĩnh vực phân tích bao gồm mọi hoạt động ảnh hưởng đến vấn
đề hoặc bị ảnh hưởng bởi vấn đề). Trước khi làm những việc khác, ta cần hiểu được miền vấn
đề và tất các phần trong đó cũng như mối quan hệ để ta có thể tìm hiểu toàn bộ câu chuyện.
Vì gọi là mảnh ghép đầu tiên, tôi nghĩ về việc này như một bộ ghép hình. Giả sử bạn
có một bộ ghép hình. Hãy coi bộ ghép hình đó là miền vấn đề. Bạn có tất cả 500 mảnh ghép
nhưng lại làm mất hộp đựng. Nên bạn không biết hình ảnh tổng thể của bộ ghép hình. Hình
ảnh sẽ là động vật? Thác nước? Một bát cam? Dù là gì đi nữa, việc lắp ghép mà không có hình
ảnh để tham khảo là rất khó. Kể cả người ghép hình giỏi nhất cũng cần một quy trình mới và
rất nhiều thời gian để hoàn thành bộ ghép hình đó.
Các nhà phân tích dữ liệu cũng gặp vấn đề như vậy. Các nhà phân tích dữ liệu không
phải lúc nào cũng được biết trước bức tranh hoàn chỉnh khi bắt đầu dự án. Phần lớn công việc
của họ là phát triển phương án có cấu trúc và áp dụng tư duy phản biện để tìm ra giải pháp tốt
nhất. Điều đó bắt đầu với việc hiểu được miền vấn đề. Đây là lúc ta cần đến STRUCTURED
THINKING (tư duy có cấu trúc). Để giải quyết thành công vấn đề với tư cách là nhà phân
tích dữ liệu, bạn cần rèn luyện não bộ để tư duy có cấu trúc. Đó là nội dung mà bạn sẽ tìm
hiểu tiếp theo. Hẹn gặp lại.
Phạm vi công việc và tư duy có cấu trúc
Trước đó, tôi đã nói với bạn rằng việc xác định cẩn thận vấn đề kinh doanh có thể giúp
tiết kiệm thời gian, tiền bạc và nguồn lực. Ta đạt được những điều này nhờ tư duy có cấu trúc.
Structured thinking is The process of recognizing the current problem or situation,
organizing available information, revealing gaps and opportunities, and identifying the options
(Tư duy có cấu trúc là Quá trình nhận ra vấn đề hoặc tình huống hiện tại, sắp xếp thông tin
sẵn có, bộc lộ những khoảng trống và cơ hội, đồng thời xác định các lựa chọn). Nói cách khác,
đây là một cách chuẩn bị rất kỹ càng. Ta chuẩn bị danh sách rõ ràng và những điều bạn được
kỳ vọng sẽ phải bàn giao, lịch trình đối với các nhiệm vụ và hoạt động quan trọng, cũng như
các điểm kiểm tra để nhóm biết rằng bạn có phát triển.
Trong video này, chúng ta sẽ xem xét cách tư duy có cấu trúc giúp ta tiết kiệm thời gian
và công sức, đồng thời giúp công việc của nhà phân tích dữ liệu dễ dàng hơn vì ta có thể hiểu
rõ hơn công việc ta đang thực hiện.
Trong thế giới kinh doanh, các nhóm thường dành nhiều thời gian quý giá để cố gắng
giải quyết một vấn đề quan trọng, nhưng rốt cục lại quay trở về điểm bắt đầu. Vấn đề ban đầu
không được giải quyết, mà họ đã tốn hàng giờ đồng hồ mà không giải quyết được. Kết quả
này ảnh hưởng tiêu cực đến bạn, nhóm của bạn, và toàn bộ tổ chức. Nhưng thường thì ta có
thể ngăn chặn điều đó. Nhiều khi tình huống này là do không hiểu rõ vấn đề. Tư duy có cấu
trúc sẽ giúp bạn hiểu vấn đề ở cấp độ cao để có thể nhận diện các lĩnh vực cần khám phá và
thấu hiểu sâu hơn.
Điểm bắt đầu để tư duy có cấu trúc là miền vấn đề, ở phần trước đó nếu bạn còn nhớ.
Khi đã biết lĩnh vực phân tích cụ thể, bạn có thể thiết lập cơ sở và vạch ra tất cả các yêu cầu
và giả thuyết trước khi bắt đầu tìm hiểu. Với một cơ sở vững chắc, bạn sẽ sẵn sàng đối mặt
với bất kỳ trở ngại nào. Có những trở ngại như thế nào?
Giả sử bạn được yêu cầu dự đoán giá trị tương lai của một căn hộ dựa trên bộ dữ liệu
sẵn có. Bạn có hàng trăm biến khác nhau và mỗi biến đều quan trọng với việc phân tích.
Nhưng nếu một biến vô tình bị bỏ quên thì sao, ví dụ như foot vuông (đơn vị đo lường ở Mỹ-
Anh) ? Bạn sẽ phải quay lại và thực hiện lại những công việc khó khăn. Đó là vì việc thiếu
biến có thể dẫn đến kết luận không chính xác.
Một cách khác để luyện tập tư duy có cấu trúc và tránh mắc lỗi là sử dụng tài liệu phạm
vi công việc. Scope of work (SOW) is an agreed-upon outline of the work you’re going to
perform on a project (Phạm vi công việc, SOW là Bản phác thảo đã được thống nhất về các
nhiệm vụ sẽ được thực hiện trong một dự án). Đối với nhiều doanh nghiệp, tài liệu này bao
gồm những nội dung như chi tiết công việc, lịch trình, và báo cáo mà khách hàng có thể kỳ
vọng.
Bây giờ, là nhà phân tích dữ liệu, tài liệu phạm vi công việc phải mang tính chuyên
môn hơn, bao gồm những mục cơ bản mà ta vừa nhắc tới, nhưng bạn cũng cần tập trung vào
những phần như chuẩn bị dữ liệu, xác thực, phân tích các bộ dữ liệu định lượng và định tính,
kết quả ban đầu, và có thể là một số hình ảnh để truyền tải nội dung.
Hãy xem xét tài liệu phạm vi công việc thực tế với một ví dụ đơn giản. Giả sử một cặp
đôi đã thuê người tổ chức đám cưới. Ta sẽ tập trung vào một nhiệm vụ, đó là thiệp mời đám
cưới. Scop of work, SOW:
 Deliverables (sản phẩm bàn giao)
 Timelines (lịch trình)
 Milestones (mốc quan trọng)
 Reports (báo cáo)
Hãy tìm hiểu kỹ về một phần trong đó, sản phẩm bàn giao. Người tổ chức đám cưới và
cặp đôi sẽ quyết định thiệp mời, lập danh sách người cần mời, thu thập địa chỉ của họ, in thiệp
mời, viết địa chỉ trên phong bì, dán tem và gửi chúng đi. Bây giờ hãy kiểm tra lịch trình. Bạn
sẽ để ý thấy các ngày và mốc quan trọng để ta đi đúng hướng. Cuối cùng, ta có các báo cáo,
để cặp đôi bớt lo lắng bằng cách thông báo cho họ mỗi khi hoàn thành một bước.
Phạm vi công việc là một công cụ đơn giản nhưng hiệu quả. Với tài liệu phạm vi công
việc chặt chẽ, bạn sẽ có thể giải quyết bất kỳ thắc mắc, mâu thuẫn, hay câu hỏi nào về dữ liệu
từ trước và đảm bảo rằng những cản trở đó không ngáng đường ta. Đây là ví dụ đơn giản về
hình thức của tài liệu phạm vi nghiên cứu.
Sau này, bạn sẽ có thể tạo một tài liệu của riêng mình. Tiếp theo, ta sẽ kiểm tra những
cản trở từ một góc độ khác bằng cách hiểu được tầm quan trọng của việc bối cảnh hóa dữ liệu
và tránh thành kiến. Chúng tôi sẽ chia sẻ những kiến thức thú vị cho bạn.
Duy trì mục tiêu
Chào mừng bạn quay lại. Trong video này, ta sẽ tìm hiểu tầm quan trọng của việc bối
cảnh hóa dữ liệu, và nhận diện thiên lệch dữ liệu. Hãy bắt đầu thôi. Dữ liệu không nằm trong
khoảng không vô định, nó cần có bối cảnh. Context is The condition in which something
exists or happen ( Ngữ cảnh là Điều kiện để một cái gì đó tồn tại hoặc xảy ra).
Hành động có thể phù hợp trong bối cảnh này, nhưng lại không phù hợp trong bối cảnh
khác, ví dụ, hành vi hét lớn bị coi là bất lịch sự khi bạn của bạn đang đứng chắn TV, nhưng
lại hoàn toàn phù hợp trong bối cảnh khác, nếu người bạn đó sắp bị một đứa bé đi xe đạp đâm
phải. Bạn có thấy sự khác biệt không?
Đối với dữ liệu, các con số không có ý nghĩa gì nhiều nếu không có bối cảnh. Tôi sẽ
nhường chỗ cho Ed, đồng nghiệp của tôi tại Google, để chia sẻ với bạn về nội dung này. Khi
ta có sẵn ngày càng nhiều dữ liệu hơn. Ta có thể tận dụng dữ liệu đó theo những cách ngày
càng phức tạp, và tạo ra càng nhiều hiểu biết hữu ích hơn. Ta sử dụng dữ liệu ở nhiều cấp độ
khác nhau.
Đôi khi dữ liệu mang tính mô tả, để trả lời những câu hỏi như, ta đã dành bao nhiêu
tiền để đi du lịch vào tháng trước? Dữ liệu trở nên có giá trị hơn, khi ta tạo được những thông
tin mang tính chẩn đoán và dự báo, ví dụ như hiểu được tại sao chi tiêu du lịch tháng trước lại
tăng. Tuy nhiên, dữ liệu có giá trị nhất là khi ta có thể tạo được những thông tin mang tính
quy định. Ví dụ, làm thế nào để tận dụng dữ liệu để khuyến khích du lịch hiệu quả hơn?
Việc tìm hiểu ý nghĩa của dữ liệu cũng quan trọng như việc thu thập. Là một nhà phân
tích dữ liệu, phần lớn công việc của bạn là đưa dữ liệu vào bối cảnh. Nhiệm vụ của bạn là phải
giữ quan điểm khách quan và công nhận mọi mặt lập luận, trước khi đưa ra kết luận. Bối cảnh
mang nhiều tính cá nhân. Nếu hai người cùng quản lý một bộ dữ liệu, và thực hiện theo những
hướng giống nhau, khả năng là họ vẫn sẽ tạo ra các kết quả khác nhau. Tại sao? Bởi vì không
có một cách chung để diễn giải theo bối cảnh. Mỗi người tiếp cận vấn đề theo một cách riêng.
Kể cả khi có quy trình thu thập dữ liệu chính xác, ta vẫn có thể phân tích sai. Kết luận có thể
bị ảnh hưởng bởi thiên lệch có ý thức và tiềm thức của bạn, dựa theo các chuẩn mực văn hóa,
xã hội, và thị trường.
Ví dụ, nếu bạn hỏi một người dân ở Boston, đội bóng chảy nào giỏi nhất, khả năng cao
họ sẽ trả lời rằng đó là Boston Red Sox. Đây chính là hạn chế lớn của việc phân tích dữ liệu.
Nếu phân tích không đảm bảo khách quan, kết luận có thể gây hiểu nhầm. Để thực sự hiểu về
dữ liệu, bạn phải nghĩ kỹ về các câu hỏi:
 Who
 What
 Where
 When
 How
 Why
Bạn có thể tự hỏi những câu như, ai là người thu thập dữ liệu? Dữ liệu về cái gì? Dữ
liệu biểu diễn điều gì, chúng liên quan đến các dữ liệu khác như thế nào? Dữ liệu được thu
thập khi nào? Dữ liệu đã thu thập từ lâu có thể có một số hạn chế, khi xét trong tình hình hiện
tại. Ví dụ, nếu ta thu thập số điện thoại trong thế kỷ trước, có thể đến một lúc nào đó, khi xuất
hiện điện thoại di động, tức là ta cần thêm trường số điện thoại. Bạn cũng cần xem xét địa
điểm thu thập dữ liệu. Có thể sẽ có nhiều thay đổi đối với thành phố, các bang và quốc gia, và
cách thức thu thập. Khảo sát có thể không hiệu quả bằng phỏng vấn trực tiếp, ví dụ như vậy.
Tất nhiên còn lý do tại sao. Lý do tại sao có thể liên quan chặt chẽ đến thiên lệch. Tại sao? Vì
đôi khi, dữ liệu được thu thập, thậm chí là bịa đặt, để phục vụ một mục đích. Điều tốt nhất mà
bạn có thể làm để đảm bảo tính công bằng và chính xác của dữ liệu, là chắc chắn rằng bạn bắt
đầu với phần biểu diễn chính xác về quần thể, và thu thập dữ liệu một cách phù hợp và khách
quan nhất. Sau đó, bạn sẽ có các thông tin thực tế để truyền tải cho nhóm của mình.
Hy vọng bạn đã hiểu được tầm quan trọng của các dữ liệu công bằng và khách quan,
và tầm quan trọng của bối cảnh, khi nhắc đến việc tìm hiểu và diễn giải dữ liệu. Tiếp theo, ta
sẽ học cách áp dụng vào thực tế.
Tuần 4: Luôn ghi nhớ các bên liên quan
Các nhà phân tích dữ liệu thành công học cách cân bằng nhu cầu và kỳ vọng. Trong
phần này của khóa học, bạn sẽ học các chiến lược để quản lý kỳ vọng của các bên liên quan
đồng thời thiết lập giao tiếp rõ ràng với nhóm của mình.
Mục tiêu học tập:
 Thảo luận về các phương pháp hay nhất về giao tiếp cho nhà phân tích dữ liệu, bao
gồm tham khảo về giao tiếp tại văn phòng, giải quyết xung đột, tạo điều kiện cho các
cuộc họp và báo cáo trạng thái
 Thảo luận về tầm quan trọng của việc tập trung vào kỳ vọng của các bên liên quan
 Xác định các hạn chế phổ biến với dữ liệu, với tham chiếu cụ thể về tốc độ so với độ
chính xác và đáp ứng các yêu cầu nhạy cảm về thời gian
Chương 1: Cân bằng nhu cầu của nhóm và các bên liên quan
Giao tiếp với nhóm của bạn
Chào mừng trở lại. Bây giờ ta đã tìm hiểu về những nội dung như trang tính, kỹ năng
tư duy phân tích, chỉ số và toán học. Đây đều là những kỹ năng chuyên môn rất quan trọng
mà bạn sẽ trau dồi trong suốt sự nghiệp phân tích dữ liệu. Bạn cần lưu ý rằng có những kỹ
năng ngoài chuyên môn mà bạn có thể áp dụng để xây dựng một môi trường làm việc tích cực
và năng suất. Những kỹ năng này sẽ giúp bạn cân nhắc cách thức tương tác với đồng nghiệp
và các bên liên quan. Ta đã biết rằng điều quan trọng là lưu ý đến nhu cầu của các thành viên
và các bên liên quan. Tiếp theo, ta sẽ nói về lý do tại sao. Ta sẽ tìm hiểu về một số thực hành
giao tiếp tốt nhất để bạn có thể sử dụng trong đời sống hàng ngày. Hãy nhớ rằng, giao tiếp là
yếu tốt then chốt. Ta sẽ bắt đầu bằng cách tìm hiểu về giao tiếp hiệu quả, và cách cân bằng
giữa nhu cầu của thành viên và các bên liên quan. Hãy coi các kỹ năng này là những công cụ
mới để giúp bạn làm việc cùng nhóm nhằm tìm ra những giải pháp tốt nhất có thể. Được rồi,
hãy chuyển sang video tiếp theo và bắt đầu.
Cân bằng nhu cầu và mong đợi trong nhóm của bạn
Là một nhà phân tích dữ liệu, bạn sẽ phải tập trung vào nhiều thứ khác nhau, và kỳ
vọng của các bên liên quan là một trong những điều quan trọng nhất. Chúng ta sẽ nói về lý do
tại sao kỳ vọng của các bên liên quan lại rất quan trọng với công việc của bạn và cùng xem
xét một số ví dụ về nhu cầu của các bên liên quan trong một dự án.
Bạn đã nghe tôi sử dụng cụm từ "các bên liên quan" rất nhiều. Hãy cùng nhắc lại các
bên liên quan là gì. Các bên liên quan là những người đã đầu tư thời gian, sự quan tâm, và
nguồn lực vào dự án mà bạn sẽ làm việc với tư cách là nhà phân tích dữ liệu. Nói cách khác,
họ dồn nhiều thứ vào những việc bạn đang thực hiện. Có khả năng là họ cần công việc bạn
thực hiện để đáp ứng nhu cầu của họ. Đó là lý do điều quan trọng là ta cần đảm bảo công việc
nhất quán với nhu cầu của họ và lý do bạn cần giao tiếp hiệu quả với tất cả các bên liên quan
trong nhóm của bạn.
Các bên liên quan sẽ muốn thảo luận về những nội dung như mục tiêu dự án, những
điều bạn cần để đạt được mục tiêu đó, cũng như những thách thức và bận tâm của bạn. Đây là
một điều tốt. Những cuộc thảo luận đó giúp xây dựng lòng tin và sự tự tin về công việc của
bạn. Đây là một ví dụ về dự án với nhiều thành viên khác nhau trong nhóm. Hãy cùng tìm
hiểu xem họ cần gì từ bạn ở những cấp độ khác nhau để đạt được mục tiêu dự án.
Giả sử bạn là nhà phân tích dữ liệu đang làm việc với bộ phận nhân sự của một công
ty. Công ty nhận thấy tỷ lệ nhân viên nghỉ việc tăng lên, hay chính là tỷ lệ nhân viên rời công
ty. Turnover rate is The rate at which employees leave a company ( Tỷ lệ nhảy việc là tỷ lệ
nhân viên rời khỏi công ty). Bộ phận nhân sự của công ty muốn biết lý do tại sao và muốn bạn
giúp họ tìm ra các giải pháp khả thi. Phó chủ tịch tại bộ phận nhân sự ở công ty này quan tâm
đến việc xác định các mẫu chung giữa những nhân viên nghỉ việc và tìm hiểu xem có liên kết
nào giữa năng suất và mức độ gắn kết của nhân viên không.
Là một nhà phân tích dữ liệu, nhiệm vụ của bạn là tập trung vào câu hỏi của bộ phận
nhân sự và giúp họ tìm ra câu trả lời. Nhưng Phó chủ tịch có thể rất bận nên không thể quản
lý các công việc hàng ngày hoặc không thể quản lý trực tiếp. Đối với nhiệm vụ này, bạn sẽ
phải cập nhật cho quản lý dự án thường xuyên hơn. Quản lý dự án chịu trách nhiệm hoạch
định và thực thi một dự án. Một phần nhiệm vụ của quản lý dự án duy trì dự án đi đúng hướng
và giám sát tiến độ của toàn bộ nhóm. Trong hầu hết các trường hợp, bạn cần cập nhật cho họ
thường xuyên, cho họ biết bạn cần gì để thành công và cho họ biết nếu bạn gặp phải vấn đề
gì.
Bạn cũng có thể làm việc với các thành viên khác trong nhóm. Ví dụ, quản trị nhân sự
cần biết các chỉ số mà bạn đang sử dụng để có thể thiết kế các cách thu thập dữ liệu nhân viên
hiệu quả. Có thể bạn sẽ làm việc với các nhà phân tích dữ liệu khác, họ đang xử lý các khía
cạnh khác của dữ liệu. Điều quan trọng là bạn biết các bên liên quan và thành viên nhóm là ai
trong dự án để có thể giao tiếp với họ hiệu quả và đưa cho họ những gì họ cần để phát triển
với vai trò của họ trong dự án. Các bạn đều làm việc cùng nhau để cung cấp cho công ty những
thông tin quan trọng về vấn đề này.
Quay lại ví dụ của chúng ta. Bằng cách phân tích dữ liệu công ty, bạn sẽ thấy mức độ
gắn kết của nhân viên và hiệu suất suy giảm sau 13 tháng ở công ty, tức là nhân viên bắt đầu
cảm thấy chán nản và xa cách khỏi công việc của họ và thường bỏ việc sau một vài tháng.
Một nhà phân tích khác tập trung vào dữ liệu tuyển dụng chia sẻ rằng công ty có mức
tuyển dụng tăng cao vào khoảng 18 tháng trước. Bạn truyền tải thông tin này cho tất cả các
thành viên trong nhóm và các bên liên quan và họ đưa ra phản hồi về cách chia sẻ thông tin
này với phó chủ tịch. Cuối cùng, phó chủ tịch quyết định triển khai kiểm tra quản lý sâu rộng
với những nhân viên chuẩn bị đạt mốc 12 tháng làm việc tại công ty để xác định các cơ hội
phát triển sự nghiệp, giúp giảm tỷ lệ nhân viên nghỉ việc bắt đầu từ tháng 13.
Đây chỉ là một ví dụ về cách bạn cân bằng nhu cầu và kỳ vọng trong nhóm của mình.
Bạn sẽ nhận thấy rằng gần như trong mọi dự án bạn làm việc với tư cách nhà phân tích dữ liệu,
những thành viên khác nhau trong nhóm, từ phó chủ tịch nhân sự cho đến những đồng nghiệp
phân tích dữ liệu đều cần bạn tập trung và giao tiếp hoàn toàn để thực hiện dự án thành công.
Việc tập trung vào kỳ vọng của các bên liên quan sẽ giúp bạn hiểu được mục tiêu của dự án,
giao tiếp trong nhóm hiệu quả hơn, và xây dựng lòng tin với công việc. Tiếp theo, ta sẽ thảo
luận về cách tìm hiểu vị trí phù hợp của bạn trong nhóm và cách thúc đẩy dự án đi lên với sự
tập trung và quyết tâm.
Chương 2: Giao tiếp là chìa khóa
Mẹo giao tiếp hiệu quả
Dù đang làm việc ở đâu, có thể bạn đều phải giao tiếp với người khác hàng ngày. Mỗi
tổ chức và mỗi nhóm trong tổ chức đó đều có các kỳ vọng khác nhau về việc giao tiếp. Tiếp
theo, ta sẽ tìm hiểu một số cách thiết thực để giúp bạn điều chỉnh theo những kỳ vọng khác
nhau đó và một số điều mà bạn có thể áp dụng từ đội này sang đội khác. Chúng ta bắt đầu thôi.
Khi bắt đầu một công việc mới hoặc dự án mới, bạn có thể thấy mình không đồng điệu
với các thành viên còn lại trong nhóm và cách họ giao tiếp. Điều đó hoàn toàn bình thường.
Bạn sẽ tìm ra cách nhanh thôi, nếu bạn sẵn sàng học hỏi và đặt câu hỏi khi bạn chưa chắc chắn
về điều gì đó.
Ví dụ, nếu bạn thấy nhóm của mình sử dụng từ viết tắt mà bạn không quen thuộc, đừng
ngại hỏi nghĩa của những từ đó. Khi mới bắt đầu làm việc tại Google, tôi không biết LGTM
là gì và tôi thường thấy nó trong các chủ đề bình luận. Tôi đã học được đó là viết tắt của Look
good to me (Tôi thấy ổn đấy) và giờ thì tôi thường xuyên sử dụng, khi cần phản hồi nhanh cho
ai đó, đó là một trong những từ viết tắt mà tôi đã học và tôi vẫn luôn gặp những từ mới, tôi
không bao giờ ngại hỏi.
Mỗi môi trường làm việc đều có những quy cách riêng. Có thể các thành viên trong
nhóm thích giao tiếp bằng mắt và bắt tay thật chặt. Hoặc lịch sự hơn thì cúi đầu, nhất là khi
bạn làm việc với khách hàng nước ngoài. Bạn cũng có thể phát hiện ra một số quy cách cụ thể
chỉ bằng cách quan sát đồng nghiệp của bạn giao tiếp. Và bạn sẽ không chỉ giao tiếp trực tiếp
thôi. Mỗi ngày có tới 300 tỷ email được gửi đi và con số đang ngày càng tăng. May mắn thay
có những kỹ năng hữu ích mà bạn có thể học được từ các giao tiếp kỹ thuật số. Email của bạn
phải chuyên nghiệp như khi giao tiếp trực tiếp. Sau đâu là một số cách giúp bạn làm được điều
đó.
Một số quy tắc viết tốt sẽ giúp email của bạn chuyên nghiệp và dễ hiểu hơn. Thường
thì email trang trọng hơn so với văn bản, nhưng bạn không cần quá nghiêm túc như đang viết
tiểu thuyết. Chỉ cần dành thời gian để viết câu hoàn chỉnh và đúng chính tả, dấu câu, điều đó
thể hiện rằng bạn dành nhiều thời gian và để ý tới việc viết. Email thường được chuyển tiếp
để những người khác đọc. Vậy nên phải viết thật rõ ràng để ai cũng hiểu được.
Tôi thường đọc những email quan trọng thành tiếng trước khi nhấn gửi; như vậy tôi có
thể nghe xem email có hợp lý không hay có lỗi chính tả không. Lưu ý rằng, giọng điệu của
email có thể thay đổi theo thời gian. Nếu bạn thấy nhóm của mình khá thoải mái, vậy cũng tốt.
Khi quen biết với nhóm hơn, bạn cũng có thể thoải mái hơn, nhưng khi bắt đầu thì bạn nên
chuyên nghiệp.
Có quy tắc thế này, bạn có hài lòng về những gì mình viết nếu nó được đăng tải trên
trang nhất của một tờ báo không? Nếu không, hãy sửa lại cho đến khi được. Cũng đừng viết
email quá dài. Hãy suy nghĩ xem các thành viên trong nhóm cần gì và đi thẳng vào vấn đề
thay vì viết quá dài dòng và khiến họ choáng ngợp.
Bạn cũng cần viết email một cách rõ ràng và súc tích để chúng không bị bỏ qua. Hãy
xem hai email sau và bạn sẽ hiểu ý tôi. Đây là email đầu tiên. Có quá nhiều nội dung khiến ta
khó biết được thông tin quan trọng nằm ở đâu. Và đoạn đầu tiên này không hề tóm tắt cho tôi
những điều quan trọng. Mở đầu bằng "Hey" có vẻ hơi suồng sã quá, và không có lời kết. Tôi
cũng thấy một vài lỗi chính tả.
Bây giờ hãy xem email thứ hai. Bớt choáng ngợp rồi, đúng không? Chỉ có một vài câu,
nói cho tôi biết những gì tôi cần biết. Email được tổ chức rõ ràng, có lời mở đầu và kết thúc.
Đây là một ví dụ hay về email; ngắn, đi thẳng vào vấn đề, lịch sự và viết rất tốt. Đó là tất cả
những điểm
ta vừa nhắc
tới.
Nhưng phải
làm gì nếu
điều bạn muốn nói quá dài để viết trong email? Vậy thì bạn nên tổ chức một cuộc họp.
Bạn cũng cần trả lời sớm. Đừng mất quá nhiều thời gain để trả lời email, đến mức mà
đồng nghiệp bắt đầu lo rằng bạn bị làm sao. Tôi luôn cố gắng trả lời email trong 24-48 giờ.
Ngay cả khi chỉ là cho họ một mốc thời gian khi tôi có đáp án thực sự họ đang tìm kiếm. Bằng
cách đó, tôi có thể thiết lập kỳ vọng và họ biết rằng tôi đang xử lý vấn đề đó.
Ngược lại cũng vậy. Nếu bạn cần phản hồi về việc gì đó cụ thể từ một thành viên trong
nhóm, hãy nói rõ bạn cần gì và khi nào bạn cần để họ có thể trả lời bạn. Tôi sẽ thêm ngày ở
dòng chủ đề và in đậm ngày trong phần nội dung email, để thật rõ ràng. Trình bày rõ nhu cầu
của bạn là yếu tố quan trọng để giao tiếp tốt.
Ta đã tìm hiểu những cách tuyệt vời để cải thiện kỹ năng giao tiếp cá nhân, ví dụ như
đặt câu hỏi, rèn luyện thói quen viết tốt và các mẹo khi viết email. Những cách này sẽ giúp
bạn giao tiếp rõ ràng và hiệu quả với nhóm trong bất cứ dự án nào. Việc này sẽ mất thời gian,
nhưng bạn sẽ tìm được cách giao tiếp phù hợp với bạn và nhóm của bạn, cả trực tiếp và trực
tuyến. Miễn là bạn sẵn sàng học hỏi, bạn sẽ không gặp vấn đề gì khi thích ứng với các kỳ vọng
giao tiếp khác nhau trong các công việc tương lai.
Cân bằng giữa kỳ vọng và mục tiêu thực tế của dự án
Ta đã nói từ trước là dữ liệu có các hạn chế. Đôi khi bạn không có quyền truy cập vào
dữ liệu bạn cần, hoặc nguồn dữ liệu của bạn không nhất quán hoặc dữ liệu của bạn chưa được
làm sạch. Đây chắc chắn có thể là vấn đề khi đang phân tích dữ liệu, nhưng nó cũng ảnh hưởng
đến giao tiếp với các bên liên quan của bạn. Đó là lý do ta cần cân bằng kỳ vọng của bên liên
quan với những gì ta thực sự có thể làm trong dự án.
Ta sẽ tìm hiểu về tầm quan trọng của việc thiết lập các mục tiêu thực tế, khách quan và
cách giao tiếp hiệu quả nhất với các bên liên quan của bạn về vấn đề mà bạn có thể gặp phải.
Hãy nhớ rằng rất nhiều điều phụ thuộc vào phân tích của bạn. Có thể nhóm của bạn không thể
đưa ra quyết định nếu không có báo cáo của bạn. Hoặc kết quả công việc với dữ liệu ban đầu
của bạn sẽ xác định cách thức và nơi thu thập dữ liệu bổ sung.
Có lẽ bạn còn nhớ ta đã nói về một số tình huống mà ta cần cho các bên liên quan tham
gia cùng. Ví dụ, thông báo cho quản lý dự án rằng bạn đang đúng tiến độ hoặc đang gặp vấn
đề. Bây giờ, hãy xem xét một ví dụ thực tế mà bạn cần giao tiếp với các bên liên quan và bạn
có thể làm gì nếu gặp vấn đề.
Giả sử bạn đang làm việc trong một dự án cho công ty bảo hiểm. Công ty muốn xác
định nguyên nhân phổ biến của các vụ tai nạn ô tô nhẹ để có thể phát triển các tài liệu giáo
dục nhằm khuyến khích lái xe an toàn hơn. Có một số câu hỏi ban đầu mà bạn và nhóm của
bạn cần trả lời:
 Trong bộ dữ liệu sẽ có những thói quen lái xe nào?
 Làm thế nào để thu thập dữ liệu này?
 Bạn sẽ mất bao lâu để thu thập và làm sạch dữ liệu đó trước khi có thể sử dụng trong
phân tích của mình?
Bạn cần giao tiếp rõ ràng ngay với các bên liên quan để trả lời những câu hỏi này, để bạn và
nhóm của bạn có thể thiết lập lịch trình hợp lý và thực tế cho dự án.
Có thể bạn rất muốn nói với các bên liên quan rằng tôi sẽ làm xong ngay, không có vấn
đề gì. Nhưng việc thiết lập kỳ vọng về một lịch trình khả thi sẽ giúp ích cho bạn về lâu dài.
Các bên liên quan sẽ biết phải kỳ vọng điều gì, và bạn sẽ không phải làm việc quá sức và trễ
hạn chỉ vì hứa hẹn quá mức.
Tôi thấy rằng việc thiết lập kỳ vọng từ sớm giúp tôi sử dụng thời gian hiệu quả hơn. Vì
vậy, khi bắt đầu, bạn cần gửi một lịch trình ở cấp độ cao với các giai đoạn khác nhau của dự
án và ngày bắt đầu ước tính. Trong trường hợp này, bạn và nhóm của bạn xác định rằng bạn
sẽ cần ba tuần để hoàn thành phân tích và đưa ra lời khuyên, và bạn cần thông báo cho các
bên liên quan để họ lên kế hoạch tương ứng.
Giả sử bạn đang thực hiện dự án được tương đối, và bỗng gặp phải vấn đề. Có thể các
tài xế đã đồng ý chia sẻ dữ liệu về việc sử dụng điện thoại của họ trong ô tô, nhưng bạn phát
hiện rằng một số nguồn có đo mức sử dụng GPS, nhưng những nguồn khác thì không. Ta có
thể mất thêm thời gian xử lý và làm sạch dữ liệu và chậm trễ một số mốc quan trọng của dự
án. Bạn cần thông báo cho quản lý dự án và vạch ra lịch trình mới để trình bày với các bên
liên quan.
Bạn càng xác định được vấn đề từ sớm càng tốt. Như vậy, các bên liên quan có thể thực
hiện thay đổi cần thiết sớm nhất có thể. Hoặc nếu các bên liên quan muốn thêm các biến như
mẫu xe và tuổi. Bạn cần trao đổi với họ về việc điều đó sẽ làm thay đổi mô hình mà bạn sẽ
xây dựng, có thể bổ sung trước hạn hay không, và những trở ngại khác mà họ cần biết để họ
quyết định xem có nên thay đổi ở giai đoạn này của dự án không. Để giúp họ, bạn cần chuẩn
bị báo cáo về việc yêu cầu này sẽ thay đổi lịch trình dự án và mô hình như thế nào.
Bạn cũng có thể vạch ra ưu và nhược điểm của thay đổi đó. Bạn cần hỗ trợ các bên liên
quan đạt được mục tiêu của họ, nhưng điều quan trọng là phải thiết lập các kỳ vọng thực tế ở
mọi giai đoạn của dự án.
Ta phải học cách cân bằng. Bạn đã học cách cân bằng nhu cầu của các thành viên trong
nhóm và các bên liên quan, nhưng bạn cũng cần phải cân bằng giữa kỳ vọng của các bên liên
quan và những điều có thể thực hiện đối với dự án, nguồn lực và hạn chế. Do vậy, điều quan
trọng là phải thực tế, khách quan và giao tiếp rõ ràng. Điều này sẽ giúp các bên liên quan hiểu
được lịch trình và có niềm tin vào khả năng của bạn để đạt được những mục tiêu đó.
Ta đã biết giao tiếp là yếu tố then chốt và ta cần tuân thủ một số quy tắc để giao tiếp
một cách chuyên nghiệp. Tiếp theo, ta sẽ nói thêm về việc trả lời câu hỏi của các bên liên quan,
bàn giao dữ liệu và giao tiếp với nhóm của bạn.
Sarah: Làm thế nào để giao tiếp với các bên liên quan
Tôi là Sarah và tôi là trưởng nhóm phân tích cấp cao tại Google. Là một nhà phân tích
dữ liệu, sẽ có những lúc các bên liên quan không biết gì về lượng thời gian bạn cần để thực
hiện dự án, và từ đầu khi tôi được yêu cầu thực hiện một dự án để tìm hiểu gì đó, tôi luôn cố
gắng đưa ra một chút kỳ vọng về thời gian làm việc vì hầu hết các bên liên quan không thực
sự hiểu bạn làm gì với dữ liệu, cách bạn thu thập và làm sạch dữ liệu và cách dựng lên câu
chuyện đằng sau đó.
Một điều nữa mà tôi muốn làm rõ với mọi người là bạn phải đảm bảo rằng dữ liệu kể
được những câu chuyện. Đôi khi người ta nghĩ rằng dữ liệu có thể trả lời tất cả và đôi khi ta
phải thừa nhận rằng điều đó là không chính xác.
Gần đây tôi đã làm việc với một tiểu bang để tìm ra lý do tại sao mọi người không đăng
ký nhận phúc lợi họ cần và xứng đáng được nhận. Chúng tôi thấy mọi người có truy cập trang
web để đăng ký nhận phúc lợi đó và xem liệu họ có đủ điều kiện hay không. Nhưng vì một số
lý do, có điều gì đó ngăn cản họ thực hiện bước đăng ký thực sự. Nên tôi sẽ tìm hiểu bằng
cách sử dụng Google Analytics để cố gắng khám phá điều gì ngăn cản mọi người đăng ký
nhận phúc lợi mà họ cần và xứng đáng có được.
Nên tôi đã sử dụng Google Analytics, và thấy rằng mọi người di chuyển giữa trang dịch
vụ và trang thất nghiệp rồi lại quay lại trang dịch vụ, rồi lại trang thất nghiệp. Tôi có một giả
thuyết rằng, mọi người không tìm thấy thông tin họ cần để thực hiện bước tiếp theo là xem họ
có đủ điều kiện nhận các dịch vụ này không. Cách duy nhất để tôi biết tại sao mọi người rời
khỏi trang web mà không thực hiện hành động nào là trực tiếp hỏi họ. Tôi sẽ phải thực hiện
khảo sát.
Google Analytics không cung cấp cho tôi dữ liệu mà tôi cần để củng cố hay bác bỏ giả
thuyết đó 100%. Vì vậy, khi giải thích cho các bên liên quan của mình, "Này, tôi có một giả
thuyết. Dữ liệu này đang kể một câu chuyện. Tuy nhiên tôi không thể biết chính xác 100% do
hạn chế về dữ liệu," Bạn chỉ cần nói ra. Cách tôi giao tiếp là tôi nói rằng "Tôi có một giả thuyết
rằng mọi người không tìm được thông tin họ cần để thực hiện hành động. Đây là những điểm
đã được chứng minh mà tôi có để củng cố cho giả thuyết đó." Vậy là ta đã khiến việc tìm được
thông tin đó trở nên dễ dàng hơn.
Mặc dù ta chưa chắc chắn 100% là giả thuyết của tôi đúng, ta đủ tự tin để thực hiện
hành động, và khi nhìn lại, chúng tôi thấy rằng mọi chỉ số đều củng cố cho giả thuyết này.
Cảm giác rất tuyệt vời khi bạn củng cố được điều mình tin tưởng, và hỗ trợ nhiều người hơn
nhờ có dữ liệu. Thời gian học tập miệt mài về SQL và mọi thứ là hoàn toàn xứng đáng.
Đánh đổi dữ liệu: Tốc độ so với độ chính xác
Ta sống trong một thế giới mà mọi người muốn được hài lòng ngay lập tức, có thể là
là giao hàng qua đêm hay phim theo yêu cầu. Ta muốn những gì mình muốn và ta muốn có
nó ngay bây giờ. Nhưng đối với dữ liệu, tốc độ đôi khi có thể là kẻ thù của độ chính xác, nhất
là khi cần cộng tác.
Ta sẽ nói về cách cân bằng giữa trả lời nhanh và trả lời chính xác và cách tốt nhất để
giải quyết những vấn đề này bằng cách hệ thống lại câu hỏi và nêu vấn đề. Bằng cách đó, các
thành viên trong nhóm và các bên liên quan hiểu được họ có thể kỳ vọng câu trả lời như thế
nào vào thời điểm nào.
Là nhà phân tích dữ liệu, chúng ta cần biết lý do đằng sau những vấn đề như doanh số
sụt giảm, trung bình kết quả đánh bóng của một người chơi, hoặc tổng lượng mưa. Phần này
không chỉ về các con số, mà còn là về bối cảnh và việc đi sâu vào những vấn đề này tốn nhiều
thời gian. Vậy nên khi các bên liên quan tới tìm bạn, thường thì người đó không thực sự biết
là họ đang cần gì. Họ chỉ biết là họ muốn điều đó ngay lập tức. Nhưng đôi khi áp lực đè nặng
lên chúng ta và ngay cả những nhà phân tích dữ liệu giàu kinh nghiệm nhất cũng muốn giảm
bớt các bước thực hiện và đưa ra dữ liệu thiếu sót hoặc chưa hoàn thành để ưu tiên thời gian.
Khi điều đó xảy ra, nhiều phần câu chuyện trong dữ liệu bị mất. Đó là lý do tại sao giao tiếp
là một trong những công cụ có giá trị nhất khi làm việc theo nhóm.
Điều quan trọng là bắt đầu với tư duy có cấu trúc và tài liệu phạm vi công việc được
lên kế hoạch tốt, trước đó ta đã nói về phần này. Khi bắt đầu từ việc hiểu rõ kỳ vọng của các
bên liên quan, bạn sẽ có thể phát triển tài liệu phạm vi công việc một cách thực tế để vạch ra
các kỳ vọng đã thống nhất, lịch trình, mốc quan trọng, và báo cáo. Bằng cách này, nhóm của
bạn luôn có một lộ trình để dẫn dắt hành động của họ. Nếu bạn đang chịu áp lực với những
điều ngoài phạm vi công việc, bạn có thể tự tin thiết lập các kỳ vọng thực tế hơn. Cuối cùng,
công việc của bạn là cân bằng giữa việc trả lời nhanh và trả lời chính xác. Và cả tìm ra người
kia đang thực sự nói gì.
Có lẽ ta nên xem xét một ví dụ. Giả sử phó giám đốc nhân sự đến chỗ bạn làm việc và
yêu cầu xem xét số lượng nhân viên mới đã hoàn thành khóa đào tạo mà họ giới thiệu. Cô ấy
nói, "Không thể nào mà mọi người thực hiện từng mục của khóa học. Đội ngũ nhân sự phải
trả lời rất nhiều câu hỏi, Có lẽ ta nên hủy chương trình." Bạn sẽ phản ứng thế nào? Bạn có thể
đăng nhập vào hệ thống, xử lý các con số, và đưa cho người giám sát xem. Việc này không
mất nhiều thời gian. Nhưng câu trả lời nhanh chưa chắc đã là câu trả lời chính xác nhất.
Vì vậy, thay vào đó, bạn có thể chỉnh lại câu hỏi, vạch ra vấn đề, thách thức, các giải
pháp khả thi, và khung thời gian. Bạn có thể nói, "Tôi chắc chắn có thể kiểm tra tỷ lệ hoàn
thành, nhưng tôi cảm thấy có lẽ câu chuyện còn nhiều hơn thế. Chị có thể cho tôi hai ngày để
chạy báo cáo và tìm hiểu chuyện đang xảy ra không?" Với nhiều thời gian hơn, bạn thể hiểu
được bối cảnh. Bạn và phó giám đốc nhân sự quyết định kéo dài lịch trình dự án, để bạn có
thể dành thời gian thu thập dữ liệu khảo sát ẩn danh từ nhân viên mới về khóa đào tạo.
Câu trả lời của họ cung cấp dữ liệu có thể giúp bạn xác định chính xác tại sao tỷ lệ hoàn
thành lại quá thấp. Nhân viên báo cáo rằng họ cảm thấy khóa học khó hiểu và lỗi thời. Bởi vì
bạn đã có thể dành thời gian để giải quyết vấn đề lớn hơn, phó giám đốc nhân sự đã hiểu rõ
hơn tại sao nhân viên mới không hoàn thành khóa học và có thể đưa ra quyết định mới về cách
cập nhật nó. Bây giờ khóa đào tạo dễ theo dõi và bộ phận nhân sự không phải nhận nhiều câu
hỏi như trước. Mọi người đều có lợi.
Chuyển hướng cuộc trò chuyện sẽ giúp bạn tìm thấy vấn đề thực sự dẫn đến các giải
pháp sâu sắc và chính xác hơn. Nhưng điều quan trọng là cần ghi nhớ rằng đôi khi bạn cần là
người thông báo tin xấu, không sao cả. Trao đổi về các vấn đề, giải pháp khả thi và các kỳ
vọng khác nhau có thể giúp bạn tiến về phía trước với dự án thay vì mắc kẹt một chỗ. Đối với
việc truyền đạt câu trả lời với nhóm và các bên liên quan, câu trả lời nhanh nhất và câu trả lời
chính xác nhất thường không phải là một. Nhưng bằng cách đảm bảo rằng bạn hiểu nhu cầu
của họ và đặt ra kỳ vọng rõ ràng, bạn có thể cân bằng giữa tốc độ và độ chính xác. Chỉ cần
đảm bảo rõ ràng và trực tiếp thì bạn sẽ thành công.
Nghĩ về quá trình và kết quả của bạn
Dữ liệu có sức mạnh để thay đổi thế giới. Hãy nghĩ mà xem. Một ngân hàng xác định
15 cơ hội mới để quảng cáo một sản phẩm, mang lại doanh thu 120 triệu đô la. Một công ty
phân phối tìm ra cách tốt hơn để quản lý vận chuyển, giảm thiểu chi phí đi 500.000 đô la.
Google tạo ra một công cụ mới có thể xác định khối u ung thư vú ở gần hạch bạch huyết. Đây
đều là những thành tựu đáng kinh ngạc, nhưng bạn có biết điểm chung của chúng là gì không?
Đó đều là kết quả của việc phân tích dữ liệu. Bạn hoàn toàn có khả năng thay đổi thế giới với
tư cách là một nhà phân tích dữ liệu. Và nó bắt đầu với cách bạn chia sẻ dữ liệu với nhóm của
mình.
Trong video này, ta sẽ xem xét tất cả các biến số mà bạn nên cân nhắc khi chia sẻ dữ
liệu. Khi bạn truyền đạt thành công các dữ liệu cho nhóm của mình, bạn có thể đảm bảo rằng
họ đưa ra được quyết định tốt nhất. Trước đó, ta đã biết rằng tốc độ đôi khi có thể ảnh hưởng
đến độ chính xác khi chia sẻ thông tin cơ sở dữ liệu với một nhóm. Đó là lý do bạn cần một
quy trình chặt chẽ để đánh giá kết quả và hành động trong phân tích của bạn. Vậy bạn phải
bắt đầu từ đâu?
Các giải pháp tốt nhất bắt đầu với câu hỏi. Trong video trước, bạn đã biết rằng các bên
liên quan sẽ có rất nhiều câu hỏi nhưng bạn mới là người tìm ra họ thực sự cần gì. Hãy tự hỏi
chính mình, phân tích của bạn có trả lời câu hỏi ban đầu không? Còn góc độ nào khác mà bạn
chưa xem xét? Bạn có thể trả lời bất kỳ câu hỏi nào về dữ liệu và phân tích của bạn không?
Câu hỏi cuối cùng đó khiến ta cân nhắc một điều khác. Khi chia sẻ kết quả của mình, bạn nên
chi tiết đến đâu? Phân tích ở cấp độ cao có được không? Trên hết, kết quả phân tích dữ liệu
của bạn sẽ giúp nhóm đưa ra các quyết định sáng suốt hơn.
Đây là một ví dụ khác: Hãy tưởng tượng một công ty cảnh quan đang gặp vấn đề chi
phí tăng cao và họ không cạnh tranh khi đấu thầu. Bạn có thể hỏi một câu để giải quyết vấn
đề này, đó là công ty có thể tìm nhà cung cấp mới mà không ảnh hưởng đến chất lượng hay
không? Nếu bạn cung cấp cho họ một bản phân tích ở cấp độ cao, bạn có thể chỉ cần nhắc tới
số lượng khách hàng và chi phí vật tư. Bên liên quan có thể sẽ phản đối. Bà ấy lo rằng việc
giảm chất lượng sẽ hạn chế khả năng cạnh tranh và làm khách hàng hài lòng. Bà ấy cũng có ý
đúng. Trong trường hợp đó, bạn cần cung cấp thêm phần phân tích dữ liệu chi tiết để bà ấy
thay đổi suy nghĩ. Điều này có thể có nghĩa là khám phá xem khách hàng cảm thấy thế nào về
các thương hiệu khác nhau. Bạn có thể tìm hiểu được rằng khách hàng không thích một số
thương hiệu cảnh quan cụ thể. Vì vậy, công ty có thể thay đổi sang nhà cung cấp hợp lý hơn
mà không ảnh hưởng đến chất lượng dữ liệu của Amazon.
Nếu bạn cảm thấy thoải mái khi sử dụng dữ liệu để trả lời tất cả những câu hỏi và thắc
mắc này, có lẽ bạn đã đi đến kết luận chắc chắn.
Tốt lắm! Bây giờ bạn đã hiểu về các biến liên quan đến việc chia sẻ dữ liệu với một
nhóm, chẳng hạn như quy trình và kết quả, bạn đang tiến gần hơn với việc đảm bảo rằng nhóm
có tất cả thông tin họ cần để đưa ra các quyết định sáng suốt dựa trên dữ liệu.
Chương 3: Tinh thần đồng đội tuyệt vời
Đáp ứng các phương pháp hay nhất
Bây giờ là lúc để thảo luận về các cuộc họp. Các cuộc họp là một phần quan trọng trong
cách bạn giao tiếp với các thành viên trong nhóm và các bên liên quan. Hãy cùng điểm qua
một số điều nên làm và không nên làm mà bạn có thể sử dụng cho các cuộc họp trực tiếp hoặc
trực tuyến để có thể sử dụng các phương pháp giao tiếp tốt nhất này trong tương lai. Về cốt
lõi, các cuộc họp giúp bạn và các thành viên trong nhóm hoặc các bên liên quan của bạn có
thể thảo luận về cách một dự án đang diễn ra.
Nhưng họ có thể nhiều hơn thế. Dù là ảo hay trực tiếp, các cuộc họp nhóm có thể xây
dựng lòng tin và tinh thần đồng đội. Chúng cho bạn cơ hội kết nối với những người bạn đang
làm việc cùng ngoài email.
Một lợi ích khác là biết bạn đang làm việc với ai có thể giúp bạn có cái nhìn tốt hơn về
nơi công việc của bạn phù hợp với dự án lớn hơn. Các cuộc họp thường xuyên cũng giúp bạn
phối hợp các mục tiêu của nhóm dễ dàng hơn, điều này giúp bạn đạt được mục tiêu dễ dàng
hơn. Với tất cả mọi người trên cùng một suy nghĩ, nhóm của bạn sẽ ở vị trí tốt nhất để giúp
đỡ lẫn nhau khi bạn gặp vấn đề.
Cho dù bạn đang điều hành cuộc họp hay chỉ tham dự cuộc họp, bạn có thể làm theo
các phương pháp hay nhất để đảm bảo cuộc họp của mình thành công. Có một số điều thực sự
đơn giản bạn có thể làm để tạo nên một cuộc họp tuyệt vời. Hãy chuẩn bị sẵn sàng, đến đúng
giờ, chú ý và đặt câu hỏi.
Do:
 Come prepared
 Be on time
 Pay attention
 Ask questions
Điều này áp dụng cho cả cuộc họp do bạn lãnh đạo và cuộc họp mà bạn tham dự.
Hãy chia nhỏ cách bạn có thể làm theo những việc cần làm này cho mọi cuộc họp. Ý
tôi là gì khi tôi nói hãy chuẩn bị sẵn sàng? Vâng, một vài điều. Đầu tiên, mang theo những gì
bạn cần. Nếu bạn thích ghi chép, hãy chuẩn bị sẵn sổ tay và bút trong cặp hoặc thiết bị làm
việc của bạn. Chuẩn bị sẵn sàng cũng có nghĩa là bạn nên đọc trước chương trình họp và sẵn
sàng cung cấp bất kỳ thông tin cập nhật nào về công việc của mình. Nếu bạn đang điều hành
cuộc họp, hãy nhớ chuẩn bị các ghi chú và bài thuyết trình của mình, đồng thời biết bạn sẽ nói
về chủ đề gì và tất nhiên, hãy sẵn sàng trả lời các câu hỏi.
Do:
 Bring what you need
 Read the meeting agenda
 Prepare notes and presentations
 Be ready to answer questions
Đây là một số lời khuyên khác mà tôi muốn làm theo khi điều hành một cuộc họp. Đầu
tiên, mọi cuộc họp nên tập trung vào việc đưa ra quyết định rõ ràng và bao gồm người cần
thiết để đưa ra quyết định đó. Và nếu cần có một cuộc họp để đưa ra quyết định, hãy lên lịch
ngay lập tức. Đừng để tiến độ bị đình trệ bằng cách đợi đến cuộc họp tuần tới.
Cuối cùng, cố gắng giữ số lượng người tại cuộc họp của bạn dưới 10 nếu có thể. Nhiều
người hơn khiến việc thảo luận hợp tác trở nên khó khăn. Việc tôn trọng thời gian của các
thành viên trong nhóm cũng rất quan trọng. Cách tốt nhất để làm điều này là đến các cuộc họp
đúng giờ. Nếu bạn đang dẫn dắt cuộc họp, hãy đến sớm và chuẩn bị trước để sẵn sàng bắt
đầu khi mọi người đến.
Bạn có thể làm điều tương tự cho các cuộc họp trực tuyến. Cố gắng đảm bảo rằng công
nghệ của bạn đang hoạt động trước đó và bạn đang xem đồng hồ để không vô tình bỏ lỡ một
cuộc họp. Tập trung và chú ý trong cuộc họp là một cách tuyệt vời khác để tôn trọng thời gian
của các thành viên trong nhóm của bạn. Bạn không muốn bỏ lỡ điều gì đó quan trọng vì bị
phân tâm bởi thứ khác trong khi thuyết trình. Chú ý cũng có nghĩa là đặt câu hỏi khi bạn cần
làm rõ hoặc nếu bạn nghĩ rằng có thể có vấn đề với kế hoạch dự án. Đừng ngại tiếp cận sau
một cuộc họp. Nếu bạn không thể đặt câu hỏi của mình, hãy theo dõi nhóm sau đó và nhận
câu trả lời.
Khi bạn là người điều hành cuộc họp, trước tiên hãy đảm bảo rằng bạn xây dựng và gửi
chương trình làm việc, để các thành viên trong nhóm của bạn có thể chuẩn bị sẵn sàng và rời
đi với những bước tiến rõ ràng.
Bạn cũng sẽ muốn giữ cho mọi người tham gia. Cố gắng tương tác với tất cả những
người tham dự của bạn để bạn không bỏ lỡ bất kỳ thông tin chi tiết nào từ các thành viên trong
nhóm của mình. Hãy cho mọi người biết rằng bạn cũng sẵn sàng trả lời các câu hỏi sau cuộc
họp. Bạn nên ghi chú ngay cả khi đang điều hành cuộc họp. Điều này giúp bạn dễ dàng ghi
nhớ tất cả các câu hỏi đã được hỏi. Sau đó, bạn có thể liên hệ với từng thành viên trong nhóm
để trả lời những câu hỏi đó hoặc gửi bản cập nhật cho cả nhóm của bạn tùy thuộc vào những
người cần thông tin đó.
Bây giờ chúng ta hãy xem xét những điều không nên làm trong các cuộc họp. Có một
số "không" rõ ràng ở đây. Bạn không muốn xuất hiện mà không chuẩn bị, trễ hoặc mất tập
trung cho các cuộc họp. Bạn cũng không muốn chiếm ưu thế trong cuộc trò chuyện, nói lấn át
người khác hoặc khiến mọi người mất tập trung bằng những cuộc thảo luận không tập trung.
Don’t:
 Show up unprepared
 Arrive late
 Be distracted
 Dominate the conversation
 Talk over others
 Distract people with unfocused discussion
Cố gắng đảm bảo rằng bạn cho các thành viên khác trong nhóm cơ hội nói và luôn để
họ nói hết suy nghĩ của mình trước khi bạn bắt đầu nói. Mọi người đang tham dự cuộc họp
của bạn nên đưa ra ý kiến đóng góp của họ. Tạo cơ hội để mọi người lên tiếng, đặt câu hỏi,
kêu gọi chuyên môn và thu hút phản hồi của họ. Bạn không muốn bỏ lỡ những hiểu biết có
giá trị của họ. Và cố gắng yêu cầu mọi người đặt điện thoại hoặc máy tính của họ ở chế độ im
lặng khi họ không nói, bao gồm cả bạn.
Bây giờ, chúng ta đã học được một số phương pháp hay nhất mà bạn có thể làm theo
trong các cuộc họp như chuẩn bị sẵn sàng, đúng giờ, chú ý và đặt câu hỏi. Chúng tôi cũng đã
nói về việc sử dụng các cuộc họp một cách hiệu quả để đưa ra quyết định rõ ràng và thúc đẩy
các cuộc thảo luận hợp tác cũng như liên hệ sau cuộc họp để giải quyết các câu hỏi mà bạn
hoặc những người khác có thể có.
Bạn cũng biết những điều không nên làm trong các cuộc họp: xuất hiện mà không
chuẩn bị trước, đến muộn hoặc mất tập trung, hoặc nói lấn át người khác và bỏ sót ý kiến của
họ.
Ghi nhớ những lời khuyên này, bạn sẽ sẵn sàng tham gia các cuộc họp nhóm tích cực,
hiệu quả. Nhưng tất nhiên, đôi khi sẽ có xung đột trong nhóm của bạn. Chúng ta sẽ sớm thảo
luận về cách giải quyết xung đột.
Ximena: Tham gia một nhóm mới
Ban đầu, việc tham gia nhóm mới thực sự rất đáng sợ. Nhất là với những công ty lớn
như Google, mọi người ở đây đều rất thông minh. Nhưng tôi đã dựa vào quản lý rất nhiều để
hiểu được tôi có thể đóng góp được gì. Điều này khiến tôi thoải mái hơn trong các cuộc họp
và chia sẻ năng lực của mình.
Tôi thấy rằng dự án tốt nhất của mình bắt đầu khi có thể giao tiếp rõ ràng về các kỳ
vọng. Khi rời cuộc họp đối với các dự án mà tôi biết rõ cần bắt đầu từ đâu mà cần phải làm gì,
tôi có thể hoàn thành nhanh hơn, làm việc hiệu quả hơn, và đạt được mục tiêu thực sự, thậm
chí có thể tiến thêm một bước vì không mất thời gian bối rối về những việc tôi cần làm. Giao
tiếp là rất quan trọng vì việc này giúp tôi cán đích một cách hiệu quả hơn và bạn cũng tạo
được ấn tượng tốt hơn.
Khi mới bắt đầu, tôi được giao nhiều dự án và tôi rất hào hứng. Vậy là tôi bắt đầu thực
hiện mà không hỏi gì nhiều. Ban đầu đó là trở ngại, mặc dù việc không rõ ràng có thể giúp
bạn phát triển, nhưng nếu mục tiêu dự án mơ hồ, điều này lại có hại khi bạn cố gắng hoàn
thành công việc. Tôi vượt qua điều đó chỉ bằng cách lùi lại khi ai đó yêu cầu tôi thực hiện dự
án và làm rõ mục tiêu đó là gì. Khi đã hiểu rõ về mục tiêu, tôi sẵn sàng đối diện với cảm giác
mơ hồ khi tìm cách thực hiện, nhưng mục tiêu phải thực sự khách quan và rõ ràng. Tôi là
Ximena và tôi là nhà phân tích tài chính.
Từ xung đột đến hợp tác
Xung đột xảy ra trong công việc là bình thường. Rất nhiều điều mà bạn đã được học ví
dụ như quản lý kỳ vọng và giao tiếp hiệu quả có thể giúp bạn tránh xung đột, nhưng đôi khi
bạn vẫn sẽ gặp phải xung đột. Nếu điều đó xảy ra, có nhiều cách để giải quyết và tiếp tục công
việc. Trong video này, ta sẽ nói về việc xung đột có thể xảy ra như thế nào và cách tốt nhất để
tập cách giải quyết xung đột.
Xung đột có thể phát sinh vì nhiều lý do. Có thể là do bên liên quan hiểu lầm các kết
quả có thể xảy ra của dự án; có thể bạn và thành viên trong nhóm có phong cách làm việc khác
nhau; hoặc thời hạn quan trọng đang đến và mọi người cảm thấy bồn chồn.
Kỳ vọng sai lệch và nhầm lẫn trong giao tiếp là những lý do phổ biến nhất gây ra xung
đột. Có thể bạn không biết rõ ai là người chịu trách nhiệm làm sạch bộ dữ liệu, nên không có
ai thực hiện việc đó, gây trì hoãn dự án. Hoặc thành viên trong nhóm gửi đi một email bao
gồm tất cả các thông tin chuyên sâu, nhưng không nói rằng đó là do bạn thực hiện. Rất dễ để
các xung đột ảnh hưởng tới cá nhân, nhưng điều quan trọng là bạn phải khách quan và tập
trung vào mục tiêu của nhóm.
Có thể bạn không ngờ đến, những khoảnh khắc căng thẳng có thể là cơ hội để đánh giá
lại dự án hoặc cải thiện mọi thứ. Vậy nên khi có vấn đề, có một số cách để đảo ngược tình thế
để trở nên năng suất và có tinh thần hợp tác hơn.
Một trong những cách hay nhất để chuyển từ vấn đề sang một tình huống năng suất là
xác định lại vấn đề. Thay vì tập trung vào những sai lầm hay người chịu trách nhiệm, hãy thay
đổi câu hỏi bắt đầu. Hãy thử hỏi, làm thế nào để tôi giúp bạn đạt được mục tiêu? Cách này tạo
ra cơ hội cho bạn và các thành viên trong nhóm làm việc cùng nhau để tìm ra giải pháp thay
vì cảm thấy bực bội với vấn đề.
Trao đổi là chìa khóa để giải quyết xung đột. Khi gặp phải xung đột, hãy cố gắng giao
tiếp, bắt đầu trao đổi hoặc hỏi những câu như, còn điều gì quan trọng mà tôi cần cân nhắc?
Cách này cho các thành viên trong nhóm hoặc các bên liên quan cơ hội để trình bày mối bận
tâm của họ.
Nếu bạn đang quá xúc động, hãy giành thời gian để bình tĩnh lại và bắt đầu trao đổi khi
có thể suy nghĩ thông suốt. Nếu tôi cần viết email trong thời gian căng thẳng, tôi sẽ lưu vào
bản nháp và quay lại vào hôm sau để đọc lại trước khi gửi đi, nhằm đảm bảo rằng tôi đang rất
bình tĩnh.
Nếu bạn không hiểu các thành viên trong nhóm hay các bên liên quan đang yêu cầu
bạn làm gì, hãy cố hiểu bối cảnh yêu cầu của họ. Hỏi họ mục tiêu cuối cùng là gì, họ đang
muốn kể câu chuyện gì với dữ liệu hay bức tranh toàn cảnh là gì.
Bằng cách biết những khoảnh khắc có thể xảy ra xung đột thành các cơ hội để hợp tác
và phát triển công việc, bạn có thể giải quyết căng thẳng và đưa dự án của bạn trở lại đúng
hướng. Thay vì nói rằng "Tôi không thể nào làm vậy trong khoảng thời gian này", hãy diễn
đạt lại thành "Tôi rất vui lòng khi thực hiện điều đó, nhưng tôi muốn dành thời gian này để lùi
lại và hiểu rõ hơn anh muốn tôi làm gì với dữ liệu và ta có thể làm việc cùng nhau để tìm ra
hướng đi hợp lý nhất."
Đây đã là phần cuối của mục này. Tốt lắm. Việc học cách làm việc cùng các thành viên
mới có thể là một thử thách khi bắt đầu vai trò mới hoặc dự án mới nhưng với các kỹ năng
bạn đã học được trong video này, bạn sẽ có thể bắt đầu đúng cách với bất kỳ nhóm nào bạn
tham gia. Ta đã tìm hiểu về cách cân bằng giữa nhu cầu và kỳ vọng của các thành viên trong
nhóm và các bên liên quan. Ta cũng nhắc tới cách để hiểu rõ vai trò của các thành viên và tập
trung vào mục tiêu dự án, sự quan trọng của việc giao tiếp rõ ràng và các kỳ vọng giao tiếp tại
nơi làm việc, cũng như cách để cân bằng giới hạn dữ liệu với những điều các bên liên quan
hỏi.
Cuối cùng, ta đề cập đến cách họp nhóm hiệu quả và cách giải quyết xung đột qua tư
duy cộng tác với các thành viên trong nhóm. Hy vọng bạn đã hiểu được tầm quan trọng của
giao tiếp với thành công của một nhà phân tích dữ liệu. Những kỹ năng giao tiếp này có chút
khác biệt so với một số kỹ năng khác mà bạn đã học trong chương trình này, nhưng chúng
cũng là một phần quan trọng trong bộ công cụ phân tích dữ liệu, góp phần tạo nên thành công
của nhà phân tích dữ liệu chuyên nghiệp. Giống như tất cả các kỹ năng khác mà bạn đang học,
kỹ năng giao tiếp sẽ phát triển nhờ có luyện tập và trải nghiệm.
Nathan: Từ Thủy quân lục chiến Hoa Kỳ đến phân tích dữ liệu
Xin chào, tôi là Nathan. Tôi là nhà phân tích dữ liệu chính ở Tổ chức An toàn và Tin
cậy tại Google. Tôi gia nhập Lực lượng Dự bị Thủy quân lục chiến khi đang học đại học, và
đơn vị dự bị tôi tham gia là đơn vị pháo dã chiến. Vì vậy, sau khi tham gia trại huấn luyện
Thủy quân lục chiến đầy thử thách, tôi theo học trường điều khiển hướng bắn pháo dã chiến.
Nếu bạn chưa biết, việc điều khiển hướng bắn pháo là đầu não của pháo dã chiến, chúng tôi
sử dụng rất nhiều loại máy tính để tính toán hướng đi của pháo. Nhưng đề phòng trường hợp
máy tính hỏng, chúng tôi cũng đã được đào tạo cách sử dụng thước loga để dự phòng.
Một năm sau, tôi có cơ hội trở thành tài xế xe tải thay vì việc chính của tôi là lính pháo
binh dã chiến, tôi được điều đến Iraq để lái xe tải cho đại đội bộ binh. Sau khi trở về từ Iraq,
tôi đã hoàn thành bằng cử nhân và trở thành kỹ sư ứng dụng ở Austin, Texas, cuối cùng tôi
thấy mình cần phải thay đổi và tập trung vào kinh doanh. Và đó là lúc tôi bắt đầu yêu thích
việc phân tích dữ liệu, khi đang tìm hiểu rất nhiều về kinh doanh.
Tôi đã mất một vài năm, rồi mới bắt đầu quan tâm đến phân tích dữ liệu để bắt đầu
công việc và bắt đầu làm việc toàn thời gian, thực sự bắt tay vào xử lý dữ liệu. Một số việc tôi
đã làm để đặt nền tảng sẵn sàng và chuẩn bị đủ điều kiện cho công việc này là tham gia khóa
học Courseara về R và tôi cũng tham gia các sự kiện hackathon vào cuối tuần tại các trường
đại học. Họ công bố bộ dữ liệu vào tối thứ Sáu và đến chiều Chủ nhật, bạn phải đưa ra các
khuyến nghị. Đó là hai cách rất hay để tôi tự chuẩn bị, tích lũy kinh nghiệm và thể hiện sự
quan tâm sâu sắc đến phân tích dữ liệu.
Công việc đầu tiên của tôi, nơi tôi được làm phân tích dữ liệu toàn thời gian là ở một
ngân hàng lớn và tôi như đang ở trên thiên đường. Tôi thực sự được sử dụng SQL và sử dụng
Tableau rất nhiều. Được tham gia hội thảo Tableau.
Rất tuyệt vời. Tôi rất may mắn có được cơ hội chuyển tới Google với vị trí hiện tại. Đó
là với tổ chức An toàn và Tin cậy. Điều thú vị khiến tôi rất hài lòng là giống như trong quân
đội, công việc của tôi có nhiệm vụ là bảo vệ mọi người, điều đó rất thú vị.
Những điều đã thấm nhuần trong tôi kể từ khi ở Thủy quân mà đến nay vẫn còn chính
là sự chú ý đến từng chi tiết. Điều đó rất quan trọng trong quân ngũ, nhất là ở với pháo binh
dã chiến. Thứ hai là tầm quan trọng của giao tiếp. Bạn có những thông tin chi tiết của riêng
mình. Bạn cần đảm bảo rằng mình có thể truyền đạt những điều đó thật rõ ràng cho những
người bạn làm việc cùng và thứ ba là sự hợp tác. Trong quân đội, làm việc theo nhóm là chìa
khóa thành công. Bạn thực sự cần dựa vào đội của mình. Điều đó áp dụng cho cả sự nghiệp
của tôi sau khi rời Thủy quân.
Học phần 3: Chuẩn bị dữ liệu để khám phá
Tuần 1: Các kiểu và cấu trúc dữ liệu
Tất cả chúng ta đều tạo ra rất nhiều dữ liệu trong cuộc sống hàng ngày. Trong phần này
của khóa học, bạn sẽ xem cách chúng tôi tạo dữ liệu và cách các nhà phân tích quyết định dữ
liệu nào cần thu thập để phân tích. Bạn cũng sẽ tìm hiểu về dữ liệu có cấu trúc và phi cấu trúc,
loại dữ liệu và định dạng dữ liệu khi bắt đầu nghĩ về cách chuẩn bị dữ liệu để khám phá.
Mục tiêu học tập:
 Giải thích cách dữ liệu được tạo như một phần trong các hoạt động hàng ngày có tham
chiếu đến các loại dữ liệu được tạo
 Giải thích các yếu tố cần được xem xét khi đưa ra quyết định về việc thu thập dữ liệu
 Giải thích sự khác biệt giữa dữ liệu có cấu trúc và phi cấu trúc
 Thảo luận về sự khác biệt giữa dữ liệu và kiểu dữ liệu
 Giải thích mối quan hệ giữa các loại dữ liệu, trường và giá trị
 Thảo luận về các định dạng dữ liệu rộng và dài với các tham chiếu đến tổ chức và mục
đích
Chương 1: Khám phá dữ liệu
Giới thiệu về khám phá dữ liệu
Hình dung điều này: Bạn đang làm việc trên một dự án. Bạn đã hỏi tất cả các câu hỏi
phù hợp, áp dụng tư duy có cấu trúc và bạn hoàn toàn đồng bộ với các bên liên quan của mình.
Bạn đang có một khởi đầu tuyệt vời. Nhưng còn một bước nữa trong quy trình: chuẩn bị dữ
liệu một cách chính xác. Đây là lúc hiểu được các loại dữ liệu và cấu trúc dữ liệu khác nhau.
Biết điều này cho phép bạn tìm ra loại dữ liệu nào phù hợp với câu hỏi mà bạn đang trả lời.
Ngoài ra, bạn sẽ đạt được các kỹ năng thực tế về cách trích xuất, sử dụng, sắp xếp và bảo vệ
dữ liệu của mình.
Xin chào, tên tôi là Hallie và tôi là trưởng nhóm phân tích tại Google. Tôi làm việc với
các công ty trong ngành chăm sóc sức khỏe. Tôi rất vui mừng chào đón bạn đến với khóa học
này. Cho đến nay, bạn đã xây dựng kỹ năng phân tích dữ liệu của mình theo nhiều cách khác
nhau. Bạn đã học cách đặt câu hỏi phù hợp, xác định vấn đề và trình bày phân tích của mình
theo cách phù hợp với nhu cầu của các bên liên quan. Nói cách khác, bạn đã học cách kể một
câu chuyện bằng dữ liệu.
Bây giờ chúng ta sẽ tìm hiểu thêm về dữ liệu mà bạn sẽ cần để kể câu chuyện hay nhất
có thể. Nhưng trước khi chúng ta làm điều đó, tôi muốn kể cho bạn nghe câu chuyện của tôi.
Tôi sử dụng phân tích để giúp các công ty chăm sóc sức khỏe phát triển các giải pháp tiếp thị
kỹ thuật số giúp doanh nghiệp và thương hiệu của họ mạnh hơn. Nhóm của tôi tìm thấy các
cơ hội kinh doanh và truyền thông dựa trên thông tin chi tiết về ngành và dữ liệu mới nhất.
Tôi đã làm việc trong lĩnh vực chăm sóc sức khỏe được khoảng năm năm, và điều đó thật
tuyệt. Tôi thực sự thích thú khi có thể sử dụng dữ liệu để giúp tạo ra sự thay đổi trong một
ngành quan trọng như vậy.
Như bạn sẽ khám phá trong khóa học này, dữ liệu có thể là nhân vật chính trong một
câu chuyện rất mạnh mẽ. Tôi hoàn toàn thích sử dụng phân tích để kể câu chuyện đó theo cách
hấp dẫn và nhiều thông tin. Đây là một ví dụ thực tế về cách tôi đã sử dụng dữ liệu để kể một
câu chuyện. Trong công việc của tôi, chúng tôi phân tích dữ liệu đăng ký Medicare theo thời
gian và tạo mối liên hệ với cách mọi người nghiên cứu các chương trình Medicare trên Google.
Khi những người từ 65 tuổi trở lên trở thành những người đưa ra quyết định sáng suốt hơn
cho sức khỏe của họ, tôi sử dụng dữ liệu để tìm hiểu xem liệu số người đăng ký Medicare có
tăng hay không và tìm kiếm trên Google đóng vai trò gì nếu nhu cầu tăng. Bây giờ, điều rất
quan trọng là tôi phải đảm bảo dữ liệu có liên quan và hợp lệ. Tôi cũng phải chú ý đến các câu
hỏi xung quanh quyền truy cập và tính công bằng trong khi duy trì quyền riêng tư của những
người tiến hành tìm kiếm. Kết thúc có hậu cho câu chuyện của tôi là dữ liệu trong những phát
hiện của tôi rất hữu ích cho các chuyên gia y tế và bệnh nhân của họ.
Có rất nhiều dữ liệu hữu ích ngoài kia và bạn đang xây dựng các kỹ năng cần thiết để
tìm và sử dụng đúng dữ liệu theo cách tốt nhất. Trong khóa học này, bạn sẽ tiếp tục mài giũa
những kỹ năng đó. Vì vậy, bạn đã nghe nhiều về các bước của quy trình phân tích dữ liệu:
Hỏi, Chuẩn bị, Xử lý, Phân tích, Chia sẻ và Hành động. Bây giờ là lúc học cách chuẩn bị dữ
liệu. Bạn sẽ học cách xác định cách dữ liệu được tạo và thu thập, đồng thời bạn sẽ khám phá
các định dạng, loại và cấu trúc dữ liệu khác nhau. Chúng tôi sẽ đảm bảo rằng bạn biết cách
chọn và sử dụng dữ liệu sẽ giúp bạn hiểu và ứng phó với một vấn đề kinh doanh. Và bởi vì
không phải tất cả dữ liệu đều phù hợp với từng nhu cầu, nên bạn sẽ học cách phân tích dữ liệu
để tìm ra sự thiên vị và độ tin cậy. Chúng ta cũng sẽ khám phá ý nghĩa của dữ liệu sạch. Nhưng
xin chờ chút nữa. Bạn cũng sẽ hiểu rõ hơn về cơ sở dữ liệu. Chúng tôi sẽ đề cập đến chúng là
gì và cách các nhà phân tích sử dụng chúng. Bạn thậm chí sẽ có thể trích xuất dữ liệu của riêng
mình từ cơ sở dữ liệu bằng cách sử dụng một vài công cụ mà bạn đã quen thuộc: bảng tính và
SQL.
Chìa khóa ở đây là sự kiên nhẫn. Giống như bất cứ điều gì đáng làm, điều này sẽ mất
thời gian và thực hành. Và tôi sẽ ở bên bạn trên mỗi bước đường. Tuyệt vời. Một vài điều cuối
cùng chúng tôi sẽ đề cập đến là những điều cơ bản về tổ chức dữ liệu và quy trình bảo vệ dữ
liệu của bạn. Dữ liệu hoạt động tốt nhất khi nó được tổ chức. Và nếu bạn đang tổ chức dữ liệu
của mình, bạn cũng sẽ muốn bảo vệ nó. Tôi sẽ chỉ cho bạn cách làm cả hai và áp dụng nó vào
phân tích của riêng bạn. Tôi rất vui được giúp bạn viết nên câu chuyện cá nhân của riêng mình
khi bạn tiếp tục khám phá thế giới phân tích dữ liệu. Vì vậy, hãy làm điều đó.
Hallie: Những hiểu biết sâu sắc về dữ liệu
Y tế chỉ là một nơi thực sự hấp dẫn ở Mỹ. Đó là một ngành thực sự đáng kinh ngạc để
làm việc vì nó có truyền thống lâu đời và các công ty chăm sóc sức khỏe, không giống như
các công ty công nghệ khác, thực sự chưa sử dụng dữ liệu để đưa ra quyết định.
Khi tôi còn học đại học, tôi có một giáo sư không muốn chúng tôi có sách giáo khoa vì
ông ấy chỉ nói rằng ngành chăm sóc sức khỏe đang thay đổi quá nhanh và sẽ chẳng có nghĩa
lý gì nếu có sách giáo khoa, vốn chỉ là một phần tĩnh của văn bản khi mọi thứ chỉ thực sự phát
triển. Vì vậy, tôi muốn nói rằng chăm sóc sức khỏe và dữ liệu và cả hai kết hợp với nhau là
một khái niệm mới hơn sử dụng dữ liệu lớn, sử dụng máy học và trí tuệ nhân tạo để hỗ trợ
ngành chăm sóc sức khỏe.
Tôi bắt đầu phân tích một lượng lớn dữ liệu bệnh nhân. Đó là lần đầu tiên tôi thực sự
làm việc với các tập dữ liệu khổng lồ như vậy và tôi thấy thật thú vị khi chúng tôi có thể lấy
tất cả các tập dữ liệu này và tổng hợp chúng và cho phép chúng tôi thực sự cung cấp một số
hiểu biết và xu hướng thú vị cho hệ thống bệnh viện của mình. Đó là lần đầu tiên tôi bắt đầu
nghĩ về phân tích dữ liệu, phân tích dữ liệu, như một nghề nghiệp khả thi đối với tôi. Đó thực
sự là điều đã đưa tôi đến với vai trò trưởng nhóm phân tích này tại Google, nơi tôi có thể sử
dụng kiến thức và bộ kỹ năng phân tích bộ dữ liệu đó và thực hiện công việc đó hàng ngày, vì
vậy, thực sự, mọi cuộc trò chuyện của tôi với khách hàng đều được cung cấp thông tin về dữ
liệu cuộc hội thoại.
Tôi làm việc trong ngành chăm sóc sức khỏe. Chúng tôi có các công ty tiếp thị trên các
nền tảng của chúng tôi, như Google Tìm kiếm và YouTube. Chúng tôi giúp họ hiểu về ngành
chăm sóc sức khỏe để họ có thể tiếp thị tốt hơn tới đối tượng mà họ đang cố gắng tiếp cận.
Cho dù bạn là công ty bảo hiểm chăm sóc sức khỏe hay bạn là nhà cung cấp dịch vụ
chăm sóc sức khỏe, có thể là hệ thống bệnh viện, họ đều có những nhu cầu khác nhau về cách
họ muốn tiếp cận đối tượng của mình bằng cách sử dụng các nền tảng của Google. Chúng tôi
giúp họ tối ưu hóa chi tiêu tiếp thị, nhưng chúng tôi cũng thực hiện rất nhiều nghiên cứu trong
ngành chăm sóc sức khỏe. Một số nghiên cứu người dùng, một số hiểu biết về cách người
dùng thực sự chỉ tìm kiếm trên Google để cho họ biết điều gì đang thực sự xảy ra trong ngành
và cách họ có thể tiếp thị hiệu quả.
Tôi muốn nói rằng các kỹ năng kỹ thuật của tôi với phân tích dữ liệu đã đến với thời
gian. Kỹ năng quan trọng nhất mà tôi tìm thấy, cũng đã theo thời gian và phát triển cùng với
tôi, chỉ là khía cạnh sáng tạo của phân tích dữ liệu. Ý tôi là, bạn thực sự có thể học được rất
nhiều kỹ năng SQL và R, và tôi biết một số trong số đó nằm trong khóa học. Nhưng thực sự,
khía cạnh sáng tạo là thứ chỉ đi kèm với kinh nghiệm. Khi bạn đang xem một tập dữ liệu, bạn
có thể nhìn nó theo một cách và phân tích nó theo một cách và sau đó nhờ người khác xem nó
hoặc nhìn nó một tuần sau đó, và rồi đột nhiên xu hướng mà bạn đang nhìn thấy là hoàn toàn
khác nhau. Bạn phải lấy rất nhiều mẩu thông tin này, tôi thích gọi chúng là những mảnh ghép,
và ghép lại với nhau thành một câu chuyện thực sự hay bằng cách sử dụng dữ liệu. Bộ kỹ năng
đó là thứ tôi học được khi làm việc trong lĩnh vực tư vấn và tôi đã đưa nó lên Google và thực
sự có thể trau dồi rất nhiều kỹ năng đó cũng như một số kỹ năng chuyên môn hơn. Mặt kỹ
thuật và sáng tạo là những gì tôi ngày càng yêu thích.
Tên tôi là Hallie. Tôi là trưởng nhóm phân tích tại Google, đặc biệt làm việc trong
ngành chăm sóc sức khỏe.
Chương 2: Thu thập dữ liệu
Thu thập dữ liệu trong thế giới của chúng ta
Hiện tại, dữ liệu đang được tạo ra trên toàn thế giới và chúng ta đang nói về rất nhiều
dữ liệu. Mỗi phút mỗi ngày có hàng triệu tin nhắn và hàng trăm triệu email được gửi đi. Trên
hết, hàng triệu lượt tìm kiếm trực tuyến được thực hiện và các video được xem và những con
số này ngày càng tăng.
Đó là rất nhiều dữ liệu. Hãy tìm hiểu thêm về cách nó được tạo ra và sử dụng. Trong
video này, chúng ta sẽ nói về cách dữ liệu có thể được tạo ra và cách các ngành tự thu thập dữ
liệu.
Mỗi mẩu thông tin là dữ liệu. Tất cả dữ liệu đó thường được tạo ra do hoạt động của
chúng ta trên thế giới. Những ngày này, chúng tôi dành rất nhiều thời gian trực tuyến. Với
phương tiện truyền thông xã hội và thiết bị di động, hàng triệu triệu người đang thêm vào
lượng dữ liệu khổng lồ ngoài kia, mỗi ngày. Hãy suy nghĩ về nó như thế này. Mỗi bức ảnh kỹ
thuật số trực tuyến là một phần dữ liệu. Mỗi bức ảnh thậm chí còn chứa nhiều dữ liệu hơn, từ
số lượng pixel đến màu sắc có trong mỗi pixel đó.
Nhưng đó không phải là cách duy nhất để tạo ra dữ liệu. Chúng tôi cũng có thể tạo dữ
liệu bằng cách thu thập thông tin. Việc tạo và thu thập dữ liệu này đi kèm với một vài điều
nữa cần suy nghĩ. Nó cần phải được thực hiện với sự cân nhắc về đạo đức để chúng tôi duy trì
quyền và sự riêng tư của mọi người. Chúng ta sẽ tìm hiểu thêm về điều đó sau này.
Bây giờ, hãy xem một ví dụ thực tế. Cục điều tra dân số Hoa Kỳ sử dụng các biểu mẫu
để thu thập dữ liệu về dân số của đất nước. Dữ liệu này được sử dụng vì một số lý do, chẳng
hạn như tài trợ cho trường học, bệnh viện và sở cứu hỏa. Cục cũng thu thập thông tin về những
thứ như doanh nghiệp Hoa Kỳ, tạo dữ liệu của riêng họ trong quá trình này. Điều tuyệt vời về
điều này là những người khác sau đó có thể sử dụng dữ liệu cho nhu cầu của riêng họ, bao
gồm cả phân tích. Cuộc khảo sát kinh doanh hàng năm được sử dụng để tìm ra nhu cầu của
các doanh nghiệp và cách cung cấp cho họ các nguồn lực để giúp họ thành công.
Tôi thực sự tạo dữ liệu trong các phân tích mà tôi thực hiện cho ngành chăm sóc sức
khỏe. Chúng tôi thực hiện rất nhiều cuộc khảo sát để tìm hiểu xem bệnh nhân cảm thấy thế
nào về một số điều liên quan đến việc chăm sóc sức khỏe của họ. Ví dụ: một cuộc khảo sát đã
hỏi bệnh nhân cảm thấy thế nào về khám bệnh từ xa so với khám bác sĩ trực tiếp. Dữ liệu
chúng tôi thu thập giúp các công ty mà chúng tôi hợp tác cải thiện dịch vụ chăm sóc mà bệnh
nhân của họ nhận được.
Dữ liệu khảo sát chỉ là một ví dụ. Có tất cả các loại dữ liệu được tạo ra mọi lúc và có
rất nhiều cách khác nhau để thu thập dữ liệu đó. Ngay cả những việc đơn giản như một cuộc
phỏng vấn cũng có thể giúp ai đó thu thập dữ liệu. Hãy tưởng tượng bạn đang trong một cuộc
phỏng vấn việc làm. Để gây ấn tượng với người quản lý tuyển dụng, bạn muốn chia sẻ thông
tin về bản thân. Người quản lý tuyển dụng thu thập dữ liệu đó và phân tích nó để giúp họ quyết
định có thuê bạn hay không. Nhưng nó đi theo cả hai cách. Bạn cũng có thể thu thập dữ liệu
của riêng mình về công ty để giúp bạn quyết định xem công ty có phù hợp với bạn hay không.
Hoặc bạn có thể sử dụng dữ liệu bạn thu thập được để đưa ra những câu hỏi chu đáo để hỏi
người phỏng vấn.
Họ sử dụng rất nhiều quan sát trong công việc của họ. Ví dụ, họ có thể thu thập dữ liệu
bằng cách nghiên cứu hành vi của động vật hoặc quan sát vi khuẩn dưới kính hiển vi. Trước
đó chúng ta đã nói về các biểu mẫu mà Cục điều tra dân số Hoa Kỳ sử dụng để thu thập dữ
liệu.
Biểu mẫu, bảng câu hỏi và khảo sát là những cách thường được sử dụng để thu thập và
tạo dữ liệu. Một điều cần lưu ý: dữ liệu được tạo trực tuyến không phải lúc nào cũng xảy ra
trực tiếp. Bạn đã bao giờ tự hỏi tại sao một số quảng cáo trực tuyến dường như đưa ra các đề
xuất thực sự chính xác hoặc làm thế nào một số trang web ghi nhớ các tùy chọn của bạn? Điều
này được thực hiện bằng cách sử dụng cookie, là các tệp nhỏ được lưu trữ trên máy tính có
chứa thông tin về người dùng.
Cookie có thể giúp thông báo cho các nhà quảng cáo về sở thích và thói quen cá nhân
của bạn dựa trên hoạt động lướt web trực tuyến của bạn mà không cần nhận dạng cá nhân bạn.
How data is collected:
 Interviews
 Observations
 Forms
 Questionnaires
 Surveys
 Cookies
Là một nhà phân tích trong thế giới thực, bạn sẽ có tất cả các loại dữ liệu ngay trong
tầm tay và rất nhiều dữ liệu nữa. Biết cách dữ liệu được tạo có thể giúp thêm ngữ cảnh vào dữ
liệu và biết cách thu thập dữ liệu có thể giúp quá trình phân tích dữ liệu hiệu quả hơn. Sắp tới,
bạn sẽ học cách quyết định dữ liệu nào cần thu thập cho phân tích của mình. Vậy nên hãy chờ
trong giây lát.
Xác định dữ liệu cần thu thập
Chào mừng trở lại. Chúng ta đã nói rất nhiều về tất cả dữ liệu trên thế giới. Nhưng với
tư cách là nhà phân tích dữ liệu, bạn sẽ cần quyết định loại dữ liệu nào sẽ thu thập và sử dụng
cho mọi dự án. Với lượng dữ liệu gần như vô tận ngoài kia, đây có thể là một vấn đề nan giải
về dữ liệu, nhưng có một tin tốt. Trong video này, bạn sẽ tìm hiểu những yếu tố cần xem xét
khi thu thập dữ liệu. Thông thường, bạn sẽ có một khởi đầu thuận lợi trong việc tìm ra dữ liệu
phù hợp cho công việc, bởi vì dữ liệu bạn cần sẽ được cung cấp cho bạn, hoặc nhiệm vụ hoặc
vấn đề kinh doanh của bạn sẽ thu hẹp các lựa chọn của bạn.
Hãy bắt đầu với một câu hỏi như, điều gì khiến giao thông vào giờ cao điểm tăng lên ở
thành phố của bạn? Trước tiên, bạn cần biết dữ liệu sẽ được thu thập như thế nào. Bạn có thể
sử dụng các quan sát về mô hình giao thông để đếm số lượng ô tô trên đường phố trong những
thời điểm cụ thể. Bạn nhận thấy rằng những chiếc ô tô đang lùi lại trên một con phố cụ thể.
Điều đó đưa chúng ta đến các nguồn dữ liệu. Trong ví dụ về lưu lượng truy cập của chúng tôi,
các quan sát của bạn sẽ là dữ liệu của bên thứ nhất. First – party data is Data collection by
an individual or group using their own resources (Dữ liệu bên thứ nhất là Dữ liệu được thu
thập bởi một cá nhân hoặc nhóm sử dụng tài nguyên của riêng họ). Thu thập dữ liệu của bên
thứ nhất thường là phương pháp ưa thích vì bạn biết chính xác dữ liệu đó đến từ đâu. Second
– party data is Data collected by a group directly from its audience and then sold ( Dữ liệu
bên thứ hai là dữ liệu do một nhóm thu thập trực tiếp từ đối tượng của mình rồi bán).
Trong ví dụ của chúng tôi, nếu bạn không thể thu thập dữ liệu của riêng mình, bạn có
thể mua dữ liệu đó từ một tổ chức dẫn đầu các nghiên cứu về mô hình giao thông trong thành
phố của bạn. Dữ liệu này không bắt đầu từ bạn, nhưng nó vẫn đáng tin cậy vì nó đến từ một
nguồn có kinh nghiệm về phân tích lưu lượng truy cập. Điều tương tự không phải lúc nào cũng
đúng đối với dữ liệu của bên thứ ba hoặc dữ liệu được thu thập từ các nguồn bên ngoài không
trực tiếp thu thập dữ liệu đó. Dữ liệu này có thể đến từ một số nguồn khác nhau trước khi bạn
điều tra nó. Nó có thể không đáng tin cậy, nhưng điều đó không có nghĩa là nó không hữu ích.
Bạn sẽ chỉ muốn đảm bảo rằng bạn đã kiểm tra tính chính xác, sai lệch và độ tin cậy của nó.
Trên thực tế, bất kể bạn sử dụng loại dữ liệu nào, nó cần được kiểm tra độ chính xác
và độ tin cậy. Chúng ta sẽ tìm hiểu thêm về quá trình đó sau. Hiện tại, chỉ cần nhớ rằng dữ
liệu bạn chọn sẽ áp dụng cho nhu cầu của bạn và dữ liệu đó phải được phê duyệt để sử dụng.
Là một nhà phân tích dữ liệu, công việc của bạn là quyết định sử dụng dữ liệu nào và điều đó
có nghĩa là chọn dữ liệu có thể giúp bạn tìm câu trả lời và giải quyết vấn đề cũng như không
bị phân tâm bởi dữ liệu khác. Trong ví dụ về lưu lượng truy cập của chúng tôi, dữ liệu tài
chính có thể không hữu ích nhưng dữ liệu hiện tại về thời gian lưu lượng truy cập cao sẽ hữu
ích.
Được rồi. Bây giờ hãy nói về lượng dữ liệu cần thu thập. Population is All possible
data values in a certain dataset (Tập hợp là Trong phân tích dữ liệu, tất cả các giá trị dữ liệu
có thể có trong tập dữ liệu). Nếu bạn đang phân tích dữ liệu về lưu lượng ô tô trong thành phố,
dân số của bạn sẽ là tất cả ô tô trong khu vực đó. Nhưng việc thu thập dữ liệu từ toàn bộ dân
số có thể khá khó khăn. Đó là lý do tại sao một mẫu có thể hữu ích. Sample is A part of a
population that is representative of the population ( Trong phân tích dữ liệu, một phần đại
diện cho toàn bộ tập hợp). Đó là lý do tại sao một mẫu có thể hữu ích. Mẫu là một bộ phận
của quần thể đại diện cho quần thể. Bạn có thể thu thập một mẫu dữ liệu về một điểm trong
thành phố và phân tích lưu lượng truy cập ở đó hoặc bạn có thể lấy một mẫu ngẫu nhiên từ tất
cả dữ liệu hiện có trong dân số. Cách bạn chọn mẫu sẽ phụ thuộc vào dự án của bạn.
Khi bạn thu thập dữ liệu, bạn cũng sẽ muốn đảm bảo rằng bạn chọn đúng loại dữ liệu.
Đối với dữ liệu lưu lượng truy cập, loại dữ liệu phù hợp có thể là ngày của bản ghi lưu lượng
truy cập được lưu trữ ở định dạng ngày. Ngày có thể giúp bạn hình dung những ngày nào trong
tuần có khả năng có lưu lượng truy cập cao trong tương lai. Chúng ta sẽ sớm khám phá chủ
đề này chi tiết hơn.
Data collection considerations:
 How the data will be collected
 Choose data sources
 Decide what data to use
 How much data to collect
 Select the right data type
 Determine the time frame
Cuối cùng, bạn cần xác định khung thời gian để thu thập dữ liệu. Trong ví dụ của chúng
tôi, nếu bạn cần câu trả lời ngay lập tức, bạn phải sử dụng dữ liệu lịch sử, là dữ liệu đã tồn tại.
Nhưng giả sử bạn cần theo dõi các mẫu lưu lượng truy cập trong một khoảng thời gian dài.
Điều đó có thể ảnh hưởng đến các quyết định khác mà bạn đưa ra trong quá trình thu thập dữ
liệu.
Giờ đây, bạn đã biết thêm về các cân nhắc thu thập dữ liệu khác nhau mà bạn sẽ sử
dụng với tư cách là nhà phân tích dữ liệu. Do đó, bạn sẽ có thể tìm thấy dữ liệu phù hợp khi
bắt đầu tự thu thập dữ liệu đó. Vẫn còn nhiều điều cần tìm hiểu về thu thập dữ liệu, vì vậy hãy
chú ý theo dõi.
Chương 3: Phân biệt giữa các định dạng và cấu trúc dữ liệu
Khám phá các định dạng dữ liệu
Tôi không biết bạn thế nào, nhưng khi chọn một bộ phim để xem, đôi khi tôi bị mắc
kẹt giữa một vài lựa chọn. Nếu muốn phấn khích hoặc hồi hộp, tôi có thể xem phim kinh dị,
nhưng nếu cần tiếng cười sảng khoái, tôi sẽ chọn phim hài. Nếu tôi thực sự không thể quyết
định giữa hai bộ phim, tôi thậm chí có thể sử dụng một số kỹ năng phân tích dữ liệu của mình
để so sánh và đối chiếu chúng.
Nghĩ lại thì, thực sự cần phải có nhiều phim hơn về các nhà phân tích dữ liệu. Tôi sẽ
xem nó, nhưng vì chúng tôi không thể xem phim về dữ liệu, ít nhất là chưa, nên chúng tôi sẽ
làm điều tốt nhất tiếp theo: xem dữ liệu về phim! Chúng ta sẽ xem xét bảng tính này với dữ
liệu phim. Chúng tôi biết mình có thể so sánh các bộ phim và thể loại phim khác nhau. Hóa
ra, bạn có thể làm tương tự với dữ liệu và định dạng dữ liệu. Hãy sử dụng bảng tính dữ liệu
phim của chúng tôi để hiểu cách thức hoạt động của nó.
Chúng ta sẽ bắt đầu với dữ liệu định lượng và định tính. Nếu chúng ta kiểm tra cột A,
chúng ta sẽ tìm thấy tiêu đề của các bộ phim. Đây là dữ liệu định tính vì không thể đếm, đo
lường hoặc biểu thị dễ dàng bằng các con số. Dữ liệu định tính thường được liệt kê dưới dạng
tên, danh mục hoặc mô tả. Trong bảng tính của chúng tôi, tiêu đề phim và diễn viên là dữ liệu
định tính.
Tiếp theo là dữ liệu định lượng, có thể được đo hoặc đếm và sau đó được biểu thị dưới
dạng số. Đây là dữ liệu có số lượng, số lượng hoặc phạm vi nhất định. Trong bảng tính của
chúng tôi ở đây, hai cột cuối cùng hiển thị ngân sách và doanh thu phòng vé của phim. Dữ
liệu trong các cột này được liệt kê bằng đô la, có thể đếm được, vì vậy chúng tôi biết rằng dữ
liệu là định lượng.
Chúng ta có thể đi sâu hơn nữa vào dữ liệu định lượng và chia nhỏ nó thành dữ liệu rời
rạc hoặc liên tục. Trước tiên hãy kiểm tra dữ liệu rời rạc. Discrete data is Data that is counted
and has a limited number of values ( Dữ liệu rời rạc là Dữ liệu đếm được và có một số giá trị
giới hạn). Đây là dữ liệu được tính và có số lượng giá trị giới hạn. Quay trở lại bảng tính của
chúng tôi, chúng tôi sẽ tìm thấy ngân sách của mỗi bộ phim và doanh thu phòng vé trong các
cột M và N. Đây là cả hai ví dụ về dữ liệu rời rạc có thể được tính và có số lượng giá trị hạn
chế. Ví dụ: số tiền mà một bộ phim kiếm được chỉ có thể được biểu thị bằng đúng hai chữ số
sau dấu thập phân để biểu thị xu. Không thể có bất cứ thứ gì giữa một và hai xu.
Continuous data is Data that is measured and can have almost any numeric value ( Dữ
liệu liên tục là dữ liệu được đo lường và có thể có hầu hết mọi giá trị số). Dữ liệu liên tục có
thể được đo bằng bộ đếm thời gian và giá trị của nó có thể được hiển thị dưới dạng số thập
phân với một số vị trí. Hãy tưởng tượng một bộ phim về các nhà phân tích dữ liệu mà tôi chắc
chắn sẽ tham gia vào một ngày nào đó. Bạn có thể biểu thị thời gian chạy của bộ phim đó là
110,0356 phút. Bạn thậm chí có thể thêm dữ liệu phân số sau dấu thập phân nếu cần.
Ngoài ra còn có dữ liệu không thứ tự và thứ tự. Nominal data is A type of qualitiative
data that is categorized without a set order (Dữ liệu không thứ tự là một loại dữ liệu định tính
được phân loại mà không thiết lập thứ tự). Nói cách khác, dữ liệu này không có trình tự. Đây
là một ví dụ nhanh. Giả sử bạn đang thu thập dữ liệu về phim. Bạn hỏi mọi người xem họ đã
xem một bộ phim nhất định chưa. Phản hồi của họ sẽ ở dạng dữ liệu danh nghĩa. Họ có thể trả
lời "Có", "Không" hoặc "Không chắc". Những lựa chọn này không có thứ tự cụ thể.
Ordinal data is A type qualitative data with a set order or scale (Dữ liệu có thứ tự là
Dữ liệu định tính với thứ tự hoặc có quy mô nhất định). Nếu bạn yêu cầu một nhóm người xếp
hạng một bộ phim từ 1 đến 5, một số người có thể xếp hạng phim đó là 2, những người khác
là 4, v.v. Những thứ hạng này theo thứ tự mức độ thích bộ phim của mỗi người.
Bây giờ hãy nói về dữ liệu nội bộ, internal data is data that lives within a company’s
own systems (Dữ liệu nội bộ là dữ liệu nằm trong hệ thống riêng của công ty). Ví dụ: nếu một
hãng phim đã biên soạn tất cả dữ liệu trong bảng tính chỉ bằng các phương pháp thu thập của
riêng họ, thì đó sẽ là dữ liệu nội bộ của họ. Điều tuyệt vời về dữ liệu nội bộ là nó thường đáng
tin cậy hơn và dễ thu thập hơn, nhưng trong bảng tính này, nhiều khả năng hãng phim phải sử
dụng dữ liệu do các hãng phim và nguồn khác sở hữu hoặc chia sẻ vì dữ liệu đó bao gồm các
bộ phim họ không làm . Điều đó có nghĩa là họ sẽ thu thập dữ liệu bên ngoài. External data
is data that lives and is generated outside of an organization (Dữ liệu bên ngoài là dữ liệu tồn
tại và được tạo bên ngoài tổ chức). Dữ liệu bên ngoài trở nên đặc biệt có giá trị khi phân tích
của bạn dựa trên càng nhiều nguồn càng tốt.
Một điều tuyệt vời về dữ liệu này là nó có cấu trúc. Structured data is Data organized
in a certain format such as rows and columns (Dữ liệu có cấu trúc là Dữ liệu được tổ chức
theo một định dạng nhất định chẳng hạn như hàng và cột). Bảng tính và cơ sở dữ liệu quan hệ
là hai ví dụ về phần mềm có thể lưu trữ dữ liệu theo cách có cấu trúc. Bạn có thể nhớ khám
phá trước đây của chúng tôi về tư duy có cấu trúc, giúp bạn thêm một khuôn khổ cho một vấn
đề để bạn có thể giải quyết nó một cách có tổ chức và hợp lý. Bạn có thể nghĩ về dữ liệu có
cấu trúc theo cách tương tự. Có một khuôn khổ cho dữ liệu làm cho dữ liệu có thể dễ dàng tìm
kiếm và sẵn sàng phân tích hơn.
Là một nhà phân tích dữ liệu, bạn sẽ làm việc với nhiều dữ liệu có cấu trúc, thường ở
dạng bảng, bảng tính hoặc cơ sở dữ liệu quan hệ, nhưng đôi khi bạn sẽ bắt gặp dữ liệu phi cấu
trúc. Unstructured data id data that is not organized in any easily identifiable manner (Dữ
liệu phi cấu trúc là Dữ liệu không được tổ chức theo bất kỳ cách thức dễ nhận dạng nào). Các
tệp âm thanh và video là những ví dụ về dữ liệu phi cấu trúc vì không có cách nào rõ ràng để
xác định hoặc sắp xếp nội dung của chúng. Dữ liệu phi cấu trúc có thể có cấu trúc bên trong,
nhưng dữ liệu không nằm gọn trong các hàng và cột như dữ liệu có cấu trúc.
Hiểu dữ liệu có cấu trúc
Xin chào, rất vui được gặp lại bạn! Trước đó, chúng tôi đã so sánh một số định dạng
dữ liệu, bao gồm cả dữ liệu có cấu trúc và không có cấu trúc. Hầu hết dữ liệu được tạo ngay
bây giờ thực sự không có cấu trúc. Các tệp âm thanh, tệp video, email, ảnh và phương tiện
truyền thông xã hội đều là những ví dụ về dữ liệu phi cấu trúc. Chúng có thể khó phân tích
hơn ở định dạng phi cấu trúc của chúng.
Nhưng đây là tin tốt, hầu hết thời gian bạn sẽ làm việc với dữ liệu có cấu trúc. Ví dụ:
nếu bạn cần phân tích dữ liệu về dữ liệu phi cấu trúc trong email, ảnh và trang web truyền
thông xã hội, rất có thể dữ liệu đó sẽ được cấu trúc để phân tích trước khi bạn tiếp cận. Do đó,
tôi muốn khám phá dữ liệu có cấu trúc nhiều hơn một chút. Nhắc lại nhanh, dữ liệu có cấu
trúc là dữ liệu được sắp xếp theo định dạng như hàng và cột. Nhưng chắc chắn có nhiều hơn
thế. Dữ liệu có cấu trúc hoạt động độc đáo trong mô hình dữ liệu. Data model is a model that
is used for organizing data elements and how they relate to one another (Mô hình dữ liệu là
một công cụ để tổ chức các phần tử dữ liệu và cách chúng liên quan với nhau).
Data elements is pieces of information, such as people’s names, account numbers, and
addresses (Phần tử dữ liệu là Một phần thông tin trong tập dữ liệu). Chúng là những mẩu thông
tin, chẳng hạn như tên, số tài khoản và địa chỉ của mọi người. Các mô hình dữ liệu giúp giữ
cho dữ liệu nhất quán và cung cấp bản đồ về cách tổ chức dữ liệu. Điều này giúp các nhà phân
tích và các bên liên quan khác dễ dàng hiểu được dữ liệu của họ và sử dụng dữ liệu đó cho
mục đích kinh doanh.
Ngoài việc hoạt động tốt trong các mô hình dữ liệu, dữ liệu có cấu trúc cũng hữu ích
cho cơ sở dữ liệu. Điều này giúp các nhà phân tích dễ dàng nhập, truy vấn và phân tích dữ liệu
bất cứ khi nào họ cần. Điều này cũng giúp làm cho việc trực quan hóa dữ liệu trở nên khá dễ
dàng vì dữ liệu có cấu trúc có thể được áp dụng trực tiếp vào biểu đồ, đồ thị, bản đồ nhiệt,
bảng điều khiển và hầu hết các biểu diễn dữ liệu trực quan khác.
Được rồi, giờ chúng ta đã biết rằng bảng tính và cơ sở dữ liệu lưu trữ tập dữ liệu là
những nguồn dữ liệu có cấu trúc được sử dụng rộng rãi. Sau khi bạn khám phá một số cấu trúc
dữ liệu khác, bạn sẽ kiểm tra thêm các loại dữ liệu bằng cách sử dụng bảng tính. Cuộc phiêu
lưu vẫn tiếp tục!
Chương 4: Khám phá các loại dữ liệu, trường và giá trị
Biết loại dữ liệu mà bạn đang làm việc
Đến bây giờ bạn đã học được rất nhiều về dữ liệu. Từ dữ liệu được tạo, đến dữ liệu
được thu thập, đến định dạng dữ liệu, bạn nên biết càng nhiều càng tốt về dữ liệu bạn sẽ sử
dụng để phân tích. Trong video này, chúng ta sẽ nói về một cách khác để bạn có thể mô tả dữ
liệu: kiểu dữ liệu. Data type is a specific kind of data attribute that tells what kind of value
the data is (Kiểu dữ liệu là thuộc tính mô tả một phần dữ liệu dựa trên các giá trị, ngôn ngữ
lập trình của nó hoặc các thao tác mà nó có thể thực hiện).
Nói cách khác, một kiểu dữ liệu cho bạn biết bạn đang làm việc với loại dữ liệu nào.
Các loại dữ liệu có thể khác nhau tùy thuộc vào ngôn ngữ truy vấn bạn đang sử dụng. Ví dụ:
SQL cho phép các loại dữ liệu khác nhau tùy thuộc vào cơ sở dữ liệu bạn đang sử dụng. Tuy
nhiên, bây giờ, hãy tập trung vào các loại dữ liệu mà bạn sẽ sử dụng trong bảng tính. Để giúp
chúng tôi, chúng tôi sẽ sử dụng bảng tính đã chứa đầy dữ liệu. Chúng tôi sẽ gọi nó là "Sở thích
đồ ngọt trên toàn thế giới thông qua tìm kiếm trên Google".
Data types in spreadsheets:
 Number
 Text or string
 Boolean
Bạn có thể tìm thấy các chương trình bảng tính phân loại chúng hơi khác một chút hoặc
bao gồm các loại khác, nhưng các loại giá trị này chỉ bao gồm mọi dữ liệu bạn sẽ tìm thấy
trong bảng tính. Chúng tôi sẽ xem xét tất cả những điều này chỉ trong một chút. Nhìn vào các
cột B, D và F, chúng tôi tìm thấy các loại dữ liệu số. Mỗi số biểu thị sở thích tìm kiếm cho các
cụm từ "bánh nướng nhỏ", "kem" và "kẹo" trong một tuần cụ thể. Con số càng gần 100 thì
cụm từ tìm kiếm đó càng phổ biến trong tuần đó. Một trăm đại diện cho mức độ phổ biến cao
nhất. Hãy nhớ rằng trong trường hợp này, 100 là giá trị tương đối, không phải số lượt tìm kiếm
thực tế. Nó đại diện cho số lượng tìm kiếm tối đa trong một thời gian nhất định. Hãy nghĩ về
nó giống như một tỷ lệ phần trăm trong một bài kiểm tra. Sau đó, tất cả các tìm kiếm khác
cũng có giá trị trên 100. Bạn cũng có thể nhận thấy điều này trong các tập dữ liệu khác. Sao
vàng cho 100! Nếu cần, bạn có thể thay đổi số thành phần trăm hoặc định dạng khác, chẳng
hạn như tiền tệ. Đây là tất cả các ví dụ về kiểu dữ liệu số.
Trong cột H, dữ liệu hiển thị món ăn phổ biến nhất cho mỗi tuần, dựa trên dữ liệu tìm
kiếm. Vì vậy, như chúng ta sẽ tìm thấy trong ô H4 trong tuần bắt đầu từ ngày 28 tháng 7 năm
2019, món ăn phổ biến nhất là kem. Đây là một ví dụ về Text or string data type is A
sequence of characters and punctuation that contains textual information ( Kiểu dữ liệu văn
bản là Một chuỗi các kí tự và dấu câu có chứa thông tin văn bản). Trong ví dụ này, thông tin
đó sẽ là món ăn và tên của mọi người. Chúng cũng có thể bao gồm các số, như số điện thoại
hoặc số trong địa chỉ đường phố. Nhưng những con số này sẽ không được sử dụng để tính
toán. Trong trường hợp này, chúng được xử lý như văn bản, không phải số.
Trong các cột C, E và G, có vẻ như chúng ta có một số văn bản. Nhưng văn bản ở đây
không phải là kiểu dữ liệu văn bản hoặc chuỗi. Thay vào đó, đó là kiểu dữ liệu Boolean.
Boolean data type is a data type with only two possible values, such as TRUE or FALSE (Dữ
liệu luận lý là Một kiểu dữ liệu chỉ có 2 giá trị cụ thể, thường là đúng hoặc sai).
Các cột C, E và G hiển thị dữ liệu Boolean cho biết sở thích tìm kiếm cho mỗi tuần, ít
nhất là 50 trên 100. Đây là cách nó hoạt động. Để có được dữ liệu này, chúng tôi đã tạo một
công thức tính toán xem dữ liệu sở thích tìm kiếm trong các cột B, D và F có từ 50 trở lên hay
không. Trong ô B4, sở thích tìm kiếm là 14. Trong ô C4, chúng tôi tìm thấy từ FALSE vì đối
với tuần dữ liệu này, sở thích tìm kiếm nhỏ hơn 50. Đối với mỗi ô trong cột C, E và G, chỉ có
hai giá trị có thể là đúng hoặc sai. Thay vào đó, chúng ta có thể thay đổi công thức để các từ
khác xuất hiện trong các ô này, nhưng đó vẫn là dữ liệu Boolean. Bạn sẽ sớm có cơ hội đọc
thêm về kiểu dữ liệu Boolean.
Hãy nói về một vấn đề phổ biến mà mọi người gặp phải trong bảng tính: nhầm kiểu dữ
liệu với giá trị ô. Ví dụ, trong ô B57, chúng ta có thể tạo công thức để tính toán dữ liệu trong
các ô khác. Điều này sẽ cung cấp cho chúng tôi mức trung bình của sở thích tìm kiếm về bánh
nướng nhỏ trong tất cả các tuần trong tập dữ liệu, là khoảng 15. Công thức hoạt động vì chúng
tôi đã tính toán bằng cách sử dụng loại dữ liệu số. Nhưng nếu chúng tôi thử với kiểu dữ liệu
văn bản hoặc chuỗi, chẳng hạn như dữ liệu trong cột C, chúng tôi sẽ gặp lỗi. Giá trị lỗi thường
xảy ra nếu nhập sai giá trị vào ô.
Bạn càng biết nhiều về loại dữ liệu của mình và loại dữ liệu nào sẽ sử dụng, bạn sẽ
càng gặp ít lỗi hơn. Chúng ta chưa xong đâu. Sắp tới, chúng ta sẽ đi sâu hơn vào mối quan hệ
giữa các kiểu dữ liệu, trường và giá trị. Hẹn sớm gặp lại.
Thành phần bảng dữ liệu
Đây là một câu đố cho bạn. Danh sách phát nhạc, chương trình làm việc theo lịch và
hộp thư đến email có điểm gì chung? Tôi sẽ cho bạn một gợi ý. Nó không phải là một phiên
mứt hàng tuần. Câu trả lời là tất cả chúng đều được sắp xếp trong bảng. Hãy tiếp tục và kiểm
tra hộp thư đến email của bạn hoặc danh sách phát yêu thích hoặc xem chương trình làm việc
trên lịch của bạn. Có bảng trong mỗi một! Một bảng dữ liệu hoặc dữ liệu dạng bảng có cấu
trúc rất đơn giản. Nó được sắp xếp theo hàng và cột. Bạn có thể gọi các hàng là "bản ghi" và
các cột là "trường".
Về cơ bản, chúng có nghĩa giống nhau, nhưng các bản ghi và trường có thể được sử dụng cho
bất kỳ loại bảng dữ liệu nào, trong khi các hàng và cột thường được dành riêng cho bảng tính.
Khi nói về cơ sở dữ liệu có cấu trúc, những người trong lĩnh vực phân tích dữ liệu thường sử
dụng "bản ghi" và "trường". Đôi khi, một trường cũng có thể tham chiếu đến một phần dữ liệu,
chẳng hạn như giá trị trong một ô. Trong mọi trường hợp, bạn sẽ nghe thấy cả hai phiên bản
của các thuật ngữ này được sử dụng trong suốt chương trình này và công việc của bạn.
Hãy quay lại ví dụ về danh sách phát của chúng tôi. Chúng tôi sẽ sử dụng các thuật ngữ
mới mà chúng tôi vừa giới thiệu. Vì vậy, mỗi bài hát là một kỷ lục. Mỗi bản ghi có các trường
giống như các bản ghi khác theo cùng một thứ tự. Nói cách khác, danh sách phát có cùng
thông tin về mỗi bài hát. Mỗi đặc điểm của bài hát, như tiêu đề và nghệ sĩ, là một lĩnh vực.
Mỗi trường riêng biệt có cùng kiểu dữ liệu, nhưng các trường khác nhau có thể có các kiểu
khác nhau.
Hãy để tôi chỉ cho bạn những gì tôi muốn nói. Đối với danh sách bài hát, tên bài hát là
một loại văn bản hoặc chuỗi, trong khi độ dài của bài hát có thể là một loại số nếu bạn đang
sử dụng nó để tính toán. Hoặc nó có thể là một loại ngày và thời gian. Cột dành cho mục yêu
thích là Boolean vì nó có hai giá trị có thể: yêu thích hoặc không yêu thích.
Chúng ta có thể xem bảng tính theo cách tương tự. Các bản ghi trong bảng tính có thể
là về đủ thứ: khách hàng, sản phẩm, hóa đơn hoặc bất kỳ thứ gì khác. Mỗi bản ghi có một số
trường tiết lộ thêm về khách hàng, sản phẩm hoặc hóa đơn. Giá trị trong mỗi ô chứa một phần
dữ liệu cụ thể, chẳng hạn như địa chỉ của khách hàng hoặc số tiền của hóa đơn. Là một nhà
phân tích dữ liệu, rất nhiều dữ liệu sẽ đến với bạn và các bản ghi, trường cũng như giá trị trong
bảng dữ liệu sẽ giúp bạn điều hướng phân tích. Hiểu cấu trúc của các bảng mà bạn đang làm
việc là một phần trong đó. Và hy vọng rằng trong khi bạn đang làm việc chăm chỉ với phân
tích của mình và các bảng đó, bạn có thể vui vẻ một chút với một bảng dữ liệu khác: bảng có
danh sách phát yêu thích của bạn!
Đáp ứng dữ liệu rộng và dài
Bạn có thể sử dụng các từ "rộng" và "dài" mọi lúc. Bạn có thể sử dụng "rộng" để mô tả
kích thước của một thứ gì đó từ bên này sang bên kia, chẳng hạn như một dòng sông rộng.
Nhưng một dòng sông cũng có thể di chuyển rất xa, vì vậy bạn cũng có thể gọi nó là "dài".
Chờ đợi! Trước khi bạn dừng video, tôi đảm bảo rằng bạn không vô tình nhấp vào nhầm hướng.
Tôi không ở đây để dạy bạn những từ bạn đã biết. Nhưng các từ "rộng" và "dài" cũng có thể
được sử dụng để mô tả dữ liệu. Vì vậy, tôi ở đây để giúp bạn hiểu dữ liệu rộng và dữ liệu dài.
Cho đến nay, bạn đã xử lý dữ liệu được sắp xếp chủ yếu ở định dạng rộng. Wide data
is Data in which every data subject has a single row with multiple columns to hold the values
of various attributes of subject (Dữ liệu rộng là tập dữ liệu trong đó mỗi chủ thể dữ liệu có
một hàng với nhiều cột để chứa các giá trị của các thuộc tính khác nhau của chủ đề). Đây là
một số dữ liệu rộng trong một bảng tính.
Bạn có thể nhớ rằng chúng tôi đã thảo luận về dữ liệu này về dân số của các quốc gia
Latinh và Caribê trước đó. Đối với tập dữ liệu này, mỗi hàng cung cấp tất cả thông tin dân số
về một quốc gia. Mỗi cột hiển thị dân số cho một năm khác nhau.
Dữ liệu rộng cho phép bạn dễ dàng xác định và nhanh chóng so sánh các cột khác nhau.
Trong ví dụ của chúng tôi, dữ liệu được sắp xếp theo thứ tự bảng chữ cái theo quốc gia, vì vậy,
bạn có thể so sánh dân số hàng năm của Antigua và Barbuda, Aruba và Bahamas bằng cách
chỉ kiểm tra các giá trị trong mỗi cột.
Định dạng dữ liệu rộng cũng giúp dễ dàng tìm và so sánh dân số của các quốc gia trong
các khoảng thời gian khác nhau. Ví dụ: bằng cách sắp xếp dữ liệu, chúng tôi phát hiện ra rằng
Brazil có dân số cao nhất trong tất cả các quốc gia vào năm 2010 và Quần đảo Virgin thuộc
Anh có dân số thấp nhất trong tất cả các quốc gia vào năm 2013.
Được rồi, bây giờ hãy khám phá dữ liệu này ở định dạng dài. Ở đây, dữ liệu không còn
được sắp xếp thành các cột theo năm. Tất cả các năm hiện nằm trong một cột với mỗi quốc
gia, chẳng hạn như Argentina, xuất hiện trong nhiều hàng, mỗi hàng cho mỗi năm dữ liệu.
Long data is Data in which each row is one time point per subject, so each subject will
have data in multiple rows (Dữ liệu dài là Tập dữ liệu trong đó mỗi hàng là một mốc thời gian
cho mỗi chủ đề, vì vậy mỗi chủ đề có dữ liệu trong nhiều hàng).
Bảng tính của chúng tôi được định dạng để hiển thị dữ liệu dân số hàng năm. Ở đây
chúng ta thấy Antigua và Barbuda trước. Dữ liệu dài là một định dạng tuyệt vời để lưu trữ và
sắp xếp dữ liệu khi có nhiều biến cho mỗi đối tượng tại mỗi thời điểm mà chúng ta muốn quan
sát. Với định dạng dữ liệu dài này, chúng tôi có thể lưu trữ và phân tích tất cả dữ liệu này bằng
cách sử dụng ít cột hơn. Ngoài ra, nếu chúng tôi thêm một biến mới, chẳng hạn như độ tuổi
trung bình của dân số, thì chúng tôi chỉ cần thêm một cột nữa. Thay vào đó, nếu chúng tôi sử
dụng định dạng dữ liệu rộng, chúng tôi sẽ cần thêm 10 cột, mỗi cột cho mỗi năm. Định dạng
dữ liệu dài giúp mọi thứ đẹp và nhỏ gọn.
Nếu bạn đang băn khoăn không biết nên sử dụng định dạng nào, thì câu trả lời đơn giản
là "còn tùy." Đôi khi, bạn sẽ phải chuyển đổi dữ liệu rộng thành định dạng dữ liệu dài hoặc
những lúc khác thì ngược lại.
Bạn có thể sẽ làm việc với cả hai định dạng trong công việc của mình. Và chắc chắn
bạn sẽ xem lại cả hai định dạng sau này trong chương trình này. Điều đó nhắc nhở tôi: trước
đây chúng ta định nghĩa dữ liệu là một tập hợp các dữ kiện. Như bạn đã khám phá ra trong
một số video gần đây, bộ sưu tập dữ kiện đó có thể có nhiều định dạng, cấu trúc, loại khác
nhau, v.v.
Tìm hiểu về tất cả các cách mà dữ liệu có thể được trình bày sẽ giúp ích rất nhiều cho
bạn trong suốt quá trình phân tích dữ liệu. Bạn càng làm việc nhiều với dữ liệu ở mọi dạng,
bạn sẽ bắt đầu nhận ra dữ liệu nào cần sử dụng và khi nào sử dụng dữ liệu đó càng nhanh. Và
chỉ trong chốc lát, bạn sẽ sử dụng tất cả dữ liệu được lưu trữ trong não để giúp bạn đánh giá.
Sau đó, bạn sẽ học cách xác định và tránh sự thiên vị trong dữ liệu cũng như cách nắm lấy uy
tín, tính chính trực và đạo đức. Cuộc phiêu lưu dữ liệu tiến về phía trước. Tôi rất vui vì bạn
đang di chuyển với nó!''
Tuần 2: Xu hướng, độ tin cậy, quyền riêng tư, đạo đức và quyền truy
cập
Khi các nhà phân tích dữ liệu làm việc với dữ liệu, họ luôn kiểm tra xem dữ liệu có
khách quan và đáng tin cậy hay không. Trong phần này của khóa học, bạn sẽ học cách xác
định các loại sai lệch khác nhau trong dữ liệu và cách đảm bảo độ tin cậy trong dữ liệu của
bạn. Bạn cũng sẽ khám phá dữ liệu mở và mối quan hệ giữa và tầm quan trọng của đạo đức
dữ liệu và quyền riêng tư dữ liệu.
Mục tiêu học tập:
 Giải thích những gì liên quan đến việc xem xét dữ liệu để xác định sai lệch
 Thảo luận về sự khác biệt giữa dữ liệu thiên vị và không thiên vị
 Xác định các loại sai lệch khác nhau bao gồm xác nhận, diễn giải và sai lệch của người
quan sát
 Thảo luận về đặc điểm của các nguồn dữ liệu đáng tin cậy bao gồm tham chiếu đến dữ
liệu lộn xộn
 Giải thích khái niệm về dữ liệu mở với tham chiếu đến cuộc tranh luận đang diễn ra
trong phân tích dữ liệu
 Xác định đạo đức dữ liệu và quyền riêng tư dữ liệu
 Giải thích mối quan hệ giữa đạo đức dữ liệu và quyền riêng tư dữ liệu
 Thể hiện sự hiểu biết về lợi ích của việc ẩn danh dữ liệu
 Thể hiện nhận thức về các vấn đề về khả năng truy cập liên quan đến dữ liệu mở
Chương 1: Dữ liệu khách quan và không thiên vị
Đảm bảo tính toàn vẹn của dữ liệu
Chào mừng trở lại. Trong một khóa học trước, chúng tôi đã nói về cách chuẩn bị dữ
liệu theo cách giúp bạn kể một câu chuyện có ý nghĩa. Bây giờ chúng ta hãy tìm hiểu những
gì tiếp theo. Giống như tất cả các câu chuyện hay, câu chuyện dữ liệu của bạn sẽ chứa đầy các
nhân vật, câu hỏi, thử thách, xung đột và hy vọng là một giải pháp. Bí quyết là tránh xung đột,
vượt qua các thử thách và trả lời các câu hỏi. Đó là tất cả những gì về khóa học này.
Đây là cách chúng tôi sẽ làm điều đó. Đầu tiên, bạn sẽ học cách phân tích dữ liệu về sự
thiên vị và độ tin cậy. Điều này rất quan trọng vì ngay cả những dữ liệu tốt nhất cũng có thể
bị sai lệch hoặc hiểu sai.
Sau đó, chúng ta sẽ tìm hiểu về tầm quan trọng của việc tốt và xấu. Đúng, giống như
khi chúng ta còn nhỏ. Nhưng trong trường hợp này, chúng ta sẽ khám phá các nguồn dữ liệu
tốt và học cách tránh xa kẻ thù không đội trời chung, dữ liệu xấu. Sau đó, chúng ta sẽ tìm hiểu
thêm về thế giới của đạo đức dữ liệu, quyền riêng tư và quyền truy cập.
Khi ngày càng có nhiều dữ liệu và các thuật toán chúng tôi tạo để sử dụng dữ liệu này
trở nên phức tạp và phức tạp hơn, các vấn đề mới sẽ tiếp tục xuất hiện. Chúng ta cần đặt câu
hỏi như, ai sở hữu tất cả dữ liệu này? Chúng ta có bao nhiêu quyền kiểm soát đối với quyền
riêng tư của dữ liệu? Chúng tôi có thể sử dụng và tái sử dụng dữ liệu theo cách chúng tôi muốn
không?
Là một nhà phân tích dữ liệu, điều quan trọng là phải hiểu đạo đức dữ liệu và quyền
riêng tư vì trong công việc của mình, bạn sẽ đưa ra nhiều phán đoán về việc sử dụng và ứng
dụng dữ liệu đúng cách. Tôi rất vui được hướng dẫn bạn một số câu hỏi, câu trả lời, rủi ro và
phần thưởng liên quan. Hãy mở ra chương đầu tiên của câu chuyện dữ liệu này trong video
tiếp theo của chúng tôi.
Thiên kiến: Từ câu hỏi đến kết luận
Hãy bắt đầu mọi thứ bằng cách du hành ngược thời gian, ít nhất là trong tâm trí của
chúng ta. Cỗ máy thời gian thực của tôi ở trong cửa hàng. Hãy tưởng tượng bạn đang học cấp
hai và tham gia một dự án cho hội chợ khoa học. Bạn đã làm việc chăm chỉ trong nhiều tuần
để hoàn thiện mọi yếu tố và họ sắp công bố người chiến thắng. Bạn nhắm mắt lại, hít một hơi
thật sâu và bạn nghe thấy họ gọi tên bạn cho vị trí thứ hai. Đáng tiếc, bạn thực sự muốn chiếc
cúp hạng nhất đó, nhưng này, bạn sẽ nhận dải băng để được công nhận. Ngày hôm sau, bạn
biết được thẩm phán là chú của người chiến thắng. Thế nào là công bằng!? Anh ấy có thể thực
sự được mong đợi để chọn người chiến thắng một cách công bằng khi thành viên gia đình của
anh ấy là một trong những thí sinh? Anh ấy có lẽ thiên vị! Có thể cháu gái của ông xứng đáng
giành chiến thắng và có thể không. Nhưng vấn đề là: rất dễ tạo ra trường hợp thiên vị trong
tình huống đó.
Đây là một ví dụ siêu đơn giản, nhưng sự thật là chúng ta luôn gặp phải sự thiên vị
trong cuộc sống hàng ngày. Bộ não của chúng ta được thiết kế về mặt sinh học để hợp lý hóa
suy nghĩ và đưa ra những phán đoán nhanh chóng. Bias is a preference in favor of or against
a person, group of people, or thing ( Thiên kiến là sự thiên vị có ý thức hoặc tiềm thức ủng hộ
hoặc chống lại một người, một nhóm người hoặc một sự vật). Nó có thể có ý thức hoặc tiềm
thức. Tin tốt là một khi chúng ta biết và chấp nhận rằng mình có thành kiến, chúng ta có thể
bắt đầu nhận ra lối suy nghĩ của chính mình và học cách quản lý nó.
Điều quan trọng cần biết là sự thiên vị cũng có thể xâm nhập vào thế giới dữ liệu. Data
bias is A type of error that systematically skews results in a certain direction (Thiên kiến dữ
liệu là Khi sở thích ủng hộ hoặc chống lại một người, một nhóm người hoặc một sự vật có hệ
thống làm sai lệch kết quả phân tích dữ liệu theo một hướng nhất định).
Có thể các câu hỏi trong một cuộc khảo sát có khuynh hướng cụ thể ảnh hưởng đến câu
trả lời hoặc có thể nhóm mẫu không thực sự đại diện cho dân số đang được nghiên cứu. Ví
dụ: nếu bạn định lấy độ tuổi trung bình của dân số bệnh nhân Hoa Kỳ có bảo hiểm y tế, thì
bạn sẽ không chỉ sử dụng một mẫu bệnh nhân Medicare từ 65 tuổi trở lên.
Xu hướng cũng có thể xảy ra nếu một nhóm mẫu thiếu tính toàn diện. Ví dụ, người
khuyết tật có xu hướng ít được xác định, ít được đại diện hoặc bị loại trừ trong nghiên cứu sức
khỏe chính thống. Cách bạn thu thập dữ liệu cũng có thể làm sai lệch một tập dữ liệu. Ví dụ:
nếu bạn chỉ cho mọi người một khoảng thời gian ngắn để trả lời các câu hỏi, họ sẽ vội vàng
trả lời. Khi vội vã, chúng ta mắc nhiều lỗi hơn, điều này có thể ảnh hưởng đến chất lượng dữ
liệu của chúng ta và tạo ra kết quả sai lệch.
Là một nhà phân tích dữ liệu, bạn phải suy nghĩ về sự thiên vị và công bằng từ thời
điểm bạn bắt đầu thu thập dữ liệu cho đến khi bạn đưa ra kết luận của mình. Xét cho cùng,
những kết luận đó có thể có những tác động nghiêm trọng.
Hãy nghĩ về điều này: người ta thừa nhận rằng các nghiên cứu lâm sàng về sức khỏe
tim mạch có xu hướng bao gồm nhiều nam giới hơn nữ giới. Điều này đã dẫn đến việc phụ nữ
không nhận ra các triệu chứng và cuối cùng là bệnh tim của họ không được phát hiện và điều
trị. Đó chỉ là một cách thiên vị có thể có tác động rất thực tế.
Mặc dù chúng ta đã đi một chặng đường dài trong việc nhận ra sự thiên vị, nhưng điều
đó vẫn dẫn đến việc bạn thua cháu gái của giám khảo tại cuộc thi khoa học đó. Nó vẫn đang
ảnh hưởng đến các quyết định kinh doanh, lựa chọn và tiếp cận chăm sóc sức khỏe, hành động
của chính phủ, v.v. Vì vậy, chúng tôi vẫn còn có việc phải làm.
Sắp tới, chúng tôi sẽ chỉ cho bạn cách xác định xu hướng trong chính dữ liệu và khám
phá một số tình huống khi bạn thực sự có thể hưởng lợi từ nó.
Dữ liệu thiên vị và không thiên vị
Xin chào lần nữa. Cho đến nay, chúng ta đã biết rằng những thành kiến mà chúng ta có
với tư cách là mọi người cuối cùng có thể tạo ra những dữ liệu thiên vị, chúng ta thiên vị khi
chúng ta có những sở thích dựa trên những quan niệm định sẵn hoặc thậm chí là trong tiềm
thức của chính chúng ta. Khi dữ liệu bị sai lệch, nó có thể làm lệch kết quả theo một hướng
nhất định một cách có hệ thống, khiến chúng không đáng tin cậy.
Chúng tôi đã đề cập đến vấn đề này sớm hơn bằng cách sử dụng sai lệch lấy mẫu làm
ví dụ. Sampling bias is When a sample isn’t representative of the population as a whole
( Thiên kiến lấy mẫu là Đại diện quá mức hoặc không đại diện cho một số thành viên nhất
định của tập hợp do kết quả của việc làm việc với một mẫu không đại diện cho toàn bộ tập
hợp). Bạn có thể tránh điều này bằng cách đảm bảo rằng mẫu được chọn ngẫu nhiên để tất cả
các bộ phận dân số đều có cơ hội được đưa vào như nhau.
Nếu bạn không sử dụng lấy mẫu ngẫu nhiên trong quá trình thu thập dữ liệu, thì cuối
cùng bạn sẽ chọn một kết quả. Đây là một cách đơn giản để xem xét nó. Giả sử có 50 học sinh
trong một lớp và bạn muốn biết phần lớn học sinh trong lớp thích thời tiết ấm hay lạnh. bạn
quyết định khảo sát 10 sinh viên đầu tiên bạn gặp và dựa trên câu trả lời của họ, bạn xác định
rằng cả lớp thích thời tiết ấm áp hơn. Nhưng chờ đã, có một số sai lệch ở đó. 10 người đầu
tiên đó đều là phụ nữ, vì vậy chỉ có phụ nữ được đưa vào cuộc khảo sát của bạn. Cuộc khảo
sát của bạn không phải là đại diện hợp lý cho toàn bộ lớp vì nó không bao gồm các số nhận
dạng khác trên phạm vi giới tính.
Nếu bạn sử dụng một mẫu dân số ngẫu nhiên hơn bao gồm tất cả các giới tính, thì bạn
sẽ có một mẫu không thiên vị. Unbiased sampling is When a sample is representative of the
population being measured (Lấy mẫu không thiên kiến là Khi mẫu của tập hợp được đo lường
là đại diện cho toàn bộ tập thể).
Một cách tuyệt vời khác để khám phá xem bạn có đang làm việc với dữ liệu khách quan
hay không là làm cho kết quả trở nên sống động bằng hình ảnh hóa. Trong ví dụ về lớp học
mà chúng tôi vừa trình bày, bạn có thể hình dung tổng số học sinh trong lớp và nhận dạng giới
tính của họ bằng biểu đồ thanh. Sau đó, bạn có thể so sánh biểu đồ đó với một biểu đồ thanh
tương tự hiển thị các sinh viên mà bạn đã khảo sát. Điều này sẽ giúp bạn dễ dàng xác định bất
kỳ sai lệch nào với mẫu của bạn.
Được rồi, bây giờ chúng ta đã biết thiên vị trông như thế nào từ góc độ lấy mẫu, hãy
khám phá một số loại thiên vị khác và cách nhận ra chúng.
Hiểu về sự thiên vị trong dữ liệu
Tôi có thể thiên vị, nhưng tôi nghĩ việc tìm hiểu về những đặc điểm tốt và xấu của dữ
liệu là điều khá thú vị. Tiếp theo, chúng ta sẽ khám phá ra rằng có rất nhiều loại sai lệch dữ
liệu khác nhau, ngoài sai lệch lấy mẫu mà chúng ta đã đề cập trước đó.
Nhắc lại nhanh, thiên kiến lấy mẫu là khi một mẫu không đại diện cho toàn bộ dân số.
Ví dụ: nếu bạn đang nghiên cứu về hành khách và chỉ khảo sát những người đi bộ trên vỉa hè,
thì bạn sẽ bỏ lỡ thông tin đầu vào từ những người đi xe đạp, lái xe hoặc đi tàu điện ngầm. Bạn
cần tất cả các khía cạnh của câu chuyện để tránh sai lệch lấy mẫu.
Trong video này, chúng ta sẽ khám phá thêm ba loại sai lệch dữ liệu:
 Thiên kiến quan sát
 Thiên kiến lý giải
 sai lệch xác nhận
đồng thời chúng ta sẽ tìm hiểu cách tránh chúng.
Observer bias is The tendency for different people to observe things differently ( Thiên
kiến quan sát là xu hướng những người khác nhau quan sát mọi thứ khác nhau). Về cơ bản,
đó là xu hướng quan sát mọi thứ khác nhau của những người khác nhau. Bạn có thể nhớ trước
đó, chúng tôi đã biết rằng các nhà khoa học sử dụng các quan sát rất nhiều trong công việc
của họ, chẳng hạn như khi họ quan sát vi khuẩn dưới kính hiển vi để thu thập dữ liệu. Trong
khi hai nhà khoa học nhìn vào cùng một kính hiển vi có thể thấy những thứ khác nhau, thì đó
là sự thiên vị của người quan sát.
Một lần khác, sự sai lệch của người quan sát có thể xảy ra là khi đo huyết áp bằng tay.
Vì đồng hồ đo áp suất rất nhạy nên nhân viên y tế thường nhận được các kết quả khá khác
nhau. Thông thường, họ sẽ chỉ làm tròn đến số nguyên gần nhất để bù cho sai số. Nhưng nếu
các bác sĩ liên tục làm tròn hoặc giảm chỉ số huyết áp của bệnh nhân, tình trạng sức khỏe có
thể bị bỏ sót và bất kỳ nghiên cứu nào liên quan đến bệnh nhân của họ sẽ không có dữ liệu
chính xác và chính xác.
Một loại sai lệch dữ liệu phổ biến khác là thiên kiến lý giải. Interpretation bias is The
tendency to always interpret ambiguous situations in a positive or negative way ( Thiên kiến
lý giải là xu hướng giải thích các tình huống mơ hồ theo hướng tích cực hoặc tiêu cực).
Đây là một ví dụ. Giả sử bạn đang ăn trưa với một đồng nghiệp thì bạn nhận được thư thoại
từ sếp yêu cầu bạn gọi lại cho cô ấy. Bạn tức giận đặt điện thoại xuống, chắc chắn rằng cô ấy
đang tức giận và bạn đang ngồi trên ghế nóng vì điều gì đó. Nhưng khi bạn phát tin nhắn cho
bạn mình, anh ấy không nghe thấy tức giận chút nào, anh ấy thực sự nghĩ rằng cô ấy nghe có
vẻ bình tĩnh và thẳng thắn. Xu hướng diễn giải, có thể dẫn đến việc hai người nhìn hoặc nghe
chính xác cùng một thứ và diễn giải nó theo nhiều cách khác nhau, bởi vì họ có nền tảng và
kinh nghiệm khác nhau.
Lịch sử của bạn với sếp của bạn khiến bạn diễn giải cuộc gọi theo cách này, trong khi
bạn của bạn diễn giải nó theo cách khác, bởi vì họ là những người xa lạ. Thêm những diễn
giải này vào phân tích dữ liệu và bạn có thể nhận được kết quả sai lệch.
Loại thành kiến cuối cùng mà chúng tôi sẽ đề cập, làm tôi nhớ đến câu nói, mọi người
nhìn thấy những gì họ muốn thấy. Loại thành kiến cuối cùng mà chúng tôi sẽ đề cập, làm tôi
nhớ đến câu nói, mọi người nhìn thấy những gì họ muốn thấy. Tóm lại, điều đó tổng hợp khá
nhiều thành kiến xác nhận. Confirmation bias is The tendency to search for or interpret
information in a way that confirms pre- existing beliefs (Thiên kiến xác nhận là Xu hướng giải
thích hoặc tìm kiếm thông tin theo cách xác nhận những niềm tin đã có từ trước).
Ai đó có thể quá háo hức để xác nhận cảm giác ruột thịt, đến nỗi họ chỉ chú ý đến
những thứ hỗ trợ nó, bỏ qua tất cả các tín hiệu khác. Điều này xảy ra mọi lúc trong cuộc sống
hàng ngày. Chúng tôi có thể lấy tin tức của mình từ một trang web nhất định vì những người
viết chia sẻ niềm tin của chúng tôi hoặc chúng tôi giao tiếp với mọi người vì chúng tôi biết
rằng họ có cùng quan điểm. Rốt cuộc, những quan điểm trái ngược nhau có thể khiến chúng
ta đặt câu hỏi về thế giới quan của mình, điều này có thể khiến chúng ta thay đổi toàn bộ hệ
thống niềm tin của mình, và hãy đối mặt với điều đó, thay đổi là điều khó khăn. Nhưng bạn
biết những gì thậm chí còn khó khăn hơn? Làm tốt công việc khi bạn có dữ liệu xấu, vì vậy
điều quan trọng là tránh thiên vị.
Types of data bias:
 Sampling bias
 Observer bias
 Interpretation bias
 Confirmation bias
nhưng chúng có một điểm chung. Chúng đều ảnh hưởng đến cách chúng tôi thu thập và hiểu
ý nghĩa của dữ liệu.
Thật không may, chúng cũng chỉ là một ví dụ nhỏ, nhằm mục đích chơi chữ, về các
loại thành kiến mà bạn có thể gặp phải trong sự nghiệp của mình với tư cách là một nhà phân
tích dữ liệu. Nhưng tin tốt là, một khi bạn biết một vài điều, bạn sẽ thấy mình thường xuyên
cảnh giác với sự thiên vị dưới mọi hình thức. Điều quan trọng cần nhớ là bất kể bạn sử dụng
loại dữ liệu nào, tất cả dữ liệu đó đều cần được kiểm tra về độ chính xác và độ tin cậy. Chúng
ta sẽ sớm nói thêm về điều đó khi chúng ta bắt đầu khám phá dữ liệu xấu. Tạm biệt bây giờ.
Chương 2: Khám phá độ tin cậy của dữ liệu
Xác định nguồn dữ liệu tốt
Này, cái gì tốt!? Không, thực sự, tôi muốn biết: Điều gì là tốt? Hãy để tôi đặt nó theo
cách này. Nếu tôi yêu cầu bạn đặt tên cho một bài hát hay, tôi có thể không thích nó. Đó là
bởi vì tốt là chủ quan. Điều tôi nghĩ là tốt và điều bạn nghĩ là tốt có thể khác nhau.
Vậy còn những nguồn dữ liệu tốt thì sao? Đó có phải là chủ quan không? Theo một số
cách, chúng đúng như vậy, nhưng may mắn thay, có một số phương pháp hay nhất để làm
theo sẽ giúp bạn đo lường độ tin cậy của tập dữ liệu trước khi sử dụng chúng. Đó là những gì
chúng ta sẽ thảo luận trong video này.
Tôi nghĩ tất cả chúng ta đều có thể đồng ý rằng tất cả chúng ta đều muốn có dữ liệu tốt.
Càng có nhiều dữ liệu chất lượng cao, chúng ta càng có thể tự tin hơn trong các quyết định
của mình. Hãy tìm hiểu cách chúng ta có thể tìm và xác định các nguồn dữ liệu tốt.
Trước tiên, chúng ta cần học cách xác định chúng. Một quy trình mà tôi muốn gọi là
ROCCC, R-O-C-C-C. Được rồi. Tôi chỉ nghĩ ra điều đó, nhưng tôi nghĩ các từ viết tắt là một
cách thực sự tuyệt vời để giúp thông tin mới ghi nhớ trong não. Bắt đầu mọi thứ là R cho đáng
tin cậy. Giống như một người bạn tốt, nguồn dữ liệu tốt là đáng tin cậy. Với dữ liệu này, bạn
có thể tin tưởng rằng mình đang nhận được thông tin chính xác, đầy đủ và không thiên vị đã
được kiểm tra và chứng minh là phù hợp để sử dụng.
Được rồi. On to O. O là dành cho nguyên bản. Rất có thể bạn sẽ khám phá dữ liệu thông
qua nguồn của bên thứ hai hoặc bên thứ ba. Để đảm bảo bạn đang xử lý dữ liệu tốt, hãy đảm
bảo xác thực dữ liệu đó với nguồn ban đầu.
Thời gian cho C. C đầu tiên là toàn diện. Các nguồn dữ liệu tốt nhất chứa tất cả thông
tin quan trọng cần thiết để trả lời câu hỏi hoặc tìm ra giải pháp. Hãy suy nghĩ về nó như thế
này. Bạn sẽ không muốn làm việc cho một công ty chỉ vì bạn tìm thấy một đánh giá trực tuyến
tuyệt vời về nó. Bạn sẽ nghiên cứu mọi khía cạnh của tổ chức để đảm bảo rằng nó phù hợp.
Điều quan trọng là phải làm như vậy để phân tích dữ liệu của bạn.
C tiếp theo là cho hiện tại. Tính hữu ích của dữ liệu giảm dần khi thời gian trôi qua.
Nếu bạn muốn mời tất cả khách hàng hiện tại tham dự một sự kiện kinh doanh, bạn sẽ không
sử dụng danh sách khách hàng 10 năm tuổi. Đối với dữ liệu cũng vậy. Các nguồn dữ liệu tốt
nhất là hiện tại và có liên quan đến nhiệm vụ hiện tại.
Chữ C cuối cùng là dành cho trích dẫn. Nếu bạn đã từng nói với một người bạn rằng
bạn nghe nói rằng phần tiếp theo của bộ phim mới đang được thực hiện, thì bạn đã trích dẫn
một nguồn. Trích dẫn làm cho thông tin bạn cung cấp đáng tin cậy hơn. Khi bạn chọn một
nguồn dữ liệu, hãy nghĩ về ba điều. Ai đã tạo ra tập dữ liệu? Nó có phải là một phần của một
tổ chức đáng tin cậy không? Dữ liệu được làm mới lần cuối khi nào?
Nếu bạn có dữ liệu gốc từ một tổ chức đáng tin cậy và dữ liệu đó toàn diện, cập nhật
và được trích dẫn, thì đó là ROCCC! Có rất nhiều nơi nổi tiếng là có dữ liệu tốt. Đặt cược tốt
nhất của bạn là sử dụng các bộ dữ liệu công khai đã được kiểm duyệt, các bài báo học thuật,
dữ liệu tài chính và dữ liệu của cơ quan chính phủ. Bây giờ bạn đã biết cách phát hiện dữ liệu
tốt, ROCCC nào, bạn đã sẵn sàng tìm hiểu về hàng núi dữ liệu xấu và cách tránh nó. Chúng
ta hãy di chuyển.
Dữ liệu "xấu" là gì?
Chào mừng trở lại. Lần trước chúng ta gặp nhau, chúng ta đã học cách xác định và tìm
nguồn dữ liệu tốt. Một quá trình mà tôi đã tạo ra ROCCC. Chúng tôi nhận thấy rằng nếu bộ
dữ liệu đáng tin cậy, nguyên bản, toàn diện, cập nhật và được trích dẫn, thì đó là ROCCC
(hoặc nghiêm túc hơn: nó tốt). Hy vọng rằng điều này được làm mới bộ nhớ của bạn.
Bây giờ là lúc rút ra những gì chúng ta đã học về dữ liệu tốt và áp dụng nó vào bài học
hôm nay: các nguồn dữ liệu xấu không được ROCCC. Chúng không đáng tin cậy, nguyên bản,
toàn diện, cập nhật hoặc được trích dẫn. Tệ hơn nữa, chúng có thể hoàn toàn sai hoặc chứa
đầy lỗi của con người.
Chúng ta sẽ bắt đầu lại với R. R không đáng tin cậy. Dữ liệu xấu không thể tin cậy
được vì nó không chính xác, không đầy đủ hoặc sai lệch. Đây có thể là dữ liệu có xu hướng
lựa chọn mẫu vì nó không phản ánh toàn bộ dân số. Hoặc nó có thể là trực quan hóa dữ liệu
và đồ thị gây hiểu lầm.
Ví dụ, hãy xem 2 biểu đồ thanh này.
Cái bên trái sử dụng điểm bắt đầu trục y là 3,14%. Và cái bên phải sử dụng 0. Điều này làm
cho có vẻ như lãi suất đã tăng vọt trong khoảng thời gian 4 năm trong khi chúng thực sự vẫn
khá ổn định.
Được rồi, vào O. O không phải là nguyên bản. Nếu bạn không thể định vị nguồn dữ
liệu gốc và bạn chỉ đang dựa vào thông tin của bên thứ hai hoặc bên thứ ba, điều đó có thể báo
hiệu rằng bạn có thể cần phải hết sức cẩn thận khi hiểu dữ liệu của mình.
Bây giờ, C là không toàn diện. Nguồn dữ liệu xấu đang thiếu thông tin quan trọng cần
thiết để trả lời câu hỏi hoặc tìm giải pháp. Tệ hơn nữa, chúng cũng có thể chứa lỗi của con
người.
C tiếp theo là không hiện tại. Nguồn dữ liệu xấu đã lỗi thời và không liên quan. Nhiều
nguồn uy tín làm mới dữ liệu của họ thường xuyên, giúp bạn tin tưởng rằng đó là thông tin
mới nhất hiện có. Ví dụ: bạn luôn có thể tin tưởng Data.gov, nơi lưu trữ dữ liệu mở của chính
phủ Hoa Kỳ.
C cuối cùng là không được trích dẫn. Nếu nguồn của bạn chưa được trích dẫn hoặc hiệu
đính, thì đó là điều không nên.
Vì vậy, tóm lại, dữ liệu tốt phải là dữ liệu gốc từ một tổ chức đáng tin cậy, toàn diện,
cập nhật và được trích dẫn. Nó nên ROCCC! Nếu không, đó là dữ liệu xấu.
Nếu bạn cần một nguồn dữ liệu đáng tin cậy, hãy xem Cục điều tra dân số Hoa Kỳ, nơi
thường xuyên cập nhật thông tin của họ. Điều quan trọng đối với các nhà phân tích dữ liệu là
phải hiểu và theo dõi dữ liệu xấu vì nó có thể gây ra những tác động nghiêm trọng và lâu dài.
Cho dù đó là một kết luận không chính xác dẫn đến một quyết định kinh doanh tồi tệ hay
thông tin không chính xác khiến các quy trình bị lỗi và khiến mọi người gặp rủi ro, mọi giải
pháp tốt đều được tìm ra bằng cách tránh dữ liệu xấu.
Để có dữ liệu tốt, hãy gắn bó với các bộ dữ liệu công cộng đã được kiểm duyệt, các
bài báo học thuật, dữ liệu tài chính và dữ liệu của cơ quan chính phủ. Và với điều đó, chúng
tôi đã đi đến cuối cuộc phiêu lưu của mình với sự thiên vị và sự tín nhiệm. Sau một vài bài tập
nữa, bạn sẽ sẵn sàng cho những gì ở phía trước. Tôi mong chờ sự tiến bộ của bạn.
Chương 3: Đạo đức dữ liệu và quyền riêng tư
Giới thiệu về đạo đức dữ liệu
Xin chào một lần nữa, cho tôi hỏi bạn một cái gì đó. Điều gì đến với tâm trí của bạn
khi bạn nghĩ về từ, đạo đức? Đối với tôi, đó là một tập hợp các nguyên tắc để sống theo. Hầu
hết mọi người đều có một quy tắc đạo đức cá nhân giúp họ điều hướng thế giới. Khi chúng ta
còn trẻ, điều đó có thể đơn giản như không bao giờ nói dối, lừa dối hoặc ăn cắp, nhưng khi
chúng ta già đi, đó là một danh sách rộng hơn nhiều về những điều nên làm và không nên làm.
Đạo đức cá nhân của chúng ta phát triển và trở nên hợp lý hơn, cho chúng ta một la bàn
đạo đức để sử dụng khi chúng ta đối mặt với các câu hỏi, thách thức và cơ hội trong cuộc sống.
Khi chúng tôi phân tích dữ liệu, chúng tôi cũng phải đối mặt với các câu hỏi, thách thức và cơ
hội, nhưng chúng tôi phải dựa vào nhiều thứ hơn là chỉ quy tắc đạo đức cá nhân của mình để
giải quyết chúng.
Như chúng ta đã biết trước đó, tất cả chúng ta đều có những thành kiến cá nhân của
riêng mình, chưa kể những thành kiến trong tiềm thức khiến đạo đức thậm chí còn khó định
hướng hơn. Đó là lý do tại sao chúng ta có đạo đức dữ liệu, một khía cạnh quan trọng của
phân tích mà chúng ta sẽ khám phá ngay trong video này.
Nhưng trước tiên, hãy quay trở lại ý tưởng chung về đạo đức. Trong khi một định nghĩa
chính xác vẫn đang được thảo luận trong triết học, một quan điểm thực tế cho rằng đạo đức
đề cập đến các tiêu chuẩn đúng và sai có cơ sở, quy định những gì con người phải làm, thường
là về quyền, nghĩa vụ, lợi ích cho xã hội, sự công bằng hoặc đức tính cụ thể.
Cũng giống như con người, dữ liệu cũng có các tiêu chuẩn để tuân theo. Data ethics is
Well- founded standards of right and wrong that dictate how data is collected, shared, and
used. (Đạo đức dữ liệu là Các tiêu chuẩn có cơ sở về đúng và sai quy định cách dữ liệu được
thu thập, chia sẻ và ứng dụng).
Vì khả năng thu thập, chia sẻ và sử dụng dữ liệu với số lượng lớn như vậy là tương đối
mới nên các quy tắc điều chỉnh và chi phối quá trình này vẫn đang phát triển. Tầm quan trọng
của quyền riêng tư dữ liệu đã được các chính phủ trên toàn thế giới công nhận và họ bắt đầu
xây dựng luật bảo vệ dữ liệu để giúp bảo vệ mọi người và dữ liệu của họ.
GDPA is General Data Protection Regulation of the European Union (GDPA là Cơ
quan hoạch định chính sách ở liên minh Châu Âu được thành lập để giúp bảo vệ con người và
dữ liệu của họ). Trong khi các nhà hoạch định chính sách tiếp tục công việc của họ, các công
ty như Google có trách nhiệm dẫn đầu nỗ lực và sẽ làm như vậy với tinh thần giống như chúng
tôi luôn có bằng cách cung cấp các sản phẩm biến quyền riêng tư thành hiện thực cho mọi
người.
Khái niệm về đạo đức dữ liệu và các vấn đề liên quan đến tính minh bạch và quyền
riêng tư là một phần của quy trình. Đạo đức dữ liệu cố gắng tìm hiểu gốc rễ trách nhiệm giải
trình của các công ty trong việc bảo vệ và sử dụng có trách nhiệm dữ liệu họ thu thập. Có rất
nhiều khía cạnh khác nhau của đạo đức dữ liệu nhưng chúng tôi sẽ đề cập đến sáu khía cạnh:
quyền sở hữu, tính minh bạch của giao dịch, sự đồng ý, tiền tệ, quyền riêng tư và tính mở.
Chúng ta sẽ khám phá tính riêng tư và tính mở của dữ liệu sau. Đầu tiên là quyền sở
hữu. Điều này trả lời câu hỏi ai sở hữu dữ liệu? Không phải tổ chức đã đầu tư thời gian và
tiền bạc để thu thập, lưu trữ, xử lý và phân tích nó. Ownership is Individuals own the raw
thay provide and they have primary control over its usage, how it’s processed, and how it’s
share ( Quyền sở hữu là Khía cạnh của đạo đức dữ liệu cho rằng các cá nhân sở hữu dữ liệu
thô mà họ cung cấp và có quyền kiểm soát chính đối với việc sử dụng, xử lý và chia sẻ dữ liệu
đó).
Tiếp theo, chúng tôi có tính minh bạch trong giao dịch, transaction transparency
is All data- processing activities and algorithms should be completely explainable and
understood by the individual who provides their data ( Giao dịch minh bạch là Khía cạnh của
đạo đức dữ liệu giả định tất cả các hoạt động và thuật toán xử lý dữ liệu phải được giải thích
và hiểu bởi cá nhân cung cấp dữ liệu).
Điều này nhằm giải quyết những lo ngại về sai lệch dữ liệu, mà chúng ta đã thảo luận trước
đó, là một loại lỗi làm lệch kết quả một cách có hệ thống theo một hướng nhất định. Kết quả
thiên vị có thể dẫn đến hậu quả tiêu cực. Để tránh chúng, bạn nên cung cấp phân tích minh
bạch, đặc biệt là cho những người chia sẻ dữ liệu của họ. Điều này cho phép mọi người đánh
giá liệu kết quả có công bằng và không thiên vị hay không và cho phép họ nêu lên những lo
ngại tiềm ẩn.
Bây giờ hãy nói về một khía cạnh khác của đạo đức dữ liệu, sự đồng ý. Consent is An
individual’s right to know explicit details about how and why their data will be used before
agreeing to provide it (Đồng ý là khía cạnh của đạo đức dữ liệu giả định quyền của một cá
nhân được biết cách thức và lý do dữ liệu cá nhân của họ sẽ được sử dụng trước khi đồng ý
cung cấp).
Họ nên biết câu trả lời cho các câu hỏi như tại sao dữ liệu được thu thập? Nó sẽ được sử dụng
như thế nào? Nó sẽ được lưu trữ trong bao lâu? Cách tốt nhất để đưa ra sự đồng ý có lẽ là một
cuộc trò chuyện giữa người cung cấp dữ liệu và người yêu cầu. Nhưng với rất nhiều hoạt động
diễn ra trực tuyến ngày nay, sự đồng ý thường chỉ giống như một hộp kiểm điều khoản và điều
kiện với các liên kết đến thông tin chi tiết hơn. Hãy đối mặt với nó, không phải ai cũng nhấp
qua để đọc những chi tiết đó. Sự đồng ý rất quan trọng vì nó ngăn chặn tất cả các nhóm dân
số bị nhắm mục tiêu không công bằng, đây là một vấn đề rất lớn đối với các nhóm bị thiệt thòi,
những người thường bị dữ liệu sai lệch trình bày sai một cách không cân xứng.
Kế đến là tiền tệ. Currency is Individuals should be aware of financial transactions
resulting from the use of their personal data the scale of these transactions. (Tiền tệ là khía
cạnh đạo đức dữ liệu cho rằng các cá nhân nên nhận thức được các giao dịch tài chính do sử
dụng dữ liệu cá nhân của họ và quy mô của các giao dịch đó).
Các cá nhân nên biết về các giao dịch tài chính phát sinh từ việc sử dụng dữ liệu cá nhân của
họ và quy mô của các giao dịch này. Nếu dữ liệu của bạn đang giúp tài trợ cho các nỗ lực của
công ty, thì bạn nên biết những nỗ lực đó là gì và có cơ hội từ chối. Hai khía cạnh cuối cùng
của đạo đức dữ liệu, quyền riêng tư và tính mở, xứng đáng được chú ý riêng trong giai đoạn
dữ liệu này. Sắp tới, bạn sẽ thấy tại sao.
Giới thiệu về quyền riêng tư dữ liệu
Chúng tôi đã khám phá một số khía cạnh quan trọng của đạo đức dữ liệu và một trong
những lĩnh vực cá nhân nhất liên quan đến quyền riêng tư. Quyền riêng tư là của cá nhân. Tất
cả chúng ta có thể định nghĩa quyền riêng tư theo cách riêng của mình và tất cả chúng ta đều
có quyền với điều đó. Cho dù đó là các thành viên trong gia đình muốn có sự riêng tư khi sử
dụng máy tính dùng chung, một thanh thiếu niên muốn chia sẻ ảnh tự sướng chỉ với những
người cụ thể hay một công ty muốn bảo mật thông tin thẻ tín dụng của khách hàng, tất cả
chúng ta đều quan tâm đến cách dữ liệu của chúng ta được sử dụng và chia sẻ . Quyền riêng
tư dữ liệu rất quan trọng trong nền văn hóa ngày nay, vì vậy hãy khám phá nó một cách đầy
đủ.
Privacy is Preserving a data subject’s information and activity any time a data
transaction occurs ( Quyền riêng tư có nghĩa là bảo toàn thông tin và hoạt động của chủ thể
dữ liệu bất kỳ khi nào xảy ra giao dịch dữ liệu). Điều này đôi khi được gọi là bảo mật thông
tin hoặc bảo vệ dữ liệu. Đó là tất cả về truy cập, sử dụng và thu thập dữ liệu. Nó cũng bao gồm
quyền hợp pháp của một người đối với dữ liệu của họ. Điều này có nghĩa là những người như
bạn hoặc tôi phải được bảo vệ khỏi truy cập trái phép vào dữ liệu riêng tư của chúng tôi, không
bị sử dụng dữ liệu của chúng tôi một cách không phù hợp, quyền kiểm tra, cập nhật hoặc chỉnh
sửa dữ liệu của chúng tôi, khả năng đồng ý sử dụng dữ liệu của chúng tôi và quyền hợp pháp
để truy cập dữ liệu của chúng tôi.
Đối với các công ty, điều đó có nghĩa là áp dụng các biện pháp bảo mật để bảo vệ dữ
liệu của các cá nhân. Quyền riêng tư về dữ liệu rất quan trọng, ngay cả khi bạn không phải là
người nghĩ về nó hàng ngày. Tầm quan trọng của quyền riêng tư dữ liệu đã được các chính
phủ trên toàn thế giới công nhận và họ đã bắt đầu xây dựng luật bảo vệ dữ liệu để giúp bảo vệ
mọi người và dữ liệu của họ. Có thể tin tưởng các công ty với dữ liệu của bạn là rất quan trọng.
Đó là điều khiến mọi người muốn sử dụng sản phẩm của công ty, chia sẻ thông tin của họ, v.v.
Niềm tin là một trách nhiệm thực sự lớn không thể xem nhẹ. Khía cạnh cuối cùng liên quan
đến đạo đức dữ liệu là một khía cạnh liên tục được thảo luận. Ý tưởng về sự cởi mở, truy cập
miễn phí, sử dụng và chia sẻ dữ liệu. Chúng tôi sẽ đề cập đến điều đó trong một video khác.
Bạn đang trên đường trở thành một nhà phân tích dữ liệu có đạo đức.
Andrew: Việc sử dụng dữ liệu có đạo đức
Chương 2: Hiểu dữ liệu mở
Đặc điểm của dữ liệu mở
Có một cái gì đó rất tự do về việc có thể tìm thấy thông tin về bất kỳ chủ đề nào trên
Internet. Không thể nhớ dòng thứ 3 của bài hát thời thơ ấu yêu thích của bạn, tò mò xem ai là
người chạy về nhà nhiều nhất vào năm 1986, muốn tự học ngôn ngữ ký hiệu? Chỉ cần bật máy
tính xách tay của bạn, gõ một số văn bản và gặp sự cố, bạn có những gì bạn cần.
Nhiều nhóm nghĩ rằng chúng ta cũng nên có mức truy cập dữ liệu này. Thậm chí còn
có một phong trào toàn cầu tin rằng tính mở của dữ liệu có thể biến đổi xã hội và cách các
quyết định được đưa ra. Cho đến nay, chúng ta đã nói rất nhiều về sức mạnh của dữ liệu và
tầm quan trọng của các mối quan tâm về đạo đức dữ liệu bao gồm quyền sở hữu, tính minh
bạch của giao dịch, sự đồng ý, tiền tệ và quyền riêng tư.
Bây giờ, hãy nói về sự cởi mở. Openness or open data is free access, usage, and sharing
of data (Tính mở là khía cạnh của đạo đức dữ liệu thúc đẩy quyền truy cập, sử dụng và chia
sẻ dữ liệu miễn phí). Đôi khi chúng tôi coi đây là dữ liệu mở, nhưng điều đó không có nghĩa
là chúng tôi bỏ qua các khía cạnh khác của đạo đức dữ liệu mà chúng tôi đã đề cập. Chúng ta
vẫn nên minh bạch, tôn trọng quyền riêng tư và đảm bảo rằng chúng ta có sự đồng ý đối với
dữ liệu thuộc sở hữu của người khác. Điều này chỉ có nghĩa là chúng tôi có thể truy cập, sử
dụng và chia sẻ dữ liệu đó nếu dữ liệu đó đáp ứng các tiêu chuẩn cao này.
Ví dụ: có các tiêu chuẩn xung quanh tính khả dụng và quyền truy cập. Dữ liệu mở phải
sẵn có như một tổng thể, tốt nhất là bằng cách tải xuống qua Internet ở dạng thuận tiện và có
thể sửa đổi. Trang web data.gov là một ví dụ tuyệt vời. Bạn có thể tải xuống dữ liệu khoa học
và nghiên cứu cho nhiều ngành ở các định dạng tệp đơn giản như bảng tính. Một tiêu chuẩn
khác bao quanh việc tái sử dụng và phân phối lại. Dữ liệu mở phải được cung cấp theo các
điều khoản cho phép tái sử dụng và phân phối lại bao gồm khả năng sử dụng nó với các bộ dữ
liệu khác.
Và lĩnh vực cuối cùng là sự tham gia toàn cầu. Mọi người phải có khả năng sử dụng,
tái sử dụng và phân phối lại dữ liệu. Không nên có bất kỳ sự phân biệt đối xử nào đối với các
lĩnh vực, con người hoặc nhóm. Không ai có thể đặt ra các hạn chế đối với dữ liệu như chỉ
cung cấp dữ liệu đó để sử dụng trong một ngành cụ thể.
Bây giờ chúng ta hãy nói thêm một chút về lý do tại sao dữ liệu mở lại là một điều tuyệt
vời như vậy và nó có thể giúp bạn như thế nào với tư cách là một nhà phân tích dữ liệu. Một
trong những lợi ích lớn nhất của dữ liệu mở là cơ sở dữ liệu đáng tin cậy có thể được sử dụng
rộng rãi hơn. Quan trọng hơn, tất cả dữ liệu tốt đó có thể được tận dụng, chia sẻ và kết hợp
với các dữ liệu khác. Chỉ cần tưởng tượng tác động sẽ có đối với sự hợp tác khoa học, tiến bộ
nghiên cứu, năng lực phân tích và ra quyết định.
Ví dụ, trong lĩnh vực sức khỏe con người, tính mở cho phép chúng ta truy cập và kết
hợp các dữ liệu đa dạng để phát hiện bệnh ngày càng sớm hơn. Trong chính phủ, bạn có thể
giúp quy trách nhiệm cho các nhà lãnh đạo và cung cấp quyền truy cập tốt hơn vào các dịch
vụ cộng đồng. Các khả năng và lợi ích là gần như vô tận. Nhưng tất nhiên, mọi ý tưởng lớn
đều có những thách thức của nó. Toàn bộ rất nhiều tài nguyên là cần thiết để thực hiện chuyển
đổi công nghệ sang dữ liệu mở.
Khả năng tương tác là chìa khóa thành công của dữ liệu mở. Data interoperability is
the ability of data systems and services to openly connect and share data (Tương tác dữ liệu
là khả năng tích hợp dữ liệu từ nhiều nguồn và là yếu tố chính dẫn đến thành công dữ liệu mở
giữa các công ty và chính phủ).
Ví dụ: khả năng tương tác dữ liệu rất quan trọng đối với các hệ thống thông tin chăm sóc sức
khỏe, nơi nhiều tổ chức như bệnh viện, phòng khám, nhà thuốc và phòng thí nghiệm cần truy
cập và chia sẻ dữ liệu để đảm bảo bệnh nhân nhận được dịch vụ chăm sóc mà họ cần. Đây là
lý do tại sao bác sĩ của bạn có thể gửi đơn thuốc của bạn trực tiếp đến hiệu thuốc của bạn để
mua. Họ có cơ sở dữ liệu tương thích cho phép họ chia sẻ thông tin.
Nhưng loại khả năng tương tác này đòi hỏi rất nhiều sự hợp tác. Mặc dù có tiềm năng
nghiêm trọng trong việc chia sẻ dữ liệu cởi mở, kịp thời, công bằng và đơn giản, nhưng tương
lai của nó sẽ phụ thuộc vào cách giải quyết những thách thức lớn hơn một cách hiệu quả.
Là một nhà phân tích dữ liệu, tôi nói càng sớm càng tốt. Nói về điều này, chúng ta sẽ
nói nhiều hơn về dữ liệu mở và xem việc sử dụng nó trong thực tế trong một video sắp tới.
Bây giờ bạn đã học tất cả về đạo đức dữ liệu, bạn có một số nguyên tắc quan trọng để hướng
dẫn bạn trên hành trình dữ liệu của mình. Bất cứ khi nào bạn không chắc chắn về dữ liệu của
mình, hãy nhớ những gì bạn đã học được ở đây. Những Con Đường Hạnh Phúc.
Andrew: Các bước sử dụng dữ liệu có đạo đức
Tên tôi là Andrew. Tôi là Người ủng hộ nhà phát triển cấp cao trong nhóm nghiên cứu
đạo đức AI tại Google. Là một nhà phân tích, có khá nhiều điều bạn có thể làm khi đánh giá
tập dữ liệu của mình để đảm bảo rằng bạn đang xem xét tập dữ liệu đó qua các lăng kính đạo
đức khác nhau. Một trong số đó là tự phản ánh và hiểu những gì bạn đang làm và tác động của
nó. Cách tốt nhất để thách thức điều đó là đặt câu hỏi chúng ta là ai. Chúng tôi, giống như,
được rồi, chúng tôi trong nhóm này đang cố gắng xây dựng điều này bởi vì chúng tôi nghĩ
rằng điều đó sẽ giúp cải thiện sản phẩm này hoặc điều đó sẽ giúp đưa ra các quyết định về
những gì chúng tôi muốn làm tiếp theo.
Hãy nghĩ về không chỉ những thứ ngồi bên cạnh bạn, mà còn nghĩ về những thứ được
thể hiện trong tập dữ liệu này và những thứ không được trình bày trong tập dữ liệu này, sau
đó sử dụng trực giác đó để tiếp tục đặt câu hỏi về tính toàn vẹn, chất lượng, đại diện có trong
tập dữ liệu đó. Và sau đó, hãy nghĩ về những tác hại và rủi ro khác nhau liên quan đến công
việc bạn đang làm. Ví dụ: nếu bạn nghĩ rằng bạn sẽ được lợi khi lưu giữ tập dữ liệu lâu hơn,
thì bạn cũng có thể muốn hiểu rủi ro khi lưu giữ tập dữ liệu này là gì? Tác hại tiềm tàng có thể
phát sinh nếu bạn tiếp tục xem tập dữ liệu và tiếp tục lưu trữ và tiếp tục truy xuất dữ liệu này
là gì? Và hơn thế nữa, cũng hiểu quy trình chấp thuận như thế nào. Bạn có đang thông báo
cho những người đó rằng bạn đang thu thập dữ liệu về cách dữ liệu sẽ được sử dụng không?
Kênh truyền thông như thế nào? Đặt các lăng kính đạo đức khác nhau, thực hiện một cách tiếp
cận nhiều sắc thái hơn đối với phân tích của bạn, nhận thức được tất cả các rủi ro và tác hại
có thể phát sinh khi không chỉ phân tích tập dữ liệu mà còn trình bày tập dữ liệu của bạn. Cách
bạn miêu tả các kết quả, cách chúng được sử dụng trong quá trình ra quyết định, cho dù bạn
đang trình bày kết quả này với ban quản lý hay trình bày điều này với giám đốc điều hành hay
trình bày điều này với nhiều đối tượng hơn. Tất cả những điều đó quan trọng trong việc sử
dụng có trách nhiệm bộ dữ liệu.
Nhưng với tư cách là nhà phân tích dữ liệu, bạn đứng ở điểm giao nhau giữa chính
những người sẽ được hưởng lợi từ công nghệ đang được phát triển và những người trong tổ
chức của bạn đang cố gắng đưa ra quyết định sáng suốt hơn về việc có nên tiếp tục với công
nghệ hay không. Có thể cảm thấy như có rất nhiều trọng lượng ở đó, và có, nhưng nó cũng rất
quan trọng, và nó nói lên mức độ tác động của công việc của bạn.
Tuần 3: Cơ sở dữ liệu: Nơi dữ liệu tồn tại
Khi bạn đang phân tích dữ liệu, bạn sẽ truy cập nhiều dữ liệu từ cơ sở dữ liệu. Đó là
nơi dữ liệu tồn tại. Trong phần này của khóa học, bạn sẽ tìm hiểu tất cả về cơ sở dữ liệu, bao
gồm cách truy cập và trích xuất, lọc và sắp xếp dữ liệu mà chúng chứa. Bạn cũng sẽ kiểm tra
siêu dữ liệu để khám phá các loại khác nhau và cách các nhà phân tích sử dụng chúng.
Mục tiêu học tập:
 Mô tả cơ sở dữ liệu với các tham chiếu đến các chức năng và thành phần của chúng
 Giải thích siêu dữ liệu vì nó liên quan đến cơ sở dữ liệu
 Thảo luận về tầm quan trọng của siêu dữ liệu và cách siêu dữ liệu liên quan đến công
việc của nhà phân tích dữ liệu
 Thể hiện sự hiểu biết về các vấn đề và các bước liên quan đến việc truy cập dữ liệu từ
nhiều nguồn
 Giải thích việc sử dụng các bộ lọc và chức năng sắp xếp trong bảng tính
 Thể hiện sự hiểu biết về cách sử dụng chức năng bảng tính để nhập và kiểm tra một tập
hợp dữ liệu nhất định
 Thể hiện sự hiểu biết về cách sử dụng các hàm SQL để trích xuất dữ liệu từ cơ sở dữ
liệu
Chương 1: Làm việc với cơ sở dữ liệu
Tất cả về cơ sở dữ liệu
Xin chào lần nữa. Cho đến giờ, bạn đã biết cách dữ liệu có thể được thu thập và phân
tích để giải quyết tất cả các loại vấn đề. Bước tiếp theo, chúng ta sẽ tìm hiểu tất cả về cơ sở
dữ liệu. Nhắc lại, cơ sở dữ liệu là một tập hợp dữ liệu được lưu trữ trong hệ thống máy tính,
nhưng lưu trữ chỉ là bước khởi đầu. Bạn sẽ khám phá cách cơ sở dữ liệu có thể tìm thấy chính
xác thông tin bạn cần cho phân tích của mình. Bạn cũng sẽ tìm hiểu cách sắp xếp dữ liệu để
phóng to những gì bạn cần để tạo các báo cáo chuyên sâu và hơn thế nữa.
Sau đó, chúng ta sẽ đi sâu hơn nữa, và ý tôi là thực sự, thực sự sâu sắc. Tôi đang nói về
siêu dữ liệu. Chắc hẳn bạn đã từng nghe ai đó nói, ồ, thật là meta. Thông thường, họ đang nói
về điều gì đó liên quan đến chính nó hoặc hoàn toàn tự nhận thức được. Ví dụ: nếu một nhân
vật trong sách biết cô ấy đang ở trong sách, đó là meta. Nếu bạn làm phim tài liệu về làm phim
tài liệu, đó cũng là meta. Và tại Google, tôi liên tục phân tích cách tôi phân tích dữ liệu. Đó
chắc chắn là meta. Tôi làm điều đó để kiểm tra chất lượng công việc của mình để đảm bảo các
phương pháp của tôi là công bằng. Và để chắc chắn rằng tôi đang chú ý đến bất kỳ thành kiến
nào có thể ảnh hưởng đến kết quả.
Là một nhà phân tích, bạn cũng nên làm điều này. Đôi khi chúng ta đến quá gần với dữ
liệu của mình. Vì vậy, hãy lùi lại và tự hỏi liệu các quy trình của chúng ta có hợp lý hay không
mới là điều quan trọng. Nhưng hãy sao lưu một chút và xác định siêu dữ liệu. Metadata is
Data about data (Siêu dữ liệu là dữ liệu về dữ liệu). Giống như tôi đã nói: sâu sắc. Siêu dữ liệu
cực kỳ quan trọng khi làm việc với cơ sở dữ liệu. Hãy nghĩ về nó giống như một hướng dẫn
tham khảo. Nếu không có hướng dẫn, tất cả những gì bạn có là một đống dữ liệu không có
ngữ cảnh giải thích ý nghĩa của nó. Siêu dữ liệu cho bạn biết dữ liệu đến từ đâu, khi nào và
bằng cách nào dữ liệu được tạo cũng như nội dung của dữ liệu.
Tiếp theo, bạn sẽ tìm hiểu cách lấy dữ liệu từ cơ sở dữ liệu hoặc nguồn khác và đưa dữ
liệu đó vào bảng tính. Bạn sẽ làm điều này bằng cách nhập nó trực tiếp hoặc bằng cách sử
dụng SQL để tạo yêu cầu. Và một khi bạn có dữ liệu trong bảng tính, khả năng là vô tận.
Mọi thứ chúng tôi sắp trình bày là một phần rất quan trọng trong giai đoạn chuẩn bị
của quy trình phân tích dữ liệu. Đó là cách các nhà phân tích dữ liệu tìm ra loại dữ liệu nào sẽ
hữu ích nhất cho họ. Nếu bạn có dữ liệu phù hợp, bạn sẽ có nhiều khả năng giải quyết thành
công các vấn đề kinh doanh của mình. Vì vậy, bạn đã sẵn sàng khai thác sức mạnh đáng kinh
ngạc của cơ sở dữ liệu chưa? Đi nào!
Tính năng cơ sở dữ liệu
Cơ sở dữ liệu là công cụ cần thiết cho các nhà phân tích dữ liệu. Tôi sử dụng chúng
liên tục. Gần như tất cả dữ liệu tôi truy cập được lưu trữ trong cơ sở dữ liệu. Cơ sở dữ liệu lưu
trữ và sắp xếp dữ liệu, giúp các nhà phân tích dữ liệu quản lý và truy cập thông tin dễ dàng
hơn nhiều. Chúng giúp chúng tôi hiểu rõ hơn nhanh hơn, đưa ra quyết định dựa trên dữ liệu
và giải quyết vấn đề.
Bạn đã nghe một chút về cơ sở dữ liệu là gì và cách các nhà phân tích dữ liệu sử dụng
chúng. Bây giờ hãy tìm hiểu thêm về các tính năng và thành phần của cơ sở dữ liệu. Đây là
một cấu trúc cơ sở dữ liệu đơn giản.
Nó chứa các bảng có thông tin từ một nhà sản xuất ô tô. Cấp cao nhất bao gồm đại lý xe hơi,
chi tiết sản phẩm và bộ phận sửa chữa. Sau đó, nếu bạn xem chi tiết cấp độ tiếp theo bằng
cách chọn một trong các bảng đó, bạn sẽ tìm thấy nhiều chi tiết cụ thể hơn về từng mục. Đây
được gọi là cơ sở dữ liệu quan hệ.
Relational database is A database that contains a series of ralated tables that can be
connected via their relationships. (Cơ sở dữ liệu quan hệ là Cơ sở dữ liệu có chứa một loạt các
bảng có thể được kết nối để tạo thành các mối quan hệ). Để hai bảng có mối quan hệ, một
hoặc nhiều trường giống nhau phải tồn tại bên trong cả hai bảng. Ví dụ, ở đây, ID nhánh tồn
tại trong bảng này và bảng này. Nếu một trường tồn tại trong cả hai bảng, chúng ta có thể sử
dụng nó để kết nối các bảng lại với nhau.
Trường ID nhánh là chìa khóa để kết nối các bảng này. Có hai loại khóa. Primary key is An
identifier that references a column in which each value is unique ( Khóa chính là một mã định
danh trong cơ sở dữ liệu tham chiếu đến một cột trong đó mỗi giá trị là duy nhất). Bạn có thể
coi nó như một mã định danh duy nhất cho mỗi hàng trong bảng. Đối với bảng đại lý của
chúng tôi có thông tin về các chi nhánh đại lý khác nhau, ID chi nhánh là khóa chính. Tương
tự, đối với bảng chi tiết sản phẩm về từng dòng xe, số VIN là khóa chính của chúng ta.
Là một nhà phân tích, bạn có thể cần phải tạo các bảng. Nếu bạn quyết định bao gồm
một khóa chính, thì khóa đó phải là duy nhất, nghĩa là không có hai hàng nào có cùng một
khóa chính. Ngoài ra, nó không thể rỗng hoặc trống.
Ngoài ra còn có các khóa ngoại. Foreign key is A field within a table that is a primary
key in another table (Khóa ngoại là Một trường trong bảng cơ sở dữ liệu là khóa chính trong
bảng khác). Khóa ngoại là một trường trong một bảng là khóa chính trong một bảng khác. Nói
cách khác, khóa ngoại là cách một bảng có thể được kết nối với một bảng khác. Bởi vì bảng
các bộ phận sửa chữa của chúng tôi chứa thông tin về từng bộ phận của ô tô nên khóa chính
là ID bộ phận. Mỗi hàng trong bảng các bộ phận sửa chữa của chúng tôi đại diện cho một bộ
phận duy nhất. Tất cả các khóa khác trong bảng này, chẳng hạn như số VIN, là các khóa ngoại
cho phép kết nối bảng bộ phận sửa chữa với các bảng khác.
Như bạn có thể thấy, một bảng chỉ có thể có một khóa chính nhưng nó có thể có nhiều
khóa ngoại. Việc hiểu các khóa chính và khóa ngoại có thể khó khăn, vì vậy bạn sẽ có nhiều
cơ hội hơn để thực hành trong thời gian tới. Nhưng như một bản tóm tắt chung:
 Khóa chính được sử dụng để đảm bảo dữ liệu trong một cột cụ thể là duy nhất.
 Nó xác định duy nhất một bản ghi trong bảng cơ sở dữ liệu quan hệ.
 Chỉ một khóa chính được phép trong một bảng và chúng không được chứa các giá trị
rỗng hoặc trống.
Và khóa ngoại là:
 Một cột hoặc nhóm cột trong bảng cơ sở dữ liệu quan hệ cung cấp liên kết giữa dữ liệu
và hai bảng.
 Nó đề cập đến trường trong một bảng là khóa chính của một bảng khác.
 Cuối cùng, điều quan trọng cần lưu ý là có nhiều hơn một khóa ngoại được phép tồn
tại trong một bảng.
Vui lòng xem lại video này để chắc chắn rằng bạn hiểu rõ khóa chính và khóa ngoại.
Và sắp tới, bạn sẽ bắt đầu thực hành cách truy cập và phân tích dữ liệu từ cơ sở dữ liệu thực
tế. Đó sẽ là cơ hội tuyệt vời để nâng cao hiểu biết của bạn về khóa chính và khóa ngoại, tổ
chức cơ sở dữ liệu và cách bạn có thể sử dụng cơ sở dữ liệu trong sự nghiệp phân tích trong
tương lai của mình.
Quản lý dữ liệu với siêu dữ liệu
Bây giờ bạn đã hiểu các cách khác nhau để tổ chức dữ liệu trong cơ sở dữ liệu, hãy nói
về cách bạn có thể mô tả dữ liệu đó. Trong video này, chúng ta sẽ bắt đầu khám phá siêu dữ
liệu, đây là một khía cạnh rất quan trọng của việc quản lý cơ sở dữ liệu. Tuy nhiên, siêu dữ
liệu là một khái niệm trừu tượng. Hãy bắt đầu bằng một ví dụ đơn giản hàng ngày. Bạn có biết
rằng mỗi khi một bức ảnh được chụp bằng điện thoại thông minh, dữ liệu sẽ tự động được thu
thập và lưu trữ trong bức ảnh đó? Hãy xem. Chọn bất kỳ ảnh nào trên máy tính của bạn. Đây
là một bức ảnh dễ thương chụp những chú chó của bạn tôi, Rudy và Matilda. Trên ảnh của
bạn, nhấp chuột phải vào "Nhận thông tin" hoặc "Thuộc tính". Thao tác này sẽ cung cấp cho
bạn siêu dữ liệu của ảnh, siêu dữ liệu này có thể cho bạn biết loại tệp của ảnh; ngày và thời
gian nó được thực hiện; vị trí địa lý, hoặc nơi nó được thực hiện; loại thiết bị nào được sử
dụng để chụp ảnh; và nhiều hơn nữa. Khá tuyệt vời, phải không?
Đây là một ví dụ khác. Mỗi khi bạn gửi hoặc nhận email, siêu dữ liệu sẽ được gửi cùng
với thư đó. Bạn có thể tìm thấy nó bằng cách nhấp vào "Hiển thị bản gốc" hoặc "Xem chi tiết
tin nhắn". Siêu dữ liệu của email bao gồm chủ đề, người gửi, người gửi và ngày giờ gửi. Siêu
dữ liệu thậm chí còn biết nó được gửi nhanh như thế nào sau khi người gửi nhấn "Gửi".
Siêu dữ liệu là thông tin được sử dụng để mô tả dữ liệu có trong một thứ gì đó, chẳng
hạn như ảnh hoặc email. Hãy nhớ rằng siêu dữ liệu không phải là dữ liệu. Thay vào đó, đó là
dữ liệu về dữ liệu. Trong phân tích dữ liệu, siêu dữ liệu giúp các nhà phân tích dữ liệu giải
thích nội dung của dữ liệu trong cơ sở dữ liệu. Đó là lý do tại sao siêu dữ liệu rất quan trọng
khi làm việc với cơ sở dữ liệu. Nó cho nhà phân tích biết dữ liệu là gì.
Điều đó cho phép đưa dữ liệu vào giải quyết vấn đề và đưa ra quyết định dựa trên dữ
liệu. Là một nhà phân tích dữ liệu, có ba loại siêu dữ liệu phổ biến mà bạn sẽ gặp:
 mô tả
 cấu trúc
 quản trị
Descriptive metadata is Metadata that describes a piece of data and can be used to
identify it at a later point in the time ( Siêu dữ liệu mô tả là Siêu dữ liệu mô tả một phần dữ
liệu và có thể được sử dụng để xác định dữ liệu sau đó). Ví dụ: siêu dữ liệu mô tả của một
cuốn sách trong thư viện sẽ bao gồm mã bạn nhìn thấy trên gáy sách, được gọi là Số sách tiêu
chuẩn quốc tế duy nhất, còn được gọi là ISBN. Nó cũng sẽ bao gồm tác giả và tiêu đề của
cuốn sách.
Structual metadata is metadata that indicates how a piece of data is orgainzed and
whether it is part of one, or more than one, data collection. ( Siêu dữ liệu cấu trúc là Siêu dữ
liệu cho biết cách một phần dữ liệu được tổ chức và liệu nó có phải là một phần của một hay
nhiều tập hợp hay không). Hãy quay trở lại thư viện. Một ví dụ về dữ liệu cấu trúc sẽ là cách
các trang của một cuốn sách được ghép lại với nhau để tạo ra các chương khác nhau. Điều
quan trọng cần lưu ý là siêu dữ liệu cấu trúc cũng theo dõi mối quan hệ giữa hai điều. Ví dụ,
nó có thể cho chúng ta thấy rằng tài liệu kỹ thuật số của một bản thảo sách thực sự là phiên
bản gốc của một cuốn sách hiện đang được in.
Administrative metadata is Metadata that indicates the technical source of a digital
asset. ( Siêu dữ liệu quản trị là Siêu dữ liệu cho biết nguồn kỹ thuật của tài sản kỹ thuật số).
Khi chúng tôi xem xét siêu dữ liệu bên trong ảnh, đó là siêu dữ liệu quản trị. Nó cho bạn biết
loại tệp, ngày và giờ được thực hiện, v.v.
Đây là một suy nghĩ cuối cùng để giúp bạn hiểu siêu dữ liệu. Nếu bạn đang trên đường
đến thư viện để chọn một cuốn sách, bạn có thể nghiên cứu tên sách, tác giả, độ dài và số
chương của cuốn sách. Đó là tất cả siêu dữ liệu, và nó có thể cho bạn biết nhiều điều về cuốn
sách, nhưng bạn phải thực sự đọc cuốn sách để biết nội dung của nó.
Tương tự như vậy, bạn có thể đọc về phân tích dữ liệu, nhưng bạn phải tham gia khóa
học này để lấy chứng chỉ Google Data Analytics. Tiếp tục tiến về phía trước để đạt được quan
điểm mới đó.
Sử dụng siêu dữ liệu như một nhà phân tích
Bây giờ bạn đã biết siêu dữ liệu là gì, đã đến lúc khám phá lý do tại sao các nhà phân
tích dữ liệu sử dụng nó. Bạn đã biết rằng dữ liệu cần được xác định và mô tả trước khi có thể
giúp bạn giải quyết vấn đề hoặc đưa ra quyết định kinh doanh hiệu quả.
Đưa dữ liệu vào ngữ cảnh có lẽ là điều có giá trị nhất mà siêu dữ liệu làm được, nhưng
vẫn còn nhiều lợi ích khác khi sử dụng siêu dữ liệu. Đây là một. Siêu dữ liệu tạo ra một nguồn
sự thật duy nhất bằng cách giữ cho mọi thứ nhất quán và thống nhất. Chúng tôi, các nhà phân
tích dữ liệu yêu thích sự nhất quán. Chúng tôi luôn hướng đến sự đồng nhất này trong dữ liệu
và cơ sở dữ liệu của chúng tôi.
Xét cho cùng, dữ liệu thống nhất có thể được sắp xếp, phân loại, lưu trữ, truy cập và sử
dụng một cách hiệu quả. Ngoài ra, khi cơ sở dữ liệu nhất quán, việc khám phá mối quan hệ
giữa dữ liệu bên trong nó và dữ liệu ở nơi khác sẽ dễ dàng hơn nhiều. Siêu dữ liệu cũng làm
cho dữ liệu trở nên đáng tin cậy hơn bằng cách đảm bảo dữ liệu chính xác, xác thực, phù hợp
và kịp thời. Điều này cũng giúp các nhà phân tích dữ liệu dễ dàng xác định nguyên nhân gốc
rễ của bất kỳ sự cố nào có thể xảy ra. Điểm mấu chốt là, khi dữ liệu chúng tôi làm việc với
chất lượng cao, nó sẽ giúp mọi việc trở nên dễ dàng hơn và cải thiện kết quả của chúng tôi.
Một trong những cách mà các nhà phân tích dữ liệu đảm bảo dữ liệu của họ nhất quán
và đáng tin cậy là sử dụng thứ gọi là kho lưu trữ siêu dữ liệu. Metadata repository is A
database specifically created to store metadata ( Nơi lưu trữ siêu dữ liệu là Cơ sở dữ liệu được
tạo để lưu trữ siêu dữ liệu).
Kho lưu trữ siêu dữ liệu có thể được lưu trữ ở một vị trí thực tế hoặc chúng có thể là ảo, giống
như dữ liệu tồn tại trong đám mây. Các kho lưu trữ này mô tả siêu dữ liệu đến từ đâu, giữ siêu
dữ liệu ở dạng có thể truy cập được để có thể sử dụng nhanh chóng và dễ dàng, đồng thời giữ
siêu dữ liệu ở một cấu trúc chung cho tất cả những ai có thể cần sử dụng. Kho lưu trữ siêu dữ
liệu giúp việc tập hợp nhiều nguồn để phân tích dữ liệu trở nên dễ dàng và nhanh chóng hơn.
Chúng thực hiện điều này bằng cách mô tả trạng thái và vị trí của siêu dữ liệu, cấu trúc
của các bảng bên trong và cách dữ liệu chảy qua kho lưu trữ. Họ thậm chí còn theo dõi
xem ai truy cập siêu dữ liệu và khi nào.
Đây là một ví dụ thực tế. Là nhà phân tích chăm sóc sức khỏe tại Google, tôi sử dụng
dữ liệu của bên thứ hai và thứ ba. Như bạn đã biết, dữ liệu của bên thứ hai là dữ liệu được một
nhóm thu thập trực tiếp từ đối tượng của mình rồi bán. Dữ liệu của bên thứ ba đến từ các
nguồn bên ngoài, không phải là người thu thập ban đầu dữ liệu đó. Họ lấy nó từ các trang web
hoặc chương trình lấy dữ liệu từ các nền tảng khác nhau nơi nó được tạo ban đầu. Nó hơi phức
tạp, nhưng điều chính cần nhớ là dữ liệu của bên thứ ba không đến từ bên trong doanh nghiệp
của bạn. Nếu nhóm của tôi cần làm việc với dữ liệu không được tạo tại Google, điều đó có
nghĩa là đôi khi chúng tôi không biết nhiều về chất lượng và độ tin cậy của dữ liệu đó, nhưng
chúng tôi cần chắc chắn rằng dữ liệu của mình đáng tin cậy và được thu thập một cách có
trách nhiệm.
Rốt cuộc, nếu dữ liệu không đáng tin cậy, kết quả của chúng tôi cũng có thể không
đáng tin cậy. Đó là lý do tại sao việc hiểu siêu dữ liệu của cơ sở dữ liệu bên ngoài là rất quan
trọng. Nó cho phép chúng tôi xác nhận rằng dữ liệu sạch, chính xác, phù hợp và kịp thời. Điều
này đặc biệt quan trọng nếu dữ liệu đến từ một tổ chức khác. Một bước quan trọng khác khi
làm việc với dữ liệu ngoài là xác nhận rằng chúng tôi được phép sử dụng dữ liệu đó. Chúng
tôi thường liên hệ với chủ sở hữu để đảm bảo rằng chúng tôi có thể truy cập hoặc mua nó.
Tóm lại, kho lưu trữ siêu dữ liệu rất hữu ích vì tất cả những lý do này. Ngoài ra, chúng
giúp đảm bảo rằng nhóm của tôi đang lấy nội dung phù hợp cho dự án cụ thể và sử dụng nội
dung đó một cách thích hợp. Chúng tôi có thể xác nhận điều này vì siêu dữ liệu mô tả rõ ràng
cách thức và thời điểm dữ liệu được thu thập, cách thức tổ chức dữ liệu và hơn thế nữa. Bạn
sẽ sớm tìm hiểu thêm về cách sử dụng siêu dữ liệu trong phân tích dữ liệu và nếu bạn thấy
siêu dữ liệu đặc biệt hấp dẫn, bạn sẽ khám phá ra một số lựa chọn nghề nghiệp thực sự thú vị
tập trung vào siêu dữ liệu. Hãy chú ý theo dõi.
Quản lý siêu dữ liệu
Siêu dữ liệu và kho lưu trữ siêu dữ liệu là những công cụ rất mạnh trong hộp công cụ
phân tích dữ liệu. Như chúng ta đã thảo luận trước đây, các nhà phân tích dữ liệu sử dụng
chúng để tạo ra một nguồn sự thật duy nhất, giữ cho dữ liệu nhất quán và thống nhất, đồng
thời đảm bảo rằng dữ liệu chúng tôi làm việc là chính xác, xác thực, phù hợp và kịp thời.
Những công cụ này cũng giúp truy cập và sử dụng dữ liệu dễ dàng hơn bằng cách chuẩn hóa
các quy trình của chúng tôi.
Trong video này, chúng ta sẽ khám phá thêm các thành phần của siêu dữ liệu và tìm
hiểu cách các nhà phân tích siêu dữ liệu làm việc để sắp xếp mọi thứ. Chúng tôi biết rằng
lượng dữ liệu ngoài kia tiếp tục tăng, nhưng rất nhiều doanh nghiệp không sử dụng dữ liệu
của họ. Đôi khi, họ không biết những gì họ có, đôi khi họ không thể tìm thấy nó hoặc đôi khi
một doanh nghiệp không tin tưởng vào nó. Đặc biệt là trong các công ty lớn hơn, dữ liệu có
thể bao gồm nhiều quy trình và hệ thống khác nhau. Và tập hợp dữ liệu từ rất nhiều nơi có thể
là một thách thức lớn.
Ví dụ: giả sử một công ty bắt đầu với hệ thống lưu trữ dữ liệu truyền thống trong văn
phòng của mình. Nhưng sau đó, khi lượng dữ liệu mà nó sở hữu tiếp tục mở rộng, thì lưu trữ
đám mây cũng cần thiết. Ngoài ra, công ty này cũng có thể đang truy cập và sử dụng dữ liệu
của bên thứ hai hoặc bên thứ ba từ một tổ chức đối tác. Mỗi hệ thống này có các quy tắc và
yêu cầu riêng, vì vậy mỗi hệ thống tổ chức dữ liệu theo một cách hoàn toàn khác, làm tăng
thêm độ phức tạp. Không có gì ngạc nhiên khi rất nhiều tổ chức phải vật lộn để tìm đúng dữ
liệu vào đúng thời điểm.
Mặt khác, siêu dữ liệu được lưu trữ ở một vị trí trung tâm duy nhất và nó cung cấp cho
công ty thông tin được chuẩn hóa về tất cả dữ liệu của nó. Điều này được thực hiện theo hai
cách. Đầu tiên, siêu dữ liệu bao gồm thông tin về vị trí của từng hệ thống và vị trí của các bộ
dữ liệu trong các hệ thống đó. Thứ hai, siêu dữ liệu mô tả cách tất cả dữ liệu được kết nối giữa
các hệ thống khác nhau.
Một khía cạnh quan trọng khác của siêu dữ liệu là một thứ được gọi là quản trị dữ liệu.
Data governance is a process to ensure the formal management of a company’s data assets
( Quản trị dữ liệu là Quy trình đảm bảo việc quản lý chính thức tài sản dữ liệu của công ty).
Điều này giúp tổ chức kiểm soát tốt hơn dữ liệu của họ và giúp công ty quản lý các vấn đề
liên quan đến bảo mật dữ liệu và quyền riêng tư, tính toàn vẹn, khả năng sử dụng cũng như
luồng dữ liệu bên trong và bên ngoài.
Điều quan trọng cần lưu ý là quản trị dữ liệu không chỉ đơn thuần là chuẩn hóa thuật
ngữ và quy trình. Đó là về vai trò và trách nhiệm của những người làm việc với siêu dữ liệu
hàng ngày. Đây là những chuyên gia về siêu dữ liệu và họ tổ chức cũng như duy trì dữ liệu
của công ty, đảm bảo rằng dữ liệu đó có chất lượng cao nhất có thể. Những người này tạo
thông tin khám phá và nhận dạng siêu dữ liệu cơ bản, mô tả cách các bộ dữ liệu khác nhau
hoạt động cùng nhau và giải thích nhiều loại tài nguyên dữ liệu khác nhau. Các chuyên gia
siêu dữ liệu cũng tạo ra các tiêu chuẩn rất quan trọng mà mọi người tuân theo và các mô hình
được sử dụng để tổ chức dữ liệu. Có một điều tất cả họ đều có điểm chung. Cho dù họ làm
việc tại một công ty công nghệ, hiệp hội phi lợi nhuận hay tổ chức tài chính, các nhà phân tích
siêu dữ liệu đều là những người làm nhóm tuyệt vời. Họ đam mê làm cho dữ liệu có thể truy
cập được bằng cách chia sẻ với đồng nghiệp và các bên liên quan khác.
Nếu bạn đang tìm kiếm một vai trò khuyến khích bạn khám phá tất cả dữ liệu mà thế
giới kỹ thuật số cung cấp, thì con đường trở thành nhà phân tích siêu dữ liệu có thể là lựa chọn
phù hợp với bạn. Nhưng dù sao đi nữa, các doanh nghiệp thuộc mọi loại hình đều phải đối
mặt với xu hướng thị trường và sự cạnh tranh, và họ cần hiểu tại sao quy trình này hiệu quả
trong khi quy trình khác thì không. Phân tích dữ liệu cho phép họ trả lời các câu hỏi chính và
tiếp tục cải thiện.
Megan: Vui với siêu dữ liệu
Tên tôi là Megan và tôi là trưởng bộ phận đo lường đại lý tại Google. Về cơ bản, tôi
giúp làm sáng tỏ việc đo lường và phân tích cho các công ty quảng cáo. Vì vậy, những người
được giao nhiệm vụ thực hiện các kế hoạch truyền thông cho các nhà quảng cáo nhưng cũng
có những người quan tâm đến việc đo lường tác động của phương tiện truyền thông đối với
khách hàng của họ.
Vì vậy, tôi đã làm việc này được khoảng 17 năm nay và đã chứng kiến rất nhiều sự
phát triển trong không gian từ tính sẵn có của dữ liệu, từ các kỹ thuật lập mô hình khác nhau
trở nên tiên tiến hơn nhưng cũng dễ tiếp cận hơn và đó thực sự là một hành trình thú vị để xem
nó như thế nào, đã phát triển như thế nào, phân tích đã trở nên phổ biến hơn như thế nào và
mọi người đang hào hứng hơn với nó như thế nào.
Siêu dữ liệu về cơ bản là chìa khóa cho tập dữ liệu lớn hơn của bạn. Nó giúp mô tả
những gì có trong các hàng và cột của dữ liệu mà bạn sẽ làm việc. Siêu dữ liệu là một loại tốc
ký hoặc phiên bản CliffsNotes của một bộ thông tin phức tạp hơn nhiều. Nó có thể hữu ích
trong việc giúp bạn xử lý những gì trong một tập dữ liệu duy nhất mà bạn có thể có quyền truy
cập. Đây là một phần quan trọng trong quy trình khám phá của bất kỳ dự án phân tích nào khi
bạn đang làm việc với khách hàng hoặc nhà cung cấp để hiểu các tài nguyên mà bạn sẽ có để
giải quyết vấn đề và những gì có thể bị thiếu. Nó chỉ cung cấp cho bạn chìa khóa để mở khóa
dữ liệu đó theo cách thực sự đơn giản và dễ hiểu, đồng thời là một công cụ giao tiếp tuyệt vời.
Khi tôi làm việc cho một nhà quảng cáo, một trong những điều mà chúng tôi đang cố
gắng thực hiện là xây dựng một thứ gọi là hồ dữ liệu. Vì vậy, về cơ bản, đây là tập hợp tất cả
các nguồn dữ liệu mà bạn có thể muốn sử dụng trong phân tích vào một nơi, điều này có thể
thực sự rất phức tạp.
Một trong những lợi ích của siêu dữ liệu là tìm ra nơi chúng tôi có các nguồn có thể
trùng lặp, nơi chúng tôi có các nguồn dữ liệu có điểm chung. Và những mẩu thông tin duy
nhất mà chúng tôi đã nhận được từ mỗi bộ dữ liệu đó là gì. Vì vậy, khi chúng tôi nghĩ về việc
giải quyết dự án thực sự lớn và quan trọng này, chúng tôi đã có thể sử dụng siêu dữ liệu để
nhanh chóng và dễ dàng tiếp cận các cấu trúc cơ bản mà chúng tôi đang cố gắng giải quyết.
Khi bạn làm việc với những người có thể không coi phân tích là công việc hàng ngày
của họ, thì việc có được khoảnh khắc "aha" đó, giúp họ hiểu cách đo lường và phân tích là
những công cụ có thể giúp họ đạt được mục tiêu của mình, thực sự quan trọng. Và việc bạn
đạt được ý tưởng đó đã tạo ra một thứ mà trước đây không thể tiếp cận được trở nên dễ tiếp
cận hơn một chút đối với nhóm đó và thứ mà họ cảm thấy thoải mái khi đưa vào thực tế là
điều thực sự quan trọng và thực sự là một cách tuyệt vời để tạo ra mối quan hệ đối tác.
Chương 3: Truy cập các nguồn dữ liệu khác nhau
Làm việc với nhiều nguồn dữ liệu hơn
Trong video này, chúng ta sẽ thảo luận về những nơi khác nhau mà các nhà phân tích
dữ liệu sẽ kết nối với dữ liệu. Có tất cả các loại dữ liệu ngoài kia và điều quan trọng là phải
biết cách truy cập dữ liệu đó.
Trước đó, bạn biết rằng có hai loại dữ liệu cơ bản được sử dụng bởi các nhà phân tích
dữ liệu: nội bộ và bên ngoài. Internal data is data that lives within a company’s own systems
( Dữ liệu nội bộ là Dữ liệu nằm trong hệ thống riêng của công ty). Nó thường cũng được tạo
ra từ bên trong công ty. Bạn cũng có thể nghe thấy dữ liệu nội bộ được mô tả là dữ liệu chính.
External data is Data that lives and is generated outside an orgaination ( Dữ liệu bên ngoài
là dữ liệu tồn tại và được tạo bên ngoài tổ chức).
Nó có thể đến từ nhiều nơi, bao gồm các doanh nghiệp khác, nguồn chính phủ, phương
tiện truyền thông, hiệp hội nghề nghiệp, trường học, v.v. Dữ liệu bên ngoài đôi khi được gọi
là dữ liệu thứ cấp. Thu thập dữ liệu nội bộ có thể phức tạp. Tùy thuộc vào dự án phân tích dữ
liệu của bạn, bạn có thể cần dữ liệu từ nhiều nguồn và phòng ban khác nhau, bao gồm bán
hàng, tiếp thị, quản lý quan hệ khách hàng, tài chính, nhân sự và thậm chí cả kho lưu trữ dữ
liệu.
Nhưng nỗ lực là xứng đáng. Dữ liệu nội bộ có rất nhiều lợi thế cho một doanh nghiệp.
Nó cung cấp thông tin có liên quan đến các vấn đề bạn đang cố gắng giải quyết và truy cập
miễn phí vì công ty đã sở hữu nó. Với dữ liệu nội bộ, các nhà phân tích có thể làm việc trên
tất cả các dự án dữ liệu mà không cần nhìn xa hơn bức tường của chính họ.
Nhưng đôi khi dữ liệu nội bộ không cung cấp cho bạn bức tranh đầy đủ. Trong những
trường hợp đó, các nhà phân tích dữ liệu có thể chuyển sang dữ liệu bên ngoài và áp dụng
thông tin đó vào phân tích của họ.
Ví dụ: với tư cách là nhà phân tích chăm sóc sức khỏe, chúng tôi thường hợp tác với
các tổ chức chăm sóc sức khỏe hoặc tổ chức phi lợi nhuận khác và sử dụng dữ liệu của họ để
tạo ra các phân tích sâu hơn và bổ sung thêm một số quan điểm cấp ngành. Trong một video
trước đó, bạn đã biết rằng tính mở đã tạo ra rất nhiều dữ liệu cho các nhà phân tích sử dụng,
chủ yếu thông qua các sáng kiến về dữ liệu mở. Xin nhắc lại, tính mở hay dữ liệu mở đề cập
đến việc truy cập, sử dụng và chia sẻ dữ liệu miễn phí. Ví dụ: chính phủ Hoa Kỳ cung cấp
hàng trăm nghìn bộ dữ liệu cho công chúng trên Data.gov. Những bộ dữ liệu này chứa thông
tin về các kiểu thời tiết, tiến bộ giáo dục, tỷ lệ tội phạm, giao thông vận tải, v.v.
Có rất nhiều lý do cho những sáng kiến dữ liệu mở này. Một là làm cho các hoạt động
của chính phủ trở nên minh bạch hơn, chẳng hạn như để công chúng biết tiền được tiêu vào
đâu. Nó cũng giúp giáo dục công dân về bầu cử và các vấn đề địa phương. Dữ liệu mở cũng
cải thiện dịch vụ công bằng cách cung cấp cho mọi người những cách để trở thành một phần
của kế hoạch công hoặc cung cấp phản hồi cho chính phủ. Cuối cùng, dữ liệu mở dẫn đến sự
đổi mới và tăng trưởng kinh tế bằng cách giúp mọi người và các công ty hiểu rõ hơn về thị
trường của họ.
Google thực sự lưu trữ rất nhiều cơ sở dữ liệu công cộng với thông tin về khoa học,
giao thông vận tải, kinh tế, khí hậu, v.v. Ví dụ: một công ty chia sẻ xe đạp có thể sử dụng dữ
liệu giao thông từ trong cơ sở dữ liệu giao thông công cộng của chúng tôi để xem nơi nào
đường đông đúc nhất, sau đó chọn những vị trí đó cho xe đạp của họ để giảm ô tô trên đường
và cung cấp cho mọi người một lựa chọn di chuyển khác.
Bây giờ bạn đã quen thuộc với dữ liệu bên trong và bên ngoài cũng như cách bạn có
thể truy cập cả hai. Sắp tới, chúng ta sẽ tìm hiểu cách nhập tất cả dữ liệu bạn thu thập từ các
nguồn khác nhau vào một bảng tính.
Nhập dữ liệu từ bảng tính và cơ sở dữ liệu
Tại thời điểm này, bạn đã học tất cả về dữ liệu bên trong và bên ngoài cũng như cách
chuẩn bị để sử dụng. Bây giờ, chúng ta sẽ thực hiện quá trình nhập dữ liệu thực sự từ các
nguồn khác nhau. Đôi khi bạn muốn tải lên bảng tính từ các tệp của mình, chẳng hạn như tệp
CSV. CSV ( Comma-separated values) is A CSV file saves data in a table format ( file văn
bản được phân tách sử dụng dấu phẩy để phân tách các giá trị).
Tệp CSV lưu dữ liệu ở định dạng bảng. Bây giờ, hãy đưa tệp đó vào một bảng tính mới.
Chúng tôi sẽ bắt đầu bằng cách chọn file, sau đó import. Sau đó, chúng tôi sẽ chọn upload a
file.
Điều hướng đến nó, mở nó và chèn nó dưới dạng một trang tính mới. Các tệp CSV sử dụng
văn bản thuần túy và chúng được phân định bằng các ký tự. Vì vậy, mỗi cột hoặc trường khác
biệt rõ ràng với cột khác khi nhập.
Như bạn đã biết, các tệp CSV được phân tách bằng dấu phẩy và thông thường, ứng
dụng bảng tính sẽ tự động phát hiện các dấu phân tách đó. Nhưng đôi khi, bạn có thể cần chỉ
ra rằng dấu phân cách là một ký tự khác hoặc một khoảng trắng bằng cách chọn các tùy chọn
khác nhau trong cửa sổ này. Ngoài ra, nếu bạn định làm việc với tập dữ liệu, thông thường
bạn sẽ chuyển đổi thành văn bản, số hoặc các tùy chọn khác tại đây. Nhưng văn bản thuần túy
vẫn ổn cho mục đích báo cáo. Vì vậy, chúng ta có thể để những lĩnh vực đó một mình.
Cuối cùng, chọn Import data.
Bây giờ, tệp CSV của chúng tôi đã sẵn sàng hoạt động trong bảng tính của chúng tôi.
Tôi dành phần lớn thời gian tại nơi làm việc để phân tích các bảng tính chứa đầy thông tin
chăm sóc sức khỏe. Tôi thường bắt đầu bằng cách xem xét một tập dữ liệu lớn hơn. Sau đó,
tôi kéo một tập hợp con của nó vào một bảng tính để tôi có thể làm việc với nó. Có lẽ tôi muốn
phân tích mức tăng trưởng hàng năm về nhu cầu của người dùng trên Google Tìm kiếm đối
với một số dịch vụ chăm sóc sức khỏe nhất định, chẳng hạn như khám bệnh từ xa. Hoặc có
thể tôi muốn xem xét các bộ dữ liệu từ các tổ chức hoặc cơ quan chăm sóc sức khỏe bên ngoài
để hiểu rõ hơn về xu hướng này.
Ví dụ, với dịch vụ y tế từ xa, có thể tôi sẽ xem một bảng tính liệt kê các nhà cung cấp
dịch vụ y tế từ xa. Có rất nhiều cách mà bảng tính có thể giúp bạn tìm thấy thông tin chi tiết
bạn cần. Một nguồn mà tôi sử dụng rất nhiều là kho dữ liệu của Tổ chức Y tế Thế giới. Đây
là nơi mà bất kỳ ai cũng có thể truy cập dữ liệu nguồn mở. Như bạn có thể thấy, có rất nhiều
dữ liệu có sẵn. Bạn có thể tìm kiếm theo chủ đề, thể loại, chỉ số và quốc gia. Bạn cũng có thể
truy cập siêu dữ liệu của Tổ chức Y tế Thế giới nếu muốn tìm hiểu thêm về dữ liệu trong kho
lưu trữ.
Ví dụ của chúng tôi, chúng tôi sẽ xem xét các bác sĩ theo quốc gia và năm. Thông tin
này sẽ hữu ích cho một dự án phân tích dữ liệu xem xét có bao nhiêu bác sĩ sẵn sàng điều trị
cho bệnh nhân trong một nhóm dân số nhất định so với các nhóm dân số khác.
Để có được dữ liệu này, chúng tôi sẽ bắt đầu trên trang web này, trang này chứa tập dữ liệu
mà chúng tôi muốn. Sau đó, chúng tôi sẽ tải xuống dữ liệu dưới dạng tệp CSV. Sau đó, mở
một bảng tính mới và nhập tệp bằng cách chọn Tệp, Nhập. Tiếp theo, tải tệp của bạn lên và
chọn Nhập dữ liệu. Sau khi xem xét dữ liệu để đảm bảo dữ liệu rõ ràng, chúng ta có thể đặt
tiêu đề cho dữ liệu và bắt đầu công việc của mình.
Tôi biết đây là rất nhiều thông tin để tiếp thu, nhưng bạn sẽ cảm thấy thoải mái hơn nhiều với
điều này khi bạn thực hành nhiều hơn. Sắp tới, chúng ta sẽ tìm hiểu cách sắp xếp và lọc dữ
liệu của bạn để tập trung vào thông tin liên quan đến bạn.
Chương 4: Sắp xếp và lọc
Sắp xếp và lọc
Trong một số video trước đây, bạn đã tìm hiểu về cả dữ liệu bên trong và bên ngoài.
Bây giờ tôi sẽ chỉ cho bạn cách chỉ tập trung vào dữ liệu liên quan đến vấn đề mà bạn đang cố
gắng giải quyết. Điều này hữu ích nếu bạn đang làm việc với một bảng tính phức tạp rất lớn,
điều mà các nhà phân tích dữ liệu luôn gặp phải. Có nhiều dữ liệu có thể gây khó khăn cho
việc nhanh chóng tìm và phân tích thông tin bạn cần. Không có hai dự án phân tích nào giống
nhau. Thông thường, các nhà phân tích dữ liệu xử lý, xem và sử dụng dữ liệu rất khác nhau,
ngay cả khi dữ liệu đến từ cùng một nguồn.
Đây là một ví dụ. Kiểm tra bảng tính này cho biết đại diện bán hàng của công ty và nơi
họ làm việc.
Các nhà phân tích dữ liệu khác nhau có thể muốn có thông tin khác nhau từ bảng tính và đó
là lúc sắp xếp và lọc xuất hiện. Việc sắp xếp và lọc dữ liệu trong bảng tính giúp chúng tôi tùy
chỉnh cách trình bày dữ liệu. Họ cũng có thể tổ chức dữ liệu để các nhà phân tích có thể phóng
to các phần quan trọng. Hãy coi nó như một chiếc kính lúp cho dữ liệu của chúng ta.
Hãy bắt đầu với việc sắp xếp. Sorting data is Arranging data into a meaningful order to
make it easier to understand, analyze, and visualize. Sắp xếp liên quan đến việc sắp xếp dữ
liệu theo thứ tự có ý nghĩa để dễ hiểu, dễ phân tích và trực quan hơn.
Dữ liệu có thể được sắp xếp theo thứ tự tăng dần hoặc giảm dần và theo thứ tự bảng
chữ cái hoặc số. Việc sắp xếp có thể được thực hiện trên toàn bộ bảng tính hoặc chỉ trong một
cột hoặc bảng. Bạn cũng có thể sắp xếp theo nhiều biến. Chẳng hạn, nếu tập dữ liệu của chúng
tôi chứa cả trường thành phố và tiểu bang, trước tiên chúng tôi có thể sắp xếp theo thành phố
và sau đó theo tiểu bang. Bất cứ khi nào bạn sắp xếp dữ liệu, bạn nên cố định hàng tiêu đề
trước. Để làm điều này, chúng tôi sẽ đánh dấu hàng. Sau đó, từ menu xem, chọn đóng băng
và một hàng. Điều này khóa hàng tại chỗ. Bây giờ khi chúng tôi cuộn xuống trang tính, hàng
tiêu đề vẫn hiển thị để chúng tôi biết danh mục của từng cột.
Bây giờ hãy sắp xếp toàn bộ bảng tính. Chúng tôi sẽ sắp xếp theo thành phố đầu tiên.
Để thực hiện việc này, hãy chọn cột thành phố, sau đó sử dụng mũi tên thả xuống để sắp xếp
trang tính. Chọn A đến Z. Thao tác này sẽ sắp xếp tất cả các cột từ A đến Z theo hàng, với cột
được chọn là tiêu chí sắp xếp chính. Các thành phố hiện được sắp xếp theo thứ tự bảng chữ
cái và chúng vẫn được nhóm với các tiểu bang, đại diện bán hàng và phụ tùng ô tô tương ứng.
Các chi tiết trên mỗi hàng được tự động giữ lại với nhau khi sắp xếp một phần cụ thể, như bạn
có thể thấy ở đây.
Sắp xếp theo nhiều tiêu chí là một công cụ phân tích dữ liệu rất hữu ích khác. Chẳng
hạn, giả sử chúng ta muốn xem danh sách các đại diện bán hàng theo thành phố và tiểu bang
nơi họ làm việc. Đầu tiên, chúng tôi chọn toàn bộ tập dữ liệu, sau đó chọn dữ liệu và phạm vi
sắp xếp. Trong hộp thoại, đảm bảo rằng "Dữ liệu có hàng tiêu đề" được tô sáng. Bằng cách
đó, hàng A, thành phố, tiểu bang, đại diện bán hàng và phụ tùng ô tô sẽ không thuộc loại này.
Sau đó, trong menu thả xuống sắp xếp theo, hãy chọn trạng thái và thứ tự sắp xếp từ A đến Z.
Bây giờ, hãy thêm một cột sắp xếp khác. Trong trình đơn thả xuống "then by", hãy chọn thành
phố và thứ tự sắp xếp từ A đến Z. Cuối cùng, chọn Sắp xếp. Giờ đây, chúng tôi có thể tìm
kiếm dữ liệu để dễ dàng tìm thấy đại diện bán hàng làm việc ở một tiểu bang và thành phố cụ
thể.
Sắp xếp rất hữu ích khi bạn muốn xem mọi thứ trong bảng tính theo thứ tự bảng chữ
cái hoặc số. Nhưng đôi khi các nhà phân tích dữ liệu muốn cô lập một phần thông tin cụ thể.
Để làm điều này, họ sử dụng một bộ lọc. Lọc có nghĩa là chỉ hiển thị dữ liệu đáp ứng một tiêu
chí cụ thể trong khi ẩn phần còn lại. Bộ lọc đơn giản hóa bảng tính bằng cách chỉ hiển thị cho
chúng tôi thông tin chúng tôi cần. Ví dụ: chúng tôi có thể thêm bộ lọc để chỉ xem những đại
diện bán hàng đã làm việc với một sản phẩm cụ thể. Để thực hiện việc này, trước tiên chúng
tôi chọn Dữ liệu và Tạo bộ lọc. Chọn cột có dữ liệu chúng tôi cần. Trong trường hợp này,
Auto Parts. Các nút lọc sẽ xuất hiện ở góc của mỗi tiêu đề cột. Để lọc bảng tính của chúng tôi
theo phụ tùng ô tô, hãy nhấp vào nút trong tiêu đề Auto part. Trong ví dụ này, giả sử chúng
tôi chỉ muốn xem các đại diện bán hàng đã làm việc với vành xe. Xóa các dấu kiểm khỏi các
danh mục mà chúng tôi không muốn xem, đó là mọi thứ ngoại trừ vành. Sau đó chọn được.
Bộ lọc tạm thời ẩn bất cứ thứ gì không đáp ứng điều kiện.
Nhưng lưu ý rằng, mặc dù chúng không hiển thị nhưng chúng vẫn ở đó. Khi đến lúc
xem lại toàn bộ bảng tính khu vực, chỉ cần tắt bộ lọc. Sắp xếp và lọc là những công cụ rất
quan trọng trong hộp công cụ của nhà phân tích dữ liệu. Trong video tiếp theo, bạn sẽ khám
phá ra nhiều cách hơn nữa để thu hẹp thông tin chính xác mà bạn cần cho bất kỳ dự án phân
tích dữ liệu nào.
Chương 5: Làm việc với bộ dữ liệu lớn trong SQL
Thiết lập BigQuery, bao gồm sandbox và tùy chọn thanh toán
CHÀO. Chào mừng trở lại. Trong suốt khóa học này, bạn đã thấy cách BigQuery có
thể được sử dụng để xem và phân tích dữ liệu từ rất nhiều nguồn. Bây giờ, chúng ta sẽ khám
phá các cấp tài khoản khác nhau mà BigQuery cung cấp, để bạn biết cách chọn cấp tài khoản
phù hợp với nhu cầu của mình và cách bạn có thể truy cập chúng.
BigQuery được cung cấp miễn phí cho bạn. Có sẵn các tùy chọn trả phí, nhưng chúng
tôi sẽ không cần chúng cho các hoạt động trong khóa học này. Thay vào đó, chúng ta sẽ nói
về hai loại tài khoản: sandbox và dùng thử miễn phí. Tài khoản Sandbox được cung cấp miễn
phí và bất kỳ ai có tài khoản Google đều có thể đăng nhập và sử dụng tài khoản đó. Có một
số hạn chế đối với loại tài khoản này. Ví dụ: bạn nhận được tối đa 12 dự án cùng một lúc.
Điều này có nghĩa là nếu bạn muốn tạo dự án thứ 13, bạn sẽ phải xóa một trong số 12 dự án
ban đầu của mình. Nó cũng không cho phép bạn chèn bản ghi mới vào cơ sở dữ liệu hoặc cập
nhật giá trị trường của bản ghi hiện có.
Các thao tác Ngôn ngữ Thao tác Dữ liệu hoặc DML này không được hỗ trợ trong
sandbox. Tuy nhiên, bạn sẽ không cần phải làm điều này trong các hoạt động của khóa học.
Bạn có thể đọc thêm về các giới hạn của tài khoản sandbox trong tài liệu BigQuery. Đây là
loại tài khoản chúng tôi sẽ sử dụng cho hầu hết các hoạt động của mình. Thật đơn giản để thiết
lập. Vì vậy, ở phần sau của video này, chúng tôi sẽ hướng dẫn các bước cần thiết để tạo tài
khoản.
Tuy nhiên, trước đó, chúng ta nên nói về một cách khác để sử dụng BigQuery mà không
phải trả phí. Bản dùng thử Google Cloud miễn phí. Bản dùng thử miễn phí cung cấp cho bạn
quyền truy cập vào nhiều thứ hơn mà BigQuery cung cấp với ít giới hạn tổng thể hơn. Bản
dùng thử miễn phí cung cấp tín dụng $300 để sử dụng trong Google Cloud trong 90 ngày đầu
tiên. Bạn sẽ không đạt đến giới hạn chi tiêu đó nếu chỉ sử dụng bảng điều khiển BigQuery để
thực hành các truy vấn SQL. Sau khi bạn chi tiêu khoản tín dụng $300 hoặc sau 90 ngày, thời
gian dùng thử miễn phí của bạn sẽ hết hạn và bạn sẽ cần phải tự chọn nâng cấp lên tài khoản
trả phí để tiếp tục hoạt động trong Google Cloud. Phương thức thanh toán của bạn sẽ không
bị tính phí tự động sau khi thời gian dùng thử miễn phí của bạn kết thúc. Bản dùng thử miễn
phí yêu cầu bạn thiết lập tùy chọn thanh toán với Google Cloud. Nhưng trừ khi bạn chọn tham
gia nâng cấp tài khoản, nó sẽ không tính phí bạn. Tuy nhiên, nó yêu cầu bạn nhập loại thanh
toán. Vì vậy, chúng tôi hiểu nếu bạn không cảm thấy thoải mái với tùy chọn này. Đây là một
lý do khiến tài khoản BigQuery sandbox tồn tại, vì vậy bạn không phải nhập bất kỳ thông tin
thanh toán nào. Với một trong hai loại tài khoản, bạn có thể nâng cấp lên tài khoản trả phí bất
kỳ lúc nào và giữ lại tất cả các dự án hiện có của mình. Nếu bạn thiết lập tài khoản dùng thử
miễn phí nhưng chọn không nâng cấp lên tài khoản trả phí khi thời gian dùng thử của bạn kết
thúc, bạn có thể thiết lập tài khoản sandbox miễn phí vào thời điểm đó.
Tuy nhiên, các dự án từ bản dùng thử của bạn sẽ không chuyển sang hộp cát của bạn.
Nó sẽ giống như bắt đầu lại từ đầu. Chỉ là một thứ để ghi nhớ trong đầu. Bây giờ, chúng tôi
sẽ thiết lập tài khoản sandbox của bạn, tài khoản này bạn có thể đổi thành bản dùng thử miễn
phí hoặc nâng cấp lên tài khoản trả phí nếu muốn.
Đầu tiên, chúng ta sẽ chuyển đến trang tài liệu hộp cát BigQuery. Sau đó chuyển đến góc trên
bên phải và đăng nhập vào bất kỳ tài khoản Google nào bạn muốn sử dụng cho tài khoản hộp
cát BigQuery.
Sau đó, chúng tôi sẽ chọn nút "Chuyển đến BigQuery" trên trang tài liệu.
Điều này cung cấp cho chúng tôi trình đơn thả xuống để chọn quốc gia và đọc các điều khoản
của thỏa thuận dịch vụ. Thao tác này sẽ đưa chúng ta đến không gian làm việc SQL mà chúng
ta sẽ sử dụng cho các hoạt động sắp tới. Chọn "Tạo dự án" và đặt tên cho dự án và cung cấp
cho nó một ID. Chọn "Tạo" rồi chọn "Xong". Ở đó chúng tôi có nó.
Trong video tiếp theo, chúng ta sẽ khám phá chức năng của từng phần của không gian
làm việc SQL và cách chúng ta sẽ sử dụng phần đó trong các hoạt động trong tương lai. Hẹn
gặp bạn ở đó.
Cách sử dụng BigQuery
Xin chào. Trong video này, chúng ta sẽ tìm hiểu về từng phần của không gian làm việc
BigQuery SQL để bạn có thể sử dụng nó trong khóa học này và trong suốt sự nghiệp của mình
với tư cách là nhà phân tích dữ liệu. Đây là một công cụ cực kỳ có giá trị và phổ biến rộng rãi,
vì vậy việc hiểu cách thức hoạt động của nó là cực kỳ hữu ích. Vui lòng theo dõi trên màn
hình của bạn khi chúng tôi khám phá BigQuery. Bạn có thể nhận thấy rằng màn hình của tôi
trông hơi khác so với màn hình của bạn vì BigQuery liên tục cập nhật giao diện của nó. Đừng
lo lắng nếu điều này xảy ra vì những khác biệt nhỏ sẽ không ngăn cản bạn hiểu những điều cơ
bản.
Để bắt đầu, hãy truy cập trang đích BigQuery, sau đó đăng nhập vào tài khoản bạn đã
tạo trước đó. Để điều hướng đến không gian làm việc SQL, hãy chọn menu ở bên trái màn
hình và cuộn xuống tiêu đề Dữ liệu lớn. Sau đó di chuột qua nhãn BigQuery và nhấp vào
''Không gian làm việc SQL'' từ trình đơn thả xuống. Bây giờ chúng ta đang ở trong không gian
làm việc SQL, chúng ta sẽ tìm kiếm tập dữ liệu công khai, chọn tập dữ liệu thông qua Data
Explorer, chạy truy vấn và tải dữ liệu của chính chúng ta lên để truy vấn.
Trước tiên, chúng tôi sẽ tìm kiếm tập dữ liệu công khai để sử dụng. Để chọn tập dữ liệu
công khai, hãy điều hướng đến menu Explorer ở bên trái màn hình. Nhấp vào nút "Add Data"
ở phía trên bên phải của menu. Sau đó, trong menu thả xuống, hãy chọn "Explore public
datasets". Thao tác này sẽ mở thị trường và hiển thị cho bạn các bộ dữ liệu công khai có sẵn.
Hãy chuyển đến thanh thị trường tìm kiếm và tìm kiếm noaa_lightning, bộ dữ liệu chúng ta sẽ
sử dụng trong hoạt động sắp tới. Nhấp vào tập dữ liệu “Cloud-to-Ground Lightning Strikes''.
Điều này sẽ cung cấp cho chúng tôi mô tả và xem trước tập dữ liệu ghi lại các quan sát về hoạt
động của sét và các kiểu thời tiết ở Hoa Kỳ. Nhấp vào "View dataset" Điều này sẽ đưa bạn trở
lại không gian làm việc SQL và tạo một tab cho tập dữ liệu. Sau đó, chúng tôi có thể quay lại
tab Trình chỉnh sửa mà chúng tôi đã mở hoặc nhấp vào "Compose new query" để bắt đầu viết
bằng SQL. Ở bên trái, hãy lưu ý rằng danh sách thả xuống dữ liệu công khai của BigQuery
nằm trong menu Explorer. Chúng tôi có thể nhấp vào mũi tên để mở rộng danh sách dữ liệu
BigQuery và chọn một tập dữ liệu mới. Hãy chọn tập dữ liệu đầu tiên trong danh sách thả
xuống, austin_311. Khi chúng tôi thực hiện, nó sẽ mở rộng để hiển thị bảng trong tập dữ liệu.
Chúng tôi có thể mở tập dữ liệu để xem trước. Tab Lược đồ chứa tên của từng cột trong tập
dữ liệu. Tab Chi tiết chứa siêu dữ liệu bổ sung, chẳng hạn như ngày tạo tập dữ liệu. Tab Xem
trước chứa các hàng đầu tiên từ tập dữ liệu.
Trên trang này, chúng tôi có thể nhấp vào "Query" để tự động tạo cửa sổ trình chỉnh
sửa mới với mẫu cho truy vấn đã được điền sẵn. Từ đây, đặt dấu hoa thị sau Select, nơi con
trỏ của chúng ta bật lên, sau đó chạy truy vấn. Xin chúc mừng, bạn đã chạy một truy vấn SQL
trong BigQuery. Truy vấn bạn đã chạy đã trả về các hàng từ tập dữ liệu xuất hiện trong một
cửa sổ bên dưới giao diện trình chỉnh sửa. Kết quả từ bất kỳ truy vấn nào bạn chạy cũng sẽ
hiển thị ở đây. Bây giờ, giả sử bạn có kết quả khảo sát mà bạn muốn tải lên BigQuery và phân
tích bằng SQL. Để thêm dữ liệu của riêng bạn vào BigQuery, hãy chọn ID của dự án mà bạn
muốn thêm vào. Chọn biểu tượng ba dấu chấm dọc để mở các tùy chọn cho dự án, sau đó chọn
"Create dataset". Đặt tên cho tập dữ liệu nào đó sẽ giúp bạn xác định nó sau này, chẳng hạn
như upload_test_dataset. Sau đó nhấp vào "Create dataset." Tiếp theo, chuyển đến trình đơn
Explorer và chọn ba dấu chấm dọc bên cạnh tập dữ liệu trong trình đơn thả xuống Dự án. Bây
giờ chúng ta sẽ chọn biểu tượng để tạo bảng, biểu tượng này sẽ mở ra một cửa sổ bật lên.
Trong Nguồn và tạo bảng từ, chọn "Upload" hoặc bất kỳ phương pháp nào bạn muốn tải dữ
liệu của mình lên. Tại đây, chúng tôi có thể tải lên bất kỳ tệp dữ liệu nào, chẳng hạn như tệp
CSV. Hãy đặt cho bảng của chúng ta một cái tên hữu ích, chẳng hạn như test_table. Đảm bảo
rằng lược đồ được đặt thành tự động phát hiện và chọn "Create table". Còn nhiều điều nữa sẽ
đến với BigQuery. Vui lòng xem lại video này bất cứ lúc nào và tiếp tục luyện tập. Hẹn sớm
gặp lại.
BigQuery trong hành động
Bạn đã học cách sắp xếp và lọc dữ liệu trong bảng tính giúp nhà phân tích dữ liệu tùy
chỉnh thông tin. Việc tùy chỉnh dữ liệu giúp dữ liệu có ý nghĩa hơn, dễ hiểu, dễ phân tích và
trực quan hơn.
Bạn cũng phát hiện ra rằng một số bảng tính có thể rất dài và phức tạp. Vì vậy, biết
cách tập trung vào dữ liệu chính xác mà bạn cần trong khi đặt phần còn lại sang một bên sẽ
giúp bạn tập trung vào phân tích của mình. Điều này cũng đúng với cơ sở dữ liệu. Đôi khi, tập
dữ liệu quá lớn để tải xuống hoặc tập dữ liệu không vừa với bảng tính. Vì vậy, nhà phân tích
dữ liệu sẽ sử dụng SQL để tạo truy vấn nhằm xem dữ liệu cụ thể mà họ muốn từ bên trong tập
hợp lớn hơn.
Chúng ta đã biết rằng cơ sở dữ liệu là tập hợp dữ liệu được lưu trữ trong hệ thống máy
tính. Và SQL đó là viết tắt của Ngôn ngữ truy vấn có cấu trúc. Các nhà phân tích dữ liệu sử
dụng ngôn ngữ truy vấn để giao tiếp với cơ sở dữ liệu. Trong một video trước đó, bạn cũng
đã biết rằng một cơ sở dữ liệu quan hệ chứa một loạt các bảng có thể được kết nối để tạo thành
các mối quan hệ. Các mối quan hệ này được biểu diễn bằng khóa chính và khóa ngoại.
Các nhà phân tích dữ liệu viết các truy vấn để lấy dữ liệu từ các bảng này. Hãy xem
làm thế nào điều này hoạt động. Chúng tôi sẽ bắt đầu với trình xem bảng của chúng tôi. Ở đây
chúng ta có thể xem những bộ dữ liệu công khai nào có sẵn. Chúng tôi sẽ cuộn qua dữ liệu
trước khi bắt đầu sử dụng để cảm nhận về nội dung của dữ liệu và để đảm bảo dữ liệu sạch.
Một số trình xem bảng cho phép bạn xem trước một vài hàng trước khi viết truy vấn.
Điều này hữu ích nếu bạn muốn xem nhanh để chắc chắn rằng tập dữ liệu sẽ phù hợp với dự
án của bạn. Để cho bạn biết cách thức hoạt động của tính năng này, hãy xem tập dữ liệu mẫu.
Cái này cho biết lượng ánh sáng mặt trời chiếu vào các mái nhà trong một năm.
Điều này sẽ rất hữu ích cho một nhà phân tích dữ liệu làm việc trong một dự án năng
lượng mặt trời chẳng hạn. Chúng tôi sẽ bắt đầu bằng cách xem trước tập dữ liệu. Bấm vào nó,
như thế này. Sau đó, chúng tôi sẽ chọn một tập hợp con của dữ liệu này, nơi chúng tôi tìm
thấy các khu vực, tiểu bang, ánh sáng mặt trời hàng năm, v.v. Bây giờ để xem toàn bộ tập dữ
liệu, hãy viết một truy vấn.
Bước đầu tiên là tìm ra tên đầy đủ chính xác của tập dữ liệu. Để thực hiện việc này,
hãy chọn tập dữ liệu, tiềm năng năng lượng mặt trời theo mã bưu chính và chọn bảng truy vấn.
Tên của tập dữ liệu được hiển thị bên trong hai dấu gạch ngược.
Điều này là để giúp chúng tôi đọc truy vấn dễ dàng hơn. Chúng tôi cũng có thể loại bỏ các
backticks trong trường hợp này và truy vấn của chúng tôi sẽ vẫn chạy.
Những từ bạn nhìn thấy trước dấu chấm đại diện cho tên cơ sở dữ liệu. Và các từ sau
dấu chấm đại diện cho tên bảng. Hãy chọn và sao chép tên tập dữ liệu ngay bây giờ vì chúng
ta sẽ cần nó trong giây lát.
Bây giờ chúng ta sẽ nhấp vào dấu cộng để soạn một truy vấn mới. Hầu hết các truy vấn bắt
đầu bằng từ SELECT.
Sau đó, chúng tôi thêm một không gian. Bởi vì chúng tôi muốn xem toàn bộ tập dữ liệu, chúng
tôi sẽ đặt dấu sao tiếp theo. Dấu sao cho biết chúng tôi muốn bao gồm tất cả các cột. Đây là
một lối tắt tuyệt vời vì nếu không có nó, chúng ta sẽ phải nhập từng tên trường.
Tiếp theo, chúng tôi sẽ nhấn quay lại và nhập FROM. FROM chỉ làm những gì nó
giống như. Nó cho biết dữ liệu đến từ đâu. Sau đó, chúng tôi sẽ thêm một không gian khác.
Bây giờ, chúng tôi dán tên của tập dữ liệu mà chúng tôi đã sao chép trước đó. Và cuối cùng,
chạy truy vấn.
Bây giờ, bạn có thể kiểm tra cẩn thận tập dữ liệu trước khi chúng tôi bắt đầu làm việc
với nó. Một điều quan trọng cần lưu ý: Các truy vấn SQL có thể được viết theo nhiều cách
khác nhau nhưng vẫn cung cấp các kết quả giống nhau. Ví dụ: chúng tôi có thể viết truy vấn
này dưới dạng một dòng hướng dẫn dài như thế này và chúng tôi vẫn nhận được kết quả tương
tự.
Các dòng và khoảng trắng bổ sung không ảnh hưởng đến kết quả của truy vấn, nhưng
chúng giữ cho truy vấn của bạn được sắp xếp và dễ đọc hơn cho chính bạn và những người
khác. Bây giờ, nếu dự án không yêu cầu tất cả các trường này, chúng ta có thể sử dụng SQL
để xem một hoặc nhiều phần dữ liệu cụ thể. Để làm điều này, chúng tôi chỉ định một tên cột
nhất định trong truy vấn. Ví dụ: có thể chúng tôi chỉ muốn xem dữ liệu từ Pennsylvania. Vì
vậy, chúng tôi sẽ bắt đầu truy vấn của mình giống như cách chúng tôi vừa học. SELECT, dấu
cách, thêm dấu sao.
Sau đó, FROM cơ sở dữ liệu tiềm năng năng lượng mặt trời của chúng tôi.
Nhưng lần này chúng ta sẽ thêm WHERE. WHERE cũng thực hiện chính xác những gì nó
giống như. Nó cho cơ sở dữ liệu biết nơi để tìm kiếm thông tin. Trong trường hợp này, cột tên
tiểu bang. Vì vậy, hãy thêm một khoảng trắng và nêu tên gạch dưới, tên của cột. Bây giờ vì
chúng tôi chỉ muốn xem dữ liệu từ Pennsylvania, chúng tôi thêm dấu bằng và từ Pennsylvania
với dấu nháy đơn xung quanh nó. Trong SQL, các dấu nháy đơn cho biết phần đầu và phần
cuối của một chuỗi. Cuối cùng, chúng tôi chạy truy vấn.
Bây giờ chúng ta có thể xem xét dữ liệu về tiềm năng năng lượng mặt trời chỉ cho
Pennsylvania. Bây giờ chúng tôi đã có dữ liệu mình muốn và chúng tôi đã sẵn sàng bắt đầu
đưa dữ liệu đó vào hoạt động, chúng tôi sẽ đề cập đến vấn đề này sau. Nhưng bây giờ, hãy ăn
mừng khi hoàn thành một mô-đun khác.
Bạn đã bao phủ rất nhiều thông tin phức tạp và kỹ thuật cao. Tuy nhiên, khi bạn tiếp
tục luyện tập, mọi thứ sẽ bắt đầu cảm thấy tự nhiên hơn rất nhiều. Bây giờ, hãy dành một chút
thời gian để ngồi lại và suy nghĩ về tất cả những gì bạn đã học được. Bạn đã khám phá ra siêu
dữ liệu và cách nó sắp xếp dữ liệu bằng cách mô tả nội dung của dữ liệu đó. Bạn đã thấy cách
dữ liệu bên trong và bên ngoài được truy cập và cách các nhà phân tích dữ liệu sử dụng chúng
để tìm những hiểu biết sâu sắc hấp dẫn để giải quyết các vấn đề kinh doanh. Và bạn có thể sắp
xếp và lọc dữ liệu của mình để xác định chính xác thông tin bạn cần.
Cuối cùng, bạn vừa học về các truy vấn và thậm chí bạn đã thực hành viết một số truy
vấn. Sắp tới, bạn sẽ có một vài bài đọc và sau đó là một thử thách hàng tuần để kiểm tra kiến
thức của bạn. Điều này sẽ giúp bạn xác nhận rằng bạn đã hiểu những gì chúng tôi đã làm trong
các video này. Và như mọi khi, nếu bạn không chắc chắn về một câu hỏi, tôi thực sự khuyến
khích bạn xem lại các video và bài đọc để tìm câu trả lời. Bây giờ bạn là thám tử dữ liệu, vì
vậy hãy sử dụng những kỹ năng đó. Hãy tiếp tục công việc tuyệt vời và tôi sẽ gặp bạn sau thử
thách hàng tuần.
Tuần 4: Tổ chức và bảo vệ dữ liệu của bạn
Kỹ năng tổ chức tốt là một phần quan trọng của hầu hết các loại công việc và phân tích
dữ liệu cũng không khác. Trong phần này của khóa học, bạn sẽ tìm hiểu các phương pháp hay
nhất để tổ chức và bảo mật dữ liệu. Bạn cũng sẽ tìm hiểu cách các nhà phân tích sử dụng quy
ước đặt tên tệp để giúp họ sắp xếp công việc của mình.
Mục tiêu học tập:
 Giải thích các bước có thể thực hiện để bảo mật dữ liệu
 Thảo luận về việc sử dụng các quy ước đặt tên tệp của các nhà phân tích dữ liệu
 Mô tả các phương pháp hay nhất để tổ chức dữ liệu
Chương 1: Tổ chức dữ liệu hiệu quả
Cảm thấy tự tin vào dữ liệu của bạn
Này, thật tốt khi có bạn trở lại. Cho đến bây giờ, chúng tôi đã tập trung vào việc chuẩn
bị dữ liệu của bạn để xử lý và phân tích. Trong những video tiếp theo này, chúng ta sẽ khám
phá một phần quan trọng khác của quy trình đó, sắp xếp và bảo vệ dữ liệu của bạn.
Việc sắp xếp dữ liệu của bạn rất quan trọng vì một vài lý do; nó giúp bạn dễ dàng tìm
kiếm và sử dụng hơn, giúp bạn tránh mắc lỗi trong quá trình phân tích và giúp bảo vệ nó.
Sắp tới, chúng ta sẽ xem xét các khái niệm cơ bản về tổ chức dữ liệu cho mục đích sử
dụng cá nhân và chuyên nghiệp cũng như các quy ước đặt tên tệp. Sau đó, chúng ta sẽ xem
xét một số tính năng bảo mật cho bảng tính.
Khi kết thúc một số video tiếp theo này, bạn sẽ có thể thực hiện tất cả những điều này
và bạn sẽ có thể giải thích các bước này cho các bên liên quan để họ có thể yên tâm rằng các
phương pháp xử lý dữ liệu của bạn an toàn và bảo mật. Khi bạn đã sẵn sàng để bắt đầu, hãy
chuyển sang video tiếp theo. Ở đó, chúng ta sẽ bắt đầu với việc tổ chức dữ liệu cho mục đích
sử dụng cá nhân.
Hãy sắp xếp lại
Này, chào mừng trở lại. Cho dù bạn đang sắp xếp dữ liệu cá nhân của mình để sử dụng
riêng hay sắp xếp dữ liệu dự án cho công việc, thì bạn muốn tuân theo một số quy trình nhất
định để đảm bảo dữ liệu của bạn dễ tìm và sử dụng. Trong video này, chúng tôi sẽ đề cập đến
một số phương pháp tổ chức tốt nhất và cũng xem xét một số cách khác nhau để tổ chức dữ
liệu dự án.
Có rất nhiều phương pháp hay nhất mà bạn có thể sử dụng khi tổ chức dữ liệu, bao gồm
quy ước đặt tên, tạo thư mục và lưu trữ các tệp cũ hơn.
Trước đây chúng ta đã nói về cách đặt tên tệp, còn được gọi là quy ước đặt tên. Đây là
những nguyên tắc nhất quán mô tả nội dung, ngày tháng hoặc phiên bản của tệp trong tên của
nó. Về cơ bản, điều này có nghĩa là bạn muốn sử dụng tên hợp lý và mô tả cho các tệp của
mình để dễ tìm và sử dụng chúng hơn.
Nói về việc dễ dàng tìm thấy mọi thứ, việc sắp xếp các tệp của bạn vào các thư mục
sẽ giúp giữ các tệp liên quan đến dự án cùng nhau ở một nơi. Điều này được gọi là thư mục.
Ví dụ: tất cả các tệp liên quan đến kế hoạch cho kỳ nghỉ của bạn có thể nằm trong thư mục Kỳ
nghỉ2025. Sau đó, bạn có thể chia nhỏ thư mục đó hơn nữa bằng cách tạo các thư mục con
như hành trình hoặc ảnh, tùy thuộc vào những gì khác mà bạn muốn dễ dàng truy cập. Cũng
có thể hữu ích khi di chuyển các dự án cũ đến một vị trí riêng biệt để tạo kho lưu trữ và giảm
bớt sự lộn xộn. Việc tìm và sử dụng các tệp sẽ dễ dàng hơn rất nhiều khi tôi đặt tên cho chúng
một cái gì đó có ý nghĩa và có thể tìm kiếm được cũng như khi tôi sắp xếp chúng vào các thư
mục. Nó làm cho tất cả dữ liệu của tôi dễ truy cập và hữu ích hơn.
Ngoài ba phương pháp hay nhất này, còn có hai điều nữa mà bạn sẽ muốn xem xét khi
tổ chức dữ liệu để sử dụng cho công việc. Đầu tiên, dữ liệu dự án mà bạn sẽ sử dụng cho công
việc có thể được truy cập và sử dụng bởi nhiều người. Điều quan trọng là phải điều chỉnh các
phương pháp đặt tên và lưu trữ của bạn với nhóm của bạn để tránh mọi nhầm lẫn. Nhóm của
bạn cũng có thể phát triển các phương pháp siêu dữ liệu như tạo một tệp phác thảo các quy
ước đặt tên dự án để dễ dàng tham khảo. Chúng ta sẽ nói chi tiết hơn về các quy ước đặt tên
cho các tệp công việc sau.
Thứ hai, bạn muốn nghĩ về tần suất bạn tạo bản sao dữ liệu và lưu trữ ở những nơi khác
nhau. Quan trọng nhất, bởi vì nếu dữ liệu được lưu trữ trong nhiều cơ sở dữ liệu hoặc bảng
tính khác nhau, nó có thể tự mâu thuẫn và dẫn đến sai lầm sau này. Ngoài ra, việc lưu trữ dữ
liệu ở nhiều nơi chiếm rất nhiều dung lượng. Cơ sở dữ liệu quan hệ có thể giúp bạn tránh trùng
lặp dữ liệu và lưu trữ dữ liệu hiệu quả hơn. Bạn có thể sử dụng các phương pháp này để tổ
chức dữ liệu theo nhiều cách khác nhau tùy theo dự án của mình.
Hãy xem xét một số ví dụ về tổ chức dữ liệu. Tôi có một số thư mục dự án mẫu ở đây,
mỗi thư mục được tổ chức theo một cách hơi khác. Hãy mở chúng ra và xem chúng trông như
thế nào. Chúng ta sẽ bắt đầu với thư mục Tài chính cấp cao. Thư mục Tài chính đã được tổ
chức phân loại. Có các thư mục con như ngân sách, hóa đơn và bảng lương đại diện cho
các danh mục khác nhau. Hãy nhấp vào "Hóa đơn" để xem có gì trong đó. Trong thư mục
hóa đơn, bạn có thể thấy rằng chúng tôi có một tập hợp các thư mục con khác được gắn nhãn
theo năm, 2014, 2015.... Có vẻ như các thư mục này theo thứ tự thời gian. Đôi khi cách sắp
xếp các tệp có thể cho chúng tôi biết dữ liệu trong các tệp đó cũng được sắp xếp như thế nào.
Hãy mở một tập tin để xem điều đó có đúng không. Trong thư mục con 2014, có một tệp có
hóa đơn từ tháng Sáu. Nếu chúng tôi mở nó, chúng tôi có thể thấy rằng chúng đã được sắp
xếp theo ngày, giống như các thư mục.
Có nhiều cách khác nhau để tổ chức dữ liệu tùy thuộc vào mục đích bạn cần. Tổ chức
phân loại của các thư mục con và tài chính giúp tôi dễ dàng đi thẳng đến hóa đơn, nhưng tổ
chức theo trình tự thời gian của thư mục con hóa đơn có thể giúp chúng tôi tìm dữ liệu tài
chính từ ngày chính xác mà chúng tôi đang tìm kiếm.
Cũng có những cách khác để tổ chức dữ liệu: theo thứ tự quan trọng hoặc thậm chí theo
vị trí. Ví dụ: một công ty có thể sử dụng tổ chức phân cấp để dữ liệu nhân viên phản ánh cấu
trúc của tổ chức nhân viên của họ. Hoặc một công ty làm việc với dữ liệu địa lý có thể chọn
tổ chức theo vị trí. Bạn nên dành thời gian sớm trong một dự án để xem xét phương pháp tổ
chức tốt nhất sẽ là gì để bạn và nhóm của bạn gắn bó.
Đây là một cách khác để suy nghĩ về nó. Dữ liệu không được sắp xếp giống như một
căn phòng lộn xộn. Nó quá tải, khó tìm thấy bất cứ thứ gì trong đó và càng trở nên tồi tệ hơn
khi bạn không dọn dẹp nó lâu hơn. Nhưng bằng cách sớm đảm bảo bạn biết nơi đặt các tệp
của mình, bạn có thể sắp xếp dữ liệu công việc của mình, dễ sử dụng và không có lỗi.
Bây giờ bạn đã thấy tầm quan trọng của việc sắp xếp dữ liệu cho cả mục đích sử dụng
cá nhân và công việc, chúng ta sẽ xem xét kỹ hơn các quy ước đặt tên tệp và cách chúng
chuyển sang cơ sở dữ liệu của bạn. Hẹn gặp lại các bạn trong video tiếp theo.
Tất cả về đặt tên tập tin
Xin chào. Bạn đã nghe tôi đề cập đến ý tưởng sử dụng tên tệp hợp lý và có ý nghĩa để
giúp tổ chức dữ liệu của bạn. Nhưng việc sử dụng tên tệp nhất quán cũng có thể hợp lý hóa
hoặc thậm chí tự động hóa quy trình phân tích của bạn, giúp bạn tiết kiệm thời gian và năng
lượng trong thời gian dài.
Khi bạn sử dụng các nguyên tắc nhất quán mô tả nội dung, ngày tháng hoặc phiên bản
của tệp và tên của tệp, bạn đang sử dụng các quy ước đặt tên tệp. Như chúng tôi đã phát hiện
ra, các quy ước đặt tên tệp này giúp chúng tôi sắp xếp, truy cập, xử lý và phân tích dữ liệu của
mình. Vì vậy, đây là một số mẹo chung về cách tạo quy ước đặt tên tệp hợp lý và có chức
năng. Dưới đây là một số cách đặt tên tệp nhanh Do's.
Hãy vạch ra các quy ước của bạn sớm để tránh phải mất thời gian làm lại sau này.
Căn chỉnh cách đặt tên tệp của bạn với nhóm của bạn và đảm bảo rằng tên tệp của bạn
có ý nghĩa với các tham chiếu đến tên dự án, ngày tạo, phiên bản sửa đổi hoặc bất kỳ
thông tin hữu ích nào khác cần thiết để hiểu nội dung trong tệp đó. Bây giờ, có một số
điều đơn giản khác mà bạn có thể thực hiện để đảm bảo các quy ước đặt tên tệp của mình được
thực hiện đúng. Trước hết, bạn muốn giữ tên tệp của mình ngắn gọn và hấp dẫn. Chúng
được coi là điểm tham chiếu nhanh cho bạn biết nội dung trong tệp.
Từ các video trước đó, chúng tôi biết rằng chúng tôi muốn bao gồm ngày và số sửa đổi
trong tên tệp của mình. Tôi khuyên bạn nên định dạng nó theo năm, tháng và ngày vì điều đó
tuân theo tiêu chuẩn ngày quốc tế. Các quốc gia khác nhau có các quy ước về ngày khác nhau,
vì vậy hãy ghi nhớ điều đó.
Khi bạn bao gồm các số sửa đổi trong tên tệp, hãy thêm số 0 vào đầu, để nếu bạn gặp
các số sửa đổi có hai chữ số, thì số đó đã được tích hợp vào quy ước của bạn. Một quy tắc tốt
khác là sử dụng dấu gạch ngang, dấu gạch dưới hoặc chữ cái viết hoa thay vì sử dụng dấu
cách. Phần mềm của bạn có thể không nhận ra dấu cách và ký tự đặc biệt.
Ngoài ra, việc tránh khoảng trắng chắc chắn giúp làm việc với SQL dễ dàng hơn. Lời
khuyên cuối cùng của tôi: tạo một tệp văn bản trình bày tất cả các quy ước đặt tên của
bạn cho một dự án.
Điều này thực sự hữu ích nếu ai đó mới tham gia nhóm của bạn hoặc nếu bạn chỉ cần một lời
nhắc nhanh khi đang làm việc gì đó.
Chúng tôi đã nói về điều này sớm hơn khi chúng tôi đề cập đến siêu dữ liệu, đó là dữ
liệu về dữ liệu. Nó giúp giải thích dữ liệu nào có và cách dữ liệu được tổ chức. Khi bạn sử
dụng các quy ước đặt tên tệp nhất quán, có ý nghĩa trong suốt dự án của mình, dữ liệu của bạn
sẽ dễ tìm và sử dụng, đồng thời bạn cũng có thể tiết kiệm thời gian cho mình.
Tiếp theo, chúng ta sẽ tiếp tục xem xét các bảng tính và chúng ta sẽ nói về các tính
năng bảo mật cũng như cách bạn có thể sử dụng chúng để bảo vệ dữ liệu của mình khi dữ liệu
đã được sắp xếp. Hẹn gặp bạn ở đó.
Chương 2: Bảo mật dữ liệu
Các tính năng bảo mật trong bảng tính
Bạn quay trở lại rồi. Được rồi, bây giờ dữ liệu của chúng ta đã được tổ chức và dễ tìm,
đã đến lúc bắt đầu nghĩ về cách bảo vệ dữ liệu đó. Tin tốt là bảng tính đi kèm với các tính
năng bảo mật đã được tích hợp sẵn.
Trong video này, chúng ta sẽ xem xét các chương trình bảng tính khác nhau và cách
các tính năng bảo mật của chúng, như bảo vệ trang tính và kiểm soát truy cập, giống nhau như
thế nào. Khi tôi nói "các tính năng bảo mật", bạn có thể hình dung ra các cách để bảo vệ dữ
liệu khỏi những người khác. Nhưng đó chỉ là một loại bảo mật. Các tính năng bảo mật có thể
được thiết kế để ngăn người dùng trái phép xem một số tệp nhất định hoặc chỉ khóa trang tính
của bạn để bạn không vô tình phá vỡ công thức của mình. Điều này được gọi là bảo mật dữ
liệu. Data security is Protecting data from unauthorized access or corruption by adopting
safety measures (Bảo mật dữ liệu là bảo vệ dữ liệu khỏi truy cập trái phép hoặc phá hoại bảng
bằng cách áp dụng các biện pháp an toàn).
Bất kỳ chương trình bảng tính nào bạn đang sử dụng sẽ có các biện pháp bảo mật tương
tự được tích hợp sẵn. Là một nhà phân tích dữ liệu, bạn sẽ gặp Google Trang tính và Excel rất
nhiều. Hãy nói về những điểm chung của họ.
Đầu tiên, cả hai chương trình đều có các tính năng cho phép bạn bảo vệ bảng tính hoặc
các phần của bảng tính khỏi bị chỉnh sửa, từ toàn bộ trang tính cho đến các ô đơn lẻ trong
bảng. Nếu bạn đang cộng tác với những người dùng khác, bạn có thể dễ dàng khóa các công
thức của mình để chúng không vô tình bị hỏng. Nói về cộng tác, cả Excel và Google Trang
tính đều có các tính năng kiểm soát truy cập như bảo vệ bằng mật khẩu và quyền của người
dùng. Điều này cho phép bạn kiểm soát nhiều hơn đối với những người có thể làm những gì
với bảng tính của bạn. Bởi vì các chương trình này được đặt ở những nơi khác nhau, các tính
năng này hơi khác nhau.
Đối với bảng tính Excel, bạn có thể mã hóa tệp và trang tính bằng mật khẩu trước khi
gửi email cho người dùng khác. Trong Google Trang tính, các cài đặt này được tìm thấy trong
menu chia sẻ, cho phép bạn kiểm soát ai có thể xem hoặc chỉnh sửa trang tính trực tuyến.
Google Trang tính cũng có thể được sao chép để người dùng có thể làm việc với dữ liệu đó
mà không làm thay đổi bản gốc. Các tab cũng có thể được ẩn và hiện trong Trang tính và
Excel, cho phép bạn thay đổi dữ liệu nào đang được xem. Nhưng hãy nhớ rằng ngay cả những
tab bị ẩn cũng có thể được hiển thị bởi người khác, vì vậy hãy chắc chắn rằng bạn vẫn ổn khi
những tab đó vẫn có thể truy cập được.
Là một nhà phân tích dữ liệu, bảo mật dữ liệu sẽ là ưu tiên hàng đầu. Nhưng cho dù
bạn sử dụng chương trình nào để tạo bảng tính, thì vẫn có các tính năng bảo mật giúp bạn giữ
cho công việc của mình được an toàn và bảo mật. Có một số phương pháp hay nhất cơ bản
khác mà bạn có thể thực hiện để giữ cho dữ liệu của mình an toàn hơn về tổng thể, mà chúng
tôi sẽ đề cập sau trong phần đọc này.
Bạn đã hoàn thành phần cuối của mô-đun này. Chúc mừng. Trong các video này, chúng
tôi đã đề cập đến các chiến lược tổ chức dữ liệu cho mục đích sử dụng cá nhân và công việc,
cách phát triển các quy ước đặt tên tệp chức năng và một số biện pháp bảo mật mà bạn có thể
tận dụng trong bảng tính.
Trước khi bạn chuyển sang bước tiếp theo trong vòng đời phân tích dữ liệu. Điều quan
trọng là bạn phải đảm bảo rằng dữ liệu của mình đã được chuẩn bị sẵn sàng, bao gồm cả việc
tổ chức và bảo mật dữ liệu đó. Như thường lệ sau video này, bạn sẽ có thử thách hàng tuần.
Tôi biết bạn đã nhận được điều này.
Sau đó, sau thử thách hàng tuần, có một số tài liệu tùy chọn về kết nối với cộng đồng
dữ liệu trực tuyến. Khi bạn bắt đầu xây dựng sự nghiệp của mình trong lĩnh vực phân tích dữ
liệu, việc kết nối với những người khác, tìm hiểu về các xu hướng mới trong lĩnh vực này và
chia sẻ công việc của bạn sẽ thực sự có giá trị. Tôi nghĩ bạn sẽ nhận được rất nhiều từ những
video đó. Điều đó sẽ giúp bạn phát triển sự hiện diện trực tuyến chuyên nghiệp và tìm cách
giao tiếp với những người trong lĩnh vực của bạn, đây là chìa khóa khi mạng ngày càng trở
nên trực tuyến và cơ hội làm việc từ xa trở thành tiêu chuẩn. Nhưng nếu bạn cảm thấy khá tự
tin về sự hiện diện trực tuyến của mình, thay vào đó, bạn có thể chuyển sang thử thách của
khóa học. Chúc may mắn trong thử thách hàng tuần này và tôi sẽ sớm gặp lại bạn!
Tuần 5: Tùy chọn: Tham gia vào cộng đồng dữ liệu
Có một sự hiện diện trực tuyến mạnh mẽ có thể là một trợ giúp lớn cho tất cả những
người tìm việc. Trong phần này của khóa học, bạn sẽ khám phá cách quản lý sự hiện diện trực
tuyến của mình. Bạn cũng sẽ khám phá những lợi ích của việc kết nối mạng với các chuyên
gia phân tích dữ liệu khác.
Mục tiêu học tập:
 Giải thích tầm quan trọng của việc kết nối mạng với các nhà phân tích dữ liệu khác,
bao gồm tham chiếu đến cố vấn và giao tiếp
 Áp dụng các phương pháp hay nhất để quản lý sự hiện diện trực tuyến chuyên nghiệp
 Mô tả các phương pháp để xây dựng sự hiện diện trực tuyến với tư cách là nhà phân
tích dữ liệu
Chương 1: Tạo hoặc nâng cao sự hiện diện trực tuyến của bạn
Quản lý sự hiện diện của bạn với tư cách là nhà phân tích dữ liệu
Này, thật tuyệt khi có bạn trở lại! Cho đến nay, chúng tôi đã đề cập đến mọi thứ, từ
việc sử dụng SQL đến các khía cạnh chính của đạo đức dữ liệu. Bạn đã phát triển rất nhiều kỹ
năng và tất cả chúng sẽ giúp bạn trên hành trình đến với sự nghiệp phân tích dữ liệu.
Nhưng bạn không cần phải tự mình làm mọi thứ. Là một nhà phân tích dữ liệu, bạn sẽ
là một phần của cộng đồng dữ liệu đang phát triển. Bằng cách xây dựng sự hiện diện trực
tuyến nhất quán và chuyên nghiệp, bạn sẽ có thể kết nối với những người khác trong lĩnh vực
của mình và mở rộng mạng lưới của mình.
Sắp tới, bạn sẽ tìm hiểu cách bạn có thể bắt đầu xây dựng sự hiện diện trực tuyến của
mình. Hoặc nếu bạn đã là thành viên của cộng đồng, bạn có thể đưa mạng lưới trực tuyến của
mình tiến xa hơn như thế nào. Với công việc từ xa, trực tuyến ngày càng trở nên phổ biến,
mạng trực tuyến cũng vậy. Điều đó có nghĩa là việc có và duy trì sự hiện diện trực tuyến phát
triển tốt có thể mở ra nhiều cơ hội mới.
Tôi thấy mình liên hệ với những người mà tôi đã làm việc cùng trong suốt sự nghiệp
của mình để giữ liên lạc, đặt câu hỏi về trải nghiệm của họ và xem họ đang làm những điều
thú vị gì, và điều đó chỉ có thể thực hiện được nhờ tôi duy trì sự hiện diện trực tuyến của mình.
Hãy tham gia cùng tôi trong video tiếp theo để bắt đầu xây dựng sự hiện diện trực tuyến của
bạn và kết nối!
Tại sao sự hiện diện trực tuyến lại quan trọng
Xin chào lại. Ngày nay, rất nhiều người trong chúng ta dành nhiều thời gian để kết nối
với mọi người trực tuyến. Chúng tôi giữ liên lạc với gia đình và bạn bè mà chúng tôi không
thể gặp hàng ngày hoặc đăng về những gì chúng tôi đang làm, đang ăn và đang xem trên mạng
xã hội. Nhưng sự hiện diện của chúng tôi trực tuyến vượt xa cá nhân. Sự hiện diện trực tuyến
nhất quán và chuyên nghiệp là một công cụ quan trọng để xây dựng sự nghiệp trong lĩnh vực
phân tích dữ liệu.
Sự hiện diện trực tuyến chuyên nghiệp rất quan trọng vì một vài lý do chính. Đầu tiên,
nó có thể giúp các nhà tuyển dụng tiềm năng tìm thấy bạn. Thứ hai, nó cho phép bạn tạo kết
nối với các nhà phân tích dữ liệu khác trong lĩnh vực của mình, tìm hiểu và chia sẻ các phát
hiện dữ liệu và thậm chí có thể tham gia vào các sự kiện cộng đồng.
Hãy nhớ rằng rất nhiều mạng diễn ra trực tuyến bây giờ. Nếu bạn không duy trì sự hiện
diện trực tuyến của mình, bạn có thể đang bỏ lỡ những cơ hội tuyệt vời mà không hề hay biết.
Có rất nhiều trang web chuyên nghiệp khác nhau mà bạn có thể tận dụng khi bắt đầu xây dựng
sự hiện diện trực tuyến của riêng mình. Tuy nhiên, hiện tại, chúng tôi sẽ tập trung vào LinkedIn
và GitHub.
LinkedIn được thiết kế đặc biệt để giúp mọi người kết nối với những người khác trong
lĩnh vực của họ. Đó là một cách tuyệt vời để theo dõi các xu hướng trong ngành của bạn, học
hỏi từ các nhà lãnh đạo ngành và tiếp tục tương tác với cộng đồng chuyên nghiệp rộng lớn
hơn. Và nếu bạn đang tích cực tìm kiếm một công việc mới, LinkedIn có các bảng công việc
mà bạn có thể tìm kiếm. Bạn thậm chí có thể thu hẹp vị trí của mình để xem ai đang tuyển
dụng gần bạn.
Ngoài ra, các nhà tuyển dụng việc làm thường xuyên sử dụng LinkedIn để tìm các nhà
phân tích dữ liệu tiềm năng cho các dự án mới. Luôn luôn là một ý kiến hay để giữ cho hồ sơ
LinkedIn của bạn được cập nhật cùng với sơ yếu lý lịch của bạn. Bạn có thể thấy mình được
tuyển dụng. LinkedIn cũng cho phép bạn kết nối với mọi người và xây dựng mạng lưới. Bạn
có thể chia sẻ những điều thú vị xảy ra trong cuộc sống nghề nghiệp của mình và cập nhật các
mối quan hệ của bạn. Bạn không bao giờ biết khi nào bạn có thể kết thúc làm việc với ai đó
một lần nữa. Với LinkedIn, bạn có thể được xác nhận vì có kỹ năng làm việc hoặc xác nhận
người khác. Nếu bạn gây ấn tượng với ai đó ở công việc trước đây, họ có thể cho người khác
biết bạn tuyệt vời như thế nào khi làm việc cùng.
GitHub, trang web khác mà tôi đã đề cập trước đó, hơi khác một chút. GitHub là một
phần trang web chia sẻ mã, một phần phương tiện truyền thông xã hội. Nó có một cộng đồng
tích cực hợp tác và chia sẻ thông tin chi tiết để xây dựng tài nguyên.
Bạn có thể nói chuyện với những người dùng GitHub khác trên diễn đàn, sử dụng wiki
hướng đến cộng đồng hoặc thậm chí sử dụng nó để quản lý các dự án nhóm. GitHub cũng tổ
chức các sự kiện cộng đồng nơi bạn có thể gặp gỡ những người khác trong lĩnh vực này và
học hỏi một số điều mới. GitHub có rất nhiều tính năng để bạn kiểm tra. Cách tốt nhất để tìm
hiểu thêm về nó là tự mình kiểm tra. Chúng ta cũng sẽ nói nhiều hơn về GitHub ở phần sau
của chương trình.
Đôi khi, nếu bạn đang tìm kiếm một công việc mới, việc tìm một người có điểm chung
với bạn, chẳng hạn như có chung sở thích hoặc cùng quê hương, và tiếp cận với họ, có thể
giúp ích rất nhiều.
Chỉ một cuộc trò chuyện kéo dài 15 phút với ai đó có thể đưa bạn đến con đường dẫn
đến một sự nghiệp mới, cho dù đó là trên một trang mạng chuyên nghiệp như LinkedIn hay
tại một sự kiện cộng đồng do GitHub tổ chức.
LinkedIn đã trở thành một trong những trang truyền thông xã hội chuyên nghiệp tiêu
chuẩn, vì vậy đây là nơi khởi đầu tốt để xây dựng sự hiện diện trực tuyến của bạn. GitHub
cung cấp rất nhiều công cụ thực sự tuyệt vời cho các nhà phân tích dữ liệu trong cộng đồng.
Nếu bạn chưa có tài khoản trên các trang web này, hãy thử thách bản thân thiết lập chúng ngay
bây giờ.
Kết nối với những người khác. Chia sẻ một số cập nhật về những gì bạn đang làm ngay
bây giờ. Nếu bạn đã sử dụng LinkedIn và GitHub, thì đây là một tin tuyệt vời: chúng ta sẽ nói
nhiều hơn về cách tăng cường sự hiện diện trên mạng xã hội hiện tại của bạn vào lần tới. Hẹn
sớm gặp lại.
Mẹo để tăng cường sự hiện diện trực tuyến của bạn
Xin chào. Hãy nói về phương tiện truyền thông xã hội. Ngày nay, có 3,8 tỷ người sử
dụng mạng xã hội trên khắp thế giới. Có một cơ hội tốt là bạn có thể đã có sự hiện diện trực
tuyến. Thật tuyệt. Điều đó có nghĩa là bạn đã kết nối trực tuyến với mọi người, thậm chí có
thể là chuyên nghiệp trên các trang web như LinkedIn. Nếu chưa, bạn có thể bắt đầu dễ dàng
bằng cách đăng ký ngay hôm nay.
Tuy nhiên, có một số cách thực sự dễ dàng để bạn có thể tăng cường sự hiện diện trực
tuyến của mình hơn nữa và sử dụng các hồ sơ hiện có để xây dựng bản sắc chuyên nghiệp của
mình. Một trong những điều đầu tiên bạn nên tự hỏi mình khi nhìn vào sự hiện diện trực tuyến
mới hoặc hiện có của mình là: bạn có đồng ý với việc các nhà tuyển dụng và đồng nghiệp tiềm
năng xem hồ sơ trên mạng xã hội của bạn không? Hãy thử đặt mình vào vị trí của họ. Khi một
nhà tuyển dụng tiềm năng đang xem hồ sơ công khai của bạn, họ sẽ tự hỏi liệu bạn có phải là
người phù hợp để đại diện cho công ty và các giá trị của họ không. Có điều gì trên tài khoản
hiện tại của bạn có thể khiến họ nghĩ khác không? Nếu bạn muốn giới hạn những gì mình chia
sẻ, hãy đảm bảo kiểm tra cài đặt quyền riêng tư trên tài khoản của bạn. Nếu chúng được đặt ở
chế độ công khai, bất kỳ ai cũng có thể xem mọi thứ bạn đăng. Bạn cũng có thể đặt ảnh hoặc
anbom cụ thể ở chế độ riêng tư, nhưng hãy nhớ rằng thao tác này sẽ không xóa chúng khỏi
Internet. Xin lưu ý rằng việc thay đổi cài đặt quyền riêng tư không nhất thiết giữ an toàn cho
tất cả các bài đăng của bạn, vì vậy bạn phải luôn suy nghĩ cẩn thận trước khi đăng.
Giờ đây, cách tốt nhất để đảm bảo rằng các bài đăng và ảnh của bạn phù hợp và chuyên
nghiệp là xóa bất kỳ nội dung nào mà bạn không muốn sếp tương lai của mình nhìn thấy. Nếu
bạn chuẩn bị tải ảnh lên lần đầu tiên, hãy nghĩ xem những ảnh đó đại diện cho bạn như thế
nào trước khi đăng chúng. Vui lòng sao lưu những ảnh này cho các tệp cá nhân của bạn, nhưng
có thể không đưa chúng lên Facebook hoặc Instagram. Nói về Facebook và Instagram, có một
số tùy chọn dễ dàng để xóa bài đăng trên các nền tảng này. Cả Facebook và Instagram đều có
chức năng lưu trữ cho phép bạn xóa bài đăng khỏi trang cá nhân của mình. Bạn thậm chí có
thể xóa hàng loạt bài đăng trên Facebook. Trong khi bạn đang ở đó, hãy kiểm tra Twitter của
bạn. Các hồ sơ trên mạng xã hội của bạn có thể được kết nối với nhau, vì vậy, điều quan trọng
là phải đảm bảo rằng tất cả chúng đều đại diện cho bạn theo cách mà bạn muốn được nhìn
nhận một cách chuyên nghiệp.
Một nguyên tắc nhỏ: bài đăng của bạn phải thân thiện với gia đình. Điều này áp dụng
cho hình ảnh và bài viết văn bản. Kiểm tra để đảm bảo nội dung và ngôn ngữ của bạn phù hợp
với cả gia đình. Trong khi bạn đang làm việc để nâng cao tính cách trực tuyến của mình, thì
một ảnh đại diện chuyên nghiệp là một điểm nhấn tuyệt vời. Ngay cả khi tài khoản của bạn
được đặt ở chế độ riêng tư, nhà tuyển dụng vẫn có thể xem ảnh hồ sơ của bạn. Việc có ảnh
cho hồ sơ LinkedIn của bạn rất quan trọng vì nó làm tăng đáng kể cơ hội được liên hệ của bạn.
Làm cho ảnh hồ sơ của bạn đại diện cho khía cạnh chuyên nghiệp của bạn theo cách tốt nhất
có thể. Khi bạn đã thiết lập và chạy hồ sơ của mình, hãy đăng một cách thận trọng.
Hãy nghĩ về hình ảnh chuyên nghiệp mà bạn đang cố gắng tạo ra và gắn bó với nó.
Điều này có nghĩa là quản lý các bài đăng cho các nền tảng khác nhau. Quyết định nền tảng
nào bạn muốn sử dụng cho gia đình và bạn bè, chẳng hạn như Facebook và Instagram, đồng
thời cập nhật về cuộc sống cá nhân của bạn trên các nền tảng đó. Sử dụng các nền tảng chuyên
nghiệp, như LinkedIn, cho các bài đăng liên quan đến cuộc sống công việc của bạn và xây
dựng các mối quan hệ nghề nghiệp.
Một số lượng lớn các công ty và nhà quản lý tuyển dụng sử dụng các nguồn trực tuyến
để xác định và chọn ứng viên. Vì vậy, điều quan trọng là đảm bảo rằng sự hiện diện trực tuyến
của bạn có tác động tích cực đến cuộc sống thực của bạn. Đảm bảo rằng sự hiện diện trực
tuyến của bạn phù hợp với công việc bằng cách đặt tài khoản của bạn ở chế độ riêng tư, xóa
các bài đăng mà bạn không muốn sếp hoặc đồng nghiệp của mình xem và đăng bài một cách
thận trọng.
Đừng ngại nhờ người mà bạn tôn trọng một cách chuyên nghiệp xem qua và đưa ra một
số phản hồi cho bạn. Đó có thể là một trợ giúp lớn trong việc xây dựng sự hiện diện trực tuyến
đó và sử dụng nó để tạo kết nối trong cộng đồng nghề nghiệp của bạn. Bây giờ chúng tôi đã
xây dựng và nâng cao sự hiện diện trực tuyến của mình, hãy tìm hiểu thêm về cách xây dựng
mạng lưới và tiếp cận với các chuyên gia khác. Hẹn sớm gặp lại.
Chương 2: Xây dựng mạng lưới phân tích dữ liệu
Kiến thức về mạng
Nghề nào làm networking tốt nhất? Ngành công nghiệp đánh cá. Nhưng nghiêm túc mà
nói, công việc chúng ta làm đều liên quan đến con người. Khi bạn đã học được các kỹ năng
và phát triển một danh mục đầu tư mạnh mẽ, bước tiếp theo là kết nối với những người trong
nghề hoặc ngành của bạn, những người có thể giúp bạn sử dụng những thế mạnh đó để xây
dựng sự nghiệp. Trong video này, chúng ta sẽ nói về kết nối mạng. Networking is Professional
relationship builing ().
Đó là tất cả về việc gặp gỡ mọi người cả trực tuyến và ngoại tuyến và xây dựng mối
quan hệ với họ. Kết nối mạng sẽ giúp bạn gặp gỡ những người giống và khác với bạn, đồng
thời cũng cập nhật những gì đang diễn ra trong lĩnh vực của bạn. Ngay cả trong tổ chức của
bạn, bạn muốn kết nối với các nhóm khác để hiểu rõ hơn về các dự án mà bạn đang thực hiện.
Đây là sự thật, rất nhiều cơ hội tốt nhất không được đăng trên bảng việc làm. Họ ở ngoài đó
trong thế giới thực. Những vấn đề đang chờ được giải quyết, những đổi mới đang chờ nguồn
cảm hứng. Xây dựng mạng lưới của bạn với các nhà phân tích dữ liệu khác thực sự có thể làm
tăng khả năng bạn thâm nhập vào lĩnh vực này.
Trên thực tế, kết nối với bất kỳ chuyên gia nào trong ngành có thể giúp bạn làm điều
đó. Dưới đây là một số điều bạn có thể bắt đầu, tìm kiếm các buổi gặp mặt công khai trong
khu vực của mình. Thường có ít nhất một trong mỗi thành phố lớn. Chỉ cần google data
analytics meetup gần bạn hoặc tìm kiếm trên meetup.com. Sau đó, bạn có thể tìm hiểu thêm
về các loại phân tích dữ liệu khác nhau hoặc chia sẻ mối quan tâm của mình với những người
khác trong lĩnh vực này.
Bạn cũng nên nhớ rằng chúng ta đang sống trong thế giới kỹ thuật số, vì vậy đừng cảm
thấy bị giới hạn trong mạng trực tiếp. Một số người có ảnh hưởng phân tích dữ liệu tốt nhất là
trên phương tiện truyền thông xã hội. Theo dõi các công ty thú vị hoặc các nhà lãnh đạo tư
tưởng trên LinkedIn, Twitter, Facebook và Instagram, tương tác với họ và chia sẻ nội dung
của họ. Nếu có một bài viết mà bạn thích, có thể để lại một bình luận giải thích lý do tại sao.
Ngày nay, mạng kỹ thuật số có thể đưa bạn đi bất cứ đâu. Ngoài ra, còn có rất nhiều podcast
dữ liệu tuyệt vời để theo dõi. Chúng không chỉ giúp bạn cập nhật cách ngành đang phát triển
mà việc nghe các khái niệm được lặp đi lặp lại theo thời gian có thể giúp bạn tự tin hơn vào
kiến thức của mình. Ngoài ra còn có rất nhiều blog và cộng đồng trực tuyến như O'Reilly,
Kaggle, KDnuggets, GitHub và Medium, có thể giúp bạn kết nối với các đồng nghiệp và
chuyên gia.
Các khả năng hầu như vô hạn khi nói đến việc xây dựng mạng của bạn. Trong video
tiếp theo, chúng ta sẽ nói về một trong những phương pháp hiệu quả nhất, đó là tìm một người
cố vấn. Tin tôi đi, bạn không muốn bỏ lỡ điều này đâu.
Lợi ích của cố vấn
Đó là Maya Angelou cho Oprah Winfrey. Steven Spielberg cho JJ Abrams. Và Warren
Buffett cho Bill Gates. Đó là một người cố vấn, và việc có một người có thể tác động rất lớn
đến sự nghiệp và cuộc sống của bạn nói chung. Về cơ bản, một người cố vấn là một chuyên
gia chia sẻ kiến thức, kỹ năng và kinh nghiệm của họ để giúp bạn phát triển và trưởng thành.
Khoảng 3 trong số 4 người nghĩ rằng có một người cố vấn là một phần quan trọng trong quá
trình phát triển nghề nghiệp. Nhưng các nghiên cứu chỉ tìm thấy 37 phần trăm thực sự có một
người cố vấn.
Là một nhà phân tích dữ liệu, bạn không bắt buộc phải có một người cố vấn, nhưng
những người tìm thấy một người giỏi sẽ không bao giờ quên họ. Cố vấn có nhiều hình thức.
Họ có thể là cố vấn đáng tin cậy, hội đồng âm thanh, nhà phê bình, tài nguyên hoặc tất cả
những điều trên. Đôi khi mối quan hệ diễn ra một cách tự nhiên, nhưng thường thì bạn cần
chính thức nhờ họ cố vấn cho mình vì họ có thể không biết bạn quan tâm đến sự hướng dẫn
của họ.
Tôi đã cố gắng tìm kiếm những người cố vấn ở mọi giai đoạn trong sự nghiệp của mình,
từ trường học cho đến vai trò hiện tại của tôi tại Google. Luôn luôn tốt để đảm bảo rằng những
người cố vấn của bạn có thời gian để hỗ trợ sự phát triển của bạn và việc bạn duy trì mối quan
hệ nghề nghiệp với họ cũng quan trọng không kém. Ngoài một người cố vấn, một nhà tài trợ
cũng có thể giúp bạn phát triển sự nghiệp. Nhưng chúng ta sẽ nói thêm về điều đó sau. Điều
rất quan trọng là tìm ra những gì bạn đang tìm kiếm ở một người cố vấn. Điều này sẽ giúp thu
hẹp danh sách các chuyên gia tiềm năng của bạn.
Hãy thử nghĩ về những điểm mạnh và thách thức của bạn trong công việc cũng như
cách bạn muốn phát triển với tư cách là một nhà phân tích dữ liệu. Và chia sẻ điều đó một
cách cởi mở với những người cố vấn tiềm năng! Thật tuyệt khi nghĩ về những trải nghiệm
được chia sẻ hoặc điểm chung. Có thể bạn là một cựu chiến binh sẽ được hưởng lợi từ sự
hướng dẫn của một nhà phân tích dữ liệu cho quân đội. Hoặc có thể bạn chỉ nghĩ rằng bạn
thực sự có thể thu được lợi ích khi nói chuyện với ai đó cùng quê hương với mình. Không có
cách nào đúng để tìm được người cố vấn hoàn hảo. Người cố vấn của bạn thậm chí không phải
làm việc với bạn.
Nếu không có ai mà bạn có thể kết nối trong môi trường làm việc hiện tại của mình,
bạn có thể tìm người cố vấn ở bất cứ đâu từ nền tảng truyền thông xã hội, sự kiện kết nối mạng
hoặc chương trình kết hợp người cố vấn. Chẳng hạn, các trang web như Score.org và
MicroMentor.org và một ứng dụng có tên Mentorship cho phép bạn tìm kiếm thông tin đăng
nhập cụ thể phù hợp với nhu cầu của mình. Sau đó, bạn có thể sắp xếp thời gian dành riêng,
có thể trên nền tảng, để gặp gỡ hoặc nói chuyện qua điện thoại.
Cá nhân tôi thích liên hệ bằng một email hoặc tin nhắn thân thiện trên một trang mạng
chuyên nghiệp. Nếu bạn đi theo con đường này, hãy dành chút thời gian để mô tả các mục tiêu
nghề nghiệp của bạn và cách chúng có thể phù hợp với kinh nghiệm của chính họ. Hãy thử đề
cập đến một số điều bạn đặc biệt thích về tác phẩm hoặc nội dung đã xuất bản của họ. Từ đó,
bạn có thể dễ dàng đề xuất một cuộc trò chuyện cà phê, buổi gặp mặt ảo hoặc trao đổi email
để mọi thứ diễn ra suôn sẻ. Khi bạn đã có một vài trao đổi, hãy chắc chắn kiểm tra lại với
chính mình. Đảm bảo rằng nó phù hợp tự nhiên và bạn đang có mọi thứ mình cần. Bạn cũng
nên kiểm tra với người cố vấn của mình để đảm bảo rằng nó cũng hoạt động tốt với họ.
Hãy nhớ rằng, đây là một quan hệ đối tác. Bạn và người cố vấn của bạn là những người
tham gia bình đẳng. Bạn càng xác thực và trung thực về nó, nó sẽ càng tốt hơn. Ví dụ, chia sẻ
lòng biết ơn của bạn đối với thời gian và công sức của họ luôn là một ý tưởng hay. Giờ đây,
trong khi một người cố vấn sẽ giúp bạn đạt được những kỹ năng quan trọng và vượt qua những
thách thức trong công việc, nhiều người thấy rằng có một người đỡ đầu có thể đưa sự nghiệp
của họ tiến xa hơn nữa.
Nhà tài trợ là một người ủng hộ chuyên nghiệp, người cam kết thúc đẩy sự nghiệp của
người được tài trợ với một tổ chức. Để hiểu sự khác biệt giữa hai vai trò này, hãy nghĩ về nó
như thế này. Một người cố vấn giúp bạn nâng cao kỹ năng, một nhà tài trợ giúp bạn thăng tiến.
Có sự hỗ trợ của một nhà tài trợ giống như có một mạng lưới an toàn. Họ có thể cho bạn sự tự
tin để chấp nhận rủi ro trong công việc, chẳng hạn như yêu cầu một nhiệm vụ mới hoặc thăng
chức.
Hãy nói về cách bạn có được một nhà tài trợ. Chà, không giống như những người cố
vấn, bạn không được chọn người bảo trợ. Nhà tài trợ hầu như luôn chọn bạn. Cách hành động
tốt nhất là luôn cam kết làm tốt nhất công việc của mình. Có một cơ hội tốt ai đó có ảnh hưởng
sẽ chú ý.
Bây giờ chúng ta đã thấy tầm quan trọng của việc kết nối mạng lưới trong các mối
quan hệ, nên thực hiện một số bước chủ động. Đầu tiên, xây dựng và nuôi dưỡng sự hiện diện
trên LinkedIn của bạn. Tiếp theo, hãy xem xét sự hiện diện trên mạng xã hội hiện tại của bạn
và đảm bảo rằng nó đang giúp bạn phát huy hết khả năng của mình. Cuối cùng, hãy luôn cởi
mở để kết nối với đồng nghiệp và đồng nghiệp. Bạn không bao giờ biết những điều tuyệt vời
mà một cuộc trò chuyện sẽ mang lại.
Rachel: Người cố vấn là chìa khóa
Học phần 4: Xử lý dữ liệu từ bẩn sang sạch
Tuần 1: Tầm quan trọng của sự chính trực
Khi bạn bắt đầu nghĩ về cách chuẩn bị dữ liệu để khám phá, phần này của khóa học sẽ
nêu bật lý do tại sao tính toàn vẹn của dữ liệu lại rất cần thiết để đưa ra quyết định thành công.
Bạn sẽ tìm hiểu về cách tạo dữ liệu và các kỹ thuật mà nhà phân tích sử dụng...
Mục tiêu học tập:
 Mô tả các biện pháp thống kê liên quan đến tính toàn vẹn của dữ liệu bao gồm sức
mạnh thống kê, kiểm tra giả thuyết và biên độ lỗi
 Mô tả các chiến lược có thể được sử dụng để giải quyết dữ liệu không đầy đủ
 Thảo luận về tầm quan trọng của cỡ mẫu liên quan đến độ lệch mẫu và mẫu ngẫu nhiên
 Mô tả mối quan hệ giữa dữ liệu và các mục tiêu kinh doanh liên quan
 Xác định tính toàn vẹn của dữ liệu với tham chiếu đến các loại và rủi ro
 Thảo luận về tầm quan trọng của các hoạt động trước khi làm sạch
Chương 1: Tập trung vào sự chính trực
Giới thiệu tập trung vào sự trung thực
CHÀO! Rất vui được gặp bạn! Tên tôi là Sally, và tôi ở đây để dạy cho bạn tất cả về
cách xử lý dữ liệu. Tôi là trưởng nhóm đo lường và phân tích tại Google. Công việc của tôi là
giúp các công ty và đại lý quảng cáo đo lường mức độ thành công và phân tích dữ liệu của họ,
vì vậy tôi gặp gỡ nhiều người khác nhau để chỉ cho họ cách phân tích dữ liệu giúp ích cho
quảng cáo của họ.
Nói về phân tích, trước đó bạn đã học rất tốt cách thu thập và sắp xếp dữ liệu để phân
tích. Đây chắc chắn là một bước quan trọng trong quá trình phân tích dữ liệu, bạn đã hoàn
thành rất tốt! Bây giờ hãy nói về cách đảm bảo rằng dữ liệu được sắp xếp của bạn hoàn chỉnh
và chính xác. Dữ liệu sạch là chìa khóa để đảm bảo dữ liệu của bạn có tính toàn vẹn trước khi
bạn phân tích dữ liệu đó.
Chúng tôi sẽ chỉ cho bạn cách đảm bảo dữ liệu của bạn sạch sẽ và ngăn nắp. Làm sạch
và xử lý dữ liệu là một phần của quá trình phân tích dữ liệu tổng thể. Xin nhắc lại, quy trình
đó là Hỏi, Chuẩn bị, Xử lý, Phân tích, Chia sẻ và Hành động. Điều đó có nghĩa là đã đến lúc
chúng ta khám phá giai đoạn Xử lý và tôi ở đây để hướng dẫn bạn toàn bộ quá trình. Tôi rất
quen thuộc với nơi bạn đang ở ngay bây giờ. Tôi chưa bao giờ nghe nói về phân tích dữ liệu
cho đến khi tôi xem qua một chương trình tương tự như chương trình này. Khi tôi bắt đầu tiến
bộ, tôi nhận ra rằng tôi thích phân tích dữ liệu đến mức nào và những cánh cửa mà nó có thể
mở ra. Và bây giờ tôi rất vui được giúp bạn mở những cánh cửa đó!
Một điều tôi nhận ra khi làm việc cho các công ty khác nhau là dữ liệu sạch rất quan
trọng trong mọi ngành. Ví dụ, tôi đã sớm học được cách đề phòng dữ liệu trùng lặp, một vấn
đề phổ biến mà các nhà phân tích gặp phải khi làm sạch. Tôi đã từng làm việc cho một công
ty có nhiều loại đăng ký khác nhau. Trong tập dữ liệu của chúng tôi, mỗi người dùng sẽ có
một hàng mới cho từng loại đăng ký mà họ đã mua, điều đó có nghĩa là người dùng sẽ xuất
hiện nhiều lần trong dữ liệu của tôi. Vì vậy, nếu tôi đã đếm số lượng người dùng trong một
bảng mà không tính đến các bản sao như thế này, tôi sẽ tính một số người dùng hai lần thay
vì một lần. Kết quả là, phân tích của tôi sẽ sai, dẫn đến các vấn đề trong báo cáo của tôi và
cho các bên liên quan dựa vào phân tích của tôi. Hãy tưởng tượng nếu tôi nói với Giám đốc
điều hành rằng chúng tôi có số lượng khách hàng gấp đôi so với thực tế!? Đó là lý do tại sao
dữ liệu sạch lại rất quan trọng. Vì vậy, bước đầu tiên trong quá trình xử lý dữ liệu là tìm hiểu
về tính toàn vẹn của dữ liệu. Bạn sẽ tìm hiểu tính toàn vẹn của dữ liệu là gì và tại sao việc duy
trì tính toàn vẹn của dữ liệu trong suốt quá trình phân tích dữ liệu lại quan trọng. Đôi khi, bạn
thậm chí có thể không có dữ liệu mình cần, vì vậy bạn sẽ phải tự tạo dữ liệu đó. Điều này sẽ
giúp bạn biết cỡ mẫu và lấy mẫu ngẫu nhiên có thể giúp bạn tiết kiệm thời gian và công sức
như thế nào.
Kiểm tra dữ liệu là một bước quan trọng khác cần thực hiện khi xử lý dữ liệu. Chúng
tôi sẽ chia sẻ một số hướng dẫn về cách kiểm tra dữ liệu trước khi quá trình phân tích của bạn
chính thức bắt đầu. Giống như bạn giặt quần áo và bát đĩa trong cuộc sống hàng ngày, các nhà
phân tích cũng luôn làm sạch dữ liệu của họ. Tầm quan trọng của dữ liệu sạch chắc chắn sẽ là
một trọng tâm ở đây. Bạn sẽ học các kỹ thuật làm sạch dữ liệu cho tất cả các tình huống, cùng
với một số cạm bẫy cần chú ý khi bạn làm sạch. Bạn sẽ khám phá cách làm sạch dữ liệu trong
cả bảng tính và cơ sở dữ liệu, dựa trên những gì bạn đã học về bảng tính. Chúng ta sẽ nói
nhiều hơn về SQL và cách bạn có thể sử dụng nó để làm sạch dữ liệu cũng như làm những
việc hữu ích khác.
Khi các nhà phân tích làm sạch dữ liệu của họ, họ làm nhiều việc hơn là kiểm tra tại
chỗ để đảm bảo dữ liệu được thực hiện chính xác. Bạn sẽ học cách xác minh và báo cáo kết
quả làm sạch của mình. Điều này bao gồm ghi lại quá trình làm sạch của bạn, quá trình này
có rất nhiều lợi ích mà chúng ta sẽ khám phá. Điều quan trọng cần nhớ là xử lý dữ liệu chỉ là
một trong những nhiệm vụ bạn sẽ hoàn thành với tư cách là nhà phân tích dữ liệu. Trên thực
tế, kỹ năng làm sạch dữ liệu của bạn có thể chỉ là thứ bạn đánh dấu trong sơ yếu lý lịch khi
bắt đầu tìm việc. Nói về sơ yếu lý lịch, bạn sẽ có thể bắt đầu suy nghĩ về cách xây dựng sơ
yếu lý lịch của riêng mình từ góc độ của một nhà phân tích dữ liệu. Sau khi hoàn thành ở đây,
bạn sẽ đánh giá cao dữ liệu sạch và tầm quan trọng của nó trong quá trình phân tích dữ liệu.
Vậy hãy bắt đầu!
Chương 2: Tính toàn vẹn của dữ liệu và mục tiêu phân tích
Tại sao tính toàn vẹn của dữ liệu lại quan trọng?
Chào mừng trở lại. Trong video này, chúng ta sẽ thảo luận về tính toàn vẹn của dữ liệu
và một số rủi ro mà bạn có thể gặp phải với tư cách là nhà phân tích dữ liệu. Một phân tích
mạnh mẽ phụ thuộc vào tính toàn vẹn của dữ liệu. Nếu dữ liệu bạn đang sử dụng bị xâm phạm
theo bất kỳ cách nào, phân tích của bạn sẽ không hiệu quả như mong muốn. Data integrity is
The accuracy, completeness, consistency, and trustworthiness of data throughout its lifecycle
(Toàn vẹn dữ liệu là tính chính xác, đầy đủ, nhất quán và đáng tin cậy của dữ liệu trong suốt
vòng đời của nó).
Điều đó nghe có vẻ giống như rất nhiều phẩm chất để dữ liệu tồn tại. Nhưng hãy tin tôi,
bạn nên kiểm tra tất cả chúng trước khi tiến hành phân tích. Nếu không, phân tích của bạn có
thể sai. Không phải vì bạn đã làm sai điều gì đó, mà vì dữ liệu bạn đang làm việc đã sai ngay
từ đầu.
Khi tính toàn vẹn của dữ liệu thấp, nó có thể gây ra bất kỳ điều gì, từ việc mất một
pixel trong hình ảnh cho đến quyết định y tế không chính xác. Trong một số trường hợp, một
phần bị thiếu có thể khiến tất cả dữ liệu của bạn trở nên vô dụng. Tính toàn vẹn của dữ liệu có
thể bị xâm phạm theo nhiều cách khác nhau. Có khả năng dữ liệu có thể bị xâm phạm mỗi khi
nó được sao chép, truyền hoặc thao tác theo bất kỳ cách nào.
Data replication is The process of storing data in multiple (Nhân bản dữ liệu là quá
trình lưu trữ dữ liệu ở nhiều vị trí). Nếu bạn đang sao chép dữ liệu vào những thời điểm khác
nhau ở những nơi khác nhau, thì có khả năng dữ liệu của bạn sẽ không đồng bộ. Dữ liệu này
thiếu tính toàn vẹn vì những người khác nhau có thể không sử dụng cùng một dữ liệu cho các
phát hiện của họ, điều này có thể gây ra sự không nhất quán.
Data transfer is The process of copying data from a storage device to memory, or from
one computer to another (Chuyển đổi dữ liệu là quá trình sao chép dữ liệu từ thiết bị lưu trữ
vào bộ nhớ máy tình hoặc từ máy tính này sang máy tính khác). Nếu quá trình truyền dữ liệu
của bạn bị gián đoạn, bạn có thể nhận được tập dữ liệu không đầy đủ, có thể không hữu ích
cho nhu cầu của bạn.
Data mainipulation is The process of changing data to make it move organized and
easier to read (Thao tác dữ liệu là quá trình thay đổi dữ liệu để làm cho dữ liệu có tổ chức và
dễ đọc hơn). Thao tác dữ liệu nhằm làm cho quá trình phân tích dữ liệu hiệu quả hơn, nhưng
một lỗi trong quá trình này có thể làm giảm hiệu quả.
Cuối cùng, dữ liệu cũng có thể bị xâm phạm do lỗi của con người, vi-rút, phần mềm
độc hại, hack và lỗi hệ thống, tất cả đều có thể khiến bạn đau đầu hơn. Tôi sẽ dừng lại ở đó.
Đó là đủ tin xấu để tiêu hóa.
Hãy chuyển sang một số tin tốt có thể xảy ra. Ở nhiều công ty, kho dữ liệu hoặc nhóm
kỹ thuật dữ liệu đảm nhiệm việc đảm bảo tính toàn vẹn của dữ liệu. Sắp tới, chúng ta sẽ tìm
hiểu về cách kiểm tra tính toàn vẹn của dữ liệu với tư cách là nhà phân tích dữ liệu. Nhưng
hãy yên tâm, thường sẽ có người khác hỗ trợ bạn.
Sau khi bạn biết mình đang làm việc với dữ liệu nào, điều quan trọng là phải kiểm tra
kỹ xem dữ liệu của bạn có đầy đủ và hợp lệ hay không trước khi phân tích. Điều này sẽ giúp
đảm bảo rằng các phân tích và kết luận cuối cùng của bạn là chính xác. Kiểm tra tính toàn vẹn
của dữ liệu là một bước quan trọng trong quá trình xử lý dữ liệu của bạn để chuẩn bị sẵn sàng
cho việc phân tích, cho dù bạn hay người khác trong công ty của bạn đang thực hiện việc đó.
Sắp tới, bạn sẽ tìm hiểu nhiều hơn về tính toàn vẹn của dữ liệu. Hẹn sớm gặp lại!
Cân bằng các mục tiêu với tính toàn vẹn dữ liệu
Xin chào, bạn nên nhớ kiểm tra tính toàn vẹn của dữ liệu. Điều quan trọng nữa là kiểm
tra xem dữ liệu bạn sử dụng có phù hợp với mục tiêu kinh doanh hay không. Điều này bổ sung
thêm một lớp nữa để duy trì tính toàn vẹn của dữ liệu vì dữ liệu bạn đang sử dụng có thể có
những hạn chế mà bạn cần phải xử lý.
Quá trình khớp dữ liệu với các mục tiêu kinh doanh thực sự có thể khá đơn giản. Đây
là một ví dụ nhanh. Giả sử bạn là nhà phân tích cho một doanh nghiệp sản xuất và bán phụ
tùng ô tô. Nếu bạn cần giải quyết câu hỏi về doanh thu được tạo ra từ việc bán một bộ phận
nhất định, thì bạn sẽ lấy bảng doanh thu từ tập dữ liệu. Nếu câu hỏi là về đánh giá của khách
hàng, thì bạn sẽ kéo bảng đánh giá lên để phân tích xếp hạng trung bình. Nhưng trước khi đi
sâu vào bất kỳ phân tích nào, bạn cần xem xét một số hạn chế có thể ảnh hưởng đến nó.
Nếu dữ liệu chưa được làm sạch đúng cách thì bạn sẽ không thể sử dụng dữ liệu đó.
Bạn sẽ cần đợi cho đến khi quá trình làm sạch kỹ lưỡng được thực hiện. Bây giờ, giả sử bạn
đang cố gắng tìm số tiền chi tiêu trung bình của một khách hàng. Bạn nhận thấy dữ liệu của
cùng một khách hàng hiển thị trong nhiều hàng. Điều này được gọi là dữ liệu trùng lặp. Để
khắc phục điều này, bạn có thể cần thay đổi định dạng của dữ liệu hoặc bạn có thể cần thay
đổi cách tính trung bình. Nếu không, có vẻ như dữ liệu dành cho hai người khác nhau và bạn
sẽ mắc kẹt với các tính toán sai lệch.
Bạn cũng có thể nhận ra rằng không có đủ dữ liệu để hoàn thành một phân tích chính
xác. Có thể bạn chỉ có dữ liệu bán hàng trong vài tháng. Có rất ít khả năng bạn có thể đợi thêm
dữ liệu, nhưng có nhiều khả năng là bạn sẽ phải thay đổi quy trình của mình hoặc tìm các
nguồn dữ liệu thay thế trong khi vẫn đạt được mục tiêu của mình.
Tôi thích nghĩ về một tập dữ liệu giống như một bức tranh. Chụp bức ảnh này. chúng
tôi đang tìm gì vậy? Trừ khi bạn là một chuyên gia du lịch hoặc am hiểu về khu vực này, có
thể khó để chọn ra chỉ từ hai hình ảnh này. Trực quan, nó rất rõ ràng khi chúng ta không nhìn
thấy bức tranh toàn cảnh. Khi bạn có được bức tranh hoàn chỉnh, bạn nhận ra rằng... bạn đang
ở London! Với dữ liệu không đầy đủ, thật khó để nhìn thấy bức tranh toàn cảnh để có cảm
giác thực sự về những gì đang diễn ra.
Đôi khi, chúng tôi tin tưởng vào dữ liệu vì nếu dữ liệu đến với chúng tôi theo hàng và
cột, có vẻ như mọi thứ chúng tôi cần đều ở đó nếu chúng tôi chỉ truy vấn nó. Nhưng điều đó
không đúng. Tôi nhớ có lần tôi phát hiện ra mình không có đủ dữ liệu và phải tìm giải pháp.
Tôi đang làm việc cho một công ty bán lẻ trực tuyến và được yêu cầu tìm cách rút ngắn thời
gian mua hàng của khách hàng xuống thời gian giao hàng. Thời gian giao hàng nhanh hơn
thường dẫn đến khách hàng hạnh phúc hơn. Khi tôi kiểm tra tập dữ liệu, tôi thấy thông tin theo
dõi rất hạn chế. Chúng tôi đã thiếu một số chi tiết khá quan trọng. Vì vậy, các kỹ sư dữ liệu
và tôi đã tạo các quy trình mới để theo dõi thông tin bổ sung, chẳng hạn như số điểm dừng
trong một hành trình. Sử dụng dữ liệu này, chúng tôi đã giảm thời gian từ khi mua hàng đến
khi giao hàng và nhận thấy sự cải thiện về mức độ hài lòng của khách hàng. Điều đó cảm thấy
khá tuyệt vời!
Học cách xử lý các vấn đề về dữ liệu trong khi vẫn tập trung vào mục tiêu của bạn sẽ
giúp bạn chuẩn bị thành công trong sự nghiệp với tư cách là nhà phân tích dữ liệu. Và con
đường dẫn đến thành công của bạn vẫn tiếp tục. Bước tiếp theo, bạn sẽ tìm hiểu thêm về cách
sắp xếp dữ liệu phù hợp với mục tiêu. Cố lên nhé!
Chương 3: Vượt qua những thách thức của việc thiếu dữ liệu
Xử lý dữ liệu không đầy đủ
Mọi nhà phân tích đều ở trong tình huống không có đủ dữ liệu để trợ giúp cho mục tiêu
kinh doanh của họ. Xem xét lượng dữ liệu được tạo ra mỗi ngày, có thể khó tin nhưng đó là
sự thật. Vì vậy, hãy thảo luận về những gì bạn có thể làm khi không có đủ dữ liệu. Chúng tôi
sẽ đề cập đến cách đặt giới hạn cho phạm vi phân tích của bạn và dữ liệu nào bạn nên đưa vào.
Tại một thời điểm, tôi là nhà phân tích dữ liệu tại một trung tâm hỗ trợ. Mỗi ngày,
chúng tôi nhận được câu hỏi của khách hàng, được đăng nhập dưới dạng vé hỗ trợ. Tôi được
yêu cầu dự đoán số lượng yêu cầu hỗ trợ sẽ đến mỗi tháng để biết họ cần thuê thêm bao nhiêu
người. Điều rất quan trọng là chúng tôi phải có đủ dữ liệu trong ít nhất vài năm trở lại đây vì
tôi phải tính đến những thay đổi hàng năm và theo mùa. Nếu tôi chỉ có sẵn dữ liệu của năm
hiện tại, tôi sẽ không biết rằng mức tăng đột biến trong tháng 1 là phổ biến và liên quan đến
những người yêu cầu hoàn tiền sau kỳ nghỉ lễ. Vì tôi có đủ dữ liệu nên tôi có thể đề nghị chúng
ta thuê thêm người vào tháng Giêng để chuẩn bị.
Những thách thức chắc chắn sẽ xuất hiện, nhưng tin tốt là một khi bạn biết mục tiêu
kinh doanh của mình, bạn sẽ có thể nhận ra liệu mình có đủ dữ liệu hay không. Và nếu không,
bạn sẽ có thể xử lý nó trước khi bắt đầu phân tích. Bây giờ, hãy xem một số hạn chế mà bạn
có thể gặp phải và cách bạn có thể xử lý các loại dữ liệu không đủ khác nhau.
Giả sử bạn đang làm việc trong ngành du lịch và bạn cần tìm hiểu kế hoạch du lịch nào
được tìm kiếm thường xuyên nhất. Nếu bạn chỉ sử dụng dữ liệu từ một trang web đặt phòng,
thì bạn đang giới hạn bản thân với dữ liệu chỉ từ một nguồn. Các trang web đặt phòng khác
có thể hiển thị các xu hướng khác nhau mà bạn muốn xem xét để phân tích. Nếu một giới hạn
như thế này ảnh hưởng đến phân tích của bạn, thì bạn có thể dừng lại và quay lại gặp các bên
liên quan để vạch ra kế hoạch. Nếu tập dữ liệu của bạn liên tục cập nhật, điều đó có nghĩa
là dữ liệu vẫn đang đến và có thể chưa hoàn chỉnh. Vì vậy, nếu có một điểm thu hút khách du
lịch hoàn toàn mới mà bạn đang phân tích sự quan tâm và tham dự, thì có thể không có đủ
dữ liệu để bạn xác định xu hướng. Ví dụ: bạn có thể muốn đợi một tháng để thu thập dữ liệu.
Hoặc bạn có thể liên hệ với các bên liên quan và hỏi về việc điều chỉnh mục tiêu. Ví dụ: bạn
có thể phân tích xu hướng từ tuần này sang tuần khác thay vì tháng này sang tháng khác. Bạn
cũng có thể dựa trên phân tích của mình về các xu hướng trong ba tháng qua và nói: "Đây là
tình hình tham dự điểm du lịch trong tháng thứ tư." Bạn có thể không có đủ dữ liệu để biết
liệu con số này quá thấp hay quá cao. Nhưng bạn sẽ nói với các bên liên quan rằng đó là ước
tính tốt nhất của bạn dựa trên dữ liệu bạn hiện có. Mặt khác, dữ liệu của bạn có thể cũ hơn
và không còn phù hợp nữa. Dữ liệu lỗi thời về sự hài lòng của khách hàng sẽ không bao
gồm các phản hồi gần đây nhất. Vì vậy, bạn sẽ dựa vào xếp hạng cho các khách sạn hoặc nhà
nghỉ cho thuê có thể không còn chính xác nữa. Trong trường hợp này, cách tốt nhất của bạn
có thể là tìm một tập dữ liệu mới để làm việc. Dữ liệu bị giới hạn về mặt địa lý cũng có thể
không đáng tin cậy. Nếu công ty của bạn hoạt động trên toàn cầu, bạn sẽ không muốn sử dụng
dữ liệu giới hạn để đi du lịch chỉ trong một quốc gia. Bạn sẽ muốn có một bộ dữ liệu bao gồm
tất cả các quốc gia.
Vì vậy, đó chỉ là một số hạn chế phổ biến nhất mà bạn sẽ gặp phải và một số cách bạn
có thể giải quyết chúng. Bạn có thể xác định xu hướng với dữ liệu có sẵn hoặc đợi thêm dữ
liệu nếu thời gian cho phép; bạn có thể nói chuyện với các bên liên quan và điều chỉnh
mục tiêu của mình; hoặc bạn có thể tìm kiếm một tập dữ liệu mới. Nhu cầu thực hiện các
bước này sẽ phụ thuộc vào vai trò của bạn trong công ty và có thể là nhu cầu của toàn ngành.
Nhưng học cách đối phó với dữ liệu không đầy đủ luôn là một cách tuyệt vời để chuẩn bị cho
bạn thành công. Quyền hạn phân tích dữ liệu của bạn đang phát triển mạnh mẽ hơn. Và đúng
lúc.
Sau khi tìm hiểu thêm về các hạn chế và giải pháp, bạn sẽ tìm hiểu về sức mạnh thống
kê, một công cụ tuyệt vời khác để bạn sử dụng. Hẹn sớm gặp lại!
Tầm quan trọng của cỡ mẫu
Được rồi, trước đó chúng ta đã nói về việc có đúng loại dữ liệu để đáp ứng mục tiêu
kinh doanh của bạn và tầm quan trọng của việc có đúng lượng dữ liệu để đảm bảo phân tích
của bạn chính xác nhất có thể.
Bạn có thể nhớ rằng đối với các nhà phân tích dữ liệu, population is All possible data
values in a certain dataset (Tổng thể là tất cả các giá trị dữ liệu có thể có trong một tập dữ liệu).
Nếu bạn có thể sử dụng 100 phần trăm dân số trong phân tích của mình, điều đó thật tuyệt.
Nhưng đôi khi việc thu thập thông tin về toàn bộ dân số là không thể. Nó quá tốn thời
gian hoặc tốn kém. Ví dụ: giả sử một tổ chức toàn cầu muốn biết thêm về những người nuôi
thú cưng có mèo. Bạn có nhiệm vụ tìm ra loại đồ chơi mà chủ sở hữu mèo ở Canada thích.
Nhưng có hàng triệu chủ sở hữu mèo ở Canada, vì vậy việc lấy dữ liệu từ tất cả họ sẽ là một
thách thức lớn. Đừng sợ! Cho phép tôi giới thiệu với bạn... cỡ mẫu!
Sample size is A part of population that is representative of the population (Mẫu là một
phân đoạn của tổng thể dùng để đại diện cho toàn bộ tổng thể). Mục tiêu là thu thập đủ thông
tin từ một nhóm nhỏ trong quần thể để đưa ra dự đoán hoặc kết luận về toàn bộ quần thể. Mẫu
giúp đảm bảo mức độ mà bạn có thể tin tưởng rằng kết luận của bạn đại diện chính xác cho
tổng thể.
Đối với dữ liệu về chủ sở hữu mèo, kích thước mẫu có thể chứa dữ liệu về hàng trăm
hoặc hàng nghìn người thay vì hàng triệu người. Sử dụng một mẫu để phân tích sẽ tiết kiệm
chi phí hơn và mất ít thời gian hơn. Nếu được thực hiện cẩn thận và chu đáo, bạn có thể nhận
được kết quả tương tự bằng cách sử dụng một cỡ mẫu thay vì cố gắng săn lùng từng chủ sở
hữu mèo để tìm đồ chơi mèo yêu thích của họ.
Dù vậy, có một nhược điểm tiềm năng. Khi bạn chỉ sử dụng một mẫu nhỏ của tổng thể,
điều đó có thể dẫn đến sự không chắc chắn. Bạn không thể thực sự chắc chắn 100 phần trăm
rằng số liệu thống kê của bạn là đại diện đầy đủ và chính xác về tổng thể. Điều này dẫn đến
sai lệch lấy mẫu mà chúng ta đã đề cập trước đó trong chương trình.
Sampling bias is A sample isn’t representative of the population as a whole (Lấy mẫu
thiên vị là Dữ liệu được lấy mẫu không đại diện cho toàn bộ tổng thể). Điều này có nghĩa là
một số thành viên của dân số đang được đại diện quá mức hoặc không được đại diện quá mức.
Ví dụ: nếu cuộc khảo sát được sử dụng để thu thập dữ liệu từ những người nuôi mèo chỉ bao
gồm những người có điện thoại thông minh, thì những người nuôi mèo không có điện thoại
thông minh sẽ không được thể hiện trong dữ liệu.
Sử dụng lấy mẫu ngẫu nhiên có thể giúp giải quyết một số vấn đề với sai lệch lấy mẫu.
Random sampling is A way of selecting a sample from a population so that every possible
type of the sample has an equal chance of being chosen (Lấy mẫu ngẫu nhiên là một cách lấy
mẫu từ một tập hợp sao cho mỗi loại mẫu có thể đều có cơ hội được chọn như nhau).
Quay trở lại chủ sở hữu mèo của chúng tôi một lần nữa, sử dụng một mẫu chủ sở hữu
mèo ngẫu nhiên có nghĩa là chủ sở hữu mèo thuộc mọi loại đều có cơ hội được chọn như nhau.
Những người nuôi mèo sống trong các căn hộ ở Ontario sẽ có cơ hội được đại diện giống như
những người sống trong các ngôi nhà ở Alberta.
Là một nhà phân tích dữ liệu, bạn sẽ thấy rằng việc tạo kích thước mẫu thường diễn ra
trước khi bạn có được dữ liệu. Nhưng bạn vẫn nên biết rằng dữ liệu bạn sắp phân tích là đại
diện cho tổng thể và phù hợp với mục tiêu của bạn. Bạn cũng nên biết điều gì sắp xảy ra trong
hành trình dữ liệu của mình. Trong video tiếp theo, bạn sẽ có một tùy chọn để trở nên thoải
mái hơn với kích thước mẫu. Hẹn gặp bạn ở đó.
Chương 4: Kiểm tra dữ liệu của bạn
Sử dụng sức mạnh thống kê
Này, kia. Chắc hẳn ai trong chúng ta cũng từng mơ ước có được siêu năng lực ít nhất
một lần trong đời. Tôi biết tôi có. Tôi rất thích có thể bay. Nhưng có một siêu năng lực khác
mà bạn có thể chưa từng nghe đến: sức mạnh thống kê. Statistical power is The probability
of getting meaningful results from a test (Sức mạnh thống kê là xác suất mà một thử nghiệm
có ý nghĩa sẽ có một ảnh hưởng đáng kể về mặt thống kê).
Tôi đoán đó không phải là siêu năng lực mà bất kỳ ai trong số các bạn từng mơ ước.
Tuy nhiên, đó là một siêu cường dữ liệu khá tuyệt vời. Đối với các nhà phân tích dữ liệu, các
dự án của bạn có thể bắt đầu bằng cuộc khảo sát hoặc nghiên cứu. Hypothesis testing is A
way to see if a survey or experiment has meaningful results (Kiểm định giả thuyết là một quy
trình để xác định xem kết quả của một cuộc khảo sát hoặc thử nghiệm có ý nghĩa hay không).
Đây là một ví dụ. Giả sử bạn làm việc cho một chuỗi nhà hàng đang lên kế hoạch cho
chiến dịch tiếp thị cho món sữa lắc mới của họ. Bạn cần thử nghiệm quảng cáo trên một nhóm
khách hàng trước khi biến nó thành một chiến dịch quảng cáo trên toàn quốc. Trong thử
nghiệm, bạn muốn kiểm tra xem khách hàng thích hay không thích chiến dịch. Bạn cũng muốn
loại trừ bất kỳ yếu tố nào bên ngoài quảng cáo có thể khiến họ nói rằng họ không thích quảng
cáo đó.
Sử dụng tất cả các khách hàng của bạn sẽ là quá tốn thời gian và tốn kém. Vì vậy, bạn
sẽ cần tính xem bạn sẽ cần bao nhiêu khách hàng để chứng minh rằng quảng cáo có hiệu quả.
Năm mươi có lẽ sẽ không đủ. Ngay cả khi bạn chọn ngẫu nhiên 50 khách hàng, bạn vẫn có
thể gặp phải những khách hàng hoàn toàn không thích sữa lắc. Và nếu điều đó xảy ra, bạn sẽ
không thể đo lường hiệu quả của quảng cáo trong việc nhận được nhiều đơn đặt hàng sữa lắc
hơn vì không có ai trong cỡ mẫu sẽ đặt hàng chúng. Đó là lý do tại sao bạn cần cỡ mẫu lớn
hơn: để bạn có thể đảm bảo rằng bạn có đủ số lượng người cho thử nghiệm của mình.
Thông thường, cỡ mẫu càng lớn thì cơ hội bạn có kết quả có ý nghĩa thống kê với thử
nghiệm của mình càng cao. Và đó là sức mạnh thống kê.
Trong trường hợp này, sử dụng càng nhiều khách hàng càng tốt sẽ cho thấy sự khác
biệt thực sự giữa nhóm thích hoặc không thích quảng cáo so với những người có quyết định
hoàn toàn không dựa trên quảng cáo. Có nhiều cách để tính toán chính xác sức mạnh thống
kê, nhưng chúng ta sẽ không đi sâu vào chúng ở đây. Bạn có thể cần phải tự mình tính toán
nó với tư cách là một nhà phân tích dữ liệu.
Hiện tại, bạn nên biết rằng sức mạnh thống kê thường được hiển thị dưới dạng giá trị
trên một. Vì vậy, nếu sức mạnh thống kê của bạn là 0,6, thì điều đó cũng giống như nói 60%.
Trong thử nghiệm quảng cáo sữa lắc, nếu bạn tìm thấy sức mạnh thống kê là 60%, điều đó có
nghĩa là có 60% khả năng bạn nhận được kết quả có ý nghĩa thống kê về hiệu quả của quảng
cáo.
"Có ý nghĩa thống kê" là một thuật ngữ được sử dụng trong thống kê. Nếu bạn muốn
tìm hiểu thêm về ý nghĩa kỹ thuật, bạn có thể tìm kiếm trực tuyến.
Nhưng về cơ bản, nếu một cuộc khảo sát có ý nghĩa thống kê, điều đó có nghĩa là kết
quả của cuộc khảo sát là có thật và không phải là lỗi do cơ hội ngẫu nhiên gây ra. Vì vậy, có
60% khả năng kết quả kiểm tra quảng cáo sữa lắc là đáng tin cậy và có thật và 40% khả năng
kết quả kiểm tra là sai. Thông thường, bạn cần có sức mạnh thống kê ít nhất là 0,8 hoặc 80%
để coi kết quả của bạn có ý nghĩa thống kê.
Hãy xem thêm một kịch bản nữa. Chúng tôi sẽ gắn bó với sữa lắc bởi vì tôi thích sữa
lắc. Hãy tưởng tượng bạn làm việc cho một chuỗi nhà hàng muốn tung ra một loại sữa lắc có
hương vị bánh sinh nhật hoàn toàn mới. Loại sữa lắc này sẽ đắt hơn để sản xuất so với các loại
sữa lắc khác của bạn. Công ty của bạn hy vọng rằng tiếng vang xung quanh hương vị mới sẽ
mang lại nhiều khách hàng hơn và tiền để bù đắp chi phí này. Trước tiên, họ muốn thử nghiệm
điều này ở một vài địa điểm nhà hàng. Vì vậy, hãy tính xem bạn phải sử dụng bao nhiêu vị trí
để tự tin vào kết quả của mình.
Đầu tiên, bạn phải suy nghĩ về những gì có thể ngăn bạn nhận được kết quả có ý nghĩa
thống kê. Có nhà hàng nào đang thực hiện bất kỳ chương trình khuyến mãi nào khác có thể
mang lại khách hàng mới không? Có phải một số nhà hàng có những khách hàng luôn mua
món đồ mới nhất, bất kể đó là món gì không? Có một số địa điểm có công trình xây dựng mới
bắt đầu, điều đó sẽ ngăn cản khách hàng thậm chí đến nhà hàng không?
Để có được sức mạnh thống kê cao hơn, bạn phải xem xét tất cả các yếu tố này trước
khi quyết định có bao nhiêu địa điểm để đưa vào cỡ mẫu cho nghiên cứu của mình. Bạn muốn
đảm bảo rằng mọi tác động đều có thể là do hương vị sữa lắc mới chứ không phải do yếu tố
khác. Các tác động có thể đo lường được sẽ là sự gia tăng doanh số bán hàng hoặc số lượng
khách hàng tại các địa điểm trong cỡ mẫu của bạn.
Đó là nó cho bây giờ. Sắp tới, chúng ta sẽ khám phá các kích thước mẫu một cách chi
tiết hơn để bạn có thể hiểu rõ hơn về cách chúng tác động đến các khảo sát và nghiên cứu của
bạn. Trong thời gian chờ đợi, bạn đã biết thêm một chút về sữa lắc và siêu năng lực. Và tất
nhiên, sức mạnh thống kê. Đáng buồn thay, chỉ sức mạnh thống kê mới có thể thực sự hữu ích
cho các nhà phân tích dữ liệu. Mặc dù việc mặc áo choàng của tôi và bay đi lấy một ly sữa lắc
ngay bây giờ nghe có vẻ khá tốt.
Xác định kích thước mẫu tốt nhất
Thật tuyệt khi được gặp lại bạn. Trong video này, chúng ta sẽ đi vào chi tiết hơn về
kích thước mẫu và tính toàn vẹn của dữ liệu.
Nếu bạn đã từng đến một cửa hàng phát hàng mẫu, bạn sẽ biết đó là một trong những
thú vui nho nhỏ của cuộc đời. Đối với tôi, dù sao đi nữa! Những mẫu nhỏ đó cũng là một cách
rất thông minh để doanh nghiệp tìm hiểu thêm về sản phẩm của họ từ khách hàng mà không
cần phải cung cấp cho mọi người một mẫu miễn phí. Rất nhiều tổ chức sử dụng kích thước
mẫu theo cách tương tự. Họ lấy một phần của cái gì đó lớn hơn. Trong trường hợp này, một
mẫu của tổng thể. Đôi khi, họ sẽ thực hiện các thử nghiệm phức tạp trên dữ liệu của mình để
xem dữ liệu đó có đáp ứng các mục tiêu kinh doanh của họ hay không.
Chúng tôi sẽ không đi vào tất cả các tính toán cần thiết để làm điều này một cách hiệu
quả. Thay vào đó, chúng ta sẽ tập trung vào một cái nhìn "bức tranh lớn" về quy trình và những
gì nó liên quan. Xin nhắc lại, cỡ mẫu là một phần của tổng thể đại diện cho tổng thể.
Đối với các doanh nghiệp, nó là một công cụ rất quan trọng. Việc phân tích toàn bộ dữ
liệu có thể vừa tốn kém vừa tốn thời gian. Sử dụng kích thước mẫu thường có ý nghĩa nhất và
vẫn có thể dẫn đến những phát hiện hợp lệ và hữu ích.
Có những máy tính trực tuyến tiện dụng có thể giúp bạn tìm cỡ mẫu. Bạn cần nhập độ
tin cậy, quy mô tổng thể và giới hạn sai số. Chúng ta đã nói về quy mô dân số trước đây. Để
xây dựng điều đó, chúng ta sẽ tìm hiểu về mức độ tin cậy và giới hạn sai số. Biết về những
khái niệm này sẽ giúp bạn hiểu tại sao bạn cần chúng để tính cỡ mẫu.
Confidence level is The probability that your sample size accurately reflects the greater
population (Độ tin cậy là xác suất để kích thước mẫu phản ánh chính xác tổng thể). Bạn có
thể nghĩ về nó giống như sự tự tin trong bất cứ điều gì khác. Đó là mức độ bạn cảm thấy rằng
bạn có thể dựa vào điều gì đó hoặc ai đó.
Có mức độ tin cậy 99 phần trăm là lý tưởng. Nhưng hầu hết các ngành hy vọng mức
độ tin cậy ít nhất là 90 hoặc 95 phần trăm. Các ngành như dược phẩm thường muốn mức độ
tin cậy càng cao càng tốt khi họ sử dụng cỡ mẫu. Điều này hợp lý vì họ đang thử nghiệm các
loại thuốc và cần đảm bảo rằng chúng có tác dụng và an toàn cho mọi người sử dụng.
Đối với các nghiên cứu khác, các tổ chức có thể chỉ cần biết rằng kết quả kiểm tra hoặc
khảo sát giúp họ đi đúng hướng. Ví dụ: nếu một công ty sơn đang thử nghiệm các màu mới,
thì mức độ tin cậy thấp hơn cũng không sao. Bạn cũng muốn xem xét giới hạn sai số cho
nghiên cứu của mình.
Bạn sẽ sớm tìm hiểu thêm về điều này, nhưng về cơ bản, nó cho bạn biết kết quả cỡ
mẫu của bạn gần như thế nào với kết quả của bạn nếu bạn sử dụng toàn bộ dân số mà cỡ mẫu
của bạn đại diện.
Hãy nghĩ về nó như thế này. Giả sử hiệu trưởng của một trường cấp hai tiếp cận bạn
với một nghiên cứu về sở thích ăn kẹo của học sinh. Họ cần biết một cỡ mẫu phù hợp và họ
cần nó ngay bây giờ. Trường có 500 học sinh và họ đang yêu cầu mức độ tin cậy là 95 phần
trăm và sai số là 5 phần trăm.
Chúng tôi đã thiết lập một máy tính trong bảng tính, nhưng bạn cũng có thể dễ dàng
tìm thấy loại máy tính này bằng cách tìm kiếm "máy tính cỡ mẫu" trên internet. Cũng giống
như những máy tính đó, máy tính bảng tính của chúng tôi không hiển thị bất kỳ phép tính phức
tạp nào để tính cỡ mẫu.
Tất cả những gì chúng ta cần làm là nhập các số cho dân số, mức độ tin cậy và biên độ
sai số. Và khi chúng tôi nhập 500 cho quy mô dân số, 95 cho tỷ lệ phần trăm mức độ tin cậy,
5 cho tỷ lệ phần trăm sai số, kết quả là khoảng 218. Điều đó có nghĩa là đối với nghiên cứu
này, cỡ mẫu phù hợp sẽ là 218. Nếu chúng tôi khảo sát 218 sinh viên và thấy rằng 55 phần
trăm trong số họ thích sô cô la, thì chúng tôi có thể khá tự tin rằng điều đó sẽ đúng với tất cả
500 sinh viên. 218 là số người tối thiểu chúng tôi cần khảo sát dựa trên tiêu chí của chúng tôi
về mức độ tin cậy 95 phần trăm và tỷ lệ sai sót 5 phần trăm.
Trong trường hợp bạn đang thắc mắc, mức độ tin cậy và biên độ sai số không nhất thiết
phải bằng 100%. Chúng độc lập với nhau. Vì vậy, giả sử chúng ta thay đổi biên độ sai số từ 5
phần trăm thành 3 phần trăm. Sau đó, chúng tôi thấy rằng cỡ mẫu của chúng tôi cần phải lớn
hơn, khoảng 341 thay vì 218, để làm cho kết quả nghiên cứu mang tính đại diện hơn cho dân
số.
Hãy thực hành với một máy tính trực tuyến. Biết kích thước mẫu và cách tìm nó sẽ
giúp ích cho bạn khi làm việc với dữ liệu. Chúng tôi có nhiều kiến thức hữu ích hơn sắp tới
cho bạn, bao gồm cả việc tìm hiểu về giới hạn sai số. Hẹn sớm gặp lại!
Chương 5: Xem xét giới hạn sai số
Đánh giá độ tin cậy của dữ liệu
Xin chào! Trước đó, chúng tôi đã đề cập đến sai số mà không giải thích đầy đủ. Chà,
chúng ta sẽ sửa lỗi đó trong video này bằng cách giải thích thêm về sai số. Chúng tôi thậm chí
sẽ bao gồm một ví dụ về cách tính toán nó.
Là một nhà phân tích dữ liệu, điều quan trọng là bạn phải tìm ra quy mô mẫu và các
biến số như mức độ tin cậy và tỷ lệ lỗi trước khi chạy bất kỳ loại thử nghiệm hoặc khảo sát
nào. Đó là cách tốt nhất để đảm bảo kết quả của bạn là khách quan và giúp bạn có cơ hội tốt
hơn để nhận được kết quả có ý nghĩa thống kê.
Nhưng nếu bạn đã biết kích thước mẫu, chẳng hạn như khi bạn được cung cấp kết quả
khảo sát để phân tích, thì bạn có thể tự tính giới hạn sai số. Sau đó, bạn sẽ hiểu rõ hơn về mức
độ khác biệt giữa mẫu và tổng thể của bạn. Chúng ta sẽ bắt đầu từ đầu với một định nghĩa đầy
đủ hơn.
Margin of error is The maxium amount that the sample results are expected to differ
from those of the actual population ( Giới hạn sai số là giá trị tối đa mà kết quả của quá trình
lấy mẫu sẽ khác với kết quả của tổng thể). Hãy nghĩ về một ví dụ về giới hạn sai số.
Sẽ rất tuyệt nếu khảo sát hoặc kiểm tra toàn bộ tổng thể, nhưng thường không thể hoặc
không thực tế để làm điều này. Vì vậy, thay vào đó, chúng tôi lấy mẫu của tổng thể lớn hơn.
Dựa trên cỡ mẫu, giới hạn sai số thu được sẽ cho chúng ta biết kết quả có thể khác biệt như
thế nào so với kết quả nếu chúng ta khảo sát toàn bộ dân số.
Giới hạn sai số giúp bạn hiểu mức độ tin cậy của dữ liệu từ thử nghiệm giả thuyết của
bạn. Giới hạn sai số càng gần bằng 0 thì kết quả từ mẫu của bạn càng gần với kết quả từ tổng
thể. Ví dụ: giả sử bạn đã hoàn thành một cuộc khảo sát trên toàn quốc bằng cách sử dụng một
mẫu tổng thể. Bạn đã hỏi những người làm việc theo tuần làm việc năm ngày xem họ có thích
ý tưởng về tuần làm việc bốn ngày không. Vì vậy, cuộc khảo sát của bạn cho bạn biết rằng
60% thích một tuần làm việc bốn ngày. Biên độ sai số là 10%, cho chúng ta biết rằng từ 50
đến 70% thích ý tưởng đó. Vì vậy, nếu chúng tôi khảo sát tất cả những người lao động làm
việc năm ngày trên toàn quốc, thì khoảng 50 đến 70% sẽ đồng ý với kết quả của chúng tôi.
Hãy nhớ rằng phạm vi của chúng tôi là từ 50 đến 70%. Đó là do giới hạn sai số được
tính theo cả hai hướng từ kết quả khảo sát là 60%. Nếu bạn thiết lập mức độ tin cậy 95% cho
cuộc khảo sát của mình, sẽ có 95% khả năng phản hồi của toàn bộ dân số sẽ nằm trong khoảng
từ 50 đến 70% nói rằng, vâng, họ muốn một tuần làm việc bốn ngày.
Vì biên độ sai số của bạn trùng với mốc 50% đó, nên bạn không thể nói chắc chắn rằng
công chúng thích ý tưởng về một tuần làm việc bốn ngày. Trong trường hợp đó, bạn phải nói
rằng cuộc khảo sát của bạn không thuyết phục.
Bây giờ, nếu bạn muốn tỷ lệ sai số thấp hơn, chẳng hạn như 5%, với phạm vi từ 55 đến
65%, bạn có thể tăng kích thước mẫu. Nhưng nếu bạn đã được cung cấp kích thước mẫu, bạn
có thể tự tính giới hạn sai số. Sau đó, bạn có thể tự quyết định bao nhiêu khả năng kết quả của
bạn có ý nghĩa thống kê dựa trên giới hạn sai số của bạn.
Nói chung, bạn càng đưa nhiều người vào cuộc khảo sát của mình thì mẫu của bạn càng
có nhiều khả năng đại diện cho toàn bộ dân số. Việc giảm mức độ tin cậy cũng sẽ có tác dụng
tương tự, nhưng điều đó cũng sẽ khiến khảo sát của bạn ít có khả năng chính xác hơn. Vì vậy,
để tính toán giới hạn sai số, bạn cần ba điều: quy mô tổng thể, quy mô mẫu và độ tin cậy.
Và giống như với kích thước mẫu, bạn có thể tìm thấy rất nhiều công cụ tính trực tuyến
bằng cách tìm kiếm "máy tính biên sai số". Nhưng chúng tôi sẽ hiển thị cho bạn trong một
bảng tính, giống như chúng tôi đã làm khi tính toán kích thước mẫu.
Giả sử bạn đang thực hiện một nghiên cứu về hiệu quả của một loại thuốc mới. Bạn có
cỡ mẫu gồm 500 người tham gia có tình trạng ảnh hưởng đến 1% dân số thế giới. Đó là khoảng
80 triệu người, là tổng thể cho nghiên cứu của bạn. Vì đây là nghiên cứu về thuốc nên bạn cần
có mức độ tin cậy là 99%. Bạn cũng cần một tỷ lệ lỗi thấp. Hãy tính toán nó.
Chúng ta sẽ đặt các con số về tổng thể, độ tin cậy và cỡ mẫu vào các ô bảng tính thích
hợp. Và kết quả của chúng tôi là biên độ sai số gần 6%, cộng hoặc trừ. Khi nghiên cứu thuốc
hoàn tất, bạn sẽ áp dụng sai số cho kết quả của mình để xác định độ tin cậy của kết quả. Máy
tính như thế này trong bảng tính chỉ là một trong nhiều công cụ bạn có thể sử dụng để đảm
bảo tính toàn vẹn của dữ liệu.
Và bạn cũng nên nhớ rằng việc kiểm tra tính toàn vẹn của dữ liệu và căn chỉnh dữ liệu
với các mục tiêu của bạn sẽ giúp bạn có trạng thái tốt để hoàn thành phân tích của mình. Biết
về cỡ mẫu, sức mạnh thống kê, giới hạn sai số và các chủ đề khác mà chúng tôi đã đề cập sẽ
giúp quá trình phân tích của bạn diễn ra suôn sẻ. Đó là rất nhiều khái niệm mới cần tiếp thu.
Nếu bạn muốn xem lại chúng bất kỳ lúc nào, bạn có thể tìm thấy tất cả chúng trong
bảng thuật ngữ hoặc vui lòng xem lại video! Bạn sẽ sớm khám phá những thông tin chi tiết về
dữ liệu sạch. Cuộc phiêu lưu dữ liệu tiếp tục di chuyển! Tôi rất vui vì bạn đang di chuyển cùng
với nó. Bạn hiểu rồi đấy!
Chương 2: Làm sạch dữ liệu là điều bắt buộc
Dọn dẹp nào!
Bạn có đoán được dữ liệu không chính xác hoặc dữ liệu xấu khiến doanh nghiệp phải
trả giá bao nhiêu hàng năm không? Hàng ngàn đô la? Hàng triệu? Hàng tỷ? Theo IBM, chi
phí hàng năm cho dữ liệu chất lượng kém là 3,1 nghìn tỷ đô la chỉ riêng ở Hoa Kỳ. Đó là rất
nhiều số không.
Bây giờ, bạn có đoán được nguyên nhân số một của dữ liệu kém chất lượng không? Đó
không phải là một triển khai hệ thống mới hay trục trặc kỹ thuật máy tính. Yếu tố phổ biến
nhất thực sự là lỗi của con người. Đây là một bảng tính từ một văn phòng luật. Nó hiển thị cho
khách hàng, các dịch vụ pháp lý mà họ đã mua, số thứ tự dịch vụ, số tiền họ đã thanh toán và
phương thức thanh toán. Dữ liệu bẩn có thể là kết quả của việc ai đó nhập sai một phần dữ
liệu; định dạng không nhất quán; trường trống; hoặc cùng một phần dữ liệu được nhập nhiều
lần, điều này tạo ra các bản sao.
Dirty data is Data that is incomplete, incorrect, or irrelevant to the problem you’re
trying to solve (Dữ liệu không sạch là dữ liệu không đầy đủ, không chính xác hoặc không liên
quan đến các vấn đề cần giải quyết).
Khi bạn làm việc với dữ liệu bẩn, bạn không thể chắc chắn rằng kết quả của mình là
chính xác. Trên thực tế, bạn có thể đặt cược khá nhiều rằng họ sẽ không như vậy. Trước đó,
bạn đã biết rằng tính toàn vẹn của dữ liệu rất quan trọng đối với kết quả phân tích dữ liệu đáng
tin cậy và dữ liệu sạch sẽ giúp bạn đạt được tính toàn vẹn của dữ liệu.
Clean data is Data that is complete, correct, and relevant to the problem you’re trying
to solve ( Dữ liệu sạch là dữ liệu đầy đủ, chính xác và có liên quan đến vấn đề đang được giải
quyết).
Khi bạn làm việc với dữ liệu sạch, bạn sẽ thấy rằng các dự án của mình diễn ra suôn sẻ
hơn nhiều. Tôi nhớ lần đầu tiên tôi tận mắt chứng kiến tầm quan trọng của dữ liệu sạch. Tôi
mới bắt đầu sử dụng SQL và tôi nghĩ nó hoạt động như một phép màu. Tôi có thể yêu cầu máy
tính tổng hợp hàng triệu con số, giúp tôi tiết kiệm rất nhiều thời gian và công sức. Nhưng tôi
nhanh chóng phát hiện ra rằng nó chỉ hoạt động khi dữ liệu sạch. Nếu thậm chí có một chữ cái
ngẫu nhiên trong một cột lẽ ra chỉ có số, máy tính sẽ không biết phải làm gì. Vì vậy, nó sẽ báo
lỗi và đột nhiên, tôi bị mắc kẹt. Và không đời nào tôi có thể cộng hàng triệu con số một mình.
Vì vậy, tôi phải xóa dữ liệu đó để làm cho nó hoạt động.
Tin tốt là có rất nhiều quy trình và công cụ hiệu quả giúp bạn làm điều đó. Sắp tới, bạn
sẽ đạt được các kỹ năng và kiến thức cần thiết để đảm bảo dữ liệu bạn làm việc luôn sạch sẽ.
Đồng thời, chúng ta sẽ tìm hiểu sâu hơn về sự khác biệt giữa dữ liệu sạch và dữ liệu bẩn và tại
sao dữ liệu sạch lại quan trọng đến vậy. Chúng tôi cũng sẽ nói về các cách khác nhau để làm
sạch dữ liệu của bạn và các vấn đề phổ biến cần tìm trong quá trình này. Sẵn sàng để bắt đầu?
Hãy làm nó.
Tại sao làm sạch dữ liệu lại quan trọng
Dữ liệu sạch là vô cùng quan trọng để phân tích hiệu quả. Nếu một phần dữ liệu được
nhập vào bảng tính hoặc cơ sở dữ liệu không chính xác hoặc nếu nó bị lặp lại hoặc nếu một
trường bị bỏ trống hoặc nếu định dạng dữ liệu không nhất quán thì kết quả là dữ liệu bẩn.
Những sai lầm nhỏ có thể dẫn đến hậu quả lớn về lâu dài.
Tôi sẽ hoàn toàn trung thực với bạn, làm sạch dữ liệu giống như đánh răng của bạn. Đó
là điều bạn nên làm và làm đúng cách vì nếu không nó có thể gây ra những vấn đề nghiêm
trọng. Đối với răng, đó có thể là sâu răng hoặc bệnh nướu răng. Đối với dữ liệu, điều đó có
thể khiến công ty của bạn mất tiền hoặc một ông chủ tức giận.
Nhưng đây là tin tốt. Nếu bạn tiếp tục đánh răng hai lần một ngày, mỗi ngày, nó sẽ trở
thành một thói quen. Ngay sau đó, bạn thậm chí không cần phải suy nghĩ về nó. Nó giống với
dữ liệu. Tin tôi đi, nó sẽ khiến bạn trông thật tuyệt khi bạn dành thời gian để dọn sạch dữ liệu
bẩn đó.
Nhắc lại nhanh, dữ liệu bẩn không đầy đủ, không chính xác hoặc không liên quan đến
vấn đề bạn đang cố gắng giải quyết. Nó không thể được sử dụng một cách có ý nghĩa, điều
này làm cho việc phân tích trở nên rất khó khăn, nếu không muốn nói là không thể. Mặt khác,
dữ liệu sạch là đầy đủ, chính xác và có liên quan đến vấn đề bạn đang cố gắng giải quyết. Điều
này cho phép bạn hiểu và phân tích thông tin cũng như xác định các mẫu quan trọng, kết nối
thông tin liên quan và rút ra kết luận hữu ích. Sau đó, bạn có thể áp dụng những điều học được
để đưa ra những quyết định hiệu quả.
Trong một số trường hợp, bạn sẽ không phải thực hiện nhiều thao tác để xóa dữ liệu.
Ví dụ: khi bạn sử dụng dữ liệu nội bộ đã được các kỹ sư dữ liệu và nhóm kho dữ liệu của công
ty bạn xác minh và chăm sóc, thì dữ liệu đó có nhiều khả năng là sạch.
Hãy nói về một số người mà bạn sẽ làm việc cùng với tư cách là nhà phân tích dữ liệu.
Data engineers Tranform data into a useful format for analysis and give it a reliable
infrastructure ( Kỹ sư dữ liệu là Một chuyên gia chuyển đổi dữ liệu thành một định dạng hữu
ích để phân tích và cung cấp cho nó một cơ sở hạ tầng đáng tin cậy).
Điều này có nghĩa là họ phát triển, duy trì và thử nghiệm cơ sở dữ liệu, bộ xử lý dữ
liệu và các hệ thống liên quan. Data warehousing specialists is Develop processes and
procedures to effectively store and organize data (Chuyên viên quản lý kho dữ liệu là Một
chuyên gia phát triển các quy trình và thủ tục để lưu trữ và tổ chức dữ liệu một cách có hiệu
quả). Họ đảm bảo rằng dữ liệu có sẵn, an toàn và được sao lưu để tránh mất mát.
Khi trở thành nhà phân tích dữ liệu, bạn có thể học được nhiều điều bằng cách làm việc
với người duy trì cơ sở dữ liệu của bạn để tìm hiểu về hệ thống của họ.
Nếu trước tiên, dữ liệu được chuyển qua tay của kỹ sư dữ liệu hoặc chuyên gia kho dữ
liệu, thì bạn biết rằng dự án của mình đang có một khởi đầu thuận lợi. Có rất nhiều cơ hội
nghề nghiệp tuyệt vời với tư cách là kỹ sư dữ liệu hoặc chuyên gia kho dữ liệu. Nếu loại công
việc này nghe có vẻ thú vị với bạn, có thể con đường sự nghiệp của bạn sẽ liên quan đến việc
giúp các tổ chức tiết kiệm nhiều thời gian, công sức và tiền bạc bằng cách đảm bảo dữ liệu
của họ sạch sẽ.
Nhưng ngay cả khi bạn đi theo một hướng khác với sự nghiệp phân tích dữ liệu của
mình và có lợi thế khi làm việc với các kỹ sư dữ liệu và chuyên gia kho bãi, bạn vẫn có khả
năng phải làm sạch dữ liệu của chính mình. Điều quan trọng cần nhớ là: không có bộ dữ liệu
nào là hoàn hảo.
Bạn luôn nên kiểm tra và làm sạch dữ liệu trước khi bắt đầu phân tích. Đây là một ví
dụ. Giả sử bạn đang thực hiện một dự án mà bạn cần tính xem có bao nhiêu người sử dụng
chương trình phần mềm của công ty bạn. Bạn có một bảng tính được tạo nội bộ và được xác
minh bởi kỹ sư dữ liệu và chuyên gia kho dữ liệu. Kiểm tra cột có nhãn "Tên người dùng". Có
vẻ hợp lý khi bạn chỉ cần cuộn xuống và đếm các hàng để biết bạn có bao nhiêu người dùng.
Nhưng điều đó sẽ không hiệu quả vì đôi khi một người có nhiều tên người dùng. Có thể họ đã
đăng ký từ các địa chỉ email khác nhau hoặc có thể họ có tài khoản cá nhân và công việc.
Trong những tình huống như thế này, bạn sẽ cần xóa dữ liệu bằng cách loại bỏ mọi
hàng trùng lặp. Khi bạn đã hoàn thành việc đó, sẽ không có bất kỳ mục trùng lặp nào nữa. Sau
đó, bảng tính của bạn đã sẵn sàng để hoạt động.
Cho đến nay chúng tôi đã thảo luận về làm việc với dữ liệu nội bộ. Nhưng việc làm
sạch dữ liệu càng trở nên quan trọng hơn khi làm việc với dữ liệu bên ngoài, đặc biệt nếu dữ
liệu đó đến từ nhiều nguồn. Giả sử công ty phần mềm trong ví dụ của chúng tôi đã khảo sát
khách hàng của họ để tìm hiểu mức độ hài lòng của họ với sản phẩm phần mềm của họ. Nhưng
khi bạn xem lại dữ liệu khảo sát, bạn thấy rằng bạn có một số điểm không. Giá trị null là dấu
hiệu cho thấy giá trị không tồn tại trong tập dữ liệu. Lưu ý rằng nó không giống như số không.
Trong trường hợp khảo sát, giá trị rỗng có nghĩa là khách hàng đã bỏ qua câu hỏi đó.
Số không có nghĩa là họ cung cấp số không làm phản hồi của họ. Để thực hiện phân tích của
mình, trước tiên bạn cần làm sạch dữ liệu này. Bước một sẽ là quyết định phải làm gì với
những giá trị rỗng đó. Bạn có thể lọc chúng ra và thông báo rằng bạn hiện có cỡ mẫu nhỏ hơn
hoặc bạn có thể giữ chúng lại và học hỏi từ thực tế là khách hàng không đưa ra phản hồi. Có
rất nhiều lý do tại sao điều này có thể xảy ra. Có thể câu hỏi khảo sát của bạn không được viết
tốt nhất có thể. Có thể chúng gây nhầm lẫn hoặc thiên vị, điều mà chúng ta đã biết trước đó.
Chúng tôi đã đề cập đến những điều cơ bản về làm sạch dữ liệu bên trong và bên ngoài,
nhưng còn nhiều điều nữa sắp tới. Chúng ta sẽ sớm tìm hiểu về các lỗi phổ biến cần lưu ý để
đảm bảo dữ liệu của bạn hoàn chỉnh, chính xác và có liên quan. Hẹn sớm gặp lại!
Nhận biết và khắc phục dữ liệu bẩn
Xin chào Trong video này, chúng tôi sẽ tập trung vào các vấn đề phổ biến liên quan
đến dữ liệu bẩn. Chúng bao gồm lỗi chính tả và các văn bản khác, nhãn, định dạng và làn
đường trường không nhất quán, dữ liệu bị thiếu và trùng lặp. Điều này sẽ giúp bạn nhận ra
vấn đề nhanh hơn và cung cấp cho bạn thông tin cần thiết để khắc phục chúng khi bạn gặp sự
cố tương tự trong quá trình phân tích của riêng mình.
Điều này cực kỳ quan trọng trong phân tích dữ liệu. Hãy quay trở lại bảng tính của văn
phòng luật của chúng ta. Để ôn lại nhanh, chúng ta sẽ bắt đầu bằng cách kiểm tra các loại dữ
liệu bẩn khác nhau mà nó hiển thị.
Đôi khi, ai đó có thể nhập sai một phần dữ liệu. Những lần khác, chúng có thể không
giữ các định dạng dữ liệu nhất quán. Việc để trống một trường cũng là điều bình thường. Đó
cũng được gọi là null, mà chúng ta đã học trước đó. Nếu ai đó thêm cùng một phần dữ liệu
nhiều lần, điều đó sẽ tạo ra một bản sao. Hãy chia nhỏ nó ra. Sau đó, chúng ta sẽ tìm hiểu về
một số loại dữ liệu bẩn khác và các chiến lược để làm sạch dữ liệu đó.
Lỗi chính tả, biến thể chính tả, chữ viết lẫn lộn, dấu chấm câu không nhất quán và lỗi
chính tả nói chung xảy ra khi ai đó nhập sai một phần dữ liệu. Là một nhà phân tích dữ liệu,
bạn cũng sẽ xử lý các loại tiền tệ khác nhau. Ví dụ: một tập dữ liệu có thể bằng đô la Mỹ và
một tập dữ liệu khác bằng euro và bạn không muốn chúng bị lẫn lộn.
Chúng tôi muốn tìm những loại lỗi này và sửa chúng như thế này. Bạn sẽ tìm hiểu thêm
về điều này sớm. Dữ liệu sạch phụ thuộc phần lớn vào các quy tắc toàn vẹn dữ liệu mà một tổ
chức tuân theo, chẳng hạn như nguyên tắc chính tả và chấm câu. Ví dụ: một công ty nước giải
khát có thể yêu cầu mọi người làm việc trong cơ sở dữ liệu của mình nhập dữ liệu về thể tích
tính bằng ounce chất lỏng thay vì cốc. Thật tuyệt khi một tổ chức có các quy tắc như thế này.
Nó thực sự giúp giảm thiểu khối lượng dữ liệu cần làm sạch nhưng không thể loại bỏ hoàn
toàn. Giống như chúng ta đã thảo luận trước đó, luôn có khả năng xảy ra lỗi do con người.
Loại dữ liệu bẩn tiếp theo mà bảng tính của chúng tôi hiển thị là định dạng không nhất
quán. Trong ví dụ này, thứ gì đó nên được định dạng là tiền tệ được hiển thị dưới dạng phần
trăm. Cho đến khi lỗi này được khắc phục, như thế này, văn phòng luật sẽ không biết khách
hàng này đã trả bao nhiêu tiền cho các dịch vụ của họ.
Chúng ta sẽ sớm tìm hiểu về các cách khác nhau để giải quyết vấn đề này và nhiều vấn
đề khác. Trước đây chúng ta đã thảo luận về null, nhưng xin nhắc lại, null là các trường trống.
Loại dữ liệu bẩn này đòi hỏi nhiều công việc hơn là chỉ sửa lỗi chính tả hoặc thay đổi định
dạng.
Trong ví dụ này, các nhà phân tích dữ liệu sẽ cần nghiên cứu khách hàng nào đã tư vấn
vào ngày 4 tháng 7 năm 2020. Sau đó, khi họ tìm thấy thông tin chính xác, họ phải thêm thông
tin đó vào bảng tính.
Một loại dữ liệu bẩn phổ biến khác là trùng lặp. Có thể hai người khác đã thêm cuộc
hẹn này vào ngày 13 tháng 8 mà không nhận ra rằng người khác đã thực hiện việc đó hoặc có
thể người nhập dữ liệu đã vô tình nhấn sao chép và dán. Dù lý do là gì, công việc của nhà phân
tích dữ liệu là xác định lỗi này và sửa nó bằng cách xóa một trong các bản sao.
Bây giờ, hãy tiếp tục với một số loại dữ liệu bẩn khác. Việc đầu tiên phải làm với ghi
nhãn. Để hiểu cách ghi nhãn, hãy tưởng tượng bạn đang cố gắng để máy tính xác định chính
xác gấu panda trong số các hình ảnh của tất cả các loại động vật khác nhau. Bạn cần cho máy
tính xem hàng nghìn hình ảnh gấu panda. Tất cả chúng đều được dán nhãn là gấu panda. Bất
kỳ hình ảnh nào được dán nhãn không chính xác, chẳng hạn như hình ảnh ở đây chỉ là con
gấu, sẽ gây ra vấn đề.
Loại dữ liệu bẩn tiếp theo có độ dài trường không nhất quán. Trước đó, bạn đã biết
rằng một trường là một phần thông tin duy nhất từ một hàng hoặc cột của bảng tính. Độ dài
trường là một công cụ để xác định có thể nhập bao nhiêu ký tự vào một trường. Chỉ định độ
dài nhất định cho các trường trong bảng tính của bạn là một cách tuyệt vời để tránh lỗi.
Ví dụ: nếu bạn có một cột cho năm sinh của ai đó, bạn biết độ dài của trường là bốn vì
tất cả các năm đều có bốn chữ số. Một số ứng dụng bảng tính có một cách đơn giản để chỉ
định độ dài của trường và đảm bảo người dùng chỉ có thể nhập một số ký tự nhất định vào một
trường. Đây là một phần của xác thực dữ liệu. Xác thực dữ liệu là một công cụ để kiểm tra
tính chính xác và chất lượng của dữ liệu trước khi thêm hoặc nhập dữ liệu. Xác thực dữ liệu
là một hình thức làm sạch dữ liệu mà bạn sẽ sớm tìm hiểu thêm.
Nhưng trước tiên, bạn sẽ làm quen với nhiều kỹ thuật hơn để làm sạch dữ liệu. Đây là
một phần rất quan trọng của công việc phân tích dữ liệu. Tôi mong được chia sẻ những chiến
lược làm sạch dữ liệu này với bạn.
Chương 2: Bắt đầu làm sạch dữ liệu
Công cụ và kỹ thuật làm sạch dữ liệu
Xin chào. Bây giờ bạn đã quen thuộc với một số loại dữ liệu bẩn phổ biến nhất, đã đến lúc
dọn sạch chúng. Như bạn đã biết, dữ liệu sạch là điều cần thiết để đảm bảo tính toàn vẹn của
dữ liệu cũng như các giải pháp và quyết định đáng tin cậy.
Tin vui là bảng tính có tất cả các loại công cụ mà bạn có thể sử dụng để chuẩn bị sẵn
dữ liệu cho việc phân tích. Các kỹ thuật làm sạch dữ liệu sẽ khác nhau tùy thuộc vào tập dữ
liệu cụ thể mà bạn đang làm việc. Vì vậy, chúng tôi sẽ không đề cập đến mọi thứ bạn có thể
gặp phải, nhưng điều này sẽ cung cấp cho bạn một điểm khởi đầu tuyệt vời để khắc phục các
loại dữ liệu bẩn mà các nhà phân tích tìm thấy thường xuyên nhất.
Hãy coi mọi thứ sắp diễn ra như một đoạn giới thiệu giới thiệu về các công cụ làm sạch
dữ liệu. Tôi sẽ cung cấp cho bạn một cái nhìn tổng quan cơ bản về một số công cụ và kỹ thuật
phổ biến, sau đó chúng ta sẽ thực hành lại chúng sau. Tại đây, chúng ta sẽ thảo luận về cách
xóa dữ liệu không mong muốn, làm sạch văn bản để loại bỏ các khoảng trắng và khoảng trắng
thừa, sửa lỗi chính tả và làm cho định dạng nhất quán.
Tuy nhiên, trước khi xóa dữ liệu không mong muốn, bạn nên tạo một bản sao của tập
dữ liệu. Bằng cách đó, nếu bạn xóa thứ gì đó mà bạn sẽ cần trong tương lai, bạn có thể dễ dàng
truy cập và đưa nó trở lại tập dữ liệu. Khi đã xong, bạn có thể tiếp tục loại bỏ các dữ liệu trùng
lặp hoặc dữ liệu không liên quan đến vấn đề mà bạn đang cố gắng giải quyết. Thông thường,
các bản sao xuất hiện khi bạn kết hợp các tập dữ liệu từ nhiều nguồn hoặc sử dụng dữ liệu từ
nhiều bộ phận trong cùng một doanh nghiệp.
Bạn đã học được một chút về các bản trùng lặp, nhưng bây giờ chúng ta hãy thực hành
loại bỏ chúng một lần nữa bằng cách sử dụng bảng tính liệt kê các thành viên của hiệp hội hậu
cần chuyên nghiệp này. Bản sao có thể là một vấn đề lớn đối với các nhà phân tích dữ liệu. Vì
vậy, điều thực sự quan trọng là bạn có thể tìm và loại bỏ chúng trước khi bất kỳ phân tích nào
bắt đầu.
Đây là một ví dụ về những gì tôi đang nói. Giả sử hiệp hội này có các bản sao về tư
cách thành viên trị giá 500 đô la của một người trong cơ sở dữ liệu của hiệp hội. Khi dữ liệu
được tóm tắt, nhà phân tích sẽ nghĩ rằng thành viên này đã trả 1.000 đô la và sẽ đưa ra quyết
định dựa trên dữ liệu không chính xác đó. Nhưng trên thực tế, thành viên này chỉ trả 500 USD.
Những sự cố này có thể được khắc phục theo cách thủ công nhưng hầu hết các ứng dụng bảng
tính cũng cung cấp nhiều công cụ giúp bạn tìm và loại bỏ các bản sao.
Bây giờ, dữ liệu không liên quan, tức là dữ liệu không phù hợp với vấn đề cụ thể mà
bạn đang cố gắng giải quyết, cũng cần phải bị xóa. Quay trở lại ví dụ về danh sách thành viên
hiệp hội của chúng tôi, giả sử một nhà phân tích dữ liệu đang làm việc trong một dự án chỉ tập
trung vào các thành viên hiện tại. Họ sẽ không muốn bao gồm thông tin về những người không
còn là thành viên, hoặc những người chưa bao giờ tham gia ngay từ đầu. Việc xóa dữ liệu
không liên quan sẽ tốn thêm một chút thời gian và công sức vì bạn phải tìm ra sự khác biệt
giữa dữ liệu bạn cần và dữ liệu bạn không cần. Nhưng tin tôi đi, đưa ra những quyết định đó
sẽ giúp bạn tiết kiệm rất nhiều nỗ lực trong tương lai.
Bước tiếp theo là loại bỏ các khoảng trắng và khoảng trống thừa. Khoảng trắng thừa có
thể gây ra kết quả không mong muốn khi bạn sắp xếp, lọc hoặc tìm kiếm trong dữ liệu của
mình. Và bởi vì những ký tự này rất dễ bỏ sót, chúng có thể dẫn đến những kết quả không
mong muốn và khó hiểu.
Ví dụ: nếu có thêm khoảng trắng và trong số ID thành viên, khi bạn sắp xếp cột từ thấp
nhất đến cao nhất, hàng này sẽ không đúng chỗ. Để xóa các khoảng trắng hoặc ô trống không
mong muốn này, bạn có thể tự xóa chúng. Hoặc một lần nữa, bạn có thể dựa vào bảng tính
của mình, bảng tính này cung cấp nhiều chức năng tuyệt vời để tự động xóa dấu cách hoặc
khoảng trống.
Bước làm sạch dữ liệu tiếp theo liên quan đến việc sửa lỗi chính tả, viết hoa không nhất
quán, chấm câu sai và các lỗi chính tả khác. Những loại lỗi này có thể dẫn đến một số vấn đề
lớn. Giả sử bạn có cơ sở dữ liệu email mà bạn sử dụng để giữ liên lạc với khách hàng của
mình. Nếu một số email có lỗi chính tả, dấu chấm ở sai vị trí hoặc bất kỳ loại lỗi đánh máy
nào khác, bạn không chỉ có nguy cơ gửi email đến nhầm người mà còn có nguy cơ gửi thư rác
cho những người ngẫu nhiên.
Hãy nghĩ lại về ví dụ thành viên hiệp hội của chúng tôi. Lỗi chính tả có thể khiến nhà
phân tích dữ liệu tính sai số lượng thành viên chuyên nghiệp nếu họ sắp xếp loại thành viên
này rồi đếm số hàng. Giống như các sự cố khác mà bạn gặp phải, bạn cũng có thể khắc phục
các sự cố này theo cách thủ công. Hoặc bạn có thể sử dụng các công cụ bảng tính, chẳng hạn
như kiểm tra chính tả, tự động sửa lỗi và định dạng có điều kiện để giúp cuộc sống của bạn dễ
dàng hơn. Ngoài ra còn có các cách dễ dàng để chuyển đổi văn bản thành chữ thường, chữ
hoa hoặc trường hợp thích hợp, đây là một trong những điều chúng ta sẽ kiểm tra lại sau.
Được rồi, chúng ta đang đến đó. Bước tiếp theo là xóa định dạng. Điều này đặc biệt
quan trọng khi bạn lấy dữ liệu từ nhiều nguồn khác nhau. Mọi cơ sở dữ liệu đều có định dạng
riêng, điều này có thể khiến dữ liệu có vẻ không nhất quán. Tạo giao diện trực quan rõ ràng
và nhất quán cho bảng tính của bạn sẽ giúp làm cho bảng tính trở thành công cụ có giá trị cho
bạn và nhóm của bạn khi đưa ra các quyết định quan trọng. Hầu hết các ứng dụng bảng tính
cũng có công cụ "xóa định dạng", đây là một công cụ tiết kiệm thời gian tuyệt vời.
Làm sạch dữ liệu là một bước thiết yếu để tăng chất lượng dữ liệu của bạn. Bây giờ
bạn biết rất nhiều cách khác nhau để làm điều đó. Trong video tiếp theo, bạn sẽ tiếp tục nâng
cao kiến thức đó và tìm hiểu cách làm sạch dữ liệu đến từ nhiều nguồn.
Làm sạch dữ liệu từ nhiều nguồn
Chào mừng trở lại. Cho đến nay, bạn đã học được nhiều điều về dữ liệu bẩn và cách
dọn dẹp các lỗi phổ biến nhất trong tập dữ liệu. Bây giờ chúng ta sẽ tiến thêm một bước nữa
và nói về việc dọn dẹp nhiều bộ dữ liệu.
Làm sạch dữ liệu đến từ hai hoặc nhiều nguồn là điều rất phổ biến đối với các nhà
phân tích dữ liệu, nhưng nó đi kèm với một số thách thức thú vị. Một ví dụ điển hình là sáp
nhập, Merger is An agreement that unites two organizations into a single new one (Sự hợp
nhất là một thỏa thuận hợp nhất hai thành phần và trở thành một thành phần mới).
Trong lĩnh vực logistics, gần đây có nhiều thay đổi lớn, chủ yếu là do sự bùng nổ của
thương mại điện tử. Với rất nhiều người mua sắm trực tuyến, điều hợp lý là các công ty chịu
trách nhiệm giao những sản phẩm đó đến tận nhà của họ đang ở giữa một cuộc cải tổ lớn. Khi
những sự kiện lớn xảy ra trong một ngành, thông thường hai tổ chức sẽ hợp tác và trở nên
mạnh mẽ hơn thông qua việc sáp nhập. Hãy nói về việc điều đó sẽ ảnh hưởng đến hiệp hội
hậu cần của chúng ta như thế nào.
Xin nhắc lại, bảng tính này liệt kê số ID thành viên hiệp hội, họ và tên, địa chỉ, số tiền
mỗi thành viên trả phí, thời điểm tư cách thành viên hết hạn và các loại thành viên. Bây giờ,
hãy nghĩ xem điều gì sẽ xảy ra nếu Hiệp hội Hậu cần Quốc tế quyết định kết hợp với Hiệp hội
Hậu cần Toàn cầu để giúp các thành viên của họ giải quyết những nhu cầu đáng kinh ngạc của
thương mại điện tử.
Đầu tiên, tất cả dữ liệu từ mỗi tổ chức sẽ cần được kết hợp bằng cách sử dụng hợp nhất
dữ liệu. Data merging is The process of combining two or more datasets into a single dataset
(Hợp nhất dữ liệu là quá trình hợp nhất hai hoặc nhiều tập dữ liệu thành một tập dữ liệu duy
nhất).
Đây là một thách thức đặc biệt bởi vì khi kết hợp hai bộ dữ liệu hoàn toàn khác nhau,
thông tin gần như được đảm bảo là không nhất quán và sai lệch. Ví dụ: bảng tính của Hiệp hội
Hậu cần Toàn cầu có một cột riêng cho số dãy phòng, căn hộ hoặc đơn vị của một người,
nhưng Hiệp hội Hậu cần Quốc tế kết hợp thông tin đó với địa chỉ đường phố của họ. Điều này
cần phải được sửa chữa để làm cho số cột địa chỉ nhất quán. Tiếp theo, hãy xem cách Hiệp
hội Hậu cần Toàn cầu sử dụng địa chỉ email của mọi người làm ID thành viên của họ, trong
khi Hiệp hội Hậu cần Quốc tế sử dụng số. Đây là một vấn đề lớn vì những người trong một
ngành nhất định, chẳng hạn như hậu cần, thường tham gia nhiều hiệp hội nghề nghiệp.
Rất có khả năng những bộ dữ liệu này bao gồm thông tin thành viên của cùng một
người, chỉ là theo những cách khác nhau. Điều cực kỳ quan trọng là loại bỏ những bản sao đó.
Ngoài ra, Hiệp hội Hậu cần Toàn cầu có nhiều loại thành viên hơn các tổ chức khác.
Trên hết, nó sử dụng một thuật ngữ, "Chuyên gia trẻ tuổi" thay vì "Cộng tác viên sinh viên".
Nhưng cả hai đều mô tả các thành viên vẫn đang đi học hoặc mới bắt đầu sự nghiệp.
Nếu đang hợp nhất hai bộ dữ liệu này, thì bạn cần làm việc với nhóm của mình để khắc
phục sự thật là hai liên kết mô tả tư cách thành viên rất khác nhau.
Bây giờ bạn đã hiểu tại sao việc hợp nhất các tổ chức cũng yêu cầu hợp nhất dữ liệu và
điều đó có thể phức tạp. Nhưng có rất nhiều lý do khác khiến các nhà phân tích dữ liệu hợp
nhất các bộ dữ liệu. Ví dụ: ở một trong những công việc trước đây của tôi, tôi đã hợp nhất rất
nhiều dữ liệu từ nhiều nguồn để có được thông tin chi tiết về việc mua hàng của khách hàng.
Những loại thông tin chi tiết mà tôi có được đã giúp tôi xác định các kiểu mua hàng của khách
hàng.
Khi hợp nhất các bộ dữ liệu, tôi luôn bắt đầu bằng cách tự hỏi mình một số câu hỏi
chính để giúp tôi tránh dư thừa và để xác nhận rằng các bộ dữ liệu tương thích. Trong phân
tích dữ liệu, Compatibility is How well two or more datasets are able to work together (Tính
tương thích là Mức độ hai hoặc nhiều tập dữ liệu có thể hoặt động cùng nhau tốt thế nào).
Câu hỏi đầu tiên tôi sẽ hỏi là, tôi có tất cả dữ liệu tôi cần không? Để thu thập thông
tin chi tiết về hoạt động mua hàng của khách hàng, tôi muốn đảm bảo rằng mình có dữ liệu về
khách hàng, giao dịch mua hàng của họ và nơi họ mua sắm. Tiếp theo, tôi sẽ hỏi, dữ liệu tôi
cần có tồn tại trong các bộ dữ liệu này không? Như bạn đã học trước đó trong chương trình
này, điều này liên quan đến việc xem xét toàn bộ tập dữ liệu một cách phân tích. Xem qua dữ
liệu trước khi bắt đầu sử dụng cho phép tôi cảm nhận được nội dung của nó, sơ đồ trông như
thế nào, liệu nó có liên quan đến thông tin chi tiết về hành vi mua hàng của khách hàng của
tôi hay không và liệu đó có phải là dữ liệu sạch hay không.
Điều đó đưa tôi đến câu hỏi tiếp theo. Các bộ dữ liệu có cần được làm sạch hay
chúng đã sẵn sàng để tôi sử dụng không? Bởi vì tôi đang làm việc với nhiều nguồn, nên tôi
cũng sẽ tự hỏi mình, các bộ dữ liệu có được làm sạch theo cùng một tiêu chuẩn không?
Ví dụ, những trường nào được lặp lại thường xuyên? Các giá trị bị thiếu được xử lý
như thế nào? Dữ liệu được cập nhật gần đây như thế nào? Tìm câu trả lời cho những câu hỏi
này và hiểu liệu tôi có cần khắc phục bất kỳ sự cố nào khi bắt đầu dự án hay không là một
bước rất quan trọng trong quá trình hợp nhất dữ liệu.
Trong cả hai ví dụ chúng tôi khám phá ở đây, các nhà phân tích dữ liệu có thể sử dụng
công cụ bảng tính hoặc truy vấn SQL để dọn dẹp, hợp nhất và chuẩn bị bộ dữ liệu để phân
tích. Tùy thuộc vào công cụ bạn quyết định sử dụng, quy trình dọn dẹp có thể đơn giản hoặc
rất phức tạp. Chẳng mấy chốc, bạn sẽ học cách đưa ra lựa chọn tốt nhất cho tình huống của
mình. Lưu ý cuối cùng, các ngôn ngữ lập trình như R cũng rất hữu ích để làm sạch dữ liệu.
Bạn sẽ tìm hiểu thêm về cách sử dụng R và các khái niệm khác mà chúng tôi sẽ sớm đề cập.
Chương 3: Làm sạch dữ liệu trong bảng tính
Các tính năng làm sạch dữ liệu trong bảng tính
Chào bạn lần nữa nhé. Như bạn đã biết trước đó, có rất nhiều cách khác nhau để dọn
dẹp dữ liệu. Tôi đã chỉ cho bạn một số ví dụ về cách bạn có thể xóa dữ liệu theo cách thủ công,
chẳng hạn như tìm kiếm và sửa lỗi chính tả hoặc xóa khoảng trống và trùng lặp.
Chúng tôi cũng biết được rằng rất nhiều ứng dụng bảng tính có các công cụ giúp đơn
giản hóa và tăng tốc quá trình làm sạch dữ liệu. Có rất nhiều công cụ hiệu quả tuyệt vời mà
các nhà phân tích dữ liệu luôn sử dụng, chẳng hạn như định dạng có điều kiện, loại bỏ trùng
lặp, định dạng ngày, sửa chuỗi văn bản và chuỗi con cũng như tách văn bản thành cột. Bây
giờ chúng ta sẽ khám phá những điều đó chi tiết hơn.
Đầu tiên là cái gọi là định dạng có điều kiện. Conditional formatting is A spreadsheet
tool that changes how cells appear when values meet specific conditions (Định dạng có điều
kiện là Công cụ bảng tính thay đổi cách các ô xuất hiện khi các giá trị trong ô đáp ứng các
điều kiện cụ thể).
Tương tự như vậy, nó có thể cho bạn biết khi một ô không đáp ứng các điều kiện bạn
đã đặt. Các tín hiệu trực quan như thế này rất hữu ích cho các nhà phân tích dữ liệu, đặc biệt
là khi chúng ta đang làm việc trong một bảng tính lớn có nhiều dữ liệu. Làm nổi bật các điểm
dữ liệu nhất định giúp thông tin dễ hiểu và dễ phân tích hơn. Để làm sạch dữ liệu, biết khi nào
dữ liệu không tuân theo điều kiện là rất hữu ích.
Hãy quay lại bảng tính hiệp hội hậu cần để kiểm tra hoạt động của định dạng có điều
kiện. Chúng tôi sẽ sử dụng định dạng có điều kiện để tô sáng các ô trống. Bằng cách đó, chúng
tôi biết nơi thiếu thông tin để có thể thêm thông tin đó vào bảng tính. Để làm điều này, chúng
tôi sẽ bắt đầu bằng cách chọn phạm vi mà chúng tôi muốn tìm kiếm. Đối với ví dụ này, chúng
tôi không tập trung vào địa chỉ 3 và địa chỉ 5. Các trường sẽ bao gồm tất cả các cột trong bảng
tính của chúng tôi, ngoại trừ F và H.
Tiếp theo, chúng ta sẽ đi đến Định dạng và chọn Định dạng có điều kiện. Tuyệt vời.
Phạm vi của chúng tôi được tự động chỉ định trong trường. Quy tắc định dạng sẽ là định dạng
ô nếu ô trống. Cuối cùng, chúng ta sẽ chọn kiểu định dạng. Tôi sẽ chọn một màu hồng sáng,
để những khoảng trống của tôi thực sự nổi bật. Sau đó nhấp vào "Xong" và các ô trống sẽ
được tô sáng ngay lập tức.
Công cụ bảng tính tiếp theo sẽ loại bỏ các bản sao. Như bạn đã biết trước đây, việc tạo
một bản sao của tập dữ liệu trước khi xóa bất kỳ thứ gì luôn là điều khôn ngoan. Hãy làm điều
đó ngay bây giờ. Tuyệt, bây giờ chúng ta có thể tiếp tục. Bạn có thể nhớ rằng bảng tính ví dụ
của chúng tôi có một thành viên hiệp hội được liệt kê hai lần. Để khắc phục điều đó, hãy
chuyển đến Dữ liệu và chọn "Xóa các mục trùng lặp".
"Xóa các mục trùng lặp" là một công cụ tự động tìm kiếm và loại bỏ các mục nhập
trùng lặp khỏi bảng tính. Chọn "Dữ liệu có hàng tiêu đề" vì bảng tính của chúng ta có một
hàng ở trên cùng mô tả nội dung của từng cột. Tiếp theo, chọn "Tất cả" vì chúng tôi muốn
kiểm tra toàn bộ bảng tính của mình. Cuối cùng, "Xóa các mục trùng lặp." Bạn sẽ nhận thấy
hàng trùng lặp đã được tìm thấy và bị xóa ngay lập tức.
Một công cụ bảng tính hữu ích khác cho phép bạn tạo các định dạng nhất quán. Ví dụ:
một số ngày trong bảng tính này ở định dạng ngày chuẩn. Điều này có thể gây nhầm lẫn nếu
bạn muốn phân tích thời điểm các thành viên hiệp hội tham gia, tần suất họ gia hạn tư cách
thành viên hoặc họ đã tham gia hiệp hội được bao lâu. Để làm cho tất cả các ngày của chúng
tôi nhất quán, trước tiên hãy chọn cột J, sau đó chuyển đến "Định dạng", chọn "Số", sau đó
chọn "Ngày". Bây giờ tất cả các ngày của chúng tôi có một định dạng nhất quán.
Trước khi chúng ta chuyển sang công cụ tiếp theo, tôi muốn giải thích chuỗi văn bản
là gì. Trong phân tích dữ liệu, chuỗi văn bản là một nhóm ký tự trong một ô, thường bao gồm
các chữ cái. Một đặc điểm quan trọng của chuỗi văn bản là độ dài của nó, là số lượng ký tự
trong đó. Bạn sẽ tìm hiểu thêm về điều đó sớm. Hiện tại, cũng rất hữu ích khi biết rằng một
chuỗi con là một tập hợp con nhỏ hơn của một chuỗi văn bản.
Bây giờ hãy nói về Split. Split là một công cụ chia chuỗi văn bản xung quanh ký tự đã
chỉ định và đặt từng đoạn vào một ô mới và riêng biệt. Tách rất hữu ích khi bạn có nhiều phần
dữ liệu trong một ô và bạn muốn tách chúng ra. Đây có thể là tên và họ của một người được
liệt kê cùng nhau hoặc có thể là một ô chứa thành phố, tiểu bang, quốc gia và mã zip của ai
đó, nhưng bạn thực sự muốn mỗi tên đó nằm trong cột riêng của mình.
Giả sử hiệp hội này muốn phân tích tất cả các chứng chỉ chuyên môn khác nhau mà các
thành viên của hiệp hội đã đạt được. Để làm điều này, bạn muốn tách từng chứng nhận thành
cột riêng. Ngay bây giờ, các chứng chỉ được phân tách bằng dấu phẩy. Đó là văn bản được chỉ
định phân tách từng mục, còn được gọi là dấu phân cách. Hãy tách chúng ra. Đánh dấu cột,
sau đó chọn "Dữ liệu" và "Chia văn bản thành cột". Ứng dụng bảng tính này tự động biết rằng
dấu phẩy là dấu phân cách và tách từng chứng nhận. Nhưng đôi khi bạn có thể cần chỉ định
dấu phân cách phải là gì.
Tách văn bản thành các cột cũng hữu ích để sửa các trường hợp số được lưu trữ dưới
dạng văn bản. Đôi khi các giá trị trong bảng tính của bạn trông giống như các con số, nhưng
chúng được định dạng dưới dạng văn bản. Điều này có thể xảy ra khi sao chép và dán từ nơi
này sang nơi khác hoặc nếu định dạng sai. Đối với ví dụ này, hãy xem bảng tính mới của
chúng tôi từ một nhà sản xuất mỹ phẩm.
Nếu một nhà phân tích dữ liệu muốn xác định tổng lợi nhuận, họ có thể cộng mọi thứ
vào cột F. Nhưng có một vấn đề; một trong các ô có lỗi. Nếu bạn kiểm tra nó, bạn sẽ biết rằng
"707" trong ô này là văn bản và không thể thay đổi thành số. Khi bảng tính cố gắng nhân giá
thành của sản phẩm với số lượng đơn vị đã bán, nó không thể thực hiện phép tính. Nhưng nếu
chúng ta chọn cột đơn hàng và chọn "Chia văn bản thành cột", lỗi sẽ được khắc phục vì bây
giờ nó có thể được coi là một số.
Sắp tới, bạn sẽ tìm hiểu về một công cụ có tác dụng ngược lại. Concatenate is A
function that joins multiple text strings into a single string ( Là một hàm bảng tính kết hợp hai
hoặc nhiều chuỗi với nhau).
Bảng tính là một phần rất quan trọng trong phân tích dữ liệu. Chúng tiết kiệm thời gian
và công sức của các nhà phân tích dữ liệu, đồng thời giúp chúng tôi loại bỏ lỗi mỗi ngày. Tại
đây, bạn đã tìm hiểu về một số công cụ phổ biến nhất mà chúng tôi sử dụng. Nhưng còn rất
nhiều điều nữa sẽ đến. Tiếp theo, chúng ta sẽ tìm hiểu thêm về cách làm sạch dữ liệu bằng các
công cụ bảng tính. Tạm biệt nhé!
Tối ưu hóa quy trình làm sạch dữ liệu
Chào mừng trở lại. Bạn đã biết về một số công cụ làm sạch dữ liệu rất hữu ích được
tích hợp ngay trong các ứng dụng bảng tính. Bây giờ chúng ta sẽ khám phá cách các chức
năng có thể tối ưu hóa nỗ lực của bạn để đảm bảo tính toàn vẹn của dữ liệu. Xin nhắc lại, hàm
là một tập hợp các hướng dẫn thực hiện một phép tính cụ thể bằng cách sử dụng dữ liệu trong
bảng tính.
Hàm đầu tiên chúng ta sẽ thảo luận được gọi là COUNTIF. COUNTIF is a function
that returns the number of cells that match a specified value ( COUNTIF là một hàm bảng tính
trả về số lượng ô trong một phạm vi khớp với một giá trị được chỉ định). Về cơ bản, nó đếm
số lần một giá trị xuất hiện trong một dải ô.
Hãy quay trở lại bảng tính hiệp hội nghề nghiệp của chúng tôi. Trong ví dụ này, chúng
tôi muốn đảm bảo giá thành viên hiệp hội được liệt kê chính xác. Chúng tôi sẽ sử dụng
COUNTIF để kiểm tra một số vấn đề phổ biến, chẳng hạn như số âm hoặc giá trị nhỏ hơn
nhiều hoặc lớn hơn nhiều so với dự kiến.
Để bắt đầu, hãy tìm tư cách thành viên ít tốn kém nhất: $100 cho hội sinh viên. Đó sẽ
là số thấp nhất tồn tại trong cột này. Nếu bất kỳ ô nào có giá trị nhỏ hơn 100, COUNTIF sẽ
thông báo cho chúng tôi. Chúng tôi sẽ thêm một vài hàng nữa ở cuối bảng tính của mình, sau
đó bên dưới cột H, nhập "thành viên phải trả ít hơn 100 đô la". Tiếp theo, nhập hàm vào ô bên
cạnh. Mỗi chức năng có một cú pháp nhất định cần được tuân theo để nó hoạt động.
Syntax is a predetermined structure that includes all required information and its proper
placement (Cú pháp là một cấu trúc được xác định trước bao gồm tất cả các thông tin cần thiết
và vị trí thích hợp của nó). Cú pháp của hàm COUNTIF phải như sau:
=COUNTIF(range,”value”) . Nó sẽ hiển thị như thế này:
=COUNTIF(I2:I72,”<100”) .Điều này cho biết hàm đi qua cột I và trả về số lượng tất cả các
ô chứa số nhỏ hơn 100. Hóa ra là có một ô! Cuộn qua dữ liệu của chúng tôi, chúng tôi thấy
rằng một phần dữ liệu đã bị nhập nhầm thành số âm. Hãy khắc phục điều đó ngay bây giờ.
Bây giờ, chúng tôi sẽ sử dụng COUNTIF để tìm kiếm bất kỳ giá trị nào nhiều hơn
chúng tôi mong đợi. Loại thành viên đắt nhất là 500 đô la cho các thành viên công ty. Nhập
chức năng trong ô. Lần này nó sẽ xuất hiện như thế này: =COUNTIF(I2:I72,”>500”) .Có một
cái ở đây nữa. Kiểm tra nó ra. Mục nhập này có thêm một số không. Nó phải là 100 đô la.
Chức năng tiếp theo chúng ta sẽ thảo luận được gọi là LEN. LEN is a function that tells
you the length of a text string by counting the number of characters it contains (LEN là Một
hàm trả về độ dài của một chuỗi văn bản bằng cách đếm số kí tự mà nó chứa).
Điều này hữu ích khi làm sạch dữ liệu nếu bạn có một phần thông tin nhất định trong
bảng tính của mình mà bạn biết phải chứa một độ dài nhất định. Ví dụ: hiệp hội này sử dụng
mã nhận dạng thành viên gồm sáu chữ số. Nếu chúng tôi vừa nhập dữ liệu này và muốn chắc
chắn rằng tất cả các mã của chúng tôi đều có số chữ số chính xác, thì chúng tôi sẽ sử dụng
LEN. Cú pháp của LEN =LEN(range)
Chúng tôi sẽ chèn một cột mới sau ID thành viên. Sau đó nhập dấu bằng và LEN.
Thêm một dấu ngoặc đơn mở. Phạm vi là số ID Thành viên đầu tiên trong A2. Kết thúc chức
năng bằng cách đóng dấu ngoặc đơn. =LEN(A2) Nó cho chúng ta biết rằng có sáu ký tự trong
ô A2.
Hãy tiếp tục chức năng thông qua toàn bộ cột và tìm xem có kết quả nào không phải là
sáu không. Nhưng thay vì duyệt qua bảng tính của chúng tôi theo cách thủ công để tìm kiếm
những trường hợp này, chúng tôi sẽ sử dụng định dạng có điều kiện. Chúng tôi đã nói về định
dạng có điều kiện trước đó. Đó là một công cụ bảng tính thay đổi cách các ô xuất hiện khi các
giá trị đáp ứng các điều kiện cụ thể. Hãy thực hành điều đó ngay bây giờ. Chọn tất cả cột B
ngoại trừ tiêu đề. Sau đó vào Định dạng và chọn Định dạng có điều kiện. Quy tắc định dạng
là định dạng các ô nếu không bằng 6. Nhấp vào "Xong." Ô có số 7 bên trong được tô sáng.
Bây giờ chúng ta sẽ nói về TRÁI và PHẢI. LEFT is a fuction that gives you a set
number of characters from left side of text string (Một hàm trả về một tập hợp các kí tự từ phía
bên trái của một chuỗi văn bản). Right is a fuction that gives you a set number of characters
from right side of text string (Một hàm trả về một tập hợp các kí tự từ phía bên phải của một
chuỗi văn bản).
Xin nhắc lại, chuỗi văn bản là một nhóm ký tự trong một ô, thường bao gồm các chữ
cái, số hoặc cả hai. Để xem hoạt động của các chức năng này, hãy quay lại bảng tính của nhà
sản xuất mỹ phẩm trước đó. Bảng tính này chứa mã sản phẩm. Mỗi cái có một mã số gồm năm
chữ số và sau đó là một mã định danh văn bản gồm bốn ký tự. Nhưng giả sử chúng ta chỉ
muốn làm việc với bên này hay bên kia. Bạn có thể sử dụng LEFT hoặc RIGHT để cung cấp
cho bạn bộ ký tự hoặc số cụ thể mà bạn cần. Trước tiên, chúng ta sẽ thực hành dọn dẹp dữ liệu
của mình bằng hàm LEFT. Cú pháp của LEFT =LEFT(range,number of characters)
Ở đây, dự án của chúng tôi chỉ yêu cầu mã số gồm năm chữ số. Trong một cột riêng
biệt, nhập bằng TRÁI, mở dấu ngoặc đơn, sau đó nhập phạm vi. Phạm vi của chúng tôi là A2.
Sau đó, thêm dấu phẩy và sau đó đánh số 5 cho mã sản phẩm gồm năm chữ số của chúng tôi.
Cuối cùng, kết thúc hàm bằng dấu ngoặc đơn đóng. =LEFT(A2,5) Bấm phím Enter." Và bây
giờ, chúng ta có một chuỗi con, chỉ là phần số của mã sản phẩm. Nhấp và kéo chức năng này
qua toàn bộ cột để chỉ tách các mã sản phẩm còn lại theo số.
Bây giờ, giả sử dự án của chúng ta chỉ cần mã định danh văn bản gồm bốn ký tự. Để
làm được điều đó, chúng ta sẽ sử dụng hàm RIGHT và cột tiếp theo sẽ bắt đầu hàm này. Cú
pháp bằng RIGHT, mở ngoặc đơn, phạm vi, dấu phẩy và số lượng ký tự chúng tôi muốn. Sau
đó, chúng tôi kết thúc với một dấu ngoặc đơn đóng. Hãy quan trọng điều đó ngay bây giờ.
Bằng bên phải, mở dấu ngoặc đơn và phạm vi vẫn là A2. Thêm một dấu phẩy. Lần này, chúng
tôi sẽ nói với nó rằng chúng tôi muốn bốn ký tự đầu tiên từ bên phải. Đóng dấu ngoặc đơn và
nhấn "Enter." Sau đó, kéo hàm trong toàn bộ cột. Giờ đây, chúng tôi có thể phân tích sản phẩm
trong bảng tính của mình dựa trên một trong hai chuỗi con.
Mã số gồm năm chữ số hoặc mã định danh văn bản gồm bốn ký tự. Hy vọng rằng điều
đó làm rõ cách bạn có thể sử dụng LEFT và RIGHT để trích xuất các chuỗi con từ bên trái và
bên phải của một chuỗi.
Bây giờ, hãy tìm hiểu làm thế nào bạn có thể trích xuất một cái gì đó ở giữa. Đây là nơi
chúng ta sẽ sử dụng thứ gọi là MID. MID là hàm cung cấp cho bạn một đoạn từ giữa chuỗi
văn bản. Công ty mỹ phẩm này liệt kê tất cả khách hàng của mình bằng mã khách hàng. Nó
bao gồm ba chữ cái đầu tiên của thành phố nơi khách hàng tọa lạc, tên viết tắt của tiểu bang
và sau đó là số nhận dạng gồm ba chữ số. Nhưng giả sử một nhà phân tích dữ liệu chỉ cần làm
việc với các trạng thái ở giữa. Cú pháp cho MID bằng MID, mở dấu ngoặc đơn, phạm vi, sau
đó là dấu phẩy. Khi sử dụng MID, bạn luôn cần cung cấp một điểm tham chiếu. Nói cách khác,
bạn cần đặt vị trí bắt đầu chức năng. Sau đó, đặt một dấu phẩy khác và bao nhiêu ký tự ở giữa
mà bạn muốn. Trong trường hợp này, phạm vi của chúng tôi là D2. Hãy bắt đầu chức năng
trong một cột mới. Nhập bằng MID, mở dấu ngoặc đơn, D2. Sau đó, ba ký tự đầu tiên đại diện
cho tên thành phố, vì vậy điều đó có nghĩa là điểm bắt đầu là điểm thứ tư. Thêm một dấu phẩy
và bốn. Chúng ta cũng cần cho hàm biết chúng ta muốn có bao nhiêu ký tự ở giữa. Thêm một
dấu phẩy nữa và hai dấu phẩy vì các chữ viết tắt của tiểu bang dài hai ký tự. Nhấn "Enter" và
bam, chúng tôi chỉ nhận được chữ viết tắt của tiểu bang. Tiếp tục hàm MID thông qua phần
còn lại của cột.
Chúng ta đã học về một vài hàm giúp tách các chuỗi văn bản cụ thể. Nhưng nếu chúng
ta muốn kết hợp chúng lại thì sao? Để làm được điều đó, chúng ta sẽ sử dụng
CONCATENATE, đây là một hàm kết hợp hai hoặc nhiều chuỗi văn bản lại với nhau. Cú
pháp bằng CONCATENATE, =CONCATENATE(item1,item2) sau đó một dấu ngoặc đơn
mở bên trong cho biết từng chuỗi văn bản bạn muốn nối, được phân tách bằng dấu phẩy. Sau
đó kết thúc hàm bằng dấu ngoặc đơn đóng. Để thực hành, giả sử chúng ta cần nối lại chuỗi
văn bản bên trái và bên phải thành mã sản phẩm hoàn chỉnh. Trong một cột mới, hãy bắt đầu
chức năng của chúng ta. Nhập bằng CONCATENATE, sau đó là dấu ngoặc đơn mở. Chuỗi
văn bản đầu tiên chúng tôi muốn tham gia là trong H2. Sau đó thêm dấu phẩy. Phần thứ hai là
trong I2. Thêm một dấu ngoặc đơn đóng và nhấn "Enter". Kéo nó xuống qua toàn bộ cột và
cứ như vậy, tất cả các mã sản phẩm của chúng tôi trở lại với nhau.
Chức năng cuối cùng chúng ta sẽ tìm hiểu ở đây là TRIM. TRIM là một chức năng loại
bỏ các khoảng trắng ở đầu, cuối và lặp lại trong dữ liệu. Đôi khi, khi bạn nhập dữ liệu, các ô
của bạn có thêm khoảng trắng, điều này có thể cản trở quá trình phân tích của bạn. Ví dụ: nếu
nhà sản xuất mỹ phẩm này muốn tra cứu tên khách hàng cụ thể, thì tên đó sẽ không hiển thị
trong kết quả tìm kiếm nếu có thêm khoảng trắng. Bạn có thể sử dụng TRIM để khắc phục sự
cố đó. Cú pháp của TRIM bằng TRIM, dấu ngoặc đơn mở, phạm vi của bạn và dấu ngoặc đơn
đóng =TRIM(range)
Trong một cột riêng biệt, nhập bằng TRIM và một dấu ngoặc đơn mở. Phạm vi là C2,
vì bạn muốn kiểm tra tên khách hàng. Đóng dấu ngoặc đơn và nhấn "Enter". Cuối cùng, tiếp
tục chức năng xuống cột. TRIM đã sửa các khoảng trống thừa.
Bây giờ chúng tôi biết một số chức năng rất hữu ích có thể làm cho việc dọn dẹp dữ
liệu của bạn thành công hơn nữa. Đây là rất nhiều thông tin. Như mọi khi, hãy thoải mái quay
lại và xem lại video rồi tự mình thực hành. Chúng tôi sẽ sớm tiếp tục xây dựng các công cụ
này và bạn cũng sẽ có cơ hội thực hành. Chẳng bao lâu nữa, các bước làm sạch dữ liệu này sẽ
trở thành bản năng thứ hai, giống như đánh răng vậy.
Các quan điểm dữ liệu khác nhau
Chương 3: Sử dụng SQL để làm sạch dữ liệu
Sử dụng SQL để làm sạch dữ liệu
Chào mừng trở lại và hoàn thành xuất sắc nhiệm vụ trong thử thách hàng tuần cuối
cùng đó. Bây giờ chúng ta đã biết sự khác biệt giữa làm sạch dữ liệu bẩn và một số kỹ thuật
làm sạch dữ liệu chung, hãy tập trung vào việc làm sạch dữ liệu bằng SQL.
Sắp tới, chúng ta sẽ tìm hiểu về các chức năng làm sạch dữ liệu khác nhau trong bảng
tính và SQL cũng như cách SQL có thể được sử dụng để làm sạch các tập dữ liệu lớn. Tôi
cũng sẽ chỉ cho bạn cách phát triển một số truy vấn tìm kiếm cơ bản cho cơ sở dữ liệu và cách
áp dụng các hàm SQL cơ bản để chuyển đổi dữ liệu và làm sạch chuỗi. Làm sạch dữ liệu của
bạn là bước cuối cùng trong quy trình phân tích dữ liệu trước khi bạn có thể chuyển sang phân
tích thực tế và SQL có rất nhiều công cụ tuyệt vời có thể giúp bạn làm điều đó.
Nhưng trước khi bắt đầu dọn dẹp cơ sở dữ liệu, chúng ta sẽ xem xét kỹ hơn về SQL
và thời điểm sử dụng nó. Tôi sẽ gặp bạn ở đó.
Sally: Vì tình yêu SQL
Các cơ quan quảng cáo nhận tiền từ khách hàng của họ để quảng cáo thương hiệu của
họ. Các đại lý này sử dụng sản phẩm của chúng tôi, sử dụng một số nền tảng, nền tảng quảng
cáo nhất định của Google và tôi giúp họ cách sử dụng những nền tảng đó một cách tốt nhất,
các chiến lược khác nhau mà họ có thể sử dụng để trở thành người giỏi nhất trong tầng lớp.
Rất nhiều người ở các công ty quảng cáo có báo cáo rằng họ phải gửi cho khách hàng
của mình. Các báo cáo này mất rất nhiều thời gian để tạo và trực quan hóa, vì vậy điều tôi làm
là giúp các học viên và nhóm phân tích sử dụng một sản phẩm cụ thể cho phép họ tạo các báo
cáo đó nhanh hơn và dễ dàng hơn nhiều.
Nếu bạn bắt đầu với tư cách là một nhà phân tích dữ liệu, nó sẽ mở ra rất nhiều cánh
cửa vì mọi người đang theo dõi dữ liệu, đang sử dụng dữ liệu, cần sử dụng dữ liệu, bất kể
ngành nào. Bất cứ nơi nào từ chăm sóc sức khỏe, quảng cáo, thương mại điện tử, giải trí, mọi
thứ và mọi thứ, mọi người đều sử dụng dữ liệu, vì vậy mọi người cần bạn với tư cách là nhà
phân tích dữ liệu.
SQL làm cho cuộc sống của chúng ta dễ dàng hơn khi chúng ta phân tích nhiều dữ liệu
khác nhau. Chỉ gần đây thôi, các chương trình SQL mà chúng ta sử dụng hiện nay có thể cho
chúng ta kết quả tức thì để phân tích hàng triệu hoặc hàng tỷ dữ liệu. Cách đây nhiều năm, có
thể khoảng năm năm trước hoặc lâu hơn, mặc dù chúng tôi vẫn có thể phân tích hàng triệu
hàng đó, nhưng cuối cùng chúng tôi sẽ phải đợi mười lăm phút, ba mươi phút để truy vấn chạy.
Nhưng bây giờ nó là tức thời, và vì vậy điều đó thực sự thú vị, và chúng ta có thể làm được
nhiều hơn nữa với sức mạnh đó.
SQL đã giúp ích rất nhiều cho sự nghiệp của tôi vì nó là một trong những điều cơ bản
mà bạn phải biết với tư cách là một nhà phân tích dữ liệu. Trước đây, không phải ai cũng biết
SQL, vì vậy biết SQL chắc chắn là một lợi thế cạnh tranh. Còn bây giờ, tôi xin nói nhiều người
hơn, có lẽ hầu hết mọi người đều biết. Đó là một kỹ năng cốt lõi và được mọi người tìm kiếm
rất nhiều. Vì vậy, biết SQL, trở thành một nhà phân tích dữ liệu khiến bạn trở nên khá nổi
tiếng với các nhà tuyển dụng, vì vậy tôi nghĩ điều đó thực sự thú vị.
Tôi đã tự học SQL, vì vậy kiến thức về SQL của tôi là thứ mà tôi luôn trân trọng và
yêu quý, gần gũi với trái tim mình vì nó gần như là thứ mà tôi đã tự tạo ra cho mình và tôi
cảm thấy rất hài lòng về nó. Vì vậy, đó là lý do tại sao tôi thực sự thích SQL. Một trong những
điều thú vị về SQL và một lý do khác khiến tôi thực sự thích sử dụng nó là vì khi bạn nhập
nội dung nào đó vào truy vấn đó và bạn chỉ cần nhấn Control, Shift, Enter hoặc sau khi chạy
truy vấn, bạn sẽ nhận được kết quả gần như ngay lập tức, tùy thuộc vào nền tảng bạn sử dụng.
Nhưng thật thú vị khi xem liệu bạn có nghĩ về mặt khái niệm rằng máy tính đang thực
hiện bao nhiêu phân tích cho bạn dựa trên một chút mã lệnh hoặc một chút mã bạn đã viết, và
nó thật sự rất hiệu quả nếu bạn nghĩ về những gì đang xảy ra đằng sau hậu trường. Vì vậy, tôi
nghĩ rằng đó là niềm vui để xem xét. Chúng ta đang sống trong một thế giới dữ liệu lớn và nó
ngày càng lớn hơn. Sức mạnh tính toán cũng đang tăng theo cấp số nhân. Với tất cả dữ liệu
mà chúng tôi có thể theo dõi, chúng tôi càng có thể theo dõi dữ liệu đó nhiều hơn, chúng tôi
càng cần nhiều nhà phân tích dữ liệu hơn. Triển vọng nghề nghiệp của chúng tôi về cơ bản là
tăng vọt. Tôi là Sally, tôi là trưởng nhóm đo lường và phân tích tại Google.
Hiểu các khả năng của SQL
Xin chào lần nữa. So, trước khi chúng ta xem xét tất cả các cách mà các nhà phân tích
dữ liệu sử dụng SQL để làm sạch dữ liệu, tôi muốn chính thức giới thiệu với bạn về SQL.
Chúng ta đã nói về SQL rất nhiều rồi. Bạn đã thấy một số cơ sở dữ liệu và một số chức năng
cơ bản trong SQL và thậm chí bạn đã thấy cách SQL có thể được sử dụng để xử lý dữ liệu.
Nhưng bây giờ hãy thực sự định nghĩa SQL. SQL là ngôn ngữ truy vấn có cấu trúc mà các
nhà phân tích sử dụng để làm việc với cơ sở dữ liệu.
Các nhà phân tích dữ liệu thường sử dụng SQL để xử lý các tập dữ liệu lớn vì nó có
thể xử lý lượng dữ liệu khổng lồ. Và ý tôi là hàng nghìn tỷ hàng. Đó là rất nhiều hàng để quấn
quanh đầu của bạn. Vì vậy, hãy để tôi cho bạn biết lượng dữ liệu thực sự là bao nhiêu.
Hãy tưởng tượng một bộ dữ liệu chứa tên của tất cả 8 tỷ người trên thế giới. Một người
bình thường sẽ mất 101 năm để đọc hết 8 tỷ cái tên. SQL có thể xử lý việc này trong vài giây.
Cá nhân, tôi nghĩ rằng đó là khá tuyệt. Các công cụ khác như bảng tính có thể mất nhiều thời
gian để xử lý lượng dữ liệu đó, đó là một trong những lý do chính khiến các nhà phân tích dữ
liệu chọn sử dụng SQL khi xử lý các tập dữ liệu lớn.
Hãy để tôi cung cấp cho bạn một lịch sử ngắn về SQL. Sự phát triển trên SQL thực sự
bắt đầu vào đầu những năm 70. Năm 1970, Edgar F.Codd đã phát triển lý thuyết về cơ sở dữ
liệu quan hệ. Bạn có thể nhớ đã học về cơ sở dữ liệu quan hệ trước đây. Đây là một cơ sở dữ
liệu chứa một loạt các bảng có thể được kết nối để tạo thành các mối quan hệ.
Vào thời điểm đó, IBM đang sử dụng một hệ thống quản lý cơ sở dữ liệu quan hệ có
tên là System R. Các nhà khoa học máy tính của IBM đang cố gắng tìm ra cách để thao tác và
truy xuất dữ liệu từ IBM System R. Ngôn ngữ truy vấn đầu tiên của họ rất khó sử dụng. Vì
vậy, họ nhanh chóng chuyển sang phiên bản tiếp theo, SQL.
Năm 1979, sau khi thử nghiệm rộng rãi SQL, bây giờ chỉ được đánh vần là SQ-L, đã
được phát hành công khai. Đến năm 1986, SQL đã trở thành ngôn ngữ tiêu chuẩn cho giao
tiếp cơ sở dữ liệu quan hệ và nó vẫn vậy.
Đây là một lý do khác khiến các nhà phân tích dữ liệu chọn SQL. Đó là một tiêu chuẩn
nổi tiếng trong cộng đồng. Lần đầu tiên tôi sử dụng SQL để lấy dữ liệu từ cơ sở dữ liệu thực
là cho công việc đầu tiên của tôi với tư cách là nhà phân tích dữ liệu. Trước đó tôi không có
bất kỳ kiến thức cơ bản nào về SQL. Tôi chỉ phát hiện ra nó bởi vì nó là một yêu cầu cho công
việc đó. Nhà tuyển dụng cho vị trí đó đã cho tôi một tuần để tìm hiểu nó. Vì vậy, tôi đã lên
mạng và nghiên cứu về nó và kết thúc bằng việc tự học SQL. Họ thực sự đã cho tôi một bài
kiểm tra viết như một phần của quá trình xin việc. Tôi đã phải viết các hàm và truy vấn SQL
trên bảng trắng. Nhưng tôi đã sử dụng SQL kể từ đó. Và tôi thực sự thích nó.
Và giống như tôi đã tự học SQL, tôi muốn nhắc bạn rằng bạn cũng có thể tự tìm hiểu
mọi thứ. Có rất nhiều nguồn tài nguyên trực tuyến tuyệt vời để học tập. Vì vậy, đừng để một
yêu cầu công việc cản trở bạn mà không thực hiện một số nghiên cứu trước. Bây giờ chúng ta
đã biết thêm một chút về lý do tại sao các nhà phân tích chọn làm việc với SQL khi họ đang
xử lý nhiều dữ liệu và một chút về lịch sử của SQL, chúng ta sẽ tiếp tục và tìm hiểu một số
ứng dụng thực tế cho nó.
Tiếp theo, chúng ta sẽ kiểm tra một số công cụ mà chúng ta đã học trong bảng tính và
tìm hiểu xem có công cụ nào trong số đó áp dụng để làm việc trong SQL hay không. Cảnh
báo spoiler, họ làm. Hẹn sớm gặp lại.
Bảng tính so với SQL
Xin chào. Cho đến giờ chúng ta đã học về cả bảng tính và SQL. Mặc dù có rất nhiều
điểm khác biệt giữa bảng tính và SQL, nhưng bạn cũng sẽ tìm thấy một số điểm tương đồng.
Hãy xem bảng tính và SQL có điểm gì chung và chúng khác nhau như thế nào.
Bảng tính và SQL thực sự có rất nhiều điểm chung. Cụ thể, có những công cụ bạn có
thể sử dụng trong cả bảng tính và SQL để đạt được kết quả tương tự. Chúng ta đã tìm hiểu về
một số công cụ để làm sạch dữ liệu trong bảng tính, nghĩa là bạn đã biết một số công cụ mà
bạn có thể sử dụng trong SQL.
Ví dụ: bạn vẫn có thể thực hiện phép tính số học, sử dụng công thức và nối dữ liệu khi
đang sử dụng SQL, vì vậy, chúng ta sẽ xây dựng dựa trên các kỹ năng đã học trong bảng tính
và sử dụng chúng để thực hiện công việc thậm chí còn phức tạp hơn trong SQL.
Đây là một ví dụ về ý nghĩa của công việc phức tạp hơn. Nếu chúng tôi đang làm việc
với dữ liệu sức khỏe cho một bệnh viện, chúng tôi cần có khả năng truy cập và xử lý rất nhiều
dữ liệu. Chúng tôi có thể cần dữ liệu nhân khẩu học, chẳng hạn như tên, ngày sinh và địa chỉ
của bệnh nhân, thông tin về bảo hiểm hoặc các lần thăm khám trước đây của họ, dữ liệu y tế
công cộng hoặc thậm chí dữ liệu do người dùng tạo để thêm vào hồ sơ bệnh nhân của họ. Tất
cả dữ liệu này đang được lưu trữ ở những nơi khác nhau, thậm chí có thể ở các định dạng khác
nhau và mỗi vị trí có thể có hàng triệu hàng và hàng trăm bảng liên quan. Đây là quá nhiều dữ
liệu để nhập thủ công, ngay cả đối với chỉ một bệnh viện.
Đó là nơi SQL có ích. Thay vì phải xem xét từng nguồn dữ liệu riêng lẻ và ghi lại vào
bảng tính của mình, chúng ta có thể sử dụng SQL để lấy tất cả thông tin này từ các vị trí khác
nhau trong cơ sở dữ liệu của mình. Bây giờ, giả sử chúng ta muốn tìm điều gì đó cụ thể trong
tất cả dữ liệu này, chẳng hạn như có bao nhiêu bệnh nhân với một chẩn đoán nhất định đến
khám hôm nay.
Trong một bảng tính, chúng ta có thể sử dụng hàm COUNTIF để tìm ra điều đó hoặc
chúng ta có thể kết hợp các truy vấn COUNT và WHERE trong SQL để tìm xem có bao nhiêu
hàng phù hợp với tiêu chí tìm kiếm của chúng ta. Điều này sẽ cho chúng ta kết quả tương tự,
nhưng hoạt động với tập hợp dữ liệu lớn hơn và phức tạp hơn nhiều.
Tiếp theo, hãy nói về sự khác nhau của bảng tính và SQL. Đầu tiên, điều quan trọng là
phải hiểu rằng bảng tính và SQL là những thứ khác nhau. Bảng tính được tạo bằng chương
trình như Excel hoặc Google Trang tính. Các chương trình này được thiết kế để thực hiện một
số chức năng tích hợp sẵn. Mặt khác, SQL là ngôn ngữ có thể được sử dụng để tương tác với
các chương trình cơ sở dữ liệu, như Oracle MySQL hoặc Microsoft SQL Server.
Sự khác biệt giữa hai chủ yếu là ở cách chúng được sử dụng. Nếu một nhà phân tích
dữ liệu được cung cấp dữ liệu ở dạng bảng tính, họ có thể sẽ làm sạch và phân tích dữ liệu
trong bảng tính đó, nhưng nếu họ đang làm việc với một tập dữ liệu lớn có hơn một triệu hàng
hoặc nhiều tệp trong cơ sở dữ liệu , việc sử dụng SQL dễ dàng hơn, nhanh hơn và có thể lặp
lại nhiều hơn.
SQL có thể truy cập và sử dụng nhiều dữ liệu hơn vì nó có thể tự động lấy thông tin từ
các nguồn khác nhau trong cơ sở dữ liệu, không giống như bảng tính chỉ có quyền truy cập
vào dữ liệu bạn nhập. Điều này cũng có nghĩa là dữ liệu được lưu trữ ở nhiều nơi. Nhà phân
tích dữ liệu có thể sử dụng bảng tính được lưu trữ cục bộ trên ổ cứng hoặc đám mây cá nhân
của họ khi họ làm việc một mình, nhưng nếu họ làm việc trong một nhóm lớn hơn với nhiều
nhà phân tích cần truy cập và sử dụng dữ liệu được lưu trữ trên cơ sở dữ liệu, thì SQL có thể
là một công cụ hữu ích hơn.
Do những khác biệt này, bảng tính và SQL được sử dụng cho những mục đích khác
nhau. Như bạn đã biết, bảng tính phù hợp với các tập dữ liệu nhỏ hơn và khi bạn làm việc độc
lập. Ngoài ra, bảng tính có các chức năng tích hợp sẵn, chẳng hạn như kiểm tra chính tả có thể
thực sự tiện dụng.
SQL rất phù hợp để làm việc với các tập dữ liệu lớn hơn, thậm chí hàng nghìn tỷ hàng
dữ liệu. Vì SQL đã là ngôn ngữ tiêu chuẩn để giao tiếp với cơ sở dữ liệu từ rất lâu nên nó có
thể được điều chỉnh và sử dụng cho nhiều chương trình cơ sở dữ liệu.
SQL cũng ghi lại các thay đổi trong truy vấn, điều này giúp dễ dàng theo dõi các thay
đổi trong nhóm của bạn nếu bạn đang cộng tác làm việc.
Tiếp theo, chúng ta sẽ tìm hiểu thêm các truy vấn và hàm trong SQL sẽ cung cấp cho
bạn một số công cụ mới để làm việc. Bạn thậm chí có thể học cách sử dụng các công cụ bảng
tính theo những cách hoàn toàn mới. Hẹn gặp lại bạn lần sau.
Chương 2: Tìm hiểu các truy vấn SQL cơ bản
Các truy vấn SQL được sử dụng rộng rãi
Này, chào mừng trở lại. Cho đến giờ, chúng ta đã biết rằng SQL có một số công cụ
giống như bảng tính, nhưng ở quy mô lớn hơn nhiều. Trong video này, chúng ta sẽ tìm hiểu
một số truy vấn SQL được sử dụng rộng rãi nhất mà bạn có thể bắt đầu sử dụng để làm sạch
dữ liệu của riêng mình và phân tích cuối cùng.
Bắt đầu nào. Chúng ta đã nói về các truy vấn dưới dạng yêu cầu bạn đưa vào cơ sở dữ
liệu để yêu cầu cơ sở dữ liệu thực hiện mọi việc cho bạn. Truy vấn là một phần quan trọng
trong việc sử dụng SQL. Rốt cuộc, đó là Ngôn ngữ truy vấn có cấu trúc.
Truy vấn có thể giúp bạn làm rất nhiều việc, nhưng có một số truy vấn phổ biến mà
các nhà phân tích dữ liệu luôn sử dụng. Vì vậy, hãy bắt đầu ở đó.
Đầu tiên, tôi sẽ chỉ cho bạn cách sử dụng truy vấn SELECT. Tôi đã gọi cái này trước
đây, nhưng bây giờ tôi sẽ thêm một số thứ mới để chúng ta thử. Ngay bây giờ, trình xem bảng
trống vì chúng tôi chưa lấy bất kỳ thứ gì từ cơ sở dữ liệu. Trong ví dụ này, cửa hàng mà chúng
tôi đang hợp tác đang tổ chức một chương trình tặng quà cho khách hàng ở một số thành phố
nhất định. Chúng tôi có cơ sở dữ liệu chứa thông tin khách hàng mà chúng tôi có thể sử dụng
để thu hẹp khách hàng nào đủ điều kiện nhận quà tặng. Hãy làm điều đó ngay bây giờ.
Chúng ta có thể sử dụng SELECT để chỉ định chính xác dữ liệu nào chúng ta muốn
tương tác trong một bảng. Nếu chúng ta kết hợp SELECT với FROM, chúng ta có thể lấy dữ
liệu từ bất kỳ bảng nào trong cơ sở dữ liệu này miễn là họ biết các cột và hàng được đặt tên là
gì. Chúng tôi có thể muốn lấy dữ liệu về tên khách hàng và thành phố từ một trong các bảng.
Để làm điều đó, chúng ta có thể nhập SELECT name “,” city FROM
customer_data.customer_address .
Để lấy thông tin này từ bảng địa chỉ gạch dưới của khách hàng, nằm trong dữ liệu gạch dưới
của khách hàng, tập dữ liệu.
SELECT và FROM giúp chỉ định dữ liệu nào chúng tôi muốn trích xuất từ cơ sở dữ
liệu và sử dụng. Chúng tôi cũng có thể chèn dữ liệu mới vào cơ sở dữ liệu hoặc cập nhật dữ
liệu hiện có.
Ví dụ: có thể chúng tôi có một khách hàng mới mà chúng tôi muốn chèn vào bảng này.
Chúng ta có thể sử dụng truy vấn INSERT INTO để đưa thông tin đó vào. Hãy bắt đầu với
nơi chúng ta đang cố gắng chèn dữ liệu này, bảng địa chỉ gạch dưới của khách hàng. Chúng
tôi cũng muốn chỉ định cột nào chúng tôi sẽ thêm dữ liệu này vào bằng cách nhập tên của
chúng vào dấu ngoặc đơn. Bằng cách đó, SQL có thể cho cơ sở dữ liệu biết chính xác nơi
chúng tôi đã nhập thông tin mới. Sau đó, chúng tôi sẽ cho nó biết những giá trị mà chúng tôi
đang đưa vào.
INSERT INTO customer_data.customer_address
(customer_id, address, city, state, zipcode, country)
VALUES
(2645, ‘333 SQL Road’, ‘Jackson’, ‘MI’, 49202, ‘US’)
Sau đó, chúng tôi sẽ cho nó biết những giá trị mà chúng tôi đang đưa vào. Chạy truy vấn và
cứ như vậy, nó đã thêm nó vào bảng của chúng tôi cho chúng tôi.
Bây giờ, giả sử chúng ta chỉ cần thay đổi địa chỉ của một khách hàng. Chà, chúng ta
có thể yêu cầu cơ sở dữ liệu cập nhật nó cho chúng ta. Để làm điều đó, chúng ta cần nói với
nó rằng chúng ta đang cố cập nhật bảng địa chỉ gạch dưới của khách hàng. Sau đó, chúng tôi
cần cho nó biết giá trị mà chúng tôi đang cố gắng thay đổi. Nhưng chúng ta cũng cần cho nó
biết cụ thể chúng ta đang thực hiện thay đổi đó ở đâu để nó không thay đổi mọi địa chỉ trong
bảng. Đấy. Bây giờ địa chỉ của một khách hàng này đã được cập nhật.
UPDATE customer_data.customer_address
SET address = ‘123 New Address’
WHERE customer_id = 2645
Nếu chúng ta muốn tạo một bảng mới cho cơ sở dữ liệu này, chúng ta có thể sử dụng
câu lệnh CREATE TABLE IF NOT EXISTS. Hãy ghi nhớ, chỉ chạy truy vấn SQL không
thực sự tạo bảng cho dữ liệu mà chúng tôi trích xuất. Nó chỉ lưu trữ nó trong bộ nhớ cục bộ
của chúng tôi. Để lưu nó, chúng tôi cần tải xuống dưới dạng bảng tính hoặc lưu kết quả vào
một bảng mới.
Là một nhà phân tích dữ liệu, có một số tình huống mà bạn có thể cần phải làm điều
đó. Nó thực sự phụ thuộc vào loại dữ liệu bạn đang lấy và tần suất. Nếu bạn chỉ đang sử dụng
tổng số lượng khách hàng, thì có thể bạn không cần tệp CSV hoặc bảng mới trong cơ sở dữ
liệu của mình.
Nếu bạn đang sử dụng tổng số khách hàng mỗi ngày để làm điều gì đó như theo dõi
chương trình khuyến mãi cuối tuần tại một cửa hàng, thì bạn có thể tải xuống dữ liệu đó dưới
dạng tệp CSV để có thể hình dung dữ liệu đó trong bảng tính. Nhưng nếu bạn được yêu cầu
kéo theo xu hướng này một cách thường xuyên, bạn có thể tạo một bảng sẽ tự động làm mới
với truy vấn bạn đã viết. Bằng cách đó, bạn có thể trực tiếp tải xuống kết quả bất cứ khi nào
bạn cần để báo cáo.
Một điều tốt nữa cần ghi nhớ, nếu bạn đang tạo nhiều bảng trong cơ sở dữ liệu, bạn sẽ
muốn sử dụng câu lệnh DROP TABLE IF EXISTS để tự dọn dẹp.
Đó là công việc dọn dẹp tốt. Bạn có thể sẽ không xóa các bảng hiện có thường xuyên. Rốt
cuộc, đó là dữ liệu của công ty và bạn không muốn xóa dữ liệu quan trọng khỏi cơ sở dữ liệu
của họ. Tuy nhiên, bạn có thể đảm bảo rằng bạn đang dọn sạch các bảng mà chính bạn đã tạo
để không còn các bảng cũ hoặc không được sử dụng với thông tin dư thừa làm lộn xộn cơ sở
dữ liệu.
There. Bây giờ bạn đã thấy một số truy vấn SQL được sử dụng rộng rãi nhất đang hoạt
động. Chắc chắn có nhiều từ khóa truy vấn hơn để bạn tìm hiểu và các kết hợp độc đáo sẽ giúp
bạn làm việc trong cơ sở dữ liệu. Nhưng đây là một nơi tuyệt vời để bắt đầu. Sắp tới, chúng
ta sẽ tìm hiểu nhiều hơn về các truy vấn trong SQL và cách sử dụng chúng để làm sạch dữ liệu
của chúng ta. Hẹn gặp lại bạn lần sau.
Evan: Vui vẻ với SQL
Xin chào, tôi là Evan. Tôi là người quản lý danh mục đầu tư học tập tại Google. Tôi
không nghĩ mình thuộc loại khoa học máy tính hay siêu kỹ thuật, nhưng tôi thực sự, thực sự
thích làm việc với những con số, vì vậy thực sự, tôi đã theo học ngành kế toán. Và khoảng sau
hai năm làm kế toán, tôi nói, "Chà, tôi thực sự không muốn làm tất cả những việc này bằng
tay," nên tôi tham gia lớp hệ thống thông tin đầu tiên, nơi họ dạy tôi ngôn ngữ SQL hoặc S-
Q-L, và nó hoàn toàn mở ra lên tâm trí của tôi.
Giữa kiến thức làm việc về bảng tính nơi bạn thay đổi một ô và toàn bộ bảng tính thay
đổi vì những trường được tính toán tuyệt vời đó và SQL nơi tôi có thể truy vấn hàng tỷ hàng
dữ liệu chỉ trong giây lát, tôi hoàn toàn bị thuyết phục bởi tình yêu dành cho dữ liệu của mình.
Tôi đã cống hiến cả cuộc đời và sự nghiệp của mình chỉ để truyền đạt niềm đam mê đó và
khiến mọi người hào hứng với những điều họ có thể làm với dữ liệu của mình.
Tại sao SQL lại là ngôn ngữ đầu tiên tuyệt vời để chọn? Chà, có rất nhiều thứ bạn có
thể làm với nó. Trước tiên tôi sẽ báo trước và nói rằng, tôi không phải là sinh viên chuyên
ngành khoa học máy tính. Tôi không biết sâu về Java và Python, và tôi hơi e ngại khi học một
ngôn ngữ máy tính. Nó giống như một ngôn ngữ lập trình giả, nhưng trên thực tế, bạn có thể
viết câu lệnh SQL đầu tiên của mình như bạn sắp tìm hiểu ở đây chỉ trong năm phút hoặc ít
hơn.
Thành thật mà nói, SQL là một trong những ngôn ngữ dễ học và thậm chí còn thú vị
hơn khi thành thạo. Tôi đã học SQL được 15 năm. Tôi đã dạy nó được 10 năm. Như bạn sẽ
thấy trong một số phòng thí nghiệm thực hành này mà bạn sẽ làm việc, rất dễ dàng để trả về
dữ liệu từ bên trong cơ sở dữ liệu hoặc tập hợp dữ liệu. Chỉ cần chọn bất kỳ cột nào từ bất kỳ
cơ sở dữ liệu nào mà bạn đang lấy từ đó và ngay lập tức bạn sẽ lấy lại được dữ liệu.
Bây giờ, phần thực sự thú vị là thực sự trêu chọc và nói, tôi tự hỏi liệu tôi có thay đổi
truy vấn của mình không, thêm các cột khác này, lọc tập dữ liệu này theo một cách khác, chia
sẻ với đồng nghiệp của tôi. Nó có nghĩa là một ngôn ngữ truy vấn tương tác và "truy vấn" có
nghĩa là "đặt câu hỏi". Nếu tôi có thể thách thức bạn một điều, thì đó là cú pháp để chọn SQL,
giống như luật chơi cờ vua, rất dễ hiểu. Nhưng phần khó thực sự không phải là cách viết cú
pháp, giống như bất kỳ ngôn ngữ lập trình nào, mà là câu hỏi thực tế bạn muốn hỏi về dữ liệu
của mình là gì?
Điều tôi khuyến khích bạn làm là cực kỳ tò mò về bất kỳ tập dữ liệu nào mà bạn được
cung cấp. Hãy dành nhiều thời gian, ngay cả trước khi bạn chạm vào bàn phím, để suy nghĩ
về tập dữ liệu nào hoặc thông tin chi tiết nào bạn có thể nhận được từ dữ liệu của mình. Và
sau đó bắt đầu có niềm vui. Có nhiều cách khác nhau để viết cùng một câu lệnh SQL chính
xác, vì vậy hãy thử một cách, chia sẻ nó với bạn bè của bạn và sau đó bắt đầu trả lại dữ liệu
đó để biết thông tin chi tiết. Chúc may mắn.
Làm sạch các biến chuỗi bằng SQL
Bài giảng khóa học Google Data Analytics.docx
Bài giảng khóa học Google Data Analytics.docx
Bài giảng khóa học Google Data Analytics.docx
Bài giảng khóa học Google Data Analytics.docx
Bài giảng khóa học Google Data Analytics.docx
Bài giảng khóa học Google Data Analytics.docx
Bài giảng khóa học Google Data Analytics.docx
Chương 3: Chuyển đổi dữ liệu
Các chức năng làm sạch dữ liệu nâng cao, phần 1
Xin chào và chào mừng trở lại. Cho đến giờ, chúng ta đã xem qua một số hàm và truy
vấn SQL cơ bản có thể giúp bạn làm sạch dữ liệu của mình. Chúng tôi cũng đã kiểm tra một
số cách bạn có thể xử lý các biến chuỗi trong SQL để giúp công việc của bạn dễ dàng hơn.
Hãy sẵn sàng để tìm hiểu thêm các hàm xử lý chuỗi trong SQL. Tin tôi đi, những chức năng
này sẽ thực sự hữu ích trong công việc của bạn với tư cách là một nhà phân tích dữ liệu.
Trong video này, chúng ta sẽ kiểm tra lại các chuỗi và tìm hiểu cách sử dụng hàm
CAST để định dạng dữ liệu chính xác. Khi bạn nhập dữ liệu chưa tồn tại trong bảng SQL của
mình, các kiểu dữ liệu từ tập dữ liệu mới có thể không được nhập chính xác. Đây là nơi chức
năng CAST có ích. CAST là một hàm SQL chuyển đổi dữ liệu từ một kiểu dữ liệu này
sang một kiểu dữ liệu khác.
Hãy xem một ví dụ. Hãy tưởng tượng chúng ta đang làm việc với cửa hàng nội thất của
Lauren. Chủ sở hữu đã thu thập dữ liệu giao dịch trong năm qua, nhưng cô ấy mới phát hiện
ra rằng họ thực sự không thể tổ chức dữ liệu của mình vì dữ liệu không được định dạng chính
xác. Chúng tôi sẽ giúp cô ấy bằng cách chuyển đổi dữ liệu của chúng tôi để làm cho nó hữu
ích trở lại. Ví dụ: giả sử chúng tôi muốn sắp xếp tất cả các giao dịch mua theo buy_price theo
thứ tự giảm dần. Điều đó có nghĩa là chúng tôi muốn giao dịch mua đắt nhất xuất hiện đầu
tiên trong kết quả của chúng tôi. Để viết truy vấn SQL, chúng ta bắt đầu với cấu trúc SQL cơ
bản.
SELECT
Purchase_price
FROM
customer_data.customer_purchase
ORDER BY
Purchase_price DESC
Tiếp theo là mệnh đề WHERE. Chúng tôi không lọc ra bất kỳ dữ liệu nào vì chúng tôi
muốn tất cả giá mua được hiển thị vì vậy chúng tôi có thể loại bỏ mệnh đề WHERE.
Cuối cùng, để sắp xếp purchase_price theo thứ tự giảm dần, chúng tôi nhập ORDER
BY purchase_price DESC vào cuối truy vấn của chúng tôi. Hãy chạy truy vấn này.
Chúng tôi thấy rằng 89,85 xuất hiện ở trên cùng với 799,99 ở bên dưới. Nhưng chúng
ta biết rằng 799,99 là một số lớn hơn 89,85. Cơ sở dữ liệu không nhận ra rằng đây là những
con số, vì vậy nó không sắp xếp chúng theo cách đó. Nếu chúng ta quay lại bảng
customer_purchase và xem lược đồ của nó, chúng ta có thể thấy kiểu dữ liệu mà cơ sở dữ liệu
cho rằng giá gạch dưới của giao dịch mua là gì. Nó nói ở đây, cơ sở dữ liệu cho rằng giá gạch
dưới mua hàng là một chuỗi, trong khi thực tế nó là một số float, là một số có chứa số thập
phân. Đó là lý do tại sao 89,85 xuất hiện trước 799,99.
Khi bắt đầu viết các chữ cái, chúng ta bắt đầu từ chữ cái đầu tiên trước khi chuyển sang
chữ cái thứ hai. Nếu chúng ta muốn sắp xếp các từ táo và cam theo thứ tự giảm dần, chúng ta
bắt đầu với các chữ cái đầu tiên a và o. Vì o đứng sau a nên màu cam sẽ xuất hiện trước, sau
đó là quả táo. Cơ sở dữ liệu cũng làm như vậy với 89,85 và 799,99. Nó bắt đầu bằng chữ cái
đầu tiên, trong trường hợp này lần lượt là 8 và 7. Vì 8 lớn hơn 7 nên cơ sở dữ liệu đã sắp xếp
89,85 trước rồi đến 799,99. Bởi vì cơ sở dữ liệu coi những chuỗi này là chuỗi văn bản, nên cơ
sở dữ liệu không nhận ra những chuỗi này là float vì chúng chưa được đánh máy để khớp với
kiểu dữ liệu đó.
Typecasting: Chuyển đổi kiểu/ ép kiểu là Chuyển đổi dữ liệu từ loại này sang loại khác.
Đó là những gì chúng ta sẽ làm với chức năng CAST. Chúng tôi sử dụng hàm CAST để thay
thế purchase_price bằng purchase_price mới mà cơ sở dữ liệu nhận dạng là float thay vì chuỗi.
Chúng tôi bắt đầu bằng cách thay thế purchase_price bằng CAST. Sau đó, chúng tôi cho SQL
biết trường mà chúng tôi muốn thay đổi, đó là trường purchase_price. Tiếp theo là kiểu dữ
liệu mà chúng ta muốn thay đổi purchase_price thành kiểu dữ liệu float.
BigQuery lưu trữ các số trong hệ thống 64 bit. Kiểu dữ liệu float được tham chiếu là
float64 trong truy vấn của chúng tôi. Điều này có thể hơi khác so với các nền tảng SQL khác,
nhưng về cơ bản, 64 và float64 chỉ cho biết rằng chúng tôi đang truyền các số trong hệ thống
64 bit dưới dạng số float. Chúng tôi cũng cần sắp xếp trường mới này, vì vậy, chúng tôi thay
đổi purchase_price sau ORDER BY để CAST giá gạch dưới mua dưới dạng float64. Đây là
cách chúng tôi sử dụng hàm CAST để cho phép SQL nhận dạng cột purchase_price dưới dạng
số float thay vì chuỗi văn bản. Bây giờ, chúng tôi có thể bắt đầu mua hàng của mình theo
purchase_price.
Cứ như vậy, cửa hàng nội thất của Lauren có dữ liệu thực sự có thể được sử dụng để
phân tích. Là một nhà phân tích dữ liệu, bạn sẽ được yêu cầu định vị và sắp xếp dữ liệu rất
nhiều, đó là lý do tại sao bạn muốn đảm bảo rằng bạn sớm chuyển đổi giữa các loại dữ liệu.
Các doanh nghiệp như cửa hàng nội thất của chúng tôi quan tâm đến dữ liệu bán hàng
kịp thời và bạn cần có khả năng giải thích điều đó trong phân tích của mình. Hàm CAST cũng
có thể được sử dụng để thay đổi chuỗi thành các loại dữ liệu khác, chẳng hạn như ngày và giờ.
Là một nhà phân tích dữ liệu, bạn có thể thấy mình sử dụng dữ liệu từ nhiều nguồn
khác nhau. Một phần công việc của bạn là đảm bảo dữ liệu từ những nguồn đó có thể nhận
dạng và sử dụng được trong cơ sở dữ liệu của bạn để bạn không gặp phải bất kỳ vấn đề nào
với phân tích của mình. Bây giờ bạn biết làm thế nào để làm điều đó. Chức năng CAST là một
công cụ tuyệt vời mà bạn có thể sử dụng khi làm sạch dữ liệu. Sắp tới, chúng tôi sẽ đề cập đến
một số chức năng nâng cao khác mà bạn có thể thêm vào hộp công cụ của mình. Hẹn gặp lại
Các chức năng làm sạch dữ liệu nâng cao, phần 2
Xin chào. Thật tuyệt khi được gặp lại bạn. Cho đến giờ, chúng ta đã thấy một số hàm
SQL đang hoạt động. Trong video này, chúng ta sẽ xem xét nhiều cách sử dụng hơn cho CAST,
sau đó tìm hiểu về CONCAT và COALESCE. Bắt đầu nào.
Trước đó chúng ta đã nói về chức năng CAST, cho phép chúng ta chuyển các chuỗi
văn bản thành các số float. Tôi đã chỉ ra rằng chức năng CAST cũng có thể được sử dụng để
thay đổi thành các loại dữ liệu khác. Hãy xem một ví dụ khác về cách bạn có thể sử dụng
CAST trong công việc dữ liệu của riêng mình. Chúng tôi đã có dữ liệu giao dịch mà chúng tôi
đang làm việc từ ví dụ về Cửa hàng nội thất của Lauren. Nhưng bây giờ, chúng ta sẽ kiểm tra
trường ngày mua hàng. Chủ cửa hàng đồ nội thất đã yêu cầu chúng tôi xem xét các giao dịch
mua diễn ra trong thời gian khuyến mãi bán hàng của họ vào tháng 12. Hãy viết một truy vấn
SQL sẽ kéo ngày và giá_mua cho tất cả các giao dịch mua diễn ra trong khoảng thời gian từ
ngày 1 tháng 12 năm 2020 đến ngày 31 tháng 12 năm 2020. Chúng ta bắt đầu bằng cách viết
cấu trúc SQL cơ bản: SELECT, FROM và WHERE.
SELECT
date, purchase_price
FROM
customer_data.customer_purchase
WHERE
Date BETWEEN ‘2020-12-01’ AND ‘2020-12-31’
Chúng tôi biết dữ liệu đến từ bảng customer_purchase trong bộ dữ liệu customer_data, vì vậy
chúng tôi viết customer_data.customer_purchase sau TỪ. Tiếp theo, chúng tôi cho SQL biết
dữ liệu nào cần lấy. Vì chúng tôi muốn ngày và giá_mua, nên chúng tôi thêm chúng vào câu
lệnh SELECT. Cuối cùng, chúng tôi muốn SQL lọc các giao dịch mua chỉ xảy ra trong tháng
12. Chúng tôi nhập ngày GIỮA '2020-12-01' AND '2020-12-31' trong mệnh đề WHERE. Hãy
chạy truy vấn.
Bốn giao dịch mua diễn ra vào tháng 12, nhưng trường ngày có vẻ lạ. Đó là bởi vì cơ
sở dữ liệu nhận dạng trường ngày này là ngày giờ, bao gồm ngày và giờ. Truy vấn SQL của
chúng tôi vẫn hoạt động chính xác, ngay cả khi trường ngày là ngày giờ thay vì ngày tháng.
Nhưng chúng ta có thể yêu cầu SQL chuyển đổi trường ngày thành kiểu dữ liệu ngày để chúng
ta chỉ thấy ngày chứ không phải thời gian. Để làm điều đó, chúng ta sử dụng lại hàm CAST().
Chúng ta sẽ sử dụng hàm CAST() để thay thế trường ngày trong câu lệnh SELECT bằng
trường ngày mới sẽ hiển thị ngày chứ không phải thời gian. Chúng tôi có thể làm điều đó bằng
cách nhập CAST() và thêm ngày làm trường mà chúng tôi muốn thay đổi. Sau đó, chúng tôi
cho SQL biết loại dữ liệu mà chúng tôi muốn thay vào đó, đó là loại dữ liệu ngày tháng. Ở đó.
Giờ đây, chúng tôi có thể có kết quả rõ ràng hơn cho các giao dịch mua xảy ra trong khoảng
thời gian giảm giá tháng 12. CAST là một chức năng cực kỳ hữu ích để làm sạch và sắp xếp
dữ liệu, đó là lý do tại sao tôi muốn bạn xem nó hoạt động một lần nữa.
Tiếp theo, hãy kiểm tra chức năng CONCAT. CONCAT cho phép bạn thêm các chuỗi
lại với nhau để tạo chuỗi văn bản mới có thể được sử dụng làm khóa duy nhất. Quay trở lại
bảng customer_purchase của chúng ta, chúng ta thấy rằng cửa hàng nội thất bán các màu khác
nhau của cùng một sản phẩm. Chủ sở hữu muốn biết liệu khách hàng có thích một số màu
nhất định hay không, vì vậy, chủ sở hữu có thể quản lý khoảng không quảng cáo của cửa hàng
cho phù hợp. Vấn đề là, product_code giống nhau, bất kể màu sản phẩm. Chúng tôi cần tìm
một cách khác để phân biệt sản phẩm theo màu sắc, nhờ đó chúng tôi có thể biết liệu khách
hàng có thích màu này hơn màu khác hay không. Chúng tôi sẽ sử dụng CONCAT để tạo một
khóa duy nhất giúp chúng tôi phân biệt các sản phẩm theo màu sắc và đếm chúng dễ dàng hơn.
Hãy viết truy vấn SQL của chúng ta bằng cách bắt đầu với cấu trúc cơ bản: SELECT, FROM
và WHERE. Chúng tôi biết dữ liệu của chúng tôi đến từ bảng customer_purchase và bộ dữ
liệu customer_data. Chúng tôi nhập "customer_data.customer_purchase" sau TỪ Tiếp theo,
chúng tôi cho SQL biết dữ liệu cần lấy. Chúng tôi sử dụng hàm CONCAT() tại đây để lấy
khóa sản phẩm và màu sắc duy nhất đó. Vì vậy, chúng tôi nhập CONCAT(), cột đầu tiên chúng
tôi muốn, product_code và cột khác chúng tôi muốn, product_color. Cuối cùng, giả sử chúng
ta muốn xem xét những chiếc ghế dài, vì vậy chúng tôi lọc những chiếc ghế dài bằng cách
nhập product = 'couch' trong mệnh đề WHERE.
Giờ đây, chúng tôi có thể đếm xem mỗi chiếc ghế dài đã được mua bao nhiêu lần và
tìm hiểu xem khách hàng có thích một màu nào hơn những màu khác hay không. Với
CONCAT, cửa hàng nội thất có thể tìm ra những chiếc ghế dài màu nào phổ biến nhất và đặt
hàng nhiều hơn.
Tôi có một chức năng nâng cao cuối cùng muốn cho bạn thấy, COALESCE.
COALESCE có thể được sử dụng để trả về các giá trị khác null trong danh sách. Giá trị null
là giá trị bị thiếu. Nếu bạn có một trường là tùy chọn trong bảng của mình, thì trường đó sẽ có
giá trị rỗng đối với các hàng không có giá trị thích hợp để đặt ở đó. Hãy mở bảng
customer_purchase để tôi có thể chỉ cho bạn ý của tôi. Trong bảng customer_purchase, chúng
ta có thể thấy một vài hàng thiếu thông tin sản phẩm. Đó là lý do tại sao chúng ta thấy null ở
đó. Nhưng đối với các hàng có tên sản phẩm là null, chúng tôi thấy rằng có dữ liệu
product_code mà chúng tôi có thể sử dụng thay thế. Chúng tôi muốn SQL hiển thị cho chúng
tôi tên sản phẩm, chẳng hạn như giường hoặc đi văng, vì chúng tôi dễ đọc hơn. Nhưng nếu
tên sản phẩm không tồn tại, chúng ta có thể yêu cầu SQL cung cấp cho chúng ta product_code
để thay thế. Đó là lúc chức năng COALESCE phát huy tác dụng. Giả sử chúng ta muốn có
một danh sách tất cả các sản phẩm đã được bán. Chúng tôi muốn sử dụng cột product_name
để hiểu loại sản phẩm nào đã được bán. Chúng tôi viết truy vấn SQL của mình với cấu trúc
SQL cơ bản: Select, From, AND Where. Chúng tôi biết dữ liệu của chúng tôi đến từ bảng
customer_purchase và bộ dữ liệu customer_data. Chúng tôi nhập
"customer_data.customer_purchase" sau TỪ. Tiếp theo, chúng tôi cho SQL biết dữ liệu chúng
tôi muốn. Chúng tôi muốn có danh sách tên sản phẩm, nhưng nếu không có tên, hãy cung cấp
cho chúng tôi mã sản phẩm. Đây là nơi chúng tôi gõ "COALESCE." sau đó chúng tôi cho
SQL biết cột nào cần kiểm tra trước, sản phẩm và cột nào cần kiểm tra thứ hai nếu cột đầu
tiên là null, product_code. Chúng tôi sẽ đặt tên trường mới này là product_info. Cuối cùng,
chúng tôi không lọc ra bất kỳ dữ liệu nào, vì vậy chúng tôi có thể loại bỏ mệnh đề WHERE.
Điều này cung cấp cho chúng tôi thông tin sản phẩm cho mỗi lần mua hàng. Bây giờ
chúng tôi có một danh sách tất cả các sản phẩm đã được bán để chủ sở hữu xem xét.
COALESCE cũng có thể giúp bạn tiết kiệm thời gian khi thực hiện các phép tính bằng cách
bỏ qua bất kỳ giá trị null nào và giữ cho phép toán của bạn chính xác.
Đó chỉ là một số chức năng nâng cao mà bạn có thể sử dụng để làm sạch dữ liệu của
mình và chuẩn bị sẵn sàng cho bước tiếp theo trong quy trình phân tích. Bạn sẽ khám phá
thêm khi tiếp tục làm việc với SQL. Nhưng đó là phần cuối của video này và mô-đun này.
Công việc tuyệt vời. Chúng tôi đã bao phủ rất nhiều nền tảng. Bạn đã học các chức năng làm
sạch dữ liệu khác nhau trong bảng tính và SQL cũng như lợi ích của việc sử dụng SQL để xử
lý các tập dữ liệu lớn. Chúng tôi cũng đã thêm một số công thức và hàm SQL vào bộ công cụ
của bạn và quan trọng nhất là chúng tôi đã trải nghiệm một số cách mà SQL có thể giúp bạn
chuẩn bị dữ liệu cho phân tích của mình. Sau đó, bạn sẽ dành thời gian tìm hiểu cách xác minh
và báo cáo kết quả làm sạch của mình để dữ liệu của bạn sạch sẽ và các bên liên quan của bạn
biết điều đó. Nhưng trước đó, bạn có một thử thách hàng tuần khác cần giải quyết. Bạn đã có
cái này. Một số khái niệm này thoạt nghe có vẻ khó khăn, nhưng chúng sẽ trở thành bản chất
thứ hai đối với bạn khi bạn thăng tiến trong sự nghiệp. Nó chỉ mất thời gian và thực hành. Nói
về thực hành, vui lòng quay lại bất kỳ video nào trong số này và xem lại hoặc thậm chí tự
mình thử một số lệnh này. Chúc may mắn. Tôi sẽ gặp lại bạn khi bạn đã sẵn sàng.
Tuần 4: Xác minh và báo cáo về kết quả làm sạch của bạn
Làm sạch dữ liệu của bạn là một bước thiết yếu trong quá trình phân tích dữ liệu. Xác
minh và báo cáo quá trình làm sạch của bạn là một cách để cho thấy rằng dữ liệu của bạn đã
sẵn sàng cho bước tiếp theo. Trong phần này của khóa học, bạn sẽ tìm hiểu các quy trình liên
quan đến việc xác minh và báo cáo việc làm sạch dữ liệu cũng như các lợi ích của chúng.
Mục tiêu học tập:
 Mô tả quy trình liên quan đến việc xác minh kết quả làm sạch dữ liệu
 Mô tả những gì liên quan đến việc làm sạch dữ liệu theo cách thủ công
 Thảo luận về các yếu tố và tầm quan trọng của báo cáo làm sạch dữ liệu
 Mô tả lợi ích của việc ghi lại quá trình làm sạch dữ liệu
Chương 1: Làm sạch dữ liệu thủ công
Kiểm tra và báo cáo kết quả
Xin chào, thật tuyệt khi có bạn trở lại. Bạn đã học được rất nhiều về tầm quan trọng
của dữ liệu sạch và khám phá một số công cụ và chiến lược để giúp bạn trong suốt quá trình
làm sạch. Trong các video này, chúng tôi sẽ đề cập đến bước tiếp theo trong quy trình: xác
minh và báo cáo về tính toàn vẹn của dữ liệu sạch của bạn.
Verification is A process to confirm that a data- cleaning effort was well-executed and
the resulting data is accurate and reliable (Sự xác minh là một quy trình để xác nhận rằng nỗ
lực làm sạch dữ liệu đã được thực hiện tốt và dữ liệu kết quả là chính xác và đáng tin cậy).
Nó liên quan đến việc kiểm tra lại tập dữ liệu sạch của bạn, thực hiện một số thao tác dọn dẹp
thủ công nếu cần và dành một chút thời gian để ngồi lại và thực sự suy nghĩ về mục đích ban
đầu của dự án. Bằng cách đó, bạn có thể tin tưởng rằng dữ liệu bạn thu thập là đáng tin cậy và
phù hợp với mục đích của bạn.
Việc đảm bảo dữ liệu của bạn được xác minh chính xác là rất quan trọng vì nó cho phép
bạn kiểm tra kỹ xem công việc bạn đã làm để làm sạch dữ liệu của mình có kỹ lưỡng và chính
xác hay không. Ví dụ: bạn có thể đã tham chiếu sai số điện thoại di động hoặc vô tình nhập
sai chính tả. Xác minh cho phép bạn bắt lỗi trước khi bắt đầu phân tích. Không có nó, bất kỳ
thông tin chi tiết nào bạn thu được từ phân tích đều không thể tin cậy để đưa ra quyết định.
Bạn thậm chí có thể gặp rủi ro khi trình bày sai về dân số hoặc làm hỏng kết quả của
một sản phẩm mà bạn đang thực sự cố gắng cải thiện. Tôi nhớ mình đã làm việc trong một dự
án mà tôi nghĩ rằng dữ liệu mình có rất sạch vì tôi đã sử dụng tất cả các công cụ và quy trình
phù hợp, nhưng khi thực hiện các bước để xác minh tính toàn vẹn của dữ liệu, tôi phát hiện ra
một dấu chấm phẩy mà tôi đã quên xóa. Nghe có vẻ như là một lỗi rất nhỏ, tôi biết, nhưng nếu
tôi không bắt được dấu chấm phẩy trong quá trình xác minh và xóa dấu chấm phẩy đó, điều
đó sẽ dẫn đến một số thay đổi lớn trong kết quả của tôi. Tất nhiên, điều đó có thể dẫn đến các
quyết định kinh doanh khác nhau.
Có một ví dụ về lý do tại sao việc xác minh lại quan trọng đến vậy. Nhưng đó không
phải là tất cả. Phần quan trọng khác của quy trình xác minh là báo cáo về những nỗ lực của
bạn. Giao tiếp cởi mở là cứu cánh cho bất kỳ dự án phân tích dữ liệu nào.
Báo cáo là một cách siêu hiệu quả để cho nhóm của bạn thấy rằng bạn minh bạch 100%
về việc làm sạch dữ liệu của mình. Báo cáo cũng là một cơ hội tuyệt vời để cho các bên liên
quan thấy rằng bạn có trách nhiệm giải trình, tạo niềm tin với nhóm của mình và đảm bảo rằng
tất cả các bạn đều nắm được thông tin chi tiết quan trọng của dự án.
Sắp tới, bạn sẽ tìm hiểu các chiến lược khác nhau để báo cáo, chẳng hạn như tạo báo
cáo làm sạch dữ liệu, ghi lại quá trình làm sạch của bạn và sử dụng thứ gọi là nhật ký thay đổi.
Changelog is A file containing a chronologically ordered list of modifications made to a
project ( Bảng ghi thay đổi là Một tệp chứa danh sách các sửa đổi theo thứ tự thời gian được
thực hiện cho một dự án). Nó thường được sắp xếp theo phiên bản và bao gồm ngày, theo sau
là danh sách các tính năng được thêm, cải tiến và xóa. Nhật ký thay đổi rất hữu ích để theo
dõi cách một bộ dữ liệu phát triển trong quá trình thực hiện dự án. Chúng cũng là một cách
tuyệt vời khác để giao tiếp và báo cáo dữ liệu cho người khác. Trong quá trình thực hiện, bạn
cũng sẽ thấy một số ví dụ về cách xác minh và báo cáo có thể giúp bạn tránh lặp lại lỗi và tiết
kiệm thời gian cho bạn và nhóm của bạn. Sẵn sàng để bắt đầu? Đi nào!
Dọn dẹp và kỳ vọng dữ liệu của bạn
Trong video này, chúng ta sẽ thảo luận về cách bắt đầu quy trình xác minh các nỗ lực
làm sạch dữ liệu của bạn. Xác minh là một phần quan trọng của bất kỳ dự án phân tích nào.
Không có nó, bạn không có cách nào biết được rằng những hiểu biết sâu sắc của bạn có thể
được dựa vào để đưa ra quyết định dựa trên dữ liệu.
Hãy nghĩ về xác minh như một con dấu phê duyệt. Để làm mới bộ nhớ của bạn, xác
minh là một quá trình để xác nhận rằng nỗ lực làm sạch dữ liệu đã được thực hiện tốt và dữ
liệu thu được là chính xác và đáng tin cậy. Nó cũng liên quan đến việc làm sạch dữ liệu theo
cách thủ công để so sánh kỳ vọng của bạn với những gì thực sự hiện có.
Bước đầu tiên trong quy trình xác minh là quay lại tập dữ liệu không sạch ban đầu của
bạn và so sánh nó với những gì bạn có hiện tại. Xem lại dữ liệu bẩn và cố gắng xác định bất
kỳ vấn đề phổ biến nào. Ví dụ: có thể bạn có rất nhiều giá trị rỗng. Trong trường hợp đó, bạn
kiểm tra dữ liệu sạch của mình để đảm bảo không có giá trị rỗng. Để làm điều đó, bạn có thể
tìm kiếm dữ liệu theo cách thủ công hoặc sử dụng các công cụ như bộ lọc hoặc định dạng có
điều kiện. Hoặc có thể có một lỗi chính tả phổ biến như ai đó nhập sai tên của một sản phẩm
nhiều lần. Trong trường hợp đó, bạn sẽ chạy FIND trong dữ liệu sạch của mình để đảm bảo
không có trường hợp từ sai chính tả nào xảy ra.
Một phần quan trọng khác của việc xác minh liên quan đến việc có một cái nhìn toàn
cảnh về dự án của bạn. Đây là cơ hội để xác nhận rằng bạn đang thực sự tập trung vào vấn đề
kinh doanh mà bạn cần giải quyết và các mục tiêu tổng thể của dự án, đồng thời đảm bảo rằng
dữ liệu của bạn thực sự có khả năng giải quyết vấn đề đó và đạt được các mục tiêu đó. Điều
quan trọng là dành thời gian để thiết lập lại và tập trung vào bức tranh toàn cảnh vì các dự án
đôi khi có thể phát triển hoặc biến đổi theo thời gian mà chúng ta không hề nhận ra.
Có thể một công ty thương mại điện tử quyết định khảo sát 1000 khách hàng để lấy
thông tin sẽ được sử dụng để cải thiện sản phẩm. Nhưng khi các phản hồi bắt đầu đến, các nhà
phân tích nhận thấy rất nhiều bình luận về việc khách hàng không hài lòng như thế nào với
nền tảng trang web thương mại điện tử. Vì vậy, các nhà phân tích bắt đầu tập trung vào đó.
Mặc dù trải nghiệm mua hàng của khách hàng tất nhiên là quan trọng đối với bất kỳ doanh
nghiệp thương mại điện tử nào, nhưng đó không phải là mục tiêu ban đầu của dự án.
Các nhà phân tích trong trường hợp này cần dành một chút thời gian để tạm dừng, tập
trung lại và quay lại giải quyết vấn đề ban đầu. Có một cái nhìn toàn cảnh về dự án của bạn
bao gồm việc thực hiện ba việc. Trước tiên, hãy xem xét vấn đề kinh doanh mà bạn đang cố
gắng giải quyết bằng dữ liệu. Nếu bạn không nhìn thấy vấn đề, bạn không có cách nào biết dữ
liệu nào thuộc về phân tích của mình. Thực hiện một cách tiếp cận vấn đề đầu tiên để phân
tích là điều cần thiết ở tất cả các giai đoạn của bất kỳ dự án nào. Bạn cần chắc chắn rằng dữ
liệu của bạn sẽ thực sự giúp giải quyết vấn đề kinh doanh của bạn.
Thứ hai, bạn cần xem xét mục tiêu của dự án. Chỉ biết rằng công ty của bạn muốn phân
tích phản hồi của khách hàng về một sản phẩm là chưa đủ. Điều bạn thực sự cần biết là mục
tiêu của việc nhận phản hồi này là để cải thiện sản phẩm đó. Trên hết, bạn cũng cần biết liệu
dữ liệu bạn đã thu thập và làm sạch có thực sự giúp công ty của bạn đạt được mục tiêu đó hay
không.
Và thứ ba, bạn cần xem xét liệu dữ liệu của bạn có khả năng giải quyết vấn đề và đáp
ứng các mục tiêu của dự án hay không. Điều đó có nghĩa là suy nghĩ xem dữ liệu đến từ đâu
và kiểm tra quy trình thu thập và làm sạch dữ liệu của bạn. Đôi khi các nhà phân tích dữ liệu
có thể quá quen thuộc với dữ liệu của chính họ, điều này khiến họ dễ bỏ sót điều gì đó hoặc
đưa ra các giả định. Yêu cầu một đồng đội xem xét dữ liệu của bạn từ một góc độ mới và nhận
phản hồi từ những người khác là rất có giá trị trong giai đoạn này. Đây cũng là lúc để thông
báo xem có bất kỳ điều gì khiến bạn nghi ngờ hoặc có thể có vấn đề trong dữ liệu của bạn hay
không.
Một lần nữa, hãy lùi lại, nhìn một bức tranh toàn cảnh và tự hỏi bản thân, những con
số có ý nghĩa không? Hãy quay lại ví dụ về công ty thương mại điện tử của chúng ta. Hãy
tưởng tượng một nhà phân tích đang xem xét dữ liệu đã được làm sạch từ cuộc khảo sát mức
độ hài lòng của khách hàng. Cuộc khảo sát ban đầu được gửi tới 1.000 khách hàng, nhưng nếu
nhà phân tích phát hiện ra rằng có hơn một nghìn phản hồi trong dữ liệu thì sao? Điều này có
thể có nghĩa là một khách hàng đã tìm ra cách thực hiện khảo sát nhiều lần. Hoặc nó cũng có
thể có nghĩa là đã xảy ra lỗi trong quá trình làm sạch dữ liệu và một trường bị trùng lặp. Dù
bằng cách nào, đây là tín hiệu cho thấy đã đến lúc quay lại quy trình làm sạch dữ liệu và khắc
phục sự cố.
Việc xác minh dữ liệu của bạn đảm bảo rằng thông tin chi tiết bạn thu được từ phân
tích có thể được tin cậy. Đó là một phần thiết yếu của quá trình làm sạch dữ liệu giúp các công
ty tránh được những sai lầm lớn. Đây là một nơi khác mà các nhà phân tích dữ liệu có thể tiết
kiệm thời gian. Sắp tới, chúng ta sẽ thực hiện các bước tiếp theo trong quy trình làm sạch dữ
liệu. Hẹn gặp bạn ở đó.
Bước cuối cùng trong quá trình làm sạch dữ liệu
Xin chào. Trong video này, chúng tôi sẽ tiếp tục xây dựng quy trình xác minh. Xin
nhắc lại, mục tiêu là để đảm bảo rằng công việc làm sạch dữ liệu của chúng tôi được thực hiện
đúng cách và kết quả có thể tin cậy được.
Bạn muốn dữ liệu của mình được xác minh để bạn biết rằng dữ liệu đã sẵn sàng hoạt
động 100%. Nó giống như việc các công ty ô tô tiến hành vô số cuộc thử nghiệm để đảm bảo
một chiếc ô tô an toàn trước khi lưu thông trên đường. Bạn đã biết rằng bước đầu tiên trong
quá trình xác minh là quay lại tập dữ liệu ban đầu, không sạch sẽ của bạn và so sánh nó với
những gì bạn có hiện tại. Đây là một cơ hội để tìm kiếm các vấn đề phổ biến. Sau đó, bạn dọn
dẹp các vấn đề theo cách thủ công. Ví dụ: bằng cách loại bỏ khoảng trắng thừa hoặc xóa dấu
ngoặc kép không mong muốn. Nhưng cũng có một số công cụ tuyệt vời để tự động sửa các lỗi
phổ biến, chẳng hạn như TRIM và loại bỏ các lỗi trùng lặp.
Trước đó, bạn đã biết rằng TRIM là một hàm loại bỏ dữ liệu và khoảng trắng ở đầu,
cuối và lặp lại. Loại bỏ các mục trùng lặp là một công cụ tự động tìm kiếm và loại bỏ các mục
nhập trùng lặp khỏi bảng tính.
Bây giờ, đôi khi bạn gặp phải một lỗi xuất hiện lặp đi lặp lại và lỗi này không thể được
giải quyết bằng chỉnh sửa thủ công nhanh hoặc một công cụ tự động khắc phục sự cố. Trong
những trường hợp này, sẽ rất hữu ích nếu bạn tạo một bảng tổng hợp. Bảng tổng hợp là một
công cụ tóm tắt dữ liệu được sử dụng trong xử lý dữ liệu. Bảng Pivot sắp xếp, sắp xếp lại,
nhóm, đếm, tổng hoặc dữ liệu trung bình được lưu trữ trong cơ sở dữ liệu.
Bây giờ chúng ta sẽ thực hành điều đó bằng cách sử dụng bảng tính từ cửa hàng đồ
dùng cho bữa tiệc.
Chương 3: Ghi lại kết quả và quá trình làm sạch
Ghi lại những thay đổi trong quá trình làm sạch
Chào bạn lần nữa nhé. Bây giờ bạn đã học được cách làm cho dữ liệu của mình trở nên
sạch sẽ, đã đến lúc xử lý tất cả những vết bẩn mà bạn đã để lại. Khi bạn xóa dữ liệu của mình,
tất cả thông tin không chính xác hoặc lỗi thời sẽ biến mất, để lại cho bạn nội dung chất lượng
cao nhất. Nhưng tất cả những thay đổi bạn đã thực hiện đối với dữ liệu cũng có giá trị. Trong
video này, chúng ta sẽ thảo luận về lý do tại sao việc theo dõi các thay đổi lại quan trọng đối
với mọi dự án dữ liệu và cách ghi lại tất cả các thay đổi làm sạch của bạn để đảm bảo mọi
người luôn được thông báo. Documentation is The process of tracking changes, additions,
deletions, and error involved in your data-cleaning effort (Tài liệu là quá trình theo dõi các
thay đổi, bổ sung, xóa và lỗi liên quan đến nỗ lực làm sạch dữ liệu của bạn).
Bạn có thể coi nó giống như một chương trình truyền hình tội phạm. Bằng chứng phạm
tội được tìm thấy tại hiện trường và được chuyển cho đội pháp y. Họ phân tích từng inch của
hiện trường và ghi lại từng bước để có thể kể một câu chuyện với bằng chứng. Rất nhiều lần,
nhà khoa học pháp y được gọi ra tòa để làm chứng về bằng chứng đó, và họ có một báo cáo
chi tiết để tham khảo.
Điều tương tự cũng áp dụng cho việc làm sạch dữ liệu. Lỗi dữ liệu là tội ác, làm sạch
dữ liệu là thu thập bằng chứng và tài liệu trình bày chi tiết chính xác những gì đã xảy ra để
đánh giá ngang hàng hoặc đưa ra tòa.
Có một bản ghi về cách một tập dữ liệu phát triển thực hiện ba điều rất quan trọng. Đầu
tiên, nó cho phép chúng tôi khôi phục các lỗi làm sạch dữ liệu. Thay vì vò đầu bứt tai, cố
gắng nhớ xem mình có thể đã làm gì ba tháng trước, chúng ta có một bảng mẹo để dựa vào
nếu sau này gặp lại những lỗi tương tự. Bạn cũng nên tạo một bảng sạch hơn là ghi đè lên
bảng hiện có của mình. Bằng cách này, bạn vẫn có dữ liệu gốc trong trường hợp cần thực hiện
lại quá trình dọn dẹp.
Thứ hai, tài liệu cung cấp cho bạn một cách để thông báo cho những người dùng
khác về những thay đổi mà bạn đã thực hiện. Nếu bạn từng đi nghỉ hoặc được thăng chức,
nhà phân tích thay bạn sẽ có một bảng tham khảo để kiểm tra.
Thứ ba, tài liệu giúp bạn xác định chất lượng của dữ liệu được sử dụng trong phân
tích. Hai lợi ích đầu tiên cho rằng các lỗi không thể sửa được. Nhưng nếu đúng như vậy, một
bản ghi sẽ cung cấp cho kỹ sư dữ liệu thêm thông tin để tham khảo. Đó cũng là một lời cảnh
báo tuyệt vời cho chúng tôi rằng bộ dữ liệu đầy lỗi và nên tránh trong tương lai. Nếu các lỗi
tốn nhiều thời gian để khắc phục, tốt hơn hết là kiểm tra các bộ dữ liệu thay thế mà chúng tôi
có thể sử dụng để thay thế.
Các nhà phân tích dữ liệu thường sử dụng nhật ký thay đổi để truy cập thông tin này.
Xin nhắc lại, nhật ký thay đổi là một tệp chứa danh sách các sửa đổi được sắp xếp theo thứ tự
thời gian được thực hiện cho một dự án. Bạn có thể sử dụng và xem nhật ký thay đổi trong
bảng tính và SQL để đạt được kết quả tương tự.
Hãy bắt đầu với bảng tính. Chúng ta có thể sử dụng lịch sử phiên bản của Trang tính,
lịch sử này cung cấp trình theo dõi thời gian thực về tất cả các thay đổi và ai đã thực hiện
chúng từ các ô riêng lẻ đến toàn bộ trang tính. Để tìm tính năng này, hãy bấm vào tab Tệp, rồi
chọn Lịch sử phiên bản. Trong bảng bên phải, chọn một phiên bản cũ hơn. Chúng tôi có thể
tìm thấy ai đã chỉnh sửa tệp và những thay đổi họ đã thực hiện trong cột bên cạnh tên của họ.
Để quay lại phiên bản hiện tại, hãy chuyển lên trên cùng bên trái và nhấp vào "Quay
lại". Nếu muốn kiểm tra các thay đổi trong một ô cụ thể, chúng ta có thể nhấp chuột phải và
chọn Hiển thị lịch sử chỉnh sửa. Ngoài ra, nếu bạn muốn người khác có thể duyệt qua lịch sử
phiên bản của một trang tính, bạn sẽ cần chỉ định quyền.
Bây giờ hãy chuyển hướng và nói về SQL. Cách bạn tạo và xem nhật ký thay đổi bằng
SQL tùy thuộc vào chương trình phần mềm bạn đang sử dụng. Một số công ty thậm chí còn
có phần mềm riêng để theo dõi nhật ký thay đổi và các truy vấn SQL quan trọng. Điều này trở
nên khá tiên tiến. Về cơ bản, tất cả những gì bạn phải làm là xác định chính xác những gì bạn
đã làm và tại sao khi bạn gửi một truy vấn tới kho lưu trữ dưới dạng một truy vấn mới và được
cải thiện. Điều này cho phép công ty hoàn nguyên về phiên bản trước nếu bạn làm gì đó làm
hỏng hệ thống, điều này đã từng xảy ra với tôi trước đây.
Một tùy chọn khác là chỉ thêm nhận xét khi bạn thực hiện trong khi xóa dữ liệu trong
SQL. Điều này sẽ giúp bạn xây dựng nhật ký thay đổi của mình sau khi thực tế xảy ra. Hiện
tại, chúng tôi sẽ kiểm tra lịch sử truy vấn, theo dõi tất cả các truy vấn bạn đã chạy. Bạn có thể
nhấp vào bất kỳ trong số chúng để hoàn nguyên về phiên bản trước của truy vấn của mình
hoặc hiển thị phiên bản cũ hơn để tìm những gì bạn đã thay đổi. Đây là những gì chúng tôi đã
có.
Tôi đang ở tab Lịch sử truy vấn. Được liệt kê ở dưới cùng bên phải là tất cả các truy
vấn chạy theo ngày và giờ. Bạn có thể nhấp vào biểu tượng này ở bên phải của từng truy vấn
riêng lẻ để hiển thị truy vấn đó trong trình chỉnh sửa Truy vấn. Nhật ký thay đổi như thế này
là một cách tuyệt vời để giúp bạn đi đúng hướng. Nó cũng cho phép nhóm của bạn nhận được
các bản cập nhật theo thời gian thực khi họ muốn. Nhưng có một cách khác để giữ cho thông
tin liên lạc trôi chảy, đó là báo cáo.
Hãy tiếp tục và bạn sẽ học được một số cách dễ dàng để chia sẻ tài liệu của mình và có
thể gây ấn tượng với các bên liên quan trong quá trình này. Hẹn gặp lại các bạn trong video
tiếp theo.
Tại sao tài liệu lại quan trọng
Tuyệt vời, bạn đã trở lại. Hãy chuẩn bị sẵn sàng. Tội ác là dữ liệu bẩn. Chúng tôi đã
thu thập bằng chứng. Nó đã được làm sạch, xác minh và làm sạch lại. Bây giờ là lúc để trình
bày bằng chứng của chúng tôi.
Chúng tôi sẽ tìm lại các bước và trình bày trường hợp của chúng tôi với các đồng nghiệp
của chúng tôi. Như chúng ta đã thảo luận trước đó, việc làm sạch, xác minh và báo cáo dữ liệu
rất giống với phim tội phạm. Bây giờ là ngày của chúng ta ở tòa án. Giống như một nhà khoa
học pháp y làm chứng tại chỗ về bằng chứng, các nhà phân tích dữ liệu được tin tưởng sẽ trình
bày những phát hiện của họ sau nỗ lực làm sạch dữ liệu.
Trước đó, chúng tôi đã học cách lập tài liệu và theo dõi từng bước của quy trình làm
sạch dữ liệu, điều đó có nghĩa là chúng tôi có thông tin chắc chắn để lấy từ đó. Nhắc lại nhanh,
tài liệu là quá trình theo dõi các thay đổi, bổ sung, xóa và lỗi liên quan đến nỗ lực làm sạch dữ
liệu, nhật ký thay đổi là ví dụ điển hình về điều này. Vì nó được dàn dựng theo trình tự thời
gian nên nó cung cấp tài khoản theo thời gian thực cho mọi sửa đổi. Tài liệu sẽ giúp bạn tiết
kiệm thời gian rất nhiều với tư cách là nhà phân tích dữ liệu trong tương lai.
Về cơ bản, đây là một trang phục mà bạn có thể tham khảo nếu đang làm việc với tập
dữ liệu tương tự hoặc cần giải quyết các lỗi tương tự. Mặc dù nhóm của bạn có thể xem nhật
ký thay đổi trực tiếp nhưng các bên liên quan không thể và phải dựa vào báo cáo của bạn để
biết bạn đã làm gì.
Hãy xem cách chúng tôi có thể ghi lại quy trình làm sạch dữ liệu của mình bằng cách
sử dụng ví dụ mà chúng tôi đã làm việc trước đó. Trong ví dụ đó, chúng tôi thấy rằng hiệp hội
này có hai trường hợp thành viên giống nhau với giá 500 đô la trong cơ sở dữ liệu của hiệp
hội. Chúng tôi đã quyết định khắc phục sự cố này theo cách thủ công bằng cách xóa thông tin
trùng lặp. Có rất nhiều cách chúng ta có thể thực hiện để ghi lại những gì chúng ta đã làm.
Một cách phổ biến là chỉ tạo một tài liệu liệt kê các bước chúng tôi đã thực hiện và tác động
của chúng. Ví dụ: đầu tiên trong danh sách của bạn là bạn xóa phiên bản trùng lặp, giúp giảm
số lượng hàng từ 33 xuống 32 và giảm tổng số thành viên xuống $500.
Nếu đang làm việc với SQL, chúng ta có thể đưa chú thích vào câu lệnh mô tả lý do
thay đổi mà không ảnh hưởng đến việc thực thi câu lệnh. Đó là một cái gì đó cao cấp hơn một
chút, mà chúng ta sẽ nói về sau.
Bất kể chúng tôi nắm bắt và chia sẻ nhật ký thay đổi của mình như thế nào, chúng tôi
đang chuẩn bị cho thành công bằng cách minh bạch 100% về việc làm sạch dữ liệu của mình.
Điều này giúp mọi người thống nhất quan điểm và cho các bên liên quan của dự án thấy rằng
chúng tôi chịu trách nhiệm về các quy trình hiệu quả. Nói cách khác, điều này giúp xây dựng
uy tín của chúng ta với tư cách là những nhân chứng đáng tin cậy để trình bày tất cả các bằng
chứng một cách chính xác trong quá trình lấy lời khai. Đối với dữ liệu bẩn, đó là trường hợp
mở và đóng.
Phản hồi và làm sạch
Chào mừng trở lại. Hiện tại, có thể nói rằng việc xác minh, lập tài liệu và báo cáo là
những bước có giá trị trong quy trình làm sạch dữ liệu. Bạn có bằng chứng để cung cấp cho
các bên liên quan rằng dữ liệu của bạn là chính xác và đáng tin cậy. Và nỗ lực để đạt được nó
đã được thực hiện tốt và được ghi lại.
Bước tiếp theo là nhận phản hồi về bằng chứng và sử dụng nó cho mục đích tốt, chúng
tôi sẽ đề cập đến điều này trong video này. Dữ liệu sạch rất quan trọng đối với nhiệm vụ hiện
tại. Nhưng bản thân quá trình làm sạch dữ liệu có thể tiết lộ những hiểu biết hữu ích cho doanh
nghiệp. Phản hồi chúng tôi nhận được khi báo cáo về quá trình làm sạch của mình có thể thay
đổi quy trình thu thập dữ liệu và cuối cùng là phát triển kinh doanh.
Ví dụ, một trong những thách thức lớn nhất khi làm việc với dữ liệu là xử lý lỗi. Một
số lỗi phổ biến nhất liên quan đến lỗi của con người như nhập sai hoặc viết sai chính tả, các
quy trình bị lỗi như thiết kế mẫu khảo sát kém và các sự cố hệ thống trong đó các hệ thống cũ
tích hợp dữ liệu không chính xác. Dù lý do là gì, việc làm sạch dữ liệu có thể làm sáng tỏ bản
chất và mức độ nghiêm trọng của các quy trình tạo lỗi.
Với tài liệu và báo cáo nhất quán, chúng tôi có thể phát hiện ra các mẫu lỗi trong quy
trình nhập và thu thập dữ liệu, đồng thời sử dụng phản hồi mà chúng tôi nhận được để đảm
bảo các lỗi phổ biến không lặp lại. Có lẽ chúng ta cần lập trình lại cách thu thập dữ liệu hoặc
thay đổi các câu hỏi cụ thể trên mẫu khảo sát.
Trong những trường hợp cực đoan hơn, phản hồi mà chúng tôi nhận được thậm chí có
thể đưa chúng tôi trở lại bảng vẽ để suy nghĩ lại về các kỳ vọng và có thể cập nhật các quy
trình kiểm soát chất lượng. Ví dụ: đôi khi sẽ hữu ích khi lên lịch cuộc họp với kỹ sư dữ liệu
hoặc chủ sở hữu dữ liệu để đảm bảo dữ liệu được đưa vào đúng cách và không yêu cầu phải
làm sạch liên tục.
Khi các lỗi đã được xác định và giải quyết, các bên liên quan có dữ liệu mà họ có thể
tin tưởng để ra quyết định. Và bằng cách giảm các lỗi và sự thiếu hiệu quả trong việc thu thập
dữ liệu, công ty có thể phát hiện ra những khoản tăng lớn cho lợi nhuận của mình. Chúc mừng!
Bây giờ bạn đã có nền tảng cần thiết để xác minh thành công báo cáo về kết quả làm sạch của
mình. Hãy theo dõi để tiếp tục xây dựng các kỹ năng mới của bạn.
Tuần 5: Thêm dữ liệu vào sơ yếu lý lịch của bạn
Tạo một sơ yếu lý lịch hiệu quả sẽ giúp bạn trên con đường sự nghiệp phân tích dữ liệu
của mình. Trong phần này của khóa học, bạn sẽ tìm hiểu tất cả về quy trình xin việc, tập trung
vào việc tạo một bản sơ yếu lý lịch làm nổi bật điểm mạnh và kinh nghiệm áp dụng của bạn.
Ngay cả khi bạn chưa nộp đơn xin việc, đây vẫn là thời điểm tốt để cải thiện sơ yếu lý lịch của
bạn. Nó giống như đào tạo mùa xuân cho mùa giải đầu tiên trong một giải đấu lớn-bạn không
muốn bỏ lỡ nó!
Mục tiêu học tập:
 Xác định các yếu tố chính của sơ yếu lý lịch phân tích dữ liệu
 Thể hiện sự hiểu biết về kinh nghiệm trước đây có thể được thêm vào sơ yếu lý lịch
như thế nào
 Thảo luận về cách mô tả công việc của nhà phân tích dữ liệu có thể phù hợp với một
lĩnh vực quan tâm cụ thể
Chương 1: Quy trình tuyển dụng chuyên viên phân tích dữ liệu
Giới thiệu về quy trình tuyển dụng chuyên viên phân tích dữ liệu
Này, cảm ơn vì đã ghé qua một lần nữa. So, trước đó chúng tôi đã kiểm tra một số con
đường sự nghiệp tiềm năng có thể mở ra cho bạn sau khi bạn hoàn thành chương trình. Bạn
cũng có thể đã khám phá những lợi ích của việc kết nối mạng và xây dựng sự hiện diện trực
tuyến. Và tôi muốn nói với bạn rằng chỉ bằng cách ở đây bây giờ, bạn đã cho thấy bạn đã cam
kết. Bạn đang thực hiện một bước tiến lớn trong sự nghiệp tương lai của mình.
Sắp tới, chúng ta sẽ dành thời gian xây dựng sơ yếu lý lịch của bạn. Bạn có thể đã có
một sơ yếu lý lịch mà bạn đã sử dụng hoặc đang lưu và điều đó thật tuyệt. Có một cơ hội tốt
là bạn vẫn có thể sử dụng nó ngay cả khi bạn dự định chuyển đổi nghề nghiệp. Chúng ta sẽ
cùng nhau tìm hiểu xem bạn có thể muốn thực hiện những loại thay đổi nào đối với sơ yếu lý
lịch của mình. Nhưng trước đó, chúng ta sẽ tìm hiểu toàn bộ quá trình nộp đơn là như thế nào.
Sau đó, chúng ta sẽ khám phá cách tốt nhất để viết hoặc điều chỉnh sơ yếu lý lịch của
bạn sao cho trông chuyên nghiệp nhất có thể và sẵn sàng cho vai trò là nhà phân tích dữ liệu
của bạn. Chúng tôi cũng sẽ xem qua một số ví dụ về các sơ yếu lý lịch khác.
Sau đó, chúng tôi sẽ yêu cầu bạn tự phân tích một chút khi chúng tôi xem xét các loại
công việc phân tích dữ liệu khác nhau hiện có, vì vậy bạn có thể nghĩ xem công việc nào phù
hợp nhất với mình. Mặc dù tôi chắc chắn không phải là cố vấn nghề nghiệp, nhưng chúng ta
vẫn có thể coi đây là một loại buổi tư vấn nghề nghiệp. Bạn sẽ có ý tưởng tốt hơn về cách xây
dựng sơ yếu lý lịch của mình đồng thời suy nghĩ về bức tranh sự nghiệp lớn hơn của mình.
Vậy hãy bắt đầu!
Quy trình xin việc của nhà phân tích dữ liệu
Chào bạn lần nữa nhé. Ngay bây giờ, có vẻ như là thời điểm hoàn hảo để lùi lại một
bước khỏi việc tìm hiểu về phân tích dữ liệu, để bạn có thể hào hứng với những gì sẽ xảy ra
sau khi bạn hoàn thành ở đây. Con đường tìm việc có thể đầy thử thách, nhưng bạn đang xây
dựng bộ kỹ năng của mình và học những điều cần thiết để trở thành một nhà phân tích dữ liệu.
Trong video này, chúng tôi sẽ đề cập đến những gì bạn có thể mong đợi từ quá trình
tìm kiếm việc làm của mình, cùng với một số mẹo sử dụng các kỹ năng và kiến thức mới tìm
được để giúp quá trình tìm kiếm của bạn dễ dàng hơn.
Tôi nhớ khi tôi mới bắt đầu. Tôi đã liên hệ với càng nhiều người càng tốt để tìm hiểu
về con đường sự nghiệp, công ty và vai trò của họ. Tôi muốn có được một ý tưởng tốt về
những gì mong đợi. Và đó là những gì chúng tôi đang làm bây giờ: cung cấp cho bạn ý tưởng
về những gì sẽ xảy ra trong quá trình tìm kiếm việc làm của chính bạn. Điều quan trọng cần
nhớ là tìm kiếm của mọi người sẽ khác nhau. Nó có thể phụ thuộc vào nơi bạn sống, sở thích
của bạn trong lĩnh vực này và sở thích cá nhân, chẳng hạn như loại môi trường làm việc mà
bạn cảm thấy thoải mái.
Cách phổ biến nhất để bắt đầu là kiểm tra các công việc có sẵn. Có rất nhiều trang web
việc làm được xây dựng dành riêng cho những người tìm kiếm việc làm. Bạn cũng có thể truy
cập các trang web của công ty, nơi họ cũng thường đăng danh sách việc làm. Các trang web
này thậm chí có thể có tùy chọn gửi thông báo cho bạn khi có vai trò phù hợp với tìm kiếm
của bạn. Sau khi bạn tìm thấy một số công ty ưng ý, hãy thực hiện một số nghiên cứu để tìm
hiểu thêm về các công ty và thông tin chi tiết về các vị trí cụ thể mà bạn sẽ ứng tuyển. Sau đó,
bạn có thể cập nhật sơ yếu lý lịch của mình hoặc tạo một sơ yếu lý lịch mới. Bạn sẽ muốn nó
cụ thể và phản ánh những gì mỗi công ty đang tìm kiếm. Nhưng bạn chắc chắn có thể có một
sơ yếu lý lịch chính mà bạn điều chỉnh cho từng vị trí. Nó cũng có thể hữu ích để tạo một bảng
tính với tất cả kinh nghiệm và thành tích của bạn để giúp bạn quyết định những gì cần đưa vào
sơ yếu lý lịch của bạn cho mỗi người.
Nếu bạn đang sử dụng một trang mạng chuyên nghiệp như LinkedIn, bạn có thể đã có
những kết nối có thể giúp bạn tìm kiếm việc làm. Có thể bạn biết ai đó có thể viết thư giới
thiệu cho bạn hoặc biết một công việc trong công ty của họ phù hợp với bạn. Và ngay cả khi
bạn không gặp may mắn với các mối quan hệ của mình, bạn cũng có thể liên hệ với nhân viên
của các công ty mà bạn quan tâm. Họ có thể cung cấp cho bạn một số thông tin chi tiết về
những cách tốt nhất để làm nổi bật các kỹ năng và kinh nghiệm của bạn khi ứng tuyển. Và,
không sao nếu họ không viết lại. Tiếp tục cố gắng!
Đây có lẽ là thời điểm tốt để kể cho bạn nghe về phần thử thách nhất trong quá trình
tìm kiếm việc làm: nghe từ "không". Bạn có thể sẽ nghe thấy nó rất nhiều, và điều đó 100%
không sao cả. Đó là một phần kinh nghiệm của mọi người, đặc biệt là khi thay đổi con đường
sự nghiệp. Những người bạn tiếp cận có thể không giúp được bạn. Các công ty bạn muốn làm
việc có thể không có bất kỳ cơ hội nào. Công việc bạn ứng tuyển có thể được lấp đầy bởi
người khác, và đó là một phần của quá trình. Điều quan trọng là phải tập trung. Đừng nản lòng,
và trên hết hãy tin vào chính mình.
Được rồi, bài phát biểu kết thúc, nhưng đừng quên nó, nếu không tôi sẽ buộc phải phát
biểu nhiều hơn. Vì vậy, trở lại tìm kiếm của bạn. Nếu công ty bạn đang ứng tuyển quan tâm,
đầu mối liên hệ đầu tiên của bạn có thể là nhà tuyển dụng. Nhà tuyển dụng cũng có thể liên
hệ với bạn dựa trên nghiên cứu của riêng họ. Họ có thể tìm thấy hồ sơ chuyên nghiệp của bạn
trực tuyến và nghĩ rằng bạn là người phù hợp cho một vị trí. Nhắc mới nhớ, đó là một lý do
khác để tiếp tục xây dựng và làm mới hồ sơ trực tuyến của bạn. Các nhà tuyển dụng ở đó để
đảm bảo bạn là ứng viên hợp pháp cho công việc được đăng trong phần mô tả. Vì vậy, khi bạn
nói chuyện với nhà tuyển dụng, dù qua điện thoại, trực tuyến hay gặp trực tiếp, hãy tỏ ra
chuyên nghiệp và lịch sự. Đó là điều tự nhiên để cảm thấy lo lắng ở đây. Vì vậy, có thể hữu
ích khi tham khảo lại sơ yếu lý lịch của bạn để khiến họ thán phục với kiến thức của bạn về
ngành phân tích dữ liệu.
Và hãy nhớ rằng, các nhà tuyển dụng cũng đang tìm kiếm ai đó và họ hy vọng đó sẽ là
bạn. Đây là một mẹo khác. Sử dụng các thuật ngữ kỹ thuật như "SQL" và "dữ liệu sạch" sẽ
cho nhà tuyển dụng thấy rằng bạn biết mình đang làm gì. Các nhà tuyển dụng có thể sẽ không
đi vào quá nhiều chi tiết về những thứ bên trong và bên ngoài. Nhưng họ muốn thấy rằng bạn
biết bạn đang nói về điều gì. Họ cũng có thể cung cấp cho bạn tài liệu chuẩn bị hoặc các đề
xuất khác. Hãy tận dụng những điều này vì nhà tuyển dụng muốn bạn làm tốt.
Tiếp theo thường là người quản lý tuyển dụng. Đây là bước quan trọng nhất. Công việc
của người quản lý tuyển dụng là đánh giá xem bạn có khả năng thực hiện công việc hay không
và liệu bạn có phù hợp với nhóm của họ hay không. Công việc của bạn là thuyết phục họ rằng
có, bạn có và có, bạn sẽ như vậy. Một điều tốt bạn có thể làm ở đây là sử dụng LinkedIn hoặc
các trang web chuyên nghiệp khác để nghiên cứu các nhà quản lý tuyển dụng hoặc thậm chí
các nhà phân tích khác có vai trò tương tự với vị trí bạn đang ứng tuyển. Bạn càng có nhiều
thông tin về công việc, bạn càng có cơ hội thực sự nhận được nó. Bạn cũng nên tận dụng cơ
hội này để đặt nhiều câu hỏi nhằm giúp bạn tìm hiểu xem công ty có phù hợp với bạn không.
Bạn cũng có thể làm điều này khi nói chuyện với nhà tuyển dụng.
Bây giờ nếu người quản lý tuyển dụng thấy bạn phù hợp, rất có thể bạn sẽ có ít nhất
một cuộc phỏng vấn nữa. Mục đích của những cuộc phỏng vấn này là để các bên liên quan và
đồng đội trong tương lai của bạn có cơ hội quyết định xem bạn có phải là ứng cử viên tốt nhất
cho vị trí này hay không. Bước tiếp theo là bước tốt nhất. Nếu mọi việc suôn sẻ, bạn sẽ nhận
được một đề nghị chính thức. Thường là qua điện thoại trước và có thể sau đó là một lá thư
chính thức. Tại thời điểm này, hãy thoải mái để ăn mừng. Gọi tất cả mọi người và ăn mừng
một số chi tiết. Nhưng ngay cả khi đó là công việc mơ ước của bạn, hãy chắc chắn rằng đó là
một đề nghị cạnh tranh trước khi bạn ký hợp đồng. Hãy nhớ rằng, nếu họ liên hệ với bạn bằng
một đề nghị, điều đó có nghĩa là họ muốn bạn nhiều như bạn muốn họ. Nếu bạn đang phỏng
vấn ở những nơi khác, bạn có thể tận dụng điều này để tìm hiểu xem liệu có thể đàm phán để
có được lời đề nghị cạnh tranh hơn hay không. Bạn cũng nên nghiên cứu về tiền lương, phúc
lợi, thời gian nghỉ phép và bất kỳ yếu tố nào khác quan trọng đối với bạn đối với các công
việc tương tự. Nếu bạn có thể đưa ra nghiên cứu cụ thể như công ty X trả nhiều tiền hơn cho
Y cho cùng một vai trò, thì thường có một số cơ hội để bạn thương lượng về lương, ngày nghỉ
phép hoặc điều gì đó khác.
Hãy nhớ rằng bạn sẽ cần tìm sự cân bằng giữa những gì bạn muốn, những gì họ muốn
cung cấp cho bạn và những gì công bằng. Vì vậy, hãy biết giá trị của bản thân nhưng cũng
hiểu rằng công ty tuyển dụng bạn đã đặt một giá trị nhất định cho vai trò của bạn.
Được rồi, giả sử rằng mọi thứ đều suôn sẻ và bạn hài lòng với thỏa thuận đã thương
lượng và hào hứng tham gia nhóm mới của mình. Ngay cả khi đó, hãy tạm dừng và dành cho
bản thân ít nhất hai tuần trước khi bạn chính thức bắt đầu. Tại sao? Chà, nếu bạn đã được
tuyển dụng ở một nơi khác trong quá trình tìm kiếm việc làm của mình, theo thông lệ và lịch
sự, bạn nên thông báo trước ít nhất hai tuần về công việc cũ trước khi bắt đầu công việc mới.
Ngoài ra, thật tốt khi cho bản thân nghỉ ngơi trước khi bắt đầu cuộc phiêu lưu mới thú vị. Bạn
đã kiếm được nó. Đến bây giờ, bạn nên có một ý tưởng khá hay về những gì sẽ xảy ra khi bạn
bắt đầu tìm kiếm công việc phân tích dữ liệu của mình. Sắp tới chúng ta sẽ nói nhiều hơn về
việc xây dựng sơ yếu lý lịch của bạn. Hẹn gặp lại các bạn trong video tiếp theo.
Tạo sơ yếu lý lịch
Tuyệt vời, bạn đã trở lại. Khi bạn chụp ảnh, bạn thường cố chụp nhiều thứ khác nhau
trong một ảnh. Có thể bạn đang chụp ảnh hoàng hôn và muốn chụp những đám mây, hàng cây
và những ngọn núi. Về cơ bản, bạn muốn chụp nhanh toàn bộ khoảnh khắc đó.
Bạn có thể nghĩ về việc xây dựng một sơ yếu lý lịch theo cách tương tự. Bạn muốn sơ
yếu lý lịch của mình là một bản chụp nhanh tất cả những gì bạn đã làm cả ở trường học và
nghề nghiệp. Trong video này, chúng ta sẽ thực hiện quy trình xây dựng một sơ yếu lý lịch
mà bạn cũng có thể thêm thông tin chi tiết của riêng mình.
Hãy ghi nhớ đây là một ảnh chụp nhanh. Khi các nhà quản lý và nhà tuyển dụng nhìn
vào những gì bạn đã đưa vào sơ yếu lý lịch của mình, họ sẽ có thể biết ngay những gì bạn có
thể cung cấp cho công ty của họ. Chìa khóa ở đây là ngắn gọn. Cố gắng giữ mọi thứ trong
một trang và mỗi mô tả chỉ có một vài gạch đầu dòng. Hai đến bốn gạch đầu dòng là đủ
nhưng hãy nhớ giữ cho các gạch đầu dòng của bạn thật ngắn gọn. Tập trung vào một trang sẽ
giúp bạn tập trung vào những chi tiết phản ánh đúng nhất con người bạn hoặc con người bạn
muốn trở thành một cách chuyên nghiệp. Một trang cũng có thể là tất cả những gì mà người
quản lý tuyển dụng và nhà tuyển dụng có thời gian xem xét. Họ là những người bận rộn, vì
vậy bạn muốn thu hút sự chú ý của họ bằng sơ yếu lý lịch của mình càng nhanh càng tốt.
Bây giờ hãy nói về việc thực sự xây dựng sơ yếu lý lịch của bạn. Đây là lúc các mẫu
xuất hiện. Chúng là một cách tuyệt vời để xây dựng một sơ yếu lý lịch hoàn toàn mới hoặc
định dạng lại sơ yếu lý lịch mà bạn đã có. Các chương trình như Microsoft Word hoặc Google
Docs và thậm chí một số trang web tìm kiếm việc làm đều có các mẫu mà bạn có thể sử dụng.
Mẫu có chỗ dành sẵn cho thông tin bạn cần nhập và các yếu tố thiết kế riêng của mẫu để làm
cho sơ yếu lý lịch của bạn trông hấp dẫn. Bạn sẽ có cơ hội khám phá tùy chọn này sau một
thời gian sau.
Hiện tại, chúng ta sẽ xem qua các bước bạn có thể thực hiện để làm cho sơ yếu lý lịch
của mình trở nên chuyên nghiệp, dễ đọc và không có lỗi. Nếu bạn đã có tài liệu sơ yếu lý lịch,
bạn có thể sử dụng các bước sau để chỉnh sửa nó. Hiện nay, có nhiều cách để xây dựng sơ yếu
lý lịch, nhưng hầu hết đều có thông tin liên hệ ở đầu tài liệu. Điều này bao gồm tên, địa chỉ,
số điện thoại và địa chỉ email của bạn. Nếu bạn có nhiều địa chỉ email hoặc số điện thoại, hãy
sử dụng những địa chỉ đáng tin cậy và chuyên nghiệp nhất. Cũng thật tuyệt nếu bạn có thể sử
dụng họ và tên của mình trong địa chỉ email của mình, chẳng hạn như janedoe17@email.com.
Bạn cũng nên đảm bảo rằng thông tin liên hệ của mình khớp với các chi tiết mà bạn đã
đưa vào các trang web chuyên nghiệp. Mặc dù hầu hết các sơ yếu lý lịch đều có thông tin liên
hệ ở cùng một nơi, nhưng cách bạn tổ chức thông tin đó tùy thuộc vào bạn.
Một định dạng tập trung nhiều hơn vào các kỹ năng và trình độ và ít hơn vào lịch sử
công việc sẽ rất tốt cho những người có khoảng trống trong lịch sử công việc của họ. Nó cũng
tốt cho những người mới bắt đầu sự nghiệp hoặc đang thay đổi nghề nghiệp và đó có thể là
bạn. Nếu bạn muốn làm nổi bật quá trình làm việc của mình, vui lòng đưa vào các chi tiết về
kinh nghiệm làm việc của bạn bắt đầu từ công việc gần đây nhất của bạn. Nếu bạn đã có nhiều
công việc liên quan đến vị trí mới mà bạn đang ứng tuyển, thì định dạng này rất hợp lý. Nếu
bạn đang chỉnh sửa sơ yếu lý lịch mà bạn đã có, bạn có thể giữ nguyên định dạng đó và điều
chỉnh các chi tiết. Nếu bạn đang bắt đầu một cái mới hoặc lần đầu tiên xây dựng một sơ yếu
lý lịch, hãy chọn định dạng phù hợp nhất với bạn.
Có rất nhiều nguồn sơ yếu lý lịch trực tuyến. Bạn nên duyệt qua một loạt các sơ yếu lý
lịch khác nhau để có ý tưởng về các định dạng mà bạn cho là phù hợp nhất với mình. Khi bạn
đã quyết định định dạng của mình, bạn có thể bắt đầu thêm thông tin chi tiết của mình. Một
số sơ yếu lý lịch bắt đầu bằng phần tóm tắt, nhưng phần này không bắt buộc. Bản tóm tắt có
thể hữu ích nếu bạn có kinh nghiệm không phải là truyền thống đối với nhà phân tích dữ liệu
hoặc nếu bạn đang chuyển đổi nghề nghiệp. Nếu bạn quyết định đưa vào phần tóm tắt, hãy
giữ nó trong một hoặc hai câu làm nổi bật điểm mạnh của bạn và cách bạn có thể giúp ích cho
công ty mà bạn đang ứng tuyển. Bạn cũng sẽ muốn đảm bảo rằng phần tóm tắt của mình bao
gồm những từ tích cực về bản thân, chẳng hạn như tận tâm và chủ động. Bạn có thể hỗ trợ
những từ đó bằng dữ liệu, chẳng hạn như số năm bạn đã làm việc hoặc các công cụ bạn đã trải
nghiệm như SQL và bảng tính. Một bản tóm tắt có thể bắt đầu với một cái gì đó như đại diện
dịch vụ khách hàng chăm chỉ với hơn năm năm kinh nghiệm.
Khi bạn đã hoàn thành chương trình này và có chứng chỉ của mình, bạn cũng có thể
bao gồm chứng chỉ đó, có thể giống như thế này, "chuyên gia phân tích dữ liệu cấp đầu vào
gần đây đã hoàn thành Chứng chỉ Chuyên gia Google Data Analytics." Nghe khá tốt, phải
không?
Một tùy chọn khác là để lại một trình giữ chỗ cho bản tóm tắt của bạn trong khi bạn
xây dựng phần còn lại của sơ yếu lý lịch và sau đó viết nó sau khi bạn hoàn thành các phần
khác. Bằng cách này, bạn có thể xem lại các kỹ năng và kinh nghiệm mà bạn đã đề cập và lấy
hai hoặc ba điểm nổi bật để sử dụng trong bản tóm tắt của mình. Bạn cũng nên lưu ý rằng bản
tóm tắt có thể thay đổi một chút khi bạn nộp đơn cho các công việc khác nhau. Nếu bạn đang
bao gồm phần kinh nghiệm làm việc, bạn có thể thêm nhiều loại kinh nghiệm khác nhau.
Ngoài công việc với các công ty khác, bạn cũng có thể bao gồm các vị trí tình nguyện mà bạn
đã có và bất kỳ công việc tự do hoặc công việc phụ nào bạn đã làm.
Chìa khóa ở đây là cách bạn mô tả những trải nghiệm này. Cố gắng mô tả công việc
bạn đã làm theo cách có liên quan đến vị trí bạn đang ứng tuyển. Hầu hết các mô tả công việc
đều có trình độ hoặc yêu cầu tối thiểu được liệt kê. Đây là những kinh nghiệm, kỹ năng và
trình độ học vấn mà bạn sẽ cần được xem xét cho công việc. Điều quan trọng là phải nêu rõ
chúng trong sơ yếu lý lịch của bạn.
Nếu bạn là một người phù hợp, bước tiếp theo là kiểm tra các bằng cấp ưa thích, mà
rất nhiều bản mô tả công việc cũng bao gồm. Những điều này không bắt buộc, nhưng mọi
bằng cấp bổ sung mà bạn phù hợp sẽ khiến bạn trở thành ứng cử viên cạnh tranh hơn cho vai
trò này. Bao gồm bất kỳ phần nào trong kỹ năng và kinh nghiệm của bạn phù hợp với mô tả
công việc sẽ giúp hồ sơ của bạn vượt lên trên đối thủ.
Nếu danh sách công việc mô tả trách nhiệm công việc là "quản lý tài nguyên dữ liệu
hiệu quả", thì bạn sẽ muốn có mô tả của riêng mình phản ánh trách nhiệm đó. Ví dụ: nếu bạn
tình nguyện hoặc làm việc tại một trường học địa phương hoặc trung tâm cộng đồng, bạn có
thể nói rằng bạn "đã quản lý hiệu quả các nguồn lực cho các hoạt động sau giờ học". Sau này,
bạn sẽ tìm hiểu thêm nhiều cách để làm cho lịch sử công việc phù hợp với bạn. Thật hữu ích
khi mô tả các kỹ năng và trình độ của bạn theo cùng một cách. Ví dụ: nếu danh sách nói về tổ
chức và hợp tác với những người khác, hãy thử nghĩ về những trải nghiệm liên quan mà bạn
đã có. Có thể bạn đã giúp tổ chức ổ đĩa thức ăn hoặc hợp tác với ai đó để bắt đầu kinh doanh
trực tuyến. Trong phần mô tả của mình, bạn muốn làm nổi bật tác động mà bạn đã có trong
vai trò của mình, cũng như tác động của vai trò đó đối với bạn. Nếu bạn đã giúp một doanh
nghiệp bắt đầu hoặc đạt đến một tầm cao mới, hãy nói về trải nghiệm đó và bạn đã đóng góp
một phần như thế nào trong đó. Hoặc nếu bạn làm việc tại một cửa hàng khi cửa hàng mới mở,
bạn có thể nói rằng bạn đã giúp khởi động công việc kinh doanh thành công bằng cách đảm
bảo chất lượng dịch vụ khách hàng. Nếu bạn đã sử dụng phân tích dữ liệu trong bất kỳ công
việc nào của mình, chắc chắn bạn cũng sẽ muốn đưa nó vào.
Lát nữa chúng ta sẽ đề cập đến cách thêm các kỹ năng phân tích dữ liệu cụ thể. Một
cách để làm điều này là làm theo công thức trong phần mô tả của bạn: Hoàn thành X được
đánh giá bằng Y, bằng cách thực hiện Z. Đây là một ví dụ về cách điều này có thể được ghi
trong sơ yếu lý lịch: Được chọn là một trong số 275 người tham gia trên toàn quốc cho chương
trình phát triển chuyên nghiệp kéo dài 12 tháng này dành cho những tài năng đạt thành tích
cao dựa trên tiềm năng lãnh đạo và thành công trong học tập.
Nếu bạn đã đạt được những kỹ năng mới trong một trong những trải nghiệm của mình,
hãy nhớ nêu bật tất cả chúng và chúng đã giúp ích như thế nào. Đây có lẽ là một vị trí tốt như
bất kỳ vị trí nào để đưa ra các phân tích dữ liệu. Ngay cả khi chương trình này là lần đầu tiên
bạn thực sự nghĩ về phân tích dữ liệu, thì bây giờ bạn đã được trang bị một số kiến thức, bạn
sẽ muốn sử dụng kiến thức đó để mang lại lợi ích cho mình. Nếu bạn đã từng quản lý tiền, có
thể điều đó có nghĩa là bạn đã giúp doanh nghiệp phân tích thu nhập trong tương lai. Hoặc có
thể bạn đã tạo ngân sách dựa trên phân tích chi tiêu trước đó của mình. Ngay cả khi đó là
doanh nghiệp nhỏ của riêng bạn hoặc của một người bạn, thì đó vẫn là dữ liệu mà bạn đã phân
tích.
Bây giờ bạn có thể suy nghĩ về thời gian, cách thức và sử dụng nó trong sơ yếu lý lịch
của mình. Sau khi bạn đã thêm kinh nghiệm và kỹ năng làm việc, bạn nên bao gồm một phần
cho bất kỳ trình độ học vấn nào bạn đã hoàn thành. Vâng, khóa học này hoàn toàn được tính.
Bạn có thể thêm khóa học này như một phần trong quá trình giáo dục của mình và bạn cũng
có thể tham khảo nó trong phần tóm tắt và kỹ năng của mình. Tùy thuộc vào định dạng sơ yếu
lý lịch của bạn, bạn có thể muốn thêm một phần cho các kỹ năng kỹ thuật mà bạn đã đạt được
cả trong khóa học này và các khóa học khác.
Bên cạnh các kỹ năng kỹ thuật như SQL, bạn cũng có thể bao gồm trình độ thông thạo
ngôn ngữ trong phần này. Có một số khả năng về một ngôn ngữ khác ngoài tiếng Anh có thể
giúp ích cho quá trình tìm việc của bạn. Bây giờ bạn đã có ý tưởng về cách làm cho sơ yếu lý
lịch của mình trông chuyên nghiệp và hấp dẫn. Khi bạn tiến về phía trước, bạn sẽ học được
nhiều hơn về cách làm cho sơ yếu lý lịch của bạn tỏa sáng. Cuối cùng, bạn sẽ có một bản lý
lịch mà bạn có thể tự hào. Tiếp theo, chúng ta sẽ nói về cách làm cho sơ yếu lý lịch của bạn
thực sự độc đáo. Hẹn sớm gặp lại.
Chương 2: Hiểu các yếu tố của sơ yếu lý lịch phân tích dữ liệu
Làm cho sơ yếu lý lịch của bạn trở nên độc đáo
Thật tuyệt khi được gặp lại bạn. Xây dựng một bản lý lịch mạnh mẽ là một cách tuyệt
vời để đạt được thành công trong quá trình tìm việc của bạn. Bạn đã có cơ hội bắt đầu xây
dựng sơ yếu lý lịch của mình và bây giờ chúng tôi sẽ thực hiện bước tiếp theo bằng cách chỉ
cho bạn cách tinh chỉnh sơ yếu lý lịch của mình cho các công việc phân tích dữ liệu. Bắt đầu
nào.
Đối với phân tích dữ liệu, một trong những điều quan trọng nhất mà sơ yếu lý lịch của
bạn nên làm là thể hiện rằng bạn là một người giao tiếp rõ ràng. Các công ty đang tìm kiếm
các nhà phân tích muốn biết rằng những người họ thuê có thể thực hiện phân tích, nhưng cũng
có thể giải thích điều đó cho bất kỳ đối tượng nào một cách rõ ràng và trực tiếp.
Đối tượng đầu tiên của bạn với tư cách là nhà phân tích dữ liệu rất có thể sẽ là người
quản lý và nhà tuyển dụng đang tuyển dụng. Trực tiếp và mạch lạc trong sơ yếu lý lịch của
bạn cũng sẽ đi một chặng đường dài với họ.
Hãy bắt đầu với phần tóm tắt. Mặc dù bạn sẽ không đi vào quá nhiều chi tiết trong phần
này về bất kỳ kinh nghiệm làm việc nào của mình, nhưng đây là một điểm tốt để chỉ ra liệu
bạn có đang chuyển sang một vai trò nghề nghiệp mới hay không. Bạn có thể thêm nội dung
nào đó như "chuyển đổi từ công việc trong ngành ô tô và tìm kiếm vai trò toàn thời gian trong
lĩnh vực phân tích dữ liệu". Một chiến lược mà bạn có thể sử dụng trong phần tóm tắt và xuyên
suốt sơ yếu lý lịch của mình là các câu P-A-R hoặc PAR. PAR là viết tắt của Vấn đề, Hành
động, Kết quả. Đây là một cách tuyệt vời để giúp bạn viết rõ ràng và ngắn gọn. Thay vì nói
điều gì đó như "chịu trách nhiệm viết hai blog mỗi tháng", bạn sẽ nói, "kiếm được trang web
ít được biết đến hơn 2.000 lần nhấp mới nhờ viết blog chiến lược." Trang web ít được biết đến
là vấn đề. Hành động chiến lược là viết blog chiến lược. Và kết quả là 2.000 lần nhấp mới.
Việc thêm các tuyên bố về Cải cách hành chính vào phần mô tả công việc hoặc phần
kỹ năng của bạn có thể giúp ích cho việc tổ chức và nhất quán trong sơ yếu lý lịch của bạn.
Họ chắc chắn đã giúp tôi khi tôi thay đổi công việc.
Nói về phần kỹ năng, hãy đảm bảo rằng bạn bao gồm mọi kỹ năng và bằng cấp mà bạn
đã đạt được thông qua khóa học này và của chính bạn. Bạn không cần phải siêu kỹ thuật.
Nhưng nói về trải nghiệm của bạn với bảng tính, SQL, Tableau và R, là ngôn ngữ lập trình
mà chúng ta sẽ đề cập sau, sẽ nâng cao sơ yếu lý lịch và cơ hội kiếm việc làm của bạn. Nếu
bạn đang liệt kê trình độ hoặc kỹ năng, bạn có thể bao gồm một vị trí dành cho “ngôn ngữ lập
trình”, sau đó liệt kê SQL và R, cả hai đều là một phần của chứng chỉ Google Data Analytics.
Bạn thậm chí có thể thêm vào các hàm, gói hoặc công thức hàng đầu mà bạn cảm thấy thoải
mái trong mỗi hàm.
Cũng nên bao gồm các kỹ năng bạn đã đạt được trong các bảng tính như bảng tổng hợp.
Bảng Pivot, SQL, R và nhiều thuật ngữ khác mà chúng tôi đề cập ở đây có thể khiến bạn được
các nhà quản lý tuyển dụng và nhà tuyển dụng chú ý. Nhưng bạn chắc chắn muốn sơ yếu lý
lịch của mình thể hiện chính xác các kỹ năng và khả năng của bạn. Chỉ bổ sung những kỹ năng
này sau khi bạn đã hoàn thành chứng chỉ này.
Khi bạn bắt đầu áp dụng những ý tưởng mà chúng tôi đã đề cập ở đây vào sơ yếu lý
lịch của mình, bạn sẽ dễ dàng tạo được sự khác biệt với các ứng viên khác. Sau khi hoàn thành
khóa học cuối cùng, bạn sẽ có cơ hội hoàn thành một nghiên cứu điển hình và liên kết nó trong
sơ yếu lý lịch của mình. Đây sẽ là một cơ hội tuyệt vời để cho các nhà tuyển dụng và người
quản lý tuyển dụng thấy những kỹ năng bạn đã học được khi lấy chứng chỉ của mình.
Trước khi bạn biết điều đó, bạn sẽ có một sơ yếu lý lịch khá tuyệt vời mà bạn có thể
cập nhật nhanh chóng bất cứ khi nào tìm kiếm công việc phân tích dữ liệu. Không có gì sai
với điều đó. Tiếp theo, chúng ta sẽ nói nhiều hơn về việc thêm kinh nghiệm vào sơ yếu lý lịch
của bạn. Tạm biệt bây giờ.
Joseph: Người da đen và người Mỹ gốc Phi tham gia vào ngành công
nghiệp dữ liệu
Xin chào tên tôi là Joseph. Tôi là nhà phân tích con người tại Google. Là một nhà phân
tích con người, công việc của tôi là làm việc với các giám đốc điều hành và đối tác kinh doanh
nhân sự để sử dụng dữ liệu nhằm đưa ra quyết định sáng suốt cho mọi người.
Hòa nhập là rất cần thiết cho công việc mà chúng tôi làm. Như bạn đã biết, đôi khi bạn
có thể bắt đầu với dữ liệu và có thành kiến của riêng bạn trong đó. Đối với chúng tôi trong
lĩnh vực rất nhạy cảm này, nó đòi hỏi chúng tôi phải có một nhóm người đa dạng có nền tảng
khác nhau để lăng kính dữ liệu này hoạt động. Là một chuyên gia da đen, tôi có thể kể một
câu chuyện về những người da màu mang tính cá nhân hơn rất nhiều đối với tôi.
Là một nhà phân tích yêu cầu tôi lấy dữ liệu và kể một câu chuyện với nó. Trên quan
điểm cá nhân, tôi rất đam mê lĩnh vực ngày càng có nhiều đại diện trong ngành công nghệ này.
Ví dụ, ngoài công việc, tôi điều hành một tổ chức phi lợi nhuận tên là Sankofa Tech. Toàn bộ
mục tiêu của chúng tôi về cơ bản là giúp phát triển thế hệ kỹ sư da đen tiếp theo, những người
về cơ bản có thể làm việc trong lĩnh vực này và đại diện cho trải nghiệm của chúng tôi bằng
cách sử dụng dữ liệu làm nền tảng và cung cấp công nghệ làm yếu tố chuyển động mạnh mẽ
trong tương lai. Điều quan trọng là chúng ta có nhiều người da đen hơn trong lĩnh vực công
nghệ.
Như các bạn đã biết, trong 10-20 năm tới, AI, học máy, sẽ giống như việc nói tiếng
Anh ở đất nước này hoặc thậm chí trên toàn thế giới. Vì vậy, chúng ta càng có nhiều người da
đen trong lĩnh vực này, chúng ta càng có thể đại diện cho nó trong các sản phẩm đang được
chế tạo và trải nghiệm của chúng ta càng bị ảnh hưởng trong từng sản phẩm mà các công ty
này chế tạo.
Điều chắc chắn quan trọng là chúng ta có nhiều kỹ sư da đen hơn, chúng ta có nhiều
nhà khoa học dữ liệu da đen hơn để thực hiện phân tích và cũng chỉ có các nhà phân tích dữ
liệu da đen để giúp kể câu chuyện bao gồm nhiều trải nghiệm của chúng ta hơn. Điều chắc
chắn cần thiết là chúng tôi phải có những người từ các nền tảng, màu da, tín ngưỡng khác
nhau để thực sự hiểu dữ liệu và có liên minh với nó, đồng thời kể câu chuyện và làm cho nó
trở nên rất riêng tư đối với khán giả của chúng tôi.
Chương 3: Làm nổi bật kinh nghiệm trong sơ yếu lý lịch
Kinh nghiệm làm việc trong quá khứ
Chào mừng trở lại. Mọi người ngoài kia đều có lịch sử công việc cá nhân của riêng họ.
Tất cả chúng ta đều bắt đầu từ đâu đó, dù là bán thời gian hay toàn thời gian. Điều quan trọng
đối với sơ yếu lý lịch của bạn là cách bạn trình bày công việc bạn đã hoàn thành.
Trong video này, chúng ta sẽ trau dồi về lịch sử công việc và cách bạn có thể chuyển
giao lịch sử công việc của mình một cách hiệu quả cho sơ yếu lý lịch của nhà phân tích dữ
liệu. Nếu bạn không có một phần cụ thể về lịch sử công việc trong sơ yếu lý lịch của mình,
điều đó không sao cả. Bạn có thể sử dụng những ý tưởng cơ bản tương tự để điều chỉnh phần
kỹ năng và trình độ của mình.
Tin tốt là bạn đã có rất nhiều kỹ năng mà các nhà tuyển dụng và đại lý tuyển dụng tìm
kiếm khi họ thuê các nhà phân tích dữ liệu. Bạn có thể đã sử dụng rất nhiều trong số họ trong
công việc trước đây. Chúng tôi gọi đây là những "kỹ năng có thể chuyển giao". Kỹ năng có
thể chuyển giao là những kỹ năng và phẩm chất có thể chuyển từ công việc này sang ngành
khác.
Hãy suy nghĩ về tất cả các vị trí bạn đã nắm giữ, cộng sự, chủ sở hữu, thành viên nhóm,
người quản lý và cách họ có thể được sử dụng với tư cách là nhà phân tích dữ liệu.
Hãy bắt đầu với vấn đề lớn mà chúng ta đã nói trước đây: giao tiếp. Khi mô tả công
việc nói rằng họ muốn có kỹ năng giao tiếp tốt cho một nhà phân tích dữ liệu, điều đó thường
có nghĩa là họ muốn một người có thể nói về những gì họ làm với những người không có kỹ
thuật hoặc phân tích. Nếu ai đó không quen thuộc với phân tích có thể hiểu những gì bạn đang
nói khi bạn cố gắng giải thích cho họ, thì kỹ năng giao tiếp của bạn thường là tốt. Bạn có thể
đã phải giao tiếp trong các công việc khác mà bạn đã đảm nhận, cho dù với nhân viên, khách
hàng hay khách hàng, thành viên nhóm hay người quản lý. Bạn cũng có thể phải thuyết trình,
dù là trang trọng hay trang trọng.
Trong phần lịch sử công việc của bạn, bạn có thể nêu bật những kỹ năng giao tiếp hiệu
quả đã giúp bạn như thế nào. Bạn cũng có thể tham khảo các bài thuyết trình cụ thể mà bạn
đã thực hiện và kết quả của những bài thuyết trình đó, thậm chí bạn có thể bao gồm khán giả
cho các bài thuyết trình của mình, đặc biệt nếu bạn thuyết trình trước các nhóm lớn hoặc những
người ở vị trí cấp cao.
Sau khi liệt kê chi tiết công việc, chẳng hạn như địa điểm và thời gian làm việc, bạn có
thể thêm nội dung nào đó như "quy trình làm việc hàng ngày được triển khai và truyền đạt
hiệu quả cho các thành viên trong nhóm, dẫn đến tăng năng suất". Tại đây, bạn sẽ thay đổi các
chi tiết dựa trên công việc bạn đã làm. Vì bạn sẽ làm việc trong thế giới dữ liệu, bao gồm mọi
dữ liệu định lượng sẽ là lý tưởng. Ví dụ, mức tăng năng suất có thể là mức tăng 15%. Miễn là
bạn có cách sao lưu dữ liệu của mình, hy vọng có nhiều dữ liệu hơn, thì bạn có thể đưa nó vào
sơ yếu lý lịch của mình.
Ví dụ này đưa chúng ta đến kỹ năng chuyển tiếp tiếp theo. Các nhà phân tích dữ liệu là
những người giải quyết vấn đề. Khi các vấn đề phát sinh trong cơ sở dữ liệu hoặc các dòng
mã, các nhà phân tích dữ liệu cần có khả năng tìm và khắc phục sự cố. Nếu trước đó bạn chưa
có kinh nghiệm làm việc với dữ liệu, bạn vẫn có thể nói về kỹ năng giải quyết vấn đề của
mình. Ví dụ cuối cùng mà chúng tôi chia sẻ đã thể hiện rất tốt khả năng giải quyết vấn đề. Nó
thực sự được viết dưới dạng một tuyên bố về cải cách hành chính, hoặc tuyên bố về vấn đề,
hành động, kết quả, mà chúng ta đã đề cập trước đó. Vấn đề là các quy trình công việc hàng
ngày không được áp dụng. Hành động là bạn thực hiện các quy trình và truyền đạt chúng cho
nhóm của mình, và kết quả là năng suất tăng 15 phần trăm. Điều này cho thấy rõ ràng rằng có
một vấn đề và bạn đã giải quyết nó.
Chúng tôi cũng có thể sử dụng một tuyên bố để chỉ ra tinh thần đồng đội là một phẩm
chất quan trọng cần mang đến cho thế giới phân tích dữ liệu. Mặc dù bạn có thể có nhiều việc
phải làm một mình, nhưng điều đó sẽ luôn vì lợi ích của nhóm. Nhóm không chỉ có nghĩa là
nhóm dữ liệu mà bạn tham gia, mà còn có nghĩa là toàn bộ công ty. Đó là một số kỹ năng bạn
có thể thêm vào phần kinh nghiệm làm việc và kỹ năng và trình độ của mình. Tất cả những
điều này được gọi là kỹ năng mềm.
Kỹ năng mềm là những đặc điểm và hành vi phi kỹ thuật liên quan đến cách bạn làm
việc. Định hướng chi tiết và thể hiện sự kiên trì là hai ví dụ khác về kỹ năng mềm mà bất kỳ
ai thuê một nhà phân tích dữ liệu sẽ tìm kiếm. Các công ty muốn biết rằng bạn sẽ thực hiện
phân tích của mình một cách cẩn thận và hoàn thành, bất kể bạn có thể gặp phải những trở
ngại nào trên đường đi.
Nếu bạn đã làm việc tại một công việc bán lẻ, bạn có thể nói về cách mà sự chú ý đến
từng chi tiết giúp bạn phát hiện ra sự khác biệt trong khi xử lý một khối lượng tiền lớn và bạn
có thể thêm cách bạn tiếp tục thực hiện dịch vụ khách hàng ở cấp độ cao, mặc dù tỷ lệ doanh
thu cao ở cấp độ quản lý.
Đây chỉ là một số ví dụ để bạn suy nghĩ và áp dụng vào chi tiết công việc của mình.
Hãy dành một chút thời gian và nghĩ lại về công việc trước đây của bạn, hoặc có thể đó là
công việc hiện tại của bạn. Những kỹ năng mềm nào bạn sử dụng để tìm kiếm thành công?
Bạn đang bắt đầu hiểu làm thế nào những thứ đó có thể chuyển sang thế giới phân tích dữ
liệu? Sử dụng các tuyên bố về Cải cách hành chính và tập trung vào các kỹ năng mềm có thể
chuyển đổi của bạn thực sự có thể tăng thêm sức mạnh cho sơ yếu lý lịch của bạn.
Bây giờ bạn có thể tiếp tục chuyển sang bước tiếp theo để tiếp tục tìm hiểu về lĩnh vực
phân tích dữ liệu và công việc tương lai của bạn trong đó. Hẹn gặp lại các bạn trong video tiếp
theo.
Kate: Con đường sự nghiệp của tôi với tư cách là một nhà phân tích dữ
liệu
Xin chào, tôi là Kate. Tôi là nhà phân tích sản phẩm cao cấp tại Google. Tôi luôn luôn
có lẽ là một người tò mò khó chịu. Ngay cả khi còn nhỏ, tôi nhớ mình đã tháo rời mọi thứ chỉ
để xem chúng hoạt động như thế nào. Tôi chỉ thích xem mọi thứ hoạt động cùng nhau như thế
nào và tôi thích đặt những câu hỏi mới. Tôi thích có thêm thông tin. Tôi nghĩ điều đó khiến
tôi trở thành một người toàn diện hơn và chắc chắn là một nhà phân tích giỏi hơn. Mỗi bước
đi trong sự nghiệp của tôi, kể cả bước đầu tiên trong quân đội, tôi luôn chọn những gì có thể
để cố gắng tự học về những thứ như cơ sở dữ liệu và những thứ như dữ liệu. Một trong những
bước đột phá đầu tiên của tôi vào dữ liệu là, tôi đã được triển khai và khi quay lại, tôi làm việc
với văn phòng nhân sự và chúng tôi phải làm những việc như theo dõi mọi người đang ở đâu,
mức lương của họ và cấp bậc của họ và liệu họ có nhận được giải thưởng hay không và không
có một hệ thống duy nhất nào xử lý việc đó, vì vậy tôi sử dụng cơ sở dữ liệu Access. Tôi đã
mất rất nhiều thời gian để tìm hiểu khóa ngoại là gì và khóa chính là gì. Tôi sẽ hoàn toàn trung
thực, tôi đã làm rất kém. Cuối cùng tôi đã quay lại Excel, nhưng đó là một trải nghiệm học tập
thực sự tốt. Sau thời gian ở trong quân đội, tôi không biết mình muốn làm gì. Tôi đã từng làm
nhân sự, nhưng tôi thực sự vẫn thích mảng công nghệ. Bằng cách nào đó, tôi đã chuyển sự
nghiệp quân ngũ của mình sang lĩnh vực hậu cần và nhận được một công việc hậu cần cho cái
mà họ gọi là nhà tròn. Đó là nơi họ làm việc trên các động cơ đầu máy. Tôi đã làm rất nhiều
bảo trì cơ sở dữ liệu. Khi rời ngành đường sắt, tôi đến một công ty hàn, nơi tôi khởi nghiệp
với vị trí nhân viên hậu cần làm việc trên xe tải. Ý tôi là phụ tùng xe tải. Nhưng sau đó, tôi đã
có thể chuyển sang vai trò tập trung vào dữ liệu cơ sở dữ liệu hơn. Sau thời gian làm việc tại
công ty hàn, tôi đã sẵn sàng thử sức với một thứ gì đó mang tính kỹ thuật cao hơn. Tôi thực
sự đã làm việc cho một công ty tư vấn nhỏ rất sang trọng và đã làm rất nhiều việc với Tableau,
nơi chúng tôi bắt đầu làm việc với các công ty và dạy họ cách thực hiện trực quan hóa dữ liệu.
Tôi đã đào tạo Tableau một thời gian. Nhưng thực sự thì tôi đã ở đó hơn sáu năm và trong
suốt thời gian ở đó, tôi đã làm kỹ thuật cơ sở dữ liệu, tôi đã làm kỹ thuật dữ liệu. Tôi phải điều
hành một nhóm các nhà phân tích, tôi phải dạy mọi người cách tư vấn. Tôi đã trưởng thành
rất nhiều trong khoảng thời gian sáu năm đó. Sau đó, tôi quyết định đến với Google. Tôi làm
việc với các bên liên quan về bản dịch trên toàn thế giới của Google. Nếu ai đó muốn dịch thứ
gì đó từ ngôn ngữ này sang ngôn ngữ khác, tôi sẽ bắt tay vào phân tích ngôn ngữ đó. Điều đó
có nghĩa là nếu bạn chọn 500 ngôn ngữ khác nhau hoặc 40 ngôn ngữ khác nhau thì chi phí là
bao nhiêu? Chúng ta dịch bao nhiêu từ? Chất lượng bản dịch đó trông như thế nào? Nếu nhìn
lại sự nghiệp của mình, tôi sẽ tự nói với mình cách đây 5, 10 năm rằng hãy tập trung vào một
thứ gì đó. Đừng cố gắng để cảm thấy quá choáng ngợp. Điều quan trọng để có thể làm là có
thể đặt câu hỏi đúng và biết cách trả lời nó. Tôi có sự tự tin. Sự tự tin thực sự quan trọng vì
mọi người tìm đến tôi để tìm câu trả lời. Đó là công việc của tôi, là suy nghĩ thật kỹ về các
câu hỏi và đưa ra câu trả lời giúp chúng trở nên tốt hơn và giúp công ty tốt hơn. Thực tế là tôi
biết rằng tôi có thể làm điều này ngay bây giờ, bây giờ tôi đã dành thời gian và công sức cho
nó, nó thực sự rất bổ ích.
Chương 4: Khám phá các lĩnh vực quan tâm
Đâu là sở thích của bạn?
Xin chào. Nếu bạn chưa tìm kiếm công việc phân tích dữ liệu, hãy thử. Một điều bạn
có thể nhận thấy là có bao nhiêu loại công việc của nhà phân tích dữ liệu. Bạn sẽ tìm thấy một
số công việc chỉ ghi "nhà phân tích dữ liệu" trong chức danh công việc và những công việc
khác bao gồm nhiều chi tiết hơn như "nhà phân tích nghiên cứu thị trường" và "nhà phân tích
dữ liệu kỹ thuật số". Sự đa dạng này là một điều tốt. Điều đó có nghĩa là với tư cách là một
nhà phân tích dữ liệu, bạn sẽ có rất nhiều cơ hội việc làm. Mặc dù bạn có thể không phù hợp
với mọi vị trí được đăng, nhưng mọi vị trí được đăng có thể không phù hợp với bạn.
Khi bạn tiếp tục tiến về phía trước, điều quan trọng là phải ghi nhớ những lợi ích của
riêng bạn. Có thể có một số chủ đề mà chúng tôi đã đề cập hoặc chúng tôi sẽ đề cập đến mà
bạn thấy mình đặc biệt quan tâm. Khi tìm việc làm, bạn có thể muốn điều chỉnh quá trình tìm
kiếm của mình để tìm các công việc tập trung vào hoặc bao gồm các lĩnh vực mà bạn quan
tâm. Ví dụ: nếu bản mô tả công việc liệt kê việc dọn dẹp dữ liệu là trách nhiệm của công việc
và bạn nghĩ rằng mình thực sự thích quy trình đó, thì bạn có thể đặt công việc đó thành ưu tiên
hàng đầu của mình.
Đồng thời, hãy nghĩ về những sở thích khác của bạn. Nếu bạn có kiến thức cơ bản về
bán lẻ hoặc y học hoặc tài chính và có kinh nghiệm tốt về lĩnh vực này, bạn có thể nộp đơn
xin việc phù hợp với kiến thức của mình. Là một phần thưởng bổ sung, kinh nghiệm của bạn
sẽ trông tuyệt vời trong sơ yếu lý lịch của bạn. Nhưng bạn cũng có thể tìm kiếm công việc
trong lĩnh vực mà bạn không có kinh nghiệm chuyên môn. Nếu bạn luôn yêu thích ô tô, hãy
xem ngành công nghiệp ô tô có những vị trí nào. Nếu bạn hứng thú với cách thức hoạt động
của các công ty tiện ích, hãy tìm kiếm việc làm trong ngành năng lượng và tiện ích.
Tìm được việc làm là điều tuyệt vời. Tìm được một công việc mà bạn yêu thích thậm
chí còn tốt hơn. Hãy luôn nhớ rằng phân tích dữ liệu không ngừng phát triển trong nhiều ngành
khác nhau. Chức danh công việc và nhu cầu tuyển dụng cũng có thể thay đổi. Nhưng các cơ
hội, bất kể chúng là gì khi bạn đang tìm kiếm, sẽ ở đó.
Bây giờ, hãy xem trước một số loại công việc phân tích dữ liệu hiện có. Chứng chỉ bạn
kiếm được ở đây sẽ được áp dụng nhiều nhất cho các vị trí phân tích dữ liệu cấp dưới hoặc
liên kết. Nhưng điều đó không có nghĩa là bạn phải giới hạn việc tìm kiếm công việc của mình
chỉ với các vị trí dành cho nhà phân tích cấp dưới hoặc cộng sự. Chức danh công việc có đủ
hình dạng và kích cỡ.
Các nhà phân tích mới làm việc trong nhiều ngành công nghiệp. Các nhà phân tích
chăm sóc sức khỏe thu thập và giải thích dữ liệu từ các nguồn như hồ sơ sức khỏe điện tử và
khảo sát bệnh nhân. Công việc của họ giúp các tổ chức cải thiện chất lượng chăm sóc của họ.
Các nhà phân tích chăm sóc sức khỏe cũng có thể tìm cách giảm chi phí chăm sóc và cải thiện
trải nghiệm của bệnh nhân. Các nhà phân tích dữ liệu trong tiếp thị hoàn thành phân tích thị
trường định lượng và định tính. Họ xác định các số liệu thống kê quan trọng, giải thích và
trình bày những phát hiện của mình để giúp các bên liên quan hiểu được dữ liệu đằng sau các
chiến lược tiếp thị của họ. Các nhà phân tích tình báo kinh doanh giúp các công ty sử dụng dữ
liệu họ đã thu thập để tăng hiệu quả và tối đa hóa lợi nhuận của họ. Những nhà phân tích này
thường làm việc với một lượng lớn dữ liệu để xác định xu hướng và tạo thông tin chi tiết về
doanh nghiệp. Các nhà phân tích tài chính cũng làm việc với rất nhiều dữ liệu. Thực sự tất cả
các nhà phân tích làm. Nhưng các nhà phân tích tài chính sử dụng dữ liệu để xác định và có
khả năng đề xuất các cơ hội kinh doanh và đầu tư.
Nếu bạn là một nhà phân tích cấp dưới trong lĩnh vực này, có lẽ bạn sẽ bắt đầu thực
hiện nhiều công việc thu thập dữ liệu và lập mô hình tài chính cũng như bảo trì bảng tính. Đây
chỉ là một phần nhỏ của các loại công việc phân tích dữ liệu ngoài kia. Mỗi loại chúng tôi đã
đề cập cũng có thể phân nhánh sang các ngành khác. Ví dụ: các nhà phân tích tình báo kinh
doanh có thể làm việc trong lĩnh vực chăm sóc sức khỏe, chính phủ, thương mại điện tử, v.v.
Thật thú vị khi nghĩ về các khả năng. Tất nhiên, bạn còn nhiều việc phải làm, nhưng
không có gì sai khi nhìn về phía trước. Khi bạn đến được nơi mà bạn đang hướng tới, bạn sẽ
có thể chịu trách nhiệm và tìm được công việc tốt nhất cho mình. Hiện tại, chúng tôi sẽ tiếp
tục khám phá sơ yếu lý lịch của bạn. Hẹn sớm gặp lại.
Học phần 5: Phân tích dữ liệu để trả lời câu hỏi
Tuần 1: Tổ chức dữ liệu để phân tích
Tổ chức dữ liệu làm cho dữ liệu dễ sử dụng hơn trong phân tích của bạn. Trong phần
này của khóa học, bạn sẽ tìm hiểu tầm quan trọng của việc tổ chức dữ liệu của mình thông qua
sắp xếp và lọc. Bạn sẽ khám phá các quy trình này trong cả bảng tính và SQL khi tiếp tục
chuẩn bị dữ liệu để phân tích.
Mục tiêu học tập:
 Mô tả những gì liên quan đến quá trình phân tích dữ liệu có liên quan đến các mục tiêu
và nhiệm vụ chính
 Thảo luận về tầm quan trọng của việc sắp xếp dữ liệu trước khi phân tích với các tham
chiếu đến sắp xếp và bộ lọc
 Mô tả sắp xếp vì nó liên quan đến dữ liệu trong bảng tính hoặc cơ sở dữ liệu có liên
quan đến chức năng và lợi ích
 Thể hiện sự hiểu biết về các bước liên quan đến sắp xếp và lọc dữ liệu thông qua việc
sử dụng các truy vấn SQL
Chương 1: Hãy tổ chức
Giới thiệu về tổ chức
Xin chào, các nhà phân tích dữ liệu trong tương lai! Bạn đã đạt được rất nhiều tiến bộ
cho đến nay. Đó không phải là một hành trình dễ dàng, nhưng bạn đang làm rất tốt. Trước khi
bạn bắt đầu chương trình này, một điều gì đó bên trong bạn đã thuyết phục bạn lấy Chứng chỉ
Google Data Analytics của mình. Bạn đã có một ý tưởng, đã thực hiện một số nghiên cứu và
dành thời gian để bắt đầu. Sau đó, bạn đã đưa ra quyết định cam kết với mục tiêu của mình.
Bây giờ hãy nhìn xem bạn đang ở đâu! Đó là điều đáng tự hào.
Ngay từ đầu, chúng tôi đã nhảy ngay vào thế giới phân tích dữ liệu và xem dữ liệu đóng
vai trò như thế nào trong cuộc sống hàng ngày của bạn. Bạn đã học cách điều hướng bảng tính
và tại sao tư duy có cấu trúc lại là chìa khóa để giải quyết vấn đề. Bạn cũng đã khám phá
những cách tốt nhất để thu thập và lưu trữ dữ liệu của mình. Từ đó, bạn hiểu rõ hơn về dữ liệu
sạch và tính toàn vẹn của dữ liệu.
Bạn đã xác định được cách đặt câu hỏi phù hợp và học cách làm sạch dữ liệu. Bây giờ
chúng tôi sẽ nâng kỹ năng của bạn lên một tầm cao mới. Tiếp theo, bạn sẽ học cách đưa ra câu
trả lời rõ ràng và khách quan cho bất kỳ câu hỏi nào về dữ liệu mà bạn gặp phải. Trước đó,
chúng ta đã học về quy trình phân tích dữ liệu.
Xin nhắc lại, các giai đoạn của quy trình đó là Hỏi, Chuẩn bị, Xử lý, Phân tích, Chia sẻ
và Hành động. Chúng ta sẽ khám phá thêm giai đoạn Phân tích ở đây, tập trung vào cách sắp
xếp và định dạng dữ liệu bạn có để bạn có thể thực hiện tất cả các loại tính toán. Biết cách
phân tích dữ liệu bạn đã thu thập và làm sạch là điều cần thiết cho công việc của bạn với tư
cách là nhà phân tích.
Trước khi chúng ta bắt đầu, tôi muốn giới thiệu bản thân mình. Tên tôi là Ayanna, và
tôi rất vui được trở thành người hướng dẫn của bạn cho khóa học này. Tôi là người quản lý
thông tin chi tiết toàn cầu tại Google và tôi cũng đã giảng dạy tại Học viện Google Analytics,
đây là tài nguyên đào tạo dành cho các nhà phân tích của Google.
Trong công việc của mình, tôi giúp các nhà quảng cáo xác định giá trị của việc đầu tư
vào các sản phẩm của Google. Khi bạn tìm kiếm thứ gì đó trực tuyến, bạn sẽ thường thấy một
quảng cáo trên trang. Đó là khoản đầu tư mà một nhà quảng cáo đã thực hiện. Tôi sử dụng
phân tích dữ liệu để cho các nhà quảng cáo thấy giá trị mà họ có thể thu được từ việc đầu tư
vào những quảng cáo đó. Đó là điều tôi yêu thích khi trở thành một nhà phân tích dữ liệu: tìm
ra cách tạo ra giá trị bất cứ khi nào tôi bước vào một tình huống.
Cách tốt nhất để biết liệu bạn có đang tạo ra giá trị hay không là bạn có bằng chứng
hay không. Đối với tôi, bằng chứng đó là dữ liệu. Bây giờ bạn đã biết một chút về tình yêu
của tôi đối với dữ liệu, hãy nói về những gì bạn sẽ học được ở đây.
Bạn sẽ bắt đầu bằng cách trình bày các phương pháp hay nhất để tổ chức dữ liệu của
mình và các cách khác nhau mà bạn có thể sắp xếp dữ liệu đó bằng bảng tính và SQL. Chúng
ta cũng sẽ dành thời gian tìm hiểu ba cách quan trọng để làm việc với dữ liệu giúp nâng cao
kỹ năng phân tích của bạn. Sau đó, chúng ta sẽ nói về tiết kiệm thời gian. Bạn sẽ khám phá
các mẹo và thủ thuật có thể giúp bạn phân tích dữ liệu hiệu quả hơn.
Cuối cùng nhưng không kém phần quan trọng, chúng ta sẽ làm việc cùng nhau để xác
định các kỹ thuật giúp bạn trở nên công bằng và không thiên vị nhất có thể. Chà, đó là tất cả
những gì bạn cần biết lúc này. Sắp tới, chúng tôi sẽ chia nhỏ các khái niệm cơ bản về phân
tích dữ liệu và đưa bạn đến gần hơn một bước với tương lai của dữ liệu.
Chương 2: Phân tích dữ liệu cơ bản
Quy trình phân tích
Chào mừng trở lại. Thật là tuyệt khi gặp lại bạn. Vì vậy, hãy nói về phân tích. Chúng
tôi đã học cách đặt câu hỏi phù hợp, chuẩn bị dữ liệu để khám phá và sau đó xử lý dữ liệu đó
để đảm bảo dữ liệu sạch sẽ. Bây giờ là lúc cho trọng tâm của quá trình: phân tích thực tế! Cuối
cùng, phải không? Nhưng phân tích là gì?
Về cơ bản, phân tích là quá trình được sử dụng để hiểu ý nghĩa của dữ liệu được thu
thập. Nó có nghĩa là thực hiện các bước phù hợp để tiếp tục và suy nghĩ về dữ liệu của bạn
theo những cách khác nhau.
Mục tiêu của phân tích là xác định các xu hướng và mối quan hệ trong dữ liệu để
bạn có thể trả lời chính xác câu hỏi mà mình đang đặt ra.
Để làm được điều này, bạn nên tuân theo 4 giai đoạn phân tích: sắp xếp dữ liệu, định
dạng và điều chỉnh dữ liệu, lấy thông tin đầu vào từ người khác và chuyển đổi dữ liệu bằng
cách quan sát mối quan hệ giữa các điểm dữ liệu và thực hiện phép tính.
1. Organize data
2. Format and adjust data
3. Get input from others
4. Transform data
Hãy áp dụng 4 giai đoạn phân tích vào một tình huống trong thế giới thực. Hãy tưởng
tượng bạn muốn mua một món quà cho đám cưới của người bạn Zara. Vấn đề là bạn không
chắc chắn những gì để có được cô ấy. May mắn thay, bạn có rất nhiều dữ liệu từ trang web
đám cưới của cô ấy.
Nhưng thay vì đọc tất cả dữ liệu trên trang web của cô ấy và cuộn qua album ảnh của
cô ấy và đối tác của cô ấy, bạn hãy truy cập thẳng vào sổ đăng ký trực tuyến, một danh sách
mong muốn những món quà mà họ sẽ thích. Sổ đăng ký giống như một bộ dữ liệu mà bạn có
thể phân tích để đưa ra quyết định. Bây giờ bạn đang kiểm tra dữ liệu được sắp xếp trong sổ
đăng ký, bạn muốn đảm bảo rằng danh sách dữ liệu hoặc quà tặng trong trường hợp này được
định dạng theo cách dễ tham khảo. Định dạng dữ liệu hợp lý hóa mọi thứ và tiết kiệm thời
gian cho bạn.
Cuộn qua hàng trăm quà tặng có thể tốn thời gian. Thay vào đó, bạn có thể điều chỉnh
dữ liệu theo cách giúp dễ hiểu bằng cách lọc và sắp xếp dữ liệu của mình. Bạn có một ngân
sách mà bạn muốn duy trì, vì vậy bạn sắp xếp giá quà tặng từ thấp đến cao. Sau đó, bạn lọc
giá để bao gồm quà tặng nằm trong ngân sách $60 của mình.
Bạn đang làm việc với một danh sách dữ liệu mới được định dạng. Tại thời điểm này,
bạn nên nhớ rằng thông tin đầu vào từ những người khác cũng có thể thực sự hữu ích khi phân
tích thông tin và đưa ra quyết định. Bạn có thể kiểm tra danh sách quà tặng để biết liệu có ai
khác đã mua bất kỳ mặt hàng nào chưa. Bạn nhận ra rằng một số mặt hàng trong danh sách đã
được mua và điều này cho biết quyết định của bạn.
Khi phân tích dữ liệu, việc thu thập thông tin đầu vào từ những người khác là rất quan
trọng vì nó cung cấp cho bạn một quan điểm mà bạn có thể không hiểu hoặc không tiếp cận
được. Ngoài việc thu thập thông tin đầu vào từ những người khác, điều quan trọng là sớm tìm
hiểu quan điểm của người khác. Bằng cách đó, nếu họ dự đoán bất kỳ trở ngại hoặc thách thức
nào, bạn sẽ biết trước. Những người mà bạn tìm kiếm thông tin đầu vào không nhất thiết phải
là chuyên gia mới có thể hữu ích. Đôi khi tất cả những gì bạn cần là dành cho ai đó quen thuộc
với chủ đề hoặc dữ liệu mà bạn đang xem xét.
Trong ví dụ của chúng tôi, đó sẽ là những khách dự tiệc cưới của Zara, những người
đang mua quà từ cùng một cơ sở đăng ký trực tuyến. Họ có thể không phải là chuyên gia về
quà tặng đám cưới, nhưng nỗ lực hợp tác của họ để đánh dấu món đồ họ mua có thể giúp bạn
tìm ra thứ không nên mua, điều này sẽ ngăn Zara nhận được hai lần cùng một món quà. Cuối
cùng, nhận được thông tin đầu vào rất có giá trị đối với phân tích của bạn.
Điều này đưa chúng ta đến bước cuối cùng của quá trình phân tích: chuyển đổi dữ liệu.
Chuyển đổi dữ liệu có nghĩa là xác định các mối quan hệ và mẫu giữa dữ liệu và thực hiện các
phép tính dựa trên dữ liệu bạn có. Quay trở lại ví dụ của chúng tôi, bạn có thể tìm thấy một
món quà mà bạn biết Zara sẽ thích và một món quà phù hợp với ngân sách của bạn. Bạn cũng
có thể chọn một món quà mà người khác chưa mua. Bằng cách tìm mối quan hệ giữa các điểm
dữ liệu này, bạn đã chọn, mua và gửi một món quà có thể giải quyết vấn đề mà bạn muốn giải
quyết. Cái hay của quá trình phân tích là bạn có thể đã phân tích các tình huống trong cuộc
sống hàng ngày của mình. Cho dù bạn đang phân tích dữ liệu trong cuộc sống cá nhân hay
trong sự nghiệp, bốn nhiệm vụ này có thể giúp bạn đưa ra quyết định tốt hơn.
Bạn càng làm nhiều, bạn sẽ càng cảm thấy thoải mái hơn với quá trình này. Tôi hy vọng
điều này giúp bạn hiểu rõ hơn về những điều cơ bản của phân tích. Khi tiếp tục, chúng ta sẽ
kiểm tra cách định vị dữ liệu để phân tích, cả trong bảng tính và sử dụng SQL. Khi bạn đã sẵn
sàng, bạn có thể tiếp tục. Hẹn sớm gặp lại!
Ayanna: Gắn bó với nó
Tôi nghĩ một trong những điều thú vị nhất khi làm việc với dữ liệu tại Google là chúng
tôi có một trong những bộ dữ liệu có giá trị nhất thế giới. Mọi người coi dữ liệu của Google
thực sự là một lăng kính nhìn vào sự tò mò của con người. Chúng ta thường coi Google thực
sự là đại diện cho những gì đang xảy ra trên thế giới. Và vì vậy, đối với nhiều nhà quảng cáo
của chúng tôi, họ thực sự rất coi trọng dữ liệu và thông tin chi tiết mà chúng tôi có thể cung
cấp cho họ từ Google vì họ tin rằng đó là đại diện hoặc sự phản ánh những gì đang xảy ra
trong doanh nghiệp hoặc trong ngành của họ. Vì vậy, tôi nghĩ rằng giá trị của dữ liệu mà chúng
tôi có thể làm việc tại Google thực sự khiến tôi hứng thú và hào hứng với công việc mình làm.
Vì vậy, tôi đã đến Google khoảng ba năm trước sau khi dành vài năm làm tư vấn. Vì
vậy, tôi thực sự quan tâm đến việc chuyển sang một vai trò thực sự tập trung vào bán hàng và
tiếp thị. Nhưng đồng thời, tôi vẫn muốn có thể tận dụng bộ kỹ năng phân tích mà tôi đã đạt
được trước đó.
Vai trò này là sự bổ sung tuyệt vời cho các bộ kỹ năng mà tôi đã có và sự quan tâm mà
tôi có được khi chuyển sang chức năng bán hàng và tiếp thị. Tôi nghĩ một điều quan trọng mà
tất cả học sinh cần nhận ra là không ai học tài liệu này qua một đêm.
Nhiều đồng nghiệp của bạn mà bạn có thể coi là chuyên gia, nhưng rất có thể họ đã có
thể đạt được trình độ chuyên môn đó qua nhiều năm làm việc trong lĩnh vực này. Tôi nghĩ một
trong những thuộc tính lớn nhất mà sinh viên nên ghi nhớ là điều quan trọng nhất mà họ cần
phải có trong suốt hành trình học tập này là sự gan dạ. Cố gắng hiểu rằng đó có thể là một
cuộc đấu tranh, nó có thể là một thách thức, nhưng nếu bạn nỗ lực, bạn dành thời gian, những
khái niệm này cuối cùng sẽ thành công và bạn sẽ vững bước trên con đường trở thành một nhà
phân tích dữ liệu . Xin chào, tên tôi là Ayanna và tôi là người quản lý thông tin chi tiết toàn
cầu tại Google.
Chương 3: Tổ chức dữ liệu để phân tích
Luôn luôn cần phải tổ chức
Chào bạn lần nữa nhé. Hãy bắt đầu lại. Hiện tại, chúng ta đang ở giai đoạn Phân tích
của quy trình phân tích dữ liệu. Và mặc dù mỗi giai đoạn là duy nhất, các nhà phân tích dữ
liệu đưa ra quyết định về tổ chức trong tất cả các giai đoạn đó.
Đó là những gì chúng ta đang nói ở đây: tổ chức. Điều cực kỳ quan trọng là bạn phải
sắp xếp dữ liệu của mình trong suốt quá trình phân tích. Cách dữ liệu của bạn được phân loại
và cấu trúc sẽ ảnh hưởng đến những phát hiện của bạn, cho dù bạn đang làm việc trong bảng
tính hay cơ sở dữ liệu. Và khi bạn biết cách tổ chức dữ liệu của mình, bạn sẽ có thể nắm bắt
hoặc thu thập thông tin bạn cần.
Hầu hết dữ liệu bạn sẽ sử dụng trong phân tích của mình sẽ được sắp xếp trong các
bảng. Các bảng giúp bạn tổ chức các loại dữ liệu tương tự thành các danh mục và lĩnh vực chủ
đề mà bạn có thể tập trung vào khi phân tích.
Ví dụ: cơ sở dữ liệu cơ bản này có các bảng dành cho đại lý ô tô, chi tiết sản phẩm và
bộ phận sửa chữa. Sau đó, mỗi bảng có một số trường dữ liệu, như chủ sở hữu chi nhánh và
chi phí sửa chữa các bộ phận. Bạn có thể sử dụng các bảng và trường này để giúp bạn quyết
định cách tiến hành phân tích của mình.
Cấu trúc của cơ sở dữ liệu này có thể giúp bạn quyết định dữ liệu nào bạn cần lấy để
đáp ứng các mục tiêu của mình. Ví dụ: tổng số lượng của một thương hiệu ô tô cụ thể đã bán
hoặc một bộ phận sửa chữa cho một kiểu dáng và kiểu dáng ô tô cụ thể tại một chi nhánh nhất
định. Các bảng cho phép bạn đưa ra quyết định về các kiểu dữ liệu. Chúng giúp bạn tìm ra
những biến bạn cần và loại dữ liệu mà những biến đó nên có.
Vì vậy, nếu bạn có cơ sở dữ liệu mà bạn cần chuyển đổi kiểu dữ liệu trong quá trình
phân tích, bạn có thể thực hiện điều đó bằng cách sử dụng lệnh CAST trong SQL hoặc bất kỳ
phương pháp nào khác mà bạn học được trong công việc hoặc từ nghiên cứu của riêng mình.
Giống như ví dụ này, nơi chúng tôi đã chuyển đổi cột giá mua thành FLOAT thay vì
CHUỖI để nó ở dạng số mà chúng tôi có thể sử dụng để tính toán.
Nếu bạn đang thực hiện phân tích trong bảng tính, bạn muốn đảm bảo rằng các cột và
hàng được sắp xếp hiệu quả. Bạn thậm chí có thể ẩn các cột mà bạn không cần phân tích hoặc
hiển thị thông tin trùng lặp.
Khi bạn đã sắp xếp và định dạng dữ liệu, bạn sẽ sẵn sàng sắp xếp và lọc dữ liệu đó để
tìm dữ liệu mình cần. Chúng tôi sẽ sớm đề cập đến sắp xếp và lọc. Nhưng hiện tại, bạn chỉ
cần biết rằng cả bộ lọc và sắp xếp đều bị ảnh hưởng bởi loại dữ liệu mà chúng ta đang làm
việc. Điểm mấu chốt là điều quan trọng là phải có dữ liệu của bạn ở định dạng phù hợp. Vì
vậy, hãy luôn chuẩn bị sẵn sàng để điều chỉnh, cho dù bạn có phân tích sâu đến đâu. Đó là tất
cả cho bây giờ. Sắp tới, chúng tôi sẽ cho bạn biết tất cả những gì về bộ lọc. Tạm biệt!
Tìm hiểu thêm về sắp xếp và lọc
Này, rất vui được gặp lại bạn. Trước đó, chúng ta đã nói về lý do tại sao bạn nên sắp
xếp dữ liệu của mình, bất kể dữ liệu đó nằm trong phần nào của vòng đời. Cũng giống như bất
kỳ bộ sưu tập nào, việc quản lý và chăm sóc một nhóm đối tượng sẽ dễ dàng hơn khi có cấu
trúc xung quanh chúng. Bây giờ chúng ta nên ghi nhớ rằng tổ chức không chỉ là sắp xếp mọi
thứ có trật tự. Nó cũng giúp bạn dễ dàng tìm kiếm và định vị dữ liệu bạn cần một cách nhanh
chóng và dễ dàng. Là một nhà phân tích dữ liệu, bạn sẽ thấy mình phải sắp xếp lại và sàng lọc
cơ sở dữ liệu khá thường xuyên.
Hai trong số những cách phổ biến nhất để thực hiện việc này là sắp xếp và lọc. Chúng
ta đã thảo luận ngắn gọn về sắp xếp và lọc trước đây và điều quan trọng là bạn biết chính xác
chức năng của từng loại. Sorting is When you arrange data into a meaningful order to make
it easier to understand, analyze, and visualize (Sắp xếp là quá trình sắp xếp dữ liệu thành một
ký tự có ý nghĩa để dễ hiểu, phân tích và hình dung hơn).
Sắp xếp xếp hạng dữ liệu của bạn dựa trên một số liệu cụ thể mà bạn có thể chọn. Bạn
có thể sắp xếp dữ liệu trong bảng tính và cơ sở dữ liệu sử dụng SQL. Chúng tôi sẽ đề cập đến
tất cả các chức năng thú vị mà bạn có thể sử dụng trong cả hai phần sau.
Cách phổ biến để sắp xếp các mặt hàng khi bạn mua sắm trên trang web là sắp xếp
theo giá từ thấp nhất đến cao nhất, nhưng bạn cũng có thể sắp xếp theo thứ tự bảng chữ cái,
chẳng hạn như sách trong thư viện. Hoặc bạn có thể sắp xếp từ mới nhất đến cũ nhất, giống
như thứ tự tin nhắn văn bản trong điện thoại. Hoặc gần nhất đến xa nhất, chẳng hạn như khi
bạn đang tìm kiếm nhà hàng trực tuyến.
Một cách khác để tổ chức thông tin là sử dụng bộ lọc. Filtering is Showing only the
data that meets a specific criteria while hiding the rest ( Lọc là Chỉ hiển thị dữ liệu đáp ứng
một tiêu chí cụ thể trong khi ẩn phần còn lại).Thông thường, bạn có thể sử dụng bộ lọc khi
muốn thu hẹp lượng dữ liệu muốn sàng lọc.
Giả sử bạn đang tìm kiếm giày thể thao màu xanh lục trên mạng. Để tiết kiệm thời
gian, bạn chỉ lọc giày màu xanh lá cây. Sử dụng bộ lọc làm giảm các tập dữ liệu lớn hơn thành
các tập hợp con nhỏ hơn có liên quan đến những gì bạn cần. Sắp xếp và lọc là hai thao tác mà
bạn có thể thực hiện rất nhiều trên mạng. Cho dù bạn đang sắp xếp lịch chiếu phim từ sớm
nhất đến mới nhất hay chỉ lọc kết quả tìm kiếm của mình thành hình ảnh, thì có lẽ bạn đã quen
thuộc với mức độ hữu ích của chúng đối với việc hiểu dữ liệu.
Bây giờ chúng ta hãy lấy kiến thức đó và áp dụng nó. Khi nói đến việc sàng lọc các
đống dữ liệu lớn, lộn xộn, các bộ lọc chính là người bạn đồng hành của bạn. Bạn có thể nhớ
từ video trước rằng bạn có thể sử dụng các bộ lọc và chương trình bảng tính, như Excel và
Trang tính, để chỉ hiển thị dữ liệu từ các hàng khớp với phạm vi hoặc điều kiện mà bạn đã đặt.
Bạn cũng có thể lọc dữ liệu trong SQL bằng mệnh đề WHERE. Mệnh đề WHERE hoạt
động tương tự như lọc trong bảng tính vì nó trả về các hàng dựa trên điều kiện bạn đặt tên.
Hãy tìm hiểu cách bạn có thể sử dụng mệnh đề WHERE trong cơ sở dữ liệu. Chúng tôi sẽ sử
dụng BigQuery để truy cập cơ sở dữ liệu và chạy truy vấn của mình.
Nếu bạn đang tham gia cùng chúng tôi, hãy mở công cụ bạn chọn để sử dụng SQL và
tham khảo tài nguyên trước đó về cách truy cập tập dữ liệu. Nếu không, hãy xem mệnh đề
WHERE thực hiện công việc của nó.
Đây là cơ sở dữ liệu. Bạn có thể nhận ra nó từ các video trước đây. Về cơ bản, đó là
một danh sách dài các bộ phim. Mỗi hàng bao gồm một mục nhập cho các cột có tên
Movie_Title, Release_Date, Genre, Director, Cast_Members, Budget và Total_Revenue. Nó
cũng bao gồm một liên kết đến trang Wikipedia của bộ phim.
Nếu bạn cuộn xuống danh sách, danh sách sẽ tiếp tục trong một thời gian dài. Tất nhiên,
chúng tôi sẽ không cần phải xem qua mọi thứ để tìm dữ liệu mà chúng tôi muốn. Đó là vẻ đẹp
của một bộ lọc!
Trong trường hợp này, chúng ta sẽ sử dụng mệnh đề WHERE để lọc cơ sở dữ liệu và
thu hẹp danh sách xuống các phim thuộc thể loại hài. Để bắt đầu, chúng ta sẽ sử dụng lệnh
SELECT theo sau là dấu hoa thị. Trong SQL, dấu hoa thị chọn tất cả dữ liệu. Trên một dòng
mới, chúng tôi sẽ nhập TỪ và tên của cơ sở dữ liệu: movie_data.movies. Để lọc phim theo thể
loại hài, chúng ta sẽ nhập WHERE, sau đó liệt kê điều kiện là Genre(Thể loại). Thể loại là
một cột trong tập dữ liệu và chúng tôi chỉ muốn chọn các hàng có ô trong cột Thể loại khớp
chính xác với "Comedy". Tiếp theo, chúng tôi sẽ nhập dấu bằng và viết thể loại cụ thể mà
chúng tôi đang lọc, đó là hài kịch. Vì dữ liệu trong cột Thể loại là dạng chuỗi nên khi viết
chúng ta phải sử dụng dấu nháy đơn hoặc nháy kép. Và hãy nhớ rằng vấn đề viết hoa ở đây,
vì vậy chúng ta phải đảm bảo rằng cách viết hoa đầu dòng khớp chính xác với tên cột. Và bây
giờ chúng ta có thể nhấp vào Run để kiểm tra kết quả.
Những gì chúng ta còn lại là một danh sách phim hài ngắn hơn. Thật tuyệt vời, phải
không? Đây là một cái gì đó khác bạn nên biết. Bạn có thể áp dụng nhiều bộ lọc cho cơ sở dữ
liệu. Bạn thậm chí có thể sắp xếp và lọc dữ liệu cùng lúc để có kết quả chính xác hơn nữa.
Là một nhà phân tích dữ liệu, biết cách sắp xếp và lọc dữ liệu sẽ giúp bạn trở thành một
siêu sao. Đó là tất cả cho bây giờ. Sắp tới, chúng ta sẽ đi sâu vào chi tiết cơ bản của các chức
năng sắp xếp trong bảng tính. Hẹn gặp bạn ở đó!
Chương 4: Sắp xếp dữ liệu trong bảng tính
Sắp xếp tập dữ liệu
Xin chào, chuyên gia dữ liệu! Rất vui được gặp lại bạn và sẵn sàng khám phá thêm
khía cạnh tổ chức của phân tích dữ liệu. Trong video này, chúng ta sẽ tìm hiểu cách sắp xếp
dữ liệu trong bảng tính. Chúng tôi đã thực hiện một số sắp xếp trong bảng tính trước đó trong
chương trình. Bây giờ là lúc xây dựng dựa trên những gì chúng ta đã đề cập và giới thiệu một
số kỹ thuật sắp xếp nâng cao hơn.
Sắp xếp rất tuyệt vời. Nó không chỉ thêm trật tự và ý nghĩa cho bảng tính của bạn, nó
còn cung cấp cho bạn sức mạnh để hình dung lại toàn bộ dữ liệu. Khi bạn sắp xếp dữ liệu dựa
trên một số liệu cụ thể, bạn có thể khám phá các mẫu và mối quan hệ mới trong bộ dữ liệu mà
bạn có thể không nhận thấy.
Điều này đặc biệt đúng đối với bảng tính mà bạn sẽ sử dụng rất nhiều trong công việc
của mình với tư cách là nhà phân tích dữ liệu. Biết cách sắp xếp dữ liệu trong bảng tính có thể
giúp bạn trở thành một nhà phân tích mạnh mẽ và tự tin hơn. Theo nhiều cách, việc sắp xếp
dựa vào khả năng sáng tạo của bạn để hình dung lại thông tin bạn có trước mặt. Trong bảng
tính, bạn có thể sắp xếp dữ liệu theo thứ tự tăng dần hoặc giảm dần bằng cách sử dụng số hoặc
chữ cái. Nếu các ô được gắn nhãn màu, bạn cũng có thể sắp xếp chúng theo màu.
Khi sắp xếp dữ liệu trong bảng tính, bạn có thể chọn "Sắp xếp trang tính" hoặc "Phạm
vi sắp xếp". Nếu áp dụng "Sort sheet", tất cả dữ liệu trong bảng tính được sắp xếp theo các
điều kiện của một cột, nhưng thông tin liên quan trên mỗi hàng vẫn ở cùng nhau. Mặt khác,
"Sort range" không giữ thông tin giữa các hàng với nhau. Khi bạn sắp xếp một phạm vi, bạn
đang chọn một tập hợp ô cụ thể hoặc phạm vi mà bạn muốn giới hạn sắp xếp. Không có gì
khác trên bảng tính được sắp xếp lại ngoại trừ các ô được chỉ định.
Có hai phương pháp để sắp xếp dữ liệu bảng tính: một là sử dụng menu; cách khác liên
quan đến việc viết ra chức năng sắp xếp. Hiện tại, chúng tôi sẽ tập trung vào việc sắp xếp bằng
menu. Chúng ta sẽ viết ra các chức năng sau này.
Bây giờ, tùy thuộc vào chương trình bạn sử dụng, quy trình có thể hơi khác một chút,
nhưng các hướng dẫn và khái niệm mà chúng ta thảo luận về cơ bản sẽ giống nhau. Quay lại
sắp xếp với menu dữ liệu. Để cung cấp cho bạn ý tưởng về cách thực hiện, chúng tôi sẽ sử
dụng bảng tính phim. Hãy cùng kiểm tra nào. Trong ví dụ này, chúng tôi sẽ sắp xếp phim theo
ngày phát hành. Chúng ta sẽ chuyển sang cột B, được liệt kê là "Ngày phát hành". Nhấp vào
nút "B" để đánh dấu tất cả các ô trong cột. Từ đó, chúng ta sẽ chuyển đến tab Dữ liệu trong
menu. Bây giờ bạn có hai lựa chọn: sắp xếp một trang tính hoặc một dải dữ liệu. Bạn sẽ nhận
thấy rằng chúng tôi chỉ chọn ngày phát hành, nhưng những ngày phát hành này có liên quan
cụ thể đến các phim trong hàng của chúng. Trong trường hợp này, bạn muốn ngày phát hành
và tiêu đề phim ở cùng một hàng khi bạn sắp xếp vì chúng có liên quan với nhau. Để thực hiện
việc này, bạn sẽ muốn "Sắp xếp trang tính". Điều này sẽ giữ tất cả dữ liệu cùng nhau theo
hàng, bất kể bạn sắp xếp nó như thế nào. Tùy thuộc vào thứ tự bạn muốn có ngày phát hành,
bạn có thể sắp xếp từ A đến Z, điều này cũng sẽ xếp hạng các ngày theo số. Hoặc bạn có thể
sắp xếp từ Z đến A, cách này sẽ sắp xếp dữ liệu theo cách ngược lại. Vì chúng tôi muốn ngày
phát hành theo thứ tự, chúng tôi sẽ nhấp vào "Sắp xếp trang tính theo cột B" từ A đến Z. Và
thế là xong.
Bạn vừa sắp xếp một bảng dữ liệu bằng menu. Bây giờ các bộ phim được sắp xếp theo
thứ tự thời gian dựa trên ngày phát hành. Giả sử bạn muốn sắp xếp dữ liệu trong một cột cụ
thể, nhưng không cần các ô trong cột đó được liên kết với một hàng thông tin cụ thể. Thay
vào đó, bạn muốn tách riêng dữ liệu của cột và tự sắp xếp nó mà không ảnh hưởng đến cách
sắp xếp phần còn lại của trang tính.
Để giải trí, chúng tôi sẽ sử dụng cột Tiêu đề phim trong ví dụ này. Trước tiên, chúng tôi sẽ
chọn cột mà chúng tôi muốn sắp xếp: cột A. Nhấp vào cột A tô sáng tất cả các ô trong cột
chứa tiêu đề phim. Sau đó, chúng tôi sẽ chuyển đến trình đơn và nhấp vào Dữ liệu vì chúng
tôi đang tách riêng cột khỏi phần còn lại của trang tính. Khi chúng tôi sắp xếp lần này, chúng
tôi sẽ nhấp vào "Sắp xếp phạm vi theo cột A." Đối với ví dụ này, chúng tôi sẽ sắp xếp tên
phim theo thứ tự bảng chữ cái từ A đến Z. Vậy là xong! Bạn sẽ nhận thấy rằng "Phạm vi sắp
xếp" không giữ các hàng lại với nhau nên dữ liệu hơi lộn xộn. Có thể bạn sẽ sử dụng "Bảng
phân loại" thường xuyên hơn, nhưng điều quan trọng là phải hiểu cả hai để bạn không vô tình
nhầm lẫn chúng.
Bạn vừa sắp xếp dữ liệu trong bảng tính bằng menu và bạn đã học cách sắp xếp dữ liệu
theo toàn bộ trang tính hoặc theo một dải ô. Đó là thứ bạn sẽ có thể mang theo bên mình mọi
lúc mọi nơi với tư cách là nhà phân tích dữ liệu. Tiếp theo, chúng ta sẽ tìm hiểu về cách sắp
xếp thứ hai trong bảng tính: bằng cách viết ra một hàm. Chúng tôi cũng sẽ đưa việc sắp xếp
lên cấp độ tiếp theo bằng cách sắp xếp tùy chỉnh dữ liệu của bạn. Hẹn gặp bạn ở đó!
Hàm SẮP XẾP
Rất vui khi có bạn trở lại. Trước đó trong chương trình, chúng ta đã đề cập đến một số
khái niệm cơ bản về sắp xếp trong bảng tính. Chúng tôi đã tìm hiểu sự khác biệt giữa sắp xếp
một phạm vi và toàn bộ trang tính cũng như cách sắp xếp bảng tính bằng menu.
Bây giờ chúng ta đã đặt nền móng, đã đến lúc chuyển sang các cách sắp xếp thông tin
nâng cao hơn. Chúng ta đã nói về cách có hai phương pháp sắp xếp dữ liệu trong bảng tính.
Phương pháp đầu tiên sử dụng tab Dữ liệu trong menu của chương trình bảng tính của bạn.
Cách thứ hai để lưu trữ thông tin trong bảng tính là viết hàm SORT.
Trong bảng tính, các hàm là các lệnh đặt trước thực hiện một quy trình cụ thể. Vì vậy,
trong trường hợp này, hàm SORT, như bạn có thể đoán, sẽ sắp xếp dữ liệu của bạn. Hãy xem
bảng tính kế hoạch tổ chức tiệc này để chứng kiến chức năng SORT hoạt động.
Bộ dữ liệu được sắp xếp đầu tiên là bộ dữ liệu ban đầu của chúng tôi về khách và một
số thông tin về họ. Vì vậy, giả sử bạn muốn sắp xếp khách dự tiệc theo bàn để biết ai sẽ ngồi
ở đâu. Để làm điều đó, hãy bắt đầu bằng cách nhập một hàm vào một ô trống. Cũng giống như
bất kỳ chức năng nào, bạn thực hiện việc này bằng cách nhập dấu bằng, rồi viết SORT sau
dấu bằng. Sau dấu ngoặc đơn mở đầu tiên của bạn, hãy tham chiếu ô đầu tiên mà dữ liệu được
thu thập từ đó. Trong trường hợp này, đó là A2.
Sau đó, bạn sẽ thêm dấu hai chấm và viết ô cuối cùng mà bạn muốn đưa vào hàm, đó là D6.
A2 dấu hai chấm D6 là phạm vi cho chức năng này. Tiếp theo, hãy viết dấu phẩy để phân tách
phạm vi khỏi những gì chúng tôi sắp xếp theo, đó là cột B. Bạn nên nhớ rằng phần này của
hàm không nhận dạng các chữ cái trong cột. Vì vậy, trong trường hợp này, chúng tôi sử dụng
số tương ứng thay vào đó là 2, vì cột B là cột thứ hai trong phạm vi của chúng tôi. Bây giờ
thêm một dấu phẩy. Trong phần tiếp theo này, bạn sẽ cần quyết định xem bạn muốn dữ liệu
trong cột này theo thứ tự tăng dần hay giảm dần. Một tuyên bố TRUE theo thứ tự tăng dần và
FALSE giảm dần. Bởi vì chúng tôi muốn các bảng được liệt kê bắt đầu từ bảng số một, chúng
tôi sẽ viết TRUE cho tăng dần, sau đó kết thúc hàm bằng dấu ngoặc đơn đóng. Bây giờ, hãy
xem chức năng của chúng tôi diễn ra.
Khách dự tiệc của chúng tôi hiện được sắp xếp theo bàn mà họ đang ngồi. Sau khi bạn
có ý tưởng về dữ liệu bạn muốn được sắp xếp và cách sắp xếp, việc áp dụng các hàm cho dữ
liệu của bạn rất đơn giản. Bây giờ, bạn có hai công cụ khác nhau trong dây đai công cụ để sắp
xếp dữ liệu.
Sau khi bạn đã giải quyết xong việc viết các hàm SẮP XẾP, bạn cũng sẽ muốn tùy
chỉnh các thứ tự sắp xếp. Customized sort order is When you sort data in a spreadsheet using
multiple conditions (Thứ tự sắp xếp tùy chỉnh là khi bạn sắp xếp dữ liệu trong bảng tính bằng
nhiều điều kiện). Điều này có nghĩa là việc sắp xếp sẽ dựa trên thứ tự của các điều kiện mà
bạn chọn.
Hãy quay trở lại bảng tính bữa tiệc của chúng ta. Hãy tưởng tượng bạn muốn khách
mời được sắp xếp theo việc họ có được gửi lời mời hay không. Và dựa vào đó, chúng tôi muốn
những tên khách đó được liệt kê theo thứ tự bảng chữ cái. Bạn có thể làm điều đó một cách dễ
dàng với tùy chọn "Phạm vi sắp xếp" trong Dữ liệu.
Đầu tiên, đánh dấu tất cả dữ liệu trong tập hợp từ ô A1 đến D6. Sau đó, trong tab Dữ
liệu trong menu, nhấp vào "Phạm vi sắp xếp". Trong trường hợp này, hãy kiểm tra "Dữ liệu
có hàng tiêu đề", điều này đảm bảo rằng tiêu đề của cột không bị trộn lẫn khi sắp xếp. Sau đó,
chúng tôi sẽ đảm bảo rằng nó được sắp xếp theo "Đã gửi lời mời". Ở đây, chúng tôi muốn câu
trả lời "Không" trước và câu trả lời "Có" thứ hai, vì vậy chúng tôi sẽ đảm bảo nhấp vào A đến
Z để sắp xếp các câu trả lời theo thứ tự đó. Bởi vì chúng tôi muốn thêm một điều kiện sắp xếp
bổ sung, bây giờ chúng tôi sẽ nhấp vào "Thêm cột sắp xếp khác". Tên khách phải theo thứ tự
bảng chữ cái. Vì vậy, hãy chọn "Tên khách" và sắp xếp từ A đến Z. Sau đó, chúng tôi sẽ nhấp
vào Sắp xếp. Và Voila! Bạn đã chính thức áp dụng thứ tự sắp xếp tùy chỉnh như một nhà vô
địch.
Được rồi, vậy là bạn đã xử lý việc sắp xếp trong bảng tính theo trang tính, theo phạm
vi, thông qua menu và bằng cách sử dụng một hàm. Trên hết, bạn đã bổ sung thêm kỹ năng tổ
chức của mình bằng cách học cách tạo các thứ tự sắp xếp tùy chỉnh. Bạn sẽ sớm học được một
công cụ mạnh mẽ khác: cách sắp xếp dữ liệu bằng SQL.
Mặc dù cơ sở dữ liệu đôi khi có thể rất khó hiểu, nhưng việc học những kỹ năng này
sẽ mang lại cho bạn sức mạnh để sắp xếp lại dữ liệu theo cách phù hợp với bạn. Khi bạn đã
sắp xếp dữ liệu theo cách thực sự ấn tượng, bạn sẽ hiểu tại sao nó lại có giá trị như vậy đối
với bạn với tư cách là một nhà phân tích dữ liệu. Tạm biệt nhé!
Emma: Hành trình đến với sự nghiệp ý nghĩa
Tôi là Emma và tôi là nhà phân tích sản phẩm trên Google Health. Sản phẩm mà tôi
đang giúp phân tích dữ liệu là một công cụ dành cho các bác sĩ lâm sàng và điều mà điều này
sẽ cho phép các bác sĩ lâm sàng làm là tìm dữ liệu sức khỏe của bệnh nhân của họ một cách
dễ dàng như bạn có thể tìm thấy dữ liệu trên Google Tìm kiếm.
Điều tôi đặc biệt tập trung vào là chuẩn hóa dữ liệu chăm sóc sức khỏe, phân tích dữ
liệu đó để tìm ra điểm bất thường hoặc các vấn đề về chất lượng dữ liệu, đồng thời trao đổi
với người quản lý sản phẩm về những tính năng nào chúng tôi nên khởi chạy và lý do.
Tôi đã giải quyết các vấn đề từ việc giải quyết các sự cố đầu máy trong việc dự đoán
chúng trước khi chúng xảy ra, đến việc dự báo doanh số bán túi xách trước khi túi xách được
tung ra thị trường, đến giờ là làm việc với dữ liệu chăm sóc sức khỏe để cố gắng cho phép các
bác sĩ lâm sàng dễ dàng có dữ liệu về bệnh nhân của họ tại phòng khám. trong tầm tay.
Tôi thực sự thích làm việc trong lĩnh vực phân tích dữ liệu, nhưng tôi đang cố gắng tìm
ra loại dữ liệu nào tôi muốn làm việc hoặc lĩnh vực nào trong phân tích dữ liệu mà tôi muốn
tập trung vào vì có rất nhiều. Cuối cùng tôi đã bị thu hút bởi việc làm việc với dữ liệu chăm
sóc sức khỏe. Tôi thực sự yêu thích tất cả các vấn đề mà chúng ta gặp phải ngày nay trong
lĩnh vực chăm sóc sức khỏe và làm thế nào mà lượng dữ liệu khổng lồ có sẵn trong ngành
chăm sóc sức khỏe này có thể được sử dụng tốt hơn để giúp đỡ bệnh nhân, giúp đỡ các bác sĩ
lâm sàng, cải thiện sức khỏe dân số.
Làm việc với các bộ dữ liệu có ý nghĩa là điều thực sự khiến tôi hào hứng đến làm việc
mỗi ngày và hào hứng giải quyết những vấn đề này. Điều tôi nhận thấy trong sự nghiệp của
mình là việc theo dõi các tập dữ liệu mà tôi quan tâm, các loại vấn đề mà tôi quan tâm, luôn
mang lại kết quả tốt hơn bởi vì tôi có động lực đi làm nhiều hơn mỗi ngày để cố gắng hết sức
để giải quyết những vấn đề này. vấn đề thú vị bởi vì nó chỉ là những gì tôi quan tâm. Điều
đáng kinh ngạc là dữ liệu có ở khắp mọi nơi, có những vấn đề về dữ liệu ở mọi công ty trong
mọi lĩnh vực và bạn thực sự chỉ cần làm theo những gì mình đam mê.
Chương 5: Sắp xếp dữ liệu bằng SQL
Sắp xếp truy vấn trong SQL
Xin chào! Nếu bạn đang muốn tìm hiểu về sắp xếp—trong SQL lần này—thì chắc chắn
bạn đã đến đúng nơi. Cho đến nay, chúng tôi đã sắp xếp các bảng tính thông qua menu và với
một chức năng được viết. Điều này đưa chúng ta đến phần tiếp theo của bài học: nhiều hàm
sắp xếp hơn, nhưng lần này là trong SQL.
Các nhà phân tích dữ liệu thích chơi với cách trình bày dữ liệu. Sắp xếp là một cách
hữu ích để sắp xếp lại dữ liệu vì nó có thể giúp bạn hiểu dữ liệu bạn có theo một cách khác.
Như bạn có thể đã nhận thấy, rất nhiều thứ bạn có thể làm trong bảng tính cũng có thể
được thực hiện trong SQL. Sắp xếp là một trong những điều đó. Trước đây chúng ta đã nói về
việc sử dụng SQL với các bộ dữ liệu lớn. Khi một bảng tính có quá nhiều dữ liệu, bạn có thể
nhận được thông báo lỗi hoặc có thể khiến chương trình của bạn gặp sự cố. Đó chắc chắn là
điều chúng tôi muốn tránh. SQL rút ngắn các quy trình mà nếu không sẽ mất rất nhiều thời
gian hoặc không thể hoàn thành trong bảng tính. Cá nhân tôi sử dụng SQL để kéo và kết hợp
các bảng dữ liệu khác nhau. Nó nhanh hơn nhiều so với bảng tính và điều đó thường có ích.
Đây là một số điều khá hữu ích mà bạn có thể thực hiện với SQL. Bạn có thể sử dụng
mệnh đề ORDER BY để sắp xếp kết quả trả về trong một truy vấn. Hãy quay lại bảng tính
phim của chúng ta để hiểu rõ hơn về cách thức hoạt động của nó. Vui lòng theo dõi công cụ
SQL mà bạn chọn khi chúng tôi tiếp tục. Để cập nhật nhanh, chúng tôi có một cơ sở dữ liệu
gồm các phim được liệt kê với các dữ liệu như ngày phát hành, đạo diễn, v.v. Chúng ta có thể
sắp xếp bảng này theo nhiều cách khác nhau bằng hàm ORDER BY. Đối với ví dụ này, hãy
sắp xếp theo ngày phát hành. Đầu tiên, chúng ta có hàm SELECT và dấu hoa thị. Hãy nhớ
rằng dấu hoa thị có nghĩa là tất cả các cột được chọn. Sau đó, chúng tôi có TỪ và tên của cơ
sở dữ liệu và bảng mà chúng tôi đang ở ngay bây giờ. Bây giờ chúng ta hãy kiểm tra dòng tiếp
theo. Nó trống, nhưng đó là nơi chúng ta sẽ viết hàm ORDER BY. Lệnh ORDER BY thường
là mệnh đề cuối cùng trong truy vấn của bạn. Quay lại phân loại thực tế! Chúng tôi sẽ nhập
ORDER BY với khoảng trắng. Với mệnh đề này, bạn có thể chọn sắp xếp dữ liệu theo các
trường trong một cột nhất định. Vì chúng tôi muốn sắp xếp theo ngày phát hành, nên chúng
tôi sẽ nhập Release_Date.
Theo mặc định, mệnh đề ORDER BY sắp xếp dữ liệu theo thứ tự tăng dần. Nếu bạn chạy truy
vấn như hiện tại, phim sẽ được sắp xếp từ ngày phát hành cũ nhất đến ngày phát hành gần đây
nhất. Hãy chạy truy vấn và xem những gì chúng tôi đã có. Bạn cũng có thể sắp xếp ngày phát
hành theo thứ tự ngược lại từ ngày gần đây nhất đến ngày cũ nhất.
Để làm điều này, chỉ cần xác định thứ tự giảm dần trong lệnh ORDER BY được viết
là DESC, D-E-S-C. Hãy chạy truy vấn này.
Như bạn sẽ nhận thấy, những bộ phim được phát hành gần đây nhất hiện đang ở trên cùng của
cơ sở dữ liệu. Trong bảng tính, bạn có thể kết hợp các loại và bộ lọc để hiển thị thông tin theo
cách khác. Bạn cũng có thể làm điều gì đó tương tự trong SQL.
Bạn có thể nhớ rằng trong khi sắp xếp đặt dữ liệu theo một thứ tự cụ thể, bộ lọc sẽ thu
hẹp dữ liệu để bạn chỉ thấy dữ liệu phù hợp với bộ lọc. Ví dụ: giả sử chúng tôi muốn lọc phim
theo thể loại để chúng tôi chỉ làm việc với phim hài. Nhưng chúng tôi vẫn muốn ngày phát
hành được sắp xếp theo thứ tự giảm dần, từ phim gần đây nhất đến phim cũ nhất. Chúng ta có
thể làm điều này với mệnh đề WHERE. Hãy thử điều đó ngay bây giờ.
Đầu tiên, chúng ta sẽ kiểm tra xem mệnh đề ORDER BY luôn ở dòng cuối cùng. Điều
đó đảm bảo rằng tất cả kết quả của truy vấn bạn đang chạy được sắp xếp theo mệnh đề đó.
Sau đó, chúng ta sẽ thêm một dòng mới cho mệnh đề WHERE sau FROM và trước ORDER
BY. Đây là những gì chúng tôi đã có cho đến nay. Từ đó, chúng tôi muốn nhập cột mà chúng
tôi đang lọc. Trong trường hợp này, chúng tôi muốn lọc cơ sở dữ liệu cho các Comedy. Sau
mệnh đề WHERE, chúng tôi sẽ nhập tên của danh sách cột là Genre. Bây giờ, chúng tôi sẽ
thêm dấu bằng sau. Thể loại vì chúng tôi chỉ muốn bao gồm các thể loại phù hợp với những
gì chúng tôi đang lọc. Trong trường hợp này, chúng tôi đang lọc hài kịch, vì vậy chúng tôi sẽ
nhập Hài kịch giữa hai dấu nháy đơn. Bây giờ, nếu bạn kiểm tra toàn bộ truy vấn, bạn sẽ nhận
thấy rằng chúng tôi đang chọn tất cả các cột và chúng tôi biết đó là tất cả các cột vì đó là ý
nghĩa của dấu sao. Mệnh đề FROM chỉ định tên của cơ sở dữ liệu phim chúng tôi đang sử
dụng và mệnh đề WHERE lọc dữ liệu để bao gồm các mục có thể loại được chỉ định là hài
kịch. Sau đó, ở dòng cuối cùng, chúng ta có mệnh đề ORDER BY, mệnh đề này sẽ sắp xếp
dữ liệu mà chúng ta đã chọn để lọc theo ngày phát hành theo thứ tự giảm dần. Điều này có
nghĩa là khi chúng tôi chạy truy vấn, chúng tôi sẽ chỉ có các bộ phim hài được liệt kê từ bản
phát hành mới nhất đến bản phát hành cũ nhất. Hãy chạy nó và tìm hiểu xem đó có phải là
trường hợp không.
Cool. Hãy xem tất cả những bộ phim hài đó và cách sắp xếp những ngày đó.
Đây là những gì chúng tôi đã có cho đến nay. Từ đó, chúng tôi muốn nhập cột mà
chúng tôi đang lọc. Trong trường hợp này, chúng tôi muốn lọc cơ sở dữ liệu cho các bộ phim
hài. Sau mệnh đề WHERE, chúng tôi sẽ nhập tên của danh sách cột là Thể loại. Bây giờ, chúng
tôi sẽ thêm dấu bằng sau Thể loại vì chúng tôi chỉ muốn bao gồm các thể loại phù hợp với
những gì chúng tôi đang lọc. Trong trường hợp này, chúng tôi đang lọc hài kịch, vì vậy chúng
tôi sẽ nhập Hài kịch giữa hai dấu nháy đơn. Bây giờ, nếu bạn kiểm tra toàn bộ truy vấn, bạn
sẽ nhận thấy rằng chúng tôi đang chọn tất cả các cột và chúng tôi biết đó là tất cả các cột vì
đó là ý nghĩa của dấu hoa thị. Mệnh đề FROM chỉ định tên của cơ sở dữ liệu phim chúng tôi
đang sử dụng và mệnh đề WHERE lọc dữ liệu để bao gồm các mục có thể loại được chỉ định
là hài kịch. Sau đó, ở dòng cuối cùng, chúng ta có mệnh đề ORDER BY, mệnh đề này sẽ sắp
xếp dữ liệu mà chúng ta đã chọn để lọc theo ngày phát hành theo thứ tự giảm dần. Điều này
có nghĩa là khi chúng tôi chạy truy vấn, chúng tôi sẽ chỉ có các bộ phim hài được liệt kê từ
bản phát hành mới nhất đến bản phát hành cũ nhất. Hãy chạy nó và tìm hiểu xem đó có phải
là trường hợp không. Mát mẻ. Hãy xem tất cả những bộ phim hài đó và cách sắp xếp những
ngày đó. Bây giờ, hãy thực hiện truy vấn này thêm một bước nữa. Chúng tôi sẽ lọc hai điều
kiện cùng một lúc bằng cách sử dụng bộ lọc AND. Làm việc với truy vấn mà chúng ta đang
sử dụng, chúng ta sẽ thêm điều kiện thứ hai vào mệnh đề WHERE. Chúng tôi sẽ giữ nguyên
cách sắp xếp. Giả sử bạn muốn lọc theo phim hài và phim kiếm được hơn 300 triệu đô la tại
phòng vé. Trong trường hợp này, sau hàm AND, bạn sẽ thêm điều kiện doanh thu bằng cách
nhập Doanh thu. Từ đó, bạn sẽ xác định rằng bạn chỉ muốn trả lại những bộ phim có doanh
thu trên 300 triệu USD. Để làm điều đó, hãy nhập dấu lớn hơn và sau đó nhập số đầy đủ 300
triệu không có dấu phẩy. Bây giờ hãy chạy truy vấn. Ở đây, dữ liệu chỉ hiển thị các phim hài
có doanh thu trên 300 triệu USD và được sắp xếp theo thứ tự giảm dần theo ngày phát hành.
Nó trông thực sự tốt. Bạn vừa lọc và sắp xếp cơ sở dữ liệu giống như đó là công việc của bạn.
Và với thực hành, một ngày nó có thể được. Cứ như vậy, bạn đã hoàn thành một bước nữa
trong hành trình phân tích dữ liệu của mình. Đến bây giờ, bạn đã thực sự đào sâu và tìm hiểu
về quy trình phân tích với sự nhấn mạnh đặc biệt về cách tổ chức có thể thay đổi cách bạn
xem xét dữ liệu của mình. Bạn cũng đã học về cả bảng tính và SQL cũng như cách sắp xếp và
lọc dữ liệu trong cả hai loại chương trình. Để giúp bạn cảm thấy thoải mái hơn khi sử dụng
các tính năng bảng tính và SQL, bạn sẽ nhận được một số tài liệu mà bạn có thể sử dụng làm
tài nguyên. Sắp tới, chúng ta sẽ xem tư duy tổ chức có thể nâng cao kỹ năng phân tích của bạn
hơn nữa như thế nào. Chúng tôi cũng sẽ đề cập đến việc chuyển đổi, định dạng và điều chỉnh
dữ liệu để kết hợp thông tin theo cách hợp lý. Học những kỹ năng đó từ sớm có thể giúp công
việc của bạn với tư cách là nhà phân tích dữ liệu hiệu quả và hiệu quả hơn trong thời gian dài.
Hẹn sớm gặp lại.
Tuần 2: Định dạng và điều chỉnh dữ liệu
Khi bạn tiến gần hơn đến việc phân tích dữ liệu của mình, bạn sẽ muốn dữ liệu được
định dạng và sẵn sàng hoạt động. Trong phần này của khóa học, bạn sẽ tìm hiểu tất cả về cách
chuyển đổi và định dạng dữ liệu, bao gồm cách các truy vấn SQL có thể giúp bạn kết hợp dữ
liệu. Bạn cũng sẽ tìm hiểu giá trị của phản hồi và hỗ trợ từ đồng nghiệp cũng như cách nó có
thể dẫn đến việc học tập mới mà bạn có thể áp dụng vào công việc của mình.
Mục tiêu học tập:
 Thể hiện sự hiểu biết về những gì liên quan đến việc chuyển đổi và định dạng dữ liệu
 Thể hiện sự hiểu biết về việc sử dụng bảng tính và truy vấn SQL để kết hợp nhiều phần
dữ liệu
 Thảo luận về tầm quan trọng của việc tìm kiếm phản hồi và hỗ trợ từ những người khác
Chương 1: Chuyển đổi và định dạng dữ liệu
Bắt đầu với định dạng dữ liệu
Này, thật tuyệt khi có bạn trở lại! Bạn đã học được rất nhiều điều và bây giờ bạn đã sẵn
sàng để bắt đầu phân tích dữ liệu. Sắp tới, chúng tôi sẽ đề cập đến một số điều cuối cùng bạn
cần thực hiện cho phân tích của mình để đảm bảo dữ liệu của bạn được định dạng và điều
chỉnh chính xác.
Chúng tôi sẽ bắt đầu chuyển đổi và định dạng dữ liệu của bạn; sử dụng xác thực dữ liệu
trong bảng tính; và định dạng có điều kiện. Bạn cũng sẽ học cách kết hợp nhiều phần dữ liệu.
Và cuối cùng, chúng ta sẽ nói về cách nhận hỗ trợ trong quá trình phân tích của bạn và tìm tài
nguyên bất cứ khi nào bạn gặp khó khăn.
Những kỹ năng này sẽ giúp đảm bảo rằng quy trình phân tích dữ liệu của bạn diễn ra
suôn sẻ nhất có thể. Và ngay cả khi không, bạn sẽ biết cách giải quyết mọi vấn đề có thể xảy
ra.
Một phần quan trọng của việc trở thành một nhà phân tích là khắc phục sự cố và giải
quyết vấn đề. Bạn là một nhà phân tích giỏi nhờ khả năng đặt câu hỏi đúng, đó là lý do tại sao
chúng ta sẽ dành thời gian tìm hiểu về các chiến lược giải quyết vấn đề mà bạn có thể sử dụng
trong quá trình phân tích. Vì vậy, bất cứ khi nào bạn sẵn sàng bắt đầu tìm hiểu về định dạng
dữ liệu và giải quyết vấn đề, hãy chuyển sang video tiếp theo và chúng ta sẽ bắt đầu.
Từ loại này sang loại khác
Này đó! Cho đến giờ, chúng ta đã học về cách truyền dữ liệu kiểu chữ với SQL như
một cách chuyển đổi dữ liệu từ kiểu này sang kiểu khác trong cơ sở dữ liệu. Bây giờ tôi muốn
xem một cách khác để định dạng kiểu dữ liệu trong bảng tính.
Trong video này, chúng ta sẽ nói thêm về lý do tại sao việc đảm bảo dữ liệu của bạn
được định dạng đúng lại quan trọng đến vậy và cách định dạng số cũng như chuyển đổi đơn
vị đo lường trong bảng tính của bạn.
Bắt đầu nào. Đôi khi, bạn cần chuyển đổi dữ liệu khi đang làm việc với bảng tính. Điều
đó có thể có nghĩa là thay đổi số thành ngày, chuỗi, tỷ lệ phần trăm hoặc thậm chí là tiền tệ.
Điều quan trọng là phải kiểm tra kỹ xem tất cả dữ liệu của bạn có ở định dạng phù hợp cho
phân tích của bạn hay không.
Đôi khi ngay cả sau khi làm sạch và xử lý dữ liệu, nó vẫn có thể không ở đúng định
dạng bạn cần. Hãy nghĩ lại bảng với dữ liệu phim từ trước. Có rất nhiều loại dữ liệu khác nhau
bao gồm các con số, chẳng hạn như ngày tháng, ngân sách và chuỗi văn bản, chẳng hạn như
tên diễn viên. Đây là những giá trị riêng biệt nhưng không phải lúc nào bảng tính cũng tự động
biết điều đó.
Đây là một ví dụ. Giả sử bạn muốn sắp xếp phim trong bảng tính này theo thời gian
gần đây nhất. Nếu bảng tính truyền chúng dưới dạng chuỗi thay vì ngày, thì bảng tính có thể
sắp xếp chúng theo thứ tự bảng chữ cái. Bạn sẽ không thể sắp xếp chúng theo cách bạn muốn
cho đến khi bạn thay đổi loại dữ liệu. Cũng có thể bộ dữ liệu của bạn chứa các đơn vị đo lường
không nhất quán mà bạn cần phải chuyển đổi. Giống như nói, một bảng bao gồm cả đô la Mỹ
và bảng Anh.
Đó là lý do tại sao việc kiểm tra lại các loại dữ liệu đó là rất quan trọng để bạn không
gặp phải bất kỳ sự cố nào trong quá trình phân tích thực tế. Hãy suy nghĩ về ngày diễn viên
không chính xác trong bảng phim của chúng tôi. Nếu sếp của bạn cần danh sách 20 bộ phim
gần đây nhất, nhưng bảng tính của bạn được sắp xếp theo thứ tự bảng chữ cái thay vì theo bộ
phim gần đây nhất, thì bạn sẽ không đưa cho cô ấy danh sách phim mà cô ấy cần.
Dữ liệu được định dạng không chính xác có thể dẫn đến những sai lầm tốn thời gian
trong quá trình phân tích của bạn và cuối cùng có thể ảnh hưởng đến việc ra quyết định của
các bên liên quan.
Nhưng dành thời gian sớm để chuyển đổi và định dạng dữ liệu của bạn có thể giúp bạn
tránh được điều đó. Và bây giờ bạn đã biết lý do tại sao bạn cần chuyển đổi các loại dữ liệu
khi làm việc trong bảng tính, hãy cùng tìm hiểu cách thực hiện.
Trước tiên, hãy để tôi chỉ cho bạn một menu thực sự hữu ích để chỉ định các loại dữ
liệu trong bảng tính. Đây là bảng dữ liệu phim mà chúng tôi sử dụng trước đây, nhưng bây
giờ các cột tiền không được nhập dưới dạng tiền tệ. Trên thanh công cụ ở đầu trang tính, bạn
sẽ tìm thấy một menu có thể giúp bạn chuyển đổi những số này thành các loại dữ liệu cụ thể.
Nó cung cấp cho bạn rất nhiều lựa chọn chỉ từ menu thả xuống, chẳng hạn như số, tiền tệ,
ngày, tỷ lệ phần trăm.... Và nếu bạn nhấp để mở menu đầy đủ, thậm chí còn có nhiều tùy chọn
hơn, bao gồm một tùy chọn cho định dạng số tùy chỉnh .
Chúng tôi biết rằng chúng tôi muốn các cột này ở định dạng tiền tệ, vì vậy hãy làm
điều đó. Tất cả những gì tôi phải làm là chọn cột này và sau đó nhấn phím tắt tiền tệ. Và bây
giờ tất cả đã được gõ chính xác.
Nhưng nó không dừng lại ở đó. Bạn có thể đi xa hơn nữa và chuyển đổi đơn vị đo lường
mà bạn đang sử dụng. Đối với ví dụ này, hãy kiểm tra một bảng khác. Hãy tưởng tượng rằng
bạn đang làm việc với một kênh thời tiết để thu thập dữ liệu về nhiệt độ hàng ngày. Bạn có
một bảng với một số dữ liệu về các quan sát hàng ngày về nhiệt độ, tốc độ gió và lượng mưa
ở khu vực này. Hiện tại, nhiệt độ tính bằng độ F, nhưng để phân tích, bạn cần nhiệt độ tính
bằng độ C. Không vấn đề gì. Tất cả những gì bạn cần làm là sử dụng chức năng CONVERT
để thay đổi đơn vị đo lường. Chúng tôi sẽ sử dụng cột trống này ở đây. Đây là nhiệt độ đầu
tiên trong bảng. Chúng ta sẽ nhập hàm CONVERT vào cột mới để thay đổi nó thành độ C.
Sau đó, chúng ta cần đặt ô nào chúng ta muốn chuyển đổi. =CONVERT(B2,”F”,”C”)
Và cuối cùng, chúng ta sẽ chuyển đổi. Và thế là xong! Bây giờ ô này có đơn vị đo phù
hợp cho phân tích của bạn. Bạn chỉ cần áp dụng nó cho phần còn lại của cột này.
Giờ đây, tất cả dữ liệu nhiệt độ này đều tính bằng độ C và đơn vị đo lường của bạn nhất
quán trên toàn bảng. Và đây là một mẹo khác. Khi thêm dữ liệu vào bảng bằng công thức, hãy
quay lại và dán dữ liệu vào dưới dạng giá trị sau đó. Bằng cách đó, chúng bị khóa. Nếu không,
ô sẽ ở dạng công thức và có thể gây nhầm lẫn khi bạn bắt đầu làm việc với dữ liệu.
Vì vậy, hãy làm điều đó ngay bây giờ. Chúng tôi sẽ sao chép các giá trị và sau đó nhấp
chuột phải vào một cột mới. Có một tùy chọn cho "Dán đặc biệt". Và có một tùy chọn để "Chỉ
dán giá trị." Và bây giờ chúng ta có các giá trị tĩnh trong cột này.
Đảm bảo dữ liệu của bạn ở định dạng phù hợp trước khi bắt đầu phân tích là rất quan
trọng. Hãy làm điều này và phân tích của bạn sẽ trả về những loại câu trả lời mà bạn thực sự
đang tìm kiếm. Và bây giờ bạn đã biết một số cách để nhập số và chuyển đổi đơn vị đo lường
trong bảng tính. Bạn có thể yên tâm rằng dữ liệu của mình được định dạng đúng cách. Tiếp
theo, chúng ta sẽ nói nhiều hơn về việc điều chỉnh dữ liệu của bạn để phân tích và xác thực dữ
liệu. Hẹn sớm gặp lại.
Xác nhận dữ liệu
Chào mừng trở lại! Trong khi chúng ta đang tìm hiểu về định dạng dữ liệu, tôi muốn
nói với bạn về một tính năng khác của bảng tính: xác thực dữ liệu. Trong video này, tôi sẽ
hướng dẫn bạn một chút về xác thực dữ liệu và chỉ cho bạn cách sử dụng nó.
Hiện tại, khi tôi nói xác thực dữ liệu, tôi đang nói về chức năng, nó khác với quy trình
xác thực dữ liệu. Chúng ta sẽ đi sâu vào vấn đề đó sau.
Nhưng trước tiên, hãy nói về chức năng xác thực dữ liệu trong bảng tính. Về cơ bản,
nó cho phép bạn kiểm soát những gì có thể và không thể nhập trong trang tính của mình.
Thông thường, xác thực dữ liệu được sử dụng để thêm danh sách thả xuống vào các ô với các
tùy chọn được xác định trước để người dùng lựa chọn. Nếu bạn có một bảng tính với nhiều
cộng tác viên, điều này có thể giúp họ tương tác với bảng của bạn dễ dàng hơn. Bạn có thể coi
nó giống như một câu hỏi trắc nghiệm trong một bài kiểm tra. Vì bạn kiểm soát những gì được
nhập vào trang tính, nó sẽ giảm bớt lượng dữ liệu bạn phải làm sau này.
Hãy tìm hiểu làm thế nào chúng ta có thể làm điều đó. Trong ví dụ này, chúng ta sẽ
làm việc trên một dự án có nhiều cột mốc và thời hạn để theo dõi. Giả sử nhóm của chúng tôi
có một bảng tính theo dõi tiến trình của mọi người. Nhưng thay vì yêu cầu mọi người viết
riêng vị trí của họ trong nhiệm vụ của họ, chúng tôi có thể cung cấp menu thả xuống với nhiều
tùy chọn, chẳng hạn như "Chưa bắt đầu", "Đang tiến hành" và "Sẵn sàng".
Vì vậy, chúng tôi sẽ chọn cột mà chúng tôi muốn thêm menu thả xuống, trong trường
hợp này là cột "Trạng thái". Sau đó, chúng tôi sẽ chuyển đến trình đơn Dữ liệu kéo xuống ở
trên cùng ở đây và nhấp vào "Xác thực dữ liệu". Thao tác này sẽ hiển thị menu bật lên với các
tùy chọn để xác thực dữ liệu. Trong trường hợp này, chúng tôi biết rằng chúng tôi muốn thêm
danh sách các mục để người dùng khác lựa chọn. Vì vậy, chúng tôi sẽ chọn tùy chọn "danh
sách các mục" từ các tiêu chí có thể và nhập các lựa chọn mà chúng tôi muốn tạo. Sau đó nhấn
Lưu và bây giờ tất cả các ô đó đều có menu thả xuống mà chúng ta có thể sử dụng để dễ dàng
đánh dấu tiến trình cho từng tác vụ.
Nhưng cũng có những thứ khác mà bạn có thể thực hiện với xác thực dữ liệu và bảng
tính, chẳng hạn như tạo các hộp kiểm tùy chỉnh. Để thực hiện việc này, hãy chọn các ô bên
dưới cột "Đánh giá" để tạo hộp kiểm cho chúng tôi biết liệu các nhiệm vụ đã được phê duyệt
hay chưa. Chúng tôi sẽ quay lại menu xác thực dữ liệu. Nhưng thay vì chọn "Danh sách từ
một phạm vi", chúng tôi sẽ chọn "Hộp kiểm". Có một tùy chọn để sử dụng các giá trị ô tùy
chỉnh. Hãy chọn cái đó và nhập "Đã phê duyệt" và "Không được phê duyệt."
Giờ đây, những nhiệm vụ này có thể được đánh dấu bởi bất kỳ ai đang xem xét chúng,
chẳng hạn như người quản lý dự án.
Một cách khác mà chúng ta có thể sử dụng xác thực dữ liệu là bảo vệ dữ liệu có cấu
trúc và công thức. Càng nhiều người làm việc cùng nhau trong một bảng tính thì càng có nhiều
khả năng ai đó vô tình phá vỡ một công thức.
Nhưng tin tốt là: menu xác thực dữ liệu có một tùy chọn để từ chối các thông tin nhập
không hợp lệ, giúp đảm bảo các công cụ tùy chỉnh của chúng tôi sẽ tiếp tục chạy chính xác,
ngay cả khi ai đó nhập sai dữ liệu do nhầm lẫn. Được rồi, bây giờ bạn đã biết ba cách sử dụng
để xác thực dữ liệu trong bảng tính của mình: thêm danh sách thả xuống, tạo hộp kiểm tùy
chỉnh và bảo vệ dữ liệu có cấu trúc và công thức.
Xác thực dữ liệu có thể giúp nhóm của bạn theo dõi tiến độ, bảo vệ bảng của bạn khỏi
bị hỏng khi làm việc trong nhóm lớn và giúp bạn tùy chỉnh bảng theo nhu cầu của mình. Sắp
tới, chúng ta sẽ tìm hiểu thêm về định dạng có điều kiện và một số cách bạn có thể sử dụng
định dạng có điều kiện và xác thực dữ liệu cùng nhau. Hẹn sớm gặp lại!
Định dạng có điều kiện
Chào bạn lần nữa nhé. Vì vậy, trước đó chúng ta đã nói về định dạng có điều kiện như
một công cụ bảng tính thay đổi cách các ô xuất hiện khi các giá trị đáp ứng các điều kiện cụ
thể. Điều này cho phép bạn thêm các dấu hiệu trực quan vào bảng tính của mình để giúp bạn
dễ dàng hiểu bảng của mình hơn trong nháy mắt và làm cho thông tin trong bảng tính rõ ràng
hơn đối với các bên liên quan của bạn.
Trong video này, chúng ta sẽ tiến xa hơn nữa bằng cách kết hợp định dạng có điều kiện
và xác thực dữ liệu để tạo các công cụ tùy chỉnh cho bảng tính của mình.
Cho đến nay, chúng tôi đã sử dụng định dạng có điều kiện để đánh dấu các ô trống vẫn
cần dữ liệu để chúng tôi có thể nhanh chóng xác định thông tin nào mà bảng của chúng tôi bị
thiếu và thêm thông tin đó vào.
Bây giờ, hãy xây dựng điều đó bằng cách sử dụng nó để làm cho bảng lập lịch trình
của chúng tôi dễ đọc trong nháy mắt. Đây là bảng mà chúng tôi đã làm việc khi đề cập đến
xác thực dữ liệu. Nó đang theo dõi trạng thái của các nhiệm vụ khác nhau trong dự án của
chúng tôi để nhóm của chúng tôi kiểm tra. Nhưng bây giờ thậm chí còn có nhiều nhiệm vụ
hơn so với lần cuối cùng chúng tôi xem xét nó. Bảng này có thông tin hữu ích, nhưng phải
mất một giây để hiểu. Hiện tại, chúng tôi không có hình ảnh trực quan về số lượng nhiệm vụ
đang được tiến hành hoặc số lượng thời hạn sắp tới. Nhưng nếu chúng ta mã hóa màu các
thành phần đó của bảng, chúng ta có thể nhanh chóng nhìn thấy các phần dữ liệu chính một
cách dễ dàng.
Hãy bắt đầu với cột Trạng thái, cột C. Trong ví dụ trước, chúng tôi đã tạo các menu thả
xuống này bằng công cụ xác thực dữ liệu. Bây giờ chúng ta có thể sử dụng định dạng có điều
kiện để thêm một số màu. Hãy chuyển đến tùy chọn định dạng có điều kiện trong menu Định
dạng. Thao tác này sẽ hiển thị một thanh bên nơi chúng tôi có thể chọn quy tắc phạm vi của
mình theo kiểu định dạng.
Chúng tôi cần quyết định những hàng nào sẽ áp dụng định dạng của mình khi điều kiện
chúng tôi đặt được đáp ứng. Chúng ta có thể nhấp vào nút này trong các tùy chọn phạm vi để
chọn tất cả các hàng mà chúng ta đang áp dụng định dạng thay vì nhập nó vào. Bây giờ chúng
ta đã chọn các ô đó, chúng ta có thể chọn quy tắc mà chúng ta muốn áp dụng cho các ô này.
Chúng tôi đã có menu thả xuống với văn bản cụ thể. Vì vậy, chúng tôi có thể chọn "Định dạng
ô nếu... Văn bản chính xác" từ các quy tắc. Đối với quy tắc đầu tiên của chúng tôi, hãy viết
"Chưa bắt đầu" làm điều kiện văn bản. Sau đó, chúng ta sẽ chọn một màu để áp dụng cho
những ô có chữ "Chưa bắt đầu" trong đó. Hãy sử dụng màu đỏ. Bây giờ, tất cả các ô đã chọn
"Chưa bắt đầu" từ trình đơn thả xuống sẽ có màu đỏ. Hãy nhấn nút "Thêm quy tắc khác" để
thêm định dạng có điều kiện vào các tùy chọn trạng thái khác. Hãy thêm điều kiện "Đang tiến
hành" tiếp theo. Chúng ta có thể làm cho cái đó màu vàng. Sau đó, chúng tôi sẽ thêm một quy
tắc cuối cùng cho "Sẵn sàng". Hãy chọn màu xanh lá cây. Bây giờ chúng ta có một gợi ý trực
quan dễ hiểu cho chúng ta biết có bao nhiêu nhiệm vụ đang được tiến hành và bao nhiêu nhiệm
vụ đã hoàn thành.
Chúng tôi cũng có thể kết hợp xác thực dữ liệu và định dạng có điều kiện để theo dõi
thời hạn sắp tới. Chúng tôi có một cột ngày được gọi là "Đánh giá trước ngày này". Trước tiên,
hãy sử dụng chức năng xác thực dữ liệu để đảm bảo người dùng chỉ nhập ngày hợp lệ. Chúng
tôi sẽ quay lại trình đơn thả xuống Dữ liệu ở trên cùng, kéo lên Xác thực dữ liệu và chọn Ngày
làm tiêu chí của chúng tôi. Sau đó, chúng ta có thể vào menu Định dạng ở trên cùng. Đi xuống
định dạng có điều kiện và mở lại thanh bên. Chúng tôi sẽ nhấp vào biểu tượng "Chọn phạm
vi" và chọn cột "Xem lại trước ngày này". Bây giờ trong Quy tắc định dạng, chúng tôi có thể
chọn "Ngày là sau", điều này sẽ cung cấp cho chúng tôi một tùy chọn khác. Hãy chọn "hôm
nay." Và cuối cùng, hãy chọn màu cho các ô này. Vì vậy, nếu ngày được liệt kê trong các hàng
này sau ngày hôm nay, thì ngày đó sẽ được tô màu cam. Bạn cũng có thể chọn một ngày khóa
cụ thể nếu cần. Nhưng bây giờ, hãy đi với ngày hôm nay.
Giờ đây, tất cả các ngày xem xét sắp tới đều có mã màu dễ nhìn, vì vậy, bất kỳ ai sử
dụng bảng này đều có thể nhanh chóng tham khảo các thời hạn này. Bạn sẽ thấy rằng một số
chương trình bảng tính, chẳng hạn như Excel, có mã màu tích hợp sẵn mà bạn cũng có thể sử
dụng.
Giờ đây, bạn đã biết cách sử dụng xác thực dữ liệu và định dạng có điều kiện để tạo
các công cụ tùy chỉnh và tín hiệu trực quan giúp thông tin của bạn trở nên dễ hiểu. Có rất
nhiều cách khác nhau để sử dụng những công cụ này, vì vậy, hãy thoải mái thử nghiệm chúng
trong bảng tính của riêng bạn. Sắp tới, chúng ta sẽ tiếp tục tìm hiểu về các công cụ mới dành
cho bảng tính và SQL. Tạm biệt bây giờ.
Chương 2: Kết hợp nhiều bộ dữ liệu
Hợp nhất và nhiều nguồn
Thật tuyệt khi thấy bạn trở lại. Trong video này, chúng ta sẽ xây dựng dựa trên những
gì đã học về CONCATENATE và IMPORTRANGE bằng cách khám phá một truy vấn SQL
mới: CONCAT.
Bạn có thể nhớ rằng CONCATENATE là một hàm nối hai hoặc nhiều chuỗi văn bản
lại với nhau. Xin nhắc lại, chuỗi văn bản là một nhóm ký tự trong một ô thường bao gồm các
chữ cái nhất. Bạn đã thấy nó hoạt động như thế nào trong một bảng tính.
Nhưng có một hàm tương tự trong SQL cho phép bạn nối nhiều chuỗi văn bản từ nhiều
nguồn, đó là CONCAT. Hãy sử dụng CONCAT để kết hợp các chuỗi từ nhiều bảng để tạo
chuỗi mới. Đối với ví dụ này, chúng tôi sẽ sử dụng dữ liệu mở từ Citi Bike, một hệ thống chia
sẻ xe đạp công cộng ở New York.
Như bạn đã biết trước đó, các sáng kiến dữ liệu mở đã tạo ra rất nhiều dữ liệu cho các
nhà phân tích sử dụng. Tính mở hay dữ liệu mở là truy cập, sử dụng và chia sẻ dữ liệu miễn
phí. Đó là một nguồn tài nguyên tuyệt vời nếu bạn muốn thực hành hoặc thử nghiệm các công
cụ phân tích dữ liệu mà bạn đã học ở đây.
Bạn có quyền truy cập mở vào dữ liệu chia sẻ xe đạp của thành phố New York, dữ liệu
này có thông tin về việc sử dụng xe đạp dùng chung trên toàn thành phố. Bây giờ chúng ta có
thể sử dụng CONCAT để kéo và nối dữ liệu từ các cột khác nhau được lưu trữ tại đây.
Điều đầu tiên chúng ta cần làm là tìm ra cột nào chúng ta cần. Bằng cách đó, chúng ta
có thể cho SQL biết vị trí của các chuỗi mà chúng ta muốn. Ví dụ, công ty chia sẻ xe đạp có
hai loại khách hàng khác nhau; khách hàng và thuê bao thanh toán một lần. Giả sử chúng ta
muốn tìm ra tuyến đường nào phổ biến nhất với các loại người dùng khác nhau. Để làm được
điều đó, chúng ta cần tạo các chuỗi tên tuyến đường dễ nhận biết mà chúng ta có thể đếm và
sắp xếp. Chúng tôi biết rằng thông tin chúng tôi cần có trong bảng các trạm và chuyến đi.
Chúng tôi sẽ bắt đầu xây dựng truy vấn của mình từ đó.
Trước tiên, chúng tôi sẽ nhập SELECT loại người dùng để cho SQL biết rằng chúng
tôi muốn loại người dùng dưới dạng một cột. Sau đó, chúng tôi sẽ sử dụng CONCAT để kết
hợp tên của các trạm bắt đầu và kết thúc cho mỗi chuyến đi trong một cột mới. Thao tác này
sẽ tạo một cột dựa trên lộ trình mọi người đi. Chúng ta cũng cần nhập tiêu đề cho cột mới này.
Chúng tôi sẽ nhập, AS route, để đặt tên cho cột tuyến đường bằng cách sử dụng các tên trạm
bắt đầu và kết thúc mà chúng tôi đã kết hợp với CONCAT. Điều này sẽ giúp chúng ta dễ dàng
đọc và hiểu các tên tuyến đường này.
Sau đó, chúng tôi muốn SQL đếm số chuyến đi. Vì vậy, chúng tôi sẽ nhập COUNT để làm
điều đó. Chúng tôi có thể sử dụng dấu hoa thị để yêu cầu nó đếm số hàng trong dữ liệu mà
chúng tôi đang chọn. Trong trường hợp này, mỗi hàng đại diện cho một chuyến đi, đó là lý do
tại sao chúng tôi chỉ có thể đếm tất cả các hàng mà chúng tôi đã chọn. Chúng tôi sẽ đặt tên
đầu ra này là num_trips.
Bây giờ, hãy cũng lấy thời lượng chuyến đi trung bình cho mỗi tuyến đường. Trong trường
hợp này, chúng ta không cần giá trị trung bình chính xác, vì vậy chúng ta có thể sử dụng hàm
ROUND để làm tròn số. Chúng tôi sẽ đặt giá trị đó trước và sau đó sử dụng giá trị trung bình
trong ngoặc đơn để có thời lượng chuyến đi trung bình. Chúng tôi cũng sẽ muốn dữ liệu này
ở dạng số nguyên cho phép tính này, vì vậy chúng tôi sẽ nhập ép kiểu là int 64. Truy vấn lớn
lưu trữ các số trong hệ thống bộ nhớ 64 bit, đó là lý do tại sao có số 64 sau số nguyên trong
trường hợp này.
Tiếp theo, chúng ta sẽ chia nó cho số hàng và cho biết chúng ta muốn nó làm tròn bao
xa, hai chữ số thập phân. Chúng tôi sẽ đặt tên đầu ra này là thời lượng. Chúng ta sẽ cần cho
SQL biết nơi lưu trữ thông tin này. Chúng tôi sẽ sử dụng TỪ và vị trí chúng tôi sẽ lấy nó từ
đó. Vì chúng tôi đang sử dụng các hàm COUNT và AVERAGE trong mệnh đề chọn của mình,
nên chúng tôi phải sử dụng GROUP BY để nhóm các hàng tóm tắt lại với nhau. Hãy nhóm
theo trạm bắt đầu, trạm kết thúc và loại người dùng cho truy vấn này.
Cuối cùng, chúng tôi sẽ sử dụng ORDER BY để cho nó biết cách chúng tôi muốn tổ chức dữ
liệu này. Đối với điều này, chúng tôi muốn tìm ra các chuyến đi phổ biến nhất để chúng tôi có
thể nhập vào cột số chuyến đi và sử dụng DESC để sắp xếp nó theo thứ tự giảm dần. Cuối
cùng, chúng tôi chỉ muốn top 10, vì vậy hãy thêm GIỚI HẠN 10.
Giờ đây, nhờ CONCAT, chúng tôi có thể dễ dàng đọc các tên tuyến đường này và lần
theo chúng trở lại các địa điểm thực. Chúng tôi có thể biết loại khách hàng nào đang đi trên
tuyến đường nào, điều này có thể giúp công ty chia sẻ xe đạp hiểu được cơ sở người dùng của
họ ở các khu vực khác nhau trong thành phố và nơi có nhiều xe đạp hơn cho mọi người thuê.
Khả năng kết hợp nhiều phần dữ liệu có thể cung cấp cho bạn những cách thức mới để
tổ chức và phân tích dữ liệu. Có rất nhiều công cụ khác nhau để giúp bạn làm điều đó. Bây
giờ bạn đã thấy CONCAT hoạt động và sau đó bạn sẽ bắt gặp một truy vấn tương tự khác,
JOIN. Nhưng trong phần tiếp theo, chúng ta sẽ nói nhiều hơn về cách làm việc với các chuỗi.
Hẹn sớm gặp lại.
Chuỗi trong bảng tính
Này, chào mừng trở lại. Cho đến giờ, trước đây chúng ta đã làm việc với các chuỗi
trong cả SQL và bảng tính, và chúng ta biết rằng chúng thường có các chức năng tương tự
nhau. Trong video này, chúng ta sẽ xem xét lại LEN, LEFT, RIGHT và FIND. Bạn đã bắt gặp
những hàm này được sử dụng trong SQL, nhưng bây giờ bạn sẽ tìm hiểu cách chúng hoạt động
trong bảng tính.
Quay trở lại bộ dữ liệu chia sẻ xe đạp của chúng tôi, hãy xem một trong các bảng tính
của họ. Đây là một trong những bảng tính Dữ liệu chuyến đi. Trong cột thời gian bắt đầu và
thời gian dừng, có các chuỗi chứa thông tin về ngày giờ của mỗi chuyến đi. Đây là tất cả dữ
liệu hữu ích, nhưng rất có thể chúng ta sẽ chỉ cần một phần của chuỗi để tạo công thức hoặc
trả lời câu hỏi. Ví dụ: các chuỗi này chứa nhiều điểm dữ liệu, chẳng hạn như ngày và giờ.
Nhưng nếu chúng tôi đang cố gắng tìm thời gian trung bình giữa các lần bắt đầu, thì chúng tôi
sẽ không cần ngày. Chúng tôi thực sự có thể sử dụng LEN, LEFT và RIGHT và FIND để chia
các dấu thời gian thành các cột riêng biệt nếu chúng tôi muốn.
Hãy xây dựng một công thức đơn giản để tách ngày trong các chuỗi này. Chúng tôi biết
rằng LEN cho chúng tôi biết độ dài của một chuỗi. Hãy kiểm tra xem các chuỗi ngày giờ này
dài bao nhiêu. Để bắt đầu, chúng ta sẽ nhập phần đầu tiên của công thức. Và sau đó chúng ta
sẽ chỉ chọn một trong các ô có chuỗi ngày giờ trong đó. (=LEN(C3)) Các chuỗi này dài 19 ký
tự.
Chúng ta có thể sử dụng hàm FIND để định vị các ký tự cụ thể trong một chuỗi. Hãy
ghi nhớ, đây là trường hợp nhạy cảm. Vì vậy, nếu bạn đang sử dụng TÌM để kéo một chuỗi
con, hãy đảm bảo rằng bạn đã nhập đúng chuỗi con. Chúng tôi nhận thấy rằng tất cả các chuỗi
ngày giờ đều có khoảng trắng ngăn cách ngày và dấu thời gian. Vì vậy, chúng tôi thực sự có
thể sử dụng TÌM để tìm ra ngày kết thúc ở đâu. Được rồi, có vẻ như khoảng trắng là ký tự thứ
11 trong chuỗi này. Vì vậy, chuỗi con dấu thời gian sẽ bắt đầu ở ký tự 12.
Chúng ta có thể sử dụng các hàm LEFT và RIGHT để chọn phần nào của chuỗi mà
chúng ta muốn tách riêng trong một cột mới. Chúng tôi sẽ sử dụng RIGHT trên một trong các
ô này để cho biết rằng chúng tôi muốn lấy bên phải.
Và giống như chúng ta đã bắt gặp trước đây, LEFT thực sự hoạt động theo cùng một
cách. Bây giờ chúng ta có thể áp dụng điều đó cho phần còn lại của cột C để kéo các dấu thời
gian đó.
Là một nhà phân tích dữ liệu, khả năng làm việc với chuỗi là một kỹ năng quan trọng,
đặc biệt khi bạn thấy mình đang làm việc với dữ liệu từ các nguồn bên ngoài. Hy vọng rằng
bạn cảm thấy thoải mái hơn một chút khi áp dụng các hàm LEN, RIGHT, LEFT và FIND
trong cả SQL và bảng tính. Sau này, chúng ta sẽ sử dụng các hàm này để thực hiện các công
thức thậm chí còn phức tạp hơn, vì vậy hãy tự mình thử chúng trên một số dữ liệu, thậm chí
có thể là một số dữ liệu mở như chúng ta đang sử dụng ngày nay. Hẹn gặp lại.
Chương 3: Nhận hỗ trợ trong quá trình phân tích
Phải làm gì khi bạn gặp khó khăn
Chào bạn. Các nhà phân tích dữ liệu dành nhiều thời gian để giải quyết vấn đề và điều
đó có nghĩa là sẽ có lúc bạn gặp khó khăn, nhưng mẹo là biết phải làm gì khi điều đó xảy ra.
Trong video này, chúng ta sẽ nói về tầm quan trọng của việc biết cách nhận trợ giúp,
cho dù điều đó có nghĩa là nhờ người khác giúp đỡ hay tìm kiếm câu trả lời trên Internet.
Hỏi người khác về vấn đề bạn đang gặp phải có thể giúp bạn tìm ra các giải pháp mới
giúp dự án tiến lên phía trước. Bạn nên liên hệ với đồng nghiệp và người cố vấn của mình,
đặc biệt nếu họ đang làm việc với bạn trong dự án đó. Các thành viên trong nhóm của bạn có
kiến thức và hiểu biết sâu sắc có giá trị có thể giúp bạn tìm ra giải pháp cần thiết để tháo gỡ
khó khăn. Đôi khi, chúng ta dành nhiều thời gian để xoay bánh xe của mình và nói: "Tôi có
thể tự làm việc này", nhưng chúng ta có thể làm việc hiệu quả hơn nếu chúng ta tương tác với
người khác, tìm nguồn lực mới để dựa vào và cố gắng thu hút càng nhiều tiếng nói càng tốt
có liên quan.
Ví dụ: giả sử bạn đang làm việc với dữ liệu thời gian đạp xe từ các video trước. Có thể
bạn đang cố gắng tìm thời gian trung bình giữa các lần đạp xe trong một tháng nhất định. Việc
tính toán sự khác biệt giữa các lần đạp xe trước nửa đêm rất dễ dàng, nhưng bạn có thể gặp sự
cố nếu thời gian đã trôi qua kéo dài sang ngày hôm sau. Nếu ai đó đạp xe lúc 11 giờ đêm,
nhưng chuyến tiếp theo phải đến 06:00 sáng, công thức của bạn sẽ trả về số âm vì thời gian
kết thúc nhỏ hơn thời gian bắt đầu. Bạn biết rằng bạn có thể cộng một trừ đi thời gian bắt đầu
nếu hai chuyến đạp xe bắt đầu và kết thúc vào những ngày khác nhau, nhưng công thức đó sẽ
không hoạt động vào những thời điểm diễn ra trong cùng một ngày và sẽ không hiệu quả khi
cuộn qua từng chuyến đạp xe để xác định chính xác những trường hợp đặc biệt này. Bạn cần
tìm cách xây dựng một công thức có điều kiện, nhưng bạn không chắc làm thế nào.
Bạn quyết định kiểm tra với các nhà phân tích khác làm việc trong nhóm của bạn để
xem họ có ý tưởng nào không. Bạn có thể gửi cho họ một email nhanh hoặc ghé qua bàn làm
việc của họ để xem liệu họ có thời gian để nói chuyện với bạn hay không.
Hóa ra họ đã gặp vấn đề tương tự trong một dự án trước đó và họ có thể chỉ cho bạn
một công thức có điều kiện mà bạn có thể sử dụng để tăng tốc độ tính toán của mình. Tuyệt
vời!
Họ đề xuất sử dụng công thức IF như thế này.
Điều này về cơ bản nói rằng, "nếu thời gian kết thúc lớn hơn thời gian bắt đầu, hãy thay
thế công thức thời gian kết thúc trừ thời gian bắt đầu tiêu chuẩn bằng một trừ thời gian bắt đầu
cộng với thời gian kết thúc."
Bây giờ cũng có thể các thành viên trong nhóm của bạn không có câu trả lời; điều đó
cũng không sao. Chắc chắn có người khác có cùng vấn đề đặt câu hỏi tương tự trực tuyến.
Biết cách tìm giải pháp trực tuyến là một công cụ giải quyết vấn đề cực kỳ có giá trị để
phân tích dữ liệu. Ngoài ra còn có tất cả các loại diễn đàn nơi người dùng bảng tính có thể đặt
câu hỏi và bạn không bao giờ biết mình có thể tìm thấy gì chỉ bằng một tìm kiếm cơ bản.
Ví dụ: giả sử bạn xem bảng tính "tính số giờ giữa các thời điểm" và tìm hướng dẫn hữu
ích cho một công thức phức tạp hơn bằng cách sử dụng MOD. Thao tác này sẽ chuyển các giá
trị âm thành giá trị dương, giải quyết vấn đề tính toán của bạn. Cho dù bạn đang hỏi ai đó mà
bạn biết hay tìm kiếm câu trả lời trên Internet, việc tìm kiếm sự trợ giúp có thể mang đến cho
bạn một số giải pháp thực sự thú vị và những cách mới để giải quyết vấn đề để phân tích trong
tương lai.
Sắp tới, chúng ta sẽ tìm hiểu nhiều hơn về cách tìm kiếm các giải pháp trực tuyến. Hẹn
sớm gặp lại.
Layla: Tất cả về giai đoạn phân tích
CHÀO. Tên tôi là Layla và tôi là trưởng nhóm phân tích tại Google. Đầu mối phân tích
là người giúp các nhà quảng cáo hiểu được giá trị của số tiền quảng cáo của họ. Chúng tôi
cũng giúp họ hiểu nếu họ chi thêm một đô la cho quảng cáo, họ nên chi số tiền đó vào đâu và
họ có thể mong đợi nhận được gì từ số tiền đó. Bộ kỹ năng liên quan đến loại vai trò này hoàn
toàn liên quan đến việc có thể xem xét một tập dữ liệu và hiểu ý nghĩa của nó, sau đó kể một
câu chuyện cho những người có thể không có cùng mức kinh nghiệm với dữ liệu. Điều gì đang
xảy ra trong dữ liệu? Điều gì đang thúc đẩy tăng trưởng cho khách hàng hoặc công ty của bạn?
Họ có thể làm gì nhiều hơn hoặc ít hơn để thúc đẩy nhiều hơn những gì họ muốn xảy ra? Giai
đoạn phân tích giống như chuẩn bị một bữa ăn thịnh soạn. Bạn đã hoàn thành tất cả công việc
dọn dẹp, chuẩn bị và nấu nướng, và cuối cùng bạn có thể cắn một miếng và xem liệu điều bạn
đang hy vọng ban đầu sẽ xảy ra hay điều bạn đang mong đợi, để xem liệu điều đó có thực sự
xảy ra hay không. Nó có ngon không? Có chính xác như bạn mong đợi? Hoặc là độ đặc hơi
giảm và bạn cần thêm một chút muối? Giai đoạn phân tích bắt đầu sau khi bạn chuẩn bị và
làm sạch dữ liệu của mình. Bạn không muốn có những trường trống sẽ khiến bạn thất vọng
hoặc các mục nhập trùng lặp sẽ phóng to tập dữ liệu của bạn vượt quá những gì thực sự đúng.
Giai đoạn phân tích là nơi bạn trở thành chuyên gia về tập dữ liệu của mình. Ở đây, bạn sẽ
hiểu tất cả các lĩnh vực khác nhau. Bạn sẽ hiểu mức trung bình của chúng, có thể là trung bình
của dữ liệu. Bạn sẽ hiểu các hàng khác nhau trong dữ liệu của bạn khác nhau như thế nào. Và
đó là nơi bạn sẽ có được sự tự tin để có thể giải thích những phát hiện của mình cho khán giả
có thể không có cùng trình độ chuyên môn với dữ liệu mà bạn có. Khi tôi phân tích dữ liệu,
tôi thường thích sử dụng SQL và bảng tính. Ví dụ, bạn có thể sử dụng các công cụ này để sắp
xếp dữ liệu của mình và hiểu mục nhập nào lớn hơn mục nhập khác. Hoặc để hiểu số lần điều
gì đó xảy ra bằng cách chọn các mục riêng biệt. Tại đây, bạn cũng có thể lọc ra dữ liệu mà
bạn đặc biệt quan tâm đến việc phân tích hoặc trong bảng tính, sử dụng định dạng có điều kiện
để hiển thị mục nhập nào cho kết quả tích cực hơn và mục nhập nào có thể tiêu cực hơn. Sử
dụng SQL và bảng tính để giúp bạn vượt qua giai đoạn phân tích là vô cùng quan trọng. Với
những công cụ này, bạn có thể định dạng tập dữ liệu của mình theo cách dễ hiểu và sau đó bắt
đầu kể một câu chuyện với dữ liệu. Phần yêu thích của tôi khi làm việc trong bảng tính là khi
cuối cùng bạn có dữ liệu mà bạn muốn dọn dẹp và xuất khỏi truy vấn SQL của mình. Sau đó,
bạn có thể biến nó thành một bảng tổng hợp và lập biểu đồ chính xác phần cắt dữ liệu mà bạn
muốn xem xét ngay từ đầu và khám phá các xu hướng đang diễn ra ở đó. Khi bạn làm được
điều đó, về cơ bản, bạn mở khóa cả một thế giới thông tin và bạn có thể chọn câu chuyện mà
bạn thực sự muốn kể với dữ liệu của mình mà không cần chỉ nói, "Đây là số lớn nhất; đây là
số nhỏ nhất." Ở đây, bạn phải chỉ ra những gì có khả năng xảy ra theo thời gian hoặc những
gì bạn sẽ thấy trong tương lai.
Gặp thử thách? Đừng lo lắng!
Chào mừng trở lại. Trước đó, chúng ta đã nói một chút về việc tìm tài nguyên trực
tuyến để giúp bạn tìm ra giải pháp cho các vấn đề trong quá trình phân tích. Internet có rất
nhiều kiến thức và lời khuyên để cung cấp, nhưng bạn cần biết cách tìm ra nó. Trong video
này, chúng ta sẽ nói nhiều hơn về việc tìm câu trả lời trực tuyến. Bạn có thể nghĩ rằng các nhà
phân tích dữ liệu giỏi không thường xuyên dựa vào các nguồn bên ngoài, nhưng đó là một lầm
tưởng. Các nhà phân tích dữ liệu giỏi nhất biết rằng việc tìm kiếm câu trả lời cho các vấn đề
của họ trực tuyến có thể tiếp thêm sức mạnh và cung cấp cho họ kiến thức mới cho tương lai.
Có thể tìm ra những ý tưởng mới và kết hợp chúng với những gì bạn đã biết có thể giúp bạn
nghĩ ra một số điều tuyệt vời. Đừng ngại truy cập internet để tìm câu trả lời cho mình. Đó là
một nguồn tài nguyên tuyệt vời mà nhiều nhà phân tích sử dụng. Tôi bao gồm. Nhưng hãy nói
thêm về cách bạn có thể đảm bảo rằng mình đang sử dụng tài nguyên web theo cách tốt nhất
có thể. Có sự kết hợp của các phương pháp hay nhất mà bạn có thể sử dụng để hướng dẫn tìm
kiếm câu trả lời trực tuyến. Bằng cách thực hành các kỹ năng tư duy mà chúng ta đã học được
trong chương trình này, sử dụng các thuật ngữ phân tích dữ liệu phù hợp và kiến thức cơ bản
về các công cụ phân tích, bạn sẽ có mọi thứ cần thiết để tìm câu trả lời và áp dụng chúng vào
công việc của mình. Và nó bắt đầu với cách bạn tiếp cận một vấn đề về mặt tinh thần. Bạn đã
học về các loại kỹ năng tư duy khác nhau và cách thực hành chúng trong công việc phân tích
dữ liệu của mình. Từ phân tích, đến toán học, đến tư duy có cấu trúc. Điều này giúp xây dựng
mô hình tinh thần của bạn, hoặc quá trình suy nghĩ của bạn và cách bạn tiếp cận một vấn đề.
Các nhà phân tích dữ liệu sử dụng những kỹ năng tư duy này để tiếp cận vấn đề một cách hợp
lý và chia nó thành các phần nhỏ hơn. Đưa điều này vào quy trình giải quyết vấn đề của riêng
bạn có thể giúp bạn xác định chính xác các câu hỏi cụ thể mà bạn có thể sử dụng để tìm tài
nguyên dễ dàng hơn. Ví dụ: có thể bạn tiếp tục gặp lỗi trong quá trình phân tích của mình.
Bạn thu hẹp nó xuống còn hai khả năng: công thức của bạn hoặc chính dữ liệu. Bạn kiểm tra
lại công thức của mình và bạn thấy rằng nó đúng. Vì vậy, bây giờ bạn biết rằng bạn cần đảm
bảo rằng dữ liệu đã được nhập chính xác. Bạn xem xét vấn đề một cách logic và truy tìm
nguồn gốc của nó, sử dụng mô hình tinh thần của bạn. Tiếp theo, điều quan trọng là sử dụng
đúng thuật ngữ khi tìm kiếm giải pháp. Biết cách sắp xếp các câu hỏi phân tích dữ liệu với
cùng ngôn ngữ mà các nhà phân tích khác đang sử dụng sẽ giúp bạn nhận được nhiều kết quả
tìm kiếm hơn và điều đó sẽ giúp bạn hiểu những gì các nhà phân tích khác đang nói. Ví dụ:
có thể bạn cần sử dụng bốn ký tự bên trái của một chuỗi cho một cột trong SQL. Làm thế nào
bạn sẽ tìm kiếm này? Tìm kiếm "bốn ký tự trong một cột" hơi mơ hồ và có thể không hiển thị
các tài nguyên cụ thể. Nhưng "SQL truy vấn chuỗi bên trái" sử dụng một số từ khóa mà các
nhà phân tích dữ liệu khác cũng đang sử dụng để nói về những điều này. Ngoài việc có thể sử
dụng các thuật ngữ phù hợp để tìm kiếm trực tuyến, bạn cũng cần phải làm quen với các công
cụ cơ bản. Theo cách đó, khi một tài nguyên trực tuyến hướng dẫn bạn qua một chức năng
mới và một công cụ mà bạn đã sử dụng trước đây, bạn sẽ biết những công cụ đó hoạt động
như thế nào. Ví dụ: nếu bạn tìm thấy một công thức bảng tính trực tuyến, bạn cần hiểu cách
thức hoạt động của các công thức đó để áp dụng công thức đó vào bảng tính của riêng mình
hoặc có thể tập dữ liệu bạn đang làm việc quá lớn đối với một bảng tính và bạn sẽ cần phải
chuyển đổi sang SQL. Có nhiều công cụ trong bộ công cụ của bạn rất quan trọng với tư cách
là nhà phân tích dữ liệu, nhưng điều quan trọng không kém là biết khi nào nên sử dụng chúng.
Nếu bạn thấy mình bị mắc kẹt trong một vấn đề, bạn nên lùi lại một bước và xem xét lại cách
bạn tiếp cận một nhiệm vụ. Chúng tôi đã đề cập đến rất nhiều công cụ mà bạn có thể sử dụng
với tư cách là nhà phân tích dữ liệu trong suốt chương trình này. Sau đó, bạn sẽ tìm hiểu thêm
một điều nữa, R. Chúng ta sẽ nói về R nhiều hơn sau, nhưng đây là một đỉnh điểm để bạn hào
hứng với nó. R là một ngôn ngữ lập trình khác, nhưng nó không phải là ngôn ngữ cơ sở dữ
liệu như SQL. Đó là ngôn ngữ lập trình thường được sử dụng để phân tích thống kê, trực quan
hóa và phân tích dữ liệu khác. R hơi khác một chút so với các công cụ khác mà chúng tôi đã
làm việc cùng, nhưng nó là phần bổ sung tuyệt vời cho các công cụ bạn đang sử dụng và nó
sẽ cung cấp cho bạn nhiều giải pháp tiềm năng hơn khi bạn gặp sự cố. Sử dụng các kỹ năng
tư duy mà chúng ta đã học được trong suốt chương trình này, các thuật ngữ phù hợp và sự
hiểu biết của bạn về các công cụ phân tích khác nhau, chúng tôi sẽ giúp bạn sẵn sàng cho các
bước tiếp theo của quy trình này: thực sự tìm kiếm câu trả lời trực tuyến. Có rất nhiều tài
nguyên như các trang web và diễn đàn hỗ trợ chương trình nơi các nhà phân tích dữ liệu khác
đang hỏi và trả lời các câu hỏi. Trong một video trước đó, chúng tôi đã gặp sự cố khi cố gắng
tính toán thời gian trôi qua giữa các lần đạp xe và dữ liệu chia sẻ xe đạp. Có thể lần tìm kiếm
đầu tiên của chúng tôi, "Tính toán thời gian trong bảng tính", không đưa ra câu trả lời mà
chúng tôi cần. Bằng cách suy nghĩ về câu hỏi cụ thể của chúng tôi và cách các nhà phân tích
dữ liệu khác có thể hỏi câu hỏi đó, chúng tôi có thể thay đổi tìm kiếm đó thành "Công thức có
điều kiện để tính thời gian đã trôi qua trong bảng tính". Bây giờ, chúng tôi có nhiều giải pháp
cụ thể hơn cho vấn đề của mình. Cuối cùng, có thể sửa đổi mã ví dụ để phù hợp với nhu cầu
của riêng bạn là rất hữu ích. Hiểu cú pháp của các công thức và hàm cho các công cụ khác
nhau sẽ cho phép bạn áp dụng những gì bạn đã học trực tuyến và làm cho nó hoạt động cho
bạn, và thậm chí có thể xây dựng trên đó để tạo ra một giải pháp hoàn toàn mới. Ví dụ: công
thức MOD mà chúng tôi đã tạo để tính các chuyến đi bắt đầu và kết thúc vào những ngày khác
nhau trong dữ liệu chia sẻ xe đạp của chúng tôi. Công thức MOD mà chúng tôi tìm thấy trực
tuyến không được tạo cho dữ liệu mà chúng tôi đang làm việc. Nhưng vì chúng tôi đã quen
thuộc với các công cụ bảng tính nên chúng tôi có thể áp dụng nó vào dữ liệu của mình và sử
dụng nó như một giải pháp cho vấn đề của mình. Các nhà phân tích dữ liệu giỏi biết cách tìm
và sử dụng các tài nguyên trực tuyến để giúp họ xây dựng các giải pháp mới cho các vấn đề
mà họ gặp phải. Bằng cách sử dụng các kỹ năng tư duy mà bạn đã học được trong chương
trình này và sử dụng kiến thức của mình về các thuật ngữ và công cụ phân tích dữ liệu, bạn
cũng có thể làm được. Khi bạn đã tìm thấy một số câu trả lời cho các vấn đề của mình, bạn có
thể đưa chúng vào công việc phân tích của mình để vượt qua mọi thử thách mà bạn có thể gặp
phải.
Khi nào sử dụng công cụ nào
Xin chào. Trong các video này, bạn đã được giới thiệu về bảng tính, SQL và rất nhiều
công cụ khác. Chúng tôi cũng đã nói về việc chọn đúng công cụ trước khi bạn bắt đầu một dự
án. Nhưng đôi khi bạn thấy mình bị mắc kẹt trong một vấn đề trong quá trình phân tích dữ
liệu của mình. Điều đó có thể có nghĩa là đã đến lúc xem xét lại công cụ bạn đang sử dụng
cho công việc. Ví dụ: nếu bạn đang làm việc với một bảng tính đơn giản, có thể từ 5 đến 10
hàng và một vài cột, thì bảng tổng hợp là một cách tuyệt vời để trực quan hóa dữ liệu đó.
Nhưng nếu bảng tính đó có hơn một triệu hàng, nó sẽ bắt đầu gặp sự cố, khiến bảng tổng hợp
khó hoàn thành. Khi bạn thấy mình đang làm việc với một bảng tính khổng lồ liên tục gặp sự
cố, bạn có thể chuyển sang SQL để lấy dữ liệu mình cần từ các vị trí khác nhau trong cơ sở
dữ liệu thay vì từ một bảng tính duy nhất. Bạn có thể nhớ rằng SQL có thể xử lý hàng nghìn
tỷ hàng dữ liệu và hiện là ngôn ngữ chuẩn để làm việc với các chương trình cơ sở dữ liệu.
SQL rất tốt cho việc truy vấn, cập nhật và tối ưu hóa dữ liệu. Nhưng cố gắng phân tích dữ liệu
của bạn chỉ bằng SQL có thể trở nên phức tạp. Khi bạn tiếp tục phát triển với tư cách là nhà
phân tích dữ liệu, bạn có thể thấy mình dành nhiều thời gian để xây dựng các truy vấn dài,
lồng nhau và sau đó gỡ lỗi chúng. Có thể đã đến lúc xem xét một công cụ khác, R. R là một
công cụ mới mà bạn sẽ làm việc sau này, nhưng bây giờ, tôi sẽ nói cho bạn biết một chút về
nó để bạn có thể bắt đầu hứng thú. R là một ngôn ngữ lập trình khác, nhưng nó không phải là
ngôn ngữ cơ sở dữ liệu như SQL. Đó là ngôn ngữ lập trình thường được sử dụng để phân tích
thống kê, trực quan hóa và phân tích dữ liệu khác. R hơi khác so với các công cụ khác mà
chúng tôi đang làm việc cùng, nhưng nó là sự bổ sung tuyệt vời cho các công cụ bạn đang sử
dụng. Với R, bạn sẽ có thể phân tích và trực quan hóa dữ liệu theo nhiều cách mới. Chúng ta
sẽ nói về R nhiều hơn sau, nhưng tôi hy vọng cái nhìn lén lút này mang đến cho bạn cái nhìn
đầu tiên thú vị. Có nhiều công cụ trong bộ công cụ của bạn rất quan trọng với tư cách là nhà
phân tích dữ liệu, nhưng điều quan trọng không kém là biết khi nào nên sử dụng chúng. Nếu
bạn thấy mình bị mắc kẹt trong một vấn đề, bạn nên lùi lại một bước và xem xét lại cách bạn
tiếp cận một nhiệm vụ. Bạn có quá nhiều dữ liệu cho một bảng tính? Chuyển sang SQL. Bạn
có đang dành nhiều thời gian để gỡ lỗi truy vấn hơn là thực sự phân tích dữ liệu không? Có lẽ
bạn nên xem xét R. Bây giờ bạn cũng biết cách tìm câu trả lời trực tuyến. Vì vậy, nếu bạn từng
gặp sự cố và cần thử một công cụ khác, tìm kiếm nhanh có thể thực sự hữu ích. Có thể có tài
nguyên trực tuyến hoặc ai đó khác có thể gặp vấn đề tương tự và đã đăng về vấn đề đó. Điều
này thật tuyệt nếu bạn bắt đầu cảm thấy bế tắc trước một vấn đề và thậm chí bạn có thể tìm ra
một cách mới để sử dụng một công cụ mà bạn đã quen thuộc. Điều đó đưa chúng ta đến phần
cuối của mô-đun này. Bạn đã làm rất tốt. Chúng tôi đã bao phủ rất nhiều thông tin. Chúng ta
đã học về cách chuyển đổi và định dạng dữ liệu, cách kết hợp nhiều phần dữ liệu và cách tìm
kiếm trợ giúp khi bạn cần hỗ trợ trong quá trình phân tích. Tiếp theo, bạn sẽ tham gia thử thách
hàng tuần. Như mọi khi, vui lòng quay lại bất cứ điều gì chúng tôi đã học được từ những video
trước đây. Sau đó, tôi sẽ gặp bạn trong video tiếp theo. Chúc may mắn.
Tuần 3: Tổng hợp dữ liệu để phân tích
Là một phần trong phân tích của bạn, bạn sẽ thường phải kết hợp dữ liệu để hiểu rõ
hơn và hoàn thành các mục tiêu kinh doanh. Trong phần này của khóa học, bạn sẽ khám phá
các chức năng, quy trình và cú pháp liên quan đến việc kết hợp hoặc tổng hợp dữ liệu. Bạn
sẽ học cách thực hiện điều này từ nhiều ô trong bảng tính và từ nhiều bảng cơ sở dữ liệu
bằng truy vấn SQL.
Mục tiêu học tập:
 Thể hiện sự hiểu biết về các chức năng và quy trình có thể được sử dụng để kết hợp
dữ liệu từ nhiều ô trong bảng tính
 Thể hiện sự hiểu biết về các chức năng và cú pháp để tạo các truy vấn SQL để kết
hợp dữ liệu từ nhiều bảng cơ sở dữ liệu
 Sử dụng VLOOKUP để truy vấn dữ liệu, cắt dữ liệu, chuyển đổi dữ liệu văn bản
thành dữ liệu số và tạo bảng tóm tắt từ thông tin được truy vấn
Chương 1: VLOOKUP để tổng hợp dữ liệu
Tổng hợp dữ liệu để phân tích
Chuẩn bị cho VLOOKUP
VLOOKUP đang hoạt động
Xác định các lỗi VLOOKUP phổ biến
Chương 2: Sử dụng JOINS để tổng hợp dữ liệu trong SQL
Hiểu về JOINS
COUNT và COUNT DISTINCT
Chương 3: Làm việc với các truy vấn con
Truy vấn trong truy vấn
Sử dụng truy vấn con để tổng hợp dữ liệu
Justin: Phân tích dữ liệu đưa bạn đến đâu
Tuần 4: Thực hiện tính toán dữ liệu
Tính toán là một trong những nhiệm vụ phổ biến hơn mà các nhà phân tích dữ liệu hoàn
thành trong quá trình phân tích. Trong phần này của khóa học, bạn sẽ khám phá các công thức,
hàm và bảng tổng hợp trong bảng tính và truy vấn trong SQL, tất cả đều sẽ giúp bạn tính toán.
Bạn cũng sẽ tìm hiểu về lợi ích của việc sử dụng SQL để quản lý các bảng tạm thời.
Mục tiêu học tập:
 Mô tả việc sử dụng các hàm để tiến hành tính toán cơ bản trên dữ liệu trong bảng tính
 Thảo luận về việc sử dụng bảng tổng hợp để tiến hành tính toán trên dữ liệu trong bảng
tính
 Thể hiện sự hiểu biết về việc sử dụng các truy vấn SQL để hoàn thành các phép tính
 Giải thích tầm quan trọng của quy trình xác thực dữ liệu để đảm bảo tính chính xác và
nhất quán trong phân tích
 Thảo luận về việc sử dụng các truy vấn SQL để quản lý các bảng tạm thời
 Suy ngẫm về cách sử dụng các câu lệnh có điều kiện để tạo các hàm và truy vấn phức
tạp
 Tạo nhiều điểm tóm tắt dựa trên nhiều điều kiện khác nhau bằng cách sử dụng
COUNTIF, SUMIF, MAXIF và AVERAGEIF
Tuần 4:
Chương 1: Bắt đầu tính toán dữ liệu
Tính toán dữ liệu
CHÀO. Thật tốt khi bạn trở lại. Sắp tới, chúng ta sẽ xem lại một số khái niệm quen
thuộc và sau đó sử dụng những khái niệm đó để khám phá những khái niệm mới. Là một nhà
phân tích dữ liệu, bạn sẽ sử dụng đi sử dụng lại các công cụ và quy trình chính, nhưng bạn
cũng sẽ học được những điều mới khi bạn phát triển trong công việc của mình. Nó có thể là
bất cứ điều gì từ việc xây dựng một loại phân tích mới đến một lối tắt tiết kiệm thời gian.
Khi lần đầu tiên đến với Google, tôi chỉ dựa vào một vài chương trình và công cụ để
truy cập dữ liệu và thực hiện phân tích của mình. Nhưng tôi sớm nhận ra rằng mình đã không
làm việc hiệu quả như mong muốn. Khi tôi cảm thấy thoải mái khi lấy dữ liệu và phân tích dữ
liệu đó bằng SQL, nó cho phép tôi làm việc hiệu quả hơn trước rất nhiều. Và tôi càng giỏi
SQL và lấy dữ liệu từ các bảng dữ liệu, thì tôi càng hoàn thành phân tích của mình nhanh hơn.
Tôi đã bị cuốn hút.
Trong một số video tiếp theo, tôi sẽ chỉ cho bạn một số cách để đạt hiệu quả cao nhất
có thể trong khi hoàn thành các phép tính trong quá trình phân tích của bạn. Chúng ta sẽ bắt
đầu bằng cách xem lại các bảng tính, nơi chúng ta sẽ xem xét các công thức cho các phép tính
cơ bản. Sau đó, chúng ta sẽ chuyển sang các công thức có điều kiện sử dụng hàm IF để kiểm
tra xem một điều kiện có được đáp ứng thông qua một phép tính hay không. Sau đó, chúng ta
sẽ khám phá hàm SUMPRODUCT đa chức năng. Hãy thử nói điều đó năm lần một cách nhanh
chóng! SUMPRODUCT cộng và nhân tất cả trong một bước, vì vậy tính năng này rất hữu ích.
Tiếp theo chúng ta sẽ xem xét lại các bảng tổng hợp. Nếu bạn đã bỏ qua và đây là lần
đầu tiên bạn tìm hiểu về chúng, bạn sẽ biết tất cả về chúng. Bảng Pivot có rất nhiều công dụng,
bao gồm cả việc tổ chức các phép tính của bạn.
Sau đó, chúng tôi sẽ xoay vòng sang SQL, chơi chữ có chủ đích. Chúng tôi sẽ chỉ ra
cách truy vấn và phép tính đi đôi với nhau trong SQL. Chúng ta cũng sẽ xem xét các bảng tạm
thời trong SQL, giúp ích cho việc lưu trữ tạm thời dữ liệu của bạn trong quá trình phân tích.
Chúng tôi sẽ đề cập đến nhiều khái niệm mới trong các video này, vì vậy, vui lòng nhấn
nút tạm dừng bất kỳ lúc nào để suy nghĩ về vấn đề hoặc các bước để tự mình thử.
Và bạn luôn có thể xem lại các video bao nhiêu tùy thích. Vì vậy, để tóm tắt lại, chúng
ta sẽ xem xét một chút, và sau đó đề cập đến một số khái niệm hoàn toàn mới, tất cả về tính
toán. Bạn đã sẵn sàng chưa? Tốt. Tôi cũng vậy.
Các công thức tính phổ biến
Xin chào. Bạn có thể làm rất nhiều tính toán trong cuộc sống hàng ngày của bạn. Có
thể đó là tính toán số tiền boa cho ai đó hoặc cân đối ngân sách của bạn. Bạn có thể thực hiện
một số phép tính này trong đầu hoặc bằng giấy và bút chì hoặc máy tính trên điện thoại của
mình. Bạn thậm chí có thể sử dụng các phím tắt để tính toán dễ dàng hơn. Bạn cũng sẽ thực
hiện nhiều tính toán với tư cách là nhà phân tích dữ liệu. Nhưng chúng sẽ liên quan đến nhiều
con số hơn trong phạm vi tính toán rộng hơn. Đó là nơi bạn sẽ đặt các công cụ phân tích dữ
liệu của mình hoạt động. Chúng tôi sẽ chỉ cho bạn cách bạn có thể sử dụng các công thức
trong bảng tính để hoàn thành một số phép tính cơ bản nhất. Công thức là một trong nhiều
phím tắt mà các nhà phân tích dữ liệu sử dụng. Nhưng yên tâm, dù là phím tắt nhưng chúng
vẫn sẽ tính toán chính xác tuyệt đối. Chúng tôi đã đề cập đến rất nhiều tính toán này trước đó
trong chương trình. Nhưng nếu bạn bỏ qua phần đó và muốn xem lại, chúng tôi sẽ xem xét
chúng tại đây. Những tính toán này cũng sẽ nâng cao hơn so với những tính toán chúng tôi đã
đề cập cho đến nay. Nhưng chúng cũng sẽ gần giống với những gì bạn có thể sử dụng trong
công việc. Chúng tôi sẽ sử dụng Google Trang tính trong video này nhưng bạn cũng có thể sử
dụng Excel. Các bước có thể trông hơi khác một chút trong Excel, nhưng kết quả sẽ giống
nhau. Hãy thử tính toán với dữ liệu bán hàng từ một chuỗi cửa hàng giảm giá. Chúng tôi sẽ
xem xét dữ liệu của một trong các cửa hàng trong chuỗi. Mục tiêu của chúng tôi: sử dụng dữ
liệu bán hàng hiện có để tìm bất kỳ xu hướng nào. Đây là một cách tuyệt vời để xem rất nhiều
cách mà các công thức có thể hữu ích trong phân tích của bạn. Chúng ta sẽ bắt đầu bằng cách
tìm doanh thu hàng năm trong những năm 2011-2020. Dữ liệu đã được sắp xếp theo cột theo
tháng và theo hàng theo năm. Nhưng chúng tôi chưa có tổng doanh thu cho mỗi năm. Chúng
ta có thể sử dụng một hàm tổng để giúp chúng ta tìm ra điều đó. Chúng tôi sẽ cộng doanh số
bán hàng từ năm 2011 trước. Chúng ta sẽ thêm một tiêu đề cho cột doanh thu hàng năm, sau
đó chúng ta có thể nhập hàm tính tổng và một công thức. Tất cả các công thức bắt đầu bằng
một dấu bằng. Chúng tôi sẽ nhập nó trước, tiếp theo là tổng và sau đó là dấu ngoặc đơn mở.
Sau dấu ngoặc đơn mở, chúng ta cần cho công thức biết những ô nào đang được thêm vào.
Trong trường hợp này, chúng tôi cần dữ liệu từ toàn bộ hàng bắt đầu trong ô B2. B2 là tham
chiếu ô mà chúng ta sẽ sử dụng. Thay vì gõ từng ô một, chúng ta có thể đưa chúng vào công
thức một cách nhanh chóng bằng cách chọn ô B2 và kéo chốt điền qua hàng đến ô cuối cùng
có dữ liệu bán hàng, M2. Bây giờ chúng ta sẽ hoàn thành công thức bằng cách đóng dấu ngoặc
đơn và nhấn Enter. Cứ như vậy, chúng ta đã tính được tổng doanh số bán hàng cho năm 2011.
Đây là một lối tắt khác mà chúng ta đã sử dụng trong một video trước đó. Tay cầm lấp đầy là
hộp nhỏ ở góc của mỗi lần bán hàng. Bạn có thể sử dụng nó cho nhiều việc như chọn nhiều ô
cho một công thức hoặc tiếp tục một mẫu trên nhiều ô, núm điều khiển điền chắc chắn đủ điều
kiện làm phím tắt. Chúng tôi có thể sử dụng công thức chúng tôi đã tạo để tính tổng doanh số
cho các năm khác trong bộ dữ liệu. Tất cả những gì chúng ta phải làm là kéo thanh điều khiển
điền xuống các ô khác trong cột doanh số hàng năm và chúng ta sẽ có tổng dữ liệu doanh số
cho những năm còn lại trong tập dữ liệu. Giả sử, chúng ta cũng cần tìm mức tăng trưởng doanh
thu hàng năm từ năm này sang năm khác. Đây sẽ là thời điểm tốt để suy nghĩ thấu đáo vấn đề
trước khi cố gắng giải quyết nó. Chúng ta có dữ liệu cần thiết để giải quyết vấn đề này không?
Chưa. Suy nghĩ ngược như thế này giúp chúng ta hoạch định các bước để tiến về phía trước.
Bước đầu tiên chúng ta cần làm là tính tổng doanh thu mỗi năm. Sau đó, chúng tôi sẽ đo tốc
độ thay đổi giữa các năm. Chúng ta sẽ bắt đầu bằng cách gắn nhãn cho một cột mới. Trong
trường hợp này, chúng tôi sẽ không cần sử dụng hàm hoặc dấu ngoặc đơn, vì chúng tôi chỉ sử
dụng dữ liệu từ hai ô. Chúng tôi chỉ có thể sử dụng tên của các ô đó, chúng tôi sẽ nhập dấu
bằng và sau đó nhấp vào "Ô N3", ô này sẽ tự động điền doanh số bán hàng đó vào công thức.
Tiếp theo, chúng tôi sẽ thêm dấu trừ vào công thức vì chúng tôi đang trừ để tìm sự khác biệt
giữa hai năm liên tiếp. Nhấp vào "Ô N2" sẽ cho chúng tôi tổng số của năm 2011, sau đó chúng
tôi có thể trừ đi tổng số của năm 2012. Sau đó, chúng tôi nhấn Enter và nhận được mức tăng
trưởng doanh số bán hàng của chúng tôi từ năm 2011-2012. Chúng tôi chắc chắn nhận được
một số dữ liệu hữu ích ở đây. Cứ đi đi. Chúng tôi cũng có thể sử dụng tốc độ tăng trưởng
doanh số bán hàng của mình để tìm tốc độ tăng trưởng giữa hai năm. Chúng tôi sẽ hiển thị
điều này dưới dạng phần trăm. Chúng tôi sẽ đứng đầu cột của chúng tôi với dấu phần trăm và
tăng trưởng. Để làm điều này, chúng ta sẽ chia tổng số trong ô O3 cho doanh thu hàng năm từ
năm 2011 trong ô N2. Dấu gạch chéo là một ký hiệu mà một công thức nhận dạng là phép
chia, vì vậy chúng tôi sẽ đặt nó giữa hai tham chiếu ô và thế là xong, có tốc độ tăng trưởng.
Tỷ lệ tăng trưởng thường được hiển thị dưới dạng phần trăm, có thể dễ đọc và hiểu hơn số
thập phân. Hãy thay đổi con số này thành một tỷ lệ phần trăm. Thời gian cho một phím tắt
khác. Tất cả những gì chúng ta phải làm là nhấp vào nút kiểu phần trăm và tốc độ tăng trưởng
của chúng ta sẽ trở thành phần trăm. Chúng ta có thể chọn các ô cho cả tổng mức tăng trưởng
và tốc độ tăng trưởng để điền vào phần còn lại của hai cột. Chúng tôi có một số con số âm,
nhưng điều đó chỉ có nghĩa là có sự tăng trưởng âm từ năm này sang năm khác. Chúng tôi chỉ
còn một số điều cần tính toán cho các bên liên quan. Bước tiếp theo là tìm doanh số bán hàng
trung bình. Chúng tôi muốn so sánh doanh số bán hàng giữa các tháng để tìm hiểu xem có xu
hướng nào không. Chúng tôi sẽ thêm phần này vào một hàng thay vì một cột. Điều này sẽ xếp
hàng trung bình của chúng tôi dưới mỗi tháng. Để tìm giá trị trung bình, chúng tôi sẽ tính tổng
rồi chia tổng đó cho số giá trị được thêm vào để có giá trị đó. Chúng ta có thể làm điều này
bằng cách sử dụng hàm trung bình. Giữa các dấu ngoặc đơn của chúng tôi sẽ chọn các ô chứa
dữ liệu bán hàng cho tháng 1, từ B2 đến B11. Chúng tôi sẽ lặp lại công thức đó trên toàn bộ
hàng cho đến hết tháng 12 để tìm kiếm các xu hướng. Ngay lập tức, chúng tôi biết rằng các
tháng mùa hè và tháng 12 có doanh số bán hàng trung bình cao nhất. Vì các bên liên quan của
chúng tôi sẽ muốn hiểu những phát hiện của chúng tôi một cách nhanh chóng và dễ dàng, nên
chúng tôi sẽ thêm một chút hình ảnh trực quan vào dữ liệu với định dạng có điều kiện. Bạn sẽ
sớm tìm hiểu thêm về trực quan hóa dữ liệu như định dạng có điều kiện. Nhưng đây là một
cái nhìn lén lút. Định dạng có điều kiện là một công cụ bảng tính thay đổi cách các ô xuất hiện
khi các giá trị đáp ứng các điều kiện cụ thể. Hãy áp dụng định dạng có điều kiện cho các ô có
doanh số trung bình theo tháng. Chúng tôi sẽ sử dụng thang màu để hiển thị phạm vi trung
bình. Chà, mức trung bình hàng tháng thấp nhất còn lại là màu trắng và chúng tôi sẽ áp dụng
các sắc thái màu lục cho các giá trị còn lại. Màu xanh lá cây càng sáng, mức trung bình càng
cao. Giờ đây, khi chúng tôi chia sẻ phân tích của mình với các bên liên quan, họ sẽ có thể biết
ngay tháng nào có doanh số bán hàng trung bình cao nhất. Chỉ cần một vài bước nữa để hoàn
thành phân tích của chúng tôi. Bây giờ chúng ta cần tìm mức tối thiểu và tối đa cho doanh thu
trung bình hàng tháng. Với tập dữ liệu nhỏ như vậy, có thể dễ dàng tìm thấy các giá trị tối
thiểu và tối đa mà không cần công thức, nhưng bạn vẫn nên sử dụng một công thức. Chưa kể,
việc sử dụng công thức giúp ngăn ngừa lỗi của con người, một lần nữa sẽ dựa vào công thức
có Hàm để thực hiện các phép tính này, chúng tôi sẽ bắt đầu với mức trung bình hàng tháng
thấp nhất. Hàm của chúng tôi ở đây là MIN, theo sau là các ô có tháng trung bình từ B12 đến
M12. Sau khi chúng tôi nhấn Enter, mức trung bình hàng tháng thấp nhất được tính toán.
Chúng tôi có thể lặp lại các bước tương tự để tìm mức trung bình hàng tháng cao nhất, trong
công thức này sẽ sử dụng cùng một dữ liệu, nhưng chúng tôi sẽ thay thế MIN bằng MAX cho
mức tối đa. Đối với vị trí cửa hàng này, doanh số bán hàng cao nhất vào tháng 12 và yếu nhất
vào tháng 1. Chúng tôi có thể chia sẻ những phát hiện này với các bên liên quan nếu họ đáp
ứng các mục tiêu của chúng tôi. Nếu không, chúng ta có thể cần tiếp tục phân tích. Dù bằng
cách nào, tôi hy vọng bạn đã học được cách các công thức bảng tính có thể trở thành công cụ
có giá trị khi thực hiện các phép tính. Sắp tới, chúng ta sẽ kiểm tra nhiều công thức hơn. Hẹn
sớm gặp lại.
Chức năng và điều kiện
Chào mừng trở lại! Một trong những phép tính đầu tiên mà hầu hết trẻ em học cách
thực hiện là đếm. Ngay sau đó, chúng học cách cộng và điều đó không mất đi. Bất kể chúng
ta ở độ tuổi nào, chúng ta luôn đếm hoặc thêm một thứ gì đó, cho dù đó là tiền thừa ở cửa
hàng tạp hóa hay số đo trong công thức nấu ăn. Các nhà phân tích dữ liệu cũng thực hiện rất
nhiều việc đếm và cộng. Và với lượng dữ liệu mà bạn sẽ gặp với tư cách là một nhà phân tích
dữ liệu, bạn sẽ rất biết ơn khi có các chức năng có thể thực hiện việc đếm và cộng cho bạn. Vì
vậy, hãy tìm hiểu xem các hàm COUNTIF và SUMIF này có thể giúp bạn thực hiện các phép
tính để phân tích dễ dàng và chính xác hơn như thế nào. Chúng ta sẽ bắt đầu với hàm
COUNTIF. Bạn có thể nhớ COUNTIF từ một số video trước đó về làm sạch dữ liệu.
COUNTIF trả về số ô khớp với một giá trị đã chỉ định. Trước đó, chúng tôi đã chỉ ra cách
COUNTIF có thể được sử dụng để tìm và đếm lỗi trong tập dữ liệu.
Phát video bắt đầu từ ::55 và theo dõi bản ghi 0:55
Ở đây chúng ta sẽ chỉ đếm. Tuy nhiên, xin nhắc lại rằng mặc dù chúng tôi sẽ không tích cực
tìm kiếm các lỗi trong video này, nhưng bạn vẫn sẽ muốn đề phòng bất kỳ dữ liệu nào có vẻ
không ổn khi thực hiện phân tích của riêng mình. Là một nhà phân tích dữ liệu, bạn sẽ tìm
kiếm và sửa lỗi trong từng bước. Đối với ví dụ này, chúng ta sẽ xem xét một mẫu dữ liệu từ
một nhà bán lẻ đồ dùng nhà bếp trực tuyến. Các bên liên quan đã yêu cầu chúng tôi trả lời một
số câu hỏi về dữ liệu để hiểu thêm về các giao dịch của khách hàng, bao gồm cả doanh thu mà
họ mang lại. Chúng tôi đã thêm các câu hỏi cần trả lời vào bảng tính. Chúng ta sẽ thiết lập một
bảng tóm tắt đơn giản, đây là bảng được sử dụng để tóm tắt thông tin thống kê về dữ liệu.
Chúng tôi sẽ sử dụng các câu hỏi để tạo các thuộc tính cho các cột trong bảng của mình: số
lượng, tổng doanh thu và doanh thu trung bình trên mỗi giao dịch. Mỗi câu hỏi của chúng tôi
hỏi về giao dịch với một mặt hàng hoặc giao dịch với nhiều mặt hàng, vì vậy đó sẽ là những
quan sát cho các hàng của chúng tôi. Chúng tôi sẽ đặt Số lượng làm tiêu đề cho các quan sát
của chúng tôi. Chúng tôi cũng sẽ thêm các đường viền để làm cho bảng tóm tắt đẹp và rõ ràng.
Câu hỏi đầu tiên hỏi, Có bao nhiêu giao dịch bao gồm chính xác một mặt hàng? Để trả lời câu
hỏi này, chúng ta sẽ thêm một công thức sử dụng hàm COUNTIF trong ô G11. Chúng ta sẽ
bắt đầu với một dấu bằng, COUNTIF, và một dấu ngoặc đơn mở. Cột B có dữ liệu về số lượng.
Vì vậy, chúng tôi sẽ chọn các ô từ B3 đến B50, theo sau là dấu phẩy. Tiếp theo, chúng ta cần
cho công thức biết giá trị mà chúng ta đang tìm kiếm trong các ô mà chúng ta đã chọn. Chúng
tôi muốn yêu cầu dữ liệu đếm số lượng giao dịch nếu chúng bằng 1. Trong trường hợp này,
giữa các dấu ngoặc kép, chúng tôi sẽ nhập dấu bằng và số 1 vì đó là giá trị chính xác mà chúng
tôi cần tính. Khi chúng tôi thêm một dấu ngoặc đơn đóng và nhấn enter, chúng tôi sẽ nhận
được tổng số giao dịch chỉ có một mục, là 25. Chúng tôi có thể làm theo các bước tương tự để
đếm các giá trị lớn hơn một. Nhưng lần này, vì chúng ta chỉ muốn các giá trị lớn hơn 1, nên
chúng ta sẽ nhập dấu lớn hơn vào công thức bên trong dấu bằng. Nhận thông tin này giúp
chúng tôi so sánh dữ liệu về số lượng. Được rồi, bây giờ chúng ta cần tìm hiểu tổng doanh thu
mà mỗi loại giao dịch mang lại là bao nhiêu. Vì dữ liệu không được sắp xếp theo số lượng nên
chúng ta sẽ sử dụng hàm SUMIF để giúp cộng doanh thu cho các giao dịch với một mặt hàng
và thêm một mặt hàng nữa mục một cách riêng biệt. SUMIF là hàm cộng dữ liệu số dựa trên
một điều kiện. Xây dựng công thức với SUMIF hơi khác so với xây dựng với COUNTIF. Cả
hai đều bắt đầu theo cùng một dấu bằng và hàm, nhưng công thức SUMIF chứa phạm vi ô
được đánh giá theo tiêu chí của bạn và tiêu chí. Nói cách khác, SUMIF có một danh sách các
ô cần kiểm tra dựa trên tiêu chí bạn đặt trong công thức. Sau đó, phạm vi mà chúng tôi muốn
thêm các số sẽ được đặt trong công thức nếu phạm vi đó khác với phạm vi được đánh giá. Có
dấu phẩy giữa mỗi phần này. Thêm khoảng trắng sau mỗi dấu phẩy là tùy chọn. Vì vậy, hãy
thử điều này. Trong ô H11, chúng tôi sẽ nhập công thức của mình. Phạm vi được đánh giá
nằm trong cột B, vì vậy chúng tôi sẽ chọn các ô đó. Điều kiện mà chúng tôi muốn dữ liệu đáp
ứng là các giá trị trong cột phải bằng một. Vì vậy, chúng tôi sẽ nhập dấu phẩy và sau đó bên
trong dấu ngoặc kép một dấu bằng và số một. Sau đó, chúng tôi sẽ chọn phạm vi sẽ được thêm
vào dựa trên việc liệu dữ liệu từ phạm vi đầu tiên của chúng tôi có bằng một hay không. Phạm
vi này nằm trong cột C, liệt kê doanh thu cho mỗi giao dịch. Vì vậy, mọi khoản doanh thu
kiếm được từ một giao dịch chỉ với một mặt hàng sẽ được cộng lại với nhau. Và có tổng số
của chúng tôi. Vì đây là doanh thu nên chúng tôi sẽ thay đổi định dạng của số thành đơn vị
tiền tệ để số này hiển thị dưới dạng đô la và xu. Vì vậy, các giao dịch với chính xác một mặt
hàng kiếm được $1.555,00 doanh thu. Hãy xem có bao nhiêu giao dịch với nhiều mặt hàng
kiếm được. Được rồi, hãy kiểm tra kết quả. Cũng giống như ví dụ về COUNTIF của chúng
tôi, công thức SUMIF thứ hai sẽ giống như công thức đầu tiên, ngoại trừ điều kiện làm cho nó
lớn hơn một. Khi chạy công thức, chúng tôi phát hiện ra rằng tổng doanh thu cao hơn nhiều,
$4.735,00. Điều này hợp lý vì doanh thu đến từ các giao dịch có nhiều mặt hàng. Tin tốt. Để
hoàn thành mục tiêu của chúng tôi, chúng tôi sẽ thực hiện thêm hai phép tính nhanh. Đầu tiên,
chúng ta sẽ tìm doanh thu trung bình trên mỗi giao dịch bằng cách chia từng tổng số cho số
lượng của nó. Điều này sẽ cho các bên liên quan của chúng tôi biết mức độ chênh lệch về
doanh thu trên mỗi giao dịch giữa giao dịch một mặt hàng và giao dịch nhiều mặt hàng. Thông
tin này có thể hữu ích vì nhiều lý do. Ví dụ: tìm hiểu xem có nên thêm chiết khấu khi mua
nhiều mặt hàng để khuyến khích khách hàng mua nhiều hơn hay không. Chúng tôi sẽ đặt
những tính toán này vào cột cuối cùng của bảng tóm tắt của chúng tôi. Bạn có thể nhớ rằng
chúng tôi sử dụng dấu gạch chéo trong công thức làm toán tử cho các phép tính chia. Doanh
thu trung bình cho các giao dịch với một mặt hàng là $62,20. Và doanh thu trung bình cho các
giao dịch có nhiều mặt hàng là $205,87. Và đó là nó cho phân tích của chúng tôi. Bảng tóm
tắt của chúng tôi hiện cung cấp cho các bên liên quan và các thành viên trong nhóm một bản
tóm tắt phân tích dễ hiểu. Các hàm COUNTIF và SUMIF của chúng tôi đóng một vai trò quan
trọng ở đây. Sử dụng các hàm này để hoàn thành các phép tính, đặc biệt là trong các bộ dữ
liệu lớn, có thể giúp tăng tốc độ phân tích của bạn. Họ cũng có thể làm cho việc đếm và thêm
một chút thú vị hơn. Không có gì sai với điều đó. Và sắp tới, chúng ta sẽ khám phá nhiều chức
năng hơn để giúp các phép tính của bạn chạy trơn tru. Tạm biệt bây giờ.
Chương 2: Pivot...pivot...pivot...
Bắt đầu làm việc với các bảng tổng hợp
Này, kia. Đến giờ, chúng ta đã học được rất nhiều về hàm và công thức. Chúng là những
công cụ rất hữu ích cho hộp công cụ của bạn và tuyệt vời để tìm lối tắt để hoàn thành phép
tính.
Nhưng có một công cụ khác thực hiện một số điều tương tự trong bảng tính: bảng tổng
hợp. Xin nhắc lại, bảng tổng hợp cho phép bạn xem dữ liệu theo nhiều cách để tìm thông tin
chi tiết và xu hướng.
Trước đây, chúng ta đã nói về cách các bảng tổng hợp giúp làm sạch và sắp xếp dữ liệu
của bạn, bao gồm sắp xếp và nhóm dữ liệu. Nhưng bảng tổng hợp cũng có thể giúp tính toán.
Ví dụ: chúng rất tuyệt vời để tính nhanh tổng và giá trị trung bình. Hãy xem lại bộ dữ liệu
phim của chúng tôi để cho bạn thấy cách các bảng tổng hợp và các phép tính phối hợp với
nhau. Trước đó, chúng tôi đã tóm tắt và sắp xếp dữ liệu này trong các bảng tổng hợp. Chúng
tôi cũng sẽ làm điều đó ở đây.
Nhưng trong trường hợp này, tổ chức là một phần thưởng cho việc sử dụng các bảng
tổng hợp để tính toán. Bạn cũng có thể thực hiện các bước này trong Excel, mặc dù một số
bước có thể trông khác. Nếu đang sử dụng Excel, bạn có thể xem phần đọc sau video này để
biết thêm chi tiết về bảng tổng hợp và bảng tính Excel.
Trong ví dụ này, người quản lý của bạn yêu cầu bạn tìm một số xu hướng để giúp họ
suy nghĩ thông qua các ý tưởng phim mới bằng cách sử dụng tính toán doanh thu. Bảng tính
này có dữ liệu về các bộ phim từ vài năm trước. Vì vậy, nó có thể sẽ không hữu ích ngay bây
giờ. Tuy nhiên, các bước chúng tôi thực hiện để phân tích dữ liệu hoàn toàn áp dụng cho đến
bây giờ.
Vì vậy, chúng ta hãy đi vào nó. Đầu tiên, chúng ta cần tìm hiểu xem doanh thu được
tạo ra mỗi năm là bao nhiêu. Một bảng tổng hợp là một cách tốt để tổ chức việc này. Vì vậy,
chúng tôi sẽ tạo một bảng tổng hợp để hiển thị điều này. Trong bảng tổng hợp của chúng tôi,
chúng tôi cũng có thể tìm thấy doanh thu trung bình trên mỗi bộ phim. Sau đó, chúng tôi có
thể kiểm tra những phát hiện của mình để biết một số xu hướng có thể xảy ra. Chúng tôi sẽ
bắt đầu bằng cách tìm doanh thu được tạo ra mỗi năm. Điều này cung cấp cho chúng tôi ngày
phát hành của mỗi bộ phim trong cột B và doanh thu phòng vé trong cột N. Thay vì sắp xếp
lại bảng theo năm và xây dựng công thức để tính doanh thu mỗi năm, chúng tôi sẽ tạo một
bảng tổng hợp.
Chà, tại bảng tổng hợp trong một trang tính mới giữ phạm vi dữ liệu của ô A1 đến ô
N509. Thêm một trang tính mới đặc biệt hữu ích khi làm việc trong một tập dữ liệu lớn như
thế này. Nó giúp giữ các tính toán của chúng ta ở cùng một nơi và tách biệt với phần còn lại
của dữ liệu. Chúng tôi sẽ đổi tên doanh thu trang tính này để gọi ra vị trí tính toán của chúng
tôi, cho cả chúng tôi và cho bất kỳ ai khác trong nhóm của chúng tôi, những người có thể cần
phân tích của chúng tôi.
Bây giờ chúng ta có thể tạo bảng tổng hợp của mình, bắt đầu với các hàng. Chúng tôi
sẽ sắp xếp các hàng theo ngày phát hành để tìm ra doanh thu mỗi năm. Bạn có thể nhận thấy
điều này tạo ra một hàng cho mỗi ngày một hoặc nhiều phim trong bộ dữ liệu này được phát
hành. Vì chúng tôi chỉ cần số năm, nên chúng tôi sẽ nhấp chuột phải vào một trong các ô trong
cột ngày phát hành để tạo nhóm ngày xoay vòng và nhóm theo năm. Bây giờ chúng tôi có các
hàng, một hàng cho mỗi năm mà những bộ phim này được phát hành.
Tiếp theo, chúng tôi muốn làm việc với các giá trị. Chà, tại dữ liệu doanh thu phòng vé
đây. Điều này điền vào các cột bên cạnh ngày phát hành với tổng doanh thu phòng vé và mỗi
năm. Các tính toán này là tự động vì bảng tổng hợp đã được đặt để tóm tắt dữ liệu bằng hàm
tổng. Vì vậy, không cần phải thay đổi cài đặt này. Tuy nhiên, có các chức năng khác và được
tóm tắt theo menu, chẳng hạn như min cho số tiền doanh thu tối thiểu mỗi năm và tính cho số
lượng phim tạo ra doanh thu trong mỗi năm.
Được rồi, hãy xem chúng ta có gì ở đây. Số liệu này cho thấy năm 2014 có doanh thu
cao nhất, trong khi năm 2016 có doanh thu thấp nhất. Đây có thể là thông tin hữu ích, nhưng
việc tìm kiếm doanh thu trung bình trên mỗi phim rất có thể sẽ hữu ích hơn vì số lượng phim
được phát hành mỗi năm là khác nhau. Vì vậy, chúng tôi sẽ thêm một cột khác cho doanh thu
trung bình kiếm được của mỗi bộ phim trong năm. Chúng ta có thể làm điều này trong cùng
một bảng tổng hợp. Chúng tôi sẽ thêm một giá trị khác và thay đổi hàm mà chúng tôi sử dụng
để tóm tắt từ tổng thành trung bình. Hàm trung bình cho chúng ta doanh thu trung bình mỗi
năm của các phim trong tập dữ liệu. Có thể thấy doanh thu bình quân năm 2015 thấp hơn
nhiều so với các năm khác. Vì dữ liệu này rất nổi bật nên chúng ta hãy tiếp tục khám phá để
tìm hiểu lý do tại sao.
Đưa phân tích của bạn lên một cấp độ khác như thế này là một dấu hiệu của một nhà
phân tích tuyệt vời. Khi làm công việc của mình, bạn muốn trả lời các câu hỏi mà người quản
lý và các bên liên quan của bạn đặt ra. Nhưng bạn cũng muốn trả lời những câu hỏi xuất hiện
trong khi bạn đang phân tích.
Vì vậy, hãy cố gắng tìm ra điều này. Trước tiên, chúng tôi sẽ biết có bao nhiêu phim từ
mỗi năm được đưa vào tập dữ liệu, chúng tôi sẽ thêm một giá trị mới và sử dụng hàm đếm lần
này. Điều này cho chúng ta thấy rằng có nhiều phim trong bộ dữ liệu từ năm 2015 hơn bất kỳ
năm nào khác. Nhưng năm 2015 vẫn có tổng doanh thu phòng vé thấp thứ hai. Điều này có
thể có nghĩa là một vài điều. Có khả năng nhiều phim từ năm 2015 không kiếm được nhiều
doanh thu so với các năm khác, điều này sẽ làm giảm doanh thu trung bình chung. Ngay cả
khi tổng doanh thu vẫn ngang bằng với các năm khác.
Chúng ta sẽ khám phá chỉ một khả năng này ở đây. Nhưng bạn luôn có thể tiến xa hơn
khi phân tích dữ liệu trong công việc của chính mình. Nó sẽ phụ thuộc vào mục tiêu của bạn
và các câu hỏi bạn cần trả lời.
Bây giờ, hãy sao chép và dán bảng tổng hợp của chúng tôi để chúng tôi có thể kiểm tra
giả thuyết của mình. Chúng tôi sẽ đổi tên các cột và bảng sao chép của chúng tôi để phân biệt
chúng với bảng gốc của chúng tôi. Chúng tôi sẽ đặt tên cho chúng dựa trên dữ liệu mà chúng
tôi sẽ xem xét, tôi sẽ giải thích điều này trong video tiếp theo.
Bây giờ bảng tổng hợp được sao chép của chúng tôi đã sẵn sàng để chúng tôi kiểm tra
giả thuyết của mình. Tiếp theo, chúng tôi sẽ sử dụng các bộ lọc để tìm xem có bao nhiêu phim
kiếm được doanh thu dưới 10 triệu đô la Mỹ trong năm 2015. Sau đó, chúng tôi cũng sẽ tạo
một trường được tính toán để xác định tỷ lệ phần trăm trong tổng số phim từ năm đó mà chúng
đại diện. Tôi sẽ ở đây khi bạn sẵn sàng tìm hiểu thêm về bảng tổng hợp.
Tiếp tục bảng tổng hợp
Chào mừng trở lại. Trong video trước, chúng tôi đã tạo một bảng tổng hợp dữ liệu phim
và tính toán doanh thu để giúp người quản lý của chúng tôi nghĩ ra các ý tưởng phim mới.
Chúng tôi đã sử dụng bảng tổng hợp để thực hiện một số quan sát ban đầu về doanh
thu hàng năm. Chúng tôi cũng phát hiện ra rằng doanh thu trung bình của năm 2015 thấp hơn
so với các năm khác mặc dù có nhiều phim được phát hành hơn trong năm đó. Chúng tôi đưa
ra giả thuyết rằng điều này là do có nhiều phim kiếm được doanh thu dưới 10 triệu đô la Mỹ
được phát hành vào năm 2015. Để kiểm tra lý thuyết này, chúng tôi đã tạo một bản sao của
bảng tổng hợp ban đầu.
Bây giờ chúng ta sẽ áp dụng các bộ lọc trong các trường được tính toán để khám phá
dữ liệu nhiều hơn. Bắt đầu nào. Tất cả các bạn đều nhớ rằng tùy chọn bộ lọc chỉ cho phép
chúng tôi xem các giá trị chúng tôi cần. Chúng tôi sẽ chọn một ô trong bảng tổng hợp đã sao
chép của mình và thêm bộ lọc vào cột doanh thu phòng vé. Sau đó, bộ lọc sẽ được áp dụng
cho toàn bộ bảng. Khi chúng tôi mở menu trạng thái, chúng tôi có thể chọn lọc dữ liệu để hiển
thị các giá trị cụ thể. Nhưng trong trường hợp của chúng tôi, chúng tôi muốn lọc theo điều
kiện để có thể biết có bao nhiêu bộ phim kiếm được dưới 10 triệu đô la mỗi năm. Điều kiện
mà chúng tôi sẽ sử dụng trong bộ lọc của mình nhỏ hơn và giá trị của chúng tôi sẽ là 10 triệu
đô la, đó là lý do tại sao chúng tôi đã đổi tên các cột này sớm hơn.
Chúng tôi sẽ nhập số của mình ở định dạng đô la và xu để điều kiện khớp với dữ liệu
trong bảng tổng hợp của chúng tôi. Điều này có thể không cần thiết, nhưng nó ngăn ngừa các
lỗi tiềm ẩn xảy ra. Bây giờ chúng ta biết rằng 20 bộ phim được phát hành trong năm 2015 đã
kiếm được ít hơn 10 triệu đô la. Đây có vẻ là một con số cao so với các năm khác. Nhưng xin
lưu ý rằng có nhiều phim hơn từ tập dữ liệu của chúng tôi được phát hành vào năm 2015.
Trước khi tiếp tục, hãy sử dụng trường được tính toán để xác minh mức trung bình của chúng
tôi vì trường này được sao chép từ một bảng tổng hợp khác trước khi chúng tôi lọc. Bằng cách
đó chúng ta có thể kiểm tra xem nó có đúng không.
Chúng tôi sẽ tạo một cột tùy chỉnh được gọi là trường được tính toán bằng menu giá trị
của chúng tôi. Calculated field (Trường được tính toán): Trường mới trong bảng tổng hợp
thực hiện các tính toán được phép tốt nhất dựa trên giá trị của các trường khác nhau. Bạn cũng
có thể làm điều này trong Excel bằng cách sử dụng cài đặt trường và menu tạo công thức. Đối
với công thức trong trường được tính toán của chúng tôi, chúng tôi sẽ sử dụng hàm tổng và
chia tổng dữ liệu doanh thu phòng vé từ bảng ban đầu của chúng tôi cho số lượng dữ liệu
tương tự. Vì chúng tôi đã áp dụng bộ lọc của mình cho bảng tổng hợp này trước đó nên công
thức này sẽ chỉ trả về doanh thu trung bình của các bộ phim dưới 10 triệu đô la. Điều đó đã
làm việc.
Chúng tôi có thể kiểm tra tính chính xác của một số dữ liệu trước khi phân tích. Luôn
luôn là một điều tốt. Nhưng vẫn khó nói mức độ ảnh hưởng của những phim có doanh thu
thấp hơn này đối với doanh thu trung bình. Hãy chạy một công thức nhanh để tìm tỷ lệ phần
trăm phim mỗi năm kiếm được ít hơn 10 triệu đô la. Điều này sẽ làm cho nó dễ dàng hơn để
so sánh từ năm này sang năm khác. Thay vì trường được tính toán, chúng tôi sẽ thêm trường
này làm công thức trong một cột mới, theo cách đó chúng tôi có thể lấy dữ liệu từ cả hai bảng
tổng hợp của mình.
Chúng tôi sẽ đặt tiêu đề cho bảng của chúng tôi trong ô G10 và đặt tên cho nó là phần
trăm của tổng số phim. Sau đó, chúng tôi sẽ thêm công thức của mình vào ô tiếp theo trong
cột. Chia số phim trong bảng sao chép cho số phim trong bảng gốc. Sau đó, chúng ta sẽ sử
dụng núm điều khiển điền vào ô có công thức và kéo nó để áp dụng công thức cho các năm
còn lại. Cuối cùng, chúng tôi sẽ định dạng những con số này dưới dạng phần trăm. Bây giờ,
phân tích của chúng tôi cho thấy rằng 16% phim phát hành trong năm 2015 kiếm được ít hơn
10 triệu đô la doanh thu. Các năm khác đều gần 10 phần trăm. Đây là một lời giải thích khả dĩ
cho lý do tại sao doanh thu trung bình tương đối thấp trong năm 2015.
Trong thực tế, rất có thể chúng ta cần phải phân tích sâu hơn nữa tùy thuộc vào mục
tiêu của mình. Nhưng hiện tại, chúng ta đã sẵn sàng. Bạn đã học cách sử dụng bảng tổng hợp
để thực hiện tính toán dữ liệu. Nó sẽ cần thực hành, nhưng các bảng tổng hợp đáng giá vì
chúng làm được nhiều việc hơn là tính toán. Họ cũng tổ chức và lọc dữ liệu. Chúng ta đã cùng
nhau tìm hiểu các hàm, công thức và bảng tổng hợp. Tất cả các công cụ tuyệt vời để sử dụng
trong phân tích. Với thực tế và kinh nghiệm, bạn sẽ cảm thấy như mình đã sử dụng chúng mãi
mãi. Chỉ cần dành thời gian của bạn để biết làm thế nào họ làm việc. Tiếp tục khám phá những
video này và các bài đọc. Công việc tuyệt vời.
Chương 3: Tìm hiểu thêm các phép tính SQL
Truy vấn và tính toán
Đến bây giờ, bạn có thể biết rằng có nhiều cách để thực hiện công việc hàng ngày của
một nhà phân tích dữ liệu. Các phép tính cũng không ngoại lệ. Như chúng tôi đã trình bày
trong các video trước đó, bạn có thể hoàn thành các phép tính tương tự theo nhiều cách khác
nhau trong bảng tính. Bạn cũng có thể hoàn thành chúng bằng SQL.
Trong video này, chúng tôi sẽ cung cấp cho bạn tổng quan về cách tính toán SQL so
với tính toán bảng tính. Hãy xem xét các toán tử số học được sử dụng trong cả bảng tính và
SQL. Toán tử là một ký hiệu đặt tên cho loại thao tác hoặc phép tính sẽ được thực hiện trong
một công thức. Như bạn đã học trước đó, bốn toán tử số học cơ bản trong công thức bảng tính
là dấu cộng cho phép cộng, dấu trừ hoặc dấu gạch ngang cho phép trừ, dấu hoa thị cho phép
nhân và dấu gạch chéo lên cho phép chia.
Các toán tử tương tự này tính toán dữ liệu theo cùng một cách khi viết các truy vấn
trong SQL. Các toán tử được nhúng trong các truy vấn khi lấy dữ liệu từ cơ sở dữ liệu.
Cũng giống như công thức bảng tính, có một số cách khác nhau để thực hiện phép tính
bằng cách sử dụng truy vấn. Hãy xem cú pháp của một truy vấn có thể. Cú pháp của một truy
vấn là cấu trúc của nó. Nó phải bao gồm tất cả các chi tiết cụ thể của dữ liệu mà bạn muốn
kéo vào một bảng mới, nơi các chi tiết đó sẽ được đặt. Nếu bạn muốn thêm các giá trị từ hai
cột của một bảng, bạn bắt đầu bằng lệnh SELECT, theo sau là tên của cột đầu tiên, sau đó là
tên của cột thứ hai. Sau đó, bạn sẽ thêm tên của cả hai cột bằng dấu cộng giữa chúng. Sau đó,
bạn sẽ nhập AS theo sau là tên bạn muốn đặt cho cột có tổng số được thêm vào.
Cuối cùng, bạn hoàn thành truy vấn của mình bằng cách nhập TỪ và sau đó nhập tên của bảng
mà bạn đang lấy dữ liệu từ đó.
Chạy truy vấn này sẽ giúp bạn có một bảng hiển thị hai cột có các giá trị đang được
cộng với nhau cộng với một cột mới hiển thị tổng của các giá trị đó.
Toán tử trong truy vấn này là một dấu cộng vì các giá trị đang được thêm vào. Nếu bạn
cần trừ, nhân hoặc chia, bạn sẽ làm theo các bước tương tự bằng cách sử dụng các toán tử
thích hợp. Nếu bạn cần sử dụng nhiều toán tử số học trong một phép tính, bạn nên sử dụng
dấu ngoặc đơn để kiểm soát thứ tự của các phép tính.
Nếu chúng tôi bao gồm cột C trong truy vấn của mình, chúng tôi có thể đặt dấu ngoặc
đơn xung quanh cột A cộng với cột B. Sau đó, chúng tôi thêm dấu hoa thị nếu chúng tôi đang
nhân, theo sau là cột C.
Truy vấn này sẽ trả về một cột mới, tổng của các giá trị trong cột A và B nhân với các
giá trị trong cột C.
Bây giờ, giả sử bạn chỉ muốn phần còn lại từ phép tính chia. Chà, bạn cần một toán tử
khác cho việc này, toán tử modulo. Toán tử modulo được biểu thị bằng ký hiệu phần trăm.
Modulo is An operator (%) that returns the remainder when one number is divided by another
(Một toán tử trả về phần dư khi một số được chia cho một số khác). Trong bảng tính, bạn có
thể hoàn thành phép tính tương tự bằng hàm MOD.
Điều này đưa chúng ta đến một điểm tương đồng khác giữa các tính toán trong bảng
tính và SQL. Rất nhiều lần, bạn có thể sử dụng các hàm thay vì các toán tử để hoàn thành các
phép tính. Ví dụ: hàm SUM có thể hoàn thành các bài toán cộng trong bảng tính và SQL. Hàm
AVERAGE trong bảng tính giống như hàm AVG trong SQL. Cả hai đều trả về giá trị trung
bình của một tập hợp số. Trong SQL, các hàm này được coi là các hàm tổng hợp vì chúng
thực hiện phép tính trên một hoặc nhiều giá trị và trả về một giá trị duy nhất.
Bạn sẽ sớm tìm hiểu thêm về cách chúng được sử dụng với lệnh GROUP BY trong
một truy vấn. Đó là những điều cơ bản của tính toán SQL. Biết cách viết truy vấn cho một
phép tính là bước đầu tiên tốt. Ở lại với chúng tôi và bạn sẽ tìm hiểu thêm về các phép tính
trong SQL. Tạm biệt bây giờ.
Nhúng các phép tính đơn giản vào SQL
Chào bạn lần nữa nhé. Trước đó, chúng tôi đã chỉ cho bạn cách hoàn thành các phép
tính trong SQL. Mặc dù có một số cách khác nhau nhưng việc nhúng chúng vào các truy vấn
là một cách rất hữu ích.
Khi bạn đưa một phép tính vào truy vấn bằng các lệnh khác, bạn có thể thực hiện nhiều
công việc nhanh hơn. Đây là một cú pháp truy vấn cơ bản mà chúng ta đã nói đến.
Chúng tôi bắt đầu với SELECT và sau đó là tên của các cột mà chúng tôi muốn sử dụng
trong các phép tính của mình. Sau đó, chúng tôi thêm vào các chi tiết tính toán bao gồm một
toán tử như dấu gạch chéo lên để chia. Tiếp theo, chúng tôi nhập AS theo sau là tên cột mới
để gắn nhãn cột với các giá trị được tính toán. Cuối cùng, chúng tôi kết thúc truy vấn của mình
bằng lệnh FROM và tên của bảng mà chúng tôi đang lấy dữ liệu từ đó.
Bây giờ, hãy chuyển sang cấp độ tiếp theo với một số phép tính nhúng sử dụng cú
pháp như cú pháp này. Tốt hơn nữa, chúng ta sẽ làm điều này với một số dữ liệu về quả bơ.
Xin lỗi những bạn không mê bơ như mình. Bắt đầu nào. Vui lòng tiếp tục xem khi chúng tôi
chỉ cho bạn các bước sử dụng BigQuery. Nếu bạn đang tham gia cùng chúng tôi, hãy mở công
cụ bạn chọn để sử dụng SQL. Hãy nhớ xem qua các hướng dẫn trong bài đọc ngay trước video
này để giúp bạn bắt đầu.
Dữ liệu đã được tải sẵn, vì vậy chúng tôi có thể bắt đầu ngay. Mục tiêu của chúng tôi
là tìm ra tổng số túi bơ được bán vào mỗi ngày tại mỗi địa điểm bằng cách sử dụng dữ liệu
này. Đã có một cột hiển thị cho chúng tôi tổng số, nhưng chúng tôi muốn đảm bảo rằng chúng
tôi hiểu cách tính tổng số đó.
Chúng tôi muốn đảm bảo rằng tổng cột chỉ là các túi nhỏ, lớn và cực lớn được cộng
lại với nhau. Chúng tôi sẽ cộng các giá trị trong ba cột đó lại với nhau trong truy vấn của mình,
sau đó so sánh chúng với cột tổng số túi trong tập dữ liệu. Chúng ta sẽ bắt đầu với lệnh
SELECT mà chúng ta sẽ sử dụng để kéo các cột nhất định khỏi bảng. Chúng tôi đang chọn
một số cột, vì vậy chúng tôi sẽ nhấn Enter sau SELECT và sau dấu phẩy sau mỗi tên cột. Tiếp
theo, chúng tôi sẽ nhập các tên cột đó: Ngày, Vùng, Small_bags, Large_bags, XLarge_Bags
và Total_Bags. Underscores is Lines used to underline words and connect text characters
(Dấu gạch dưới là những dòng được sử dụng để gạch dưới các từ và kết nối các ký tự văn bản).
Sử dụng dấu cách có thể gây nhầm lẫn cho một số máy chủ và ứng dụng. Thay vào đó, sử
dụng dấu gạch dưới giúp tránh các sự cố tiềm ẩn trong khi vẫn giữ cho tên có thể đọc được.
Bây giờ, chúng ta sẽ thêm phép tính vào truy vấn bằng cách sử dụng tên của ba cột có
dấu cộng giữa chúng: túi nhỏ cộng với túi lớn cộng với túi cực lớn. Vì chúng tôi muốn tính
toán này trong một cột mới, nên chúng tôi sẽ sử dụng lệnh AS để đặt tên cho cột là
Total_Bags_Calc. Chúng tôi đã thêm từ "Calc" để có thể so sánh các cột với nhau sau khi tính
toán kết quả. Bây giờ, chúng tôi sẽ kết thúc truy vấn của mình với TỪ và tên của tập dữ liệu
cũng như tập hợp con mà chúng tôi đang lấy từ đó, butter_data.avocado_prices. Hãy chạy truy
vấn.
Trong cột "Total Bags Calc", dữ liệu hiển thị tổng của mỗi ngày đối với số lượng túi
bơ nhỏ, lớn và cực lớn đã được bán tại mỗi địa điểm. Nếu chúng ta nhanh chóng so sánh hai
cột hiển thị tổng số túi, chúng ta sẽ biết rằng các giá trị là như nhau. Điều này cho chúng tôi
biết rằng dữ liệu chúng tôi muốn sử dụng là dữ liệu phù hợp.
Bây giờ chúng tôi đã xác minh tổng số túi, chúng tôi có thể sử dụng các giá trị đó trong
một truy vấn khác. Chúng ta cần tìm bao nhiêu phần trăm tổng số túi là túi nhỏ. Việc tìm ra
điều này có thể giúp các bên liên quan đưa ra quyết định về cách đóng gói bơ hoặc kích cỡ túi
để tiến hành bán hàng.
Công việc của chúng tôi là đưa thông tin đó đến các bên liên quan. Vì vậy, chúng tôi
sẽ thiết lập một truy vấn mới. Chúng tôi sẽ chọn các cột Ngày, Khu vực, Tổng số Túi và Túi
nhỏ cho truy vấn này. Tiếp theo, chúng tôi sẽ thiết lập một cột mới bắt đầu với phép tính của
chúng tôi. Để tìm tỷ lệ phần trăm của các túi nhỏ, trước tiên chúng ta cần chia số lượng túi
nhỏ cho tổng số túi bằng cách sử dụng dấu gạch chéo làm toán tử. Chúng tôi sẽ đặt phần tính
toán này trong ngoặc đơn để cho máy chủ biết rằng phép tính này nên được thực hiện trước.
Sau đó, chúng tôi sẽ nhân tổng số này với 100 bằng cách sử dụng dấu hoa thị làm toán tử của
chúng tôi. Nhân với 100 sẽ cho chúng ta một giá trị là phần trăm thay vì số thập phân. Tỷ lệ
phần trăm thường giúp mọi người hiểu nhanh hơn khi bạn chia sẻ kết quả với họ. Chúng tôi
sẽ sử dụng lệnh AS để đặt tên cho cột mới này là "Phần trăm túi nhỏ". Sau đó, chúng tôi sẽ
thêm TỪ và tên của tập hợp mà chúng tôi đang lấy từ đó và chúng tôi sẽ chạy truy vấn của
mình. Chúng tôi gặp lỗi trong kết quả của mình. Nó nói rằng chúng ta không thể chia cho số
không. Vì chúng tôi đang tìm tỷ lệ phần trăm, chia cho 0 sẽ không hoạt động. Điều này có
nghĩa là ở đâu đó trong tập dữ liệu có tổng số túi bằng không. Chúng tôi sẽ phải sửa lỗi này
trong truy vấn của mình. Chúng ta có thể sửa lỗi này bằng lệnh WHERE. WHERE cho phép
chúng tôi thêm một điều kiện vào phép tính của mình. Sau khi chúng tôi nhập WHERE, chúng
tôi sẽ nhập Total_Bags theo sau là dấu nhỏ hơn và sau đó là dấu lớn hơn. Các biểu tượng này
cho máy chủ biết rằng các giá trị mà chúng tôi đang tính toán không được bằng với giá trị mà
chúng tôi chỉ định. Trong trường hợp này, giá trị đó bằng không. Vì vậy, chúng tôi sẽ thêm số
0 vào truy vấn của mình. Bây giờ, khi chúng tôi chạy truy vấn, bạn sẽ nhận thấy cột mới của
chúng tôi hiển thị phần trăm túi nhỏ trong tổng số túi. Chúng tôi sẽ nhận được kết quả tương
tự nếu chúng tôi sử dụng dấu chấm than theo sau là dấu bằng thay cho dấu nhỏ hơn và lớn
hơn. Lưu ý rằng đây là một cách để làm điều đó. Nhưng có những chức năng như
SAFE_DIVIDE cũng cho phép bạn tránh lỗi này. Đó chỉ là một vài ví dụ để giúp bạn bắt đầu.
Nhưng với SQL, bạn có thể hoàn thành bất kỳ phép tính nào bạn muốn trong quá trình phân
tích của mình. Việc nhúng các phép tính vào các truy vấn của bạn sẽ giúp bạn sắp xếp phân
tích của mình trong khi nhận được kết quả. Các phương pháp tính toán mà chúng tôi đã giới
thiệu cho bạn ở đây mới chỉ là bước khởi đầu. Vì vậy, hãy tìm kiếm nhiều hơn sắp tới. Hẹn
sớm gặp lại.
Tính toán với các câu lệnh khác
Này, rất vui được gặp bạn. Là một nhà phân tích dữ liệu, bạn sẽ thấy rằng các tính toán
của mình có đủ hình dạng và kích cỡ. Trước đó, chúng tôi đã chỉ cho bạn cách thực hiện một
số phép tính cơ bản hơn trong SQL. Trong khi, tính toán cơ bản là tuyệt vời. Đôi khi, bạn sẽ
cần nhóm dữ liệu trước khi hoàn thành phép tính. Các lệnh GROUP BY và ORDER BY giúp
bạn làm việc này. Các lệnh này thường được ghép nối với các hàm tổng hợp như SUM hoặc
COUNT. Chúng tôi sẽ chỉ cho bạn cách bạn có thể sử dụng các lệnh và hàm này để tính toán
và tóm tắt dữ liệu từ các nhóm hàng trong bảng. Trước tiên hãy khám phá lệnh GROUP BY.
GROUP BY là lệnh nhóm các hàng có cùng giá trị từ một bảng thành các hàng tóm tắt. Lệnh
GROUP BY được sử dụng với các câu lệnh SELECT. Trong truy vấn SELECT FROM hoặc
SELECT-FROM-WHERE cơ bản, GROUP BY xuất hiện ở cuối truy vấn. Được rồi, hãy thử
sử dụng GROUP BY. Chúng tôi sẽ làm việc với cơ sở dữ liệu, với dữ liệu từ hệ thống chia sẻ
xe đạp. Chúng tôi muốn biết có bao nhiêu chuyến đi mà mọi người đã thực hiện trên những
chiếc xe đạp này mỗi năm. Dữ liệu này có một số cột, nhưng đối với tác vụ này, chúng tôi chỉ
cần cột thời gian bắt đầu. Vì tập dữ liệu này không được sắp xếp theo ngày và cột thời gian
bắt đầu không được sắp xếp theo năm nên chúng tôi cần đưa các bước vào mã của mình để
sắp xếp nó. Chúng tôi cũng muốn có tổng số chuyến đi mỗi năm. Vì vậy, chúng tôi sẽ cần bao
gồm một phép tính trong truy vấn của chúng tôi cho điều này. Và tùy thuộc vào những câu
hỏi mà chúng tôi được giao nhiệm vụ trả lời, đây có thể là bước đầu tiên trong nhiều bước
phân tích của chúng tôi. Chúng ta sẽ bắt đầu truy vấn bằng lệnh SELECT. Sau đó, chúng tôi
sẽ thêm EXTRACT vào truy vấn của mình. Lệnh EXTRACT cho phép chúng ta kéo một phần
của một ngày nhất định để sử dụng. Chúng tôi sẽ trích xuất năm từ cột thời gian bắt đầu. Để
làm điều này, chúng tôi sẽ thêm một dấu ngoặc đơn mở, theo sau là NĂM, cho phép máy chủ
biết phần ngày mà chúng tôi cần. Sau đó, chúng tôi sẽ thêm lệnh TỪ và THỜI GIAN BẮT
ĐẦU để chúng tôi có thể nhận được năm từ tất cả thời gian bắt đầu trong cột đó. Chúng tôi sẽ
đóng dấu ngoặc đơn và sau đó sử dụng AS và từ năm để đặt tên cho cột mà chúng tôi đang
tạo. Ở dòng tiếp theo của truy vấn, chúng ta sẽ sử dụng hàm tổng hợp COUNT theo sau là dấu
hoa thị trong ngoặc đơn. Điều này sẽ đếm số lần đạp xe trong cột thời gian bắt đầu. Sử dụng
dấu hoa thị để đảm bảo rằng tất cả thời gian bắt đầu được tính trong dữ liệu. Sau đó, chúng tôi
sẽ đặt tên cho cột số lượt đi bằng dấu gạch dưới giữa mỗi từ thay vì dấu cách. Chúng tôi sẽ
thêm TỪ trong cơ sở dữ liệu mà chúng tôi đang kéo ở dòng tiếp theo. Trong trường hợp này,
đó là bigquery-public-data.new_york.citybike_trips. Và đây là lệnh GROUP BY của chúng ta.
Chúng tôi sẽ sử dụng điều này để nhóm dữ liệu theo năm. Vì vậy, chúng tôi sẽ nhập GROUP
BY theo sau là năm. Chúng ta có thể tổ chức thêm các kết quả của mình bằng cách sử dụng
lệnh ORDER BY. Thêm phần này sau khi GROUP BY sắp xếp kết quả. Chúng tôi sẽ thêm
năm để sắp xếp dữ liệu theo năm. Bạn nên lưu ý rằng theo mặc định, ORDER BY sắp xếp dữ
liệu theo thứ tự tăng dần. Bây giờ chúng ta có thể chạy truy vấn của mình để nhận kết quả.
Các năm được sắp xếp bắt đầu từ năm 2013 và kết thúc bằng năm 2016. Nếu chúng tôi muốn
thay đổi thứ tự này thành thứ tự giảm dần, chúng tôi có thể thêm từ khóa DESC vào cuối truy
vấn và chạy lại từ khóa. Nhưng cho dù bạn sử dụng thứ tự nào, thì các lệnh GROUP BY và
ORDER BY rất hữu ích để giúp chúng ta hoàn thành và sắp xếp một phép tính cho phân tích
của mình. Đây là một cách để tính toán khi tổng hợp dữ liệu. Và đó chỉ là một trong nhiều
cách mà SQL giúp phân tích của bạn chạy trơn tru và tiến về phía trước. Vẫn còn nhiều điều
nữa về tính toán và SQL. Sắp tới, chúng ta sẽ tìm hiểu thêm về xác thực dữ liệu. Hẹn sớm gặp
lại.
Chương 4: Quy trình xác thực dữ liệu
Kiểm tra và kiểm tra lại
Chào bạn lần nữa nhé. Trước đó, chúng tôi đã đề cập đến xác thực dữ liệu, một chức
năng bảng tính giúp thêm danh sách thả xuống vào các ô. Sử dụng xác thực dữ liệu cho phép
bạn kiểm soát những gì có thể và không thể nhập vào trang tính của mình.
Một trong những công dụng của nó là bảo vệ dữ liệu có cấu trúc và công thức trong
bảng tính của bạn. Nhưng hữu ích như vậy, chức năng xác thực dữ liệu chỉ là một phần của
quy trình xác thực dữ liệu lớn hơn. Data validation process is Checking and rechecking the
quality of your data so that it is complete, accurate, secure and consistent (Quy trình xác thực
dữ liệu là Quy trình kiểm tra và đánh giá lại chất lượng dữ liệu sao cho đầy đủ, chính xác, an
toàn và nhất quán). Mặc dù quy trình xác thực dữ liệu là một hình thức làm sạch dữ liệu, nhưng
bạn nên sử dụng nó trong suốt quá trình phân tích của mình.
Nếu tất cả điều này nghe có vẻ quen thuộc với bạn, thì tốt. Đảm bảo bạn có dữ liệu tốt
là cực kỳ quan trọng. Và theo tôi, điều đó thật thú vị vì bạn có thể kết hợp kiến thức về kinh
doanh với kỹ năng kỹ thuật của mình. Điều này sẽ giúp bạn hiểu dữ liệu của mình, kiểm tra
xem dữ liệu đó có sạch không và đảm bảo rằng bạn đang phù hợp với các mục tiêu kinh doanh
của mình.
Nói cách khác, đó là những gì bạn làm để đảm bảo dữ liệu của mình có ý nghĩa. Xin
lưu ý rằng bạn sẽ xây dựng kiến thức kinh doanh của mình theo thời gian và kinh nghiệm. Và
đây là một mẹo chuyên nghiệp. Hỏi càng nhiều câu hỏi càng tốt bất cứ khi nào bạn cần sẽ làm
cho điều này dễ dàng hơn nhiều.
Được rồi, giả sử chúng ta đang phân tích một số dữ liệu cho một nhà bán lẻ đồ nội thất.
Chúng tôi muốn kiểm tra xem các giá trị trong cột giá mua luôn bằng số mặt hàng đã bán nhân
với giá sản phẩm. Vì vậy, chúng tôi sẽ thêm một công thức vào một cột mới để tính toán lại
giá mua bằng cách sử dụng công thức nhân.
Bây giờ, so sánh tổng số, có ít nhất một giá trị không khớp với giá trị trong cột giá mua.
Chúng ta cần tìm câu trả lời để giúp chúng ta tiếp tục với phân tích của mình. Bằng cách thực
hiện một số nghiên cứu và đặt câu hỏi, chúng tôi thấy rằng có giảm giá 30% khi khách hàng
mua từ năm mặt hàng trở lên. Nếu chúng tôi không chạy kiểm tra này, chúng tôi có thể đã bỏ
lỡ điều này hoàn toàn.
Bạn đã học được rằng với tư cách là một nhà phân tích, tính toán là một phần quan
trọng trong công việc của bạn. Vì vậy, điều quan trọng là bất cứ khi nào bạn tính toán, bạn
luôn kiểm tra để đảm bảo rằng bạn đã thực hiện chúng đúng cách.
Đôi khi, bạn sẽ chạy kiểm tra xác thực dữ liệu là kiểm tra thông thường. Ví dụ: giả sử
bạn đang tiến hành phân tích để tìm ra hiệu quả của các chương trình khuyến mại tại cửa hàng
cho một doanh nghiệp chỉ mở cửa vào các ngày trong tuần. Bạn kiểm tra để đảm bảo không
có dữ liệu bán hàng của thứ 7 và chủ nhật. Nếu dữ liệu của bạn hiển thị doanh số bán hàng
vào cuối tuần, thì đó có thể không phải là vấn đề với chính dữ liệu đó. Nó thậm chí có thể
không phải là một vấn đề gì cả. Có thể có một lý do tốt. Có thể doanh nghiệp của bạn tổ chức
các sự kiện đặc biệt vào Thứ Bảy và Chủ Nhật. Sau đó, bạn sẽ có doanh số bán hàng cho
những ngày cuối tuần đó. Bạn vẫn có thể muốn loại bỏ doanh số cuối tuần trong phân tích của
mình nếu mục tiêu của bạn chỉ là xem xét các ngày trong tuần. Nhưng việc thực hiện xác thực
dữ liệu này có thể giúp bạn tránh khỏi những tính toán sai lầm và các lỗi khác trong quá trình
phân tích của mình.
Bạn phải luôn thực hiện xác thực dữ liệu bất kể bạn đang sử dụng công cụ phân tích
nào. Trong một video trước đó, chúng tôi đã sử dụng SQL để phân tích một số dữ liệu về quả
bơ. Một trong những truy vấn là kiểm tra để đảm bảo dữ liệu hiển thị tổng số túi là tổng của
các túi nhỏ, lớn và cực lớn. Bằng cách chạy truy vấn này, chúng tôi có thể xác định rằng cột
tổng số là chính xác. Chúng tôi đã so sánh ngắn gọn hai cột của mình trong video đó. Nhưng
để hoàn toàn chắc chắn rằng không có vấn đề gì với các giá trị dữ liệu trong các cột đó, chúng
tôi cũng có thể chạy một truy vấn khác.
Trong truy vấn này, chúng tôi sẽ chọn tất cả bằng cách sử dụng dấu hoa thị và FROM
bộ dữ liệu giá bơ. Trong mệnh đề WHERE của chúng tôi, chúng tôi cũng sẽ loại ra nơi tổng
số tính toán của chúng tôi không bằng cột tổng số túi. Nếu không có giá trị nào được trả về,
chúng tôi có thể chắc chắn rằng các giá trị trong cột Tổng số túi là chính xác.
Và điều đó khiến chúng tôi tiếp tục phân tích. Nhưng khi chúng tôi cố gắng tìm bao
nhiêu phần trăm trong tổng số túi là nhỏ, chúng tôi gặp phải một vấn đề nhỏ. Chúng tôi đã
nhận được thông báo lỗi về việc chia cho số không. Chúng tôi đã sửa lỗi đó bằng cách điều
chỉnh truy vấn của mình.
Nếu chúng tôi đã liên kết truy vấn đó với một bản trình bày gửi tới các bên liên quan
của chúng tôi, họ sẽ hiển thị cho chúng tôi lỗi chia cho 0 thay vì các số liệu chúng tôi muốn.
Bằng cách xây dựng các loại kiểm tra này như một phần của quy trình xác thực dữ liệu, bạn
có thể tránh được lỗi trong phân tích và hoàn thành các mục tiêu kinh doanh của mình để làm
hài lòng mọi người. Và hãy tin tôi. Đó là một cảm giác tuyệt vời khi bạn làm. Và một cảm
giác tuyệt vời khác là biết rằng bạn đã xem qua một video khác và học được điều gì đó mới.
Và chúng tôi có nhiều nơi đến từ đó đến sớm. See you.
Chương 5: Sử dụng SQL với các bảng tạm thời
Bảng tạm thời
Xin chào lần nữa. Bây giờ, nếu bạn giống tôi, bạn luôn có sẵn các ghi chú dán bên cạnh
để viết lời nhắc hoặc tìm ra một bài toán nhanh. Ghi chú rất hữu ích và quan trọng, nhưng
chúng cũng chỉ dùng một lần vì bạn thường chỉ cần chúng trong một thời gian ngắn trước khi
tái chế chúng.
Các nhà phân tích dữ liệu có phiên bản ghi chú dán của riêng họ khi họ làm việc với
SQL. Chúng được gọi là bảng tạm thời và chúng tôi ở đây để tìm hiểu xem chúng là gì.
Temporary table is a database table that is created anf exists temporarily on a database server
(Bảng tạm thời là bảng cơ sở dữ liệu được tạo và tồn tại tạm thời trên máy chủ cơ sở dữ liệu).
Các bảng tạm thời khi chúng tôi gọi chúng lưu trữ các tập hợp con dữ liệu từ các bảng
dữ liệu tiêu chuẩn trong một khoảng thời gian nhất định. Sau đó, chúng sẽ tự động bị xóa khi
bạn kết thúc phiên cơ sở dữ liệu SQL của mình.
Vì các bảng tạm thời không được lưu trữ vĩnh viễn nên chúng rất hữu ích khi bạn chỉ
cần một bảng trong thời gian ngắn để hoàn thành các nhiệm vụ phân tích, chẳng hạn như tính
toán. Ví dụ: bạn có thể có nhiều bảng để thực hiện phép tính cùng một lúc. Nếu bạn có một
truy vấn cần nối bảy hoặc tám trong số chúng, bạn có thể nối hai hoặc ba bảng có số lượng
hàng ít nhất và lưu trữ đầu ra của chúng trong một bảng tạm thời. Sau đó, bạn có thể nối bảng
tạm thời này với một trong những bảng lớn hơn khác.
Một ví dụ khác là khi bạn có nhiều cơ sở dữ liệu khác nhau mà bạn đang chạy các truy
vấn trên đó. Bạn có thể chạy các truy vấn ban đầu này trong từng cơ sở dữ liệu riêng biệt, sau
đó sử dụng bảng tạm thời để thu thập kết quả của tất cả các truy vấn này. Sau đó, truy vấn báo
cáo cuối cùng sẽ chạy trên bảng tạm thời. Bạn có thể không sử dụng được cấu trúc báo cáo
này nếu không có các bảng tạm thời.
Chúng cũng hữu ích nếu bạn có một số lượng lớn bản ghi trong một bảng và bạn cần
phải làm việc với một tập hợp con nhỏ của những bản ghi đó nhiều lần để hoàn thành một số
tính toán hoặc phân tích khác. Vì vậy, thay vì lọc dữ liệu nhiều lần để trả về tập hợp con, bạn
có thể lọc dữ liệu một lần và lưu trữ dữ liệu đó trong một bảng tạm thời. Sau đó, bạn có thể
chạy các truy vấn của mình bằng bảng tạm thời mà bạn đã tạo.
Hãy tưởng tượng rằng bạn được yêu cầu phân tích dữ liệu về hệ thống chia sẻ xe đạp
mà chúng ta đã xem xét trước đó. Bạn chỉ cần phân tích dữ liệu cho các chuyến đi bằng xe
đạp kéo dài hơn 60 phút hoặc lâu hơn, nhưng bạn có một số câu hỏi cần trả lời về dữ liệu cụ
thể.
Sử dụng bảng tạm thời sẽ cho phép bạn chạy một số truy vấn về dữ liệu này mà không
phải tiếp tục lọc nó. Có nhiều cách khác nhau để tạo các bảng tạm thời trong SQL, tùy thuộc
vào hệ thống quản lý cơ sở dữ li
Bài giảng khóa học Google Data Analytics.docx
Bài giảng khóa học Google Data Analytics.docx
Bài giảng khóa học Google Data Analytics.docx
Bài giảng khóa học Google Data Analytics.docx
Bài giảng khóa học Google Data Analytics.docx
Bài giảng khóa học Google Data Analytics.docx
Bài giảng khóa học Google Data Analytics.docx
Bài giảng khóa học Google Data Analytics.docx
Bài giảng khóa học Google Data Analytics.docx
Bài giảng khóa học Google Data Analytics.docx
Bài giảng khóa học Google Data Analytics.docx
Bài giảng khóa học Google Data Analytics.docx
Bài giảng khóa học Google Data Analytics.docx
Bài giảng khóa học Google Data Analytics.docx
Bài giảng khóa học Google Data Analytics.docx
Bài giảng khóa học Google Data Analytics.docx
Bài giảng khóa học Google Data Analytics.docx
Bài giảng khóa học Google Data Analytics.docx
Bài giảng khóa học Google Data Analytics.docx
Bài giảng khóa học Google Data Analytics.docx
Bài giảng khóa học Google Data Analytics.docx
Bài giảng khóa học Google Data Analytics.docx
Bài giảng khóa học Google Data Analytics.docx
Bài giảng khóa học Google Data Analytics.docx
Bài giảng khóa học Google Data Analytics.docx
Bài giảng khóa học Google Data Analytics.docx
Bài giảng khóa học Google Data Analytics.docx
Bài giảng khóa học Google Data Analytics.docx
Bài giảng khóa học Google Data Analytics.docx
Bài giảng khóa học Google Data Analytics.docx
Bài giảng khóa học Google Data Analytics.docx
Bài giảng khóa học Google Data Analytics.docx
Bài giảng khóa học Google Data Analytics.docx
Bài giảng khóa học Google Data Analytics.docx
Bài giảng khóa học Google Data Analytics.docx
Bài giảng khóa học Google Data Analytics.docx
Bài giảng khóa học Google Data Analytics.docx
Bài giảng khóa học Google Data Analytics.docx
Bài giảng khóa học Google Data Analytics.docx
Bài giảng khóa học Google Data Analytics.docx
Bài giảng khóa học Google Data Analytics.docx
Bài giảng khóa học Google Data Analytics.docx
Bài giảng khóa học Google Data Analytics.docx
Bài giảng khóa học Google Data Analytics.docx
Bài giảng khóa học Google Data Analytics.docx
Bài giảng khóa học Google Data Analytics.docx
Bài giảng khóa học Google Data Analytics.docx
Bài giảng khóa học Google Data Analytics.docx
Bài giảng khóa học Google Data Analytics.docx
Bài giảng khóa học Google Data Analytics.docx
Bài giảng khóa học Google Data Analytics.docx
Bài giảng khóa học Google Data Analytics.docx
Bài giảng khóa học Google Data Analytics.docx
Bài giảng khóa học Google Data Analytics.docx
Bài giảng khóa học Google Data Analytics.docx
Bài giảng khóa học Google Data Analytics.docx
Bài giảng khóa học Google Data Analytics.docx
Bài giảng khóa học Google Data Analytics.docx
Bài giảng khóa học Google Data Analytics.docx
Bài giảng khóa học Google Data Analytics.docx
Bài giảng khóa học Google Data Analytics.docx
Bài giảng khóa học Google Data Analytics.docx
Bài giảng khóa học Google Data Analytics.docx
Bài giảng khóa học Google Data Analytics.docx
Bài giảng khóa học Google Data Analytics.docx
Bài giảng khóa học Google Data Analytics.docx
Bài giảng khóa học Google Data Analytics.docx
Bài giảng khóa học Google Data Analytics.docx
Bài giảng khóa học Google Data Analytics.docx
Bài giảng khóa học Google Data Analytics.docx
Bài giảng khóa học Google Data Analytics.docx
Bài giảng khóa học Google Data Analytics.docx
Bài giảng khóa học Google Data Analytics.docx
Bài giảng khóa học Google Data Analytics.docx
Bài giảng khóa học Google Data Analytics.docx
Bài giảng khóa học Google Data Analytics.docx
Bài giảng khóa học Google Data Analytics.docx
Bài giảng khóa học Google Data Analytics.docx
Bài giảng khóa học Google Data Analytics.docx
Bài giảng khóa học Google Data Analytics.docx
Bài giảng khóa học Google Data Analytics.docx
Bài giảng khóa học Google Data Analytics.docx
Bài giảng khóa học Google Data Analytics.docx
Bài giảng khóa học Google Data Analytics.docx
Bài giảng khóa học Google Data Analytics.docx
Bài giảng khóa học Google Data Analytics.docx
Bài giảng khóa học Google Data Analytics.docx
Bài giảng khóa học Google Data Analytics.docx
Bài giảng khóa học Google Data Analytics.docx
Bài giảng khóa học Google Data Analytics.docx
Bài giảng khóa học Google Data Analytics.docx
Bài giảng khóa học Google Data Analytics.docx
Bài giảng khóa học Google Data Analytics.docx
Bài giảng khóa học Google Data Analytics.docx
Bài giảng khóa học Google Data Analytics.docx
Bài giảng khóa học Google Data Analytics.docx
Bài giảng khóa học Google Data Analytics.docx
Bài giảng khóa học Google Data Analytics.docx
Bài giảng khóa học Google Data Analytics.docx
Bài giảng khóa học Google Data Analytics.docx
Bài giảng khóa học Google Data Analytics.docx
Bài giảng khóa học Google Data Analytics.docx
Bài giảng khóa học Google Data Analytics.docx
Bài giảng khóa học Google Data Analytics.docx
Bài giảng khóa học Google Data Analytics.docx
Bài giảng khóa học Google Data Analytics.docx
Bài giảng khóa học Google Data Analytics.docx
Bài giảng khóa học Google Data Analytics.docx
Bài giảng khóa học Google Data Analytics.docx
Bài giảng khóa học Google Data Analytics.docx
Bài giảng khóa học Google Data Analytics.docx
Bài giảng khóa học Google Data Analytics.docx
Bài giảng khóa học Google Data Analytics.docx
Bài giảng khóa học Google Data Analytics.docx
Bài giảng khóa học Google Data Analytics.docx
Bài giảng khóa học Google Data Analytics.docx
Bài giảng khóa học Google Data Analytics.docx
Bài giảng khóa học Google Data Analytics.docx
Bài giảng khóa học Google Data Analytics.docx
Bài giảng khóa học Google Data Analytics.docx
Bài giảng khóa học Google Data Analytics.docx
Bài giảng khóa học Google Data Analytics.docx
Bài giảng khóa học Google Data Analytics.docx
Bài giảng khóa học Google Data Analytics.docx
Bài giảng khóa học Google Data Analytics.docx
Bài giảng khóa học Google Data Analytics.docx
Bài giảng khóa học Google Data Analytics.docx
Bài giảng khóa học Google Data Analytics.docx
Bài giảng khóa học Google Data Analytics.docx
Bài giảng khóa học Google Data Analytics.docx
Bài giảng khóa học Google Data Analytics.docx
Bài giảng khóa học Google Data Analytics.docx
Bài giảng khóa học Google Data Analytics.docx
Bài giảng khóa học Google Data Analytics.docx
Bài giảng khóa học Google Data Analytics.docx
Bài giảng khóa học Google Data Analytics.docx
Bài giảng khóa học Google Data Analytics.docx
Bài giảng khóa học Google Data Analytics.docx
Bài giảng khóa học Google Data Analytics.docx
Bài giảng khóa học Google Data Analytics.docx
Bài giảng khóa học Google Data Analytics.docx
Bài giảng khóa học Google Data Analytics.docx
Bài giảng khóa học Google Data Analytics.docx
Bài giảng khóa học Google Data Analytics.docx
Bài giảng khóa học Google Data Analytics.docx
Bài giảng khóa học Google Data Analytics.docx
Bài giảng khóa học Google Data Analytics.docx
Bài giảng khóa học Google Data Analytics.docx
Bài giảng khóa học Google Data Analytics.docx
Bài giảng khóa học Google Data Analytics.docx
Bài giảng khóa học Google Data Analytics.docx
Bài giảng khóa học Google Data Analytics.docx
Bài giảng khóa học Google Data Analytics.docx
Bài giảng khóa học Google Data Analytics.docx
Bài giảng khóa học Google Data Analytics.docx
Bài giảng khóa học Google Data Analytics.docx
Bài giảng khóa học Google Data Analytics.docx
Bài giảng khóa học Google Data Analytics.docx
Bài giảng khóa học Google Data Analytics.docx
Bài giảng khóa học Google Data Analytics.docx
Bài giảng khóa học Google Data Analytics.docx
Bài giảng khóa học Google Data Analytics.docx
Bài giảng khóa học Google Data Analytics.docx
Bài giảng khóa học Google Data Analytics.docx
Bài giảng khóa học Google Data Analytics.docx
Bài giảng khóa học Google Data Analytics.docx
Bài giảng khóa học Google Data Analytics.docx
Bài giảng khóa học Google Data Analytics.docx
Bài giảng khóa học Google Data Analytics.docx
Bài giảng khóa học Google Data Analytics.docx
Bài giảng khóa học Google Data Analytics.docx
Bài giảng khóa học Google Data Analytics.docx
Bài giảng khóa học Google Data Analytics.docx
Bài giảng khóa học Google Data Analytics.docx
Bài giảng khóa học Google Data Analytics.docx
Bài giảng khóa học Google Data Analytics.docx
Bài giảng khóa học Google Data Analytics.docx
Bài giảng khóa học Google Data Analytics.docx
Bài giảng khóa học Google Data Analytics.docx
Bài giảng khóa học Google Data Analytics.docx
Bài giảng khóa học Google Data Analytics.docx
Bài giảng khóa học Google Data Analytics.docx
Bài giảng khóa học Google Data Analytics.docx
Bài giảng khóa học Google Data Analytics.docx
Bài giảng khóa học Google Data Analytics.docx
Bài giảng khóa học Google Data Analytics.docx
Bài giảng khóa học Google Data Analytics.docx
Bài giảng khóa học Google Data Analytics.docx
Bài giảng khóa học Google Data Analytics.docx
Bài giảng khóa học Google Data Analytics.docx
Bài giảng khóa học Google Data Analytics.docx
Bài giảng khóa học Google Data Analytics.docx
Bài giảng khóa học Google Data Analytics.docx
Bài giảng khóa học Google Data Analytics.docx
Bài giảng khóa học Google Data Analytics.docx
Bài giảng khóa học Google Data Analytics.docx
Bài giảng khóa học Google Data Analytics.docx
Bài giảng khóa học Google Data Analytics.docx
Bài giảng khóa học Google Data Analytics.docx
Bài giảng khóa học Google Data Analytics.docx
Bài giảng khóa học Google Data Analytics.docx
Bài giảng khóa học Google Data Analytics.docx
Bài giảng khóa học Google Data Analytics.docx
Bài giảng khóa học Google Data Analytics.docx
Bài giảng khóa học Google Data Analytics.docx
Bài giảng khóa học Google Data Analytics.docx
Bài giảng khóa học Google Data Analytics.docx
Bài giảng khóa học Google Data Analytics.docx
Bài giảng khóa học Google Data Analytics.docx
Bài giảng khóa học Google Data Analytics.docx
Bài giảng khóa học Google Data Analytics.docx
Bài giảng khóa học Google Data Analytics.docx
Bài giảng khóa học Google Data Analytics.docx
Bài giảng khóa học Google Data Analytics.docx
Bài giảng khóa học Google Data Analytics.docx
Bài giảng khóa học Google Data Analytics.docx
Bài giảng khóa học Google Data Analytics.docx
Bài giảng khóa học Google Data Analytics.docx
Bài giảng khóa học Google Data Analytics.docx

More Related Content

DOC
BÀI MẪU khóa luận đấu giá tài sản, HAY
DOC
Hoạt động thanh toán quốc tế theo phương thức tín dụng chứng từ
DOC
Đề thi đầu vào ngân hàng. Tổng hợp các ngân hàng
DOC
Thái Độ Của Người Tiêu Dùng Giới Trẻ Đối Với Quảng Cáo Trên Internet.doc
DOCX
Tiểu luận Chiến lược cạnh tranh của công ty Amazon, HAY
DOCX
Báo Cáo Thực Tập Hoạt Động Cho Vay Tiêu Dùng Tại Ngân Hàng ACB.docx
PDF
Quản Trị Rủi Ro Tín Dụng Đối Với Khách Hàng Cá Nhân Tại Ngân Hàng TMCP Kỹ Thư...
DOC
đàM phán thương mại
BÀI MẪU khóa luận đấu giá tài sản, HAY
Hoạt động thanh toán quốc tế theo phương thức tín dụng chứng từ
Đề thi đầu vào ngân hàng. Tổng hợp các ngân hàng
Thái Độ Của Người Tiêu Dùng Giới Trẻ Đối Với Quảng Cáo Trên Internet.doc
Tiểu luận Chiến lược cạnh tranh của công ty Amazon, HAY
Báo Cáo Thực Tập Hoạt Động Cho Vay Tiêu Dùng Tại Ngân Hàng ACB.docx
Quản Trị Rủi Ro Tín Dụng Đối Với Khách Hàng Cá Nhân Tại Ngân Hàng TMCP Kỹ Thư...
đàM phán thương mại

What's hot (20)

DOCX
Phân tích quy trình thanh toán quốc tế bằng phương thức tín dụng chứng từ tại...
DOCX
Bài mẫu Tiểu luận về Ngân hàng thương mại 9 ĐIỂM
PDF
Trac nghiem kinh doanh ngoại hối
PPT
Fpt shop
DOCX
Trac nghiem môn Quản trị NHTM
PDF
Giáo trình Quản trị Ngân hàng Thương mại (download tai tailieutuoi.com).pdf
PDF
Dap an-mon-quan-tri-ngan-hang-thuong-mai
PDF
GIẢI PHÁP CẢI THIỆN MÔ HÌNH QUẢN TRỊ RỦI RO TÍN DỤNG TẬP TRUNG TẠI NGÂN HÀNG ...
DOCX
HỆ THỐNG TÀI KHOẢN KẾ TOÁN NGÂN HÀNG
DOC
Luận văn: Các yếu tố ảnh hưởng đến quyết định lựa chọn cửa hàng The Coffee Ho...
PDF
Quy trình cho vay và thẩm định tín dụng doanh nghiệp tại agribank chi nhánh b...
DOCX
Báo cáo Thực trạng hoạt động cho vay cá nhân Tại Vietcombank, HAY
DOC
Báo cáo thực tập tại ngân hàng công thương Việt Nam, HAY
DOC
Bài mẫu Khóa luận Phát triển dịch vụ ngân hàng điện tử, HAY
DOCX
Tìm hiểu về hoạt động marketing của ngân hàng TMCP Ngoại Thương Việt Nam Viet...
DOCX
Đề tài: Mở rộng cho vay khách hàng cá nhân tại ngân hàng BIDV
PDF
Luận văn: Phân tích rủi ro tín dụng tại ngân hàng thương mại cổ phần đại chún...
PDF
Mô hình Trại nuôi dế
PDF
Bài tập tình huống về LC
DOC
Báo cáo thực tập tại ngân hàng Vietcombank, HAY, 9 ĐIỂM
Phân tích quy trình thanh toán quốc tế bằng phương thức tín dụng chứng từ tại...
Bài mẫu Tiểu luận về Ngân hàng thương mại 9 ĐIỂM
Trac nghiem kinh doanh ngoại hối
Fpt shop
Trac nghiem môn Quản trị NHTM
Giáo trình Quản trị Ngân hàng Thương mại (download tai tailieutuoi.com).pdf
Dap an-mon-quan-tri-ngan-hang-thuong-mai
GIẢI PHÁP CẢI THIỆN MÔ HÌNH QUẢN TRỊ RỦI RO TÍN DỤNG TẬP TRUNG TẠI NGÂN HÀNG ...
HỆ THỐNG TÀI KHOẢN KẾ TOÁN NGÂN HÀNG
Luận văn: Các yếu tố ảnh hưởng đến quyết định lựa chọn cửa hàng The Coffee Ho...
Quy trình cho vay và thẩm định tín dụng doanh nghiệp tại agribank chi nhánh b...
Báo cáo Thực trạng hoạt động cho vay cá nhân Tại Vietcombank, HAY
Báo cáo thực tập tại ngân hàng công thương Việt Nam, HAY
Bài mẫu Khóa luận Phát triển dịch vụ ngân hàng điện tử, HAY
Tìm hiểu về hoạt động marketing của ngân hàng TMCP Ngoại Thương Việt Nam Viet...
Đề tài: Mở rộng cho vay khách hàng cá nhân tại ngân hàng BIDV
Luận văn: Phân tích rủi ro tín dụng tại ngân hàng thương mại cổ phần đại chún...
Mô hình Trại nuôi dế
Bài tập tình huống về LC
Báo cáo thực tập tại ngân hàng Vietcombank, HAY, 9 ĐIỂM
Ad

Similar to Bài giảng khóa học Google Data Analytics.docx (20)

PDF
Phan tich va thiet ke he thong tin
DOCX
đáNh giá sự hài lòng của khách hàng về dịch vụ khám bệnh tại khoa khám theo y...
PDF
Phân tích thiết kế hệ thống thông tin PTIT
PDF
Cafedev_tai_liu_sql_toan_tp_bai_tp_fu.pdf
DOC
La0261
PDF
Mot so khai niem va cau hoi ve cnpm nang cao
DOC
bao cao thuc tap nhan su cua trung tam Athena
PDF
0112045 0112295 12919775845
PDF
SRS Education Learning software FPT - Elearning
PDF
Huong dan sd_spss
PDF
Đề tài: Giải pháp hoàn thiện công tác chăm sóc khách hàng tập đoàn bưu chính,...
PDF
Tcvn iso 9001 2008 chinh thuc vn
PDF
Co sodulieu sql_dht_loi
DOCX
Tập bài giảng khoa học quản lý đại cương 2009
PDF
Tailieu.vncty.com giao-dien-nguoi-may-moi-29-9-2009
PDF
Đề tài tăng cường kiểm soát quy trình cho vay, ĐIỂM CAO, HAY
PDF
Đề tài tăng cường kiểm soát quy trình cho vay, ĐIỂM 8
DOC
Khoá luận Quản lý đầu tư công từ nguồn vốn ngân sách Nhà nước tại tỉnh Hà Nam
PDF
Lập trình sáng tạo creative computing textbook mastercode.vn
PDF
Creative computing textbook
Phan tich va thiet ke he thong tin
đáNh giá sự hài lòng của khách hàng về dịch vụ khám bệnh tại khoa khám theo y...
Phân tích thiết kế hệ thống thông tin PTIT
Cafedev_tai_liu_sql_toan_tp_bai_tp_fu.pdf
La0261
Mot so khai niem va cau hoi ve cnpm nang cao
bao cao thuc tap nhan su cua trung tam Athena
0112045 0112295 12919775845
SRS Education Learning software FPT - Elearning
Huong dan sd_spss
Đề tài: Giải pháp hoàn thiện công tác chăm sóc khách hàng tập đoàn bưu chính,...
Tcvn iso 9001 2008 chinh thuc vn
Co sodulieu sql_dht_loi
Tập bài giảng khoa học quản lý đại cương 2009
Tailieu.vncty.com giao-dien-nguoi-may-moi-29-9-2009
Đề tài tăng cường kiểm soát quy trình cho vay, ĐIỂM CAO, HAY
Đề tài tăng cường kiểm soát quy trình cho vay, ĐIỂM 8
Khoá luận Quản lý đầu tư công từ nguồn vốn ngân sách Nhà nước tại tỉnh Hà Nam
Lập trình sáng tạo creative computing textbook mastercode.vn
Creative computing textbook
Ad

Recently uploaded (7)

PPTX
CÁC HẠN CHẾ CỦA MÔ HÌNH AI NỀN CÁC HẠN CHẾ CỦA MÔ HÌNH AI NỀN
PPTX
chuong2TTHCMupdate14tdddddddđ7n2024.pptx
PPTX
PRESENTATION ABOUT DATA WAREHOUSE (1).pptx
PPTX
KỸ THUẬT GỢI Ý NÂNG CAO KỸ THUẬT GỢI Ý NÂNG CAO
PDF
BÁO CÁO THỰC TẬP CTY TNHH VIET NAM VICERA
PPT
Tham Khao bài giảng trí tuệ nhân tại.ppt
PPTX
PRESENTATION ABOUT MICROSOFT FABRIC.pptx
CÁC HẠN CHẾ CỦA MÔ HÌNH AI NỀN CÁC HẠN CHẾ CỦA MÔ HÌNH AI NỀN
chuong2TTHCMupdate14tdddddddđ7n2024.pptx
PRESENTATION ABOUT DATA WAREHOUSE (1).pptx
KỸ THUẬT GỢI Ý NÂNG CAO KỸ THUẬT GỢI Ý NÂNG CAO
BÁO CÁO THỰC TẬP CTY TNHH VIET NAM VICERA
Tham Khao bài giảng trí tuệ nhân tại.ppt
PRESENTATION ABOUT MICROSOFT FABRIC.pptx

Bài giảng khóa học Google Data Analytics.docx

  • 1. Mục lục HỌC PHẦN 1: FOUNDATIONS: DATA, DATA, EVERYWHERE..............................14 Tuần 1: Giới thiệu về Phân tích dữ liệu ................................................................................................... 14 Chương 1: Bắt đầu ................................................................................................................................. 14 Chào mừng đến với Chứng nhận nghề nghiệp Phân tích dữ liệu của Google......14 Giới thiệu về khóa học................................................................................................17 Chương 2: Chuyển đổi dữ liệu thành thông tin chi tiết ...................................................................... 19 Phân tích dữ liệu trong cuộc sống hàng ngày ..........................................................19 Cassie: Kích thước của phân tích dữ liệu.................................................................20 Chương 3: Hiểu về hệ sinh thái dữ liệu ................................................................................................ 23 Hệ sinh thái dữ liệu là gì?...........................................................................................23 Dữ liệu giúp đưa ra quyết định tốt hơn như thế nào?.............................................25 Chương 4: Kỳ vọng của chương trình và sử dụng hợp lý diễn đàn thảo luận.................................. 27 Những gì mong đợi để tiến lên phía trước?..............................................................27 Tuần 2: Tất cả về tư duy phân tích........................................................................................................... 28 Chương 1: Nắm bắt kỹ năng phân tích dữ liệu của bạn?.................................................................. 28 Khám phá bộ kỹ năng dữ liệu ...................................................................................28 Kỹ năng phân tích dữ liệu chính ...............................................................................28 Chương 2: Suy nghĩ về tư duy phân tích.............................................................................................. 32 Tất cả về tư duy phân tích .........................................................................................32 Chương 3: Nghĩ về kết quả.................................................................................................................... 33 Sử dụng dữ liệu để thúc đẩy kết quả thành công ....................................................33 Phép thuật dữ liệu trong thế giới thực......................................................................34 Tuần 3: Thế giới tuyệt vời của dữ liệu...................................................................................................... 37 Chương 1: Theo dõi vòng đời dữ liệu ................................................................................................... 37 Tìm hiểu về các giai đoạn và công cụ dữ liệu...........................................................37 Các giai đoạn của vòng đời dữ liệu ...........................................................................38 Chương 2: Phác thảo quá trình phân tích dữ liệu............................................................................... 40 Sáu giai đoạn phân tích dữ liệu .................................................................................40 Molly: Ví dụ về quy trình dữ liệu..............................................................................42 Chương 3: Hộp công cụ phân tích dữ liệu............................................................................................ 45 Khám phá các công cụ phân tích dữ liệu..................................................................45
  • 2. Tuần 4: Thiết lập hộp công cụ của bạn .................................................................................................... 48 Chương 1: Nắm vững kiến thức cơ bản về bảng tính ......................................................................... 48 Thông tin chi tiết về các công cụ dữ liệu cốt lõi .......................................................48 Cột và hàng và ô, ôi chao! ..........................................................................................49 Chương 2: Ngôn ngữ truy vấn có cấu trúc (SQL)............................................................................... 56 SQL trong hoạt động..................................................................................................56 Angie: Vật lộn mỗi ngày khi học những kỹ năng mới.............................................57 Chương 3: Trực quan hóa dữ liệu ........................................................................................................ 59 Becoming a data viz whiz...........................................................................................59 Tuần 5: Khả năng nghề nghiệp vô tận ..................................................................................................... 64 Chương 1: Cơ hội việc làm chuyên viên phân tích dữ liệu................................................................. 64 Hãy bắt tay vào công việc...........................................................................................64 Công việc của một nhà phân tích dữ liệu .................................................................65 Joey: Con đường trở thành nhà phân tích dữ liệu ..................................................66 Tony: Hỗ trợ sự nghiệp trong lĩnh vực phân tích dữ liệu.......................................67 Chương 2: Tầm quan trọng của các quyết định kinh doanh công bằng .............................................. 69 Sức mạnh của dữ liệu trong kinh doanh ..................................................................69 Rachel: Thám tử dữ liệu ............................................................................................70 Hiểu dữ liệu và sự công bằng.....................................................................................71 Alex: Quyết định dữ liệu công bằng và có đạo đức .................................................73 Chương 3: Tùy chọn: Khám phá công việc tiếp theo của bạn ........................................................... 75 Nhà phân tích dữ liệu trong các ngành khác nhau..................................................75 Chiến lược làm bài kiểm tra........................................................................................................................ 76 HỌC PHẦN 2: ĐẶT CÂU HỎI ĐỂ ĐƯA RA QUYẾT ĐỊNH DỰA TRÊN DỮ LIỆU.78 Tuần 1: Câu hỏi hiệu quả .......................................................................................................................... 78 Chương 1: Giải quyết vấn đề và đặt câu hỏi hiệu quả........................................................................ 78 Giới thiệu về giải quyết vấn đề và đặt câu hỏi hiệu quả .........................................78 Chương 2: Hành động với dữ liệu......................................................................................................... 80 Dữ liệu đang hoạt động ..............................................................................................80 Nikki: Quá trình xử lý dữ liệu hoạt động.................................................................81 Chương 3: Giải quyết vấn đề với dữ liệu.............................................................................................. 83 Các loại vấn đề phổ biến ............................................................................................83 Các vấn đề trong thực tế..............................................................................................85 Anmol: Từ giả thuyết đến kết quả...............................................................................87 Chương 4: Tạo câu hỏi hiệu quả........................................................................................................... 88
  • 3. SMART questions.......................................................................................................88 Evan: Dữ liệu mở ra cánh cửa...................................................................................91 Tuần 2: Quyết định dựa trên dữ liệu........................................................................................................ 93 Chương 1: Hiểu được sức mạnh của dữ liệu........................................................................................ 93 Dữ liệu và quyết định .................................................................................................93 Cách dữ liệu trao quyền quyết định..........................................................................94 Dữ liệu định tính và định lượng ................................................................................96 Chương 2: Theo dõi bằng chứng........................................................................................................... 98 Tiết lộ lớn: Chia sẻ những phát hiện của bạn ..........................................................98 Dữ liệu so với số liệu .................................................................................................103 Chương 4: Kết nối các điểm dữ liệu ................................................................................................... 105 Tư duy toán học ........................................................................................................105 Tuần 3: Thêm kiến thức cơ bản về bảng tính........................................................................................ 106 Chương 1: Làm việc với bảng tính ..................................................................................................... 107 Bảng tính tuyệt vời....................................................................................................107 Làm việc với bảng tính.............................................................................................108 Từng bước trong bảng tính......................................................................................109 Chương 2: Công thức trong bảng tính ............................................................................................... 113 Công thức để thành công .........................................................................................113 Lỗi bảng tính và cách khắc phục.............................................................................115 Chương 3: Hàm trong bảng tính......................................................................................................... 118 Chức năng 101...........................................................................................................118 Chương 4: Tiết kiệm thời gian với tư duy có cấu trúc...................................................................... 120 Trước khi giải quyết một vấn đề, hãy hiểu nó .......................................................120 Phạm vi công việc và tư duy có cấu trúc ................................................................120 Duy trì mục tiêu ........................................................................................................122 Tuần 4: Luôn ghi nhớ các bên liên quan................................................................................................ 125 Chương 1: Cân bằng nhu cầu của nhóm và các bên liên quan ........................................................ 125 Giao tiếp với nhóm của bạn.....................................................................................125 Cân bằng nhu cầu và mong đợi trong nhóm của bạn ...........................................125 Chương 2: Giao tiếp là chìa khóa ....................................................................................................... 128 Mẹo giao tiếp hiệu quả .............................................................................................128 Cân bằng giữa kỳ vọng và mục tiêu thực tế của dự án .........................................130 Sarah: Làm thế nào để giao tiếp với các bên liên quan ........................................132 Đánh đổi dữ liệu: Tốc độ so với độ chính xác ........................................................133
  • 4. Nghĩ về quá trình và kết quả của bạn.....................................................................134 Chương 3: Tinh thần đồng đội tuyệt vời............................................................................................ 136 Đáp ứng các phương pháp hay nhất.......................................................................136 Ximena: Tham gia một nhóm mới ..........................................................................138 Từ xung đột đến hợp tác ..........................................................................................139 Nathan: Từ Thủy quân lục chiến Hoa Kỳ đến phân tích dữ liệu.........................140 HỌC PHẦN 3: CHUẨN BỊ DỮ LIỆU ĐỂ KHÁM PHÁ................................................142 Tuần 1: Các kiểu và cấu trúc dữ liệu...................................................................................................... 142 Chương 1: Khám phá dữ liệu.............................................................................................................. 142 Giới thiệu về khám phá dữ liệu ...............................................................................142 Hallie: Những hiểu biết sâu sắc về dữ liệu .............................................................144 Chương 2: Thu thập dữ liệu................................................................................................................ 146 Thu thập dữ liệu trong thế giới của chúng ta.........................................................146 Xác định dữ liệu cần thu thập .................................................................................147 Chương 3: Phân biệt giữa các định dạng và cấu trúc dữ liệu .......................................................... 150 Khám phá các định dạng dữ liệu.............................................................................150 Hiểu dữ liệu có cấu trúc ...........................................................................................153 Chương 4: Khám phá các loại dữ liệu, trường và giá trị.................................................................. 155 Biết loại dữ liệu mà bạn đang làm việc...................................................................155 Thành phần bảng dữ liệu.........................................................................................157 Đáp ứng dữ liệu rộng và dài ....................................................................................158 Tuần 2: Xu hướng, độ tin cậy, quyền riêng tư, đạo đức và quyền truy cập........................................ 162 Chương 1: Dữ liệu khách quan và không thiên vị............................................................................. 162 Đảm bảo tính toàn vẹn của dữ liệu..........................................................................162 Thiên kiến: Từ câu hỏi đến kết luận.......................................................................163 Dữ liệu thiên vị và không thiên vị............................................................................164 Hiểu về sự thiên vị trong dữ liệu .............................................................................165 Chương 2: Khám phá độ tin cậy của dữ liệu ..................................................................................... 168 Xác định nguồn dữ liệu tốt.......................................................................................168 Dữ liệu "xấu" là gì?..................................................................................................169 Chương 3: Đạo đức dữ liệu và quyền riêng tư................................................................................... 172 Giới thiệu về đạo đức dữ liệu...................................................................................172 Giới thiệu về quyền riêng tư dữ liệu .......................................................................174 Andrew: Việc sử dụng dữ liệu có đạo đức..............................................................175 Chương 2: Hiểu dữ liệu mở................................................................................................................. 176
  • 5. Đặc điểm của dữ liệu mở..........................................................................................176 Andrew: Các bước sử dụng dữ liệu có đạo đức.....................................................177 Tuần 3: Cơ sở dữ liệu: Nơi dữ liệu tồn tại.............................................................................................. 179 Chương 1: Làm việc với cơ sở dữ liệu ................................................................................................ 179 Tất cả về cơ sở dữ liệu ..............................................................................................179 Tính năng cơ sở dữ liệu............................................................................................180 Quản lý dữ liệu với siêu dữ liệu...............................................................................183 Sử dụng siêu dữ liệu như một nhà phân tích .........................................................184 Quản lý siêu dữ liệu ..................................................................................................185 Megan: Vui với siêu dữ liệu .....................................................................................187 Chương 3: Truy cập các nguồn dữ liệu khác nhau ........................................................................... 189 Làm việc với nhiều nguồn dữ liệu hơn....................................................................189 Nhập dữ liệu từ bảng tính và cơ sở dữ liệu ............................................................190 Chương 4: Sắp xếp và lọc .................................................................................................................... 194 Sắp xếp và lọc............................................................................................................194 Chương 5: Làm việc với bộ dữ liệu lớn trong SQL........................................................................... 197 Thiết lập BigQuery, bao gồm sandbox và tùy chọn thanh toán...........................197 Cách sử dụng BigQuery ...........................................................................................199 BigQuery trong hành động ......................................................................................201 Tuần 4: Tổ chức và bảo vệ dữ liệu của bạn............................................................................................ 208 Chương 1: Tổ chức dữ liệu hiệu quả .................................................................................................. 208 Cảm thấy tự tin vào dữ liệu của bạn.......................................................................208 Hãy sắp xếp lại ..........................................................................................................208 Tất cả về đặt tên tập tin............................................................................................210 Chương 2: Bảo mật dữ liệu.................................................................................................................. 212 Các tính năng bảo mật trong bảng tính..................................................................212 Tuần 5: Tùy chọn: Tham gia vào cộng đồng dữ liệu............................................................................. 214 Chương 1: Tạo hoặc nâng cao sự hiện diện trực tuyến của bạn...................................................... 214 Quản lý sự hiện diện của bạn với tư cách là nhà phân tích dữ liệu.....................214 Tại sao sự hiện diện trực tuyến lại quan trọng ......................................................214 Mẹo để tăng cường sự hiện diện trực tuyến của bạn.............................................216 Chương 2: Xây dựng mạng lưới phân tích dữ liệu............................................................................ 218 Kiến thức về mạng....................................................................................................218 Lợi ích của cố vấn .....................................................................................................219 Rachel: Người cố vấn là chìa khóa..........................................................................220
  • 6. HỌC PHẦN 4: XỬ LÝ DỮ LIỆU TỪ BẨN SANG SẠCH.............................................221 Tuần 1: Tầm quan trọng của sự chính trực........................................................................................... 221 Chương 1: Tập trung vào sự chính trực............................................................................................. 221 Giới thiệu tập trung vào sự trung thực...................................................................221 Chương 2: Tính toàn vẹn của dữ liệu và mục tiêu phân tích ........................................................... 223 Tại sao tính toàn vẹn của dữ liệu lại quan trọng? .................................................223 Cân bằng các mục tiêu với tính toàn vẹn dữ liệu...................................................224 Chương 3: Vượt qua những thách thức của việc thiếu dữ liệu........................................................ 226 Xử lý dữ liệu không đầy đủ......................................................................................226 Tầm quan trọng của cỡ mẫu....................................................................................227 Chương 4: Kiểm tra dữ liệu của bạn.................................................................................................. 229 Sử dụng sức mạnh thống kê.....................................................................................229 Xác định kích thước mẫu tốt nhất...........................................................................230 Chương 5: Xem xét giới hạn sai số...................................................................................................... 233 Đánh giá độ tin cậy của dữ liệu ...............................................................................233 Chương 2: Làm sạch dữ liệu là điều bắt buộc ................................................................................... 235 Dọn dẹp nào! .............................................................................................................235 Tại sao làm sạch dữ liệu lại quan trọng..................................................................236 Nhận biết và khắc phục dữ liệu bẩn........................................................................238 Chương 2: Bắt đầu làm sạch dữ liệu................................................................................................... 240 Công cụ và kỹ thuật làm sạch dữ liệu.....................................................................240 Làm sạch dữ liệu từ nhiều nguồn............................................................................242 Chương 3: Làm sạch dữ liệu trong bảng tính.................................................................................... 244 Các tính năng làm sạch dữ liệu trong bảng tính....................................................244 Tối ưu hóa quy trình làm sạch dữ liệu....................................................................246 Các quan điểm dữ liệu khác nhau...........................................................................249 Chương 3: Sử dụng SQL để làm sạch dữ liệu.................................................................................... 250 Sử dụng SQL để làm sạch dữ liệu ...........................................................................250 Sally: Vì tình yêu SQL..............................................................................................250 Hiểu các khả năng của SQL.....................................................................................251 Bảng tính so với SQL................................................................................................252 Chương 2: Tìm hiểu các truy vấn SQL cơ bản.................................................................................. 255 Các truy vấn SQL được sử dụng rộng rãi..............................................................255 Evan: Vui vẻ với SQL...............................................................................................258 Làm sạch các biến chuỗi bằng SQL........................................................................259
  • 7. Chương 3: Chuyển đổi dữ liệu ............................................................................................................ 267 Các chức năng làm sạch dữ liệu nâng cao, phần 1 ................................................267 Các chức năng làm sạch dữ liệu nâng cao, phần 2 ................................................270 Tuần 4: Xác minh và báo cáo về kết quả làm sạch của bạn ................................................................. 274 Chương 1: Làm sạch dữ liệu thủ công................................................................................................. 274 Kiểm tra và báo cáo kết quả....................................................................................274 Dọn dẹp và kỳ vọng dữ liệu của bạn .......................................................................275 Bước cuối cùng trong quá trình làm sạch dữ liệu .................................................277 Chương 3: Ghi lại kết quả và quá trình làm sạch ............................................................................. 278 Ghi lại những thay đổi trong quá trình làm sạch ..................................................278 Tại sao tài liệu lại quan trọng..................................................................................280 Phản hồi và làm sạch ................................................................................................281 Tuần 5: Thêm dữ liệu vào sơ yếu lý lịch của bạn .................................................................................. 282 Chương 1: Quy trình tuyển dụng chuyên viên phân tích dữ liệu .................................................... 282 Giới thiệu về quy trình tuyển dụng chuyên viên phân tích dữ liệu .....................282 Quy trình xin việc của nhà phân tích dữ liệu.........................................................283 Tạo sơ yếu lý lịch.......................................................................................................285 Chương 2: Hiểu các yếu tố của sơ yếu lý lịch phân tích dữ liệu....................................................... 289 Làm cho sơ yếu lý lịch của bạn trở nên độc đáo....................................................289 Joseph: Người da đen và người Mỹ gốc Phi tham gia vào ngành công nghiệp dữ liệu ..............................................................................................................................290 Chương 3: Làm nổi bật kinh nghiệm trong sơ yếu lý lịch................................................................ 292 Kinh nghiệm làm việc trong quá khứ .....................................................................292 Kate: Con đường sự nghiệp của tôi với tư cách là một nhà phân tích dữ liệu ...294 Chương 4: Khám phá các lĩnh vực quan tâm.................................................................................... 296 Đâu là sở thích của bạn? ..........................................................................................296 HỌC PHẦN 5: PHÂN TÍCH DỮ LIỆU ĐỂ TRẢ LỜI CÂU HỎI ................................298 Tuần 1: Tổ chức dữ liệu để phân tích..................................................................................................... 298 Chương 1: Hãy tổ chức........................................................................................................................ 298 Giới thiệu về tổ chức.................................................................................................298 Chương 2: Phân tích dữ liệu cơ bản ................................................................................................... 300 Quy trình phân tích ..................................................................................................300 Ayanna: Gắn bó với nó.............................................................................................301 Chương 3: Tổ chức dữ liệu để phân tích............................................................................................ 303 Luôn luôn cần phải tổ chức......................................................................................303
  • 8. Tìm hiểu thêm về sắp xếp và lọc..............................................................................304 Chương 4: Sắp xếp dữ liệu trong bảng tính....................................................................................... 307 Sắp xếp tập dữ liệu ...................................................................................................307 Hàm SẮP XẾP ..........................................................................................................308 Emma: Hành trình đến với sự nghiệp ý nghĩa.......................................................310 Chương 5: Sắp xếp dữ liệu bằng SQL................................................................................................ 311 Sắp xếp truy vấn trong SQL....................................................................................311 Tuần 2: Định dạng và điều chỉnh dữ liệu............................................................................................... 315 Chương 1: Chuyển đổi và định dạng dữ liệu..................................................................................... 315 Bắt đầu với định dạng dữ liệu .................................................................................315 Từ loại này sang loại khác........................................................................................315 Xác nhận dữ liệu .......................................................................................................318 Định dạng có điều kiện.............................................................................................319 Chương 2: Kết hợp nhiều bộ dữ liệu .................................................................................................. 321 Hợp nhất và nhiều nguồn.........................................................................................321 Chuỗi trong bảng tính ..............................................................................................323 Chương 3: Nhận hỗ trợ trong quá trình phân tích ........................................................................... 325 Phải làm gì khi bạn gặp khó khăn...........................................................................325 Layla: Tất cả về giai đoạn phân tích.......................................................................326 Gặp thử thách? Đừng lo lắng! .................................................................................327 Khi nào sử dụng công cụ nào...................................................................................330 Tuần 3: Tổng hợp dữ liệu để phân tích.................................................................................................. 332 Chương 1: VLOOKUP để tổng hợp dữ liệu....................................................................................... 332 Tổng hợp dữ liệu để phân tích.................................................................................332 Chuẩn bị cho VLOOKUP ........................................................................................332 VLOOKUP đang hoạt động.....................................................................................332 Xác định các lỗi VLOOKUP phổ biến....................................................................332 Chương 2: Sử dụng JOINS để tổng hợp dữ liệu trong SQL ............................................................ 332 Hiểu về JOINS...........................................................................................................332 COUNT và COUNT DISTINCT.............................................................................332 Chương 3: Làm việc với các truy vấn con.......................................................................................... 332 Truy vấn trong truy vấn...........................................................................................333 Sử dụng truy vấn con để tổng hợp dữ liệu .............................................................333 Justin: Phân tích dữ liệu đưa bạn đến đâu.............................................................333 Tuần 4: Thực hiện tính toán dữ liệu....................................................................................................... 334 Chương 1: Bắt đầu tính toán dữ liệu.................................................................................................. 334
  • 9. Tính toán dữ liệu.......................................................................................................334 Các công thức tính phổ biến ....................................................................................335 Chức năng và điều kiện............................................................................................338 Chương 2: Pivot...pivot...pivot............................................................................................................. 340 Bắt đầu làm việc với các bảng tổng hợp .................................................................340 Tiếp tục bảng tổng hợp.............................................................................................342 Chương 3: Tìm hiểu thêm các phép tính SQL................................................................................... 345 Truy vấn và tính toán...............................................................................................345 Nhúng các phép tính đơn giản vào SQL.................................................................347 Tính toán với các câu lệnh khác..............................................................................350 Chương 4: Quy trình xác thực dữ liệu ............................................................................................... 352 Kiểm tra và kiểm tra lại...........................................................................................352 Chương 5: Sử dụng SQL với các bảng tạm thời................................................................................ 355 Bảng tạm thời............................................................................................................355 Nhiều biến thể bảng..................................................................................................357 HỌC PHẦN 6: CHIA SẺ DỮ LIỆU THÔNG QUA NGHỆ THUẬT TRỰC QUAN HÓA .....................................................................................................................................360 Tuần 1: Trực quan hóa dữ liệu ............................................................................................................... 360 Chương 1: Truyền đạt thông tin chi tiết về dữ liệu của bạn............................................................. 360 Giới thiệu về cách truyền đạt thông tin chi tiết về dữ liệu của bạn .....................360 Chương 2: Hiểu về trực quan hóa dữ liệu.......................................................................................... 362 Tại sao trực quan hóa dữ liệu lại quan trọng.........................................................362 Kết nối hình ảnh với dữ liệu ....................................................................................364 Một công thức cho một trực quan hóa mạnh mẽ...................................................370 Trực quan hóa động .................................................................................................374 Chương 3: Thiết kế trực quan hóa dữ liệu......................................................................................... 378 Các yếu tố của nghệ thuật........................................................................................378 Tác động trực quan hóa dữ liệu ..............................................................................382 Tư duy thiết kế và trực quan hóa............................................................................387 Chương 4: Khám phá những cân nhắc về trực quan hóa................................................................. 390 Tiêu đề, phụ đề và nhãn ...........................................................................................390 Hình ảnh trực quan có thể truy cập........................................................................392 Andrew: Làm cho dữ liệu có thể truy cập được ....................................................396 Tuần 2: Tạo trực quan hóa dữ liệu với Tableau.................................................................................... 398 Chương 1: Bắt đầu với Tableau.......................................................................................................... 398
  • 10. Trực quan hóa dữ liệu với Tableau.........................................................................398 Tableau Public và các công cụ trực tuyến khác.....................................................399 Gặp Tableau..............................................................................................................402 Tạo trực quan hóa dữ liệu trong Tableau ..............................................................406 Chương 3: Tùy chọn: Làm việc với nhiều nguồn dữ liệu ................................................................. 409 Liên kết dữ liệu trong Tableau................................................................................409 Tuần 3: Xây dựng kho dữ liệu chuyên nghiệp....................................................................................... 412 Chương 1: Sử dụng dữ liệu để phát triển câu chuyện....................................................................... 412 Tạo câu chuyện với Dữ liệu......................................................................................412 Chương 2: Sử dụng bảng điều khiển Tableau ................................................................................... 414 Khái niệm cơ bản về bảng điều khiển Tableau......................................................414 Chương 3: Câu chuyện chia sẻ dữ liệu ............................................................................................... 415 Mẹo thuyết trình hấp dẫn ........................................................................................415 Chia sẻ một câu chuyện............................................................................................416 Sundas: Làm thế nào để kiểm soát hội chứng kẻ mạo danh.................................418 Tuần 4: Phát triển bài thuyết trình và trình chiếu................................................................................ 420 Chương 1: Nghệ thuật và khoa học của một bài thuyết trình hiệu quả .......................................... 420 Kéo tất cả lại với nhau..............................................................................................420 Trình bày với khung.................................................................................................420 Dệt dữ liệu vào bài thuyết trình của bạn................................................................423 Brittany: Kỹ năng trình bày cho các nhà phân tích dữ liệu mới .........................427 Connor: Ví dụ lộn xộn về trình bày dữ liệu ...........................................................428 Connor: Ví dụ điển hình về trình bày dữ liệu........................................................432 Chương 2: Xác định các kỹ năng và thực hành thuyết trình ........................................................... 433 Mẹo thuyết trình đã được chứng minh...................................................................433 Trình bày như một người chuyên nghiệp...............................................................434 Chương 3: Hãy cẩn thận và hạn chế đối với dữ liệu ......................................................................... 437 Dự đoán câu hỏi ........................................................................................................437 Xử lý phản đối...........................................................................................................439 Chương 4: Lắng nghe, phản hồi và bao gồm ..................................................................................... 441 Thực tiễn tốt nhất về hỏi đáp...................................................................................441 Connor: Trở thành một chuyên gia biên dịch dữ liệu...........................................444 HỌC PHẦN 7: PHÂN TÍCH DỮ LIỆU VỚI LẬP TRÌNH R........................................446 Tuần 1: Lập trình và phân tích dữ liệu.................................................................................................. 446 Chương 1: Thế giới lập trình thú vị.................................................................................................... 446
  • 11. Giới thiệu về thế giới thú vị của lập trình...............................................................446 Vui cùng R.................................................................................................................448 Carrie: Bắt đầu với R...............................................................................................450 Chương 2: Lập trình như một nhà phân tích dữ liệu ....................................................................... 452 Ngôn ngữ lập trình....................................................................................................452 Giới thiệu về R ..........................................................................................................453 Chương 3: Học lập trình bằng RStudio ............................................................................................. 456 Giới thiệu Rstudio.....................................................................................................456 Tuần 2: Lập trình sử dụng Rstudio........................................................................................................ 459 Chương 1: Hiểu các khái niệm lập trình cơ bản................................................................................ 459 Lập trình sử dụng Rstudio.......................................................................................459 Nguyên tắc cơ bản về lập trình................................................................................460 Chương 2: Khám phá cách viết mã trong R ...................................................................................... 463 Toán tử và tính toán .................................................................................................463 Chương 3: Tìm hiểu về các gói R........................................................................................................ 467 Những món quà không ngừng đưa ra.....................................................................467 Chào mừng đến với tidyverse ..................................................................................468 Chương 4: Khám phá tidyverse .......................................................................................................... 472 Thông tin thêm về tidyverse.....................................................................................472 Làm việc với các đường ống (pipes)........................................................................473 Connor: Mẹo viết mã................................................................................................480 Tuần 3: Làm việc với dữ liệu trong R.................................................................................................... 483 Chương 1: Khám phá dữ liệu và R..................................................................................................... 483 Dữ liệu trong R..........................................................................................................483 Khung dữ liệu R........................................................................................................484 Làm việc với khung dữ liệu......................................................................................485 Chương 2: Làm sạch dữ liệu ............................................................................................................... 487 Làm sạch với những điều cơ bản.............................................................................487 Sắp xếp dữ liệu của bạn............................................................................................489 Chuyển đổi dữ liệu....................................................................................................493 Chương 3: Xem xét kỹ hơn dữ liệu..................................................................................................... 498 Dữ liệu giống nhau, kết quả khác nhau..................................................................498 Hàm thiên vị ..............................................................................................................500 Tuần 4: Tìm hiểu thêm về trực quan hóa, thẩm mỹ và chú thích........................................................ 503 Chương 1: Tạo trực quan hóa dữ liệu trong R.................................................................................. 503
  • 12. Trực quan hóa trong R.............................................................................................503 Khái niệm cơ bản về trực quan hóa trong R và tidyverse ....................................504 Getting started with ggplot()....................................................................................509 Joseph: Con đường sự nghiệp đến phân tích con người.......................................512 Chương 2: Khám phá thẩm mỹ trong phân tích............................................................................... 514 Tăng cường trực quan hóa trong R ........................................................................514 Làm nhiều hơn với ggplot........................................................................................518 Thẩm mỹ và các khía cạnh ......................................................................................526 Chương 3: Chú thích và lưu trực quan hóa....................................................................................... 534 Lớp chú thích ............................................................................................................534 Lưu trực quan hóa của bạn .....................................................................................536 Tuần 5: Tài liệu và báo cáo...................................................................................................................... 538 Chương 1: Phát triển tài liệu và báo cáo trong Rstudio ................................................................... 538 Tài liệu và báo cáo ....................................................................................................538 Tổng quan về R Markdown.....................................................................................539 Sử dụng R Markdown trong Rstudio .....................................................................540 Chương 2: Tạo tài liệu R Markdown ................................................................................................. 542 Sử dụng R Markdown trong Rstudio .....................................................................542 Meg: Lập trình là nâng cao sức mạnh....................................................................544 Thậm chí nhiều yếu tố tài liệu hơn..........................................................................545 Chương 3: Hiểu các đoạn mã và xuất................................................................................................. 547 Đoạn mã.....................................................................................................................547 Xuất tài liệu ...............................................................................................................549 HỌC PHẦN 8: GOOGLE DATA ANALYTICS CAPSTONE: HOÀN THÀNH MỘT NGHIÊN CỨU ĐIỂN HÌNH..............................................................................................551 Tuần 1: Tìm hiểu về capstone cơ bản..................................................................................................... 551 Chương 1: Giới thiệu về capstone....................................................................................................... 551 Giới thiệu dự án capstone ........................................................................................551 Chương 2: Các trường hợp mẫu cho các nhà phân tích dữ liệu...................................................... 555 Best-in-class........................................................................................................................................... 555 Tuần 2: Tùy chọn: Xây dựng portfolio của bạn.................................................................................... 562 Chương 1: Bắt đầu ............................................................................................................................... 562 Bắt đầu với case study của bạn................................................................................562 Chương 2: Case study 1: Làm việc với các câu hỏi và bộ dữ liệu hiện có...........564 Chương 3: Case study 2: Chọn câu hỏi và bộ dữ liệu của riêng bạn...................564
  • 13. Chương 3: Chia sẻ case study và portfolio của bạn...............................................565 Chia sẻ danh mục đầu tư của bạn...........................................................................565 Tuần 3: Tùy chọn: Sử dụng portfolio của bạn....................................................................................... 567 Chương 1: Chia sẻ công việc của bạn với nhà tuyển dụng ............................................................... 567 Thảo luận về portfolio của bạn................................................................................567 Chương 2: Trong cuộc phỏng vấn...........................................................................569 Video kịch bản: Giới thiệu.......................................................................................569 Video tình huống: Nghiên cứu điển hình................................................................571 Video tình huống: Giải quyết vấn đề ......................................................................573
  • 14. Học phần 1: Foundations: Data, data, everywhere Tuần 1: Giới thiệu về Phân tích dữ liệu Dữ liệu giúp chúng ta đưa ra quyết định trong cuộc sống hàng ngày và trong kinh doanh. Trong phần đầu tiên này của khóa học, bạn sẽ tìm hiểu cách các nhà phân tích dữ liệu sử dụng phân tích dữ liệu và các công cụ giao dịch (their trade) của họ để đưa ra các quyết định đó. Bạn cũng sẽ khám phá thêm về khóa học này và những kỳ vọng tổng thể của chương trình. Mục tiêu học tập  Xác định các khái niệm chính liên quan đến phân tích dữ liệu bao gồm dữ liệu, phân tích dữ liệu và hệ sinh thái dữ liệu  Thảo luận về việc sử dụng dữ liệu trong các quyết định cuộc sống hàng ngày  Xác định các tính năng chính của môi trường học tập và công dụng của chúng  Mô tả các nguyên tắc và thực hành sẽ giúp tăng cơ hội thành công của một người trong chứng chỉ này  Giải thích việc sử dụng dữ liệu trong việc ra quyết định của tổ chức  Mô tả các khái niệm chính sẽ được thảo luận trong chương trình, bao gồm kết quả học tập Chương 1: Bắt đầu Chào mừng đến với Chứng nhận nghề nghiệp Phân tích dữ liệu của Google Các công ty trong lĩnh vực thương mại điện tử, giải trí, chăm sóc sức khỏe, sản xuất, tiếp thị, tài chính, công nghệ và hàng trăm ngành khác đều có điểm chung là gì? Chắc bạn cũng đoán ra rồi, tất cả họ đều sử dụng dữ liệu. Các tổ chức thuộc mọi loại hình cần các nhà phân tích dữ liệu để giúp họ cải thiện quy trình, xác định cơ hội và xu hướng, ra mắt sản phẩm mới, cung cấp dịch vụ khách hàng tuyệt vời và đưa ra quyết định chu đáo. Xin chào, tôi là Tony, người quản lý chương trình tại Google và cũng là nhà phân tích dữ liệu. Tôi muốn chào mừng bạn đến với Chứng chỉ Google Data Analytics. Bây giờ, có rất nhiều lý do tuyệt vời để kiếm được chứng chỉ này. Có thể bạn đang nghĩ đến việc bắt đầu sự nghiệp trong thế giới thú vị của phân tích dữ liệu hoặc có thể bạn chỉ bị mê hoặc bởi sức mạnh của dữ liệu như tôi. Bất kể điều gì đã đưa bạn đến đây, bạn đang ở đúng nơi để bắt đầu sự nghiệp và học các kỹ năng liên quan đến ngành về phân tích dữ liệu. Nhưng trước tiên, dữ liệu chính xác là gì? Data is a collection of facts (Dữ liệu là một tập hợp các dữ kiện). Bộ sưu tập này có thể bao gồm các con số, hình ảnh, video, từ ngữ, phép đo, quan sát, v.v.
  • 15. Sau khi bạn có dữ liệu, phân tích sẽ đưa dữ liệu đó vào hoạt động thông qua phân tích. Data analysis is the collection, transformation, and organization of data in order to draw conclusion, make predictions, and drive informed decision – making (Phân tích dữ liệu là quá trình thu thập, biến đổi và tổ chức dữ liệu để rút ra kết luận, đưa ra các dự đoán và thúc đẩy việc ra quyết định sáng suốt). Và nó không dừng lại ở đó. Dữ liệu phát triển theo thời gian, điều đó có nghĩa là phân tích (analysis) hoặc phân tích (analytics) này, như cách chúng tôi gọi, có thể cung cấp cho chúng tôi thông tin mới trong toàn bộ vòng đời của dữ liệu. Dữ liệu ở khắp mọi nơi. Bạn sử dụng và tạo dữ liệu hàng ngày. Bạn đã bao giờ đọc các nhận xét về một sản phẩm trước khi quyết định có mua nó hay không? Đó là phân tích dữ liệu. Hoặc có thể bạn đeo thiết bị theo dõi sức khỏe để đếm số bước chân để có thể duy trì hoạt động suốt cả ngày. Đó là phân tích dữ liệu. Nhưng bạn không chỉ sử dụng dữ liệu. Bạn cũng tạo ra một lượng lớn nó mỗi ngày. Bất cứ khi nào bạn sử dụng điện thoại của mình, tìm kiếm thứ gì đó trực tuyến, phát nhạc trực tuyến, mua sắm bằng thẻ tín dụng, đăng lên phương tiện truyền thông xã hội hoặc sử dụng GPS để lập bản đồ tuyến đường, bạn đang tạo dữ liệu. Thế giới kỹ thuật số của chúng ta và hàng triệu thiết bị thông minh bên trong nó đã làm cho lượng dữ liệu có sẵn thực sự đáng kinh ngạc. Tại Google, chúng tôi xử lý hơn 40.000 lượt tìm kiếm mỗi giây. Đó là 3,5 tỷ lượt tìm kiếm mỗi ngày và 1,2 nghìn tỷ lượt tìm kiếm mỗi năm. Đây là một cách khác để suy nghĩ về nó. YouTube có gần hai tỷ người dùng. Nếu người dùng YouTube tạo thành một quốc gia, quốc gia đó sẽ là quốc gia lớn nhất thế giới. Tất cả dữ liệu đó đang biến đổi thế giới xung quanh chúng ta. Ấn phẩm The Economist gần đây đã gọi dữ liệu là nguồn tài nguyên quý giá nhất thế giới. Thật dễ hiểu tại sao các nhà phân tích dữ liệu lại được các tổ chức của họ đánh giá cao như vậy. Chính xác thì một nhà phân tích dữ liệu làm gì? Nói một cách đơn giản, Data analyst is someone who collects, transforms, and organizes data in order to help make informed decisions (Nhà phân tích dữ liệu là người thu thập, biến đổi và sắp xếp dữ liệu để thúc đẩy việc ra quyết định sáng suốt). Bên cạnh bản thân vai trò, một trong những phần thú vị nhất khi trở thành nhà phân tích dữ liệu là số lượng cơ hội có sẵn. Nhu cầu đối với các nhà phân tích dữ liệu lớn hơn số lượng người đủ điều kiện để lấp đầy các cơ hội việc làm này. Chương trình chứng chỉ này là bước đầu tiên tuyệt vời trong hành trình tìm kiếm công việc bạn yêu thích. Các nhà phân tích dữ liệu đến từ nhiều nền tảng khác nhau và có đủ loại kinh nghiệm sống. Bạn không cần hàng chục năm kinh nghiệm làm việc hoặc học vấn đắt đỏ để bắt đầu. Nhiều nhà phân tích dữ liệu đã tự dạy mình những kỹ năng cần thiết để có được công việc đầu tiên, giống như bạn đang làm bây giờ. Bây giờ chúng ta hãy nói nhiều hơn về những gì bạn sẽ học. Chứng chỉ Google Data Analytics được chia thành các khóa học dựa trên các quy trình phân tích dữ liệu khác nhau. Đó là hỏi, chuẩn bị, xử lý, phân tích, chia sẻ và hành động. Lên kế hoạch xem các video này
  • 16. theo thứ tự. Mỗi chủ đề bao gồm một chủ đề mới và mỗi chủ đề được xây dựng dựa trên những gì bạn đã học trước đây, giúp bạn dễ dàng theo dõi tiến trình của mình. Bạn đang ngồi ở ghế lái. Mặc dù bạn có thể thấy mọi thứ được sắp xếp theo tuần, nhưng mọi thứ có thể được hoàn thành theo tốc độ của riêng bạn. Vì vậy, bạn quyết định bạn muốn làm bao nhiêu mỗi ngày. Khi kết thúc chương trình, bạn sẽ sử dụng mọi thứ đã học và biến nó thành một dự án mà bạn có thể sử dụng để thể hiện các kỹ năng của mình và khiến các nhà tuyển dụng phải thán phục trong các cuộc phỏng vấn xin việc của bạn. Bây giờ, bạn cũng sẽ nghe được ý kiến từ nhân viên của Google (Googlers). Đó là cách chúng tôi gọi những người làm việc tại Google. Họ sẽ cung cấp cho bạn Insights về cảm giác làm việc trong ngành của chúng tôi và chia sẻ những câu chuyện cá nhân về cách họ tham gia vào lĩnh vực này. Họ cũng sẽ cung cấp cho bạn một số lời khuyên tuyệt vời về cách đạt được công việc mơ ước của bạn. Giữ nguyên. Một số người trong số họ sẽ giới thiệu bản thân chỉ trong giây lát. Tôi sẽ là người hướng dẫn của bạn cho khóa học đầu tiên. Tôi sẽ đưa bạn qua từng mô- đun bao gồm một chủ đề cụ thể theo một số cách khác nhau. Bạn sẽ có video, tài liệu đọc, câu đố, hoạt động thực hành và gợi ý thảo luận để bạn trò chuyện với các sinh viên khác trong một diễn đàn trực tuyến. Tôi thực sự vui mừng được hướng dẫn bạn trong suốt khóa học này, nhưng tôi đặc biệt vui mừng vì bạn đã chọn cuộc phiêu lưu này. Học tập suốt đời là điều mà tôi rất đam mê. Khi lớn lên, khi nhìn xung quanh, tôi thường không thấy có nhiều lựa chọn cho mình. Mãi cho đến khi tôi bắt đầu nghiêm túc với việc học hành của mình, tôi mới nhận ra rằng mình có quyền kiểm soát để tạo ra cơ hội cho riêng mình với giáo dục là chìa khóa mở ra những cánh cửa đó. Tôi càng học hỏi nhiều và càng làm việc chăm chỉ thì càng có nhiều khả năng mở ra. Nếu tôi không theo đuổi kiến thức đó và tiếp tục thử thách bản thân, có lẽ tôi đã không được như ngày hôm nay. Việc học cho phép tôi phát triển cá nhân, thành công, đến thăm những nơi mà tôi chưa từng thấy và gặp gỡ những người mà tôi chưa từng biết. Được rồi, bạn có hào hứng với tiềm năng trở thành nhà phân tích dữ liệu không? Rất nhiều là có thể với dữ liệu. Bạn sắp bước vào một thế giới hoàn toàn mới. Sẳn sàng chưa? Đi nào. Ask Prepare Process Analyze Share Act
  • 17. Giới thiệu về khóa học “Data! Data! Data!... I can’t make bricks without clay’’. ("Dữ liệu! Dữ liệu! Dữ liệu! Tôi không thể làm gạch mà không có đất sét.") Có đoán được ai đã nói điều này không? Tôi sẽ cho bạn một gợi ý. Đó không phải là một CEO công nghệ nổi tiếng hay một nhà phân tích dữ liệu. Người nói điều này đã sống rất lâu trước khi các công ty công nghệ tồn tại. Nhưng tôi cá là bạn vẫn nghe nói về anh ấy. Dòng này được nói bởi Sherlock Holmes, thám tử nổi tiếng được tạo ra bởi Sir Arthur Conan Doyle. Ý của Doyle là Holmes không thể đưa ra bất kỳ kết luận nào, đó sẽ là những viên gạch mà anh ta đề cập mà không có dữ liệu, hay là đất sét. Bạn có thể không ở đây để trở thành một thám tử nổi tiếng thế giới, nhưng dữ liệu vẫn là khối xây dựng mà bạn sẽ sử dụng cho mọi thứ bạn làm trong sự nghiệp phân tích dữ liệu mới của mình, Sherlock Holmes sẽ đồng ý. Khi bắt đầu chương trình này, bạn đã chứng tỏ rằng bạn và Sherlock Holmes có điểm chung, cả hai đều có hứng thú tìm hiểu thêm. Đó là một trong những phẩm chất quan trọng nhất mà các nhà phân tích dữ liệu có thể có. Hiện tại, có rất nhiều cách khác nhau để khám phá dữ liệu, nhưng một trong những điều tuyệt vời về phân tích dữ liệu là bạn có thể thường xuyên tìm hiểu cách bạn muốn, vào thời điểm bạn muốn. Điều đó có thể có nghĩa là bạn tự nghiên cứu, nói chuyện với những người trong ngành hoặc tham gia các khóa học trực tuyến. Như đã nói, chào mừng bạn đến với khóa học đầu tiên của bạn. Đây là phần giới thiệu của bạn về thế giới phân tích dữ liệu tuyệt vời. Vì phân tích dữ liệu là khoa học về dữ liệu nên bạn sẽ sử dụng khóa học này để bắt đầu tìm hiểu tất cả về dữ liệu. Data analytics is The science of data. (Phân tích dữ liệu là khoa học về dữ liệu). Data is A collection of facts. (Dữ liệu là một tập hợp các dữ kiện). Dữ liệu về cơ bản là tập hợp các dữ kiện hoặc thông tin và thông qua phân tích, bạn sẽ học cách sử dụng dữ liệu để đưa ra kết luận, đưa ra dự đoán và quyết định. Cá nhân tôi đã không nhảy ngay vào lĩnh vực phân tích dữ liệu. Tôi nghĩ phân tích dữ liệu là dành cho các kỹ sư máy tính. Thay vào đó, tôi bắt đầu với ước mơ làm việc trong lĩnh vực tài chính. Tuy nhiên, khi tôi đã trải qua một kỳ thực tập, tôi nhận ra rằng đó không phải là con đường sự nghiệp mà tôi muốn đi. Tôi bắt đầu tìm hiểu về lập kế hoạch và phân tích tài chính, và tất cả công việc của các nhà phân tích tài chính đều làm với dữ liệu. Tôi nhận ra rằng các nhà phân tích tài chính thực sự chỉ là những nhà phân tích dữ liệu làm việc trong bộ phận tài chính. Những nhà phân tích này đã giúp hướng dẫn các quyết định kinh doanh bằng cách biết cách sử dụng dữ liệu. Đó là lúc tôi nhận ra sức mạnh của dữ liệu và tôi bắt đầu nắm lấy nó. Chẳng mấy chốc, tôi nhận ra rằng mình có thể tự mình phân tích dữ liệu này. Phân tích dữ liệu là một thế giới cơ hội rộng mở. Có rất nhiều lĩnh vực mà kỹ năng phân tích của bạn có thể được áp dụng và theo mọi cách khác nhau.
  • 18. Nếu bạn là người mới trong thế giới này, bạn sẽ học cách xác định con đường và ngành nào có thể phù hợp với kỹ năng và sở thích của bạn nhất. Đối với những bạn đã có một số kinh nghiệm, chúng tôi sẽ giúp bạn mở ra những cơ hội mới và thú vị. Một trong những kỹ năng bạn sẽ đạt được từ chương trình là cách tuân theo các phương pháp hay nhất mà các nhà phân tích sử dụng để giúp đưa ra quyết định dựa trên dữ liệu. Máy tính là một phần của quy trình, nhưng các nhà phân tích dựa vào nhiều hơn thế để đưa ra quyết định. Computer + Your brain+ Your skills+ Your traits= Job Success Tôi biết bạn đã biết cách đưa ra quyết định đúng đắn, sau cùng thì bạn đã chọn ở đây. Trong khóa học đầu tiên này, bạn sẽ tìm hiểu thêm về từng giai đoạn của quy trình phân tích dữ liệu. Hỏi, chuẩn bị, xử lý, phân tích, chia sẻ và hành động. Là nhà phân tích dữ liệu, bạn sẽ trải qua các bước này khi sử dụng dữ liệu để đưa ra quyết định của mình. Cuối cùng, bạn sẽ thấy bản thân chương trình này hoạt động như thế nào, phiên bản riêng của quá trình này. Mặc dù tôi biết bạn sẽ thích xem những video này, nhưng chuyến đi đến khóa học đầu tiên của bạn sẽ bao gồm nhiều điều hơn thế nữa. Các video khác sẽ ở dạng quảng cáo chi tiết, nơi bạn sẽ học hỏi từ các chuyên gia phân tích dữ liệu, những người đã thành danh trong sự nghiệp của họ. Họ sẽ đưa ra những lời khôn ngoan cũng như những câu chuyện về kinh nghiệm của chính họ khi bắt đầu trên con đường sự nghiệp. Bạn sẽ bắt đầu nhật ký dữ liệu của riêng mình, nhật ký này sẽ giúp bạn theo dõi những gì bạn đã học được trong suốt khóa học. Bạn cũng sẽ thêm những suy nghĩ của riêng mình về những gì bạn đang học trong suốt chương trình. Bạn sẽ đọc về cách điều hướng chương trình này trong thế giới phân tích dữ liệu. Bạn sẽ hoàn thành các hoạt động, bao gồm một số hoạt động sẽ giúp bạn có tư duy của một nhà phân tích dữ liệu. Trên đường đi, bạn cũng sẽ có cơ hội kết nối với những người bạn học của mình. Gợi ý thảo luận sẽ cho bạn cơ hội chia sẻ suy nghĩ của mình, đồng thời xem đồng nghiệp nghĩ gì về tất cả những gì bạn đang học. Những lời nhắc này sẽ giúp bạn xây dựng một hệ thống hỗ trợ cộng đồng để sử dụng trong suốt chương trình. Nói đủ rồi, chúng ta hãy bắt đầu trên con đường thú vị này. Bước tiếp theo của bạn đang chờ đợi. Program features:  Video vignettes  Data journal  Readings  Activities Finance Healthcare Communitcations Government Consumer products And lots more
  • 19. Chương 2: Chuyển đổi dữ liệu thành thông tin chi tiết Phân tích dữ liệu trong cuộc sống hàng ngày Chào mừng trở lại. Tại thời điểm này, bạn đã được giới thiệu về thế giới phân tích dữ liệu và công việc của các nhà phân tích dữ liệu. Bạn cũng đã học cách khóa học này sẽ chuẩn bị cho bạn một sự nghiệp thành công với tư cách là một nhà phân tích. Sắp tới, bạn sẽ tìm hiểu tất cả các cách dữ liệu có thể được sử dụng và bạn sẽ khám phá lý do tại sao các nhà phân tích dữ liệu lại có nhu cầu cao như vậy. Tôi không phóng đại khi nói rằng mọi mục tiêu và thành công mà tôi và nhóm của tôi đã đạt được đều không thể thực hiện được nếu không có dữ liệu. Tại Google, tất cả các sản phẩm của chúng tôi đều được xây dựng dựa trên dữ liệu và quá trình ra quyết định dựa trên dữ liệu. Từ ý tưởng đến phát triển đến ra mắt, chúng tôi đang sử dụng dữ liệu để tìm ra hướng đi tốt nhất. Và chúng tôi không đơn độc. Vô số tổ chức khác cũng nhìn thấy giá trị đáng kinh ngạc của dữ liệu và tất nhiên, các nhà phân tích dữ liệu giúp họ tận dụng nó. Vì vậy, chúng tôi biết dữ liệu mở ra rất nhiều cơ hội. Nhưng để giúp bạn tìm hiểu về tất cả các cách bạn thực sự có thể sử dụng dữ liệu, hãy xem qua một vài ví dụ từ cuộc sống hàng ngày. Bạn có thể không nhận ra, nhưng mọi người luôn phân tích dữ liệu. Ví dụ, tôi là một người buổi sáng. Cách đây rất lâu, tôi nhận ra rằng mình sẽ hạnh phúc hơn và làm việc hiệu quả hơn nếu đi ngủ sớm và dậy sớm. Tôi đi đến kết luận này sau khi nhận thấy một khuôn mẫu trong trải nghiệm hàng ngày của mình. Khi tôi ngủ đủ bảy tiếng và thức dậy lúc 6:30, tôi là người thành công nhất. Vì vậy, tôi nghĩ về mối quan hệ giữa mô hình này và cuộc sống hàng ngày của mình, và tôi dự đoán rằng ngủ sớm dậy sớm sẽ là lựa chọn đúng đắn cho tôi. Và tôi chắc chắn là người tốt nhất của tôi( my best self) khi tôi thức dậy sớm và sáng. Tôi cá là bạn cũng đã xác định được các khuôn mẫu và các mối quan hệ trong cuộc sống của mình. Có thể là về chu kỳ giấc ngủ của chính bạn hoặc cảm giác của bạn sau khi ăn một số loại thực phẩm nhất định hoặc thời gian bạn muốn tập thể dục trong ngày. Tất cả những điều này là những ví dụ tuyệt vời về các kiểu mẫu và mối quan hệ trong cuộc sống thực mà bạn có thể sử dụng để đưa ra dự đoán về những hành động phù hợp cần thực hiện và đó là một phần quan trọng của phân tích dữ liệu ngay tại đó. Bây giờ, hãy đưa quy trình này vào môi trường kinh doanh. Bạn có thể nhớ từ một video trước đó rằng có rất nhiều dữ liệu ở đó. Và mỗi phút mỗi giờ mỗi ngày, nhiều dữ liệu hơn đang được tạo ra. Các doanh nghiệp cần một cách để kiểm soát tất cả dữ liệu đó để họ có thể sử dụng dữ liệu đó nhằm cải thiện quy trình, xác định cơ hội và xu hướng, ra mắt sản phẩm mới, phục vụ khách hàng và đưa ra quyết định sáng suốt. Đó là lý do tại sao các công ty này
  • 20. thuê các nhà phân tích dữ liệu để kiểm soát làn sóng dữ liệu họ thu thập hàng ngày, hiểu ý nghĩa của nó và sau đó đưa ra kết luận hoặc đưa ra dự đoán. Đây là quá trình biến dữ liệu thành thông tin chi tiết (insights) và là cách các nhà phân tích giúp các doanh nghiệp sử dụng tốt tất cả dữ liệu của họ. Đây thực sự là một cách tốt để suy nghĩ về phân tích: biến dữ liệu thành thông tin chi tiết. Xin nhắc lại, định nghĩa chi tiết hơn mà bạn đã học trước đó là phân tích dữ liệu là việc thu thập, chuyển đổi và tổ chức dữ liệu để đưa ra kết luận, đưa ra dự đoán và thúc đẩy quá trình ra quyết định sáng suốt. Vì vậy, sau khi các nhà phân tích đã tạo ra những hiểu biết sâu sắc từ dữ liệu, điều gì sẽ xảy ra? Vâng, rất nhiều. Những hiểu biết sâu sắc đó được chia sẻ với những người khác, các quyết định được đưa ra và các doanh nghiệp hành động. Và đây là nơi nó có thể trở nên thực sự thú vị. Phân tích dữ liệu có thể giúp các tổ chức suy nghĩ lại hoàn toàn về những gì họ làm hoặc hướng họ theo một hướng hoàn toàn mới. Ví dụ: có thể dữ liệu dẫn họ đến một sản phẩm mới hoặc dịch vụ độc đáo hoặc có thể dữ liệu giúp họ tìm ra cách mới để mang lại trải nghiệm tuyệt vời cho khách hàng. Chính những khoảnh khắc tuyệt vời này có thể giúp doanh nghiệp đạt đến một cấp độ khác và điều đó khiến các nhà phân tích dữ liệu trở nên quan trọng đối với bất kỳ doanh nghiệp nào. Giờ đây, bạn đã biết thêm về những cách tuyệt vời mà dữ liệu đang được sử dụng hàng ngày, bạn có thể hiểu tại sao các nhà phân tích dữ liệu lại có nhu cầu cao như vậy. Chúng tôi sẽ tiếp tục khám phá cách các nhà phân tích có thể chuyển đổi dữ liệu thành thông tin chi tiết dẫn đến hành động. Và trước khi bạn biết điều đó, bạn sẽ sẵn sàng giúp bất kỳ tổ chức nào tìm ra những cách mới và thú vị để chuyển đổi dữ liệu của họ. Cassie: Kích thước của phân tích dữ liệu Chào. Tôi là Cassie và tôi lãnh đạo Quyết định Thông minh cho Google Cloud. Quyết định thông minh là sự kết hợp của khoa học dữ liệu ứng dụng và khoa học xã hội và quản lý. Đó là tất cả về việc khai thác sức mạnh và vẻ đẹp của dữ liệu. Tôi giúp Google Cloud và khách hàng của Google biến dữ liệu của họ thành tác động và làm cho doanh nghiệp của họ cũng như thế giới trở nên tốt đẹp hơn. Một nhà phân tích dữ liệu là một nhà thám hiểm, một thám tử và một nghệ sĩ, tất cả đều hòa làm một. Phân tích là tìm kiếm nguồn cảm hứng. Bạn không biết điều gì sẽ truyền cảm hứng cho bạn trước khi bạn khám phá, trước khi bạn nhìn xung quanh. Khi bạn bắt đầu, bạn không biết mình sẽ tìm thấy gì và thậm chí liệu bạn có tìm thấy gì không. Bạn phải dũng cảm đi sâu vào những điều chưa biết và khám phá những gì nằm trong dữ liệu của mình. Có một huyền thoại phổ biến rằng ai đó làm việc trong lĩnh vực dữ liệu nên biết mọi thứ về dữ liệu. Tôi nghĩ rằng điều đó không hữu ích vì vũ trụ dữ liệu đã mở rộng. Nó được mở rộng đến
  • 21. mức chuyên môn hóa trở nên quan trọng. Rất, rất khó để một người biết và là tất cả của dữ liệu. Đó là lý do tại sao chúng ta cần những vai trò khác nhau này. Lời khuyên mà tôi dành cho những người sắp bước vào không gian là hãy chọn chuyên môn của họ dựa trên hương vị nào, loại tác động nào phù hợp nhất với tính cách của họ. Giờ đây, khoa học dữ liệu, nguyên tắc làm cho dữ liệu trở nên hữu ích, là một thuật ngữ chung bao gồm ba nguyên tắc: học máy( Machine Learning) , thống kê (statistics) và phân tích (Analytics). Chúng được phân tách bằng số lượng quyết định mà bạn biết bạn muốn đưa ra trước khi bắt đầu với chúng. Nếu bạn muốn đưa ra một số quyết định quan trọng trong điều kiện không chắc chắn, đó là số liệu thống kê. Nói cách khác, nếu bạn muốn tự động hóa, hãy đưa ra rất, rất nhiều quyết định trong điều kiện không chắc chắn, đó là máy học và AI. Nhưng nếu bạn không biết mình muốn đưa ra bao nhiêu quyết định trước khi bắt đầu thì sao? Nếu những gì bạn đang tìm kiếm là nguồn cảm hứng thì sao? Bạn muốn chạm trán với những ẩn số chưa biết của mình. Bạn muốn hiểu thế giới của bạn. Đó là phân tích. Khi bạn đang cân nhắc về khoa học dữ liệu và chọn lĩnh vực chuyên sâu, tôi khuyên bạn nên đi theo tính cách của mình. Bạn cảm thấy cái nào trong số ba điểm xuất sắc trong khoa học dữ liệu phù hợp hơn với bạn? Sự xuất sắc của số liệu thống kê là sự chặt chẽ. Các nhà thống kê thực chất là những nhà triết học, nhà nhận thức luận. Họ rất, rất cẩn thận trong việc bảo vệ những người ra quyết định khỏi những kết luận sai lầm. Nếu sự quan tâm và nghiêm ngặt đó là điều bạn đam mê, thì tôi khuyên bạn nên sử dụng số liệu thống kê. Hiệu suất là sự xuất sắc của kỹ sư máy học và AI. Bạn biết đó là giải pháp dành cho bạn nếu ai đó nói với bạn: "Tôi cá là bạn không thể xây dựng một hệ thống tự động hóa thực hiện nhiệm vụ này với độ chính xác 99,99999%" và câu trả lời của bạn là: "Hãy quan sát tôi". Làm thế nào về phân tích? Sự xuất sắc của một nhà phân tích là tốc độ. Bạn có thể lướt qua lượng dữ liệu khổng lồ nhanh như thế nào để khám phá nó và khám phá những viên ngọc quý, những hiểu biết sâu sắc tiềm ẩn đáng để biết và mang đến cho những người ra quyết định của bạn? Bạn có bị kích thích bởi sự mơ hồ của khám phá không? Bạn có hào hứng với ý tưởng làm việc trên nhiều thứ khác nhau, xem xét nhiều nguồn dữ liệu khác nhau và suy nghĩ về lượng thông tin khổng lồ, đồng thời hứa sẽ không bỏ qua những hiểu biết quan trọng tiềm năng không? Bạn có ổn không khi được nói: "Đây là cả đống dữ liệu. Chưa có ai xem xét nó trước đây. Hãy đi tìm thứ gì đó thú vị"? Bạn có phát triển mạnh về các dự án sáng tạo, kết thúc mở không? Nếu đó là bạn, thì phân tích có lẽ phù hợp nhất với bạn. Một lời khuyên mà tôi dành cho các nhà phân tích khi bắt đầu cuộc hành trình này là việc khám phá những điều chưa biết có thể khá đáng sợ. Nhưng tôi khuyên bạn nên từ bỏ một
  • 22. chút cám dỗ về chủ nghĩa hoàn hảo và thay vào đó, hãy tận hưởng niềm vui, cảm giác hồi hộp khi khám phá. Đừng lo lắng về câu trả lời đúng. Xem bạn có thể mở món quà này nhanh như thế nào và tìm hiểu xem có điều gì thú vị trong đó không. Nó giống như sinh nhật của bạn, mở ra một loạt các thứ. Một số trong số họ bạn thích. Một số trong số họ bạn sẽ không. Nhưng thật thú vị khi biết những gì thực sự ở đó?
  • 23. Chương 3: Hiểu về hệ sinh thái dữ liệu Hệ sinh thái dữ liệu là gì? Xin chào lần nữa. Bạn đã tìm hiểu về việc trở thành nhà phân tích dữ liệu và cách chương trình này sẽ giúp bạn chuẩn bị cho sự nghiệp tương lai. Bây giờ, đã đến lúc khám phá hệ sinh thái dữ liệu, tìm ra nơi phân tích dữ liệu phù hợp với hệ thống đó và xem xét một số quan niệm sai lầm phổ biến mà bạn có thể gặp phải trong lĩnh vực phân tích dữ liệu. Nói một cách đơn giản, một hệ sinh thái là một nhóm các yếu tố tương tác với nhau. Các hệ sinh thái có thể rộng lớn, chẳng hạn như rừng rậm trong rừng mưa nhiệt đới hoặc vùng hẻo lánh của Úc. Hoặc, nhỏ xíu, như nòng nọc trong vũng nước, hoặc vi khuẩn trên da của bạn. Và giống như chuột túi và gấu koala ở vùng hẻo lánh của Úc, dữ liệu cũng tồn tại trong hệ sinh thái của chính nó. Data ecosystems is The various elements that interact with one another in order to produce, manage, store, organize, analyze, and share data. (Hệ sinh thái dữ liệu được tạo thành từ nhiều yếu tố khác nhau tương tác với nhau để sản xuất, quản lý, lưu trữ, sắp xếp, phân tích và chia sẻ dữ liệu). Những yếu tố này bao gồm các công cụ phần cứng và phần mềm và những người sử dụng chúng. Những người như bạn. Dữ liệu cũng có thể được tìm thấy trong một thứ gọi là đám mây. Cloud is A place to keep data online, rather than a computer hard drive. (Đám mây là nơi lưu giữ dữ liệu trực tuyến, thay vì trên ổ cứng máy tính). Vì vậy, thay vì lưu trữ dữ liệu ở đâu đó bên trong mạng của tổ chức bạn, dữ liệu đó được truy cập qua internet. Vì vậy, đám mây chỉ là một thuật ngữ chúng tôi sử dụng để mô tả vị trí ảo. Đám mây đóng một vai trò quan trọng trong hệ sinh thái dữ liệu và với tư cách là nhà phân tích dữ liệu, nhiệm vụ của bạn là khai thác sức mạnh của hệ sinh thái dữ liệu đó, tìm thông tin phù hợp và cung cấp cho nhóm phân tích giúp họ đưa ra quyết định thông minh. Ví dụ: bạn có thể truy cập vào cơ sở dữ liệu của cửa hàng bán lẻ, đây là một hệ sinh thái chứa đầy tên, địa chỉ, giao dịch mua trước đó và đánh giá của khách hàng. Với tư cách là nhà phân tích dữ liệu, bạn có thể sử dụng thông tin này để dự đoán những gì những khách hàng này sẽ mua trong tương lai và đảm bảo cửa hàng có sản phẩm và hàng dự trữ khi họ cần. Một ví dụ khác, hãy nghĩ về một hệ sinh thái dữ liệu được sử dụng bởi bộ phận nhân sự. Hệ sinh thái này sẽ bao gồm các thông tin như bài đăng từ các trang web việc làm, số liệu thống kê về thị trường lao động hiện tại, tỷ lệ việc làm và dữ liệu truyền thông xã hội về nhân viên tiềm năng. Một nhà phân tích dữ liệu có thể sử dụng thông tin này để giúp nhóm của họ tuyển dụng nhân viên mới và cải thiện tỷ lệ gắn kết và giữ chân nhân viên.
  • 24. Nhưng hệ sinh thái dữ liệu không chỉ dành cho các cửa hàng và văn phòng. Họ cũng làm việc trong các trang trại. Các công ty nông nghiệp thường xuyên sử dụng hệ sinh thái dữ liệu bao gồm thông tin bao gồm các mô hình địa chất trong các chuyển động thời tiết. Các nhà phân tích dữ liệu có thể sử dụng dữ liệu này để giúp nông dân dự đoán năng suất cây trồng. Một số nhà phân tích dữ liệu thậm chí đang sử dụng hệ sinh thái dữ liệu để cứu hệ sinh thái môi trường thực. Tại Viện Hải dương học Scripps, các rạn san hô trên khắp thế giới được theo dõi kỹ thuật số, vì vậy họ có thể thấy các sinh vật thay đổi theo thời gian như thế nào, theo dõi sự phát triển của chúng và đo lường bất kỳ sự gia tăng hoặc suy giảm nào trong các thuộc địa riêng lẻ. Các khả năng là vô tận. Được rồi, bây giờ hãy nói về một số quan niệm sai lầm phổ biến mà bạn có thể gặp phải. Đầu tiên là sự khác biệt giữa nhà khoa học dữ liệu và nhà phân tích dữ liệu. Thật dễ dàng để nhầm lẫn giữa hai, nhưng những gì họ làm thực sự rất khác nhau. Data science is Creating new ways of modeling and understanding the unknown by using raw data (Khoa học dữ liệu là Một lĩnh vực nghiên cứu sử dụng dữ liệu thô để tạo ra những cách mới để mô hình hóa những điều chưa biết). Khoa học dữ liệu được định nghĩa là tạo ra những cách mới để mô hình hóa và hiểu những điều chưa biết bằng cách sử dụng dữ liệu thô. Đây là một cách tốt để suy nghĩ về nó. Các nhà khoa học dữ liệu tạo ra các câu hỏi mới bằng cách sử dụng dữ liệu, trong khi các nhà phân tích tìm câu trả lời cho các câu hỏi hiện có bằng cách tạo thông tin chi tiết từ các nguồn dữ liệu. Ngoài ra còn có nhiều từ và cụm từ bạn sẽ nghe thấy trong suốt khóa học này, rất dễ bị lẫn lộn. Ví dụ: phân tích dữ liệu và phân tích dữ liệu nghe có vẻ giống nhau, nhưng chúng thực sự rất khác nhau. Data analysis is The collection, transformation, and organization of data in order to draw conclusions, make predictions, and drive informed decision-making (Phân tích dữ liệu là Quá trình thu thập, biến đổi, tổ chức dữ liệu để rút ra kết luận, đưa ra dự đoán và thúc đẩy việc đưa ra quyết định sáng suốt). Data analytics is The science of data (Lĩnh vực phân tích dữ liệu là Khoa học về dữ liệu). Đó là một khái niệm rất rộng bao gồm mọi thứ, từ công việc quản lý và sử dụng dữ liệu đến các công cụ và phương pháp mà nhân viên dữ liệu sử dụng hàng ngày. Vì vậy, khi bạn nghĩ về dữ liệu, phân tích dữ liệu và hệ sinh thái dữ liệu, điều quan trọng là phải hiểu rằng tất cả những thứ này đều phù hợp với ô phân tích dữ liệu. Được rồi, giờ bạn đã biết thêm một chút về hệ sinh thái dữ liệu và sự khác biệt giữa lĩnh vực phân tích dữ liệu (data analytics) và phân tích dữ liệu (data analysis), bạn đã sẵn sàng khám phá cách sử dụng dữ liệu để đưa ra các quyết định hiệu quả. Bạn sẽ thấy quá trình ra quyết định dựa trên dữ liệu trong thực tế.
  • 25. Dữ liệu giúp đưa ra quyết định tốt hơn như thế nào? Cho đến nay, bạn đã phát hiện ra rằng có nhiều cách khác nhau để sử dụng dữ liệu. Trong cuộc sống hàng ngày, chúng ta sử dụng dữ liệu khi đeo thiết bị theo dõi thể dục hoặc đọc các bài đánh giá sản phẩm để đưa ra quyết định mua hàng. Và trong kinh doanh, chúng tôi sử dụng dữ liệu để tìm hiểu thêm về khách hàng của mình, cải thiện quy trình và giúp nhân viên thực hiện công việc của họ hiệu quả hơn. Nhưng đây chỉ là phần nổi của tảng băng chìm. Một trong những cách hiệu quả nhất mà bạn có thể đưa dữ liệu vào hoạt động là ra quyết định dựa trên dữ liệu. Data-driven decision-making is Using facts to guide business strategy (Ra quyết định dựa trên dữ liệu là Sử dụng dữ kiện để định hướng chiến lược kinh doanh). Ra quyết định dựa trên dữ liệu được định nghĩa là sử dụng dữ kiện để định hướng chiến lược kinh doanh. Các tổ chức trong nhiều ngành khác nhau luôn được các nhà phân tích dữ liệu trao quyền để đưa ra các quyết định tốt hơn, dựa trên dữ liệu. Bước đầu tiên trong quá trình ra quyết định dựa trên dữ liệu là tìm ra nhu cầu kinh doanh. Thông thường, đây là một vấn đề cần được giải quyết. Ví dụ, một vấn đề có thể là một công ty mới cần thiết lập sự công nhận thương hiệu tốt hơn để có thể cạnh tranh với các đối thủ lớn hơn, nổi tiếng hơn. Hoặc có thể một tổ chức muốn cải thiện sản phẩm và cần tìm ra cách tìm nguồn cung ứng các bộ phận từ một nhà cung cấp bền vững hơn hoặc có trách nhiệm về mặt đạo đức. Hoặc, đó có thể là một doanh nghiệp đang cố gắng giải quyết vấn đề nhân viên không hài lòng, mức độ gắn bó, hài lòng và giữ chân nhân viên thấp. Bất kể vấn đề là gì, sau khi được xác định, nhà phân tích dữ liệu sẽ tìm dữ liệu, phân tích và sử dụng dữ liệu đó để khám phá các xu hướng, mô hình và mối quan hệ. Đôi khi, chiến lược dựa trên dữ liệu sẽ được xây dựng dựa trên những gì đã hoạt động trong quá khứ. Những lần khác, nó có thể hướng dẫn một doanh nghiệp phát triển theo một hướng hoàn toàn mới. Hãy xem xét một ví dụ thực tế. Hãy nghĩ về một dịch vụ truyền phát nhạc hoặc phim. Làm thế nào để các công ty này biết những gì mọi người muốn xem hoặc nghe, và làm thế nào để họ cung cấp nó? Bằng cách sử dụng tốt quá trình ra quyết định dựa trên dữ liệu, họ thu thập thông tin về nội dung mà khách hàng của họ hiện đang nghe, phân tích nội dung đó, sau đó sử dụng thông tin chi tiết mà họ có được để đưa ra đề xuất về những nội dung mà mọi người có thể sẽ thích trong tương lai. Điều này giúp khách hàng hài lòng và quay trở lại nhiều hơn, đồng nghĩa với việc mang lại nhiều doanh thu hơn cho công ty. Một ví dụ khác về việc ra quyết định dựa trên dữ liệu có thể được nhìn thấy trong sự phát triển của thương mại điện tử. Cách đây không lâu, hầu hết các giao dịch mua được thực hiện tại một cửa hàng thực, nhưng dữ liệu cho thấy sở thích của mọi người đang thay đổi. Vì vậy, rất nhiều công ty đã tạo ra các mô hình kinh doanh hoàn toàn mới loại bỏ cửa hàng thực tế và cho phép mọi người mua sắm ngay từ máy tính hoặc điện thoại di động của họ với các sản phẩm được giao ngay trước cửa nhà họ.
  • 26. Trên thực tế, việc ra quyết định dựa trên dữ liệu có thể rất mạnh mẽ, nó có thể khiến toàn bộ phương pháp kinh doanh trở nên lỗi thời. Ví dụ, dữ liệu đã giúp các công ty loại bỏ hoàn toàn điện thoại có dây và thay thế chúng bằng điện thoại di động. Bằng cách đảm bảo rằng dữ liệu được tích hợp vào mọi chiến lược kinh doanh, các nhà phân tích dữ liệu đóng vai trò quan trọng đối với thành công của công ty họ, nhưng điều quan trọng cần lưu ý là cho dù việc ra quyết định dựa trên dữ liệu có giá trị đến đâu, thì chỉ riêng dữ liệu sẽ không bao giờ mạnh bằng dữ liệu kết hợp với kinh nghiệm, sự quan sát và đôi khi cả trực giác của con người. Để tận dụng tối đa quá trình ra quyết định dựa trên dữ liệu, điều quan trọng là phải bao gồm thông tin chi tiết từ những người quen thuộc với vấn đề kinh doanh. Những người này được gọi là chuyên gia về chủ đề và họ có khả năng xem xét kết quả phân tích dữ liệu và xác định mọi điểm không nhất quán, hiểu được các vùng màu xám và cuối cùng xác thực các lựa chọn được đưa ra. Các tổ chức hoạt động theo cách này đặt dữ liệu vào trọng tâm của mọi chiến lược kinh doanh, nhưng cũng được hưởng lợi từ thông tin chuyên sâu của nhân viên. Đó là một kết quả đôi bên cùng có lợi và tốt cho tất cả. Với tư cách là nhà phân tích dữ liệu, bạn đóng vai trò chính trong việc trao quyền cho các tổ chức này đưa ra quyết định dựa trên dữ liệu, đó là lý do tại sao việc hiểu dữ liệu đóng vai trò như thế nào trong quá trình ra quyết định lại quan trọng đến vậy. Gut instinct: trực giác
  • 27. Chương 4: Kỳ vọng của chương trình và sử dụng hợp lý diễn đàn thảo luận Những gì mong đợi để tiến lên phía trước? Chúng tôi đã đảm bảo rất nhiều. Tôi chắc rằng bạn có rất nhiều điều để suy nghĩ về rồi. Đó là một điều tốt. Điều đó có nghĩa là bạn đã bắt đầu thu thập dữ liệu và bạn đang thực hiện phân tích cá nhân của riêng mình. Tất cả là như thế đấy. Bạn đã xây dựng một cơ sở tuyệt vời rồi. Khi khóa học này tiếp tục, kiến thức và kỹ năng phân tích dữ liệu của bạn sẽ tiếp tục phát triển. Khi bạn đã thiết lập được nền tảng vững chắc, bạn sẽ áp dụng những gì đã học được vào phần còn lại của chương trình. Quá trình phân tích dữ liệu sẽ giúp cung cấp một khuôn khổ cho mọi thứ bạn làm. Chẳng bao lâu nữa, bạn sẽ thực hiện bài đánh giá được xếp loại đầu tiên của mình. Đó là một cách tuyệt vời để kiểm tra sự hiểu biết của bạn về các khái niệm và xây dựng sự tự tin vào kiến thức của bạn. Mọi người đều học ở tốc độ khác nhau. Vì vậy, không cần phải vội vàng. Làm quen với các khái niệm. Ngay khi bạn cảm thấy sẵn sàng, bạn có thể tiếp tục và bắt đầu. Hãy nhớ rằng, nếu tại bất kỳ thời điểm nào, bạn không chắc chắn về một câu hỏi, bạn luôn có thể xem lại các video và bài đọc để nhắc nhở bản thân về câu trả lời. Tất cả chúng ta đều nói về các bài kiểm tra sách mở ở đây. Khi bạn đã vượt qua, bạn sẽ sẵn sàng để tiếp tục. Bạn đã có cái này. Trước khi bạn biết điều đó, bạn sẽ hoàn thành tất cả các khóa học và bạn sẽ sẵn sàng tạo nghiên cứu điển hình của riêng mình. Sau đó, nếu đó là điều bạn muốn làm, bạn sẽ bắt đầu quá trình tìm kiếm việc làm của mình, được trang bị các công cụ và kỹ năng sẽ khiến bất kỳ công ty nào bạn nói chuyện phải thán phục. Tôi nóng lòng muốn biết bạn sẽ đi đến đâu với phân tích dữ liệu. Tuy nhiên, bây giờ, hãy tự khen ngợi bản thân vì đã hoàn thành tốt công việc. Hẹn sớm gặp lại.
  • 28. Tuần 2: Tất cả về tư duy phân tích Các nhà phân tích dữ liệu cân bằng nhiều vai trò khác nhau trong công việc của họ. Trong phần này của khóa học, bạn sẽ tìm hiểu về một số vai trò này và các kỹ năng chính mà các nhà phân tích sử dụng. Bạn cũng sẽ khám phá tư duy phân tích và cách nó liên quan đến việc ra quyết định dựa trên dữ liệu. Mục tiêu học tập:  Giải thích khái niệm ra quyết định dựa trên dữ liệu bao gồm các ví dụ cụ thể.  Mô tả các đặc điểm chính của tư duy phân tích.  Tự đánh giá tư duy phân tích, nêu ví dụ cụ thể về ứng dụng của tư duy phân tích.  Thể hiện sự hiểu biết về năm kỹ năng phân tích chính được sử dụng bởi các nhà phân tích dữ liệu.  Giải thích cách tư duy phân tích cho phép ra quyết định.  Bắt đầu hỏi những câu hỏi hiệu quả hơn. Chương 1: Nắm bắt kỹ năng phân tích dữ liệu của bạn? Khám phá bộ kỹ năng dữ liệu Chào mừng. Bây giờ bạn đã có nền tảng vững chắc về kiến thức cơ bản của dữ liệu, đã đến lúc tập trung vào một số kỹ năng và đặc điểm cụ thể sẽ là chìa khóa cho sự nghiệp tương lai của bạn với tư cách là nhà phân tích dữ liệu. Chúng ta sẽ bắt đầu với năm kỹ năng chính, chuyển sang các đặc điểm của tư duy phân tích và sau đó tìm hiểu cách các nhà phân tích dữ liệu cân bằng giữa vai trò và trách nhiệm của họ. Đồng thời, bạn cũng sẽ khám phá cách khai thác khả năng tự nhiên của mình về chiến lược, chuyên môn kỹ thuật và thiết kế dữ liệu. Đây là những kỹ năng vô cùng hữu ích cần có và bạn sẽ học cách làm cho chúng trở nên mạnh mẽ hơn nữa. Cuối cùng, bạn sẽ được giới thiệu một số ví dụ thực tế hấp dẫn về cách dữ liệu ảnh hưởng đến cuộc sống của mọi người trên khắp thế giới. Được rồi. Bắt đầu nào. Kỹ năng phân tích dữ liệu chính Trước đó, tôi đã nói với bạn rằng bạn đã có kỹ năng phân tích. Bạn có thể chưa biết nó. Khi học những điều mới, đôi khi mọi người bỏ qua các kỹ năng của chính họ, nhưng điều quan trọng là bạn dành thời gian để nhận ra chúng, đặc biệt vì những kỹ năng này sẽ giúp ích cho bạn với tư cách là một nhà phân tích dữ liệu. Trên thực tế, có lẽ bạn đã chuẩn bị nhiều
  • 29. hơn bạn nghĩ. Không tin tôi? Vâng, hãy để tôi chứng minh điều đó. Hãy bắt đầu bằng cách xác định những gì tôi đang nói ở đây. Analytical skills is Qualities and characteristics associated with solving problems using facts (Kỹ năng phân tích là Khả năng sử dụng các dữ kiện để giải bài toán cho trước). Kỹ năng phân tích là những phẩm chất và đặc điểm liên quan đến việc giải quyết vấn đề bằng cách sử dụng dữ kiện. Có rất nhiều khía cạnh đối với kỹ năng phân tích, tuy nhiên, chúng tôi sẽ tập trung vào năm điểm thiết yếu. Bây giờ, bạn có thể nghĩ, "Tôi không có những loại kỹ năng này" hoặc "Tôi chỉ có một vài trong số đó." Nhưng hãy ở lại với tôi, và tôi cá là bạn sẽ thay đổi quyết định. Hãy bắt đầu với sự tò mò. Tò mò là tất cả về việc muốn tìm hiểu một cái gì đó. Những người tò mò thường tìm kiếm những thử thách và trải nghiệm mới. Điều này dẫn đến kiến thức. Việc bạn đang ở đây với tôi lúc này chứng tỏ rằng bạn có tính tò mò. Đó là một điều dễ dàng. Bây giờ hãy nghĩ về việc hiểu ngữ cảnh. Context is The condition in which something exists or happens. (Ngữ cảnh là điền kiện trong một cái gì đó tồn tại hoặc xảy ra). Đây có thể là một cấu trúc hoặc một môi trường. Một cách đơn giản để hiểu ngữ cảnh là đếm đến 5. Một, hai, ba, bốn, năm. Tất cả những con số đó tồn tại trong ngữ cảnh từ một đến năm. Nhưng nếu một người bạn của bạn nói với bạn, một, hai, bốn, năm, ba thì sao? Vâng, ba sẽ được ra khỏi ngữ cảnh. Đơn giản, phải không? Nhưng nó có thể là một chút khó khăn. Có một cơ hội tốt mà bạn thậm chí có thể không nhận thấy cả ba nằm ngoài ngữ cảnh nếu bạn không chú ý kỹ. Đó là lý do tại sao việc lắng nghe và cố gắng hiểu bức tranh toàn cảnh là rất quan trọng. Trong cuộc sống của riêng bạn, bạn luôn đặt mọi thứ vào bối cảnh. Ví dụ, hãy nghĩ về danh sách thực phẩm của bạn. Nếu bạn nhóm các mặt hàng như bột mì, đường và men lại với nhau, thì bạn đang thêm bối cảnh vào cửa curiosity (sự tò mò) understanding context (hiểu bối cảnh) having technical mindset (có tư duy kĩ thuật) data design (thiết kế dữ liệu) data strategy (chiến lược dữ liệu)
  • 30. hàng tạp hóa của mình. Điều này giúp bạn tiết kiệm thời gian khi bạn đang ở lối đi nướng bánh tại cửa hàng tạp hóa. Hãy xem xét một ví dụ khác. Bạn đã bao giờ xáo trộn một cỗ bài và chú ý đến quân hề chưa? Nếu bạn đang chơi một trò chơi không bao gồm những người pha trò, việc xác định lá bài đó có nghĩa là bạn hiểu nó nằm ngoài ngữ cảnh. Xóa nó đi và bạn sẽ có nhiều khả năng chơi một trò chơi thành công hơn. Bây giờ chúng tôi biết bạn có cả sự tò mò và khả năng hiểu ngữ cảnh. Hãy chuyển sang kỹ năng thứ ba, tư duy kỹ thuật. A technical mindset is The ability to break things down into smaller steps or pieces and work with them in an orderly and logical way. (Tư duy kỹ thuật là Khả năng chia nhỏ bài toán thành các bược hoặc các phần nhỏ hơn và xử lý chúng một cách có trật tự và hợp lý.) Chẳng hạn, khi thanh toán hóa đơn, bạn có thể đã chia quy trình thành các bước nhỏ hơn. Có thể bạn bắt đầu bằng cách sắp xếp chúng theo ngày đến hạn. Tiếp theo, bạn có thể cộng chúng lại và so sánh số tiền đó với số dư trong tài khoản ngân hàng của mình. Điều này sẽ giúp bạn biết liệu bạn có thể thanh toán các hóa đơn của mình ngay bây giờ hay không hay liệu bạn có nên đợi đến kỳ lương tiếp theo hay không. Cuối cùng, bạn sẽ trả tiền cho họ. Khi bạn thực hiện một việc gì đó giống như một nhiệm vụ đơn lẻ, chẳng hạn như thanh toán hóa đơn, và chia nó thành các bước nhỏ hơn với một quy trình có trật tự, thì đó là sử dụng tư duy kỹ thuật. Bây giờ chúng ta hãy khám phá phần thứ tư của bộ kỹ năng phân tích, thiết kế dữ liệu. Data design is How you organize information. (Thiết kế dữ liệu là Cách thông tin được tổ chức). Là một nhà phân tích dữ liệu, thiết kế thường phải thực hiện với cơ sở dữ liệu thực tế. Tuy nhiên, một lần nữa, những kỹ năng tương tự có thể dễ dàng áp dụng vào cuộc sống hàng ngày. Ví dụ, hãy nghĩ về cách bạn sắp xếp các số liên lạc trong điện thoại của mình. Đó thực sự là một kiểu thiết kế dữ liệu. Có thể bạn liệt kê họ theo tên thay vì họ hoặc có thể bạn sử dụng địa chỉ email thay vì tên của họ. Những gì bạn đang thực sự làm là thiết kế một danh sách hợp lý, rõ ràng cho phép bạn gọi điện hoặc nhắn tin cho một số liên lạc một cách nhanh chóng và đơn giản. Yếu tố cuối cùng nhưng không kém phần quan trọng, yếu tố thứ năm và cũng là yếu tố cuối cùng của kỹ năng phân tích là chiến lược dữ liệu. Data strategy is The management of the people, processes and tools used in data. (Chiến lược dữ liệu là Việc quản lý con người, quy trình và công cụ được sử dụng trong phân tích dữ liệu). Hãy phá vỡ nó xuống. (Break that down?) Bạn quản lý mọi người bằng cách đảm bảo rằng họ biết cách sử dụng đúng dữ liệu để tìm giải pháp cho vấn đề mà bạn đang giải quyết. Đối với các quy trình, đó là việc đảm bảo đường dẫn đến giải pháp đó rõ ràng và dễ tiếp cận. Đối với các công cụ, bạn đảm bảo rằng công nghệ phù hợp đang được sử dụng cho công việc. Bây giờ, bạn có thể nghi ngờ khả năng của tôi trong việc cung cấp cho bạn một ví dụ từ cuộc sống thực thể hiện chiến lược dữ liệu. Nhưng hãy kiểm tra điều này.
  • 31. Hãy tưởng tượng cắt một bãi cỏ. Bước 1 sẽ được đọc hướng dẫn sử dụng của chủ sở hữu cho máy cắt. Đó là đảm bảo những người liên quan, hoặc bạn, trong ví dụ này, biết cách sử dụng dữ liệu có sẵn. Sách hướng dẫn sẽ hướng dẫn bạn đeo kính bảo hộ và đi giày bít mũi. Sau đó, chuyển sang bước 2: làm cho quy trình, lộ trình trở nên rõ ràng và dễ tiếp cận. Điều này sẽ liên quan đến việc bạn đi dạo quanh bãi cỏ, nhặt những cây gậy hoặc tảng đá lớn có thể cản đường bạn. Cuối cùng, đối với bước 3, bạn kiểm tra máy cắt cỏ, dụng cụ của mình để đảm bảo rằng máy có đủ xăng và dầu, và đang ở tình trạng hoạt động để có thể cắt cỏ an toàn. Bây giờ bạn đã biết năm kỹ năng cần thiết của một nhà phân tích dữ liệu. Tò mò, hiểu ngữ cảnh, có tư duy kỹ thuật, thiết kế dữ liệu và chiến lược dữ liệu. Tôi đã nói với bạn rằng bạn đã là một nhà tư tưởng phân tích. Bây giờ, bạn có thể bắt đầu tích cực thực hành những kỹ năng này khi bạn chuyển qua phần còn lại của khóa học này. Tò mò về những gì tiếp theo? Chuyển sang video tiếp theo.
  • 32. Chương 2: Suy nghĩ về tư duy phân tích Tất cả về tư duy phân tích Bây giờ bạn đã biết năm kỹ năng cần thiết của một nhà phân tích dữ liệu, bạn đã sẵn sàng để tìm hiểu thêm về ý nghĩa của tư duy phân tích. Mọi người không thường nghĩ về suy nghĩ. Suy nghĩ là bản chất thứ hai đối với chúng ta. Nó chỉ diễn ra một cách tự động, nhưng thực ra có nhiều cách nghĩ khác nhau. Một số người suy nghĩ sáng tạo, một số suy nghĩ chín chắn và một số người suy nghĩ theo những cách trừu tượng. Hãy nói về tư duy phân tích. Analytical thinking is Identifying and defining a problem and then solving it by using data in an organized, step-by-step manner. (Tư duy phân tích là Quá trình xác định và xác định một vấn đề, sau đó giải quyết nó bằng cách sử dụng dữ liệu một cách có tổ chức, từng bước). Là nhà phân tích dữ liệu, làm thế nào để chúng ta suy nghĩ phân tích? Chà, để trả lời câu hỏi đó, bây giờ chúng ta sẽ nói về bộ năm thứ hai. Năm khía cạnh chính của tư duy phân tích. Đó là Hãy bắt đầu với trực quan hóa. Visualization is The graphical representation of information ( Trực quan hóa là biểu diễn đồ họa của thông tin) Một số ví dụ bao gồm đồ thị, bản đồ hoặc các yếu tố thiết kế khác. Hình ảnh hóa rất quan trọng vì hình ảnh có thể giúp các nhà phân tích dữ liệu hiểu và giải thích thông tin hiệu quả hơn. Visualization (trực quan hóa) Strategy (chiến lược) Problem- orientation (định hướng vấn đề) Correlation (mối tương quan) Big-picture and detail-oriented thinking (tư duy định hướng chi tiết và bức tranh toàn cảnh)
  • 33. Chương 3: Nghĩ về kết quả Sử dụng dữ liệu để thúc đẩy kết quả thành công Trong một video trước đó, bạn đã học về năm kỹ năng phân tích thiết yếu. Xin nhắc lại, họ tò mò, hiểu ngữ cảnh, có tư duy kỹ thuật, thiết kế dữ liệu và chiến lược dữ liệu. Trong một số video tiếp theo, chúng ta sẽ khám phá cách tất cả những khả năng này trở thành một phần của quá trình ra quyết định dựa trên dữ liệu. Nhưng trước tiên, hãy xem khái niệm ra quyết định dựa trên dữ liệu và lý do tại sao nó có nhiều khả năng dẫn đến kết quả thành công hơn. Data-driven decision-making is Using facts to guide business strategy (Ra quyết định dựa trên dữ liệu là Sử dụng dữ kiện để định hướng chiến lược kinh doanh). Bạn có thể nhớ rằng việc ra quyết định dựa trên dữ liệu liên quan đến việc sử dụng các sự kiện để hướng dẫn chiến lược kinh doanh. Các nhà phân tích dữ liệu có thể khai thác sức mạnh của dữ liệu để làm tất cả những điều tuyệt vời. Với dữ liệu, họ có thể thu được những hiểu biết có giá trị, xác minh lý thuyết hoặc giả định của mình, hiểu rõ hơn về cơ hội và thách thức, hỗ trợ mục tiêu, giúp lập kế hoạch, v.v. Trong kinh doanh, việc ra quyết định dựa trên dữ liệu có thể cải thiện kết quả theo nhiều cách khác nhau. Ví dụ, giả sử một nông dân chăn nuôi bò sữa muốn bắt đầu sản xuất và bán kem. Họ có thể đoán được hương vị mà khách hàng thích, nhưng có một cách tốt hơn để lấy thông tin. Người nông dân có thể khảo sát mọi người và hỏi họ thích hương vị nào. Điều này cung cấp cho người nông dân dữ liệu họ cần để chọn hương vị kem mà mọi người sẽ thích. Đây là một ví dụ khác. Giả sử chủ tịch của một tổ chức tò mò về những đặc quyền mà nhân viên đánh giá cao nhất. Cô hỏi giám đốc nhân sự, người nói rằng mọi người coi trọng quy tắc ăn mặc giản dị. Đó là một linh cảm, nhưng giám đốc nhân sự chứng minh điều đó với thực tế là anh ta nhìn thấy rất nhiều người mặc quần jean và áo phông. Nhưng điều gì sẽ xảy ra nếu công ty này sử dụng quy trình phản hồi của nhân viên có cấu trúc hơn, chẳng hạn như một cuộc khảo sát? Nó có thể tiết lộ rằng nhân viên thực sự thích thẻ giao thông công cộng miễn phí nhất. Giám đốc nhân sự không nhận ra điều đó vì anh ta lái xe đi làm. Đây chỉ là một số lợi ích của việc ra quyết định dựa trên dữ liệu. Nó mang lại cho bạn sự tự tin hơn về sự lựa chọn của bạn và khả năng của bạn để giải quyết những thách thức kinh doanh. Nó giúp bạn trở nên chủ động hơn khi có cơ hội, đồng thời giúp bạn tiết kiệm thời gian và công sức khi hướng tới mục tiêu. Bây giờ, hãy tìm hiểu thêm về cách năm kỹ năng này giúp bạn khai thác tất cả tiềm năng của việc ra quyết định dựa trên dữ liệu. Đầu tiên, hãy nghĩ về sự tò mò (curiosity) và bối cảnh (context). Bạn càng tìm hiểu nhiều về sức mạnh của dữ liệu, bạn càng có khả năng trở nên tò mò hơn. Bạn sẽ bắt đầu thấy các khuôn mẫu và mối quan hệ trong cuộc sống hàng ngày, cho dù bạn đang đọc tin tức, xem
  • 34. phim hay đến một cuộc hẹn trong thành phố. Các nhà phân tích đưa suy nghĩ của họ tiến thêm một bước bằng cách sử dụng bối cảnh để đưa ra dự đoán, nghiên cứu câu trả lời và cuối cùng đưa ra kết luận về những gì họ đã khám phá. Quá trình tự nhiên này là bước đầu tiên tuyệt vời để trở nên dựa trên dữ liệu nhiều hơn. Có một tư duy kỹ thuật (Having technical mindset) đến tiếp theo. Mọi người đều có bản năng, hoặc như trong trường hợp ví dụ về giám đốc nhân sự của chúng tôi, trực giác. Các nhà phân tích dữ liệu cũng không khác. Họ cũng có trực giác. Nhưng họ đã rèn luyện bản thân để xây dựng những cảm xúc đó và sử dụng một cách tiếp cận kỹ thuật hơn để khám phá chúng. Họ làm điều này bằng cách luôn tìm kiếm sự thật, đưa chúng vào hoạt động thông qua phân tích và sử dụng insights mà họ có được để đưa ra quyết định sáng suốt. Tiếp theo, chúng ta đến với thiết kế dữ liệu (data design), có mối liên hệ chặt chẽ với việc ra quyết định dựa trên dữ liệu. Nói một cách đơn giản, việc thiết kế dữ liệu của bạn sao cho dữ liệu được tổ chức theo cách hợp lý giúp các nhà phân tích dữ liệu dễ dàng truy cập, hiểu và tận dụng tối đa thông tin có sẵn. Và điều quan trọng cần lưu ý là thiết kế dữ liệu không chỉ áp dụng cho cơ sở dữ liệu. Kiểu suy nghĩ này cũng có thể phù hợp với tất cả các loại tình huống thực tế. Ý tưởng cơ bản là thế này. Nếu bạn đưa ra quyết định dựa trên dữ liệu, bạn có nhiều khả năng đưa ra quyết định sáng suốt và hiệu quả hơn. Khả năng cuối cùng là chiến lược dữ liệu (data strategy) , kết hợp con người, quy trình và công cụ được sử dụng để giải quyết vấn đề. Đây là một điều quan trọng cần nhớ vì chiến lược dữ liệu cung cấp cho bạn cái nhìn tổng thể về con đường bạn cần thực hiện để đạt được mục tiêu của mình. Ngoài ra, việc ra quyết định dựa trên dữ liệu không phải là công việc của một người. Sẽ có nhiều khả năng thành công hơn nếu mọi người tham gia và cùng 1 chí hướng, vì vậy, điều quan trọng là phải đảm bảo các quy trình cụ thể được áp dụng và công nghệ bạn đang sử dụng phù hợp với chiến lược dựa trên dữ liệu của bạn. Bây giờ bạn đã biết năm kỹ năng phân tích thiết yếu này hoạt động như thế nào để đưa ra các quyết định dựa trên dữ liệu tốt hơn. Cho đến nay, nhiều ví dụ bạn đã nghe là giả thuyết. Điều đó có nghĩa là chúng có thể đúng về mặt lý thuyết, nhưng không phải là trường hợp cụ thể trong thế giới thực. Tiếp theo, chúng ta sẽ xem xét một số ví dụ thực tế. Tôi nóng lòng muốn chia sẻ cách các nhà phân tích dữ liệu đưa dữ liệu vào hoạt động để đạt được kết quả đáng kinh ngạc. Phép thuật dữ liệu trong thế giới thực Trong video này, tôi sẽ chia sẻ một số nghiên cứu điển hình làm nổi bật công việc đáng kinh ngạc của các nhà phân tích dữ liệu. Mỗi tình huống trong số này thể hiện sức mạnh của việc ra quyết định dựa trên dữ liệu theo những cách không ngờ tới. Câu chuyện đầu tiên là về Google.
  • 35. Như tôi đã đề cập trước đây một chút, tại Google, sứ mệnh của chúng tôi là sắp xếp thông tin của thế giới và làm cho thông tin đó trở nên hữu ích và có thể truy cập được trên toàn cầu. Tất cả các sản phẩm của chúng tôi, từ ý tưởng đến phát triển đến ra mắt, đều được xây dựng dựa trên dữ liệu và quá trình ra quyết định dựa trên dữ liệu. Có rất nhiều ví dụ ở đây tại Google về những người sử dụng dữ kiện để tạo chiến lược kinh doanh. Nhưng một trong những điều nổi tiếng nhất liên quan đến nguồn nhân lực của Google. Đây là cách nó đã đi. Bộ phận nhân sự muốn biết liệu có giá trị gì khi có các nhà quản lý hay không. Những đóng góp của họ có đáng giá không? Hay mọi người chỉ nên là một người đóng góp cá nhân? Để trả lời câu hỏi đó, nhóm phân tích con người của Google đã xem xét các bài đánh giá hiệu suất trong quá khứ và các cuộc khảo sát nhân viên. Dữ liệu họ tìm thấy được vẽ trên biểu đồ vì như bạn đã biết, hình ảnh cực kỳ hữu ích khi cố gắng hiểu một vấn đề hoặc khái niệm. Biểu đồ tiết lộ rằng nhân viên Google có cảm xúc tích cực về người quản lý của họ, nhưng dữ liệu khá chung chung và nhóm muốn tìm hiểu thêm. Vì vậy, họ đào sâu hơn và chia dữ liệu thành các phần tư. Một phần tư chia các điểm dữ liệu thành bốn phần hoặc bốn phần bằng nhau. Đây là nơi những thứ thực sự thú vị bắt đầu xảy ra. Các nhà phân tích dữ liệu đã phát hiện ra rằng có một sự khác biệt lớn giữa các phần tư trên cùng và dưới cùng. Hóa ra, các nhóm có người quản lý tốt nhất vui vẻ hơn, làm việc hiệu quả hơn và có nhiều khả năng muốn tiếp tục làm việc tại Google hơn. Điều này khẳng định rằng các nhà quản lý được đánh giá cao và tạo ra sự khác biệt lớn. Do đó, ý tưởng chỉ có những người đóng góp cá nhân đã không được thực hiện. Nhưng vẫn còn nhiều việc phải làm. Chỉ biết rằng những người quản lý tuyệt vời tạo ra kết quả tuyệt vời không dẫn đến những hiểu biết có thể hành động. Bạn phải xác định chính xác điều gì tạo nên một người quản lý tuyệt vời, vì vậy nhóm đã thực hiện thêm hai bước để thu thập thêm dữ liệu. Đầu tiên, họ đưa ra một chương trình giải thưởng để nhân viên có thể đề cử người quản lý yêu thích của họ. Đối với mỗi lần gửi, bạn phải cung cấp các ví dụ hoặc dữ liệu về điều gì làm cho người quản lý đó trở nên tuyệt vời. Bước thứ hai liên quan đến việc phỏng vấn các nhà quản lý, những người được xếp vào các nhóm trên cùng và dưới cùng. Điều này đã giúp nhóm phân tích thấy được sự khác biệt giữa các hành vi quản lý thành công và kém thành công. Các hành vi tốt nhất được xác định là những lý do phổ biến nhất khiến người quản lý cần cải thiện. Bước cuối cùng là chia sẻ những hiểu biết sâu sắc này và đưa ra một quy trình để đánh giá các nhà quản lý dựa trên những phẩm chất này. Quyết định dựa trên dữ liệu này tiếp tục tạo ra văn hóa công ty đặc biệt cho tôi và đồng nghiệp. Cảm ơn, dữ liệu. Một ví dụ thú vị khác đến từ lĩnh vực phi lợi nhuận. Tổ chức phi lợi nhuận là các tổ chức dành riêng cho việc thúc đẩy sự nghiệp xã hội hoặc ủng hộ một nỗ lực cụ thể, chẳng hạn như an ninh lương thực, giáo dục hoặc nghệ thuật.
  • 36. Trong trường hợp này, các nhà phân tích dữ liệu đã nghiên cứu cách các nhà báo có thể tạo ra tác động có ý nghĩa hơn cho các tổ chức phi lợi nhuận mà họ sẽ viết về. Bởi vì các nhà báo viết báo, tạp chí và các hãng tin tức khác, họ có thể giúp các tổ chức phi lợi nhuận tiếp cận những độc giả như bạn và tôi, những người sau đó sẽ hành động để giúp các tổ chức phi lợi nhuận đạt được mục tiêu của họ. Chẳng hạn, giả sử bạn đọc về vấn đề biến đổi khí hậu trên một tạp chí trực tuyến. Nếu bài báo có hiệu quả, bạn sẽ tìm hiểu thêm về nguyên nhân và thậm chí có thể buộc phải đưa ra những lựa chọn xanh hơn trong cuộc sống hàng ngày của mình, tình nguyện cho một tổ chức phi lợi nhuận hoặc quyên góp. Đó là một ví dụ về công việc của nhà báo mang lại nhận thức, sự hiểu biết và sự tham gia. Vì vậy, trở lại câu chuyện. Các nhà phân tích dữ liệu đã sử dụng trình theo dõi để theo dõi các chủ đề câu chuyện, số lần nhấp, lưu lượng truy cập web, nhận xét, lượt chia sẻ, v.v. Sau đó, họ đánh giá thông tin để đưa ra khuyến nghị về cách các nhà báo có thể làm công việc của họ tốt hơn nữa. Cuối cùng, họ đã đưa ra một số ý tưởng tuyệt vời về cách các tổ chức phi lợi nhuận và nhà báo có thể thúc đẩy mọi người ở khắp mọi nơi cùng nhau làm việc và biến thế giới thành một nơi tốt đẹp hơn. Thực sự không có giới hạn cho những gì bạn có thể làm với tư cách là một nhà phân tích dữ liệu. Khi bạn tiến bộ thông qua chương trình này, bạn sẽ khám phá ra nhiều khả năng hơn nữa. Bạn đã làm rất tốt theo chủ đề của một vài video trước đây. Bạn đã học tất cả về kỹ năng phân tích và năm đặc điểm chính của nhà phân tích dữ liệu. Bạn thậm chí có thể đã học được rằng bạn đã là một người chuyên nghiệp trong hầu hết những điều này rồi. Tiếp theo, bạn đã khám phá ra ý nghĩa của việc tư duy phân tích và các kỹ năng cụ thể mà nhà phân tích dữ liệu phát triển để giúp họ thực hiện điều đó. Bạn đã khám phá các công cụ và quy trình cho phép các nhà phân tích dữ liệu xác định chính xác vấn đề và đặt câu hỏi phù hợp để giải quyết chúng. Cuối cùng, một số câu chuyện thực tế đã giúp minh họa lý do tại sao việc ra quyết định dựa trên dữ liệu thường thành công hơn các phương pháp khác. Bạn đang xây dựng một nền tảng tuyệt vời cho sự nghiệp của mình với tư cách là một nhà phân tích dữ liệu. Với mỗi kỹ năng, bạn sẽ tiếp tục mở rộng và hiểu biết của bạn về các khái niệm phân tích dữ liệu chính sẽ ngày càng mạnh mẽ hơn. Chẳng mấy chốc, bạn sẽ có cơ hội kiểm tra mọi thứ bạn đã học. Đây là một cơ hội thực sự hữu ích để kiểm tra mức độ hiểu biết của bạn về tất cả các khái niệm mà chúng ta đã thảo luận và nếu bạn không chắc chắn về một câu hỏi nào đó, bạn có thể xem lại các video và bài đọc để tìm câu trả lời. Đây là một cách tuyệt vời khác để thực hành thu thập dữ liệu.
  • 37. Tuần 3: Thế giới tuyệt vời của dữ liệu Dữ liệu có vòng đời riêng và công việc của các nhà phân tích dữ liệu thường giao thoa với vòng đời đó. Trong phần này của khóa học, bạn sẽ tìm hiểu cách cả vòng đời dữ liệu và hoạt động của các nhà phân tích dữ liệu liên quan đến tiến trình của bạn thông qua chương trình này. Bạn cũng sẽ được giới thiệu các ứng dụng được sử dụng trong quá trình phân tích dữ liệu. Mục tiêu học tập:  Xác định các ứng dụng phần mềm quan trọng đối với công việc của nhà phân tích dữ liệu bao gồm bảng tính, cơ sở dữ liệu, ngôn ngữ truy vấn và công cụ trực quan  Xác định mối quan hệ giữa quy trình phân tích dữ liệu và các khóa học trong Chứng chỉ Google Data Analytics  Giải thích quy trình phân tích dữ liệu, đưa ra tham chiếu cụ thể đến các giai đoạn hỏi, chuẩn bị, xử lý, phân tích, chia sẻ và hành động  Thảo luận về việc sử dụng dữ liệu trong các quyết định cuộc sống hàng ngày  Thảo luận về vai trò của bảng tính, ngôn ngữ truy vấn và công cụ trực quan hóa dữ liệu trong phân tích dữ liệu  Thảo luận về các giai đoạn của vòng đời dữ liệu Chương 1: Theo dõi vòng đời dữ liệu Tìm hiểu về các giai đoạn và công cụ dữ liệu Chào. Thật tuyệt khi có bạn trở lại. Chúng ta đã nói một chút về quá trình phân tích dữ liệu. Để ôn lại nhanh, các giai đoạn của quy trình phân tích dữ liệu là hỏi, chuẩn bị, xử lý, phân tích, chia sẻ và hành động. Bạn có thể nhớ tôi đã nói trước đó rằng toàn bộ chương trình này được lập mô hình theo các bước này. Bây giờ, chúng ta sẽ thực sự đào sâu và khám phá cách mỗi giai đoạn này phối hợp với nhau. Nhưng tôi đang đi trước mình một chút. Đầu tiên, chúng ta hãy dành một ít thời gian để tìm hiểu vòng đời của dữ liệu. Không, dữ liệu không thực sự tồn tại, nhưng nó có vòng đời. Làm thế nào để các nhà phân tích dữ liệu đưa dữ liệu vào cuộc sống? Chà, nó bắt đầu với công cụ phân tích dữ liệu phù hợp. Chúng bao gồm bảng tính, cơ sở dữ liệu, ngôn ngữ truy vấn và phần mềm trực quan hóa. Đừng lo lắng nếu bạn không biết chúng hoạt động như thế nào, hoặc thậm chí chúng là gì. Tại một thời điểm, mọi nhà phân tích dữ liệu đều ở đúng vị trí của bạn hiện tại và họ có thể có rất nhiều câu hỏi giống nhau.
  • 38. Tôi nhớ khi tôi mới bắt đầu tìm hiểu về bảng tính. Tôi là một thực tập sinh trẻ tuổi và công ty tôi đang làm việc đang trong quá trình thay đổi hệ thống lớn. Điều đó có nghĩa là chúng tôi phải chuyển hàng tấn báo cáo từ hệ thống cũ sang hệ thống mới. Sau một vài tuần, tôi nhận thấy rằng ngay cả những người đã đi xa hơn trong sự nghiệp của họ cũng không có đầu óc kỹ thuật như tôi. Điều đó đã trở thành một cơ hội tuyệt vời để tôi gia tăng giá trị. Thời điểm bảng tính aha của tôi đến khi tôi bắt đầu nghiên cứu các phím tắt mà tôi có thể sử dụng để làm việc với các bảng tính hiệu quả hơn. Điều này thực sự sẽ hợp lý hóa quá trình chuyển các báo cáo đó sang hệ thống mới. Khi mọi thứ bắt đầu suôn sẻ, tôi nhớ đã nhận được email từ các nhà phân tích tài chính khác tại công ty. Họ rất biết ơn vì đã có người đến và khắc phục sự cố mà không ai khác có thể làm được. Điều đó đã truyền cảm hứng cho tôi tiến xa hơn nữa và học cách sử dụng bảng tính theo nhiều cách lạ thường. Khi bạn tiếp tục học qua khóa học này, tôi cá là bạn cũng sẽ ấn tượng như tôi. Và trước khi bạn biết điều đó, bạn cũng sẽ đưa dữ liệu vào cuộc sống. Bắt đầu nào. Các giai đoạn của vòng đời dữ liệu Đây là một câu hỏi cho bạn. Khi bạn nghĩ về một vòng đời, điều đầu tiên bạn nghĩ đến là gì? Bây giờ tôi không phải là người đọc suy nghĩ, nhưng tôi biết bất cứ điều gì bạn đang nghĩ là đúng. Thực ra không có câu trả lời sai vì mọi thứ đều có vòng đời. Một trong những ví dụ nổi tiếng nhất về vòng đời là một con bướm. Bướm bắt đầu từ trứng, nở thành sâu bướm và sau đó trở thành nhộng. Đó là nơi phép màu thực sự xảy ra. Dữ liệu cũng có vòng đời của riêng nó. Trong video này, chúng ta sẽ nói về từng giai đoạn trong vòng đời đó để giúp bạn hiểu dữ liệu về các giai đoạn riêng lẻ trải qua. Vòng đời của dữ liệu là lập kế hoạch, nắm bắt, quản lý, phân tích, lưu trữ và tiêu hủy. Hãy bắt đầu với giai đoạn đầu tiên, lập kế hoạch. Điều này thực sự xảy ra tốt trước khi bắt đầu một dự án phân tích. Trong quá trình lập kế hoạch, doanh nghiệp quyết định loại dữ liệu nào họ cần, cách thức quản lý dữ liệu trong suốt vòng đời của nó, ai sẽ chịu trách nhiệm về dữ liệu đó và kết quả tối ưu. Ví dụ: giả sử một nhà cung cấp điện muốn hiểu rõ hơn về cách tiết kiệm năng lượng cho mọi người. Trong giai đoạn lập kế hoạch, họ có thể quyết định nắm bắt thông tin về lượng điện mà khách hàng sử dụng mỗi năm, loại tòa nhà nào đang được cấp điện và loại thiết bị nào đang được cấp điện bên trong chúng. Công ty điện lực cũng sẽ quyết định thành viên nào trong nhóm sẽ chịu trách nhiệm thu thập, lưu trữ và chia sẻ dữ liệu đó. Tất cả điều này xảy ra trong quá trình lập kế hoạch và nó giúp thiết lập phần còn lại của dự án. Plan Capture Manage Analyze Archive Destroy
  • 39. Giai đoạn tiếp theo là khi bạn thu thập dữ liệu. Đây là nơi dữ liệu được thu thập từ nhiều nguồn khác nhau và được đưa vào tổ chức. Với rất nhiều dữ liệu được tạo ra hàng ngày, các cách để thu thập nó thực sự là vô tận. Một phương pháp phổ biến là lấy dữ liệu từ các nguồn bên ngoài. Ví dụ: nếu bạn đang thực hiện phân tích dữ liệu về các kiểu thời tiết, có thể bạn sẽ lấy dữ liệu từ bộ dữ liệu có sẵn công khai như Trung tâm Dữ liệu Khí hậu Quốc gia. Một cách khác để lấy dữ liệu là từ các tài liệu và tệp của chính công ty, thường được lưu trữ bên trong cơ sở dữ liệu. Mặc dù chúng tôi đã đề cập đến cơ sở dữ liệu trước đây, nhưng chúng tôi chưa đi sâu vào chi tiết về chúng là gì. Database is A collection of data stored in a computer system ( Cơ sở dữ liệu là Tập hợp dữ liệu được lưu trữ trong máy tính). Trong trường hợp nhà cung cấp điện của chúng tôi, doanh nghiệp có thể sẽ đo lường việc sử dụng dữ liệu giữa các khách hàng của mình trong cơ sở dữ liệu mà họ sở hữu. Lưu ý nhanh, khi bạn duy trì cơ sở dữ liệu thông tin khách hàng, việc đảm bảo tính toàn vẹn, độ tin cậy và quyền riêng tư của dữ liệu đều là những mối quan tâm quan trọng. Bạn sẽ học được nhiều hơn về điều đó sau này. Bây giờ chúng ta đã nắm bắt được dữ liệu của mình, chúng tôi sẽ chuyển sang giai đoạn tiếp theo của vòng đời dữ liệu, quản lý. Ở đây, chúng tôi đang nói về cách chúng tôi chăm sóc dữ liệu của mình, cách thức và vị trí dữ liệu được lưu trữ, các công cụ được sử dụng để giữ dữ liệu an toàn và bảo mật cũng như các hành động được thực hiện để đảm bảo dữ liệu được duy trì đúng cách. Giai đoạn này rất quan trọng đối với việc làm sạch dữ liệu mà chúng tôi sẽ đề cập sau. Tiếp theo là thời gian để phân tích dữ liệu của bạn. Đây là nơi các nhà phân tích dữ liệu thực sự tỏa sáng. Trong giai đoạn này, dữ liệu được sử dụng để giải quyết vấn đề, đưa ra quyết định tuyệt vời và hỗ trợ các mục tiêu kinh doanh. Ví dụ, một trong những mục tiêu của công ty điện lực của chúng ta có thể là tìm cách giúp khách hàng tiết kiệm năng lượng. Di chuyển dọc theo vòng đời dữ liệu hiện phát triển sang giai đoạn lưu trữ. Lưu trữ có nghĩa là lưu trữ dữ liệu ở một nơi vẫn có sẵn nhưng không được sử dụng lại. Trong quá trình phân tích, các nhà phân tích xử lý lượng dữ liệu khổng lồ. Bạn có thể tưởng tượng nếu chúng ta phải sắp xếp tất cả dữ liệu có sẵn ở đó, ngay cả khi nó không còn hữu ích và phù hợp với công việc của chúng ta nữa không? Sẽ hợp lý hơn khi lưu trữ nó hơn là giữ nó xung quanh. Và cuối cùng, bước cuối cùng của vòng đời dữ liệu, giai đoạn phá hủy. Vâng, nghe có vẻ buồn, nhưng khi bạn hủy dữ liệu, nó sẽ không gây hại một chút nào. Vì vậy, hãy quay lại ví dụ về nhà cung cấp điện của chúng ta. Họ sẽ có dữ liệu được lưu trữ trên nhiều ổ cứng. Để phá hủy nó, công ty sẽ sử dụng một phần mềm xóa dữ liệu an toàn. Nếu có bất kỳ tệp giấy nào, chúng cũng sẽ bị cắt nhỏ. Điều này rất quan trọng để bảo vệ thông tin riêng tư của công ty, cũng như dữ liệu riêng tư về khách hàng của công ty.
  • 40. And there you have it, vòng đời dữ liệu. Và bây giờ bạn đã hiểu các giai đoạn khác nhau mà dữ liệu trải qua trong vòng đời của nó, bạn có thể hiểu rõ hơn về cách tiếp cận quy trình phân tích dữ liệu mà chúng ta sẽ sớm nói đến. Chương 2: Phác thảo quá trình phân tích dữ liệu Sáu giai đoạn phân tích dữ liệu Bây giờ bạn đã hiểu tất cả các giai đoạn của vòng đời dữ liệu, đã đến lúc chuyển sang các giai đoạn phân tích dữ liệu. Chúng nghe có vẻ giống nhau, nhưng là hai thứ khác nhau. Phân tích dữ liệu không phải là một vòng đời. Đó là quá trình phân tích dữ liệu. Sắp tới, chúng ta sẽ xem xét từng bước của quy trình phân tích dữ liệu và nó sẽ liên quan như thế nào đến công việc của bạn với tư cách là nhà phân tích dữ liệu. Ngay cả chương trình này cũng được thiết kế để thực hiện theo các bước này. Hiểu được những kết nối này sẽ giúp hướng dẫn phân tích của riêng bạn và công việc của bạn trong chương trình này. Bạn đã biết rằng chương trình này được mô phỏng theo các giai đoạn của quy trình phân tích dữ liệu. Chương trình này được chia thành các khóa học, sáu trong số đó dựa trên các bước phân tích dữ liệu: hỏi, chuẩn bị, xử lý, phân tích, chia sẻ và hành động. Hãy bắt đầu với bước đầu tiên trong phân tích dữ liệu, giai đoạn hỏi. Trong giai đoạn này, chúng tôi làm hai việc. Chúng tôi xác định vấn đề cần giải quyết và chúng tôi đảm bảo rằng chúng tôi hiểu đầy đủ về kỳ vọng của các bên liên quan. Stakeholders is People who have invested time and resources into a project and are interested in the outcome. (Bên liên quan là Những người đầu tư thời gian và nguồn lực vào một dự án và quan tâm đến kết quả của nó). Đầu tiên, xác định một vấn đề có nghĩa là bạn nhìn vào trạng thái hiện tại và xác định nó khác với trạng thái lý tưởng như thế nào. Thông thường, có một trở ngại mà chúng ta cần loại bỏ hoặc điều gì đó sai trái cần được sửa chữa. Chẳng hạn, một nhà thi đấu thể thao có thể muốn giảm thời gian người hâm mộ phải chờ xếp hàng mua vé. Trở ngại là tìm ra cách đưa khách hàng đến chỗ ngồi của họ nhanh hơn. Một phần quan trọng khác của giai đoạn hỏi là hiểu được kỳ vọng của các bên liên quan. Bước đầu tiên ở đây là xác định các bên liên quan là ai. Điều đó có thể bao gồm người quản lý của bạn, nhà tài trợ điều hành hoặc đối tác bán hàng của bạn. Có thể có rất nhiều bên liên quan. Nhưng điểm chung của tất cả chúng là chúng giúp đưa ra quyết định, tác động đến các hành động và chiến lược, đồng thời có những mục tiêu cụ thể mà chúng muốn đạt được. Họ cũng quan tâm đến dự án và đó là lý do tại sao việc hiểu được kỳ vọng của họ lại quan trọng đến vậy. Ví dụ: nếu người quản lý của bạn giao cho bạn một dự án phân tích dữ liệu liên quan đến rủi ro kinh doanh, bạn nên xác nhận xem họ có muốn bao gồm tất cả các
  • 41. loại rủi ro có thể ảnh hưởng đến công ty hay chỉ những rủi ro liên quan đến thời tiết như bão và lốc xoáy. Giao tiếp với các bên liên quan là chìa khóa để đảm bảo bạn luôn tham gia và đi đúng hướng trong suốt dự án. Vì vậy, với tư cách là một nhà phân tích dữ liệu, việc phát triển các chiến lược truyền thông hiệu quả là rất quan trọng. Phần này của giai đoạn hỏi giúp bạn tiếp tục tập trung vào chính vấn đề chứ không chỉ các triệu chứng của nó. Như bạn đã biết trước đó, năm câu hỏi tại sao cực kỳ hữu ích ở đây. Trong khóa học sắp tới, bạn sẽ học cách đặt câu hỏi hiệu quả và xác định vấn đề bằng cách làm việc với các bên liên quan. Bạn cũng sẽ đề cập đến các chiến lược có thể giúp bạn chia sẻ những gì bạn khám phá theo cách khiến mọi người quan tâm. Sau đó, chúng ta sẽ chuyển sang bước chuẩn bị của quy trình phân tích dữ liệu. Đây là nơi các nhà phân tích dữ liệu thu thập và lưu trữ dữ liệu mà họ sẽ sử dụng cho quá trình phân tích sắp tới. Bạn sẽ tìm hiểu thêm về các loại dữ liệu khác nhau và cách xác định loại dữ liệu nào hữu ích nhất để giải quyết một vấn đề cụ thể. Bạn cũng sẽ khám phá ra lý do tại sao dữ liệu và kết quả của bạn phải khách quan và không thiên vị lại quan trọng đến vậy. Nói cách khác, bất kỳ quyết định nào được đưa ra từ phân tích của bạn phải luôn dựa trên thực tế và phải công bằng, không thiên vị. Tiếp theo là bước quy trình. Tại đây, các nhà phân tích dữ liệu tìm và loại bỏ mọi lỗi và điểm không chính xác có thể cản trở kết quả. Điều này thường có nghĩa là làm sạch dữ liệu, chuyển đổi dữ liệu thành định dạng hữu ích hơn, kết hợp hai hoặc nhiều bộ dữ liệu để làm cho thông tin đầy đủ hơn và loại bỏ các giá trị ngoại lai, tức là bất kỳ điểm dữ liệu nào có thể làm sai lệch thông tin. Sau đó, bạn sẽ học cách kiểm tra dữ liệu bạn chuẩn bị để đảm bảo dữ liệu đó hoàn chỉnh và chính xác. Giai đoạn này là tất cả về việc làm đúng các chi tiết. Vì vậy, bạn cũng sẽ sửa lỗi chính tả, sự không nhất quán hoặc dữ liệu bị thiếu và không chính xác. Trên hết, bạn sẽ có được các chiến lược để xác minh và chia sẻ quá trình làm sạch dữ liệu của mình với các bên liên quan. Sau đó là thời gian để phân tích. Phân tích dữ liệu bạn đã thu thập liên quan đến việc sử dụng các công cụ để chuyển đổi và sắp xếp thông tin đó để bạn có thể rút ra kết luận hữu ích, đưa ra dự đoán và thúc đẩy quá trình ra quyết định sáng suốt. Có rất nhiều công cụ mạnh mẽ mà các nhà phân tích dữ liệu sử dụng trong công việc của họ và trong khóa học này, bạn sẽ tìm hiểu về hai trong số đó, bảng tính và ngôn ngữ truy vấn có cấu trúc hoặc SQL, thường được phát âm là "phần tiếp theo". Khóa học tiếp theo dựa trên giai đoạn chia sẻ. Tại đây, bạn sẽ tìm hiểu cách các nhà phân tích dữ liệu giải thích kết quả và chia sẻ chúng với những người khác để giúp các bên liên quan đưa ra quyết định dựa trên dữ liệu hiệu quả.
  • 42. Trong giai đoạn chia sẻ, trực quan hóa là người bạn tốt nhất của nhà phân tích dữ liệu. Vì vậy, khóa học này sẽ nêu bật lý do tại sao trực quan hóa lại cần thiết để khiến người khác hiểu dữ liệu của bạn đang nói gì với bạn. Với hình ảnh phù hợp, các dữ kiện và số liệu trở nên dễ nhìn hơn rất nhiều và các khái niệm phức tạp trở nên dễ hiểu hơn. Chúng ta sẽ khám phá các loại hình ảnh khác nhau và một số công cụ trực quan hóa dữ liệu tuyệt vời. Bạn cũng sẽ thực hành các kỹ năng thuyết trình của riêng mình bằng cách tạo các trình chiếu hấp dẫn và học cách chuẩn bị đầy đủ để trả lời các câu hỏi. Sau đó, chúng tôi sẽ tạm dừng quá trình phân tích dữ liệu để cho bạn thấy tất cả những điều thực sự thú vị mà bạn có thể làm với ngôn ngữ lập trình R. Bạn không cần phải quen thuộc với R hoặc các ngôn ngữ lập trình nói chung. Chỉ cần biết rằng R là một công cụ phổ biến để thao tác, tính toán và trực quan hóa dữ liệu. Đối với giai đoạn phân tích dữ liệu cuối cùng của chúng tôi, chúng tôi đã hành động. Đây là thời điểm thú vị khi doanh nghiệp sử dụng tất cả thông tin chi tiết mà bạn, nhà phân tích dữ liệu, đã cung cấp và vận dụng chúng để giải quyết vấn đề kinh doanh ban đầu và sẽ hành động dựa trên những gì bạn đã học được trong suốt chương trình này. Đây là lúc bạn chuẩn bị cho việc tìm kiếm việc làm của mình và có cơ hội hoàn thành một dự án nghiên cứu điển hình. Đó là một cơ hội tuyệt vời để bạn tập hợp mọi thứ bạn đã làm trong suốt khóa học này. Ngoài ra, việc thêm một nghiên cứu điển hình vào danh mục đầu tư của bạn sẽ giúp bạn nổi bật so với các ứng viên khác khi bạn phỏng vấn cho công việc phân tích dữ liệu đầu tiên của mình. Bây giờ bạn đã biết các bước khác nhau của quy trình phân tích dữ liệu và cách khóa học của chúng tôi phản ánh quy trình đó. Bạn có mọi thứ bạn cần để hiểu khóa học này hoạt động như thế nào và các đồng nghiệp Google của tôi và tôi sẽ ở đây để hướng dẫn bạn từng bước. Molly: Ví dụ về quy trình dữ liệu Bất kể bạn đang tiến hành loại phân tích dữ liệu nào, quy trình này thường giống nhau. Ví dụ mà tôi sẽ xem qua là cuộc khảo sát về mức độ gắn kết của nhân viên của chúng tôi, nhưng bạn có thể tưởng tượng rằng quy trình này chỉ áp dụng cho bất kỳ phân tích dữ liệu nào mà bạn sẽ thực hiện với tư cách là nhà phân tích. Điều đầu tiên bạn muốn làm là hỏi. Bạn muốn hỏi tất cả các câu hỏi phù hợp khi bắt đầu tham gia để bạn hiểu rõ hơn những gì các nhà lãnh đạo và các bên liên quan của bạn cần từ phân tích này. Các loại câu hỏi mà tôi thường hỏi xoay quanh vấn đề mà chúng tôi đang cố gắng giải quyết là gì? Mục đích của phân tích này là gì? Chúng ta hy vọng học được gì từ nó? Sau khi bạn đã hỏi tất cả các câu hỏi phù hợp và bạn đã nắm được phạm vi phân tích mà bạn cần tiến hành, bước tiếp theo là chuẩn bị. Chúng ta cần suy nghĩ về loại dữ liệu nào chúng ta cần để trả lời những câu hỏi chính đó. Đây có thể là bất cứ thứ gì từ dữ liệu định
  • 43. lượng hoặc dữ liệu định tính. Nó có thể là mặt cắt ngang hoặc thời điểm so với chiều dọc trong một khoảng thời gian dài. Chúng ta cần suy nghĩ về loại dữ liệu chúng ta cần để trả lời các câu hỏi mà chúng ta đã đặt ra để trả lời dựa trên những gì chúng ta học được khi đặt câu hỏi đúng. Chúng tôi cũng cần suy nghĩ về cách chúng tôi sẽ thu thập dữ liệu đó hoặc liệu chúng tôi có cần thu thập dữ liệu đó hay không. Có thể xảy ra trường hợp chúng tôi cần thu thập dữ liệu hoàn toàn mới này. Vì vậy, chúng tôi cần suy nghĩ về loại dữ liệu nào chúng tôi sẽ thu thập và cách thức thu thập. Đối với khảo sát mức độ gắn kết của nhân viên, chúng tôi thực hiện điều đó thông qua khảo sát cả câu hỏi định lượng và định tính. Nhưng thực tế có thể xảy ra trường hợp đối với nhiều phân tích, dữ liệu mà bạn đang tìm kiếm đã tồn tại. Sau đó, vấn đề là làm việc với những chủ sở hữu dữ liệu đó để đảm bảo rằng bạn có thể tận dụng dữ liệu đó và sử dụng dữ liệu đó một cách có trách nhiệm. Sau khi bạn đã thực hiện tất cả các công việc khó khăn để thu thập dữ liệu của mình, bây giờ bạn cần xử lý dữ liệu đó. Nó bắt đầu với việc làm sạch. Đối với tôi, đây là phần thú vị nhất của quá trình phân tích dữ liệu. Chúng tôi có thể coi đó là phần giới thiệu ban đầu hoặc cái bắt tay, xin chào, với dữ liệu của bạn. Đây là nơi bạn có cơ hội hiểu cấu trúc, đặc điểm, sắc thái của nó và bạn thực sự có cơ hội hiểu sâu về loại dữ liệu bạn sẽ làm việc và hiểu tiềm năng của dữ liệu đó để trả lời tất cả các câu hỏi của bạn. Đây cũng là một phần quan trọng, nơi chúng tôi đang thực hiện tất cả các kiểm tra đảm bảo chất lượng của mình. Ví dụ: chúng tôi có tất cả dữ liệu mà chúng tôi dự đoán sẽ có không? Chúng tôi đang thiếu dữ liệu một cách ngẫu nhiên hay dữ liệu bị thiếu một cách có hệ thống đến mức có thể đã xảy ra sự cố với nỗ lực thu thập dữ liệu của chúng tôi? Nếu cần, chúng tôi đã mã hóa tất cả dữ liệu của mình đúng cách chưa? Có bất kỳ ngoại lệ nào mà chúng ta cần đối xử khác đi không? Đây là phần mà chúng tôi dành nhiều thời gian thực sự đào sâu vào cấu trúc và sắc thái của dữ liệu để đảm bảo rằng bạn có thể phân tích dữ liệu một cách thích hợp và có trách nhiệm. Sau khi làm sạch dữ liệu của chúng tôi và chạy tất cả các kiểm tra đảm bảo chất lượng, giờ là lúc chúng tôi phân tích dữ liệu của mình, đảm bảo làm như vậy theo cách khách quan và không thiên vị nhất có thể. Để làm điều này, điều đầu tiên chúng tôi làm là thực hiện một loạt phân tích mà chúng tôi đã lên kế hoạch trước dựa trên những câu hỏi mà chúng tôi biết rằng mình muốn trả lời ngay từ đầu của quá trình. Một điều có lẽ khó nhất trong quy trình cụ thể này, điều khó nhất khi phân tích dữ liệu, là chúng tôi với tư cách là nhà phân tích được đào tạo để tìm kiếm các mẫu. Theo thời gian khi chúng ta ngày càng trở nên giỏi hơn trong công việc của mình, điều mà chúng ta thường nhận thấy là chúng ta có thể bắt đầu trực cảm những gì chúng ta có thể thấy trong dữ liệu. Chúng tôi có thể có một sự nghi ngờ lén lút về những gì dữ liệu sẽ cho chúng tôi biết. Đây là điểm mà chúng ta phải lùi lại một bước và để dữ liệu tự nói lên điều đó.
  • 44. Là nhà phân tích dữ liệu, chúng tôi là những người kể chuyện, nhưng chúng tôi cũng phải nhớ rằng đó không phải là câu chuyện của chúng tôi để kể. Câu chuyện đó thuộc về dữ liệu và công việc của chúng tôi với tư cách là nhà phân tích là khuếch đại và kể câu chuyện đó theo cách công bằng và khách quan nhất có thể. Bước tiếp theo là chia sẻ tất cả dữ liệu và thông tin chi tiết mà bạn đã tạo từ các phân tích của mình. Hiện nay, thông thường đối với khảo sát về mức độ gắn kết của nhân viên, chúng tôi bắt đầu bằng cách chia sẻ những phát hiện cấp cao với nhóm điều hành của mình. Chúng tôi muốn họ có cái nhìn bao quát về cảm giác của tổ chức và chúng tôi muốn đảm bảo rằng không có bất kỳ điều gì bất ngờ khi họ đào sâu hơn nữa vào dữ liệu để hiểu cảm giác của các nhóm và cảm giác của từng nhân viên. Tất cả những công việc này từ việc đặt câu hỏi phù hợp đến thu thập dữ liệu của bạn, đến phân tích và chia sẻ, sẽ không có ý nghĩa gì nhiều nếu chúng ta không thực hiện hành động đối với những gì chúng ta vừa học được. Đối với tôi, đây là phần quan trọng nhất, đặc biệt là trong cuộc khảo sát về mức độ gắn kết của nhân viên của chúng tôi. Tôi muốn nói rằng cuộc khảo sát thực sự là một phần dễ dàng và hành động dựa trên kết quả thực sự là nơi công việc thực sự bắt đầu. Đây là nơi chúng tôi sử dụng tất cả những hiểu biết dựa trên dữ liệu đó để quyết định loại can thiệp nào chúng tôi muốn giới thiệu, không chỉ ở cấp độ tổ chức mà còn ở cấp độ nhóm. Ví dụ, chúng ta có thể thấy rằng tổ chức đang thực hiện một loạt các biện pháp can thiệp để giúp cải thiện một phần trải nghiệm của nhân viên, trong khi các nhóm riêng lẻ có thêm vai trò, trách nhiệm để thực hiện, để củng cố một số nỗ lực đó hoặc giới thiệu những nỗ lực mới cho gặp gỡ nhóm của họ tốt hơn ở những điểm mạnh và lĩnh vực cơ hội của họ. Quá trình phân tích dữ liệu là nghiêm ngặt, nhưng nó kéo dài. Tôi hoàn toàn có thể đánh giá cao rằng chúng tôi với tư cách là nhà phân tích dữ liệu, rất hào hứng với việc đi sâu vào dữ liệu và làm những gì chúng tôi làm tốt nhất. Thách thức là nếu chúng ta không thực hiện toàn bộ quy trình, nếu chúng ta cố bỏ qua các bước, thì chúng ta sẽ không thể gợi ra những hiểu biết sâu sắc mà chúng ta đang tìm kiếm. Tôi rất thích công việc của mình. Tôi đánh giá rất cao dữ liệu và những gì nó có thể làm cũng như loại hiểu biết sâu sắc nào mà chúng ta có thể rút ra từ nó
  • 45. Chương 3: Hộp công cụ phân tích dữ liệu Khám phá các công cụ phân tích dữ liệu Tôi rất mong được giới thiệu với bạn một số công cụ mà nhà phân tích dữ liệu sử dụng hàng ngày. Có rất nhiều lựa chọn ngoài kia. Nhưng những thứ phổ biến nhất mà bạn sẽ thấy nhà phân tích sử dụng là bảng tính, ngôn ngữ truy vấn và công cụ trực quan. Và video này sẽ cung cấp cho bạn cái nhìn nhanh về cách các nhà phân tích dữ liệu đang sử dụng các công cụ này hàng ngày. Dù bạn có tin hay không thì tùy, tôi đã có vài năm trong sự nghiệp kế toán và tài chính của mình trước khi tôi thấy tất cả những công cụ này hoạt động cùng nhau. Vào thời điểm đó, tôi đã có rất nhiều kinh nghiệm với bảng tính và đã làm việc trong các tập dữ liệu lớn với một số chương trình cơ sở dữ liệu truyền thống. Tôi đã có bộ kỹ năng cơ bản để sử dụng các ngôn ngữ truy vấn và tôi đã tìm hiểu kỹ về trực quan hóa, nhưng tôi chưa bao giờ kết hợp tất cả chúng lại với nhau. Sau đó, tôi được thuê tại Google. Và thật là mở mang tầm mắt khi đến một nơi như thế này với vô số thông tin ở mọi nơi bạn nhìn thấy. Là một nhà phân tích tại Google, sức mạnh thực sự của những công cụ này trở nên rõ ràng hơn rất nhiều đối với tôi. Tôi trở nên tập trung hơn vào việc thực sự tối đa hóa mọi thứ mà những công cụ này có thể làm, hợp lý hóa báo cáo của tôi và chỉ làm cho công việc của tôi trở nên đơn giản hơn. Đột nhiên, tôi có nhiều thời gian và không gian hơn để dành cho việc xác định các vấn đề mới cần giải quyết và thúc đẩy quá trình ra quyết định. Không còn nghi ngờ gì nữa, một khi bạn đã học được sức mạnh của những công cụ này, bạn sẽ tiếp tục trở thành nhà phân tích dữ liệu giỏi nhất có thể. Được rồi, tôi hy vọng câu chuyện đó đã giúp bạn có thêm động lực cho khóa học này.
  • 46. Hãy bắt đầu với bảng tính. Một lần nữa, có rất nhiều giải pháp bảng tính khác nhau, nhưng hai tùy chọn phổ biến là Microsoft Excel và Google Trang tính. Nói một cách đơn giản, bảng tính là một bảng tính kỹ thuật số. Nó lưu trữ, tổ chức và sắp xếp dữ liệu. Điều này rất quan trọng vì tính hữu ích của dữ liệu của bạn phụ thuộc vào mức độ cấu trúc của dữ liệu đó. Khi đưa dữ liệu của mình vào bảng tính, bạn có thể xem các mẫu, nhóm thông tin và dễ dàng tìm thấy thông tin mình cần. Bảng tính cũng có một số tính năng thực sự hữu ích được gọi là công thức và hàm. Formula is A set of instructions that performs a specific calculation using the data in a spreadsheet. (Công thức là một tập hợp các hướng dẫn thực hiện một phép tính cụ thể bằng cách sử dụng dữ liệu trong bảng tính). Các công thức có thể làm những việc cơ bản như cộng, trừ, nhân và chia, nhưng chúng không dừng lại ở đó. Bạn cũng có thể sử dụng công thức để tìm giá trị trung bình của một tập hợp số. Tra cứu một giá trị cụ thể, trả về tổng của một tập hợp các giá trị đáp ứng một quy tắc cụ thể, v.v. A function is a preset command that automatically performs a specific process or task using the data in a spreadsheet. Hàm là một lệnh đặt trước tự động thực hiện một quy trình hoặc tác vụ cụ thể bằng cách sử dụng dữ liệu trong bảng tính. Điều đó nghe có vẻ khá kỹ thuật, tôi biết, vì vậy hãy chia nhỏ nó ra. Chỉ cần nghĩ về một chức năng như một cách đơn giản hơn, hiệu quả hơn để làm một việc gì đó mà thông thường sẽ mất rất nhiều thời gian. Nói cách khác, các chức năng có thể giúp bạn làm việc hiệu quả hơn. Đó là những điều cơ bản về bảng tính cho bây giờ. Sau này, bạn sẽ thấy chúng hoạt động và tự mình bắt đầu làm việc với bảng tính. Công cụ phân tích dữ liệu tiếp theo được gọi là ngôn ngữ truy vấn. Ngôn ngữ truy vấn là ngôn ngữ lập trình máy tính cho phép bạn truy xuất và thao tác dữ liệu từ cơ sở dữ liệu. Bạn sẽ học một thứ gọi là ngôn ngữ truy vấn có cấu trúc, thường được gọi là SQL. SQL là ngôn ngữ cho phép các nhà phân tích dữ liệu giao tiếp với cơ sở dữ liệu. A database is a collection DA tools Spreadsheets SQL Visualization tools
  • 47. of data stored in a computer system. (Cơ sở dữ liệu là Tập hợp dữ liệu được lưu trữ trong hệ thống máy tính). SQL là ngôn ngữ truy vấn có cấu trúc được sử dụng rộng rãi nhất vì một vài lý do. Thật dễ hiểu và hoạt động rất tốt với tất cả các loại cơ sở dữ liệu. Với SQL, các nhà phân tích dữ liệu có thể truy cập dữ liệu họ cần bằng cách thực hiện truy vấn. Mặc dù truy vấn có nghĩa là câu hỏi, nhưng tôi thích coi nó giống như một yêu cầu hơn. Vì vậy, bạn đang yêu cầu cơ sở dữ liệu làm điều gì đó cho bạn. Bạn có thể yêu cầu nó thực hiện rất nhiều việc khác nhau như chèn, xóa, chọn hoặc cập nhật dữ liệu. Được rồi, đó là cái nhìn cấp cao nhất về SQL. Trong video sau, chúng ta sẽ khám phá thêm về nó và sử dụng SQL để thực hiện một số điều thực sự thú vị với dữ liệu. Cuối cùng, hãy nói về trực quan hóa dữ liệu. Bạn đã học được rằng trực quan hóa dữ liệu là biểu diễn đồ họa của thông tin. Một số ví dụ bao gồm đồ thị, bản đồ và bảng. Hầu hết mọi người xử lý hình ảnh dễ dàng hơn so với chỉ từ ngữ. Đó là lý do tại sao hình dung rất quan trọng. Họ giúp các nhà phân tích dữ liệu truyền đạt những hiểu biết của họ cho người khác theo cách hiệu quả và hấp dẫn. Khi bạn nghĩ về quy trình phân tích dữ liệu, sau khi dữ liệu được chuẩn bị, xử lý và phân tích, thông tin chi tiết sẽ được trực quan hóa để có thể hiểu và chia sẻ. Điều này giúp các bên liên quan dễ dàng đưa ra kết luận, đưa ra quyết định và đưa ra các chiến lược. Một số công cụ trực quan phổ biến là Tableau và Looker. Các nhà phân tích dữ liệu thích sử dụng Tableau vì nó giúp họ tạo ra các hình ảnh rất dễ hiểu. Điều này có nghĩa là ngay cả những người dùng không có kỹ thuật cũng có thể nhận được thông tin họ cần. Looker cũng phổ biến với các nhà phân tích dữ liệu vì nó giúp họ dễ dàng tạo hình ảnh trực quan dựa trên kết quả của truy vấn. Với Looker, bạn có thể cung cấp cho các bên liên quan một bức tranh hoàn chỉnh về công việc của mình bằng cách hiển thị cho họ dữ liệu trực quan hóa và dữ liệu thực tế liên quan đến nó. Tất cả các công cụ trực quan đều có các tính năng tuyệt vời hữu ích trong các tình huống khác nhau. Bạn sẽ sớm học cách quyết định sử dụng công cụ nào cho một công việc cụ thể. Và đó là tất cả những gì bạn cần biết về vòng đời dữ liệu và quy trình phân tích dữ liệu. Bạn sẽ có cơ hội kiểm tra những gì bạn biết, vì vậy bạn có thể cảm thấy tự tin tiến về phía trước trong khóa học này. Vui lòng dành chút thời gian để làm quen lại với các khái niệm và khi bạn đã sẵn sàng, hãy cố gắng hết sức. Nếu bạn không chắc chắn về câu trả lời, bạn luôn có thể quay lại và xem lại các video và bài đọc. Sau đó, bạn sẽ sẵn sàng chuyển sang nhóm video tiếp theo, nơi chúng tôi sẽ tiếp tục khám phá các công cụ phân tích dữ liệu mà bạn đã đề cập. Và bạn sẽ nhận được một số thông tin chi tiết thực sự hấp dẫn về chính xác cách chúng hoạt động. Chẳng bao lâu, bạn sẽ có kiến thức và sự tự tin để tự mình bắt đầu sử dụng chúng.
  • 48. Tuần 4: Thiết lập hộp công cụ của bạn Khi bạn đang học, bảng tính, ngôn ngữ truy vấn và công cụ trực quan hóa dữ liệu đều là một phần quan trọng trong công việc của nhà phân tích dữ liệu. Trong phần này của khóa học, bạn sẽ tìm hiểu thêm về các khái niệm cơ bản có liên quan và khám phá một số ví dụ về cách các công cụ này hoạt động. Mục tiêu học tập:  Mô tả bảng tính, ngôn ngữ truy vấn và công cụ trực quan hóa dữ liệu, đưa ra các ví dụ cụ thể  Thể hiện sự hiểu biết về cách sử dụng, tính năng cơ bản và chức năng của bảng tính  Giải thích các khái niệm cơ bản liên quan đến việc sử dụng SQL bao gồm các ví dụ cụ thể về truy vấn  Xác định các khái niệm cơ bản liên quan đến trực quan hóa dữ liệu, đưa ra các ví dụ cụ thể Chương 1: Nắm vững kiến thức cơ bản về bảng tính Thông tin chi tiết về các công cụ dữ liệu cốt lõi Chào mừng trở lại. Trong một số video tiếp theo, bạn sẽ tiếp tục khám phá các công cụ phân tích dữ liệu mà chúng ta đã thảo luận trước đó và bạn sẽ có cơ hội xem chúng hoạt động một chút. Điều này sẽ cung cấp cho bạn một bức tranh rõ ràng hơn về cách sử dụng các công cụ này. Phần còn lại của chương trình sẽ được xây dựng dựa trên những gì bạn học được ở đây. Chúng ta sẽ bắt đầu xem xét kỹ hơn về bảng tính. Chúng ta sẽ chia bảng tính thành những điều cơ bản để hiểu rõ hơn về một số tính năng và chức năng của chúng. Bạn cũng sẽ tìm hiểu cách bạn có thể muốn sử dụng chúng trong công việc của mình với tư cách là nhà phân tích dữ liệu. Ví dụ: bạn sắp xếp dữ liệu như thế nào để dễ sử dụng hơn? Chúng ta sẽ tìm hiểu. Tiếp theo, chúng ta sẽ thấy SQL hoạt động. Các nhà phân tích dữ liệu luôn sử dụng SQL trong công việc của họ. Chẳng hạn như khi họ cần một lượng lớn dữ liệu trong vài giây để giúp trả lời nhanh một câu hỏi kinh doanh. Rất có thể, bạn không quen thuộc với SQL. Không sao đâu. Bạn sẽ học cách sử dụng SQL giống như gọi đồ ăn tại một nhà hàng siêu tốc. Truy vấn SQL của bạn có thể không ngon bằng nhưng bạn sẽ không phải đợi lâu để nhận được đơn đặt hàng của mình.
  • 49. Nói về thực phẩm, chủ đề nào tốt hơn món tráng miệng? Bạn có thể coi trực quan hóa dữ liệu như món tráng miệng cho bữa ăn phân tích dữ liệu. Nó được cung cấp ở phần cuối của quá trình phân tích sau khi bạn đã hoàn thành những gì cần thiết để có được dữ liệu phù hợp cho một câu hỏi hoặc nhiệm vụ. Chúng ta đã thấy rằng hình ảnh hóa có nhiều dạng, chẳng hạn như đồ thị hoặc biểu đồ. Cũng giống như món tráng miệng, chúng là một món ăn đáng để thưởng thức. Bạn sẽ tìm hiểu thêm về các biểu diễn trực quan này và xem các ví dụ khác về hình thức của chúng. Sau đó, bạn sẽ nói chuyện về hình ảnh hóa với các nhà phân tích dữ liệu tương lai khác giống như bạn. Chúng tôi sẽ kết thúc mọi thứ bằng một bài đánh giá, nhưng bạn sẽ có thời gian để xem lại những gì bạn đã học được trước đó. Được rồi, chúng ta hãy tiếp tục đi. Nhân tiện, bây giờ có ai đói không? Cột và hàng và ô, ôi chao! Bảng tính là một phần quan trọng trong phân tích dữ liệu. Làm bạn với bảng tính càng sớm càng tốt. Tin tôi đi, chúng sẽ giúp bạn tiết kiệm rất nhiều thời gian với tư cách là nhà phân tích dữ liệu và giúp toàn bộ công việc của bạn trở nên dễ dàng hơn. Bảng tính này là một ví dụ về hình thức của một bảng tính có tổ chức. Trong video này, chúng tôi sẽ trình bày một số khái niệm bảng tính cơ bản cho tất cả các bạn mới làm quen với thế giới này. Đây có thể là bài đánh giá dành cho một số bạn có nhiều kinh nghiệm hơn ngoài kia, nhưng thực hành những gì bạn biết sẽ không hại gì. Ngoài ra, bạn vẫn có thể học được một hoặc hai mẹo. Tôi đã cho bạn thấy hình ảnh này trước đó. Hãy khám phá thêm vì đây là một ví dụ tuyệt vời về ba tính năng chính của bảng
  • 50. tính: ô, hàng và cột. Chúng sẽ là một phần của hầu hết mọi thứ bạn làm trong bảng tính để tạo danh sách tạp hóa đơn giản cho đến phân tích tập dữ liệu phức tạp. Tôi sử dụng bảng tính để quản lý mọi thứ, từ tài chính cá nhân của mình cho đến bữa tiệc về quê hàng năm mà tôi và bạn bè tổ chức hàng năm. Tôi là người lập kế hoạch, vì vậy tôi sử dụng bảng tính để sắp xếp mọi thứ ngăn nắp, đảm bảo rằng chúng tôi có mọi thứ mình cần. Nói về việc giữ mọi thứ theo thứ tự, các cột được sắp xếp theo chiều dọc trong bảng tính và được sắp xếp theo chữ cái. Và các hàng được sắp xếp theo chiều ngang và được sắp xếp theo số. Vì vậy, khi bạn nói về một ô cụ thể, bạn đặt tên cho nó bằng cách kết hợp chữ cái của cột và số hàng của ô đó. Ví dụ: trong bảng tính này, hàng từ nằm trong ô D3. Hãy bắt đầu với một bảng tính thực tế. Bạn có thể hoàn thành tất cả các bước trong bất kỳ chương trình bảng tính nào. Bây giờ chúng ta hãy làm quen với bảng tính của bạn tốt hơn một chút. Chúng ta sẽ bắt đầu với một số thao tác cơ bản. Hãy nhớ rằng, với tư cách là nhà phân tích, không phải lúc nào bạn cũng tạo tập dữ liệu của riêng mình. Nhưng bây giờ, chúng ta hãy làm điều đó. Tôi sẽ nhấp vào ô A2 và nhập tên của mình như thế này. Sau đó, tôi sẽ nhấp vào ô B2 và nhập họ của mình. Đừng lo lắng nếu tên của bạn không vừa trong ô, bạn luôn có thể làm cho cột rộng hơn nếu cần. Tất cả những gì bạn phải làm là nhấp và kéo cạnh phải của cột cho đến khi tên của bạn khớp. Hoặc bạn có thể sử dụng tính năng ngắt dòng văn bản, tính năng này sẽ đặt các ô tự động thay đổi chiều cao của chúng để cho phép văn bản trong ô vừa vặn. Để sử dụng tính năng này, hãy chọn các ô, cột hoặc hàng có văn bản, sau đó sử dụng menu định dạng để xem các tùy chọn ngắt dòng văn bản. Nó được tự động thiết lập để cho phép văn bản tràn ra khỏi ô. Nhưng thay vào đó, bạn có thể ngắt văn bản để tất cả văn bản được hiển thị. Tùy chọn clip sẽ cắt văn bản trong ô để chỉ hiển thị văn bản phù hợp. Nó đây rồi. Chúng tôi đã thêm dữ liệu.
  • 51. ` Bây giờ hãy gắn nhãn cho nó. Điều này rất quan trọng đối với tổ chức. Việc thêm nhãn vào đầu cột sẽ giúp bạn tham khảo và tìm dữ liệu dễ dàng hơn sau này khi bạn thực hiện phân tích. Các nhãn cột này thường được gọi là thuộc tính. Attribute is A characteristic or quality of data used to label a column in a table. ( Thuộc tính là một đặc điểm hoặc chất lượng của dữ liệu được sử dụng để gắn nhãn cho một cột trong bảng). Thông thường hơn, các thuộc tính được gọi là tên cột, nhãn cột, tiêu đề hoặc hàng tiêu đề. Hãy thêm một số tiêu đề vào bảng của chúng tôi. Tôi sẽ nhấp vào ô A1 và nhập các từ tên. Trong ô B1, tôi sẽ nhập họ. Chúng tôi sẽ in đậm các thuộc tính này để chúng nổi bật hơn. Bảng tính có thể trở nên rất lớn, vì vậy bạn muốn đảm bảo dữ liệu của mình được dán nhãn rõ ràng và dễ tìm. Tôi có thể sử dụng con trỏ để chọn các ô có thuộc tính. Sau đó, tôi sẽ nhấp vào biểu tượng in đậm để in đậm chúng. Nhìn tốt cho đến nay. Sẵn sàng để thêm một số dữ liệu? Hãy bắt đầu với một số thuộc tính mới. Đầu tiên, tôi sẽ thêm một cột cho số lượng anh chị em ruột bằng cách nhập anh chị em ruột vào ô C1. Sau đó, tôi sẽ thêm hai thuộc tính nữa vào hai cột tiếp theo. Hãy chọn màu sắc yêu thích và món tráng miệng yêu thích. Tôi cũng sẽ in đậm chúng. Để các nhãn vừa với các ô, tôi sẽ điều chỉnh kích thước của các cột giống như trước đây.
  • 52. Bây giờ, hãy nhớ rằng có nhiều cách hơn để điều chỉnh kích thước của cột và hàng. Nếu bạn có thắc mắc về cách sử dụng bảng tính, tìm kiếm nhanh trực tuyến thường sẽ giúp bạn tìm thấy những gì bạn cần. Chúng tôi cũng đã bao gồm một bài đọc với nhiều mẹo và thông tin hơn về bảng tính. OK, chúng ta hãy quay lại với nó. Bây giờ, tôi có thể thêm dữ liệu của riêng mình vào tập dữ liệu. Tôi sẽ nhập số anh chị em của tôi và màu sắc và món tráng miệng yêu thích của tôi vào các ô thích hợp. Tiếp theo, tôi sẽ thêm dữ liệu cho hai người nữa.Bây giờ chúng ta có ba hàng dữ liệu. Trong tập dữ liệu, một hàng còn được gọi là một quan sát. (An observation includes all of the attributes for something contained in a row of a data table). Một quan sát bao gồm tất cả các thuộc tính cho một cái gì đó có trong một hàng của bảng dữ liệu. Trong trường hợp này, hàng 3 là một quan sát của Willa Stein vì chúng ta thấy tất cả các thuộc tính của cô ấy trong hàng này.
  • 53. ` Trong trường hợp này, hàng 3 là một quan sát của Willa Stein vì chúng ta thấy tất cả các thuộc tính của cô ấy trong hàng này. Vì vậy, bây giờ chúng tôi biết bảng tính cho phép bạn làm nhiều việc với dữ liệu. Bạn có thể lưu trữ và sắp xếp dữ liệu như chúng tôi đã làm trong bảng tính này. Nhưng bạn có thể tiến xa hơn nữa và nhận ra dữ liệu hiện có. Ở đây, tôi sẽ chỉ cho bạn làm thế nào. Giả sử chúng ta muốn sắp xếp dữ liệu của mình theo số anh chị em của mỗi người. Có một cách đơn giản để làm điều đó. Trước tiên, chúng ta sẽ cần chọn tất cả các cột có dữ liệu để tất cả cột được sắp xếp lại với nhau. Sau đó, chúng ta có thể vào menu dữ liệu của mình. Ở đây chúng tôi có một số tùy chọn. Hãy chọn phạm vi sắp xếp. Điều này sẽ cho phép chúng tôi chọn cách tổ chức cột. Tiếp theo, chúng tôi sẽ chọn A đến Z, sẽ sắp xếp các số của chúng tôi theo thứ tự từ nhỏ nhất đến lớn nhất. Bây giờ, chúng tôi muốn xem hàng tiêu đề, đó là từ anh chị em ruột, thuộc tính cho cột này. Chúng tôi sẽ kiểm tra hộp này. Điều này đảm bảo từ anh chị em giữ nguyên vị trí. Bây giờ chúng tôi đã sẵn sàng để sắp xếp. Thì đấy, chúng tôi vừa sắp xếp lại dữ liệu của mình bằng cách sắp xếp dữ liệu từ số nhỏ nhất đến số lớn nhất.
  • 54. ` ` Khi chúng ta tiếp tục, bạn sẽ khám phá ra nhiều cách khác để làm việc với dữ liệu trong bảng tính, bao gồm các hàm và công thức. Hãy kết thúc bằng một ví dụ nhanh về công thức. Bạn có thể coi công thức là một cách để thao tác dữ liệu trong bảng tính. Các công thức giống như một máy tính, nhưng mạnh mẽ hơn. Công thức là một tập hợp các hướng dẫn thực hiện một hành động cụ thể bằng cách sử dụng dữ liệu trong bảng tính. Để làm điều này, công thức sử dụng các tham chiếu ô cho các giá trị mà nó đang tính toán. Tôi se cho bạn xem. Chúng tôi sẽ nhấp vào ô tiếp theo trong cột anh chị em. Sau đó, chúng ta sẽ gõ một dấu bằng. Tất cả các công thức bắt đầu với biểu tượng này. Tiếp theo, chúng tôi sẽ nhập các ô mà chúng tôi muốn cộng lại với nhau. Trong trường hợp này, chúng tôi sẽ nhập C2 cộng với C3 cộng với C4. Bây
  • 55. giờ chúng ta có thể nhấn "Enter". Nó đây rồi. Công thức đã cho chúng ta tổng số anh chị em được đại diện trong bộ dữ liệu này. Chúng tôi vừa phân tích một số dữ liệu. Chúng tôi sẽ muốn lưu trữ dữ liệu để sử dụng sau này. Trong Google trang tính, bảng tính được lưu tự động vào Google Drive của bạn. Đối với Excel và các bảng tính khác, bạn sẽ lưu chúng dưới dạng tệp. Bây giờ bạn đã biết một số điều cơ bản để sử dụng bảng tính. Khi bạn đã quen với những khái niệm này, bạn sẽ có thể tìm hiểu thêm về các công cụ bảng tính. Hãy xem lại video này và tự mình thực hành. Bạn thậm chí có thể tạo phiên bản bảng tính của riêng mình bằng dữ liệu của riêng bạn. Tạm biệt bây giờ.
  • 56. Chương 2: Ngôn ngữ truy vấn có cấu trúc (SQL) SQL trong hoạt động Như bạn có thể nhớ, trước đó chúng ta đã đề cập đến ngôn ngữ truy vấn SQL. Trong video này, bạn sẽ thấy SQL hoạt động và tìm hiểu những gì bạn có thể làm với nó, với một số ví dụ về các truy vấn cụ thể. Tôi đoán bạn có thể gọi đây là phần tiếp theo của SQL. Chúng tôi sẽ cố gắng làm cho bản này hay hơn bản gốc. Hãy nhớ rằng, SQL có thể thực hiện nhiều thao tác tương tự với dữ liệu mà bảng tính có thể thực hiện. Bạn có thể sử dụng nó để lưu trữ, sắp xếp và phân tích dữ liệu của mình, trong số những thứ khác. Nhưng giống như bất kỳ phần tiếp theo hay nào, nó ở quy mô lớn hơn, lớn hơn, nhiều hành động hơn. Hãy nghĩ về nó như bảng tính siêu lớn. Ví dụ: bạn có thể muốn xem xét một bảng tính khi bạn có tập dữ liệu nhỏ hơn, chẳng hạn như bảng tính chỉ có 100 hàng. Nhưng nếu tập dữ liệu của bạn dường như tiếp tục mãi mãi và bảng tính của bạn đang cố gắng theo kịp, thì SQL sẽ là giải pháp phù hợp. Khi bạn sử dụng SQL, bạn cần một nơi để hiểu ngôn ngữ SQL. Nếu bạn đã từng đi đâu đó và không biết ngôn ngữ đó, việc giao tiếp có thể gặp khó khăn. Bạn có thể nghĩ rằng bạn đang yêu cầu một thứ và nhận được một thứ hoàn toàn khác. Chà, SQL biết cảm giác đó. SQL cần một cơ sở dữ liệu sẽ hiểu ngôn ngữ của nó. Hãy nói chuyện. Có một số cơ sở dữ liệu sử dụng SQL. Bạn có thể sử dụng một vài trong số chúng SQL Store Organize Analyze
  • 57. trong thời gian làm nhà phân tích dữ liệu. Nhưng vấn đề là, bất kể bạn sử dụng cơ sở dữ liệu nào, SQL về cơ bản hoạt động giống nhau trong mỗi cơ sở dữ liệu. Ví dụ, trong SQL, các truy vấn là phổ biến. Trước đây, chúng ta đã nói về các truy vấn, nhưng việc ôn lại không bao giờ là vấn đề. Query is A request for data or information from a database ( Câu truy vấn là Yêu cầu dữ liệu hoặc thông tin từ cơ sở dữ liệu). Ví dụ, trong SQL, các truy vấn là phổ biến. Trước đây, chúng ta đã nói về các truy vấn, nhưng việc ôn lại không bao giờ là vấn đề. Truy vấn là yêu cầu dữ liệu hoặc thông tin từ cơ sở dữ liệu. Đây là cấu trúc của một truy vấn cơ bản. Bạn có thể thấy rằng với truy vấn này, chúng tôi có thể chọn dữ liệu cụ thể từ một bảng bằng cách thêm nơi chúng tôi có thể lọc dữ liệu dựa trên các điều kiện nhất định. Bắt đầu nào. Chúng ta sẽ mở cơ sở dữ liệu của mình và xem cách SQL có thể giao tiếp với nó để thực hiện một số tác vụ dữ liệu đơn giản. Trước tiên, hãy chọn tập dữ liệu của chúng tôi. Chúng tôi sẽ sử dụng dấu hoa thị để chọn tất cả dữ liệu từ bảng. Với truy vấn đơn giản đó, cơ sở dữ liệu sẽ gọi ra bảng mà chúng ta cần. Ảo thuật. Hãy thêm Vị trí vào truy vấn của chúng ta để cho biết điều đó thay đổi dữ liệu chúng ta nhận được như thế nào. Bạn có thể thấy dữ liệu hiện chỉ chiếu những bộ phim thuộc thể loại hành động. Vậy là xong một câu truy vấn cơ bản trong SQL. Khá tuyệt phải không? Bạn sẽ sớm tìm hiểu về cách xây dựng các truy vấn phức tạp hơn. Tuy nhiên, hiện tại, chúng ta có thể ăn mừng khi tìm hiểu về cấu trúc của một truy vấn SQL cơ bản, chọn, từ và ở đâu. Khi bạn tiếp tục chương trình, bạn có cơ hội tự mình sử dụng SQL. Tôi hy vọng video này là một cái nhìn lén lút hữu ích về những gì sẽ xảy ra sau này. Angie: Vật lộn mỗi ngày khi học những kỹ năng mới Tôi là Angie, tôi là Giám đốc Kỹ thuật Chương trình tại Google. Tôi hiện đang học chứng chỉ Data Analytics. Trước đây, tôi là nhà nghiên cứu về phân tích con người. Tôi cũng
  • 58. là người mà tôi gọi là lính đánh thuê phân tích làm việc cho nhiều công ty khác nhau để giúp họ hiểu dữ liệu của mình. Mỗi khi tôi học được một kỹ năng mới, tôi cảm thấy như mình đang học cách nói lại từ đầu. Tôi nhớ lần đầu tiên tôi học SQL, tôi đã rất thất vọng vì mọi người xung quanh tôi, có cảm giác như họ thông thạo, họ biết chính xác những gì họ đang làm. Tôi nhớ mình đã phải vật lộn với những điều cơ bản nhất, chẳng hạn như lấy dữ liệu ra khỏi bảng hoặc tôi nhớ ai đó đã yêu cầu tôi chỉ tìm giá trị trung bình của một thứ gì đó và tôi liên tục gặp lỗi. Nó thực sự có cảm giác như bạn đang học một ngôn ngữ mới và bạn đang ở trình độ chập chững biết đi và mọi người xung quanh bạn dường như có thể thông thạo. Cha mẹ tôi di cư đến đất nước này khi họ ở độ tuổi 30. Sau khi họ đã học được một ngôn ngữ khác và họ phải bắt đầu lại và học tiếng Anh. Tôi nhớ khi còn nhỏ chứng kiến họ vật lộn mỗi ngày để học một ngôn ngữ mới, để làm những việc thực sự cơ bản, chẳng hạn như nhờ giúp đỡ ở cửa hàng tạp hóa. Tôi nhớ mình đã gọi điện cho công ty truyền hình cáp khi tôi lên sáu tuổi, hỏi họ về hóa đơn thanh toán vì bố mẹ tôi không thể. Tôi nhớ họ đã làm việc chăm chỉ như thế nào để học ngôn ngữ mới này và trở nên thông thạo và mỗi khi tôi học một ngôn ngữ dữ liệu mới như SQL hoặc R, tôi lại nghĩ về việc đó hẳn đã khó khăn như thế nào. Tôi nghĩ nếu họ làm được điều đó thì tôi có thể học SQL. Nếu họ có thể yêu cầu trợ giúp về những điều cơ bản nhất, tôi có thể hỏi Nhà phân tích dữ liệu bên cạnh cách viết câu lệnh SQL và cách lấy dữ liệu ra khỏi bảng. Điều đó thực sự đã giúp tôi, chỉ cần có suy nghĩ đó và biết rằng tôi có thể nhờ giúp đỡ.
  • 59. Chương 3: Trực quan hóa dữ liệu Becoming a data viz whiz Hộp công cụ phân tích dữ liệu của bạn đã đầy. Tìm hiểu về cả Bảng tính và SQL sẽ giúp bạn tiến xa trong thế giới phân tích dữ liệu. Tất nhiên, còn nhiều điều để tìm hiểu và nhiều công cụ khác mà bạn có thể sử dụng, nhưng tương lai của bạn có vẻ tươi sáng. Nó thậm chí còn sáng sủa hơn vì chúng ta ở đây để nói nhiều hơn về trực quan hóa dữ liệu. Tôi sẽ cho bạn biết thêm một chút về vai trò của các công cụ trực quan hóa dữ liệu và phân tích dữ liệu, đồng thời cho bạn cơ hội xem những công cụ đó hoạt động ở phần sau trong video này. Bạn có thể nhớ rằng trực quan hóa dữ liệu là biểu diễn đồ họa của thông tin. Đối với rất nhiều nhà phân tích dữ liệu, đó là phần thú vị nhất trong công việc của họ vì họ thấy công việc khó khăn của mình được đền đáp bằng một điều gì đó thú vị. Chưa kể rằng trực quan hóa dữ liệu là đẹp và hữu ích. Tôi đã rất phấn khích khi truy cập Google và bắt đầu nhận được báo cáo dữ liệu hàng quý trong e-mail của mình và có một trang trình bày lớn nơi mọi người đóng góp hình ảnh trực quan của họ. Đó chắc chắn là một nguồn sáng khi tôi bắt đầu xây dựng những hình dung của riêng mình. Nếu bạn không ấn tượng với câu chuyện của tôi, hãy để tôi kể cho bạn nghe về Florence Nightingale. Cái tên đó có rung chuông không? Cô ấy chịu trách nhiệm về phần lớn triết lý của ngành điều dưỡng hiện đại và tin hay không thì tùy, cô ấy cũng là một nhà phân tích dữ liệu. Trong Chiến tranh Krym vào những năm 1850, hàng ngàn binh sĩ thiệt mạng mỗi ngày, Nightingale muốn tìm cách giảm số người chết. Sau khi kiểm tra dữ liệu, cô ấy phát hiện ra rằng phần lớn binh lính đang chết vì những điều kiện có thể ngăn ngừa được. Để thuyết phục các nhà quản lý bệnh viện rằng họ cần tập trung vào những tình trạng này, cô ấy đã tạo một biểu đồ thể hiện số ca tử vong trong vài tháng. Các phần màu xanh lam lớn hơn nhiều trong hình ảnh đại diện cho những cái chết có thể ngăn ngừa được. Công việc của cô đã trực tiếp dẫn đến những thay đổi lớn trong việc chăm sóc bệnh nhân. Cô ấy đã làm tất cả những điều này hơn 150 năm trước mà không cần máy tính. Một trong những lý do chính khiến Nightingale tạo ra hình ảnh trực quan này là để giúp khán giả của cô ấy tiếp thu dữ liệu dễ dàng hơn. Cô ấy cảm thấy mình sẽ thành công hơn khi thuyết phục các bên liên quan bằng cách sử dụng hình ảnh thay vì chỉ từ ngữ và con số. Cô ấy đã đúng, các bảng chứa đầy dữ liệu, mặc dù cần thiết để phân tích, nhưng không thể hiển thị các xu hướng và mẫu nhanh chóng và rõ ràng như hình ảnh trực quan có thể. Hãy tưởng tượng, bạn nhận được một nhiệm vụ cần phải hoàn thành ngay trong ngày. Bạn thu thập dữ liệu bạn cần trong một bảng, bạn có thể giải thích những phát hiện của mình bằng bảng không? Có, bạn có thể làm được, nhưng một ý tưởng tốt hơn là sử dụng hình ảnh
  • 60. trực quan như biểu đồ thanh này. Một cái gì đó như thế này giúp bạn giải thích nhanh chóng dễ dàng hơn nhiều và bạn đã nhận được lợi ích của một hình ảnh tuyệt vời để sao lưu phân tích của mình. Là một nhà phân tích dữ liệu, bạn sẽ muốn tạo các hình ảnh trực quan giúp dữ liệu dễ hiểu và thú vị khi xem, vì vậy hãy thể hiện nó. Các bên liên quan có thể không có nhiều thời gian để dành cho dữ liệu, công việc của bạn sẽ là làm cho thời gian của họ trở nên đáng giá. Hãy quay lại bảng dữ liệu mà chúng ta đã tạo trước đó trong khóa học. Nếu bạn đã tạo của riêng mình để thực hành, bạn có thể mở nó ngay bây giờ hoặc thử sau. Đây là dữ liệu chúng tôi đã thêm trước đó. Hãy tạo trực quan hóa dữ liệu bằng cách chèn biểu đồ, biểu đồ thanh. Bạn có thể thấy rằng bảng tính đã trực quan hóa dữ liệu từ bảng của chúng tôi theo cách có ý nghĩa nhất. Nó tạo ra một biểu đồ thanh hoặc biểu đồ cột để so sánh tuổi của từng người theo tên, nhưng bạn có thể đã hình dung ra điều đó rồi.
  • 61. Đó là vẻ đẹp của trực quan hóa, nó cho thấy phân tích dữ liệu một cách nhanh chóng và rõ ràng. Chúng ta có thể sử dụng chart editor để điều chỉnh biểu đồ. Các chương trình bảng tính khác nhau có thể có những cách khác nhau để thực hiện việc này, nhưng tất cả chúng đều có chức năng trực quan hóa và cách chỉnh sửa những trực quan hóa đó. Bây giờ, chúng ta hãy xem các biểu đồ gợi ý. Chúng ta có thể làm cho các thanh đi theo chiều ngang bằng cách sử dụng biểu đồ thanh. Điều đó trông thật tuyệt, vì vậy hãy đóng trình chỉnh sửa Biểu đồ. Có rất nhiều tùy chọn để xem xét, nhưng bây giờ chúng tôi sẽ giữ nó ở mức cơ bản. Hãy thử các hình dung khác nếu bạn thực hành sau này. Bây giờ, chúng ta có thể điều chỉnh biểu đồ của mình để làm cho toàn bộ bảng tính của chúng ta trông rõ ràng và chuyên nghiệp. Xuất sắc. Tôi hy vọng bạn học cách yêu thích trực quan hóa dữ liệu nhiều như tôi.
  • 62. Có thể bạn sẽ trở thành người tiên phong về trực quan hóa dữ liệu, giống như Florence Nightingale. Là một nhà phân tích dữ liệu mới bắt đầu, bạn đã bắt đầu lấp đầy vành đai tiện ích của mình bằng các công cụ có giá trị mà bạn sẽ sử dụng trong suốt phần còn lại của chương trình. Có bảng tính, SQL và bí quyết trực quan hóa dữ liệu sẽ giúp bạn trở thành một thám tử dữ liệu xuất sắc. Bạn sẽ có thể sử dụng các công cụ này trong suốt quá trình phân tích dữ liệu khi bạn tiến lên phía trước. Tiếp theo, bạn hoàn thành một vài hoạt động để kết thúc phần này của chương trình. Bạn cũng sẽ hoàn thành một bài đánh giá để kiểm tra sự hiểu biết của mình về tất cả những gì bạn học được. Đây là một cơ hội tuyệt vời để suy nghĩ về một số lĩnh vực mà bạn sẽ tiếp tục khám phá trong khóa học này và trong sự nghiệp của mình.
  • 63. Như thường lệ, vui lòng xem lại các video và bài đọc để giúp nhắc nhở bạn về các chủ đề và ý tưởng nhất định, ngay cả khi bạn đã chuẩn bị sẵn sàng. Bạn chỉ còn vài bước nữa là đến khóa học tiếp theo, đó là một tiến bộ tuyệt vời. Keep it up.
  • 64. Tuần 5: Khả năng nghề nghiệp vô tận Các doanh nghiệp thuộc mọi loại hình đều đánh giá cao công việc được thực hiện bởi các nhà phân tích dữ liệu. Trong phần này của khóa học, bạn sẽ tìm hiểu về các doanh nghiệp này cũng như các công việc và nhiệm vụ cụ thể mà các nhà phân tích thực hiện cho họ. Bạn cũng sẽ tìm hiểu cách chứng chỉ nhà phân tích dữ liệu sẽ giúp bạn đáp ứng nhiều yêu cầu cho một vị trí trong các doanh nghiệp này. Mục tiêu học tập:  Mô tả vai trò của nhà phân tích dữ liệu với tham chiếu cụ thể đến vai trò công việc  Thảo luận về cách Chứng chỉ Google Data Analytics có thể giúp ứng viên đáp ứng các yêu cầu của một công việc nhất định  Giải thích cách một nhiệm vụ kinh doanh có thể phù hợp với nhà phân tích dữ liệu, có liên quan đến sự công bằng và giá trị của nhà phân tích dữ liệu  Xác định các công ty có khả năng thuê các nhà phân tích dữ liệu  Mô tả cách kinh nghiệm trước đây của một người có thể được áp dụng cho sự nghiệp là nhà phân tích dữ liệu  Xác định xem việc sử dụng dữ liệu có cấu thành các thông lệ công bằng hay không công bằng hay không  Hiểu các cách khác nhau mà các tổ chức sử dụng dữ liệu  Giải thích khái niệm ra quyết định dựa trên dữ liệu bao gồm các ví dụ cụ thể Chương 1: Cơ hội việc làm chuyên viên phân tích dữ liệu Hãy bắt tay vào công việc Này, thật tuyệt khi có bạn trở lại. Bây giờ là lúc để bắt tay vào công việc. Chúng ta sẽ bắt đầu nói về những cách thực tế mà các doanh nghiệp đang sử dụng dữ liệu và những cơ hội mà dữ liệu đó có thể tạo ra cho bạn. Cho đến nay, bạn đã học được rất nhiều kỹ năng phân tích dữ liệu thực tế. Với một vài video tiếp theo này, chúng ta sẽ chuyển hướng một chút và nói về lý do tại sao bạn học những kỹ năng này. Hy vọng rằng điều này sẽ cung cấp cho bạn nhiều góc nhìn hơn về những loại cơ hội nào dành cho bạn. Sắp tới, chúng ta sẽ nói nhiều hơn về:  Vai trò của các nhà phân tích dữ liệu  Nhiệm vụ mà những vai trò này yêu cầu  Tầm quan trọng của sự công bằng, tránh thiên vị  Phân tích dữ liệu đối với nhiệm vụ kinh doanh  Cơ hội mà bạn có thể khai thác trong tương lai
  • 65. Vì vậy, với tất cả những điều đó trong tâm trí, hãy bắt đầu. Công việc của một nhà phân tích dữ liệu Trước đây, chúng ta đã tìm hiểu về công việc của một nhà phân tích dữ liệu và tại sao công việc đó lại có giá trị như vậy. Bây giờ, hãy xem nơi các nhà phân tích dữ liệu thực sự làm công việc của họ. Bạn sẽ tìm hiểu thêm về các ngành mà bạn có thể làm việc với tư cách là nhà phân tích dữ liệu. Và cách các công ty trong các lĩnh vực này đã sử dụng phân tích dữ liệu để thực hiện một số điều thực sự thú vị. Có rất nhiều doanh nghiệp ngoài kia có nhu cầu lớn về các kỹ năng mà bạn đang học ngay bây giờ. Trong các ngành như công nghệ, tiếp thị, tài chính, chăm sóc sức khỏe, v.v. các công ty thực sự đã sử dụng phân tích dữ liệu để đi đầu. Và họ càng sử dụng nhiều dữ liệu trong doanh nghiệp của mình, họ càng hiểu tầm quan trọng của nhà phân tích dữ liệu như bạn đối với thành công của họ. Hãy xem một ví dụ thực tế về thương hiệu mà bạn có thể sẽ nhận ra, Coca-Cola. Dữ liệu đang thay đổi cách Coca-Cola tiếp cận các chiến lược tiếp thị của mình. Coca-Cola sử dụng dữ liệu được thu thập từ phản hồi của người tiêu dùng để tạo quảng cáo nói chuyện trực tiếp với các đối tượng khác nhau với những sở thích khác nhau. Cái này hoạt động ra sao? Bạn có biết những chiếc máy bán Coca-Cola công nghệ cao mà đôi khi bạn thấy ở rạp chiếu phim không? Thật thú vị khi được tạo ra hương vị của riêng bạn. Chà, những cỗ máy đó được tích hợp sẵn các công cụ phân tích dữ liệu và trí tuệ nhân tạo. Điều này giúp Coca-Cola nhìn thấy tất cả các kiểu kết hợp hương vị khác nhau mà mọi người đang nghĩ ra, sau đó họ có thể sử dụng chúng làm nguồn cảm hứng cho các sản phẩm mới. Thật ngầu làm sao! Bạn đã bao giờ tự hỏi làm thế nào Google cung cấp cho bạn câu trả lời đúng cho bất kỳ câu hỏi nào chỉ trong vài giây chưa? Điều đó cũng được cung cấp bởi dữ liệu. Chúng tôi sử dụng tất cả các loại dữ liệu để xác định độ tin cậy và độ chính xác của trang web nhằm đảm bảo bạn nhận được kết quả hữu ích nhất cho bất kỳ tìm kiếm nào bạn thực hiện. Nhưng không chỉ các công ty lớn như Coca-Cola và Google sử dụng dữ liệu. Các doanh nghiệp nhỏ ở khắp mọi nơi cũng đang bắt đầu tận dụng những hiểu biết sâu sắc dựa trên dữ liệu để cải thiện hoạt động của họ và đưa ra quyết định tốt hơn. Các doanh nghiệp nhỏ có thể sử dụng dữ liệu để làm mọi thứ. Họ có thể sử dụng phân tích dữ liệu để hiểu rõ hơn về thói quen mua hàng của khách hàng, tạo thông điệp truyền thông xã hội hiệu quả hơn hoặc trong trường hợp sở thú và thủy cung của một thành phố, dự đoán số lượng khách hàng ngày dựa trên dữ liệu khí hậu địa phương. Vườn thú và thủy cung thành phố nhận ra rằng, vào những ngày mưa, họ chứng kiến lượng người tham dự giảm đi rất nhiều, nhưng họ không có cách nào để dự đoán chính xác khi nào những ngày mưa đó sẽ đến. Điều này làm cho nhân sự trở thành một thách thức thực sự. Có những ngày họ thấy mình thừa nhân viên, những ngày khác họ không chuẩn bị cho
  • 66. lượng khách đổ về. Để giải quyết vấn đề này, nhà phân tích dữ liệu đã lấy nhiều năm ghi lại thời tiết từ sở thú và sử dụng dữ liệu đó để dự đoán chính xác các kiểu thời tiết trong tương lai. Điều này giúp sở thú dễ dàng biết họ cần bao nhiêu nhân viên khi nào. Vì sở thú có thể dự đoán và quản lý nhu cầu nhân sự của họ chính xác hơn nên họ có thể cung cấp trải nghiệm tốt hơn cho khách tham quan và dành nhiều nguồn lực hơn để tạo ra trải nghiệm tốt hơn cho động vật. Chúng tôi thấy một điều tương tự trong ngành chăm sóc sức khỏe. Các nhà phân tích dữ liệu của họ xem xét dữ liệu về số lượng người đến phòng khám để giúp các bệnh viện và văn phòng bác sĩ dự đoán khi nào sẽ đến giờ cao điểm để họ có thể sẵn sàng cho việc đó. Bệnh viện thành phố địa phương của bạn là một ví dụ tuyệt vời. Giả sử họ nhận được phàn nàn về thời gian chờ đợi lâu. Đôi khi kéo dài một giờ hoặc hơn, điều này khiến một số bệnh nhân khó nhận được sự chăm sóc mà họ cần. Vì vậy, nhà phân tích dữ liệu sử dụng dữ liệu về lưu lượng người qua lại hàng ngày của bệnh viện để giúp họ đưa ra quyết định sáng suốt hơn về số lượng bác sĩ mà họ cần trong đội ngũ nhân viên tại bất kỳ thời điểm nào. Điều này giúp giảm thời gian chờ đợi, cải thiện trải nghiệm của bệnh nhân và tận dụng tốt hơn thời gian của nhân viên y tế. Như tôi đã nói, có nhiều cách mà các công ty trong các ngành khác nhau đưa dữ liệu vào sử dụng, nhưng họ chỉ có thể làm điều đó nếu họ có nhà phân tích dữ liệu mà họ có thể dựa vào. Vì vậy, bạn có thể tự hỏi, làm thế nào bạn phù hợp với phương trình? Chà, bạn có rất nhiều lựa chọn, nhưng bạn không cần phải quyết định ngay mình muốn làm việc trong ngành nào. Sẽ có nhiều thời gian để suy nghĩ về điều đó khi bạn hoàn thành chương trình này. Vào thời điểm bạn hoàn thành chương trình này, bạn có các kỹ năng cốt lõi giúp bạn có giá trị trong bất kỳ ngành nào đưa ra quyết định dựa trên dữ liệu. Hóa ra, đó là hầu hết các ngành công nghiệp, thậm chí cả sở thú. Sắp tới, chúng ta sẽ kiểm tra nhiệm vụ kinh doanh mà dữ liệu có thể hữu ích. Và, chúng ta sẽ khám phá nhiều hơn nữa cách các nhà phân tích dữ liệu trao quyền cho các doanh nghiệp thông qua dữ liệu. Tôi sẽ gặp bạn sau. Joey: Con đường trở thành nhà phân tích dữ liệu Xin chào, tôi là Joey và tôi làm việc với tư cách là người quản lý chương trình phân tích trong REWS. Bây giờ REWS là viết tắt của dịch vụ bất động sản và nơi làm việc, và công việc của tôi là đưa dữ liệu và phân tích vào quá trình ra quyết định ở đây, đặc biệt là liên quan đến việc tạo ra một môi trường làm việc an toàn và vui vẻ. Hành trình đến với phân tích của tôi hơi khác một chút ở chỗ tôi không có kế hoạch hoặc thực sự không thấy mình đang ở vị trí hiện tại. Bây giờ may mắn thay, tôi đã bắt đầu tham gia một chương trình luân phiên có tên là chương trình HRA trong các hoạt động của con người, chương trình này giúp tôi có khả năng
  • 67. đóng ba vai trò khác nhau về cơ bản. Tôi đã có năng lực tổng quát trong vai trò chuyên gia và là một nhà phân tích, và tôi thực sự tìm thấy tình yêu và niềm đam mê trong công việc phân tích. Tôi bắt đầu tham gia nhóm trí tuệ doanh nghiệp, công việc của họ là cung cấp báo cáo dựa trên SQL cho doanh nghiệp. Tôi nhận ra rằng phân tích là con đường sự nghiệp phù hợp với mình khi tôi thấy mình thích đi làm và hoàn thành công việc của mình. Và tôi nghĩ rằng tôi có thể kết nối điều đó với hai niềm đam mê của tôi. Đầu tiên là giải quyết vấn đề. Tôi thích giải quyết một vấn đề phức tạp, một bí ẩn, một câu đố và có thể tìm ra câu trả lời cũng như đưa ra giải pháp. Và điều thứ hai là có thể làm việc với mọi người và giúp đỡ mọi người. Trong phân tích, tôi cảm thấy chìa khóa thành công là có thể kết hợp khía cạnh cá nhân với khía cạnh kỹ thuật. Khi bắt đầu sự nghiệp của mình, tôi tập trung nhiều hơn một chút vào các phần kỹ thuật và tôi muốn đảm bảo rằng mình có kiến thức kỹ thuật phù hợp để có thể trả lời các câu hỏi. Nhưng những gì tôi nhận thấy là theo thời gian, tôi cần phát triển mặt khác cũng nhiều như vậy. Và tôi nghĩ rằng sự nghiệp của mình đã cho phép tôi có những cơ hội đó để vận dụng sức lực đó, phần tương tác của con người và phần kỹ thuật để đảm bảo rằng cả hai đều phát triển vào cuối ngày. Tony: Hỗ trợ sự nghiệp trong lĩnh vực phân tích dữ liệu Đối với bất kỳ nhà phân tích nào, đối với bất kỳ người nào thì trung thực là ở giai đoạn đầu của sự nghiệp, việc hiểu dữ liệu, tôn trọng dữ liệu và biết cách làm việc với dữ liệu là vô cùng quan trọng bởi vì, tầm nhìn của tôi là mọi vai trò dưới một hình thức hoặc thời trang nào đó sẽ liên quan đến dữ liệu và dữ liệu của nó sử dụng trong việc tìm hiểu cách rút ra những hiểu biết sâu sắc từ nó sẽ là cốt lõi của bất kỳ vai trò quan trọng nào trong bất kỳ tổ chức công ty nào. Nói chung trong hai năm đầu tiên đó, bạn đang phát triển các bộ kỹ năng cốt lõi giúp bạn trở thành một nhà tổng quát tuyệt vời, và sau đó trong 2-5 năm tiếp theo, bạn sẽ học về một điều gì đó rất cụ thể vì nó liên quan đến công việc của bạn. Cho dù đó là lĩnh vực mà bạn đang hỗ trợ hay có thể là một thành phần rất kỹ thuật. Chẳng hạn, giả sử bạn muốn trở thành chuyên gia SQL để có thể thao tác với các tập dữ liệu lớn cho mục đích phân tích tài chính. Tương tự, ngay cả khi bạn tham gia lĩnh vực tài chính với tư cách là nhà phân tích dữ liệu, bạn vẫn có thể rời khỏi lĩnh vực tài chính và chuyển sang lĩnh vực mà nhiều người thích gọi là doanh nghiệp, thường là Bộ phận Hoạt động của bạn và trở thành nhà phân tích kinh doanh hoặc nhà phân tích dữ liệu. Có rất nhiều con đường khác nhau mà bạn có thể đi từ điểm bắt đầu mà bạn thực sự không thể đoán trước được kết thúc của mình. Tôi thực sự đam mê làm việc cùng và hỗ trợ những người trẻ tuổi cũng như thực sự giúp họ có bước khởi đầu trong sự nghiệp. Thành thật mà nói, điều này bắt nguồn từ kinh
  • 68. nghiệm cá nhân của tôi, trong hai năm đầu tiên của sự nghiệp, về cơ bản tôi không nhận được sự hỗ trợ nào từ người quản lý và chuỗi quản lý trực tiếp của mình. Trải qua trải nghiệm đó trong vài năm đầu tiên của tôi, tôi nhận ra và tôi cảm thấy kinh nghiệm rằng điều đó có thể làm bạn chậm lại như thế nào, và đặc biệt khi bạn là người có nhiều tiềm năng và nhiều khả năng, bạn muốn ở trong một môi trường khuyến khích khả năng đó và thực sự muốn thấy bạn phát triển. Tôi nghĩ rằng việc có những chương trình như thế này là vô cùng quan trọng để loại bỏ tất cả các rào cản loại bỏ bất kỳ cấu trúc nào ngăn cản mọi người tìm ra những gì họ cần để trở thành trong một ngành như thế này, để thành công trong vai trò như một nhà phân tích dữ liệu, để bản thân họ có thể mơ về nơi họ có thể đi tới trong sự nghiệp của mình. Tôi tên la Tony. Tôi là người quản lý chương trình Tài chính tại Google.
  • 69. Chương 2: Tầm quan trọng của các quyết định kinh doanh công bằng Sức mạnh của dữ liệu trong kinh doanh Là một nhà phân tích dữ liệu, bạn sẽ giải quyết các nhiệm vụ kinh doanh giúp các công ty sử dụng dữ liệu. Sắp tới, chúng ta sẽ nói nhiều hơn về nhiệm vụ kinh doanh thực sự là gì và một số ví dụ về những gì chúng có thể trông như thế nào trong công việc phân tích dữ liệu thực tế. Hãy dành một chút thời gian và nghĩ lại những ví dụ thực tế về các doanh nghiệp sử dụng phân tích dữ liệu và hoạt động của họ mà chúng ta đã thấy trước đây. Bạn có thể nhận thấy một chủ đề chung trong mọi ví dụ. Tất cả đều có vấn đề cần khám phá, câu hỏi cần trả lời hoặc vấn đề cần giải quyết. Thật dễ dàng để những thứ này trộn lẫn với nhau. Đây là một cách để giữ chúng thẳng thắn khi chúng ta nói về chúng trong phân tích dữ liệu.  Issue is A topic or subject to investigate.  Question is Designed to discover information.  Problem is An obstacle or complication that needs to be worked out. Coca-Cola đã có một câu hỏi về sản phẩm mới. Phân tích dữ liệu đã cho họ cái nhìn sâu sắc về hương vị mới mà khách hàng đã thích. Sở thú và Thủy cung Thành phố gặp vấn đề về nhân sự. Dữ liệu, đã giúp họ tìm ra chiến lược nhân sự tốt nhất. Những câu hỏi và vấn đề này trở thành nền tảng cho tất cả các loại nhiệm vụ kinh doanh mà bạn sẽ giúp giải quyết với tư cách là nhà phân tích dữ liệu. Business task is The question or problem data analysis answers for a business. (Tác vụ nghiệp vụ là Bài toán hay câu hỏi cần phân tích dữ liệu để giải quyết vấn đề cho một doanh nghiệp.) Đây là nơi bạn tập trung nhiều nỗ lực vào công việc bạn sẽ làm cho các nhà tuyển dụng trong tương lai. Hãy tiếp tục với ví dụ sở thú của chúng ta và xem liệu chúng ta có thể hình dung tác vụ nghiệp vụ của sở thú sẽ như thế nào không. Chúng tôi biết vấn đề, thời tiết không thể đoán trước khiến sở thú khó dự đoán nhu cầu nhân sự. Có thể nhiệm vụ kinh doanh có thể giống như phân tích dữ liệu thời tiết từ thập kỷ trước để xác định các mẫu có thể dự đoán được. Sau đó, các nhà phân tích dữ liệu có thể lập kế hoạch cách tốt nhất để thu thập, phân tích và trình bày dữ liệu cần thiết để giải quyết nhiệm vụ này và đáp ứng các mục tiêu của sở thú. Sau đó, bằng cách sử dụng dữ liệu, sở thú sẽ có thể đưa ra quyết định sáng suốt về nhân sự hàng ngày của họ. Chúng ta đã nói một chút về việc ra quyết định dựa trên dữ liệu trong các video trước. Nhưng chỉ trong trường hợp bạn cần bồi dưỡng, nó đây. Data-driven decision-making is Using facts to guide business strategy. (Ra quyết định dựa trên dữ liệu là Sử dụng dữ kiện để định hướng chiến lược kinh doanh.)
  • 70. Cách đơn giản nhất để nghĩ về việc ra quyết định là đó là sự lựa chọn giữa hậu quả, tốt, xấu hoặc kết hợp cả hai. Trong ví dụ về sở thú của chúng tôi, sở thú có dữ liệu họ cần để đưa ra quyết định sáng suốt nhằm giải quyết vấn đề của họ. Nhưng nếu họ đưa ra quyết định này mà không có dữ liệu thì sao? Giả sử họ chỉ dựa vào khả năng quan sát và trí nhớ để theo dõi thời tiết và lập lịch trình nhân sự. Chà, chúng tôi đã biết rằng điều đó sẽ không giải quyết được vấn đề của họ lâu dài. Phân tích dữ liệu đã cung cấp cho họ thông tin họ cần để tìm giải pháp tốt nhất có thể cho vấn đề của họ. Đó là sức mạnh của dữ liệu. Quan sát và trực giác là những công cụ mạnh mẽ trong việc ra quyết định, nhưng chúng chỉ có thể đưa chúng ta đi xa hơn khi chúng ta đưa ra quyết định chỉ dựa trên quan sát và cảm tính, chúng ta chỉ nhìn thấy một phần của bức tranh. Dữ liệu giúp chúng ta nhìn thấy toàn bộ. Với dữ liệu, chúng tôi có một bức tranh toàn cảnh về vấn đề và nguyên nhân của nó, cho phép chúng tôi tìm ra các giải pháp mới và đáng ngạc nhiên mà chúng tôi chưa từng thấy trước đây. Phân tích dữ liệu giúp doanh nghiệp đưa ra quyết định tốt hơn. Tất cả bắt đầu với một nhiệm vụ kinh doanh và câu hỏi mà nó đang cố gắng trả lời. Với các kỹ năng bạn sẽ học trong suốt chương trình này, bạn sẽ có thể đặt câu hỏi phù hợp, lập kế hoạch cách tốt nhất để thu thập và phân tích dữ liệu, sau đó trình bày dữ liệu đó một cách trực quan để trang bị cho nhóm của bạn để họ có thể đưa ra dữ liệu đầy đủ thông tin, đưa ra quyết định. Điều đó làm cho bạn trở nên quan trọng đối với sự thành công của bất kỳ doanh nghiệp nào mà bạn làm việc. Dữ liệu là một công cụ mạnh mẽ. Với sức mạnh to lớn đến, tốt, bạn biết phần còn lại. Và bạn đang làm rất tốt việc thu thập tất cả thông tin này. Tiếp theo, chúng ta sẽ nói về trách nhiệm của bạn với tư cách là nhà phân tích dữ liệu để đảm bảo rằng bạn đang thu thập, phân tích và trình bày dữ liệu theo cách công bằng với những người được dữ liệu đó đại diện. Rachel: Thám tử dữ liệu Xin chào, tên tôi là Rachel và tôi là Trưởng nhóm phân tích và hệ thống kinh doanh tại Verily. Có rất nhiều loại vấn đề khác nhau mà một nhà phân tích dữ liệu có thể giải quyết. Tôi đã đủ may mắn trong sự nghiệp của mình để được chứng kiến rất nhiều trong số chúng và tiếp nhận rất nhiều loại dữ liệu rất khác nhau và giúp biến chúng thành những câu trả lời có ý nghĩa. Tôi nghĩ một trong những điều quan trọng nhất cần nhớ về phân tích dữ liệu là dữ liệu là dữ liệu. Tôi là một nhà phân tích dữ liệu tài chính và do đó, vai trò của tôi tại Verily là lấy tất cả thông tin tài chính của chúng tôi, tất cả thông tin về số tiền chúng tôi đang chi tiêu và số tiền chúng tôi đang kiếm được, rồi chuyển chúng thành các báo cáo và thông tin chi tiết để đầu mối kinh doanh của chúng tôi có thể hiểu những gì chúng tôi đang làm. Một trong những điều quan trọng nhất mà tôi đã làm tại Verily gần đây là giúp tạo ra cái được gọi là báo cáo lãi lỗ cho từng đơn vị kinh doanh của chúng tôi. Điều đó có nghĩa là
  • 71. trong thời gian thực, các nhóm của chúng tôi có thể biết ngân sách của họ là bao nhiêu và họ đang chi tiêu như thế nào so với ngân sách đó. Điều đó giúp các nhóm của chúng tôi duy trì ngân sách đó bằng cách tăng dòng doanh thu của họ để họ có nhiều tiền hơn để chơi hoặc giảm chi tiêu để họ có thể giữ mình trong ngân sách đó. Tất cả những điều đó thực sự giúp chúng tôi đi đúng hướng với tư cách là một công ty trong việc đảm bảo rằng chúng tôi đang đạt được các mục tiêu của mình. Tôi thấy rằng dữ liệu hoạt động như một thứ sống và thở. Khi bạn có rất nhiều điểm dữ liệu, bạn có thể bị choáng ngợp khi lần đầu tiên ngồi xuống để hiểu ý nghĩa của nó. Bạn có hàng tấn cột, hàng tấn bản ghi, hàng tấn loại dữ liệu khác nhau và việc tìm ra cách hiểu được điều đó thực sự khó khăn và đó là lúc chuyên môn của một nhà phân tích dữ liệu phát huy tác dụng. Đó là một trong những khoảnh khắc khó chịu nhất trong sự nghiệp của tôi, nhưng cũng là một trong những công việc bổ ích nhất mà tôi từng làm khi cuối cùng nó kết hợp với nhau. Lời khuyên tốt nhất mà tôi dành cho bất kỳ nhà phân tích dữ liệu nào mới bắt đầu là hãy kiên trì. Nếu góc bạn đang chụp không hiệu quả, hãy thử tìm một góc khác. Hãy thử tiếp cận nó theo một cách khác, thử đặt một câu hỏi khác, và cuối cùng dữ liệu sẽ mang lại kết quả và bạn sẽ nhận được thông tin chi tiết mà mình đang tìm kiếm. Hiểu dữ liệu và sự công bằng Cho đến nay, chúng ta đã đề cập đến các vai trò khác nhau của các nhà phân tích dữ liệu trong môi trường kinh doanh và các loại nhiệm vụ đi kèm với các vai trò đó. Nhưng các nhà phân tích dữ liệu có một trách nhiệm quan trọng khác: đảm bảo rằng các phân tích của họ là công bằng. Bây giờ, tôi biết bạn có thể đang nghĩ gì, dữ liệu dựa trên các sự kiện được thu thập, làm sao có thể không công bằng? Vâng, đó là một câu hỏi hay. Hãy cùng tìm hiểu ý nghĩa của sự công bằng khi chúng ta nói về phân tích dữ liệu và lý do tại sao điều quan trọng đối với bạn với tư cách là một nhà phân tích là phải ghi nhớ. Fairness is Ensuring that you analysis doesn’t create or reinforce bias ( Công bằng là Chất lượng phân tích dữ liệu không tạo ra hoặc gia tăng sự thiên vị). Nói cách khác, với tư cách là nhà phân tích dữ liệu, bạn muốn giúp tạo ra các hệ thống công bằng và toàn diện cho mọi người. Nghe có vẻ đủ đơn giản? Chà, đây là phần khó nhất về tính công bằng trong phân tích dữ liệu. Không có một định nghĩa tiêu chuẩn nào về nó, nhưng hy vọng rằng cách chúng tôi vừa mô tả có thể cho bạn một cách để nghĩ về sự công bằng ngay lúc này, nhưng nó sắp trở nên phức tạp hơn một chút. Đôi khi kết luận dựa trên dữ liệu có thể đúng và không công bằng. Bạn có thể làm gì sau đó? Vâng, chúng ta hãy tìm hiểu với một ví dụ. Giả sử chúng ta có một công ty nổi tiếng là một câu lạc bộ nam. Không có nhiều đại diện của các giới tính khác. Công ty này muốn xem nhân viên nào đang làm tốt, vì vậy họ bắt đầu thu thập dữ liệu về hiệu suất của nhân viên và văn hóa công ty của chính họ. Dữ liệu cho thấy nam giới là những người duy nhất thành
  • 72. công tại công ty này. Kết luận của họ? Rằng họ nên thuê thêm đàn ông. Rốt cuộc, họ đang làm rất tốt ở đây, phải không? Nhưng đó không phải là một kết luận công bằng vì một vài lý do. Đầu tiên, nó thậm chí không xem xét tất cả các dữ liệu có sẵn về văn hóa công ty, vì vậy nó vẽ nên một bức tranh không hoàn chỉnh. Thứ hai, nó không nghĩ đến các yếu tố xung quanh khác ảnh hưởng đến dữ liệu, hay nói cách khác, kết luận không xem xét những khó khăn mà những người thuộc các giới tính khác nhau gặp phải khi cố gắng điều hướng trong một môi trường làm việc độc hại. Nếu công ty chỉ nhìn vào kết luận này, họ sẽ không thừa nhận và giải quyết mức độ nguy hại của văn hóa của họ và họ sẽ không hiểu tại sao một số người được thiết lập để thất bại trong đó. Đó là lý do tại sao điều quan trọng là phải ghi nhớ về sự công bằng khi phân tích dữ liệu. Kết luận rằng chỉ có đàn ông thành công ở công ty này là đúng, nhưng nó bỏ qua các yếu tố mang tính hệ thống khác góp phần gây ra vấn đề này. Nhưng đừng lo lắng, có một cách để đưa ra một kết luận công bằng ở đây. Một nhà phân tích dữ liệu đạo đức có thể xem xét dữ liệu thu thập được và kết luận rằng văn hóa công ty đang ngăn cản một số nhân viên thành công và công ty cần giải quyết những vấn đề đó để tăng hiệu suất. Hãy xem phần kết luận này vẽ nên một bức tranh hoàn chỉnh và công bằng hơn nhiều như thế nào. Nó nhận ra thực tế là một số người đang làm việc không tốt trong công ty này và giải thích lý do tại sao điều đó có thể xảy ra thay vì phân biệt đối xử với một số lượng lớn ứng viên trong tương lai. Là một nhà phân tích dữ liệu, bạn có trách nhiệm đảm bảo phân tích của mình công bằng và tính đến các yếu tố trong bối cảnh xã hội phức tạp có thể tạo ra sự thiên vị trong kết luận của bạn. Điều quan trọng là phải suy nghĩ về sự công bằng từ thời điểm bạn bắt đầu thu thập dữ liệu cho một nhiệm vụ kinh doanh cho đến khi bạn trình bày kết luận của mình với các bên liên quan. Chúng ta sẽ tìm hiểu thêm về sự thiên vị trong quy trình phân tích dữ liệu sau trong một khóa học khác. Bây giờ, hãy xem một ví dụ về phân tích dữ liệu thực hiện tốt công việc xem xét tính công bằng trong kết luận của nó. Một nhóm các nhà khoa học dữ liệu của Harvard đang phát triển một nền tảng di động để theo dõi những bệnh nhân có nguy cơ mắc bệnh tim mạch ở một khu vực của Hoa Kỳ có tên là Vành đai Đột quỵ. Điều quan trọng là phải chỉ ra rằng có nhiều lý do khiến những người sống trong khu vực này có thể gặp nhiều rủi ro hơn. Với ý nghĩ đó, các nhà khoa học dữ liệu này đã nhận ra rằng sự công bằng cần phải được ưu tiên cho dự án này, vì vậy họ đã xây dựng sự công bằng trong các mô hình của mình. Nhóm đã thực hiện một số biện pháp công bằng để đảm bảo rằng họ công bằng nhất có thể khi kiểm tra dữ liệu nhạy cảm và có khả năng gây sai lệch. Đầu tiên, họ hợp tác với các nhà phân tích với các nhà khoa học xã hội, những người có thể cung cấp những hiểu biết sâu sắc về thành kiến của con người và bối cảnh xã hội đã tạo ra họ. Họ cũng thu thập dữ liệu tự báo cáo trong một hệ thống riêng biệt để tránh khả năng thiên vị chủng tộc có thể làm sai lệch
  • 73. kết quả nghiên cứu của họ và đại diện cho bệnh nhân một cách không công bằng. Để đảm bảo dân số mẫu này là đại diện, họ đã lấy mẫu quá mức các nhóm không chiếm ưu thế để đảm bảo mô hình bao gồm họ. Rõ ràng là nhóm đã ưu tiên hàng đầu cho sự công bằng trong mọi bước tiến. Điều này giúp họ thu thập dữ liệu và đưa ra kết luận không tác động tiêu cực đến cộng đồng mà họ đang nghiên cứu. Hy vọng rằng những ví dụ này đã cho bạn ý tưởng tốt hơn về ý nghĩa của sự công bằng trong phân tích dữ liệu. Nhưng chúng ta sẽ tiếp tục xây dựng hiểu biết của mình về sự công bằng trong suốt chương trình này và bạn sẽ được thực hành với một số hoạt động. Alex: Quyết định dữ liệu công bằng và có đạo đức Xin chào, tôi là Alex. Tôi là một nhà khoa học nghiên cứu tại Google. Nhóm của tôi được gọi là nhóm AI có đạo đức, chúng tôi là một nhóm gồm những người thực sự quan tâm không chỉ về cách thức hoạt động của công nghệ AI mà còn về cách nó tương tác với xã hội và cách nó có thể giúp đỡ hoặc gây hại cho các cộng đồng bị thiệt thòi. Khi chúng ta nói về đạo đức dữ liệu, chúng ta nghĩ về cách sử dụng dữ liệu tốt và đúng đắn là gì? Điều gì sẽ là cách sử dụng dữ liệu sẽ có lợi cho mọi người? Khi nói đến đạo đức dữ liệu, nó không chỉ là giảm thiểu tác hại mà còn thực sự là khái niệm về lợi ích. Làm thế nào để chúng ta thực sự cải thiện cuộc sống của mọi người bằng cách sử dụng dữ liệu? Khi chúng ta nghĩ về đạo đức dữ liệu, chúng ta đang nghĩ đến ai đang thu thập dữ liệu? Tại sao họ thu thập nó? Làm thế nào họ thu thập nó và cho mục đích gì? Do cách mà các tổ chức có nhu cầu kiếm tiền hoặc báo cáo với ai đó hoặc cung cấp một số phân tích, chúng tôi cũng phải ghi nhớ kỹ điều này thực sự sẽ mang lại lợi ích cho mọi người như thế nào vào cuối ngày. Những người được đại diện trong dữ liệu này sẽ được hưởng lợi từ điều này? Tôi nghĩ đó là điều bạn không bao giờ muốn đánh mất với tư cách là một nhà khoa học dữ liệu hoặc nhà phân tích dữ liệu. Tôi nghĩ rằng các nhà phân tích dữ liệu đầy tham vọng cần lưu ý rằng rất nhiều dữ liệu mà bạn sắp gặp phải là dữ liệu đến từ con người, vì vậy, cuối cùng thì dữ liệu cũng chính là con người. Bạn muốn có trách nhiệm với những người được đại diện trong những dữ liệu đó. Thứ hai, là suy nghĩ về cách giữ cho các khía cạnh dữ liệu của họ được bảo vệ và riêng tư. Chúng tôi không muốn trải qua quá trình thực hành của mình khi nghĩ về các trường hợp dữ liệu như một thứ mà chúng tôi có thể đưa lên web. Không, cần phải cân nhắc về cách lưu giữ thông tin đó và những điểm tương đồng như hình ảnh, giọng nói hoặc văn bản của họ. Làm thế nào để chúng tôi giữ điều đó riêng tư? Chúng tôi cũng cần suy nghĩ về cách chúng tôi có thể có các cơ chế cung cấp cho người dùng và cho phép người tiêu dùng nhiều quyền kiểm soát hơn đối với dữ liệu của họ. Sẽ không đủ nếu chỉ nói rằng, chúng tôi thu thập tất cả dữ liệu này và tin tưởng giao tất cả dữ liệu này
  • 74. cho chúng tôi. Nhưng chúng tôi cần đảm bảo rằng có những cách khả thi để mọi người có thể đồng ý cung cấp những dữ liệu đó và những cách mà họ có thể yêu cầu thu hồi hoặc xóa dữ liệu đó. Dữ liệu ngày càng tăng và đồng thời, chúng ta cần trao quyền cho mọi người có quyền kiểm soát dữ liệu của chính họ. Tương lai là dữ liệu luôn phát triển, chúng tôi chưa thấy bất kỳ bằng chứng nào cho thấy dữ liệu đang thực sự bị thu hẹp. Với kiến thức rằng dữ liệu ngày càng tăng, những vấn đề này ngày càng trở nên gay gắt hơn và ngày càng trở nên quan trọng hơn để suy nghĩ.
  • 75. Chương 3: Tùy chọn: Khám phá công việc tiếp theo của bạn Nhà phân tích dữ liệu trong các ngành khác nhau Đến bây giờ, chúng tôi biết rằng có đủ loại công việc trong các ngành khác nhau dành cho các nhà phân tích dữ liệu. Nhưng bây giờ là lúc để nghĩ về một điều quan trọng không kém, làm thế nào bạn có thể biết liệu một công việc có phù hợp với bạn và mục tiêu nghề nghiệp của bạn hay không? Một khó khăn. Đừng lo lắng, đó chính xác là những gì chúng tôi sẽ đề cập trong video này. Có rất nhiều yếu tố quan trọng cần suy nghĩ khi tìm kiếm công việc mơ ước của bạn. Trước tiên, hãy nói về một số yếu tố phổ biến nhất, ngành, công cụ, địa điểm, du lịch và văn hóa. Dữ liệu đã được vô số ngành sử dụng theo đủ mọi cách khác nhau, công nghệ, tiếp thị, tài chính, chăm sóc sức khỏe, v.v. Nhưng một điều quan trọng cần lưu ý là mọi ngành đều có nhu cầu dữ liệu cụ thể và các nhà phân tích dữ liệu của họ phải giải quyết theo cách khác nhau. Các nhà phân tích dữ liệu trong ba ngành khác nhau, dịch vụ tài chính, Viễn thông và công nghệ có thể sử dụng cùng một dữ liệu doanh thu theo ba cách khác nhau. Ví dụ: một nhà phân tích tài chính tại một ngân hàng đăng dữ liệu doanh thu công khai của công ty Viễn thông X để tạo dự báo dự đoán doanh thu sẽ ở đâu trong tương lai để đề xuất giá cổ phiếu. Nhà phân tích kinh doanh tại công ty Viễn thông X sử dụng cùng dữ liệu đó để tư vấn cho nhóm bán hàng. Sau đó, một nhà phân tích dữ liệu tại công ty đã tạo ra công cụ quản lý khách hàng cho công ty Viễn thông X sẽ sử dụng dữ liệu doanh thu đó để xác định mức độ hiệu quả của phần mềm. Tài chính, viễn thông và công nghệ đều sử dụng dữ liệu khác nhau, vì vậy họ cần những nhà phân tích có kỹ năng khác nhau. Tất cả đều phụ thuộc vào nhu cầu của ngành là gì. Những nhu cầu đó sẽ quyết định bạn sẽ được giao nhiệm vụ gì, những câu hỏi bạn sẽ trả lời và thậm chí cả cách bạn tiếp cận tìm kiếm việc làm. Nếu bạn mới bắt đầu, một cách tuyệt vời để hướng dẫn tìm kiếm của bạn là nghĩ trước tiên về những gì bạn quan tâm. Việc giúp mọi người khỏe mạnh hơn có ý nghĩa với bạn không? Có thể bạn muốn tập trung vào việc sử dụng dữ liệu để cải thiện việc nhập viện. Còn việc giúp mọi người tiết kiệm để có một cuộc sống hưu trí hạnh phúc thì sao? Bạn có thể muốn một công việc sử dụng dữ liệu để xác định các yếu tố rủi ro trong đầu tư tài chính. Hoặc có thể bạn quan tâm đến việc giúp báo chí phát triển trong thành phố của mình. Công việc sử dụng dữ liệu để giúp tìm trang web tin tức địa phương của bạn để tìm thêm người đăng ký có thể là vai trò hoàn hảo dành cho bạn. Điều quan trọng là suy nghĩ về sở thích của bạn sớm trong tìm kiếm việc làm của bạn. Điều đó sẽ dẫn bạn đi đúng hướng và nó cũng sẽ giúp bạn trong các cuộc phỏng vấn. Các nhà tuyển dụng tiềm năng sẽ muốn biết lý do tại sao bạn quan tâm đến công ty của họ và cách bạn
  • 76. có thể đáp ứng nhu cầu của họ, vì vậy nếu bạn có thể nói về động lực làm việc trong lĩnh vực phân tích dữ liệu trong các cuộc phỏng vấn, bạn sẽ khiến mình trở nên nổi bật một cách tuyệt vời. Bạn sẽ có các lựa chọn khi nói đến nơi bạn làm việc và bạn làm việc cho ai. Nhưng hãy nhớ rằng, bạn muốn tận hưởng những gì mình làm, vì vậy bạn nên suy nghĩ về cách bạn muốn sử dụng các kỹ năng của mình. Sau đó tìm kiếm các công việc cho phép bạn làm điều đó. Tiếp theo trong danh sách những điều cần suy nghĩ, địa điểm và du lịch. Khi bạn bắt đầu tìm kiếm việc làm, bạn cần đưa ra một số quyết định về nơi bạn muốn sống, vì vậy sẽ rất hữu ích khi tự hỏi bản thân một số câu hỏi, ngành công nghiệp ưa thích của bạn có cơ hội ở khu vực của bạn không? Bạn đang cố gắng ở lại địa phương hay bạn sẽ vui vẻ chuyển chỗ ở? Bạn sẵn sàng đi làm mỗi ngày trong bao lâu? Bạn sẽ lái xe đi làm, đi bộ, đi phương tiện công cộng? Có thể quanh năm không? Bạn cảm thấy thế nào khi làm việc từ xa? Làm việc ở nhà khiến bạn phấn khích hay chán nản? Tất nhiên, bạn sẽ muốn xem xét chi phí sinh hoạt và liệu bạn có muốn sự tiện lợi của cuộc sống ở thành phố hay một ngôi nhà ngoại ô yên tĩnh hay không, và đó không chỉ là nơi bạn sẽ làm việc, một số công việc có thể yêu cầu bạn đi du lịch, đó có thể là một cơ hội thú vị để nhìn thế giới hoặc một công cụ phá vỡ thỏa thuận. Đó là tất cả về những gì bạn muốn từ công việc này, vì vậy hãy bắt đầu tự hỏi mình một số câu hỏi sau. Tìm ra câu trả lời có thể giúp bạn thu hẹp phạm vi tìm kiếm của mình hơn nữa, vì vậy bạn chỉ tìm kiếm những công việc mà bạn thực sự chấp nhận. Khi bạn đã trả lời đủ câu hỏi, bạn sẽ có thể xác định một số công ty cụ thể phù hợp với nhu cầu của mình. Tại thời điểm này, đây là thời điểm tốt để suy nghĩ về các giá trị của bạn và văn hóa công ty nào phù hợp với bạn. Sẵn sàng, đây là một số câu hỏi khác, bạn làm việc tốt nhất theo nhóm hay một mình? Bạn thích có một thói quen cố định hay bạn thích tham gia một dự án mới và thử những điều mới? Giá trị của bạn có phù hợp với giá trị của công ty không? Bạn sẽ muốn chú ý đến những điều này trong quá trình tìm kiếm việc làm và phỏng vấn, để bạn có thể chắc chắn rằng bạn đã đầu tư đầy đủ vào công ty mà bạn đang làm việc. Đó là cách tốt nhất để bắt đầu xây dựng một sự nghiệp thú vị và viên mãn. Chiến lược làm bài kiểm tra Như bạn đã biết, chương trình này yêu cầu bạn hoàn thành các bài đánh giá được xếp loại vào cuối mỗi mô-đun và khóa học. Các đánh giá đôi khi có thể khiến bạn cảm thấy choáng ngợp, nhưng việc tiếp cận chúng bằng một chiến lược có thể khiến chúng trở nên dễ quản lý hơn. Dưới đây là danh sách các mẹo bạn có thể sử dụng để giúp mình thành công. Trước khi đánh giá:  Xem lại ghi chú của bạn, video, bài đọc và bảng thuật ngữ gần đây nhất để làm mới nội dung của bạn.
  • 77.  Tìm một hình ảnh của một cái gì đó hoặc một đối tượng mà làm cho bạn cảm thấy hạnh phúc. Ví dụ, bạn có thể nhìn vào bức ảnh chụp một bãi biển xinh đẹp hoặc một khu rừng thanh bình khi bạn cảm thấy choáng ngợp. Trong quá trình đánh giá:  Xem lại bài kiểm tra trước khi điền câu trả lời. Hãy nhớ kiểm tra công việc của bạn trước khi bạn nhấp vào gửi.  Hãy dành thời gian của bạn. Bạn có đủ năm phút cho mỗi câu hỏi trong tất cả các bài đánh giá đã được phân loại.  Trả lời các câu hỏi dễ trước; bỏ qua những câu bạn không biết câu trả lời ngay lập tức.  Đối với các câu hỏi trắc nghiệm, hãy tập trung vào việc loại bỏ các câu trả lời sai trước.  Đọc mỗi câu hỏi hai lần. Thường có những manh mối rất dễ bỏ sót trong lần đầu tiên.  Hãy nhớ chậm lại và tin tưởng vào kiến thức của bạn. Bạn có thể biết nhiều hơn những gì bạn cho mình.  Hít một hơi thật sâu và cho mình phản hồi tích cực.  Hãy dành một chút thời gian trong quá trình đánh giá để nghỉ ngơi trong vài giây, vươn vai và bắt tay. Điều này thực sự có thể giúp làm dịu thần kinh của bạn. Nếu bạn bắt đầu cảm thấy lo lắng:  Đánh vần ngược tên của bạn hoặc làm một bài toán dễ. Điều này đưa bạn trở lại thùy trán của não bộ, giúp bạn nhớ lại thông tin dễ dàng hơn.  Tập trung vào hơi thở bình tĩnh, đều đặn.  Hình dung thành công. Trước khi bạn gửi đánh giá: Kiểm tra công việc của bạn, nhưng hãy tự tin. Đôi khi mọi người thay đổi câu trả lời đúng vì họ cảm thấy sai, nhưng họ thực sự đúng. Bản năng đầu tiên của bạn thường đúng.
  • 78. Học phần 2: Đặt câu hỏi để đưa ra quyết định dựa trên dữ liệu Tuần 1: Câu hỏi hiệu quả Để thực hiện công việc của một nhà phân tích dữ liệu, bạn cần đặt câu hỏi và giải quyết vấn đề. Trong phần này của khóa học, bạn sẽ kiểm tra một số thách thức phân tích phổ biến và cách các nhà phân tích giải quyết chúng. Bạn cũng sẽ tìm hiểu về các kỹ thuật đặt câu hỏi hiệu quả có thể giúp hướng dẫn phân tích của bạn. Mục tiêu học tập:  Giải thích các đặc điểm của câu hỏi hiệu quả với tham chiếu đến khuôn khổ SMART  Thảo luận về các loại vấn đề phổ biến được giải quyết bởi một nhà phân tích dữ liệu  Giải thích cách mỗi bước của lộ trình giải quyết vấn đề đóng góp vào các tình huống phân tích chung  Giải thích quy trình phân tích dữ liệu, đưa ra tham chiếu cụ thể đến các giai đoạn hỏi, chuẩn bị, xử lý, phân tích, chia sẻ và hành động  Mô tả các ý tưởng chính liên quan đến tư duy có cấu trúc bao gồm lĩnh vực vấn đề, phạm vi công việc và bối cảnh Chương 1: Giải quyết vấn đề và đặt câu hỏi hiệu quả Giới thiệu về giải quyết vấn đề và đặt câu hỏi hiệu quả Chào mừng bạn đến với khóa học thứ hai về chứng chỉ Google Data Analytics. Nếu bạn đã hoàn thành Khóa học Một, chúng ta sẽ gặp nhau một thời gian ngắn lúc đầu, nhưng đối với những bạn mới tham gia với chúng tôi, tên tôi là Ximena và tôi là nhà phân tích dữ liệu của Google Finance. Tôi nghĩ thật tuyệt vời khi bạn ở đây cùng tôi tìm hiểu về lĩnh vực phân tích dữ liệu hấp dẫn. Học tập và giáo dục luôn luôn rất quan trọng đối với tôi. Khi tôi còn nhỏ, mẹ tôi luôn nói: "Mẹ không thể để lại cho con tài sản thừa kế, nhưng mẹ có thể cho con một nền giáo dục mở ra nhiều cánh cửa." Điều đó luôn thôi thúc tôi không ngừng học hỏi và sự giáo dục đó đã giúp tôi tự tin nộp đơn xin việc tại Google. Bây giờ tôi có thể làm công việc thực sự có ý nghĩa mỗi ngày. Gần đây, tôi đã làm việc với tư cách là nhà phân tích trong một nhóm có tên là Verily Life Science. Chúng tôi đã giúp
  • 79. đỡ để có được nguồn cung cấp y tế cứu mạng cho những người cần nó nhất. Để làm điều này, chúng tôi đã dự báo những gì các chuyên gia chăm sóc sức khỏe sẽ cần trong tay và sau đó chia sẻ thông tin đó với các mạng. Thông tin mà nhóm của tôi cung cấp đã giúp đưa ra các quyết định dựa trên dữ liệu thực sự đã cứu được mạng sống. Tôi rất vui mừng được trở thành người hướng dẫn của bạn cho khóa học này. Chúng ta sẽ nói về sự khác biệt giữa các câu hỏi hiệu quả và không hiệu quả, đồng thời tìm hiểu cách đặt những câu hỏi hay dẫn đến những hiểu biết sâu sắc có thể giúp bạn giải quyết các vấn đề kinh doanh. Bạn sẽ khám phá ra rằng các câu hỏi hiệu quả giúp bạn tận dụng tối đa tất cả các giai đoạn phân tích dữ liệu. Bạn có thể nhớ rằng các giai đoạn này bao gồm hỏi, chuẩn bị, xử lý, phân tích, chia sẻ và hành động. Trong bước đặt câu hỏi, chúng tôi xác định vấn đề mà chúng tôi đang giải quyết và đảm bảo rằng chúng tôi hiểu đầy đủ về kỳ vọng của các bên liên quan. Điều này sẽ giúp bạn tập trung vào vấn đề thực tế, dẫn đến kết quả thành công hơn. Vì vậy, chúng ta sẽ bắt đầu khóa học này bằng cách nói về cách giải quyết vấn đề và một số loại vấn đề kinh doanh phổ biến mà các nhà phân tích dữ liệu giúp giải quyết. Và bởi vì khóa học này tập trung vào giai đoạn đặt câu hỏi, bạn sẽ học cách tạo ra những câu hỏi hiệu quả giúp bạn thu thập dữ liệu phù hợp để giải quyết những vấn đề đó. Tiếp theo, chúng ta sẽ nói về nhiều loại dữ liệu khác nhau. Bạn sẽ tìm hiểu làm thế nào và khi nào là hữu ích nhất. Bạn cũng sẽ có cơ hội khám phá thêm các bảng tính và khám phá cách chúng có thể giúp phân tích dữ liệu của bạn hiệu quả hơn nữa. Và sau đó chúng ta sẽ bắt đầu tìm hiểu về tư duy cấu trúc. Structured thinking is The process of recognizing the current problem or situation, organizing available information, revealing gaps and opportunities, and identifying the options. ( Tư duy có cấu trúc là Quá trình nhận ra vấn đề hoặc tình huống hiện tại, sắp xếp thông tin sẵn có, bộc lộ những khoảng trống và cơ hội, đồng thời xác định các lựa chọn.) Trong quá trình này, bạn giải quyết một vấn đề mơ hồ, phức tạp bằng cách chia nhỏ nó thành các bước nhỏ hơn, sau đó các bước đó sẽ dẫn bạn đến một giải pháp hợp lý. Chúng ta sẽ làm việc cùng nhau để đảm bảo bạn hiểu đầy đủ cách sử dụng tư duy có cấu trúc và phân tích dữ liệu. Cuối cùng, chúng ta sẽ tìm hiểu một số chiến lược đã được chứng minh để giao tiếp với người khác một cách hiệu quả. Tôi rất nóng lòng được chia sẻ thêm về niềm đam mê phân tích dữ liệu của mình với bạn, vì vậy hãy bắt đầu nào.
  • 80. Chương 2: Hành động với dữ liệu Dữ liệu đang hoạt động Trong video này, tôi sẽ chia sẻ một trường hợp nghiên cứu thú vị về phân tích dữ liệu. Nó sẽ minh họa cách giải quyết vấn đề liên quan đến từng giai đoạn của quy trình phân tích dữ liệu và làm sáng tỏ cách các giai đoạn này hoạt động trong thế giới thực. Đó là về một doanh nghiệp nhỏ đã sử dụng dữ liệu để giải quyết một vấn đề đặc biệt mà nó đang gặp phải. Công việc kinh doanh có tên là Anywhere Gaming Repair. Đó là nhà cung cấp dịch vụ đến với bạn để sửa chữa các phụ kiện hoặc hệ thống trò chơi điện tử bị hỏng của bạn. Chủ sở hữu muốn mở rộng kinh doanh của mình. Anh ấy biết quảng cáo là một cách đã được chứng minh để có được nhiều khách hàng hơn, nhưng anh ấy không biết bắt đầu từ đâu. Có tất cả các loại chiến lược quảng cáo khác nhau, bao gồm báo in, biển quảng cáo, quảng cáo trên TV, phương tiện giao thông công cộng, podcast và đài phát thanh. Một trong những điều quan trọng cần suy nghĩ khi chọn phương thức quảng cáo là đối tượng mục tiêu của bạn, nói cách khác, những người cụ thể mà bạn đang cố gắng tiếp cận. Ví dụ: nếu một nhà sản xuất thiết bị y tế muốn tiếp cận các bác sĩ, việc đăng quảng cáo trên tạp chí sức khỏe sẽ là một lựa chọn thông minh. Hoặc nếu một công ty cung cấp thực phẩm muốn tìm đầu bếp mới, họ có thể quảng cáo bằng cách sử dụng áp phích tại trạm xe buýt gần trường dạy nấu ăn. Cả hai cách này đều là những cách tuyệt vời để quảng cáo của bạn được khán giả mục tiêu nhìn thấy. Điều thứ hai cần nghĩ đến là ngân sách của bạn và chi phí của các phương pháp quảng cáo khác nhau là bao nhiêu. Chẳng hạn, quảng cáo trên TV có thể đắt hơn quảng cáo trên đài phát thanh. Một bảng quảng cáo lớn có thể sẽ đắt hơn một tấm áp phích nhỏ ở phía sau xe buýt thành phố. Chủ doanh nghiệp đã nhờ chuyên gia phân tích dữ liệu, Maria, đưa ra khuyến nghị. Cô bắt đầu với bước đầu tiên trong quy trình phân tích dữ liệu, Hỏi. Maria bắt đầu bằng cách xác định vấn đề cần giải quyết. Để làm được điều này, trước tiên cô ấy phải thu nhỏ và xem xét toàn bộ tình huống trong bối cảnh. Bằng cách đó, cô ấy có thể chắc chắn rằng mình đang tập trung vào vấn đề thực sự chứ không chỉ các triệu chứng của nó. Điều này dẫn chúng ta đến một phần quan trọng khác của quá trình giải quyết vấn đề, cộng tác với các bên liên quan và hiểu nhu cầu của họ. Đối với Anywhere Gaming Repair, các bên liên quan bao gồm chủ sở hữu, phó chủ tịch truyền thông và giám đốc tiếp thị và tài chính.
  • 81. Làm việc cùng nhau, Maria và các bên liên quan đã đồng ý về vấn đề, chưa biết loại hình quảng cáo ưa mà đối tượng khán giả mục tiêu ưu chuộng. Bước tiếp theo là giai đoạn chuẩn bị, trong đó Maria thu thập dữ liệu cho quá trình phân tích sắp tới. Nhưng trước tiên, cô cần hiểu rõ hơn đối tượng mục tiêu của công ty, những người sử dụng hệ thống trò chơi điện tử. Sau đó, Maria thu thập dữ liệu về các phương thức quảng cáo khác nhau. Bằng cách này, cô ấy sẽ có thể xác định đâu là quảng cáo phổ biến nhất với đối tượng mục tiêu của công ty. Sau đó cô chuyển sang bước xử lý. Ở đây, Maria đã làm sạch dữ liệu để loại bỏ bất kỳ lỗi hoặc điểm không chính xác nào có thể cản trở kết quả. Như chúng ta đã biết, khi bạn làm sạch dữ liệu, bạn sẽ chuyển đổi dữ liệu đó thành một định dạng hữu ích hơn, tạo thông tin đầy đủ hơn và loại bỏ các giá trị ngoại lệ. Sau đó là thời gian để phân tích. Trong bước này, Maria muốn tìm hiểu hai điều. Đầu tiên, ai có nhiều khả năng sở hữu một hệ thống chơi game video nhất? Thứ hai, những người này có nhiều khả năng xem quảng cáo nhất ở đâu? Maria, lần đầu tiên phát hiện ra rằng những người trong độ tuổi từ 18 đến 34 có nhiều khả năng thực hiện các giao dịch mua hàng liên quan đến trò chơi điện tử. Cô ấy có thể khẳng định rằng đối tượng mục tiêu của Anywhere Gaming Repair là những người từ 18-34 tuổi. Đây là người mà họ nên cố gắng tiếp cận. Với suy nghĩ này, Maria sau đó biết được rằng cả quảng cáo trên TV và podcast đều rất phổ biến với khán giả mục tiêu. Bởi vì Maria biết Anywhere Gaming Repair có ngân sách hạn chế và hiểu được chi phí quảng cáo trên truyền hình cao, nên đề xuất của cô ấy là quảng cáo trên podcast vì chúng tiết kiệm chi phí hơn. Bây giờ cô ấy đã phân tích xong, đã đến lúc Maria chia sẻ đề xuất của mình để công ty có thể đưa ra quyết định dựa trên dữ liệu. Cô tóm tắt kết quả của mình bằng cách sử dụng hình ảnh phân tích rõ ràng và hấp dẫn. Điều này đã giúp các bên liên quan của cô ấy hiểu được giải pháp cho vấn đề ban đầu. Cuối cùng, Anywhere Gaming Repair đã hành động, họ đã làm việc với một công ty sản xuất podcast địa phương để tạo một quảng cáo dài 30 giây về dịch vụ của họ. Quảng cáo đã chạy trên podcast trong một tháng và nó đã hoạt động. Họ đã thấy lượng khách hàng tăng lên chỉ sau tuần đầu tiên. Đến cuối tuần thứ 4, họ có 85 khách hàng mới. Như vậy đó. Để giải quyết vấn đề hiệu quả ta áp dụng các giai đoạn phân tích dữ liệu. Bây giờ, bạn đã thấy sáu giai đoạn phân tích dữ liệu có thể được áp dụng như thế nào để giải quyết vấn đề và cách bạn có thể sử dụng nó để giải quyết các vấn đề trong thế giới thực. Nikki: Quá trình xử lý dữ liệu hoạt động Tôi là Nikki và tôi quản lý nhóm giáo dục, đánh giá, đánh giá và nghiên cứu. Phần yêu thích của tôi trong quy trình phân tích dữ liệu là tìm ra vấn đề khó nhất và đặt hàng triệu câu
  • 82. hỏi về vấn đề đó và xem liệu có thể có câu trả lời hay không. Một trong những vấn đề mà chúng tôi đã giải quyết ở đây tại Google là chương trình giới thiệu Noogler của chúng tôi, đây là cách chúng tôi giới thiệu nhân viên mới. Một trong những điều chúng tôi đã làm là đặt câu hỏi, làm thế nào để chúng tôi biết liệu các Noogler có đang tích hợp nhanh hơn thông qua chương trình tích hợp mới của chúng tôi so với chương trình tích hợp cũ mà chúng tôi đã từng giảng cho họ hay không. Chúng tôi làm việc sát sao với các nhà cung cấp nội dung để hiểu được cách chính xác nhằm giúp mọi người hòa nhập nhanh hơn? Khi đã đặt ra các câu hỏi, chúng tôi đã chuẩn bị dữ liệu bằng cách tìm hiểu đâu là quần thể nhân viên mới mà ta đang đánh giá. Chúng tôi đã chuẩn bị dữ liệu bằng cách xem qua và hiểu quần thể của chúng tôi là ai, bằng cách hiểu tập hợp mẫu của chúng tôi là ai, nhóm kiểm soát của chúng tôi là ai, nhóm thử nghiệm của chúng tôi là ai, nguồn dữ liệu của chúng tôi ở đâu và đảm bảo rằng dữ liệu đó nằm trong một tập hợp, ở định dạng rõ ràng và dễ hiểu để chúng tôi viết các tập lệnh phù hợp. Vì vậy, bước tiếp theo đối với chúng tôi là xử lý dữ liệu để đảm bảo rằng dữ liệu ở định dạng mà chúng tôi thực sự có thể phân tích bằng SQL, đảm bảo rằng dữ liệu ở đúng định dạng, đúng cột và đúng bảng. Để phân tích dữ liệu, chúng tôi đã viết các tập lệnh bằng SQL và R để tương quan dữ liệu với nhóm kiểm soát hoặc nhóm thử nghiệm và diễn giải dữ liệu để hiểu, có bất kỳ thay đổi nào trong các chỉ báo hành vi mà chúng tôi đã thấy không? Khi chúng tôi phân tích tất cả dữ liệu, chúng tôi muốn báo cáo về dữ liệu đó theo cách mà các bên liên quan của chúng tôi có thể hiểu được. Tùy thuộc vào các bên liên quan của chúng tôi là ai, chúng tôi đã chuẩn bị các báo cáo, bảng điều khiển và bản trình bày, đồng thời chia sẻ thông tin đó ra bên ngoài. Khi tất cả các báo cáo của chúng tôi đã hoàn thành, chúng tôi đã thấy kết quả thực sự tích cực và quyết định hành động dựa trên kết quả đó bằng cách tiếp tục chương trình tích hợp học tập dựa trên dự án của chúng tôi. Thật sự hài lòng khi biết rằng chúng tôi có dữ liệu để hỗ trợ nó và nó thực sự, thực sự hiệu quả. Và không chỉ có dữ liệu ở đó, mà chúng tôi còn biết rằng học sinh của mình đang học và họ làm việc hiệu quả hơn, quay lại công việc nhanh hơn.
  • 83. Chương 3: Giải quyết vấn đề với dữ liệu Các loại vấn đề phổ biến Trong video trước, tôi đã chia sẻ cách phân tích dữ liệu giúp một công ty tìm ra nơi quảng cáo dịch vụ của mình. Một phần quan trọng của quá trình này là kỹ năng giải quyết vấn đề mạnh mẽ. Là một nhà phân tích dữ liệu, bạn sẽ thấy rằng các vấn đề là trung tâm của những gì bạn làm hàng ngày, nhưng đó là một điều tốt. Hãy coi các vấn đề là cơ hội để vận dụng các kỹ năng của bạn và tìm ra các giải pháp sáng tạo và sâu sắc. Các vấn đề có thể lớn hoặc nhỏ, đơn giản hoặc phức tạp, không vấn đề nào giống vấn đề nào và tất cả chúng đều yêu cầu cách tiếp cận hơi khác nhau nhưng bước đầu tiên luôn giống nhau: Hiểu vấn đề bạn đang giải quyết và đó là điều chúng tôi sẽ nói bây giờ. Việc phân tích dữ liệu có thể áp dụng với nhiều loại vấn đề. Trong video này, chúng ta sẽ tập trung vào sáu loại phổ biến. Chúng bao gồm: 1. Making predictions (Dự đoán) 2. Categorizing things (Phân loại) 3. Spotting something unsual (Phát hiện điểm khác biệt) 4. Identifying themes (Xác định chủ đề) 5. Discovering connections (Phát hiện các liên kết) 6. Finding patterns (Tìm ra mẫu) Bây giờ chúng ta hãy định nghĩa từng cái trong số này. 1. Making predictions is Using data to make informed decision about things may be in the future. (Dự đoán là việc sử dụng dữ liệu để đưa ra quyết định sáng suốt về diễn biến của mọi chuyện trong tương lai) Ví dụ: hệ thống bệnh viện có thể sử dụng theo dõi bệnh nhân từ xa để dự đoán các sự kiện sức khỏe cho bệnh nhân mắc bệnh mãn tính. Các bệnh nhân sẽ đo sức khỏe của họ tại nhà mỗi ngày và thông tin đó kết hợp với dữ liệu về tuổi, các yếu tố rủi ro và các chi tiết quan trọng khác có thể cho phép thuật toán của bệnh viện dự đoán các vấn đề sức khỏe trong tương lai và thậm chí giảm số lần nhập viện trong tương lai.. 2. Categorizing things is Assigning information to different groups or clusters based on common features. (Phân loại là chỉ định thông tin vào các nhóm hoặc các cụm khác nhau dựa trên các thuộc tính giống nhau). Một ví dụ về loại vấn đề này là một nhà sản xuất xem xét dữ liệu về hiệu suất của nhân viên tại cửa hàng. Một nhà phân tích có thể tạo một nhóm cho những nhân viên làm việc hiệu quả nhất và kém hiệu quả nhất trong lĩnh vực kỹ thuật. Một nhóm dành cho những nhân viên sửa chữa và bảo trì hiệu quả nhất và kém nhất, lắp ráp hiệu quả nhất và kém nhất, và nhiều nhóm hoặc cụm khác.
  • 84. 3. Spotting something unusual is Identifying data that is different from the norm (Phát hiện điểm khác biệt là Xác định dữ liệu khác với tiêu chuẩn). Một ví dụ về việc phát hiện ra điều gì đó bất thường trong thực tế là một trường học có số lượng học sinh đăng ký tăng đột biến, có thể lên tới mức tăng 30% học sinh. Một nhà phân tích dữ liệu phân tích về sự gia tăng này và phát hiện ra rằng một số khu chung cư mới đã được xây dựng gần trường học vào đầu năm đó. Họ có thể sử dụng phân tích này để đảm bảo trường có đủ nguồn lực để xử lý các học sinh mới. 4. Identifying themes is Grouping categorized information into broader concepts. (Việc xác định chủ đề là phân loại ở mức độ cao hơn bằng các nhóm thông tin thành các khái niệm rộng hơn). Quay trở lại với nhà sản xuất của chúng tôi vừa xem xét dữ liệu về nhân viên của cửa hàng. Đầu tiên, những người này được nhóm theo loại và nhiệm vụ. Nhưng giờ đây, một nhà phân tích dữ liệu có thể lấy các danh mục đó và nhóm chúng thành khái niệm rộng hơn về năng suất thấp và năng suất cao. Điều này sẽ giúp doanh nghiệp có thể xem ai là người làm việc hiệu quả nhất và kém hiệu quả nhất, để thưởng cho những người làm việc hiệu quả nhất và hỗ trợ thêm cho những người lao động cần được đào tạo thêm. 5. Discovering connections is Finding similar challenges faced by different entities and combining data and insights to address them. (Phát hiện các liên kết là tìm thấy các thử thách tương tự mà nhiều thực thể khác nhau gặp phải, sau đó kết hợp các dữ liệu và thông tin chuyên sâu để xử lý vấn đề). Ý tôi là thế này: Một công ty xe tay ga đang gặp sự cố với bánh xe mà họ nhận được từ nhà cung cấp bánh xe. Công ty đó sẽ phải ngừng sản xuất cho đến khi có thể lấy lại bánh xe chất lượng, an toàn. Nhưng trong khi đó, các công ty sản xuất bánh xe gặp vấn đề với cao su mà họ sử dụng để làm bánh xe, hóa ra nhà cung cấp cao su cũng không thể tìm được nguyên liệu phù hợp. Nếu tất cả các thực thể này có thể nói về các vấn đề họ đang gặp phải và chia sẻ dữ liệu một cách cởi mở, họ sẽ tìm thấy rất nhiều thách thức tương tự và tốt hơn nữa là có thể cộng tác để tìm ra giải pháp. 6. Finding patterns Using historical data to understand what happened in the past and is therefore likely to happen again. (Tìm ra mẫu là Sử dụng dữ liệu để tìm ra mẫu thông qua các dữ liệu trước đó để hiểu về những chuyện xảy ra trước đây và có khả năng tái diễn). Các công ty thương mại điện tử luôn sử dụng dữ liệu để tìm các mẫu. Các nhà phân tích dữ liệu xem xét dữ liệu giao dịch để hiểu thói quen mua hàng của khách hàng tại các thời điểm nhất định trong năm. Họ có thể thấy rằng khách hàng mua nhiều hàng đóng hộp hơn ngay trước cơn bão hoặc họ mua ít phụ kiện thời tiết lạnh hơn như mũ và găng tay trong những tháng ấm hơn. Các công ty thương mại điện tử có thể sử dụng
  • 85. những thông tin chi tiết này để đảm bảo rằng họ dự trữ đúng số lượng sản phẩm vào những thời điểm quan trọng này. Được rồi, giờ bạn đã học được sáu loại vấn đề cơ bản mà các nhà phân tích dữ liệu thường gặp phải. Là một nhà phân tích dữ liệu trong tương lai, đây sẽ là kiến thức quý giá cho sự nghiệp của bạn. Sắp tới, chúng ta sẽ nói thêm một chút về các loại vấn đề này và tôi sẽ cung cấp nhiều ví dụ hơn nữa về việc các nhà phân tích dữ liệu giải quyết chúng. Cá nhân tôi thích những ví dụ thực tế. Chúng thực sự giúp tôi hiểu rõ hơn về những khái niệm mới. Tôi nóng lòng muốn chia sẻ nhiều trường hợp thực tế hơn nữa với bạn. Hẹn gặp lại. Các vấn đề trong thực tế Bạn đã tìm hiểu về sáu loại vấn đề mà các nhà phân tích dữ liệu gặp phải, bao gồm dự đoán, phân loại, phát hiện các điểm khác biệt, xác định chủ đề, phát hiện các liên kết và tìm ra mẫu. Hãy nghĩ về ví dụ thực tế trong video trước. Trong ví dụ đó, Anywhere Gaming Repair muốn tìm cách thu hút khách hàng mới. Vấn đề là làm thế nào để xác định phương pháp quảng cáo hay nhất với đối tượng mục tiêu của Anywhere Gaming Repair. Để hỗ trợ giải quyết vấn đề này, công ty sử dụng dữ liệu để hình dung điều gì sẽ xảy ra nếu ta quảng cáo ở một địa điểm khác. Không ai có thể biết được tương lai nhưng dữ liệu sẽ giúp họ đưa ra quyết định sáng suốt về việc mọi chuyện sẽ diễn ra như thế nào. Như vậy, loại vấn đề của họ là dự đoán. Bây giờ hãy nghĩ về loại vấn đề thứ hai, phân loại. Đây là ví dụ về vấn đề liên quan đến việc phân loại. Giả sử một doanh nghiệp muốn cải thiện mức độ hài lòng của khách hàng. Các nhà phân tích dữ liệu có thể xem xét các cuộc gọi được ghi lại tại bộ phận chăm sóc khách hàng ở công ty và đánh giá mức độ hài lòng của từng người gọi. Họ có thể nhận diện một vài từ khóa hoặc cụm từ xuất hiện trong các cuộc gọi và phân loại vào các nhóm như lịch sự, hài lòng, không hài lòng, thấu cảm, và hơn thế nữa. Phân loại những từ khóa này cho chúng ta các dữ liệu để công ty xác định những người đại diện dịch vụ khách hàng có thành tích tốt nhất, và những người cần đào tạo thêm. Điều này giúp nhiều khách hàng hài lòng hơn và có được điểm số dịch vụ khách hàng cao hơn. Được rồi, bây giờ hãy nói về vấn đề liên quan đến việc phát hiện các điểm khác biệt. Có thể các bạn có đồng hồ thông minh, ứng dụng yêu thích của tôi là theo dõi sức khỏe. Ứng dụng này có thể giúp mọi người giữ gìn sức khỏe bằng cách thu thập các dữ liệu như nhịp tim, chu kỳ ngủ, thói quen tập thể dục, và nhiều hơn thế. Có rất nhiều câu chuyện về việc ứng dụng sức khỏe có thể cứu sống mạng người. Câu chuyện đầu tiên là về một phụ nữ trẻ, năng hoạt động và trước đây không có vấn đề nào về sức khỏe. Một đêm, cô ấy nghe thấy một tiếng bíp từ đồng hồ thông minh của mình, có thông báo rằng nhịp tim của cô ấy tăng cao.
  • 86. Trong ví dụ này, hãy coi đồng hồ là nhà phân tích dữ liệu. Đồng hồ đã thu thập và phân tích các dữ liệu sức khỏe. Khi nhịp tim lúc đang nghỉ của cô ấy tăng đến 120 nhịp một phút, đồng hồ phát hiện có điều gì đó bất thường vì theo dữ liệu, nhịp tim bình thường vào khoảng 70. Nhờ có dữ liệu từ đồng hồ thông minh, cô ấy đã tới bệnh viện và phát hiện mình gặp phải một căn bệnh có thể dẫn đến biến chứng nguy hiểm tới tính mạng nếu không được hỗ trợ về y tế. Tiếp theo là loại vấn đề xác định chủ đề. Ta sẽ gặp nhiều ví dụ về loại này trong lĩnh vực trải nghiệm người dùng. Nhà thiết kế trải nghiệm người dùng nghiên cứu và làm việc để cải thiện tương tác của mọi người với sản phẩm họ dùng hàng ngày. Giả sử nhà thiết kế trải nghiệm người dùng muốn biết cảm nhận của khách hàng về máy pha cà phê mà công ty đó sản xuất. Doanh nghiệp này thu thập dữ liệu khảo sát ẩn danh từ người dùng, ta có thể sử dụng dữ liệu này để trả lời câu hỏi. Nhưng để hiểu được tất cả, họ cần tìm ra chủ đề chung đại diện cho dữ liệu có giá trị nhất, nhất là những thông tin họ có thể sử dụng để cải thiện trải nghiệm người dùng. Vấn đề mà công ty của nhà thiết kế trải nghiệm người dùng gặp phải là làm thế nào để cải thiện trải nghiệm người dùng cho máy pha cà phê. Quy trình ở đây giống như tìm kiếm các mục đối với từ khóa và cụm từ trong các cuộc trao đổi dịch vụ khách hàng. Nhưng việc xác định chủ đề còn hơn thế, ta sẽ nhóm các thông tin vào một chủ đề chung. Sau đó nhà thiết kế có thể xác định các chủ đề phổ biến mất. Trong trường hợp này, họ biết rằng người dùng không thể phân biệt máy pha cà phê có đang bật hay không. Cuối cùng họ đã tối ưu hóa thiết kế bằng cách cải thiện vị trí và ánh sáng của nút bật/tắt, từ đó cải tiến sản phẩm và khiến người dùng hài lòng hơn. Bây giờ là đến vấn đề phát hiện liên kết. Ví dụ này là từ ngành giao thông vận tải, ta áp dụng khái niệm dịch vụ hậu cần của bên thứ ba. Các đối tác hậu cần bên thứ ba giúp các doanh nghiệp vận chuyển sản phẩm khi không có xe tải, máy bay hoặc tàu riêng. Một vấn đề phổ biến mà các đối tác này gặp phải là việc giảm thời gian chờ đợi. Thời gian chờ đợi là khi tài xế xe tải của nhà cung cấp dịch vụ hậu cần bên thứ ba đến nơi nhận lô hàng nhưng lô hàng lại chưa sẵn sàng. Vậy là họ phải đợi. Việc này làm tiêu tốn cả thời gian và tiền bạc, khiến xe tải không thể tiếp tục hành trình vận chuyển. Làm thế nào để giải quyết vấn đề này? Bằng cách chia sẻ dữ liệu, các công ty đối tác có thể xem lịch trình của nhau và biết được nguyên nhân giao hàng chậm trễ. Từ đó họ có thể tìm cách ngăn chặn các vấn đề này trong tương lai. Vậy là vấn đề của một doanh nghiệp sẽ không gây ra tác động tiêu cực cho doanh nghiệp kia. Ví dụ, nếu lô hàng bị chậm trễ vì có một công ty chỉ giao hàng vào thứ Hai, thứ Tư và thứ Sáu, và công ty khác chỉ giao hàng vào thứ Ba và thứ Năm, thì các công ty có thể lựa chọn giao hàng vào cùng ngày để giảm thiểu thời gian chờ đợi cho khách hàng. Và bây giờ là loại vấn đề cuối cùng, tìm ra mẫu. Các công ty dầu khí phải liên tục làm việc để giữ cho máy móc của họ hoạt động đúng cách. Vì vậy, vấn đề là, làm thế nào để ngăn máy móc ngừng hoạt động. Nhà phân tích dữ liệu có thể xem xét các mẫu trong dữ liệu trước
  • 87. đó của công ty. Ví dụ, họ có thể tìm hiểu cách thức và thời điểm một máy cụ thể ngừng hoạt động trước đây và tìm hiểu thông tin về nguyên nhân gây ra việc đó. Trong trường hợp này, công ty phát hiện được mẫu chỉ ra rằng máy bắt đầu hỏng ở tốc độ nhanh hơn nếu không thể bảo dưỡng theo chu kỳ 15 ngày. Sau đó họ có thể theo dõi điều kiện hiện tại và can thiệp nếu xảy ra vấn đề này lần nữa. Khá là tuyệt, phải không? Tôi luôn ngạc nhiên khi nghe về việc dữ liệu có thể giúp các cá nhân và doanh nghiệp trong thực tế tạo ra thay đổi có ý nghĩa như thế nào. Hy vọng bạn cũng làm được điều đó. Hẹn gặp lại. Anmol: Từ giả thuyết đến kết quả Xin chào, tôi là Anmol. Tôi là Trưởng Bộ phận Phân tích tiếp thị dành cho nhà quảng cáo lớn trong Nhóm tiếp thị tại Google. Cốt lõi công việc của tôi là kết nối đúng người dùng với đúng thông điệp vào đúng thời điểm. Bước đầu tiên là hiểu được bao quát về mẫu cụ thể đang diễn ra. Ví dụ, ta biết rằng phân khúc người dùng này phản ứng nhanh hơn với loại nội dung này. Khi ta có thể thực sự xem xét giả thuyết này thông qua dữ liệu, ta tiến hành kiểm tra để đảm bảo rằng giả thuyết là thực sự đúng. Ví dụ, ta sẽ thử gửi những nội dung này cho phân khúc người dùng này, và thực sự xác minh trong một môi trường được kiểm soát để xem tỷ lệ phản hồi với loại nội dung này có thực sự cao hơn hay không. Khi đã xác minh được giả thuyết đó, ta sẽ quay lại với các bên liên quan, trong trường hợp này là các nhà tiếp thị, và nói rằng chúng tôi đã chứng minh ở mức độ chắc chắn tương đối cao là phân khúc này sẽ phản hồi nhanh hơn với loại nội dung này, vì thế, chúng tôi khuyến khích bạn sản xuất nhiều loại nội dung như vậy hơn. Các bên liên quan sẽ thấy được toàn bộ quá trình phát triển từ giả thuyết đến khái niệm đã được chứng minh, và họ có thể cùng đồng hành với chúng tôi trên hành trình chứng minh các giả thuyết này sau đó biến chúng thành các chiến lược và kiến nghị cho doanh nghiệp. Kết quả trong trường hợp này là chúng tôi đã có thể thực sự thay đổi cách nhóm tiếp thị làm việc để tập trung vào người dùng hơn. Thay vì xét từ góc độ của ta, sản xuất ra các nội dung mà ta nghĩ rằng người dùng cần, ta sẽ thực sự đi theo hướng xác định nhu cầu của người dùng trước, chứng minh rằng họ cần những thứ nhất định hoặc họ không cần những thứ nhất định, sau đó sử dụng thông tin đó để quay lại với các nhà tiếp thị và sáng tạo ra các nội dung đáp ứng nhu cầu của họ. Việc này sẽ thay đổi đường hướng sản xuất mọi thứ.
  • 88. Chương 4: Tạo câu hỏi hiệu quả SMART questions Bây giờ chúng ta đã nói về sáu loại vấn đề cơ bản, đã đến lúc bắt đầu giải quyết chúng. Để làm được điều đó, các nhà phân tích dữ liệu bắt đầu bằng cách đặt những câu hỏi phù hợp. Trong video này, chúng ta sẽ tìm hiểu cách đặt câu hỏi hiệu quả dẫn đến những hiểu biết chính mà bạn có thể sử dụng để giải quyết mọi loại vấn đề. Là một nhà phân tích dữ liệu, tôi liên tục đặt câu hỏi. Đó là một phần rất lớn của công việc. Nếu ai đó yêu cầu tôi làm việc trong một dự án, tôi sẽ đặt câu hỏi để đảm bảo rằng chúng tôi có cùng quan điểm về kế hoạch và mục tiêu. Và khi tôi nhận được một kết quả, tôi đặt câu hỏi về nó. Là dữ liệu cho tôi thấy một cái gì đó hời hợt? Có xung đột ở đâu đó cần được giải quyết không? Bạn càng đặt nhiều câu hỏi, bạn càng tìm hiểu nhiều hơn về dữ liệu của mình và hiểu biết sâu sắc của bạn sẽ càng mạnh mẽ hơn vào cuối ngày. Một số câu hỏi hiệu quả hơn những câu hỏi khác. Giả sử bạn đang ăn trưa với một người bạn và họ nói, "Đây là những chiếc bánh mì kẹp ngon nhất từ trước đến nay phải không?" Chà, câu hỏi đó không thực sự cho bạn cơ hội để chia sẻ ý kiến của riêng mình, đặc biệt nếu bạn không đồng ý và không thích bánh sandwich lắm. Đây được gọi là câu hỏi dẫn dắt (leading question) vì nó dẫn bạn đến câu trả lời theo một cách nhất định. Hoặc có thể bạn đang thực hiện một dự án và bạn quyết định phỏng vấn một thành viên trong gia đình. Giả sử bạn hỏi chú của bạn, bạn có thích lớn lên ở Malaysia không? Anh ta có thể trả lời, "Có." Nhưng bạn chưa học được nhiều về kinh nghiệm của anh ấy ở đó. Câu hỏi của bạn là câu hỏi đóng (closed-ended) . Điều đó có nghĩa là nó có thể được trả lời bằng có hoặc không. Những loại câu hỏi này hiếm khi dẫn đến những hiểu biết có giá trị. Bây giờ nếu ai đó hỏi bạn, bạn thích sô cô la hay vani hơn? Chà, cụ thể họ đang nói về cái gì vậy? Kem, bánh pudding, hương liệu cà phê hay thứ gì khác? Nếu bạn thích kem sô cô la nhưng vani trong cà phê của bạn thì sao? Nếu bạn không thích một trong hai hương vị thì sao? Đó là vấn đề với câu hỏi này. Nó quá mơ hồ và thiếu ngữ cảnh. Biết được sự khác biệt giữa các câu hỏi hiệu quả và không hiệu quả là điều cần thiết cho sự nghiệp tương lai của bạn với tư cách là một nhà phân tích dữ liệu. Xét cho cùng, quy trình phân tích dữ liệu bắt đầu với giai đoạn hỏi. Vì vậy, điều quan trọng là chúng tôi đặt câu hỏi đúng. Các câu hỏi hiệu quả tuân theo phương pháp SMART.
  • 89.  Specific questions are simple, significant and focused on a single topic or a few closely related ideas. Các câu hỏi cụ thể đơn giản, quan trọng và tập trung vào một chủ đề duy nhất hoặc một vài ý tưởng liên quan chặt chẽ. Điều này giúp chúng tôi thu thập thông tin liên quan đến những gì chúng tôi đang điều tra. Nếu một câu hỏi quá chung chung, hãy cố gắng thu hẹp nó lại bằng cách chỉ tập trung vào một yếu tố. Ví dụ, thay vì hỏi một câu hỏi đóng, chẳng hạn như ngày nay trẻ em có hoạt động thể chất đủ không? Hỏi có bao nhiêu phần trăm trẻ em đạt được 60 phút hoạt động thể chất được khuyến nghị ít nhất năm ngày một tuần? Câu hỏi đó cụ thể hơn nhiều và có thể cung cấp cho bạn nhiều thông tin hữu ích hơn.  Measurable questions can be quantified and assessed. Các câu hỏi đo lường có thể định lượng và đánh giá được. Một ví dụ về câu hỏi không thể đo lường được là tại sao một video gần đây lại lan truyền như vậy? Thay vào đó, bạn có thể hỏi video của chúng tôi đã được chia sẻ bao nhiêu lần trên các kênh xã hội trong tuần đầu tiên nó được đăng? Câu hỏi đó có thể đo lường được vì nó cho phép chúng tôi đếm các lượt chia sẻ và đi đến một con số cụ thể.  Action-oriented questions encourage change. Các câu hỏi định hướng hành động khuyến khích sự thay đổi. Bạn có thể nhớ rằng giải quyết vấn đề là nhìn thấy trạng thái hiện tại và tìm ra cách biến nó thành trạng thái lý tưởng trong tương lai. Chà, các câu hỏi định hướng hành động sẽ giúp bạn đạt được điều đó. Vì vậy, thay vì hỏi, làm thế nào chúng ta có thể khiến khách hàng tái chế bao bì sản phẩm của mình? Bạn có thể hỏi, những tính năng thiết kế nào sẽ giúp bao bì của chúng ta dễ tái chế hơn? Điều này mang lại cho bạn câu trả lời mà bạn có thể hành động. Specific Measurable Action-oriented Relevant Time-bound
  • 90.  Relevant questions matter, are important and have significance to the problem you're trying to solve. Các câu hỏi liên quan quan trọng, rất quan trọng và có ý nghĩa đối với vấn đề bạn đang cố gắng giải quyết. Giả sử bạn đang giải quyết một vấn đề liên quan đến một loài ếch đang bị đe dọa. Và bạn đã hỏi, tại sao ếch cây Pine Barrens bắt đầu biến mất? Đây là một câu hỏi không liên quan vì câu trả lời sẽ không giúp chúng ta tìm ra cách ngăn chặn những con ếch này tuyệt chủng. Một câu hỏi phù hợp hơn sẽ là, những yếu tố môi trường nào đã thay đổi ở Durham, Bắc Carolina từ năm 1983 đến năm 2004 có thể khiến ếch cây Pine Barrens biến mất khỏi Vùng Sandhills? Câu hỏi này sẽ cung cấp cho chúng tôi câu trả lời mà chúng tôi có thể sử dụng để giúp giải quyết vấn đề của mình.  Time-bound questions specify the time to be studied. Câu hỏi giới hạn thời gian xác định thời gian được nghiên cứu. Khoảng thời gian chúng tôi muốn nghiên cứu là từ năm 1983 đến năm 2004. Điều này giới hạn phạm vi khả năng và cho phép nhà phân tích dữ liệu tập trung vào dữ liệu liên quan. Được rồi, bây giờ bạn đã có hiểu biết chung về các câu hỏi SMART, có một điều khác rất quan trọng cần lưu ý khi đặt câu hỏi, đó là sự công bằng. Chúng tôi đã đề cập đến tính công bằng trước đây, nhưng xin nhắc lại, tính công bằng có nghĩa là đảm bảo rằng các câu hỏi của bạn không tạo ra hoặc củng cố sự thiên vị. Để nói về điều này, hãy quay lại ví dụ về bánh sandwich của chúng ta. Ở đó, chúng tôi có một câu hỏi không công bằng vì nó được đặt ra để dẫn bạn đến một câu trả lời nhất định. Điều này khiến bạn khó trả lời một cách trung thực nếu bạn không đồng ý về chất lượng bánh sandwich. Một ví dụ phổ biến khác về câu hỏi không công bằng là câu hỏi đưa ra các giả định. Ví dụ: giả sử một cuộc khảo sát về mức độ hài lòng dành cho những người đến thăm bảo tàng khoa học. Nếu cuộc khảo sát hỏi, bạn thích điều gì nhất về triển lãm của chúng tôi? Điều này giả định rằng khách hàng yêu thích các cuộc triển lãm, điều này có thể đúng hoặc không. Công bằng cũng có nghĩa là đặt ra những câu hỏi có ý nghĩa với tất cả mọi người. Điều quan trọng là các câu hỏi phải rõ ràng và có cách diễn đạt đơn giản mà bất kỳ ai cũng có thể dễ dàng hiểu được. Những câu hỏi không công bằng cũng có thể khiến công việc của bạn với tư cách là một nhà phân tích dữ liệu trở nên khó khăn hơn. Chúng dẫn đến phản hồi không đáng tin cậy và bỏ lỡ cơ hội để đạt được một số hiểu biết thực sự có giá trị. Bạn đã học được nhiều điều về cách đặt câu hỏi hiệu quả, như cách sử dụng khung SMART trong khi tạo câu hỏi và cách đảm bảo rằng câu hỏi của bạn công bằng và khách quan. Trong tương lai, bạn sẽ khám phá các loại dữ liệu khác nhau và tìm hiểu cách sử dụng từng loại dữ liệu để hướng dẫn các quyết định kinh doanh. Bạn cũng sẽ tìm hiểu thêm về trực quan hóa và cách số liệu hoặc thước đo có thể giúp tạo nên thành công. Nó sẽ trở nên tuyệt vời!
  • 91. Evan: Dữ liệu mở ra cánh cửa Xin chào, Tôi là Evan. Tôi là người quản lý danh mục đầu tư học tập tại Google và tôi có một trong những công việc thú vị nhất trên thế giới, tôi được xem xét các công nghệ khác nhau ảnh hưởng tới dữ liệu lớn sau đó áp dụng vào các khóa đào tạo như khóa học này để học viên tham gia. Tôi ước rằng mình có khóa học như vậy khi mới tốt nghiệp đại học hay trung học. Đây là khóa học phân tích dữ liệu đi theo hướng này, nếu bạn đã học theo một vài video, khóa học này sẽ cho bạn hành trang để làm bất cứ điều gì mình muốn. Khóa học này sẽ mở mọi cánh cửa mà bạn muốn đối với bất kỳ vai trò nào trong chương trình dữ liệu. Vậy một số vai trò đó là gì? Có rất nhiều con đường sự nghiệp khác nhau dành cho những người quan tâm đến dữ liệu. Nhìn chung, nếu bạn giống tôi, bạn có thể trở thành nhà phân tích dữ liệu làm việc với bảng tính, có thể làm việc với cơ sở dữ liệu nhỏ, vừa và lớn, nhưng tất cả những gì bạn phải nhớ là 3 vai trò cốt lõi khác nhau. Có nhiều lĩnh vực khác nhau trong từng sự nghiệp này, nhưng ba vai trò đó là nhà phân tích dữ liệu, nhìn chung đó là những người làm việc với SQL, bảng tính, cơ sở dữ liệu, có thể hoạt động như một nhóm trí tuệ doanh nghiệp để xây dựng các dashboard. Những dữ liệu này tới từ đâu? Nhìn chung, nhà phân tích dữ liệu sẽ làm việc với kỹ sư dữ liệu để biến dữ liệu thô thành đường ống có thể hành động. Vậy là ta có nhà phân tích dữ liệu, kỹ sư dữ liệu, và cuối cùng là nhà khoa học dữ liệu, ví dụ như các kỹ sư dữ liệu đã xây dựng các đường ống dữ liệu rất tuyệt vời này, đôi khi nhà phân tích cũng làm việc đó, các nhà phân tích mang lại các dữ liệu rõ ràng và có thể hành động, sau đó các nhà khoa học sẽ biến dữ liệu đó thành các mô hình học máy hoặc suy luận thống kế rất tuyệt vời, vượt quá những gì bạn có thể tưởng tượng ra. Chúng tôi sẽ chia sẻ rất nhiều nguồn tài nguyên trong các liên kết để bạn có thể nuôi dưỡng sự hào hứng với từng vai trò đól Phần hay nhất là, nếu bạn giống tôi khi đi học, tôi không hề biết mình muốn gì và ban đầu bạn chưa cần biết mình muốn đi theo con đường nào. Hãy thử tất cả mọi thứ. Để xem bạn thực sự thích điều gì. Đây là việc cá nhân. Trở thành nhà phân tích dữ liệu rất thú vị. Tại sao? Vì đây không chỉ là bàn đạp cho một mục tiêu khác. Đây là con đường sự nghiệp mà nhiều người tài giỏi đã từng đi và tạo ra các công cụ và công nghệ dễ dàng hơn cho bạn và tôi ngày nay. Ví dụ, khi tôi bắt đầu học SQL hay ngôn ngữ truy vấn có cấu trúc mà bạn sẽ được học trong khóa học này, tôi làm việc trên máy tính cá nhân và mỗi truy vấn sẽ mất khoảng 20 đến 30 phút để chạy và rất khó để theo dõi các câu lệnh SQL khác nhau mà tôi đang viết hoặc chia sẻ với người khác. Đó là từ 10 đến 15 năm trước.
  • 92. Bây giờ, với rất nhiều công ty và công cụ khác nhau đang tạo ra các công cụ và công nghệ phân tích dữ liệu để bạn làm việc dễ dàng hơn, bạn sẽ có thể dễ dàng tạo ra những kiến thức chuyên sâu mà ít gặp phải cản trở hơn như khi tôi mới bắt đầu. Tôi rất nóng lòng được nghe về suy nghĩ và trải nghiệm của bạn.
  • 93. Tuần 2: Quyết định dựa trên dữ liệu Trong phân tích, dữ liệu thúc đẩy quá trình ra quyết định. Trong phần này của khóa học, bạn sẽ khám phá các loại dữ liệu và tác động của nó đối với các lựa chọn và chiến lược thực tế. Bạn cũng sẽ tìm hiểu cách chia sẻ dữ liệu của mình thông qua báo cáo và trang tổng quan. Mục tiêu học tập:  Thảo luận về việc sử dụng dữ liệu trong quá trình ra quyết định  So sánh và đối chiếu việc ra quyết định dựa trên dữ liệu với việc ra quyết định hướng dữ liệu  Giải thích sự khác biệt giữa dữ liệu định lượng và định tính bao gồm tham chiếu đến việc sử dụng chúng và các ví dụ cụ thể  Thảo luận về tầm quan trọng và lợi ích của bảng điều khiển và báo cáo cho nhà phân tích dữ liệu có liên quan đến Tableau và bảng tính  Phân biệt giữa dữ liệu và số liệu, đưa ra các ví dụ cụ thể  Thể hiện sự hiểu biết về những gì liên quan đến việc sử dụng phương pháp toán học để phân tích một vấn đề Chương 1: Hiểu được sức mạnh của dữ liệu Dữ liệu và quyết định Chào mừng các bạn trở lại. Bây giờ đã đến lúc tiến xa hơn nữa và phát triển dựa trên những gì bạn đã học về giải quyết vấn đề trong phân tích dữ liệu và xây dựng các câu hỏi hiệu quả. Tiếp theo, ta sẽ đề cập đến nhiều chủ đề khác nhau. Ta sẽ tìm hiểu về cách dữ liệu có thể tác động đến các quyết định của mình, dù lớn hay nhỏ; điểm khác biệt giữa phân tích định lượng và định tính và khi nào thì sử dụng cách nào; ưu và nhược điểm của những công cụ trực quan hóa dữ liệu khác nhau; các chỉ số là gì, các nhà phân tích sử dụng chúng như thế nào; làm thế nào để áp dụng tư duy toán học nhằm liên kết các nội dung. Thành thật mà nói, tôi vẫn đang tìm hiểu thêm về những điều này mỗi ngày, và bạn cũng vậy, chẳng hạn như cách dữ liệu định lượng và định tính có thể kết hợp với nhau. Với vai trò của tôi trong lĩnh vực tài chính, phần lớn công việc của tôi là định lượng, nhưng gần đây tôi đang làm việc với dự án tập trung vào sự thấu cảm và tin tưởng, và điều đó thực sự mới mẻ đối với tôi. Ta sẽ quan tâm hơn đến những nội dung định tính khi phân tích, điều đó giúp tôi hiểu được cách dữ liệu định tính và định lượng có thể kết hợp với nhau để giúp ta đưa ra những quyết định hiệu quả. Bây giờ bạn đang bắt đầu xây dựng bộ công cụ phân tích dữ liệu của riêng mình.
  • 94. Có thể bạn chưa ngờ đến, bạn đã tự phân tích rất nhiều loại dữ liệu khác nhau và học hỏi được nhiều điều khi làm việc đó. Trước hết, hãy bắt đầu từ sức mạnh của việc quan sát. Cách dữ liệu trao quyền quyết định Chúng ta đã nói rất nhiều về dữ liệu là gì và nó đóng vai trò như thế nào trong quá trình ra quyết định. Chúng ta đã biết những gì rồi? Chà, chúng tôi biết rằng dữ liệu là một tập hợp các sự kiện. Chúng ta cũng biết rằng phân tích dữ liệu tiết lộ các mẫu và thông tin chi tiết quan trọng về dữ liệu đó. Cuối cùng, chúng ta biết rằng phân tích dữ liệu có thể giúp chúng ta đưa ra quyết định sáng suốt hơn. Bây giờ, chúng ta sẽ xem xét cách dữ liệu đóng vai trò trong quá trình ra quyết định và xem nhanh sự khác biệt giữa các quyết định dựa trên dữ liệu và dựa trên dữ liệu. Hãy xem xét một ví dụ thực tế. Hãy nghĩ về lần cuối cùng bạn tìm kiếm "nhà hàng gần tôi" và sắp xếp kết quả theo xếp hạng để giúp bạn quyết định nhà hàng nào có vẻ tốt nhất. Đó là một quyết định bạn đưa ra bằng cách sử dụng dữ liệu. Các doanh nghiệp và các tổ chức khác luôn sử dụng dữ liệu để đưa ra các quyết định tốt hơn. Có hai cách họ có thể làm điều này, với việc ra quyết định dựa trên dữ liệu hoặc lấy cảm hứng từ dữ liệu. Chúng ta sẽ nói nhiều hơn về việc Data-inspired decision-making ở phần sau, nhưng bây giờ đây là một định nghĩa ngắn gọn. Data-inspired decision-making is Explores different data sources to find out what they have in common. ( Ra quyết định hướng dữ liệu là Quá trình khám phá nhiều nguồn dữ liệu khác nhau để tìm ra điểm tương đồng). Tại Google, chúng tôi sử dụng dữ liệu hàng ngày theo những cách rất đáng ngạc nhiên. Ví dụ: chúng tôi sử dụng dữ liệu để giúp cắt giảm lượng năng lượng dành cho việc làm mát trung tâm dữ liệu của bạn. Sau nhiều năm phân tích dữ liệu được thu thập bằng trí tuệ nhân tạo, chúng tôi đã có thể đưa ra các quyết định giúp giảm hơn 40% năng lượng sử dụng để làm mát các trung tâm dữ liệu của mình. Nhóm Hoạt động nhân sự của Google cũng sử dụng dữ liệu để cải thiện cách chúng tôi thuê nhân viên Google mới và cách chúng tôi giúp họ bắt đầu một cách thuận lợi. Chúng tôi muốn đảm bảo rằng chúng tôi không bỏ qua bất kỳ ứng viên tài năng nào và chúng tôi đã giúp họ chuyển sang vai trò mới một cách suôn sẻ nhất có thể. Sau khi phân tích dữ liệu về các ứng dụng, các cuộc phỏng vấn và quy trình định hướng tuyển dụng mới, chúng tôi bắt đầu sử dụng một thuật toán. Algorithm is A process or set of rules to be followed for a specific task (Thuật toán là Quy trình hoặc tập hợp các quy tắc phải tuân theo cho một nhiệm vụ cụ thể). Với thuật toán này, chúng tôi đã xem xét những ứng viên không vượt qua quy trình sàng lọc ban đầu để tìm ra những ứng viên phù hợp. Dữ liệu cũng giúp chúng tôi xác định số lượng cuộc phỏng vấn lý tưởng dẫn đến các quyết định tuyển dụng tốt nhất có thể. Chúng tôi đã tạo các chương trình giới thiệu mới để giúp nhân viên mới bắt đầu công việc mới của họ. Dữ liệu ở khắp mọi nơi.
  • 95. Ngày nay, chúng ta tạo ra nhiều dữ liệu đến mức các nhà khoa học ước tính 90 phần trăm dữ liệu của thế giới đã được tạo ra chỉ trong vài năm qua. Hãy nghĩ về tiềm năng ở đây. Chúng ta càng có nhiều dữ liệu, chúng ta càng có thể giải quyết các vấn đề lớn hơn và các giải pháp của chúng ta càng hiệu quả hơn. Nhưng thu thập dữ liệu một cách có trách nhiệm chỉ là một phần của quá trình. Chúng tôi cũng phải biến dữ liệu thành kiến thức giúp chúng tôi đưa ra các giải pháp tốt hơn. Tôi sẽ để người bạn của Google, Ed, nói thêm về điều đó. Ed: “Chỉ có hàng tấn dữ liệu là không đủ. Chúng ta phải làm điều gì đó có ý nghĩa với nó. Bản thân dữ liệu cung cấp ít giá trị. Trích lời Jack Dorsey, người sáng lập Twitter và Square, "Mọi hành động đơn lẻ mà chúng ta làm trên thế giới này đều kích hoạt một số lượng dữ liệu và hầu hết dữ liệu đó là vô nghĩa cho đến khi ai đó thêm một số diễn giải về nó hoặc ai đó thêm một câu chuyện xung quanh nó." Dữ liệu rõ ràng, các dữ kiện được thu thập cùng nhau, các giá trị mô tả điều gì đó. Các điểm dữ liệu riêng lẻ trở nên hữu ích hơn khi chúng được thu thập và cấu trúc, nhưng bản thân chúng vẫn hơi vô nghĩa. Chúng ta cần diễn giải dữ liệu để biến nó thành thông tin. Hãy nhìn vào thời gian của Michael Phelps trong cuộc đua tranh huy chương 200 mét cá nhân, một phút 54 giây. Không cho chúng ta biết nhiều. Tuy nhiên, khi chúng ta so sánh nó với thời gian của đối thủ cạnh tranh của anh ấy trong cuộc đua, chúng ta có thể thấy rằng Michael đã về nhất và giành được huy chương vàng. Phân tích của chúng ta lấy dữ liệu, trong trường hợp này là danh sách các cuộc đua và thời gian của Michael và biến nó thành thông tin bằng cách so sánh nó với các dữ liệu khác. Bối cảnh là quan trọng. Chúng ta cần biết rằng cuộc đua này là một trận chung kết Olympic chứ không phải một cuộc đua ngẫu nhiên nào khác để xác định rằng đây là cuộc đua giành huy chương vàng. Nhưng đây vẫn chưa phải là kiến thức. Khi chúng ta sử dụng thông tin, hiểu nó và áp dụng nó, đó là lúc dữ liệu hữu ích nhất. Nói cách khác, Michael Phelps là một vận động viên bơi lội nhanh.” Thật thú vị khi chúng ta có thể biến dữ liệu thành kiến thức giúp chúng ta theo mọi cách, cho dù đó là tìm nhà hàng hoàn hảo hay tạo ra những thay đổi thân thiện với môi trường. Nhưng hãy nhớ rằng, có những hạn chế đối với phân tích dữ liệu. Đôi khi, chúng tôi không có quyền truy cập vào tất cả dữ liệu mình cần hoặc dữ liệu được đo lường khác nhau giữa các chương trình, điều này có thể gây khó khăn cho việc tìm các ví dụ cụ thể. Chúng tôi sẽ đề cập chi tiết hơn về những điều này sau, nhưng điều quan trọng là bạn phải bắt đầu nghĩ về chúng ngay bây giờ. Bây giờ bạn đã biết dữ liệu thúc đẩy quá trình ra quyết định như thế nào, bạn đã biết vai trò của nhà phân tích dữ liệu quan trọng như thế nào đối với doanh nghiệp. Dữ liệu là một công cụ mạnh mẽ để ra quyết định và bạn có thể giúp cung cấp cho doanh nghiệp thông tin họ cần để giải quyết vấn đề và đưa ra quyết định mới, nhưng trước đó, bạn sẽ cần tìm hiểu thêm
  • 96. một chút về các loại dữ liệu mà bạn sẽ sử dụng. làm việc với và làm thế nào để đối phó với nó. Dữ liệu định tính và định lượng Xin chào các bạn. Với quy trình đưa ra quyết định, dữ liệu là yếu tố chủ chốt. Nhưng ta cũng biết được rằng có rất nhiều loại câu hỏi khác nhau mà dữ liệu có thể giúp ta trả lời, và những câu hỏi này sẽ mang lại các loại dữ liệu khác nhau. Có hai loại dữ liệu mà chúng ta sẽ nhắc đến trong video này, đó là dữ liệu định lượng và định tính. Quantitative data is Specific objective measures of numerical facts. (Dữ liệu định lượng là Một thước đo cụ thể và khách quan, có thể đo lường bằng số). Thường là câu trả lời cho câu hỏi cái gì, bao nhiêu và tần suất là gì của một vấn đề.  The what?  How many?  How often? Nói cách khác, đó là những thứ bạn có thể đo lường, ví dụ như có bao nhiên người đi làm bằng tàu mỗi tuần. Là nhà phân tích tài chính, tôi thường xuyên làm việc với dữ liệu định lượng, tôi thích tính chắc chắn và chính xác của các con số. Qualitative data is Subjective or explanatory measures or qualities and characteristics (Dữ liệu định tính là Một thước đo chủ quan dùng để giải thích về chất lượng hoặc đặc tính, không thể đo lường bằng số). Dữ liệu định tính phù hợp để giúp ta trả lời câu hỏi tại sao. Ví dụ, tại sao mọi người thích người nổi tiếng này hay món ăn vặt này hơn. Với dữ liệu định lượng, ta có thể xem xét các con số được minh họa trực quan dưới dạng biểu đồ hoặc đồ thị. Dữ liệu định lượng có thể giúp ta hiểu ở cấp độ cao hơn về lý do có những con số như vậy. Điều này quan trọng vì nó giúp ta bổ sung bối cảnh cho một vấn đề. Là một nhà phân tích dữ liệu, bạn sẽ phải phân tích cả định lượng và định tính, tùy theo nhiệm vụ công việc. Các đánh giá là một ví dụ rất hay. Hãy nhớ lại những lần bạn xem đánh giá để quyết định có nên mua gì đó hay đi đâu đó không. Các đánh giá này có thể cho bạn biết có bao nhiêu người không thích điều đó và tại sao. Các doanh nghiệp cũng đọc những bài đánh giá này, nhưng họ sử dụng dữ liệu theo những cách khác nhau. Hãy xem xét ví dụ về một doanh nghiệp sử dụng dữ liệu từ đánh giá của khách hàng để xem dữ liệu định lượng và định tính sẽ được sử dụng như thế nào. Giả sử một cửa hàng kem địa phương bắt đầu sử dụng các bài đánh giá trực tuyến để tương tác với khác hàng và xây dựng thương hiệu của mình. Những đánh giá này giúp cửa hàng kem biết được trải nghiệm của khách hàng, từ đó có thể đưa ra quyết định sáng suốt.
  • 97. Người chủ nhận thấy rằng mức đánh giá của họ đang giảm. Anh ấy thấy rằng, gần đây cửa hàng của mình nhận nhiều đánh giá tiêu cực hơn. Anh ấy muốn biết lý do, nên bắt đầu đặt ra câu hỏi. Đầu tiên là những câu hỏi có thể đo lường được.  Có bao nhiêu đánh giá tiêu cực?  Mức đánh giá trung bình là bao nhiêu?  Có bao nhiêu đánh giá trong số này sử dụng những từ khóa giống nhau? Những câu hỏi này tạo ra dữ liệu định lượng, các kết quả số để xác nhận rằng khách hàng không hài lòng. Dữ liệu này có thể khiến họ đặt ra những câu hỏi khác.  Tại sao khách hàng không hài lòng?  Làm thế nào để cải thiện trải nghiệm của họ? Đây là những câu hỏi tạo ra dữ liệu định tính. Sau khi xem xét các đánh giá, chủ cửa hàng kem nhận thấy điểm chung, 17 đánh giá tiêu cực đều sử dụng từ "bực bội". Đó là dữ liệu định lượng. Bây giờ ta có thể bắt đầu thu thập dữ liệu định tính bằng cách đặt câu hỏi tại sao từ này lặp lại? Anh ấy phát hiện rằng khách hàng bực bội vì cửa hàng không còn những vị phổ biến khi vẫn còn đang bán hàng. Biết được điều này, cửa hàng kem có thể thay đổi đơn hàng hàng tuần để đảm bảo cửa hàng có đủ những vị kem mà khách hàng muốn. Với cả dữ liệu định lượng và định tính, chủ cửa hàng kem đã có thể phát hiện ra khách hàng của mình không hài lòng và hiểu được lý do tại sao. Khi có cả hai loại dữ liệu, anh ấy có thể thực hiện những thay đổi đúng đắn và cải thiện công việc kinh doanh của mình. Bây giờ bạn đã biết sự khác biệt giữa dữ liệu định lượng và dữ liệu định tính, bạn biết làm thế nào để có được các loại dữ liệu khác nhau bằng cách đặt ra những câu hỏi khác nhau. Công việc của thám tử dữ liệu là biết được cần hỏi câu nào để có được giải pháp đúng đắn. Sau đó bạn có thể suy nghĩ về những cách thức thú vị và sáng tạo để giúp các bên liên quan hiểu rõ hơn về dữ liệu. Ví dụ như dashboard tương tác, mà sau đây ta sẽ bắt đầu tìm hiểu.
  • 98. Chương 2: Theo dõi bằng chứng Tiết lộ lớn: Chia sẻ những phát hiện của bạn Dữ liệu rất tuyệt, nhưng nếu chúng ta không thể truyền đạt câu chuyện mà dữ liệu đang kể, thì nó sẽ không hữu ích cho bất kỳ ai. Chúng tôi cần các cách để tổ chức dữ liệu giúp chúng tôi biến nó thành thông tin. Có tất cả các loại công cụ để giúp bạn trực quan hóa và chia sẻ phân tích dữ liệu của mình với các bên liên quan. Ở đây, chúng ta sẽ nói về hai công cụ trình bày dữ liệu:  Báo cáo (Report)  Bảng điều khiển (Dashboard) Báo cáo và bảng điều khiển đều hữu ích cho việc trực quan hóa dữ liệu. Nhưng có những ưu và nhược điểm cho mỗi người trong số họ. Report is Static collection of data given to stakeholders periodically (Báo cáo là Một tập hợp dữ liệu tĩnh được cung cấp định kì cho các bên liên quan). Dashboard is Monitors live, incoming data (Bảng tổng quan là Một công cụ giám sát dữ liệu đi đến trực tiếp theo thời gian thực). Trước tiên hãy nói về các báo cáo. Báo cáo là công cụ tuyệt vời để cung cấp ảnh chụp nhanh dữ liệu lịch sử cấp cao cho một tổ chức. Ví dụ, doanh số hàng tháng của một công ty tài chính. Báo cáo đi kèm với rất nhiều lợi ích. Chúng có thể được thiết kế và gửi đi định kỳ, thường là hàng tuần hoặc hàng tháng, dưới dạng thông tin có tổ chức và dễ tham khảo. Chúng được thiết kế nhanh chóng và dễ sử dụng miễn là bạn liên tục bảo trì chúng. Cuối cùng, vì các báo cáo sử dụng dữ liệu tĩnh hoặc dữ liệu không thay đổi sau khi được ghi lại nên chúng phản ánh dữ liệu đã được làm sạch và sắp xếp. Có một số nhược điểm cần lưu ý. Các báo cáo cần được bảo trì thường xuyên và không hấp dẫn về mặt hình ảnh. Vì chúng không tự động hoặc động nên các báo cáo không hiển thị dữ liệu trực tiếp, đang phát triển. Pros:  High-level historical data  Easy to design  Pre-cleaned and sorted data Cons:  Continual maintenance  Less visually appealing  Static Để phản ánh trực tiếp dữ liệu đến, bạn sẽ muốn thiết kế một trang tổng quan. Trang tổng quan rất tuyệt vời vì nhiều lý do, chúng cung cấp cho nhóm của bạn nhiều quyền truy cập hơn vào thông tin được ghi lại, bạn có thể tương tác thông qua dữ liệu bằng cách sử dụng
  • 99. các bộ lọc và vì chúng linh hoạt nên chúng có giá trị lâu dài. Nếu các bên liên quan cần liên tục truy cập thông tin, bảng điều khiển có thể hiệu quả hơn so với việc phải kéo đi xem lại các báo cáo, đây là cách tiết kiệm thời gian lớn cho bạn. Cuối cùng nhưng không kém phần quan trọng, chúng thật tuyệt khi nhìn vào. Nhưng bảng điều khiển cũng có một số nhược điểm. Thứ nhất, chúng mất nhiều thời gian để thiết kế và thực sự có thể kém hiệu quả hơn báo cáo nếu chúng không được sử dụng thường xuyên. Nếu bảng cơ sở bị hỏng bất cứ lúc nào, chúng cần được bảo trì rất nhiều để sao lưu và chạy lại. Bảng điều khiển đôi khi cũng có thể khiến mọi người choáng ngợp với thông tin. Nếu bạn không quen xem qua dữ liệu trên trang tổng quan, bạn có thể bị lạc trong đó. Pros Cons  Dynamic, automatic, and interactive  More stakeholder access  Low maintenance  Labor-intensive design  Can be confusing  Potentially uncleaned data Là một nhà phân tích dữ liệu, bạn cần quyết định cách tốt nhất để truyền đạt thông tin tới các bên liên quan của mình. Ví dụ: điều gì sẽ xảy ra nếu các bên liên quan của bạn quan tâm đến hoạt động tương tác trên mạng xã hội của công ty? Báo cáo hàng tháng cho họ biết số lượng người theo dõi mới cho trang của họ có hữu ích không? Hoặc một bảng điều khiển theo dõi sự tham gia của phương tiện truyền thông xã hội trực tiếp trên nhiều nền tảng? Sau này, bạn sẽ tạo các báo cáo và bảng điều khiển của riêng mình để thực hành sử dụng các công cụ này. Nhưng bây giờ, tôi muốn cho bạn thấy báo cáo và bảng điều khiển có thể trông như thế nào. Chúng ta sẽ bắt đầu bằng cách sử dụng một công cụ mà chúng ta đã quen thuộc, bảng tính. Hãy xem một cách dữ liệu bảng tính có thể được hiển thị trong một báo cáo. Bảng tính này có tập dữ liệu với chi tiết đơn đặt hàng từ một công ty bán buôn. Đó là rất nhiều thông tin.
  • 100. Từ các tiêu đề, chúng ta có thể thấy những thứ khác nhau được ghi lại ở đây, như ngày đặt hàng, nhân viên bán hàng, đơn giá và doanh thu cho mỗi giao dịch được ghi lại. Đó là tất cả thông tin hữu ích, nhưng hơi khó hiểu. Chúng tôi muốn một báo cáo dễ đọc hơn. Giả sử các bên liên quan của bạn muốn xem nhanh doanh thu của nhân viên bán hàng. Sử dụng dữ liệu, bạn có thể biến chúng thành bảng tổng hợp với biểu đồ hiển thị thông tin đó. Pivot table is A data summarization tool that is used in data processing. Pivot tables are used to summarize, sort, reorganize, group, count, total or average data stored in a database. ( Bảng tổng hợp là công cụ tóm tắt dữ liệu được sử dụng để sắp xếp, tổ chức lại, nhóm, đếm, tính tổng hoặc lấy trung bình dữ liệu).
  • 102. Nó cho phép người dùng chuyển đổi cột thành hàng và hàng thành cột. Chúng ta sẽ thực sự tìm hiểu thêm về bảng tổng hợp sau. Nhưng tôi sẽ chỉ cho bạn một cái thật nhanh. Chúng tôi sẽ chọn menu Dữ liệu và nhấp vào nút Bảng tổng hợp. Nó có thể lấy dữ liệu từ bảng này. Chúng ta chỉ cần nhấn tạo và nó sẽ hiện ra một trang tính mới. Ở đây, nó cung cấp cho chúng tôi các trường bảng tổng hợp mà chúng tôi có thể chọn. Bấm chọn, nhân viên bán hàng và doanh thu. Cứ như vậy, nó lập biểu đồ cho chúng tôi. Tại thời điểm này, bạn có thể tìm hiểu xem biểu đồ trông như thế nào, nhưng tất cả thông tin đều ở đó. Hãy chuyển sang trang tổng quan. Nếu bạn cần một cách năng động hơn để chia sẻ thông tin với các bên liên quan, thì bảng điều khiển chính là người bạn đồng hành của bạn.
  • 103. Bạn có thể tạo một cái gì đó giống như bảng điều khiển Tableau này. Với các biểu đồ tương tác hiển thị nhiều chế độ xem dữ liệu. Với điều này, người dùng có thể thay đổi vị trí, phạm vi ngày hoặc bất kỳ khía cạnh nào khác của dữ liệu họ đang xem bằng cách nhấp qua các yếu tố khác nhau trên trang tổng quan. Khá tuyệt đúng không? Ở phần sau của chương trình này, chúng ta sẽ xem xét cách bạn có thể tạo trực quan hóa dữ liệu của riêng mình. Chúng ta có rất nhiều điều phải học trước khi đạt được điều đó. Nhưng tôi hy vọng đây là cái nhìn thú vị đầu tiên về các công cụ trực quan khác nhau mà bạn sẽ sử dụng với tư cách là nhà phân tích dữ liệu. Dữ liệu so với số liệu Trong video trước, ta đã học cách trực quan hóa dữ liệu bằng báo cáo và dashboard để trình bày phát hiện của bạn theo những cách thú vị. Trong một ví dụ của chúng ta, công ty muốn xem doanh thu bán hàng của mỗi nhân viên bán hàng. Việc đo lường dữ liệu đó được thực hiện nhờ có các chỉ số. Bây giờ, tôi muốn nói thêm về sự khác biệt giữa dữ liệu và chỉ số. Và có thể sử dụng chỉ số như thế nào để biến dữ liệu thành thông tin hữu ích. Metric is Single, quantifiable typy of data that can be used for measurement. (Chỉ số là một loại dữ liệu duy nhất, có thể định lượng, được sử dụng để đo lường). Hãy hình dung thế này. Dữ liệu bắt đầu từ tập hợp các thông tin thô, cho đến khi ta sắp xếp chúng thành các chỉ số riêng lẻ để biểu diễn một loại dữ liệu. Có thể kết hợp các chỉ số thành công thức mà bạn có thể gắn dữ liệu số vào. Trong ví dụ trước đó về doanh thu bán hàng, tất cả các dữ liệu không có nhiều ý nghĩa trừ khi ta sử dụng một chỉ số cụ thể để sắp xếp. Bây giờ hãy coi doanh số tính theo từng nhân viên bán hàng là chỉ số. Ta có thể biết được nhân viên nào đem lại doanh thu cao nhất. Các chỉ số thường liên quan đến các phép toán đơn giản. Ví dụ, doanh thu là số lần bán hàng nhân với giá bán hàng. Việc chọn được chỉ số phù hợp là rất quan trọng. Dữ liệu bao gồm rất nhiều thông tin thô về vấn đề mà ta đang khám phá. Nhưng ta cần chỉ số phù hợp để có được câu trả lời ta đang tìm kiếm. Các ngành khác nhau sử dụng các loại chỉ số khác nhau để đo lường trong bộ dữ liệu. Hãy cùng tìm hiểu một số cách sử dụng chỉ số của các doanh nghiệp trong các ngành khác nhau. Từ đó bạn có thể tìm ra cách áp dụng chỉ số với dữ liệu bạn đã thu thập. Bạn đã từng nghe tới ROI chưa? Các công ty sử dụng chỉ số này rất nhiều. ROI=Return on Investment is is essentially a formula designed using metrics that let a business know how well an investment is doing. (Tỷ suất hoàn vốn là một công thức sử dụng chỉ số để doanh nghiệp biết được việc đầu tư được thực hiện tốt tới đâu).
  • 104. ROI bao gồm hai chỉ số, lợi nhuận ròng trong một khoảng thời gian và chi phí đầu tư. Bằng cách so sánh hai chỉ số này, lợi nhuận và chi phí đầu tư, công ty có thể phân tích dữ liệu họ có để biết được hiệu quả đầu tư đến đâu. Việc này có thể giúp họ quyết định cách thức đầu tư trong tương lai và nên ưu tiên đầu tư vào đâu. Chỉ số cũng được sử dụng trong tiếp thị. Ví dụ, có thể sử dụng chỉ số để tính toán tỷ lệ giữ chân khách hàng, hay khả năng giữ khách hàng của công ty trong một thời gian. Tỷ lệ giữ chân khách hàng có thể giúp công ty so sánh số lượng khách hàng lúc đầu và lúc kết thúc một khoảng thời gian để biết được tỷ lệ giữ chân. Như vậy, công ty sẽ biết được các chiến lược tiếp thị thành công đến đâu, và họ có cần nghiên cứu thêm các phương án mới để khách hàng quay lại hay không. Các ngành khác nhau sử dụng các loại chỉ số khác nhau. Nhưng chúng có một điểm chung, tất cả đều nhắm đến việc đạt được mục tiêu cụ thể bằng cách đo lường dữ liệu. Metric goal is a measureable goal set by a company and evaluated using metrics ( Mục tiêu chỉ số là một mục tiêu có thể đo lường do công ty thiết lập và được đánh giá qua các chỉ số). Giống như việc có rất nhiều chỉ số, cũng có rất nhiều mục tiêu khác nhau. Có thể tổ chức muốn đạt được doanh số bán hàng hàng tháng nhất định, hoặc số phần trăm khách hàng quay trở lại cụ thể. Bằng cách sử dụng chỉ số để tập trung vào các khía cạnh riêng lẻ của dữ liệu, bạn có thể bắt đầu nhận thấy câu chuyện mà dữ liệu đang kể. Mục tiêu chỉ số và công thức là những cách hay để đo lường và hiểu dữ liệu. Nhưng đó không phải những cách duy nhất. Ta sẽ nói thêm về cách diễn giải và hiểu dữ liệu trong khóa học này.
  • 105. Chương 4: Kết nối các điểm dữ liệu Tư duy toán học Ta đã tìm hiểu rất nhiều về cách tư duy như một nhà phân tích dữ liệu. Ta đã khám phá một vài cách tư duy khác nhau. Bây giờ, tôi muốn bạn tiến thêm một bước bằng cách sử dụng cách tiếp cận toán học để giải quyết vấn đề. Mathematical thinking là một kỹ năng quan trọng giúp bạn giải quyết các vấn đề và nhìn ra các cách giải quyết mới. Bây giờ, hãy dành thời gian nói về tư duy toán học là gì, và cách ta có thể bắt đầu áp dụng. Việc áp dụng cách tiếp cận toán học không có nghĩa là bạn đột ngột trở thành thần đồng toán học. Nó có nghĩa rằng bạn xem xét một vấn đề và chia nhỏ thành từng bước có logic để thấy được quan hệ giữa các mẫu trong dữ liệu, và áp dụng điều đó để phân tích vấn đề của mình. Cách tư duy này có thể giúp bạn tìm ra công cụ tốt nhất để phân tích vì nó cho phép ta nhìn nhận các khía cạnh khác nhau của vấn đề và lựa chọn phương án logic nhất. Có rất nhiều yếu tố cần xem xét khi lựa chọn công cụ hữu ích nhất để phân tích. Một cách để lựa chọn công cụ là theo kích thước của bộ dữ liệu. Khi làm việc với dữ liệu, bạn sẽ thấy rằng có dữ liệu lớn và nhỏ. Dữ liệu nhỏ có thể rất nhỏ. Những loại dữ liệu như vậy thường được tạo thành từ bộ dữ liệu liên quan đến các chỉ số cụ thể trong một khoảng thời gian ngắn, được xác định rõ ràng. Ví dụ như lượng nước bạn uống trong ngày. Dữ liệu nhỏ có thể hữu ích khi đưa ra quyết định hàng ngày, ví dụ như quyết định uống nhiều nước hơn. Small data:  Specific  Short time-period  Day-to-day decisions Nhưng nó không có ảnh hưởng lớn đến các khung lớn hơn như hoạt động kinh doanh. Bạn có thể sử dụng trang tính để sắp xếp và phân tích các bộ dữ liệu nhỏ hơn khi mới bắt đầu. Mặt khác, dữ liệu lớn có các bộ dữ liệu lớn hơn, ít cụ thể hơn, bao hàm một khoảng thời gian dài hơn. Ta thường phải chia nhỏ ra để phân tích. Dữ liệu lớn phù hợp khi xem xét các câu hỏi và vấn đề quy mô lớn, và chúng giúp các công ty đưa ra quyết định lớn. Big data:  Large and less-specific  Long time-period  Big decisions Khi bạn làm việc với dữ liệu ở quy mô lớn, có thể chuyển sang SQL. Hãy cùng xem xét ví dụ về cách nhà phân tích dữ liệu làm việc ở bệnh viện áp dụng tư duy toán học để giải quyết vấn đề với công cụ phù hợp. Bệnh viện có thể phát hiện ra rằng
  • 106. họ đang gặp vấn đề với việc thừa hoặc thiếu giường bệnh. Dựa vào đó, bệnh viện có thể đặt mục tiêu là tối ưu hóa giường bệnh. Họ muốn đảm bảo rằng có sẵn giường bệnh cho những bệnh nhân cần chúng, nhưng không lãng phí nguồn lực bệnh viện như không gian hay ngân quỹ vào việc duy trì các giường trống. Áp dụng tư duy toán học, bạn có thể chia nhỏ vấn đề này thành từng bước quy trình để giúp bạn tìm ra các mẫu trong dữ liệu. Có rất nhiều biến trong bối cảnh này. Nhưng bây giờ, hãy giữ mọi việc đơn giản và chỉ tập trung vào những phần quan trọng. Có những chỉ số liên quan đến vấn đề này sẽ cho ta thấy các mẫu trong dữ liệu: ví dụ như số giường trống và số giường được sử dụng trong một khoảng thời gian. Đã có sẵn một công thức cho nội dung này. Ta có tỷ lệ sử dụng giường, tỷ lệ này được tính theo tổng số ngày nhập viện, và tổng số giường có sẵn trong một đơn vị thời gian. Việc ta cần làm là chọn các biến quan trọng và xem xét quan hệ của chúng để biết được các mẫu có thể giúp bệnh viện đưa ra quyết định. Để làm vậy, ta phải chọn được công cụ phù hợp cho công việc này. Các bệnh viện tạo ra rất nhiều dữ liệu bệnh nhân trong một khoảng thời gian dài. Theo logic, ta cần công cụ có thể xử lý bộ dữ liệu lớn. SQL là một lựa chọn hợp lý. Trong trường hợp này, bạn nhận thấy bệnh viện luôn có những giường không được sử dụng. Biết được điều đó, họ có thể lựa chọn bỏ đi một số giường, để giúp tiết kiệm không gian và ngân quỹ để mua và lưu trữ các thiết bị bảo vệ. Khi cân nhắc các phần riêng lẻ của vấn đề này một cách logic, tư duy toán học có thể giúp ta thấy được các góc nhìn mới để dẫn đến giải pháp. Tạm thời là vậy. Tốt lắm. Bạn đã tìm hiểu rất nhiều nội dung. Bạn đã học cách sử dụng dữ liệu khi đưa ra quyết định, tìm hiểu về khác biệt giữa phân tích định tính và định lượng, sử dụng báo cáo và dashboard để trực quan hóa dữ liệu, chỉ số, và áp dụng cách tiếp cận toán học để xử lý vấn đề. Tiếp theo, ta sẽ tìm hiểu nội dung cơ bản về trang tính. Bạn sẽ có thể áp dụng những điều bạn đã học vào thực tế và học thêm một công cụ mới để giúp bạn trong quy trình phân tích dữ liệu. Hẹn gặp lại. Tuần 3: Thêm kiến thức cơ bản về bảng tính Bảng tính là một công cụ phân tích dữ liệu rất quan trọng. Trong phần này của khóa học, bạn sẽ tìm hiểu về cách các nhà phân tích dữ liệu sử dụng bảng tính trong công việc của
  • 107. họ hàng ngày. Bạn cũng sẽ khám phá lý do tại sao tư duy có cấu trúc giúp các nhà phân tích hiểu rõ hơn về vấn đề và đưa ra giải pháp. Mục tiêu học tập:  Thảo luận về việc sử dụng bảng tính của nhà phân tích dữ liệu có liên quan đến vai trò và trách nhiệm  Chứng minh việc sử dụng bảng tính để hoàn thành các nhiệm vụ cơ bản của nhà phân tích dữ liệu bao gồm nhập và sắp xếp dữ liệu  Thể hiện sự hiểu biết về việc sử dụng các công thức trong bảng tính bao gồm định nghĩa và các ví dụ cụ thể  So sánh công thức và hàm có quy chiếu để thấy sự giống và khác nhau  Mô tả các ý tưởng chính liên quan đến tư duy có cấu trúc bao gồm lĩnh vực vấn đề, phạm vi công việc và bối cảnh Chương 1: Làm việc với bảng tính Bảng tính tuyệt vời Xin chào, rất vui khi được gặp lại bạn. Trong chương trình này, ta sẽ xem xét các trang tính. Trang tính là công cụ hiệu quả và linh hoạt, vậy nên nó là một phần quan trọng trong gần như mọi công việc của các nhà phân tích dữ liệu. Nhiều khả năng là trang tính sẽ là công cụ đầu tiên mà bạn tìm đến khi đang cố gắng trả lời các câu hỏi hướng dữ liệu. Sau khi đã xác định cần làm gì với dữ liệu, bạn sẽ tìm đến trang tính để xây dựng các thông tin và sau đó có thể trực quan hóa, và sử dụng chúng để củng cố các phát hiện của bạn.
  • 108. Trang tính được coi là những anh hùng thầm lặng trong thế giới dữ liệu. Công cụ này thường không nhận được sự coi trọng xứng đáng, nhưng là thám tử dữ liệu, bạn cần có công cụ này khi thu thập bằng chứng thông tin. Tôi biết rằng các trang tính đã giúp tôi rất nhiều. Tôi đã thêm dữ liệu về đơn mua hàng vào một trang, thiết lập các công thức trong một thẻ, và sử dụng những công cụ đó trong các thẻ khác. Cách này cho tôi thêm thời gian để thực hiện các công việc khác. Tôi không thể tưởng tượng mình sẽ làm gì nếu không có trang tính. Toán học là phần cốt lõi trong công việc của mọi nhà phân tích dữ liệu, nhưng không phải ai cũng yêu thích toán học. May mắn là trang tính có thể giúp việc tính toán dễ thở hơn một chút, tức là dễ dàng hơn một chút. Hãy cùng tìm hiểu xem. Trang tính có thể thực hiện tính toán đơn giản và phức tạp một cách tự động. Điều này không chỉ giúp bạn làm việc hiệu quả hơn, mà còn giúp bạn thấy được kết quả và hiểu được làm thế nào để có kết quả đó. Sau đây là một vài hàm mà bạn sẽ sử dụng khi thực hiện tính toán. Nhiều hàm có thể được sử dụng trong công thức toán học. Có thể sử dụng các hàm và công thức theo cách khác, và ta cũng sẽ xem xét những phần đó. Ta sẽ tiến thêm một bước nữa qua các bài tập sử dụng dữ liệu thực tế từ cơ sở dữ liệu. Đây là cơ hội để sắp xếp lại trang tính, phân tích dữ liệu thực sự, và mày mò dữ liệu một chút. Làm việc với bảng tính Các nhà phân tích dữ liệu dành rất nhiều thời gian để sắp xếp dữ liệu và thực hiện tính toán. May mắn là có rất nhiều công cụ khác nhau để giúp ta làm điều đó, bao gồm các trang tính. Trong video này, ta sẽ tìm hiểu các cách mà nhà phân tích dữ liệu sử dụng trang tính để giúp họ xử lý các trách nhiệm hàng ngày. Sau đó, bạn sẽ được tự thực hiện một số nội dung đó, nhưng bây giờ, hãy bắt đầu bằng việc xem xét cách các nhà phân tích dữ liệu sử dụng trang tính để thực hiện công việc của mình. Việc này sẽ thay đổi tùy theo công việc bạn cần hoàn thành. Đây là tổng quan về một số nhiệm vụ quan trọng. Tưởng tượng bạn làm việc cho một công ty xây dựng. Công ty của bạn cần đến kỹ năng sử dụng trang tính để phân tích dữ liệu về chi phí, nên bạn sẽ tiếp cận các dữ liệu phù hợp và thêm vào trang tính. Tôi sẽ không nhắc đến mọi chi tiết của dự án này, nhưng bạn sẽ có cơ hội tận mắt xem xét nhiều tính năng trang tính trong những phần sau. Bạn sẽ làm gì với dữ liệu khi chúng đã ở trong trang tính? Việc này là khác nhau với từng công việc, nhưng bạn có thể bắt đầu bằng cách sắp xếp dữ liệu trong công việc mà bạn được giao. Ví dụ, bạn có thể thêm dữ liệu vào pivot table. Ta đã nói về pivot table trong khóa học này. Lát nữa ta sẽ nói thêm về chi tiết, nhưng bây giờ, hãy coi đó là những bảng hữu ích được sắp xếp hợp lý. Tiếp theo, bạn có thể lọc dữ liệu trong pivot table. Việc sắp xếp và lọc dữ liệu là một phần phổ biến trong hầu hết các công việc. Việc này giúp bạn tập trung vào dữ
  • 109. liệu cần để phân tích. Trong ví dụ này, có thể bạn chỉ cần chi phí trong một khoảng thời gian, ví dụ như ba tháng qua. Sau khi lọc dữ liệu, bạn có thể thực hiện tính toán để tìm hiểu thêm về dữ liệu đó. Có thể bạn cần tìm ra dự án xây dựng nào tiêu tốn nhiều tiền nhất. Đây là lúc cần đến các hàm và công thức. Lát nữa ta sẽ nói về chúng, nhưng công thức và hàm rất phù hợp để tính toán nhanh, nhất là khi bạn không có đủ ngón tay và ngón chân để đếm. Bạn đã biết được một số cách mà nhà phân tích dữ liệu sử dụng trang tính trong công việc hàng ngày đối với các công việc khác nhau, bao gồm việc sắp xếp dữ liệu và thực hiện tính toán. Bạn sẽ được làm việc với các trang tính của riêng mình. Từng bước trong bảng tính Ta đã nói về việc các trang tính rất phù hợp để sắp xếp dữ liệu và thực hiện tính toán. Bây giờ, đã đến lúc vào việc và bắt đầu tạo một trang tính thực sự. Trong video này, tôi sẽ trình bày một số nhiệm vụ cơ bản mà các nhà phân tích dữ liệu sẽ sử dụng trang tính, bao gồm việc nhập và sắp xếp dữ liệu. Ta sẽ bắt đầu với một quy trình từng bước để cho bạn thấy một số công cụ sắp xếp dữ liệu trong trang tính. Hãy coi các bước sau là phần cơ bản. Bạn không cần phải luôn thực hiện theo các bước này khi làm việc với các bộ dữ liệu, nhưng nếu dữ liệu bạn nhận được có chút rối rắm, những bước này sẽ giúp bạn chuẩn bị dữ liệu để phân tích. Hãy bắt đầu từ việc mở trang tính mới. Là một nhà phân tích dữ liệu, có thể bạn sẽ không bắt đầu với một trang tính trống, nhưng biết cách thực hiện cũng tốt, đề phòng bạn thực sự phải làm vậy. Bắt đầu từ việc mở Excel, Google Sheets hay bất cứ phần mềm trang tính nào mà bạn đang sử dụng, sau đó chọn một tệp tin trống mới.
  • 110. Đầu tiên, khi bạn mở trang tính mới, hãy đặt tiêu đề cho trang tính đó. Đây là một mẹo rất hay. Tiêu đề phải ngắn gon, rõ ràng, trình bày chính xác nội dung của dữ liệu trong trang tính. Tin tôi đi, điều này sẽ giúp việc tìm kiếm dễ dàng hơn rất nhiều. Việc tạo một thư mục trên máy tính dành riêng cho trang tính và các tệp tin liên quan cũng sẽ giúp bạn dễ tìm hơn. Trang tính này đã được lưu sẵn trong Drive. Ta sẽ mở menu File, nhấp chuột vào Move. Sau đó ta tạo một thư mục mới, đặt tên là "Dữ liệu dân số", và chuyển trang tính vào đó. Trang tính của ta đã có một ngôi nhà mới.
  • 111. Cách này sẽ giúp bạn đỡ mất công nhấp chuột và đau đầu tìm kiếm tệp tin này. Có nhiều cách để các nhà phân tích dữ liệu có được dữ liệu họ cần làm việc. Tùy thuộc vào công việc, bạn có thể sử dụng dữ liệu từ một nguồn mở, có thể bạn được giao dữ liệu cho để làm việc, hoặc bạn được yêu cầu phải tự tìm dữ liệu. Ở phần sau của chương trình, bạn sẽ được trải nghiệm tất cả. Có rất nhiều nguồn dữ liệu mở trực tuyến, ở đó dữ liệu có sẵn cho tất cả mọi người.  World Bank  World Health Organization  Google Public Data Explorer
  • 112.  U.S. Census Bureau Có rất nhiều nguồn dữ liệu mở trực tuyến, ở đó dữ liệu có sẵn cho tất cả mọi người. Ví dụ, ta sẽ sử dụng dữ liệu từ worldbank.org, đã có sẵn trong trang tính. Dữ liệu cho thấy dân số của các nước Mỹ Latinh và Caribê từ 2010 đến 2019. Hãy mở trang tính này. Đã đến lúc chuẩn bị dữ liệu để phân tích. Ta sẽ bắt đầu bằng việc lựa chọn toàn bộ trang tính và tăng độ rộng của cột bằng cách kéo đường ranh giới của một cột. Điều này sẽ giúp ta xem được dữ liệu rõ ràng hơn, sau đó ta có thể điều chỉnh bất cứ cột nào mà ta cần. Bạn có thể tăng độ rộng cột bằng những cách khác, nhưng tạm thời ta sẽ dùng cách này. Hàng đầu của trang tính dành cho các thuộc tính dữ liệu hoặc các biến. Đây chính là phần gắn nhãn cho các loại dữ liệu trong từng cột. Hãy làm cho phần thuộc tính này nổi hơn so với các hàng còn lại bằng cách lựa chọn và thêm màu. Ta cũng sẽ in đậm các nhãn tên gọi này. Nếu muốn thêm một thuộc tính dữ liệu giữa hai thuộc tính, bạn có thể thêm cột mới. Hãy nhấp chuột vào một ô bất kỳ trong cột, sử dụng menu Insert để thêm cột mới. Cột mới sẽ xuất hiện bên cạnh cột mà bạn vừa nhấp chuột, rất đơn giản. Xóa cột cũng đơn giản như vậy. Để xóa cột, nhấp chuột phải vào một ô trong cột mà bạn muốn xóa bỏ. Hãy thêm một phần nữa vào bảng dữ liệu: đường viền. Cách này sẽ giúp bạn thấy rõ các dữ liệu hơn. Để thêm đường viền, nhấp chuột vào nút chọn tất cả ở góc trên bên trái của trang tính. Đây giống như một nút ma thuật vì bạn có thể nhấp chuột bất cứ khi nào bạn muốn thay đổi từng ô trong trang tính. Sau đó nhấp chuột vào nút Border trong menu, và chọn loại đường viền bạn muốn. Để trang tính được thống nhất, ta sẽ chọn đường viền cho tất cả các ô. Như vậy, từ trang tính thô, ta đã có trang tính điều chỉnh. Bây giờ trang tính có đủ các dữ liệu và trông rất đẹp mắt. Việc sử dụng các công cụ sắp xếp trước khi phân tích có thể giúp bạn tập trung vào dữ liệu khi bắt đầu phân tích. Bây giờ ta đã tìm hiểu một số cách sử dụng trang tính để sắp xếp dữ liệu, bạn đã sẵn sàng tự thực hiện. Tiếp theo bạn sẽ tìm hiểu thêm về trang tính, bao gồm một số lỗi thường gặp và cách xử lý.
  • 113. Chương 2: Công thức trong bảng tính Công thức để thành công Ta đã tìm hiểu về cách bắt đầu một bảng tính mới, nhập dữ liệu, và trình bày sao cho bảng tính được điều chỉnh và sẵn sàng để phân tích nghiêm túc. Bây giờ ta sẽ học cách thực hiện tính toán trong trang tính. Bạn cần tính toán mọi thứ từ tính tổng đến tính trung bình, cho đến tìm giá trị lớn nhất và nhỏ nhất. Bạn sẽ thực hiện tính toán đối với nhiều loại công việc khác nhau. Trong video này, ta sẽ tập trung tìm hiểu nội dung cơ bản sau đó làm một số phép toán với các dữ liệu bán hàng để luyện tập. Trước hết hãy nói về các công thức. Formula is A set of instructions that performs a specific calculation (Công thức là một tập hợp chỉ thị được sử dụng để thực hiện phép tính bằng cách sử dụng dữ liệu trong bảng tính). Về cơ bản, các công thức có thể tính toán cho bạn. Ngoài việc tính toán, chúng có thể làm được nhiều hơn thế. Bạn sẽ được tìm hiểu các cách khác nhau để sử dụng công thức thông qua quy trình phân tích dữ liệu. Operator is A symbol that names the type of operation or calculation to be performed. (Toán tử là một ký hiệu đặt tên cho thao tác hoặc phép tính sẽ được thực hiện). Ví dụ, ký hiệu dấu cộng là một toán tử thường gặp. Các công thức mà nhà phân tích dữ liệu sử dụng sẽ bao gồm ít nhất một toán tử. Bây giờ, hãy nói về các biểu thức hay phương trình toán học. Chúng có nhiều dạng khác nhau, nhưng có thể bạn đã quen với phần này. 3 - 1, 15 + 8 / 2, 846 x 513. Đó là ví dụ về các biểu thức Bạn có nhớ hồi học tiểu học không? Hồi còn học toán, bạn sẽ học cách hoàn thiện một biểu thức bằng cách thêm dấu bằng và kết quả. Trang tính thì khác một chút. Khi tạo một công thức bằng cách sử dụng biểu thức trong trang tính, bạn bắt đầu công thức bằng dấu bằng. Ví dụ, nếu muốn thực hiện phép trừ, ta nhập dấu bằng, sau đó là phần còn lại của biểu thức và không có dấu cách trong công thức. Bây giờ hãy thử một biểu thức khó hơn một chút. Ta sẽ nhập 31982, sau đó là dấu gạch nối để làm dấu trừ, rồi nhập 17795. Để thực hiện phép tính, ta nhấn "Enter". Bạn sẽ sử dụng công thức như thế này khi phải xử lý các con số lớn và các biểu thức có nhiều bước. Đây là các toán tử mà bạn sẽ sử dụng để hoàn thành công thức. Ký hiệu dấu cộng dành cho phép cộng, dấu trừ hay dấu gạch nối dành cho phép trừ, dấu sao dành cho phép nhân, và dấu gạch chéo dành cho phép chia. Ký hiệu phép chia và phép nhân có thể sẽ khác so với những gì bạn đã quen. Thay đổi nhỏ hơn, nhưng bạn cần phải nhớ. + addition - Subtraction * multiplication / division
  • 114. Nếu đã có dữ liệu trong trang tính, bạn có thể sử dụng tham chiếu ô trong công thức. Cell reference is A cell or a range of cells in a worksheet that can be used in a formula (Tham chiếu ô là một ô hoặc một dải ô trong bảng tính, thường được sử dụng trong các công thức và hàm). Tham chiếu ô chứa chữ cái chỉ cột và số chỉ hàng chứa dữ liệu. Range is a collection of two or more cells (Phạm vi là tập hợp hai hoặc nhiều ô trong bảng tính). Dải ô có thể bao gồm các ô trong cùng hàng hoặc cùng cột, hoặc ở khác hàng và cột được tổng hợp với nhau. Tôi sẽ cho bạn xem một ví dụ trong video tiếp theo. Bây giờ hãy áp dụng những gì ta vừa học với dữ liệu bán hàng. Nếu muốn tính tổng các số này để tính tổng doanh thu của dòng dữ liệu đầu tiên, bạn có nhấp chuột vào ô F2. Từ đó, ta có thể bắt đầu với dấu bằng và sử dụng tham chiếu ô để thêm giá trị vào biểu thức của bạn. Ta sẽ bắt đầu với ô B2 vì số năm ở ô A2 không phải giá trị mà ta muốn cộng vào tổng. Sau đó nhấn "Enter". Như vậy, tổng doanh thu bán hàng đã được tính, nhưng nếu bạn nhận ra một giá trị trong dữ liệu sai thì sao? Không vấn đề gì. Bạn có thể thay đổi giá trị trong bất cứ ô nào nhờ có công thức và tổng doanh thu sẽ được cập nhật tự động. Điểm hay khi sử dụng tham chiếu ô là chúng sẽ tự động cập nhật khi sao chép công thức sang ô mới. Ta sẽ tiết kiệm được nhiều thời gian. Thay vì nhập lại công thức cho mỗi bộ tham chiếu ô mới, bạn chỉ cần sao chép tham chiếu nhờ có menu hoặc phím tắt trên màn hình như Ctrl + C. Sau đó dán công thức tại nơi mà bạn muốn áp dụng qua phím tắt Ctrl + V. Vậy là xong! Công thức sẽ cập nhật chính xác tất cả các ô và giá trị mới. Bây giờ, giả sử bạn muốn tính doanh thu bán hàng trung bình. Để làm vậy, bạn tạo công thức mới ở một ô khác. Để nhóm các giá trị trong công thức, hãy dùng dấu ngoặc. Làm vậy để cho trang tính biết rằng cần tính giá trị nào và thứ tự thực hiện phép tính. Ví dụ =(B2 + C2 + D2 + E2)/4. Bạn đang cộng tổng các giá trị trong bốn ô sau đó sử dụng dấu gạch chéo để chia tổng cho 4, giống như ví dụ trước, ta có thể sao chép và dán công thức. Đây là một công thức khác mà bạn có thể sử dụng khi muốn tìm phần trăm thay đổi về doanh số giữa tháng Sáu và tháng Bảy. Khi công thức tính được giá trị, bạn có thể sử dụng nút % để chuyển giá trị sang dạng phần trăm. Khi áp dụng công thức sang các hàng khác, cả công thức và phần trăm sẽ tự động cập nhật. Trông không giống đáp án đúng. Có vẻ như ta gặp lỗi rồi. Đừng lo. Ta có thể gặp lỗi ở mọi giai đoạn khi phân tích dữ liệu, bao gồm cả khi bạn sử dụng trang tính. Công thức phải thật chính xác. Nếu có lỗi với một tham chiếu ô, công thức sẽ không hoạt động. Ta gặp phải lỗi gì? Bạn có thể thấy rằng giá trị ở ô D4 không có. Sẽ mất thời gian và công sức tìm hiểu để tìm được giá trị đúng, nhưng rất xứng đáng. Phần phân tích phải chính xác nhất có thể. Khi cộng các giá trị, công thức sẽ lo phần còn lại. Ta đã nói về rất nhiều thứ. Cảm ơn bạn đã chú ý. Bạn sẽ có thể áp dụng những điều ta học về công thức bây giờ và trong phần sau của chương trình để phân tích hiệu quả hơn và công việc của bạn cũng dễ dàng hơn, và bạn sẽ có thể làm việc với trang tính của riêng mình. Hãy làm việc với trang tính thật vui.
  • 115. Lỗi bảng tính và cách khắc phục Chào mừng bạn trở lại với khóa học. Gần đây ta đã tìm hiểu về công thức. Đôi khi các nhà phân tích dữ liệu gặp phải vấn đề với công thức và phát hiện thấy lỗi. Ta đều đã trải qua việc này và thật khó chịu. Nhưng có cách giải quyết, và đó là điều mà ta sẽ tìm hiểu trong video này. Một lỗi mà bạn có thể gặp phải là lỗi DIV. #DIVO! is A formula is trying to divide a value in a cell by 0 or by an empty cell. Lỗi DIV xảy ra khi công thức thực hiện phép chia giá trị trong một ô với 0 hoặc một ô trống. Trong trang tính này, giá trị phần trăm hoàn thành trong cột C được tính bằng cách chia giá trị trong cột Nhiệm vụ hoàn thành cho giá trị trong cột Nhiệm vụ cần thực hiện. Lưu ý rằng cột C đã có sẵn định dạng phần trăm. Lỗi DIV nằm ở ô C4 vì ta chia giá trị trong ô A4 cho 0. Để tránh vấn đề này, ta có thể thiết lập để trang tính tự động nhập Not applicable khi một ô trong cột A chứa giá trị 0 có thể gây ra lỗi. Để làm vậy, ta sẽ sử dụng hàm IFERROR. =IFERROR(B4/A4, “Not applicable”) Nếu gặp phải lỗi DIV do một ô có chứa 0, ta sẽ thêm cụm Not applicable. Bây giờ hãy chuyển sang ERROR.(in Google Sheets only) #ERROR is A formula can’t be interpreted as input (also known as a parsing error). Trong Google Sheets, ERROR cho ta biết công thức không thể được diễn giải như đã nhập vào. Đây còn được gọi là lỗi phân tích cú pháp. Giả sử ta muốn đếm tổng số nhiệm vụ trong cột B và C, ta sẽ sử dụng hàm SUM, nhưng công thức tính tổng từ B2 đến B6 và C2 đến C6 lại gặp lỗi. Khi kiểm tra kỹ hơn, ta nhận thấy dấu phẩy bị thiếu giữa dải ô B2 đến B6 và C2 đến C6. Ta có thể sửa lại bằng cách thêm dấu phẩy giữa dải ô để thể hiện phần kết thúc của từng mục dữ liệu. Đây còn được gọi là dấu phân cách (delimiter), lát nữa bạn sẽ được tìm hiểu sau. Bây giờ, công thức có thể tính chính xác tổng số nhiệm vụ là 25. Một loại lỗi khác là N/A. Data in a formula can’t be found by the spreadsheet. Lỗi N/A cho bạn biết rằng trang tính không thể tìm thấy dữ liệu trong công thức của bạn. Nhìn chung, điều này có nghĩa rằng dữ liệu không tồn tại. Lỗi này thường xảy ra khi sử dụng các hàm như VLOOKUP, để tìm một giá trị cụ thể trong một cột để trả về thông tin tương ứng. Đây là một danh sách tổng hợp các loại hạt và giá của chúng. Khi sử dụng VLOOKUP, trang tính sẽ tìm giá trong danh sách, sau đó tính giá cho từng cửa hàng bằng cách sử dụng phần đánh dấu được chỉ định. Nhưng ta gặp lỗi N/A trong ô B49 và C49. Công thức VLOOKUP chính xác, vậy chuyện gì đã xảy ra? Nếu ta nhìn kỹ vào tên của loại hạt, "almond" không trùng khớp trong bảng lookup, bảng lookup sử dụng từ số nhiều "almonds". Nên ta sẽ đổi từ almond thành almonds, khi đã sửa lỗi sai chính tả đó, ta sẽ có các giá đúng.
  • 116. Nhắc đến lỗi sai chính tả, đôi khi nó có thể gây ra lỗi NAME. #NAME is a formula ir function name isn’t understood (Lỗi NAME xảy ra khi không thể nhận diện hay hiểu được tên của công thức). Giả sử ta thấy lỗi NAME trong trang tính giá các loại hạt. Nếu quan sát kỹ, hàm VLOOKUP ở ô B21 bị viết sai, thừa một chữ O; việc này gây ra lỗi NAME cho cả phần giá và kết quả phép tính phần đánh dấu cho cửa hàng. Để sửa lỗi này, ta có thể xóa chữ O trong VLOOKUP. Hoàn hảo. Đôi khi ta gặp lỗi do thông tin sai hoặc không thống nhất. #NUM is a formula or function calculation can’t be performed as specified (Lỗi NUM cho biết rằng ta không thể thực hiện phép tính của công thức như dữ liệu đã xác định). Dữ liệu không có nghĩa gì với phép tính đó. Điều tôi định nói ở đây là giả sử ta đang làm việc với một dự án xây dựng lớn, sử dụng trang tính để theo dõi dự án mất bao nhiêu thời gian để hoàn thành các mốc quan trọng. Ta có thể sử dụng hàm DATEDIF để tính số tháng giữa ngày bắt đầu và kết thúc. Hàm này yêu cầu ngày bắt đầu phải ở ô được tham chiếu đầu tiên và ngày kết thúc phải ở ô được tham chiếu thứ hai. Trong trường hợp của ta, đó là ô B2 và C2. Chữ M viết tắt cho months (tháng), giống như ta muốn trang tính này tính toán số tháng giữa ngày bắt đầu và ngày kết thúc. Nhưng ta gặp lỗi NUM trong ô D6. Ta có thể thấy rằng ngày kết thúc đến trước ngày bắt đầu, nên hàm DATEDIF không thể tính số tháng giữa hai ngày đó. Có vẻ như ngày bắt đầu và ngày kết thúc vô tình bị tráo đổi. Ta có thể yêu cầu xác minh dữ liệu để đảm bảo. Trong lúc đó, hãy đảo thứ tự của của các ô trong công thức để tạm thời sửa lỗi này. Bây giờ, kết quả là chín tháng. Nếu tên của khách hàng vô tình bị thêm vào ngày bắt đầu trong trang tính thì sao? Ta sẽ gặp lỗi. #VALUE is a general error that could indicate a problem with a formula or referenced cells (Lỗi VALUE thể hiện vấn đề với công thức hoặc ô được tham chiếu). Thường thì ta sẽ không biết ngay vấn đề làm gì, lỗi này mất công sửa chữa hơn. Trong trường hợp này, John Welty được nhập vào phần ngày bắt đầu, khiến ta không thể tính toán với hàm DATEDIF trong ô D6. Ta sẽ thay thế văn bản John Welty với ngày bắt đầu đúng là 1/9/16. Cuối cùng là lỗi REF. #REF is a formula is referencing a cell that is no longer valid or has been deleted (Lỗi REF thường xuất hiện khi ô được tham chiếu trong công thức đã bị xóa, khiến công thức không thể thực hiện phép tính). Đây là trang tính để tính toán số ghế sẵn có cho bữa trưa của công ty. Giả sử công ty quyết định không sử dụng tầng 2, nên ta sẽ xóa hàng 4. Việc này gây ra lỗi REF khi tính tổng số ghế sẵn có ở ô B5. Để sửa lại, ta có thể thay đổi công thức để thêm giá trị trong ô B2 và B3. Trong trường hợp này, ta có thể tránh lỗi REF bằng cách sử dụng hàm SUM và một dải ô thay vì thêm giá trị ô bằng cách tham chiếu trực tiếp. Bây giờ, nếu xóa hàng 10, hàm SUM sẽ tính tổng số ghế sẵn có. Ta đã sửa một số lỗi trang tính thường gặp nhất. Khi gặp lại các lỗi đó, bạn sẽ biết lỗi đó là gì. Khắc phục sự cố là một phần quan trọng trong phân tích dữ liệu, nên việc tìm cách giải quyết là kỹ năng quan trọng đối với các nhà phân tích dữ liệu.
  • 118. Chương 3: Hàm trong bảng tính Chức năng 101 Công thức là một cách hay để sử dụng trang tính hiệu quả hơn, nhất là khi bạn thêm các phím tắt như sao chép và dán. Khi tiếp tục công việc phân tích dữ liệu, bạn sẽ có thể học được nhiều phím tắt hơn để giúp bạn thực hiện các yêu cầu. Nhưng bây giờ đã đến lúc chuyển sang các hàm. Mặc dù chúng có liên quan chặt chẽ đến các công thức, nhưng chúng không giống hệt nhau. Đến cuối video này, bạn sẽ nhận thấy được sự khác biệt và biết được khi nào sử dụng loại nào. Function is A preset command that automatically performs a specific process or task using the data (Hàm là Một lệnh đặt trước tự động thực hiện một quy trình hoặc tác vụ cụ thể bằng cách sử dụng dữ liệu trong bảng tính). Có thể bạn vẫn còn nhớ một số phím tắt mà ta đã học để sử dụng với các công thức. Hãy coi các hàm như các phím tắt hữu dựng nhất. Rất hay là các hàm trong trang tính đều có tên gọi để thể hiện hoạt động chúng thực hiện. Có rất nhiều hàm khác nhau. Khi tiếp tục làm việc với các trang tính, bạn sẽ thấy rằng có những loại bạn sử dụng rất nhiều, có những loại lại ít sử dụng hoặc không bao giờ sử dụng. Bây giờ, hãy xem xét một số chức năng mà ta có thể áp dụng với dữ liệu bán hàng trong video trước. Ta sẽ bắt đầu với tổng doanh thu bán hàng. Hãy sử dụng hàm SUM cho phần này trong ô F2. Các bước đầu tiên khá giống với những gì ta đã làm ở video trước. Đầu tiên, ta sẽ chọn ô mà mình muốn thực hiện tính toán. Nhập dấu =, sau đó thêm từ SUM để chỉ hàm. Một trong những điểm hay về hàm là không phải lúc nào cũng cần toán tử, ví dụ như dấu + để thể hiện phép cộng. Trong trường hợp này, sau dấu mở ngoặc, bạn có thể tiếp tục chọn dải ô mà bạn muốn tính tổng. Dấu hai chấm giữa các tham chiếu ô thể hiện rằng bạn đang sử dụng dải ô. Trong trường hợp này, dải ô bao gồm các ô trong cùng một hàng. Sau khi đóng ngoặc, ta nhấn Enter. Như vậy, ta có được tổng doanh thu bán hàng. Giống như công thức mà ta sử dụng trước đó, ta có thể sao chép và dán các hàm vào các ô khác trong cùng một cột. Trang tính có một công cụ gọi là fill handle. Đó là một ô nhỏ hiển thị ở góc dưới bên phải khi bạn nhấp chuột vào một ô. Nếu đặt con trỏ vào ô đó, bạn có thể kéo fill handle sang các ô khác trong cùng hàng hoặc cột. Công thức hay hàm có trong ô đó sẽ được tự động thêm vào các ô mà bạn kéo đến, fill handle sẽ cập nhật công thức để tham chiếu ô trùng với hàng và cột của ô mà bạn kéo đến. Điều này có nghĩa rằng công thức được tính toán dựa trên dữ liệu trong từng hàng hoặc cột. Ta không thể điền như vậy trong mọi tình huống, nhưng đây vẫn là một mẹo hay. Bây giờ hãy tính doanh thu trung bình trong từng tháng bằng cách sử dụng hàm AVERAGE. Giả sử bạn được yêu cầu tìm doanh thu hàng tháng thấp nhất trong bộ dữ liệu này. Có một hàm để làm việc đó. Đó là hàm MIN, là viết tắt của minimum (giá trị nhỏ nhất). Hàm này
  • 119. hoạt động như sau. Giả sử bạn muốn tìm doanh thu hàng tháng thấp nhất trong toàn bộ dữ liệu. Bạn cần thiết lập hàm. Sau dấu mở ngoặc, chọn các giá trị từ cả ba hàng. Đây có thể là thông tin quan trọng với các bên liên quan. Hãy thêm màu vào ô có giá trị đó, trong bộ dữ liệu để nổi bật hơn. Trong trường hợp này, nhấp chuột vào ô D2 sau đó chọn biểu tượng Fill color, có hình như một thùng sơn, sau đó chọn một màu. Tôi sẽ sử dụng màu vàng. Bạn có thể thực hiện các bước tương tự để tìm doanh thu cao nhất bằng cách sử dụng hàm MAX. Có vẻ như ta có thông báo lỗi. Có gì đã sai? Ta quên thêm dấu ngoặc sau hàm. Đừng lo, ta sửa được ngay thôi. Nhưng đây là lời nhắc rằng bạn phải liên tục kiểm tra định dạng của hàm và công thức khi bạn sử dụng. Ta sẽ tìm hiểu thêm về thông báo lỗi và cách xử lý chúng sau. Như vậy tốt hơn. Bây giờ ta sẽ thêm màu vào ô có doanh thu cao nhất. Đây chỉ là một cách để nhấn mạnh dữ liệu quan trọng. Bạn sẽ tìm hiểu về những cách khác sau. Bạn đã được xem một số cách để thêm và sắp xếp dữ liệu trong trang tính. Bạn cũng có thể thấy hiệu quả của các công thức và hàm khi áp dụng vào dữ liệu thực tế. Là một nhà phân tích dữ liệu, đây chỉ là bắt đầu trải nghiệm với trang tính. Bạn sẽ sớm biết được còn rất nhiều điều nữa mà trang tính có thể thực hiện. Trong lúc đó, bạn hoàn toàn có thể tự luyện tập với các công thức và hàm này, cũng như là các quy trình khác. Bạn có thể mày mò thêm. tìm hiểu xem trang tính có thể làm gì. Bạn sẽ sớm được chuyển từ các trang tính sang tư duy có cấu trúc. Các mảnh ghép về phân tích dữ liệu đang gần được gắn kết. Tiếp theo sẽ là những điều thú vị. Hãy tiếp tục theo dõi.
  • 120. Chương 4: Tiết kiệm thời gian với tư duy có cấu trúc Trước khi giải quyết một vấn đề, hãy hiểu nó Albert Einstein từng nói "Nếu tôi có một giờ để cứu trái đất, tôi sẽ dành 59 phút để xác định vấn đề và 1 phút để giải quyết vấn đề đó. Điều này nghe có vẻ cực đoan, nhưng nó thể hiện tầm quan trọng của việc xác định vấn đề trước khi cố gắng giải quyết vấn đề đó. Nhiều khi, các nhóm thường bắt tay vào phân tích dữ liệu ngay để rồi sau vài tháng, họ nhận ra rằng mình đang giải quyết nhầm vấn đề hoặc họ không có dữ liệu chính xác. Trong video này, ta sẽ học cách phát triển phương án có cấu trúc để xác định miền vấn đề. Việc này rất quan trọng vì nếu bạn xác định được vấn đề rõ ràng ngay từ đầu, ta sẽ dễ giải quyết hơn, từ đó giúp tiết kiệm thời gian, tiền bạc, và nguồn lực. Đối với dữ liệu, ta gọi mảnh ghép đầu tiên này là miền vấn đề. Problem domain is The specific area of analysis that encompasses every activity affecting or affected by the problem. (Phạm vi vấn đề là Lĩnh vực phân tích bao gồm mọi hoạt động ảnh hưởng đến vấn đề hoặc bị ảnh hưởng bởi vấn đề). Trước khi làm những việc khác, ta cần hiểu được miền vấn đề và tất các phần trong đó cũng như mối quan hệ để ta có thể tìm hiểu toàn bộ câu chuyện. Vì gọi là mảnh ghép đầu tiên, tôi nghĩ về việc này như một bộ ghép hình. Giả sử bạn có một bộ ghép hình. Hãy coi bộ ghép hình đó là miền vấn đề. Bạn có tất cả 500 mảnh ghép nhưng lại làm mất hộp đựng. Nên bạn không biết hình ảnh tổng thể của bộ ghép hình. Hình ảnh sẽ là động vật? Thác nước? Một bát cam? Dù là gì đi nữa, việc lắp ghép mà không có hình ảnh để tham khảo là rất khó. Kể cả người ghép hình giỏi nhất cũng cần một quy trình mới và rất nhiều thời gian để hoàn thành bộ ghép hình đó. Các nhà phân tích dữ liệu cũng gặp vấn đề như vậy. Các nhà phân tích dữ liệu không phải lúc nào cũng được biết trước bức tranh hoàn chỉnh khi bắt đầu dự án. Phần lớn công việc của họ là phát triển phương án có cấu trúc và áp dụng tư duy phản biện để tìm ra giải pháp tốt nhất. Điều đó bắt đầu với việc hiểu được miền vấn đề. Đây là lúc ta cần đến STRUCTURED THINKING (tư duy có cấu trúc). Để giải quyết thành công vấn đề với tư cách là nhà phân tích dữ liệu, bạn cần rèn luyện não bộ để tư duy có cấu trúc. Đó là nội dung mà bạn sẽ tìm hiểu tiếp theo. Hẹn gặp lại. Phạm vi công việc và tư duy có cấu trúc Trước đó, tôi đã nói với bạn rằng việc xác định cẩn thận vấn đề kinh doanh có thể giúp tiết kiệm thời gian, tiền bạc và nguồn lực. Ta đạt được những điều này nhờ tư duy có cấu trúc. Structured thinking is The process of recognizing the current problem or situation, organizing available information, revealing gaps and opportunities, and identifying the options (Tư duy có cấu trúc là Quá trình nhận ra vấn đề hoặc tình huống hiện tại, sắp xếp thông tin
  • 121. sẵn có, bộc lộ những khoảng trống và cơ hội, đồng thời xác định các lựa chọn). Nói cách khác, đây là một cách chuẩn bị rất kỹ càng. Ta chuẩn bị danh sách rõ ràng và những điều bạn được kỳ vọng sẽ phải bàn giao, lịch trình đối với các nhiệm vụ và hoạt động quan trọng, cũng như các điểm kiểm tra để nhóm biết rằng bạn có phát triển. Trong video này, chúng ta sẽ xem xét cách tư duy có cấu trúc giúp ta tiết kiệm thời gian và công sức, đồng thời giúp công việc của nhà phân tích dữ liệu dễ dàng hơn vì ta có thể hiểu rõ hơn công việc ta đang thực hiện. Trong thế giới kinh doanh, các nhóm thường dành nhiều thời gian quý giá để cố gắng giải quyết một vấn đề quan trọng, nhưng rốt cục lại quay trở về điểm bắt đầu. Vấn đề ban đầu không được giải quyết, mà họ đã tốn hàng giờ đồng hồ mà không giải quyết được. Kết quả này ảnh hưởng tiêu cực đến bạn, nhóm của bạn, và toàn bộ tổ chức. Nhưng thường thì ta có thể ngăn chặn điều đó. Nhiều khi tình huống này là do không hiểu rõ vấn đề. Tư duy có cấu trúc sẽ giúp bạn hiểu vấn đề ở cấp độ cao để có thể nhận diện các lĩnh vực cần khám phá và thấu hiểu sâu hơn. Điểm bắt đầu để tư duy có cấu trúc là miền vấn đề, ở phần trước đó nếu bạn còn nhớ. Khi đã biết lĩnh vực phân tích cụ thể, bạn có thể thiết lập cơ sở và vạch ra tất cả các yêu cầu và giả thuyết trước khi bắt đầu tìm hiểu. Với một cơ sở vững chắc, bạn sẽ sẵn sàng đối mặt với bất kỳ trở ngại nào. Có những trở ngại như thế nào? Giả sử bạn được yêu cầu dự đoán giá trị tương lai của một căn hộ dựa trên bộ dữ liệu sẵn có. Bạn có hàng trăm biến khác nhau và mỗi biến đều quan trọng với việc phân tích. Nhưng nếu một biến vô tình bị bỏ quên thì sao, ví dụ như foot vuông (đơn vị đo lường ở Mỹ- Anh) ? Bạn sẽ phải quay lại và thực hiện lại những công việc khó khăn. Đó là vì việc thiếu biến có thể dẫn đến kết luận không chính xác. Một cách khác để luyện tập tư duy có cấu trúc và tránh mắc lỗi là sử dụng tài liệu phạm vi công việc. Scope of work (SOW) is an agreed-upon outline of the work you’re going to perform on a project (Phạm vi công việc, SOW là Bản phác thảo đã được thống nhất về các nhiệm vụ sẽ được thực hiện trong một dự án). Đối với nhiều doanh nghiệp, tài liệu này bao gồm những nội dung như chi tiết công việc, lịch trình, và báo cáo mà khách hàng có thể kỳ vọng. Bây giờ, là nhà phân tích dữ liệu, tài liệu phạm vi công việc phải mang tính chuyên môn hơn, bao gồm những mục cơ bản mà ta vừa nhắc tới, nhưng bạn cũng cần tập trung vào những phần như chuẩn bị dữ liệu, xác thực, phân tích các bộ dữ liệu định lượng và định tính, kết quả ban đầu, và có thể là một số hình ảnh để truyền tải nội dung. Hãy xem xét tài liệu phạm vi công việc thực tế với một ví dụ đơn giản. Giả sử một cặp đôi đã thuê người tổ chức đám cưới. Ta sẽ tập trung vào một nhiệm vụ, đó là thiệp mời đám cưới. Scop of work, SOW:  Deliverables (sản phẩm bàn giao)
  • 122.  Timelines (lịch trình)  Milestones (mốc quan trọng)  Reports (báo cáo) Hãy tìm hiểu kỹ về một phần trong đó, sản phẩm bàn giao. Người tổ chức đám cưới và cặp đôi sẽ quyết định thiệp mời, lập danh sách người cần mời, thu thập địa chỉ của họ, in thiệp mời, viết địa chỉ trên phong bì, dán tem và gửi chúng đi. Bây giờ hãy kiểm tra lịch trình. Bạn sẽ để ý thấy các ngày và mốc quan trọng để ta đi đúng hướng. Cuối cùng, ta có các báo cáo, để cặp đôi bớt lo lắng bằng cách thông báo cho họ mỗi khi hoàn thành một bước. Phạm vi công việc là một công cụ đơn giản nhưng hiệu quả. Với tài liệu phạm vi công việc chặt chẽ, bạn sẽ có thể giải quyết bất kỳ thắc mắc, mâu thuẫn, hay câu hỏi nào về dữ liệu từ trước và đảm bảo rằng những cản trở đó không ngáng đường ta. Đây là ví dụ đơn giản về hình thức của tài liệu phạm vi nghiên cứu. Sau này, bạn sẽ có thể tạo một tài liệu của riêng mình. Tiếp theo, ta sẽ kiểm tra những cản trở từ một góc độ khác bằng cách hiểu được tầm quan trọng của việc bối cảnh hóa dữ liệu và tránh thành kiến. Chúng tôi sẽ chia sẻ những kiến thức thú vị cho bạn. Duy trì mục tiêu Chào mừng bạn quay lại. Trong video này, ta sẽ tìm hiểu tầm quan trọng của việc bối cảnh hóa dữ liệu, và nhận diện thiên lệch dữ liệu. Hãy bắt đầu thôi. Dữ liệu không nằm trong khoảng không vô định, nó cần có bối cảnh. Context is The condition in which something exists or happen ( Ngữ cảnh là Điều kiện để một cái gì đó tồn tại hoặc xảy ra). Hành động có thể phù hợp trong bối cảnh này, nhưng lại không phù hợp trong bối cảnh khác, ví dụ, hành vi hét lớn bị coi là bất lịch sự khi bạn của bạn đang đứng chắn TV, nhưng lại hoàn toàn phù hợp trong bối cảnh khác, nếu người bạn đó sắp bị một đứa bé đi xe đạp đâm phải. Bạn có thấy sự khác biệt không? Đối với dữ liệu, các con số không có ý nghĩa gì nhiều nếu không có bối cảnh. Tôi sẽ nhường chỗ cho Ed, đồng nghiệp của tôi tại Google, để chia sẻ với bạn về nội dung này. Khi ta có sẵn ngày càng nhiều dữ liệu hơn. Ta có thể tận dụng dữ liệu đó theo những cách ngày càng phức tạp, và tạo ra càng nhiều hiểu biết hữu ích hơn. Ta sử dụng dữ liệu ở nhiều cấp độ khác nhau.
  • 123. Đôi khi dữ liệu mang tính mô tả, để trả lời những câu hỏi như, ta đã dành bao nhiêu tiền để đi du lịch vào tháng trước? Dữ liệu trở nên có giá trị hơn, khi ta tạo được những thông tin mang tính chẩn đoán và dự báo, ví dụ như hiểu được tại sao chi tiêu du lịch tháng trước lại tăng. Tuy nhiên, dữ liệu có giá trị nhất là khi ta có thể tạo được những thông tin mang tính quy định. Ví dụ, làm thế nào để tận dụng dữ liệu để khuyến khích du lịch hiệu quả hơn? Việc tìm hiểu ý nghĩa của dữ liệu cũng quan trọng như việc thu thập. Là một nhà phân tích dữ liệu, phần lớn công việc của bạn là đưa dữ liệu vào bối cảnh. Nhiệm vụ của bạn là phải giữ quan điểm khách quan và công nhận mọi mặt lập luận, trước khi đưa ra kết luận. Bối cảnh mang nhiều tính cá nhân. Nếu hai người cùng quản lý một bộ dữ liệu, và thực hiện theo những hướng giống nhau, khả năng là họ vẫn sẽ tạo ra các kết quả khác nhau. Tại sao? Bởi vì không có một cách chung để diễn giải theo bối cảnh. Mỗi người tiếp cận vấn đề theo một cách riêng. Kể cả khi có quy trình thu thập dữ liệu chính xác, ta vẫn có thể phân tích sai. Kết luận có thể bị ảnh hưởng bởi thiên lệch có ý thức và tiềm thức của bạn, dựa theo các chuẩn mực văn hóa, xã hội, và thị trường. Ví dụ, nếu bạn hỏi một người dân ở Boston, đội bóng chảy nào giỏi nhất, khả năng cao họ sẽ trả lời rằng đó là Boston Red Sox. Đây chính là hạn chế lớn của việc phân tích dữ liệu. Nếu phân tích không đảm bảo khách quan, kết luận có thể gây hiểu nhầm. Để thực sự hiểu về dữ liệu, bạn phải nghĩ kỹ về các câu hỏi:  Who  What  Where  When  How
  • 124.  Why Bạn có thể tự hỏi những câu như, ai là người thu thập dữ liệu? Dữ liệu về cái gì? Dữ liệu biểu diễn điều gì, chúng liên quan đến các dữ liệu khác như thế nào? Dữ liệu được thu thập khi nào? Dữ liệu đã thu thập từ lâu có thể có một số hạn chế, khi xét trong tình hình hiện tại. Ví dụ, nếu ta thu thập số điện thoại trong thế kỷ trước, có thể đến một lúc nào đó, khi xuất hiện điện thoại di động, tức là ta cần thêm trường số điện thoại. Bạn cũng cần xem xét địa điểm thu thập dữ liệu. Có thể sẽ có nhiều thay đổi đối với thành phố, các bang và quốc gia, và cách thức thu thập. Khảo sát có thể không hiệu quả bằng phỏng vấn trực tiếp, ví dụ như vậy. Tất nhiên còn lý do tại sao. Lý do tại sao có thể liên quan chặt chẽ đến thiên lệch. Tại sao? Vì đôi khi, dữ liệu được thu thập, thậm chí là bịa đặt, để phục vụ một mục đích. Điều tốt nhất mà bạn có thể làm để đảm bảo tính công bằng và chính xác của dữ liệu, là chắc chắn rằng bạn bắt đầu với phần biểu diễn chính xác về quần thể, và thu thập dữ liệu một cách phù hợp và khách quan nhất. Sau đó, bạn sẽ có các thông tin thực tế để truyền tải cho nhóm của mình. Hy vọng bạn đã hiểu được tầm quan trọng của các dữ liệu công bằng và khách quan, và tầm quan trọng của bối cảnh, khi nhắc đến việc tìm hiểu và diễn giải dữ liệu. Tiếp theo, ta sẽ học cách áp dụng vào thực tế.
  • 125. Tuần 4: Luôn ghi nhớ các bên liên quan Các nhà phân tích dữ liệu thành công học cách cân bằng nhu cầu và kỳ vọng. Trong phần này của khóa học, bạn sẽ học các chiến lược để quản lý kỳ vọng của các bên liên quan đồng thời thiết lập giao tiếp rõ ràng với nhóm của mình. Mục tiêu học tập:  Thảo luận về các phương pháp hay nhất về giao tiếp cho nhà phân tích dữ liệu, bao gồm tham khảo về giao tiếp tại văn phòng, giải quyết xung đột, tạo điều kiện cho các cuộc họp và báo cáo trạng thái  Thảo luận về tầm quan trọng của việc tập trung vào kỳ vọng của các bên liên quan  Xác định các hạn chế phổ biến với dữ liệu, với tham chiếu cụ thể về tốc độ so với độ chính xác và đáp ứng các yêu cầu nhạy cảm về thời gian Chương 1: Cân bằng nhu cầu của nhóm và các bên liên quan Giao tiếp với nhóm của bạn Chào mừng trở lại. Bây giờ ta đã tìm hiểu về những nội dung như trang tính, kỹ năng tư duy phân tích, chỉ số và toán học. Đây đều là những kỹ năng chuyên môn rất quan trọng mà bạn sẽ trau dồi trong suốt sự nghiệp phân tích dữ liệu. Bạn cần lưu ý rằng có những kỹ năng ngoài chuyên môn mà bạn có thể áp dụng để xây dựng một môi trường làm việc tích cực và năng suất. Những kỹ năng này sẽ giúp bạn cân nhắc cách thức tương tác với đồng nghiệp và các bên liên quan. Ta đã biết rằng điều quan trọng là lưu ý đến nhu cầu của các thành viên và các bên liên quan. Tiếp theo, ta sẽ nói về lý do tại sao. Ta sẽ tìm hiểu về một số thực hành giao tiếp tốt nhất để bạn có thể sử dụng trong đời sống hàng ngày. Hãy nhớ rằng, giao tiếp là yếu tốt then chốt. Ta sẽ bắt đầu bằng cách tìm hiểu về giao tiếp hiệu quả, và cách cân bằng giữa nhu cầu của thành viên và các bên liên quan. Hãy coi các kỹ năng này là những công cụ mới để giúp bạn làm việc cùng nhóm nhằm tìm ra những giải pháp tốt nhất có thể. Được rồi, hãy chuyển sang video tiếp theo và bắt đầu. Cân bằng nhu cầu và mong đợi trong nhóm của bạn Là một nhà phân tích dữ liệu, bạn sẽ phải tập trung vào nhiều thứ khác nhau, và kỳ vọng của các bên liên quan là một trong những điều quan trọng nhất. Chúng ta sẽ nói về lý do tại sao kỳ vọng của các bên liên quan lại rất quan trọng với công việc của bạn và cùng xem xét một số ví dụ về nhu cầu của các bên liên quan trong một dự án. Bạn đã nghe tôi sử dụng cụm từ "các bên liên quan" rất nhiều. Hãy cùng nhắc lại các bên liên quan là gì. Các bên liên quan là những người đã đầu tư thời gian, sự quan tâm, và nguồn lực vào dự án mà bạn sẽ làm việc với tư cách là nhà phân tích dữ liệu. Nói cách khác,
  • 126. họ dồn nhiều thứ vào những việc bạn đang thực hiện. Có khả năng là họ cần công việc bạn thực hiện để đáp ứng nhu cầu của họ. Đó là lý do điều quan trọng là ta cần đảm bảo công việc nhất quán với nhu cầu của họ và lý do bạn cần giao tiếp hiệu quả với tất cả các bên liên quan trong nhóm của bạn. Các bên liên quan sẽ muốn thảo luận về những nội dung như mục tiêu dự án, những điều bạn cần để đạt được mục tiêu đó, cũng như những thách thức và bận tâm của bạn. Đây là một điều tốt. Những cuộc thảo luận đó giúp xây dựng lòng tin và sự tự tin về công việc của bạn. Đây là một ví dụ về dự án với nhiều thành viên khác nhau trong nhóm. Hãy cùng tìm hiểu xem họ cần gì từ bạn ở những cấp độ khác nhau để đạt được mục tiêu dự án. Giả sử bạn là nhà phân tích dữ liệu đang làm việc với bộ phận nhân sự của một công ty. Công ty nhận thấy tỷ lệ nhân viên nghỉ việc tăng lên, hay chính là tỷ lệ nhân viên rời công ty. Turnover rate is The rate at which employees leave a company ( Tỷ lệ nhảy việc là tỷ lệ nhân viên rời khỏi công ty). Bộ phận nhân sự của công ty muốn biết lý do tại sao và muốn bạn giúp họ tìm ra các giải pháp khả thi. Phó chủ tịch tại bộ phận nhân sự ở công ty này quan tâm đến việc xác định các mẫu chung giữa những nhân viên nghỉ việc và tìm hiểu xem có liên kết nào giữa năng suất và mức độ gắn kết của nhân viên không. Là một nhà phân tích dữ liệu, nhiệm vụ của bạn là tập trung vào câu hỏi của bộ phận nhân sự và giúp họ tìm ra câu trả lời. Nhưng Phó chủ tịch có thể rất bận nên không thể quản lý các công việc hàng ngày hoặc không thể quản lý trực tiếp. Đối với nhiệm vụ này, bạn sẽ phải cập nhật cho quản lý dự án thường xuyên hơn. Quản lý dự án chịu trách nhiệm hoạch định và thực thi một dự án. Một phần nhiệm vụ của quản lý dự án duy trì dự án đi đúng hướng và giám sát tiến độ của toàn bộ nhóm. Trong hầu hết các trường hợp, bạn cần cập nhật cho họ thường xuyên, cho họ biết bạn cần gì để thành công và cho họ biết nếu bạn gặp phải vấn đề gì. Bạn cũng có thể làm việc với các thành viên khác trong nhóm. Ví dụ, quản trị nhân sự cần biết các chỉ số mà bạn đang sử dụng để có thể thiết kế các cách thu thập dữ liệu nhân viên hiệu quả. Có thể bạn sẽ làm việc với các nhà phân tích dữ liệu khác, họ đang xử lý các khía cạnh khác của dữ liệu. Điều quan trọng là bạn biết các bên liên quan và thành viên nhóm là ai trong dự án để có thể giao tiếp với họ hiệu quả và đưa cho họ những gì họ cần để phát triển với vai trò của họ trong dự án. Các bạn đều làm việc cùng nhau để cung cấp cho công ty những thông tin quan trọng về vấn đề này. Quay lại ví dụ của chúng ta. Bằng cách phân tích dữ liệu công ty, bạn sẽ thấy mức độ gắn kết của nhân viên và hiệu suất suy giảm sau 13 tháng ở công ty, tức là nhân viên bắt đầu cảm thấy chán nản và xa cách khỏi công việc của họ và thường bỏ việc sau một vài tháng. Một nhà phân tích khác tập trung vào dữ liệu tuyển dụng chia sẻ rằng công ty có mức tuyển dụng tăng cao vào khoảng 18 tháng trước. Bạn truyền tải thông tin này cho tất cả các thành viên trong nhóm và các bên liên quan và họ đưa ra phản hồi về cách chia sẻ thông tin
  • 127. này với phó chủ tịch. Cuối cùng, phó chủ tịch quyết định triển khai kiểm tra quản lý sâu rộng với những nhân viên chuẩn bị đạt mốc 12 tháng làm việc tại công ty để xác định các cơ hội phát triển sự nghiệp, giúp giảm tỷ lệ nhân viên nghỉ việc bắt đầu từ tháng 13. Đây chỉ là một ví dụ về cách bạn cân bằng nhu cầu và kỳ vọng trong nhóm của mình. Bạn sẽ nhận thấy rằng gần như trong mọi dự án bạn làm việc với tư cách nhà phân tích dữ liệu, những thành viên khác nhau trong nhóm, từ phó chủ tịch nhân sự cho đến những đồng nghiệp phân tích dữ liệu đều cần bạn tập trung và giao tiếp hoàn toàn để thực hiện dự án thành công. Việc tập trung vào kỳ vọng của các bên liên quan sẽ giúp bạn hiểu được mục tiêu của dự án, giao tiếp trong nhóm hiệu quả hơn, và xây dựng lòng tin với công việc. Tiếp theo, ta sẽ thảo luận về cách tìm hiểu vị trí phù hợp của bạn trong nhóm và cách thúc đẩy dự án đi lên với sự tập trung và quyết tâm.
  • 128. Chương 2: Giao tiếp là chìa khóa Mẹo giao tiếp hiệu quả Dù đang làm việc ở đâu, có thể bạn đều phải giao tiếp với người khác hàng ngày. Mỗi tổ chức và mỗi nhóm trong tổ chức đó đều có các kỳ vọng khác nhau về việc giao tiếp. Tiếp theo, ta sẽ tìm hiểu một số cách thiết thực để giúp bạn điều chỉnh theo những kỳ vọng khác nhau đó và một số điều mà bạn có thể áp dụng từ đội này sang đội khác. Chúng ta bắt đầu thôi. Khi bắt đầu một công việc mới hoặc dự án mới, bạn có thể thấy mình không đồng điệu với các thành viên còn lại trong nhóm và cách họ giao tiếp. Điều đó hoàn toàn bình thường. Bạn sẽ tìm ra cách nhanh thôi, nếu bạn sẵn sàng học hỏi và đặt câu hỏi khi bạn chưa chắc chắn về điều gì đó. Ví dụ, nếu bạn thấy nhóm của mình sử dụng từ viết tắt mà bạn không quen thuộc, đừng ngại hỏi nghĩa của những từ đó. Khi mới bắt đầu làm việc tại Google, tôi không biết LGTM là gì và tôi thường thấy nó trong các chủ đề bình luận. Tôi đã học được đó là viết tắt của Look good to me (Tôi thấy ổn đấy) và giờ thì tôi thường xuyên sử dụng, khi cần phản hồi nhanh cho ai đó, đó là một trong những từ viết tắt mà tôi đã học và tôi vẫn luôn gặp những từ mới, tôi không bao giờ ngại hỏi. Mỗi môi trường làm việc đều có những quy cách riêng. Có thể các thành viên trong nhóm thích giao tiếp bằng mắt và bắt tay thật chặt. Hoặc lịch sự hơn thì cúi đầu, nhất là khi bạn làm việc với khách hàng nước ngoài. Bạn cũng có thể phát hiện ra một số quy cách cụ thể chỉ bằng cách quan sát đồng nghiệp của bạn giao tiếp. Và bạn sẽ không chỉ giao tiếp trực tiếp thôi. Mỗi ngày có tới 300 tỷ email được gửi đi và con số đang ngày càng tăng. May mắn thay có những kỹ năng hữu ích mà bạn có thể học được từ các giao tiếp kỹ thuật số. Email của bạn phải chuyên nghiệp như khi giao tiếp trực tiếp. Sau đâu là một số cách giúp bạn làm được điều đó. Một số quy tắc viết tốt sẽ giúp email của bạn chuyên nghiệp và dễ hiểu hơn. Thường thì email trang trọng hơn so với văn bản, nhưng bạn không cần quá nghiêm túc như đang viết tiểu thuyết. Chỉ cần dành thời gian để viết câu hoàn chỉnh và đúng chính tả, dấu câu, điều đó thể hiện rằng bạn dành nhiều thời gian và để ý tới việc viết. Email thường được chuyển tiếp để những người khác đọc. Vậy nên phải viết thật rõ ràng để ai cũng hiểu được. Tôi thường đọc những email quan trọng thành tiếng trước khi nhấn gửi; như vậy tôi có thể nghe xem email có hợp lý không hay có lỗi chính tả không. Lưu ý rằng, giọng điệu của email có thể thay đổi theo thời gian. Nếu bạn thấy nhóm của mình khá thoải mái, vậy cũng tốt. Khi quen biết với nhóm hơn, bạn cũng có thể thoải mái hơn, nhưng khi bắt đầu thì bạn nên chuyên nghiệp. Có quy tắc thế này, bạn có hài lòng về những gì mình viết nếu nó được đăng tải trên trang nhất của một tờ báo không? Nếu không, hãy sửa lại cho đến khi được. Cũng đừng viết
  • 129. email quá dài. Hãy suy nghĩ xem các thành viên trong nhóm cần gì và đi thẳng vào vấn đề thay vì viết quá dài dòng và khiến họ choáng ngợp. Bạn cũng cần viết email một cách rõ ràng và súc tích để chúng không bị bỏ qua. Hãy xem hai email sau và bạn sẽ hiểu ý tôi. Đây là email đầu tiên. Có quá nhiều nội dung khiến ta khó biết được thông tin quan trọng nằm ở đâu. Và đoạn đầu tiên này không hề tóm tắt cho tôi những điều quan trọng. Mở đầu bằng "Hey" có vẻ hơi suồng sã quá, và không có lời kết. Tôi cũng thấy một vài lỗi chính tả. Bây giờ hãy xem email thứ hai. Bớt choáng ngợp rồi, đúng không? Chỉ có một vài câu, nói cho tôi biết những gì tôi cần biết. Email được tổ chức rõ ràng, có lời mở đầu và kết thúc. Đây là một ví dụ hay về email; ngắn, đi thẳng vào vấn đề, lịch sự và viết rất tốt. Đó là tất cả những điểm ta vừa nhắc tới. Nhưng phải làm gì nếu điều bạn muốn nói quá dài để viết trong email? Vậy thì bạn nên tổ chức một cuộc họp.
  • 130. Bạn cũng cần trả lời sớm. Đừng mất quá nhiều thời gain để trả lời email, đến mức mà đồng nghiệp bắt đầu lo rằng bạn bị làm sao. Tôi luôn cố gắng trả lời email trong 24-48 giờ. Ngay cả khi chỉ là cho họ một mốc thời gian khi tôi có đáp án thực sự họ đang tìm kiếm. Bằng cách đó, tôi có thể thiết lập kỳ vọng và họ biết rằng tôi đang xử lý vấn đề đó. Ngược lại cũng vậy. Nếu bạn cần phản hồi về việc gì đó cụ thể từ một thành viên trong nhóm, hãy nói rõ bạn cần gì và khi nào bạn cần để họ có thể trả lời bạn. Tôi sẽ thêm ngày ở dòng chủ đề và in đậm ngày trong phần nội dung email, để thật rõ ràng. Trình bày rõ nhu cầu của bạn là yếu tố quan trọng để giao tiếp tốt. Ta đã tìm hiểu những cách tuyệt vời để cải thiện kỹ năng giao tiếp cá nhân, ví dụ như đặt câu hỏi, rèn luyện thói quen viết tốt và các mẹo khi viết email. Những cách này sẽ giúp bạn giao tiếp rõ ràng và hiệu quả với nhóm trong bất cứ dự án nào. Việc này sẽ mất thời gian, nhưng bạn sẽ tìm được cách giao tiếp phù hợp với bạn và nhóm của bạn, cả trực tiếp và trực tuyến. Miễn là bạn sẵn sàng học hỏi, bạn sẽ không gặp vấn đề gì khi thích ứng với các kỳ vọng giao tiếp khác nhau trong các công việc tương lai. Cân bằng giữa kỳ vọng và mục tiêu thực tế của dự án Ta đã nói từ trước là dữ liệu có các hạn chế. Đôi khi bạn không có quyền truy cập vào dữ liệu bạn cần, hoặc nguồn dữ liệu của bạn không nhất quán hoặc dữ liệu của bạn chưa được làm sạch. Đây chắc chắn có thể là vấn đề khi đang phân tích dữ liệu, nhưng nó cũng ảnh hưởng đến giao tiếp với các bên liên quan của bạn. Đó là lý do ta cần cân bằng kỳ vọng của bên liên quan với những gì ta thực sự có thể làm trong dự án. Ta sẽ tìm hiểu về tầm quan trọng của việc thiết lập các mục tiêu thực tế, khách quan và cách giao tiếp hiệu quả nhất với các bên liên quan của bạn về vấn đề mà bạn có thể gặp phải.
  • 131. Hãy nhớ rằng rất nhiều điều phụ thuộc vào phân tích của bạn. Có thể nhóm của bạn không thể đưa ra quyết định nếu không có báo cáo của bạn. Hoặc kết quả công việc với dữ liệu ban đầu của bạn sẽ xác định cách thức và nơi thu thập dữ liệu bổ sung. Có lẽ bạn còn nhớ ta đã nói về một số tình huống mà ta cần cho các bên liên quan tham gia cùng. Ví dụ, thông báo cho quản lý dự án rằng bạn đang đúng tiến độ hoặc đang gặp vấn đề. Bây giờ, hãy xem xét một ví dụ thực tế mà bạn cần giao tiếp với các bên liên quan và bạn có thể làm gì nếu gặp vấn đề. Giả sử bạn đang làm việc trong một dự án cho công ty bảo hiểm. Công ty muốn xác định nguyên nhân phổ biến của các vụ tai nạn ô tô nhẹ để có thể phát triển các tài liệu giáo dục nhằm khuyến khích lái xe an toàn hơn. Có một số câu hỏi ban đầu mà bạn và nhóm của bạn cần trả lời:  Trong bộ dữ liệu sẽ có những thói quen lái xe nào?  Làm thế nào để thu thập dữ liệu này?  Bạn sẽ mất bao lâu để thu thập và làm sạch dữ liệu đó trước khi có thể sử dụng trong phân tích của mình? Bạn cần giao tiếp rõ ràng ngay với các bên liên quan để trả lời những câu hỏi này, để bạn và nhóm của bạn có thể thiết lập lịch trình hợp lý và thực tế cho dự án. Có thể bạn rất muốn nói với các bên liên quan rằng tôi sẽ làm xong ngay, không có vấn đề gì. Nhưng việc thiết lập kỳ vọng về một lịch trình khả thi sẽ giúp ích cho bạn về lâu dài. Các bên liên quan sẽ biết phải kỳ vọng điều gì, và bạn sẽ không phải làm việc quá sức và trễ hạn chỉ vì hứa hẹn quá mức. Tôi thấy rằng việc thiết lập kỳ vọng từ sớm giúp tôi sử dụng thời gian hiệu quả hơn. Vì vậy, khi bắt đầu, bạn cần gửi một lịch trình ở cấp độ cao với các giai đoạn khác nhau của dự án và ngày bắt đầu ước tính. Trong trường hợp này, bạn và nhóm của bạn xác định rằng bạn sẽ cần ba tuần để hoàn thành phân tích và đưa ra lời khuyên, và bạn cần thông báo cho các bên liên quan để họ lên kế hoạch tương ứng. Giả sử bạn đang thực hiện dự án được tương đối, và bỗng gặp phải vấn đề. Có thể các tài xế đã đồng ý chia sẻ dữ liệu về việc sử dụng điện thoại của họ trong ô tô, nhưng bạn phát hiện rằng một số nguồn có đo mức sử dụng GPS, nhưng những nguồn khác thì không. Ta có thể mất thêm thời gian xử lý và làm sạch dữ liệu và chậm trễ một số mốc quan trọng của dự án. Bạn cần thông báo cho quản lý dự án và vạch ra lịch trình mới để trình bày với các bên liên quan. Bạn càng xác định được vấn đề từ sớm càng tốt. Như vậy, các bên liên quan có thể thực hiện thay đổi cần thiết sớm nhất có thể. Hoặc nếu các bên liên quan muốn thêm các biến như mẫu xe và tuổi. Bạn cần trao đổi với họ về việc điều đó sẽ làm thay đổi mô hình mà bạn sẽ xây dựng, có thể bổ sung trước hạn hay không, và những trở ngại khác mà họ cần biết để họ
  • 132. quyết định xem có nên thay đổi ở giai đoạn này của dự án không. Để giúp họ, bạn cần chuẩn bị báo cáo về việc yêu cầu này sẽ thay đổi lịch trình dự án và mô hình như thế nào. Bạn cũng có thể vạch ra ưu và nhược điểm của thay đổi đó. Bạn cần hỗ trợ các bên liên quan đạt được mục tiêu của họ, nhưng điều quan trọng là phải thiết lập các kỳ vọng thực tế ở mọi giai đoạn của dự án. Ta phải học cách cân bằng. Bạn đã học cách cân bằng nhu cầu của các thành viên trong nhóm và các bên liên quan, nhưng bạn cũng cần phải cân bằng giữa kỳ vọng của các bên liên quan và những điều có thể thực hiện đối với dự án, nguồn lực và hạn chế. Do vậy, điều quan trọng là phải thực tế, khách quan và giao tiếp rõ ràng. Điều này sẽ giúp các bên liên quan hiểu được lịch trình và có niềm tin vào khả năng của bạn để đạt được những mục tiêu đó. Ta đã biết giao tiếp là yếu tố then chốt và ta cần tuân thủ một số quy tắc để giao tiếp một cách chuyên nghiệp. Tiếp theo, ta sẽ nói thêm về việc trả lời câu hỏi của các bên liên quan, bàn giao dữ liệu và giao tiếp với nhóm của bạn. Sarah: Làm thế nào để giao tiếp với các bên liên quan Tôi là Sarah và tôi là trưởng nhóm phân tích cấp cao tại Google. Là một nhà phân tích dữ liệu, sẽ có những lúc các bên liên quan không biết gì về lượng thời gian bạn cần để thực hiện dự án, và từ đầu khi tôi được yêu cầu thực hiện một dự án để tìm hiểu gì đó, tôi luôn cố gắng đưa ra một chút kỳ vọng về thời gian làm việc vì hầu hết các bên liên quan không thực sự hiểu bạn làm gì với dữ liệu, cách bạn thu thập và làm sạch dữ liệu và cách dựng lên câu chuyện đằng sau đó. Một điều nữa mà tôi muốn làm rõ với mọi người là bạn phải đảm bảo rằng dữ liệu kể được những câu chuyện. Đôi khi người ta nghĩ rằng dữ liệu có thể trả lời tất cả và đôi khi ta phải thừa nhận rằng điều đó là không chính xác. Gần đây tôi đã làm việc với một tiểu bang để tìm ra lý do tại sao mọi người không đăng ký nhận phúc lợi họ cần và xứng đáng được nhận. Chúng tôi thấy mọi người có truy cập trang web để đăng ký nhận phúc lợi đó và xem liệu họ có đủ điều kiện hay không. Nhưng vì một số lý do, có điều gì đó ngăn cản họ thực hiện bước đăng ký thực sự. Nên tôi sẽ tìm hiểu bằng cách sử dụng Google Analytics để cố gắng khám phá điều gì ngăn cản mọi người đăng ký nhận phúc lợi mà họ cần và xứng đáng có được. Nên tôi đã sử dụng Google Analytics, và thấy rằng mọi người di chuyển giữa trang dịch vụ và trang thất nghiệp rồi lại quay lại trang dịch vụ, rồi lại trang thất nghiệp. Tôi có một giả thuyết rằng, mọi người không tìm thấy thông tin họ cần để thực hiện bước tiếp theo là xem họ có đủ điều kiện nhận các dịch vụ này không. Cách duy nhất để tôi biết tại sao mọi người rời khỏi trang web mà không thực hiện hành động nào là trực tiếp hỏi họ. Tôi sẽ phải thực hiện khảo sát.
  • 133. Google Analytics không cung cấp cho tôi dữ liệu mà tôi cần để củng cố hay bác bỏ giả thuyết đó 100%. Vì vậy, khi giải thích cho các bên liên quan của mình, "Này, tôi có một giả thuyết. Dữ liệu này đang kể một câu chuyện. Tuy nhiên tôi không thể biết chính xác 100% do hạn chế về dữ liệu," Bạn chỉ cần nói ra. Cách tôi giao tiếp là tôi nói rằng "Tôi có một giả thuyết rằng mọi người không tìm được thông tin họ cần để thực hiện hành động. Đây là những điểm đã được chứng minh mà tôi có để củng cố cho giả thuyết đó." Vậy là ta đã khiến việc tìm được thông tin đó trở nên dễ dàng hơn. Mặc dù ta chưa chắc chắn 100% là giả thuyết của tôi đúng, ta đủ tự tin để thực hiện hành động, và khi nhìn lại, chúng tôi thấy rằng mọi chỉ số đều củng cố cho giả thuyết này. Cảm giác rất tuyệt vời khi bạn củng cố được điều mình tin tưởng, và hỗ trợ nhiều người hơn nhờ có dữ liệu. Thời gian học tập miệt mài về SQL và mọi thứ là hoàn toàn xứng đáng. Đánh đổi dữ liệu: Tốc độ so với độ chính xác Ta sống trong một thế giới mà mọi người muốn được hài lòng ngay lập tức, có thể là là giao hàng qua đêm hay phim theo yêu cầu. Ta muốn những gì mình muốn và ta muốn có nó ngay bây giờ. Nhưng đối với dữ liệu, tốc độ đôi khi có thể là kẻ thù của độ chính xác, nhất là khi cần cộng tác. Ta sẽ nói về cách cân bằng giữa trả lời nhanh và trả lời chính xác và cách tốt nhất để giải quyết những vấn đề này bằng cách hệ thống lại câu hỏi và nêu vấn đề. Bằng cách đó, các thành viên trong nhóm và các bên liên quan hiểu được họ có thể kỳ vọng câu trả lời như thế nào vào thời điểm nào. Là nhà phân tích dữ liệu, chúng ta cần biết lý do đằng sau những vấn đề như doanh số sụt giảm, trung bình kết quả đánh bóng của một người chơi, hoặc tổng lượng mưa. Phần này không chỉ về các con số, mà còn là về bối cảnh và việc đi sâu vào những vấn đề này tốn nhiều thời gian. Vậy nên khi các bên liên quan tới tìm bạn, thường thì người đó không thực sự biết là họ đang cần gì. Họ chỉ biết là họ muốn điều đó ngay lập tức. Nhưng đôi khi áp lực đè nặng lên chúng ta và ngay cả những nhà phân tích dữ liệu giàu kinh nghiệm nhất cũng muốn giảm bớt các bước thực hiện và đưa ra dữ liệu thiếu sót hoặc chưa hoàn thành để ưu tiên thời gian. Khi điều đó xảy ra, nhiều phần câu chuyện trong dữ liệu bị mất. Đó là lý do tại sao giao tiếp là một trong những công cụ có giá trị nhất khi làm việc theo nhóm. Điều quan trọng là bắt đầu với tư duy có cấu trúc và tài liệu phạm vi công việc được lên kế hoạch tốt, trước đó ta đã nói về phần này. Khi bắt đầu từ việc hiểu rõ kỳ vọng của các bên liên quan, bạn sẽ có thể phát triển tài liệu phạm vi công việc một cách thực tế để vạch ra các kỳ vọng đã thống nhất, lịch trình, mốc quan trọng, và báo cáo. Bằng cách này, nhóm của bạn luôn có một lộ trình để dẫn dắt hành động của họ. Nếu bạn đang chịu áp lực với những điều ngoài phạm vi công việc, bạn có thể tự tin thiết lập các kỳ vọng thực tế hơn. Cuối cùng,
  • 134. công việc của bạn là cân bằng giữa việc trả lời nhanh và trả lời chính xác. Và cả tìm ra người kia đang thực sự nói gì. Có lẽ ta nên xem xét một ví dụ. Giả sử phó giám đốc nhân sự đến chỗ bạn làm việc và yêu cầu xem xét số lượng nhân viên mới đã hoàn thành khóa đào tạo mà họ giới thiệu. Cô ấy nói, "Không thể nào mà mọi người thực hiện từng mục của khóa học. Đội ngũ nhân sự phải trả lời rất nhiều câu hỏi, Có lẽ ta nên hủy chương trình." Bạn sẽ phản ứng thế nào? Bạn có thể đăng nhập vào hệ thống, xử lý các con số, và đưa cho người giám sát xem. Việc này không mất nhiều thời gian. Nhưng câu trả lời nhanh chưa chắc đã là câu trả lời chính xác nhất. Vì vậy, thay vào đó, bạn có thể chỉnh lại câu hỏi, vạch ra vấn đề, thách thức, các giải pháp khả thi, và khung thời gian. Bạn có thể nói, "Tôi chắc chắn có thể kiểm tra tỷ lệ hoàn thành, nhưng tôi cảm thấy có lẽ câu chuyện còn nhiều hơn thế. Chị có thể cho tôi hai ngày để chạy báo cáo và tìm hiểu chuyện đang xảy ra không?" Với nhiều thời gian hơn, bạn thể hiểu được bối cảnh. Bạn và phó giám đốc nhân sự quyết định kéo dài lịch trình dự án, để bạn có thể dành thời gian thu thập dữ liệu khảo sát ẩn danh từ nhân viên mới về khóa đào tạo. Câu trả lời của họ cung cấp dữ liệu có thể giúp bạn xác định chính xác tại sao tỷ lệ hoàn thành lại quá thấp. Nhân viên báo cáo rằng họ cảm thấy khóa học khó hiểu và lỗi thời. Bởi vì bạn đã có thể dành thời gian để giải quyết vấn đề lớn hơn, phó giám đốc nhân sự đã hiểu rõ hơn tại sao nhân viên mới không hoàn thành khóa học và có thể đưa ra quyết định mới về cách cập nhật nó. Bây giờ khóa đào tạo dễ theo dõi và bộ phận nhân sự không phải nhận nhiều câu hỏi như trước. Mọi người đều có lợi. Chuyển hướng cuộc trò chuyện sẽ giúp bạn tìm thấy vấn đề thực sự dẫn đến các giải pháp sâu sắc và chính xác hơn. Nhưng điều quan trọng là cần ghi nhớ rằng đôi khi bạn cần là người thông báo tin xấu, không sao cả. Trao đổi về các vấn đề, giải pháp khả thi và các kỳ vọng khác nhau có thể giúp bạn tiến về phía trước với dự án thay vì mắc kẹt một chỗ. Đối với việc truyền đạt câu trả lời với nhóm và các bên liên quan, câu trả lời nhanh nhất và câu trả lời chính xác nhất thường không phải là một. Nhưng bằng cách đảm bảo rằng bạn hiểu nhu cầu của họ và đặt ra kỳ vọng rõ ràng, bạn có thể cân bằng giữa tốc độ và độ chính xác. Chỉ cần đảm bảo rõ ràng và trực tiếp thì bạn sẽ thành công. Nghĩ về quá trình và kết quả của bạn Dữ liệu có sức mạnh để thay đổi thế giới. Hãy nghĩ mà xem. Một ngân hàng xác định 15 cơ hội mới để quảng cáo một sản phẩm, mang lại doanh thu 120 triệu đô la. Một công ty phân phối tìm ra cách tốt hơn để quản lý vận chuyển, giảm thiểu chi phí đi 500.000 đô la. Google tạo ra một công cụ mới có thể xác định khối u ung thư vú ở gần hạch bạch huyết. Đây đều là những thành tựu đáng kinh ngạc, nhưng bạn có biết điểm chung của chúng là gì không? Đó đều là kết quả của việc phân tích dữ liệu. Bạn hoàn toàn có khả năng thay đổi thế giới với
  • 135. tư cách là một nhà phân tích dữ liệu. Và nó bắt đầu với cách bạn chia sẻ dữ liệu với nhóm của mình. Trong video này, ta sẽ xem xét tất cả các biến số mà bạn nên cân nhắc khi chia sẻ dữ liệu. Khi bạn truyền đạt thành công các dữ liệu cho nhóm của mình, bạn có thể đảm bảo rằng họ đưa ra được quyết định tốt nhất. Trước đó, ta đã biết rằng tốc độ đôi khi có thể ảnh hưởng đến độ chính xác khi chia sẻ thông tin cơ sở dữ liệu với một nhóm. Đó là lý do bạn cần một quy trình chặt chẽ để đánh giá kết quả và hành động trong phân tích của bạn. Vậy bạn phải bắt đầu từ đâu? Các giải pháp tốt nhất bắt đầu với câu hỏi. Trong video trước, bạn đã biết rằng các bên liên quan sẽ có rất nhiều câu hỏi nhưng bạn mới là người tìm ra họ thực sự cần gì. Hãy tự hỏi chính mình, phân tích của bạn có trả lời câu hỏi ban đầu không? Còn góc độ nào khác mà bạn chưa xem xét? Bạn có thể trả lời bất kỳ câu hỏi nào về dữ liệu và phân tích của bạn không? Câu hỏi cuối cùng đó khiến ta cân nhắc một điều khác. Khi chia sẻ kết quả của mình, bạn nên chi tiết đến đâu? Phân tích ở cấp độ cao có được không? Trên hết, kết quả phân tích dữ liệu của bạn sẽ giúp nhóm đưa ra các quyết định sáng suốt hơn. Đây là một ví dụ khác: Hãy tưởng tượng một công ty cảnh quan đang gặp vấn đề chi phí tăng cao và họ không cạnh tranh khi đấu thầu. Bạn có thể hỏi một câu để giải quyết vấn đề này, đó là công ty có thể tìm nhà cung cấp mới mà không ảnh hưởng đến chất lượng hay không? Nếu bạn cung cấp cho họ một bản phân tích ở cấp độ cao, bạn có thể chỉ cần nhắc tới số lượng khách hàng và chi phí vật tư. Bên liên quan có thể sẽ phản đối. Bà ấy lo rằng việc giảm chất lượng sẽ hạn chế khả năng cạnh tranh và làm khách hàng hài lòng. Bà ấy cũng có ý đúng. Trong trường hợp đó, bạn cần cung cấp thêm phần phân tích dữ liệu chi tiết để bà ấy thay đổi suy nghĩ. Điều này có thể có nghĩa là khám phá xem khách hàng cảm thấy thế nào về các thương hiệu khác nhau. Bạn có thể tìm hiểu được rằng khách hàng không thích một số thương hiệu cảnh quan cụ thể. Vì vậy, công ty có thể thay đổi sang nhà cung cấp hợp lý hơn mà không ảnh hưởng đến chất lượng dữ liệu của Amazon. Nếu bạn cảm thấy thoải mái khi sử dụng dữ liệu để trả lời tất cả những câu hỏi và thắc mắc này, có lẽ bạn đã đi đến kết luận chắc chắn. Tốt lắm! Bây giờ bạn đã hiểu về các biến liên quan đến việc chia sẻ dữ liệu với một nhóm, chẳng hạn như quy trình và kết quả, bạn đang tiến gần hơn với việc đảm bảo rằng nhóm có tất cả thông tin họ cần để đưa ra các quyết định sáng suốt dựa trên dữ liệu.
  • 136. Chương 3: Tinh thần đồng đội tuyệt vời Đáp ứng các phương pháp hay nhất Bây giờ là lúc để thảo luận về các cuộc họp. Các cuộc họp là một phần quan trọng trong cách bạn giao tiếp với các thành viên trong nhóm và các bên liên quan. Hãy cùng điểm qua một số điều nên làm và không nên làm mà bạn có thể sử dụng cho các cuộc họp trực tiếp hoặc trực tuyến để có thể sử dụng các phương pháp giao tiếp tốt nhất này trong tương lai. Về cốt lõi, các cuộc họp giúp bạn và các thành viên trong nhóm hoặc các bên liên quan của bạn có thể thảo luận về cách một dự án đang diễn ra. Nhưng họ có thể nhiều hơn thế. Dù là ảo hay trực tiếp, các cuộc họp nhóm có thể xây dựng lòng tin và tinh thần đồng đội. Chúng cho bạn cơ hội kết nối với những người bạn đang làm việc cùng ngoài email. Một lợi ích khác là biết bạn đang làm việc với ai có thể giúp bạn có cái nhìn tốt hơn về nơi công việc của bạn phù hợp với dự án lớn hơn. Các cuộc họp thường xuyên cũng giúp bạn phối hợp các mục tiêu của nhóm dễ dàng hơn, điều này giúp bạn đạt được mục tiêu dễ dàng hơn. Với tất cả mọi người trên cùng một suy nghĩ, nhóm của bạn sẽ ở vị trí tốt nhất để giúp đỡ lẫn nhau khi bạn gặp vấn đề. Cho dù bạn đang điều hành cuộc họp hay chỉ tham dự cuộc họp, bạn có thể làm theo các phương pháp hay nhất để đảm bảo cuộc họp của mình thành công. Có một số điều thực sự đơn giản bạn có thể làm để tạo nên một cuộc họp tuyệt vời. Hãy chuẩn bị sẵn sàng, đến đúng giờ, chú ý và đặt câu hỏi. Do:  Come prepared  Be on time  Pay attention  Ask questions Điều này áp dụng cho cả cuộc họp do bạn lãnh đạo và cuộc họp mà bạn tham dự. Hãy chia nhỏ cách bạn có thể làm theo những việc cần làm này cho mọi cuộc họp. Ý tôi là gì khi tôi nói hãy chuẩn bị sẵn sàng? Vâng, một vài điều. Đầu tiên, mang theo những gì bạn cần. Nếu bạn thích ghi chép, hãy chuẩn bị sẵn sổ tay và bút trong cặp hoặc thiết bị làm việc của bạn. Chuẩn bị sẵn sàng cũng có nghĩa là bạn nên đọc trước chương trình họp và sẵn sàng cung cấp bất kỳ thông tin cập nhật nào về công việc của mình. Nếu bạn đang điều hành cuộc họp, hãy nhớ chuẩn bị các ghi chú và bài thuyết trình của mình, đồng thời biết bạn sẽ nói về chủ đề gì và tất nhiên, hãy sẵn sàng trả lời các câu hỏi. Do:  Bring what you need
  • 137.  Read the meeting agenda  Prepare notes and presentations  Be ready to answer questions Đây là một số lời khuyên khác mà tôi muốn làm theo khi điều hành một cuộc họp. Đầu tiên, mọi cuộc họp nên tập trung vào việc đưa ra quyết định rõ ràng và bao gồm người cần thiết để đưa ra quyết định đó. Và nếu cần có một cuộc họp để đưa ra quyết định, hãy lên lịch ngay lập tức. Đừng để tiến độ bị đình trệ bằng cách đợi đến cuộc họp tuần tới. Cuối cùng, cố gắng giữ số lượng người tại cuộc họp của bạn dưới 10 nếu có thể. Nhiều người hơn khiến việc thảo luận hợp tác trở nên khó khăn. Việc tôn trọng thời gian của các thành viên trong nhóm cũng rất quan trọng. Cách tốt nhất để làm điều này là đến các cuộc họp đúng giờ. Nếu bạn đang dẫn dắt cuộc họp, hãy đến sớm và chuẩn bị trước để sẵn sàng bắt đầu khi mọi người đến. Bạn có thể làm điều tương tự cho các cuộc họp trực tuyến. Cố gắng đảm bảo rằng công nghệ của bạn đang hoạt động trước đó và bạn đang xem đồng hồ để không vô tình bỏ lỡ một cuộc họp. Tập trung và chú ý trong cuộc họp là một cách tuyệt vời khác để tôn trọng thời gian của các thành viên trong nhóm của bạn. Bạn không muốn bỏ lỡ điều gì đó quan trọng vì bị phân tâm bởi thứ khác trong khi thuyết trình. Chú ý cũng có nghĩa là đặt câu hỏi khi bạn cần làm rõ hoặc nếu bạn nghĩ rằng có thể có vấn đề với kế hoạch dự án. Đừng ngại tiếp cận sau một cuộc họp. Nếu bạn không thể đặt câu hỏi của mình, hãy theo dõi nhóm sau đó và nhận câu trả lời. Khi bạn là người điều hành cuộc họp, trước tiên hãy đảm bảo rằng bạn xây dựng và gửi chương trình làm việc, để các thành viên trong nhóm của bạn có thể chuẩn bị sẵn sàng và rời đi với những bước tiến rõ ràng. Bạn cũng sẽ muốn giữ cho mọi người tham gia. Cố gắng tương tác với tất cả những người tham dự của bạn để bạn không bỏ lỡ bất kỳ thông tin chi tiết nào từ các thành viên trong nhóm của mình. Hãy cho mọi người biết rằng bạn cũng sẵn sàng trả lời các câu hỏi sau cuộc họp. Bạn nên ghi chú ngay cả khi đang điều hành cuộc họp. Điều này giúp bạn dễ dàng ghi nhớ tất cả các câu hỏi đã được hỏi. Sau đó, bạn có thể liên hệ với từng thành viên trong nhóm để trả lời những câu hỏi đó hoặc gửi bản cập nhật cho cả nhóm của bạn tùy thuộc vào những người cần thông tin đó. Bây giờ chúng ta hãy xem xét những điều không nên làm trong các cuộc họp. Có một số "không" rõ ràng ở đây. Bạn không muốn xuất hiện mà không chuẩn bị, trễ hoặc mất tập trung cho các cuộc họp. Bạn cũng không muốn chiếm ưu thế trong cuộc trò chuyện, nói lấn át người khác hoặc khiến mọi người mất tập trung bằng những cuộc thảo luận không tập trung. Don’t:  Show up unprepared  Arrive late
  • 138.  Be distracted  Dominate the conversation  Talk over others  Distract people with unfocused discussion Cố gắng đảm bảo rằng bạn cho các thành viên khác trong nhóm cơ hội nói và luôn để họ nói hết suy nghĩ của mình trước khi bạn bắt đầu nói. Mọi người đang tham dự cuộc họp của bạn nên đưa ra ý kiến đóng góp của họ. Tạo cơ hội để mọi người lên tiếng, đặt câu hỏi, kêu gọi chuyên môn và thu hút phản hồi của họ. Bạn không muốn bỏ lỡ những hiểu biết có giá trị của họ. Và cố gắng yêu cầu mọi người đặt điện thoại hoặc máy tính của họ ở chế độ im lặng khi họ không nói, bao gồm cả bạn. Bây giờ, chúng ta đã học được một số phương pháp hay nhất mà bạn có thể làm theo trong các cuộc họp như chuẩn bị sẵn sàng, đúng giờ, chú ý và đặt câu hỏi. Chúng tôi cũng đã nói về việc sử dụng các cuộc họp một cách hiệu quả để đưa ra quyết định rõ ràng và thúc đẩy các cuộc thảo luận hợp tác cũng như liên hệ sau cuộc họp để giải quyết các câu hỏi mà bạn hoặc những người khác có thể có. Bạn cũng biết những điều không nên làm trong các cuộc họp: xuất hiện mà không chuẩn bị trước, đến muộn hoặc mất tập trung, hoặc nói lấn át người khác và bỏ sót ý kiến của họ. Ghi nhớ những lời khuyên này, bạn sẽ sẵn sàng tham gia các cuộc họp nhóm tích cực, hiệu quả. Nhưng tất nhiên, đôi khi sẽ có xung đột trong nhóm của bạn. Chúng ta sẽ sớm thảo luận về cách giải quyết xung đột. Ximena: Tham gia một nhóm mới Ban đầu, việc tham gia nhóm mới thực sự rất đáng sợ. Nhất là với những công ty lớn như Google, mọi người ở đây đều rất thông minh. Nhưng tôi đã dựa vào quản lý rất nhiều để hiểu được tôi có thể đóng góp được gì. Điều này khiến tôi thoải mái hơn trong các cuộc họp và chia sẻ năng lực của mình. Tôi thấy rằng dự án tốt nhất của mình bắt đầu khi có thể giao tiếp rõ ràng về các kỳ vọng. Khi rời cuộc họp đối với các dự án mà tôi biết rõ cần bắt đầu từ đâu mà cần phải làm gì, tôi có thể hoàn thành nhanh hơn, làm việc hiệu quả hơn, và đạt được mục tiêu thực sự, thậm chí có thể tiến thêm một bước vì không mất thời gian bối rối về những việc tôi cần làm. Giao tiếp là rất quan trọng vì việc này giúp tôi cán đích một cách hiệu quả hơn và bạn cũng tạo được ấn tượng tốt hơn. Khi mới bắt đầu, tôi được giao nhiều dự án và tôi rất hào hứng. Vậy là tôi bắt đầu thực hiện mà không hỏi gì nhiều. Ban đầu đó là trở ngại, mặc dù việc không rõ ràng có thể giúp bạn phát triển, nhưng nếu mục tiêu dự án mơ hồ, điều này lại có hại khi bạn cố gắng hoàn thành công việc. Tôi vượt qua điều đó chỉ bằng cách lùi lại khi ai đó yêu cầu tôi thực hiện dự
  • 139. án và làm rõ mục tiêu đó là gì. Khi đã hiểu rõ về mục tiêu, tôi sẵn sàng đối diện với cảm giác mơ hồ khi tìm cách thực hiện, nhưng mục tiêu phải thực sự khách quan và rõ ràng. Tôi là Ximena và tôi là nhà phân tích tài chính. Từ xung đột đến hợp tác Xung đột xảy ra trong công việc là bình thường. Rất nhiều điều mà bạn đã được học ví dụ như quản lý kỳ vọng và giao tiếp hiệu quả có thể giúp bạn tránh xung đột, nhưng đôi khi bạn vẫn sẽ gặp phải xung đột. Nếu điều đó xảy ra, có nhiều cách để giải quyết và tiếp tục công việc. Trong video này, ta sẽ nói về việc xung đột có thể xảy ra như thế nào và cách tốt nhất để tập cách giải quyết xung đột. Xung đột có thể phát sinh vì nhiều lý do. Có thể là do bên liên quan hiểu lầm các kết quả có thể xảy ra của dự án; có thể bạn và thành viên trong nhóm có phong cách làm việc khác nhau; hoặc thời hạn quan trọng đang đến và mọi người cảm thấy bồn chồn. Kỳ vọng sai lệch và nhầm lẫn trong giao tiếp là những lý do phổ biến nhất gây ra xung đột. Có thể bạn không biết rõ ai là người chịu trách nhiệm làm sạch bộ dữ liệu, nên không có ai thực hiện việc đó, gây trì hoãn dự án. Hoặc thành viên trong nhóm gửi đi một email bao gồm tất cả các thông tin chuyên sâu, nhưng không nói rằng đó là do bạn thực hiện. Rất dễ để các xung đột ảnh hưởng tới cá nhân, nhưng điều quan trọng là bạn phải khách quan và tập trung vào mục tiêu của nhóm. Có thể bạn không ngờ đến, những khoảnh khắc căng thẳng có thể là cơ hội để đánh giá lại dự án hoặc cải thiện mọi thứ. Vậy nên khi có vấn đề, có một số cách để đảo ngược tình thế để trở nên năng suất và có tinh thần hợp tác hơn. Một trong những cách hay nhất để chuyển từ vấn đề sang một tình huống năng suất là xác định lại vấn đề. Thay vì tập trung vào những sai lầm hay người chịu trách nhiệm, hãy thay đổi câu hỏi bắt đầu. Hãy thử hỏi, làm thế nào để tôi giúp bạn đạt được mục tiêu? Cách này tạo ra cơ hội cho bạn và các thành viên trong nhóm làm việc cùng nhau để tìm ra giải pháp thay vì cảm thấy bực bội với vấn đề. Trao đổi là chìa khóa để giải quyết xung đột. Khi gặp phải xung đột, hãy cố gắng giao tiếp, bắt đầu trao đổi hoặc hỏi những câu như, còn điều gì quan trọng mà tôi cần cân nhắc? Cách này cho các thành viên trong nhóm hoặc các bên liên quan cơ hội để trình bày mối bận tâm của họ. Nếu bạn đang quá xúc động, hãy giành thời gian để bình tĩnh lại và bắt đầu trao đổi khi có thể suy nghĩ thông suốt. Nếu tôi cần viết email trong thời gian căng thẳng, tôi sẽ lưu vào bản nháp và quay lại vào hôm sau để đọc lại trước khi gửi đi, nhằm đảm bảo rằng tôi đang rất bình tĩnh.
  • 140. Nếu bạn không hiểu các thành viên trong nhóm hay các bên liên quan đang yêu cầu bạn làm gì, hãy cố hiểu bối cảnh yêu cầu của họ. Hỏi họ mục tiêu cuối cùng là gì, họ đang muốn kể câu chuyện gì với dữ liệu hay bức tranh toàn cảnh là gì. Bằng cách biết những khoảnh khắc có thể xảy ra xung đột thành các cơ hội để hợp tác và phát triển công việc, bạn có thể giải quyết căng thẳng và đưa dự án của bạn trở lại đúng hướng. Thay vì nói rằng "Tôi không thể nào làm vậy trong khoảng thời gian này", hãy diễn đạt lại thành "Tôi rất vui lòng khi thực hiện điều đó, nhưng tôi muốn dành thời gian này để lùi lại và hiểu rõ hơn anh muốn tôi làm gì với dữ liệu và ta có thể làm việc cùng nhau để tìm ra hướng đi hợp lý nhất." Đây đã là phần cuối của mục này. Tốt lắm. Việc học cách làm việc cùng các thành viên mới có thể là một thử thách khi bắt đầu vai trò mới hoặc dự án mới nhưng với các kỹ năng bạn đã học được trong video này, bạn sẽ có thể bắt đầu đúng cách với bất kỳ nhóm nào bạn tham gia. Ta đã tìm hiểu về cách cân bằng giữa nhu cầu và kỳ vọng của các thành viên trong nhóm và các bên liên quan. Ta cũng nhắc tới cách để hiểu rõ vai trò của các thành viên và tập trung vào mục tiêu dự án, sự quan trọng của việc giao tiếp rõ ràng và các kỳ vọng giao tiếp tại nơi làm việc, cũng như cách để cân bằng giới hạn dữ liệu với những điều các bên liên quan hỏi. Cuối cùng, ta đề cập đến cách họp nhóm hiệu quả và cách giải quyết xung đột qua tư duy cộng tác với các thành viên trong nhóm. Hy vọng bạn đã hiểu được tầm quan trọng của giao tiếp với thành công của một nhà phân tích dữ liệu. Những kỹ năng giao tiếp này có chút khác biệt so với một số kỹ năng khác mà bạn đã học trong chương trình này, nhưng chúng cũng là một phần quan trọng trong bộ công cụ phân tích dữ liệu, góp phần tạo nên thành công của nhà phân tích dữ liệu chuyên nghiệp. Giống như tất cả các kỹ năng khác mà bạn đang học, kỹ năng giao tiếp sẽ phát triển nhờ có luyện tập và trải nghiệm. Nathan: Từ Thủy quân lục chiến Hoa Kỳ đến phân tích dữ liệu Xin chào, tôi là Nathan. Tôi là nhà phân tích dữ liệu chính ở Tổ chức An toàn và Tin cậy tại Google. Tôi gia nhập Lực lượng Dự bị Thủy quân lục chiến khi đang học đại học, và đơn vị dự bị tôi tham gia là đơn vị pháo dã chiến. Vì vậy, sau khi tham gia trại huấn luyện Thủy quân lục chiến đầy thử thách, tôi theo học trường điều khiển hướng bắn pháo dã chiến. Nếu bạn chưa biết, việc điều khiển hướng bắn pháo là đầu não của pháo dã chiến, chúng tôi sử dụng rất nhiều loại máy tính để tính toán hướng đi của pháo. Nhưng đề phòng trường hợp máy tính hỏng, chúng tôi cũng đã được đào tạo cách sử dụng thước loga để dự phòng. Một năm sau, tôi có cơ hội trở thành tài xế xe tải thay vì việc chính của tôi là lính pháo binh dã chiến, tôi được điều đến Iraq để lái xe tải cho đại đội bộ binh. Sau khi trở về từ Iraq, tôi đã hoàn thành bằng cử nhân và trở thành kỹ sư ứng dụng ở Austin, Texas, cuối cùng tôi
  • 141. thấy mình cần phải thay đổi và tập trung vào kinh doanh. Và đó là lúc tôi bắt đầu yêu thích việc phân tích dữ liệu, khi đang tìm hiểu rất nhiều về kinh doanh. Tôi đã mất một vài năm, rồi mới bắt đầu quan tâm đến phân tích dữ liệu để bắt đầu công việc và bắt đầu làm việc toàn thời gian, thực sự bắt tay vào xử lý dữ liệu. Một số việc tôi đã làm để đặt nền tảng sẵn sàng và chuẩn bị đủ điều kiện cho công việc này là tham gia khóa học Courseara về R và tôi cũng tham gia các sự kiện hackathon vào cuối tuần tại các trường đại học. Họ công bố bộ dữ liệu vào tối thứ Sáu và đến chiều Chủ nhật, bạn phải đưa ra các khuyến nghị. Đó là hai cách rất hay để tôi tự chuẩn bị, tích lũy kinh nghiệm và thể hiện sự quan tâm sâu sắc đến phân tích dữ liệu. Công việc đầu tiên của tôi, nơi tôi được làm phân tích dữ liệu toàn thời gian là ở một ngân hàng lớn và tôi như đang ở trên thiên đường. Tôi thực sự được sử dụng SQL và sử dụng Tableau rất nhiều. Được tham gia hội thảo Tableau. Rất tuyệt vời. Tôi rất may mắn có được cơ hội chuyển tới Google với vị trí hiện tại. Đó là với tổ chức An toàn và Tin cậy. Điều thú vị khiến tôi rất hài lòng là giống như trong quân đội, công việc của tôi có nhiệm vụ là bảo vệ mọi người, điều đó rất thú vị. Những điều đã thấm nhuần trong tôi kể từ khi ở Thủy quân mà đến nay vẫn còn chính là sự chú ý đến từng chi tiết. Điều đó rất quan trọng trong quân ngũ, nhất là ở với pháo binh dã chiến. Thứ hai là tầm quan trọng của giao tiếp. Bạn có những thông tin chi tiết của riêng mình. Bạn cần đảm bảo rằng mình có thể truyền đạt những điều đó thật rõ ràng cho những người bạn làm việc cùng và thứ ba là sự hợp tác. Trong quân đội, làm việc theo nhóm là chìa khóa thành công. Bạn thực sự cần dựa vào đội của mình. Điều đó áp dụng cho cả sự nghiệp của tôi sau khi rời Thủy quân.
  • 142. Học phần 3: Chuẩn bị dữ liệu để khám phá Tuần 1: Các kiểu và cấu trúc dữ liệu Tất cả chúng ta đều tạo ra rất nhiều dữ liệu trong cuộc sống hàng ngày. Trong phần này của khóa học, bạn sẽ xem cách chúng tôi tạo dữ liệu và cách các nhà phân tích quyết định dữ liệu nào cần thu thập để phân tích. Bạn cũng sẽ tìm hiểu về dữ liệu có cấu trúc và phi cấu trúc, loại dữ liệu và định dạng dữ liệu khi bắt đầu nghĩ về cách chuẩn bị dữ liệu để khám phá. Mục tiêu học tập:  Giải thích cách dữ liệu được tạo như một phần trong các hoạt động hàng ngày có tham chiếu đến các loại dữ liệu được tạo  Giải thích các yếu tố cần được xem xét khi đưa ra quyết định về việc thu thập dữ liệu  Giải thích sự khác biệt giữa dữ liệu có cấu trúc và phi cấu trúc  Thảo luận về sự khác biệt giữa dữ liệu và kiểu dữ liệu  Giải thích mối quan hệ giữa các loại dữ liệu, trường và giá trị  Thảo luận về các định dạng dữ liệu rộng và dài với các tham chiếu đến tổ chức và mục đích Chương 1: Khám phá dữ liệu Giới thiệu về khám phá dữ liệu Hình dung điều này: Bạn đang làm việc trên một dự án. Bạn đã hỏi tất cả các câu hỏi phù hợp, áp dụng tư duy có cấu trúc và bạn hoàn toàn đồng bộ với các bên liên quan của mình. Bạn đang có một khởi đầu tuyệt vời. Nhưng còn một bước nữa trong quy trình: chuẩn bị dữ liệu một cách chính xác. Đây là lúc hiểu được các loại dữ liệu và cấu trúc dữ liệu khác nhau. Biết điều này cho phép bạn tìm ra loại dữ liệu nào phù hợp với câu hỏi mà bạn đang trả lời. Ngoài ra, bạn sẽ đạt được các kỹ năng thực tế về cách trích xuất, sử dụng, sắp xếp và bảo vệ dữ liệu của mình. Xin chào, tên tôi là Hallie và tôi là trưởng nhóm phân tích tại Google. Tôi làm việc với các công ty trong ngành chăm sóc sức khỏe. Tôi rất vui mừng chào đón bạn đến với khóa học này. Cho đến nay, bạn đã xây dựng kỹ năng phân tích dữ liệu của mình theo nhiều cách khác nhau. Bạn đã học cách đặt câu hỏi phù hợp, xác định vấn đề và trình bày phân tích của mình theo cách phù hợp với nhu cầu của các bên liên quan. Nói cách khác, bạn đã học cách kể một câu chuyện bằng dữ liệu. Bây giờ chúng ta sẽ tìm hiểu thêm về dữ liệu mà bạn sẽ cần để kể câu chuyện hay nhất có thể. Nhưng trước khi chúng ta làm điều đó, tôi muốn kể cho bạn nghe câu chuyện của tôi. Tôi sử dụng phân tích để giúp các công ty chăm sóc sức khỏe phát triển các giải pháp tiếp thị
  • 143. kỹ thuật số giúp doanh nghiệp và thương hiệu của họ mạnh hơn. Nhóm của tôi tìm thấy các cơ hội kinh doanh và truyền thông dựa trên thông tin chi tiết về ngành và dữ liệu mới nhất. Tôi đã làm việc trong lĩnh vực chăm sóc sức khỏe được khoảng năm năm, và điều đó thật tuyệt. Tôi thực sự thích thú khi có thể sử dụng dữ liệu để giúp tạo ra sự thay đổi trong một ngành quan trọng như vậy. Như bạn sẽ khám phá trong khóa học này, dữ liệu có thể là nhân vật chính trong một câu chuyện rất mạnh mẽ. Tôi hoàn toàn thích sử dụng phân tích để kể câu chuyện đó theo cách hấp dẫn và nhiều thông tin. Đây là một ví dụ thực tế về cách tôi đã sử dụng dữ liệu để kể một câu chuyện. Trong công việc của tôi, chúng tôi phân tích dữ liệu đăng ký Medicare theo thời gian và tạo mối liên hệ với cách mọi người nghiên cứu các chương trình Medicare trên Google. Khi những người từ 65 tuổi trở lên trở thành những người đưa ra quyết định sáng suốt hơn cho sức khỏe của họ, tôi sử dụng dữ liệu để tìm hiểu xem liệu số người đăng ký Medicare có tăng hay không và tìm kiếm trên Google đóng vai trò gì nếu nhu cầu tăng. Bây giờ, điều rất quan trọng là tôi phải đảm bảo dữ liệu có liên quan và hợp lệ. Tôi cũng phải chú ý đến các câu hỏi xung quanh quyền truy cập và tính công bằng trong khi duy trì quyền riêng tư của những người tiến hành tìm kiếm. Kết thúc có hậu cho câu chuyện của tôi là dữ liệu trong những phát hiện của tôi rất hữu ích cho các chuyên gia y tế và bệnh nhân của họ. Có rất nhiều dữ liệu hữu ích ngoài kia và bạn đang xây dựng các kỹ năng cần thiết để tìm và sử dụng đúng dữ liệu theo cách tốt nhất. Trong khóa học này, bạn sẽ tiếp tục mài giũa những kỹ năng đó. Vì vậy, bạn đã nghe nhiều về các bước của quy trình phân tích dữ liệu: Hỏi, Chuẩn bị, Xử lý, Phân tích, Chia sẻ và Hành động. Bây giờ là lúc học cách chuẩn bị dữ liệu. Bạn sẽ học cách xác định cách dữ liệu được tạo và thu thập, đồng thời bạn sẽ khám phá các định dạng, loại và cấu trúc dữ liệu khác nhau. Chúng tôi sẽ đảm bảo rằng bạn biết cách chọn và sử dụng dữ liệu sẽ giúp bạn hiểu và ứng phó với một vấn đề kinh doanh. Và bởi vì không phải tất cả dữ liệu đều phù hợp với từng nhu cầu, nên bạn sẽ học cách phân tích dữ liệu để tìm ra sự thiên vị và độ tin cậy. Chúng ta cũng sẽ khám phá ý nghĩa của dữ liệu sạch. Nhưng xin chờ chút nữa. Bạn cũng sẽ hiểu rõ hơn về cơ sở dữ liệu. Chúng tôi sẽ đề cập đến chúng là gì và cách các nhà phân tích sử dụng chúng. Bạn thậm chí sẽ có thể trích xuất dữ liệu của riêng mình từ cơ sở dữ liệu bằng cách sử dụng một vài công cụ mà bạn đã quen thuộc: bảng tính và SQL. Chìa khóa ở đây là sự kiên nhẫn. Giống như bất cứ điều gì đáng làm, điều này sẽ mất thời gian và thực hành. Và tôi sẽ ở bên bạn trên mỗi bước đường. Tuyệt vời. Một vài điều cuối cùng chúng tôi sẽ đề cập đến là những điều cơ bản về tổ chức dữ liệu và quy trình bảo vệ dữ liệu của bạn. Dữ liệu hoạt động tốt nhất khi nó được tổ chức. Và nếu bạn đang tổ chức dữ liệu của mình, bạn cũng sẽ muốn bảo vệ nó. Tôi sẽ chỉ cho bạn cách làm cả hai và áp dụng nó vào phân tích của riêng bạn. Tôi rất vui được giúp bạn viết nên câu chuyện cá nhân của riêng mình khi bạn tiếp tục khám phá thế giới phân tích dữ liệu. Vì vậy, hãy làm điều đó.
  • 144. Hallie: Những hiểu biết sâu sắc về dữ liệu Y tế chỉ là một nơi thực sự hấp dẫn ở Mỹ. Đó là một ngành thực sự đáng kinh ngạc để làm việc vì nó có truyền thống lâu đời và các công ty chăm sóc sức khỏe, không giống như các công ty công nghệ khác, thực sự chưa sử dụng dữ liệu để đưa ra quyết định. Khi tôi còn học đại học, tôi có một giáo sư không muốn chúng tôi có sách giáo khoa vì ông ấy chỉ nói rằng ngành chăm sóc sức khỏe đang thay đổi quá nhanh và sẽ chẳng có nghĩa lý gì nếu có sách giáo khoa, vốn chỉ là một phần tĩnh của văn bản khi mọi thứ chỉ thực sự phát triển. Vì vậy, tôi muốn nói rằng chăm sóc sức khỏe và dữ liệu và cả hai kết hợp với nhau là một khái niệm mới hơn sử dụng dữ liệu lớn, sử dụng máy học và trí tuệ nhân tạo để hỗ trợ ngành chăm sóc sức khỏe. Tôi bắt đầu phân tích một lượng lớn dữ liệu bệnh nhân. Đó là lần đầu tiên tôi thực sự làm việc với các tập dữ liệu khổng lồ như vậy và tôi thấy thật thú vị khi chúng tôi có thể lấy tất cả các tập dữ liệu này và tổng hợp chúng và cho phép chúng tôi thực sự cung cấp một số hiểu biết và xu hướng thú vị cho hệ thống bệnh viện của mình. Đó là lần đầu tiên tôi bắt đầu nghĩ về phân tích dữ liệu, phân tích dữ liệu, như một nghề nghiệp khả thi đối với tôi. Đó thực sự là điều đã đưa tôi đến với vai trò trưởng nhóm phân tích này tại Google, nơi tôi có thể sử dụng kiến thức và bộ kỹ năng phân tích bộ dữ liệu đó và thực hiện công việc đó hàng ngày, vì vậy, thực sự, mọi cuộc trò chuyện của tôi với khách hàng đều được cung cấp thông tin về dữ liệu cuộc hội thoại. Tôi làm việc trong ngành chăm sóc sức khỏe. Chúng tôi có các công ty tiếp thị trên các nền tảng của chúng tôi, như Google Tìm kiếm và YouTube. Chúng tôi giúp họ hiểu về ngành chăm sóc sức khỏe để họ có thể tiếp thị tốt hơn tới đối tượng mà họ đang cố gắng tiếp cận. Cho dù bạn là công ty bảo hiểm chăm sóc sức khỏe hay bạn là nhà cung cấp dịch vụ chăm sóc sức khỏe, có thể là hệ thống bệnh viện, họ đều có những nhu cầu khác nhau về cách họ muốn tiếp cận đối tượng của mình bằng cách sử dụng các nền tảng của Google. Chúng tôi giúp họ tối ưu hóa chi tiêu tiếp thị, nhưng chúng tôi cũng thực hiện rất nhiều nghiên cứu trong ngành chăm sóc sức khỏe. Một số nghiên cứu người dùng, một số hiểu biết về cách người dùng thực sự chỉ tìm kiếm trên Google để cho họ biết điều gì đang thực sự xảy ra trong ngành và cách họ có thể tiếp thị hiệu quả. Tôi muốn nói rằng các kỹ năng kỹ thuật của tôi với phân tích dữ liệu đã đến với thời gian. Kỹ năng quan trọng nhất mà tôi tìm thấy, cũng đã theo thời gian và phát triển cùng với tôi, chỉ là khía cạnh sáng tạo của phân tích dữ liệu. Ý tôi là, bạn thực sự có thể học được rất nhiều kỹ năng SQL và R, và tôi biết một số trong số đó nằm trong khóa học. Nhưng thực sự, khía cạnh sáng tạo là thứ chỉ đi kèm với kinh nghiệm. Khi bạn đang xem một tập dữ liệu, bạn có thể nhìn nó theo một cách và phân tích nó theo một cách và sau đó nhờ người khác xem nó hoặc nhìn nó một tuần sau đó, và rồi đột nhiên xu hướng mà bạn đang nhìn thấy là hoàn toàn
  • 145. khác nhau. Bạn phải lấy rất nhiều mẩu thông tin này, tôi thích gọi chúng là những mảnh ghép, và ghép lại với nhau thành một câu chuyện thực sự hay bằng cách sử dụng dữ liệu. Bộ kỹ năng đó là thứ tôi học được khi làm việc trong lĩnh vực tư vấn và tôi đã đưa nó lên Google và thực sự có thể trau dồi rất nhiều kỹ năng đó cũng như một số kỹ năng chuyên môn hơn. Mặt kỹ thuật và sáng tạo là những gì tôi ngày càng yêu thích. Tên tôi là Hallie. Tôi là trưởng nhóm phân tích tại Google, đặc biệt làm việc trong ngành chăm sóc sức khỏe.
  • 146. Chương 2: Thu thập dữ liệu Thu thập dữ liệu trong thế giới của chúng ta Hiện tại, dữ liệu đang được tạo ra trên toàn thế giới và chúng ta đang nói về rất nhiều dữ liệu. Mỗi phút mỗi ngày có hàng triệu tin nhắn và hàng trăm triệu email được gửi đi. Trên hết, hàng triệu lượt tìm kiếm trực tuyến được thực hiện và các video được xem và những con số này ngày càng tăng. Đó là rất nhiều dữ liệu. Hãy tìm hiểu thêm về cách nó được tạo ra và sử dụng. Trong video này, chúng ta sẽ nói về cách dữ liệu có thể được tạo ra và cách các ngành tự thu thập dữ liệu. Mỗi mẩu thông tin là dữ liệu. Tất cả dữ liệu đó thường được tạo ra do hoạt động của chúng ta trên thế giới. Những ngày này, chúng tôi dành rất nhiều thời gian trực tuyến. Với phương tiện truyền thông xã hội và thiết bị di động, hàng triệu triệu người đang thêm vào lượng dữ liệu khổng lồ ngoài kia, mỗi ngày. Hãy suy nghĩ về nó như thế này. Mỗi bức ảnh kỹ thuật số trực tuyến là một phần dữ liệu. Mỗi bức ảnh thậm chí còn chứa nhiều dữ liệu hơn, từ số lượng pixel đến màu sắc có trong mỗi pixel đó. Nhưng đó không phải là cách duy nhất để tạo ra dữ liệu. Chúng tôi cũng có thể tạo dữ liệu bằng cách thu thập thông tin. Việc tạo và thu thập dữ liệu này đi kèm với một vài điều nữa cần suy nghĩ. Nó cần phải được thực hiện với sự cân nhắc về đạo đức để chúng tôi duy trì quyền và sự riêng tư của mọi người. Chúng ta sẽ tìm hiểu thêm về điều đó sau này. Bây giờ, hãy xem một ví dụ thực tế. Cục điều tra dân số Hoa Kỳ sử dụng các biểu mẫu để thu thập dữ liệu về dân số của đất nước. Dữ liệu này được sử dụng vì một số lý do, chẳng hạn như tài trợ cho trường học, bệnh viện và sở cứu hỏa. Cục cũng thu thập thông tin về những thứ như doanh nghiệp Hoa Kỳ, tạo dữ liệu của riêng họ trong quá trình này. Điều tuyệt vời về điều này là những người khác sau đó có thể sử dụng dữ liệu cho nhu cầu của riêng họ, bao gồm cả phân tích. Cuộc khảo sát kinh doanh hàng năm được sử dụng để tìm ra nhu cầu của các doanh nghiệp và cách cung cấp cho họ các nguồn lực để giúp họ thành công. Tôi thực sự tạo dữ liệu trong các phân tích mà tôi thực hiện cho ngành chăm sóc sức khỏe. Chúng tôi thực hiện rất nhiều cuộc khảo sát để tìm hiểu xem bệnh nhân cảm thấy thế nào về một số điều liên quan đến việc chăm sóc sức khỏe của họ. Ví dụ: một cuộc khảo sát đã hỏi bệnh nhân cảm thấy thế nào về khám bệnh từ xa so với khám bác sĩ trực tiếp. Dữ liệu chúng tôi thu thập giúp các công ty mà chúng tôi hợp tác cải thiện dịch vụ chăm sóc mà bệnh nhân của họ nhận được. Dữ liệu khảo sát chỉ là một ví dụ. Có tất cả các loại dữ liệu được tạo ra mọi lúc và có rất nhiều cách khác nhau để thu thập dữ liệu đó. Ngay cả những việc đơn giản như một cuộc phỏng vấn cũng có thể giúp ai đó thu thập dữ liệu. Hãy tưởng tượng bạn đang trong một cuộc phỏng vấn việc làm. Để gây ấn tượng với người quản lý tuyển dụng, bạn muốn chia sẻ thông
  • 147. tin về bản thân. Người quản lý tuyển dụng thu thập dữ liệu đó và phân tích nó để giúp họ quyết định có thuê bạn hay không. Nhưng nó đi theo cả hai cách. Bạn cũng có thể thu thập dữ liệu của riêng mình về công ty để giúp bạn quyết định xem công ty có phù hợp với bạn hay không. Hoặc bạn có thể sử dụng dữ liệu bạn thu thập được để đưa ra những câu hỏi chu đáo để hỏi người phỏng vấn. Họ sử dụng rất nhiều quan sát trong công việc của họ. Ví dụ, họ có thể thu thập dữ liệu bằng cách nghiên cứu hành vi của động vật hoặc quan sát vi khuẩn dưới kính hiển vi. Trước đó chúng ta đã nói về các biểu mẫu mà Cục điều tra dân số Hoa Kỳ sử dụng để thu thập dữ liệu. Biểu mẫu, bảng câu hỏi và khảo sát là những cách thường được sử dụng để thu thập và tạo dữ liệu. Một điều cần lưu ý: dữ liệu được tạo trực tuyến không phải lúc nào cũng xảy ra trực tiếp. Bạn đã bao giờ tự hỏi tại sao một số quảng cáo trực tuyến dường như đưa ra các đề xuất thực sự chính xác hoặc làm thế nào một số trang web ghi nhớ các tùy chọn của bạn? Điều này được thực hiện bằng cách sử dụng cookie, là các tệp nhỏ được lưu trữ trên máy tính có chứa thông tin về người dùng. Cookie có thể giúp thông báo cho các nhà quảng cáo về sở thích và thói quen cá nhân của bạn dựa trên hoạt động lướt web trực tuyến của bạn mà không cần nhận dạng cá nhân bạn. How data is collected:  Interviews  Observations  Forms  Questionnaires  Surveys  Cookies Là một nhà phân tích trong thế giới thực, bạn sẽ có tất cả các loại dữ liệu ngay trong tầm tay và rất nhiều dữ liệu nữa. Biết cách dữ liệu được tạo có thể giúp thêm ngữ cảnh vào dữ liệu và biết cách thu thập dữ liệu có thể giúp quá trình phân tích dữ liệu hiệu quả hơn. Sắp tới, bạn sẽ học cách quyết định dữ liệu nào cần thu thập cho phân tích của mình. Vậy nên hãy chờ trong giây lát. Xác định dữ liệu cần thu thập Chào mừng trở lại. Chúng ta đã nói rất nhiều về tất cả dữ liệu trên thế giới. Nhưng với tư cách là nhà phân tích dữ liệu, bạn sẽ cần quyết định loại dữ liệu nào sẽ thu thập và sử dụng cho mọi dự án. Với lượng dữ liệu gần như vô tận ngoài kia, đây có thể là một vấn đề nan giải về dữ liệu, nhưng có một tin tốt. Trong video này, bạn sẽ tìm hiểu những yếu tố cần xem xét khi thu thập dữ liệu. Thông thường, bạn sẽ có một khởi đầu thuận lợi trong việc tìm ra dữ liệu
  • 148. phù hợp cho công việc, bởi vì dữ liệu bạn cần sẽ được cung cấp cho bạn, hoặc nhiệm vụ hoặc vấn đề kinh doanh của bạn sẽ thu hẹp các lựa chọn của bạn. Hãy bắt đầu với một câu hỏi như, điều gì khiến giao thông vào giờ cao điểm tăng lên ở thành phố của bạn? Trước tiên, bạn cần biết dữ liệu sẽ được thu thập như thế nào. Bạn có thể sử dụng các quan sát về mô hình giao thông để đếm số lượng ô tô trên đường phố trong những thời điểm cụ thể. Bạn nhận thấy rằng những chiếc ô tô đang lùi lại trên một con phố cụ thể. Điều đó đưa chúng ta đến các nguồn dữ liệu. Trong ví dụ về lưu lượng truy cập của chúng tôi, các quan sát của bạn sẽ là dữ liệu của bên thứ nhất. First – party data is Data collection by an individual or group using their own resources (Dữ liệu bên thứ nhất là Dữ liệu được thu thập bởi một cá nhân hoặc nhóm sử dụng tài nguyên của riêng họ). Thu thập dữ liệu của bên thứ nhất thường là phương pháp ưa thích vì bạn biết chính xác dữ liệu đó đến từ đâu. Second – party data is Data collected by a group directly from its audience and then sold ( Dữ liệu bên thứ hai là dữ liệu do một nhóm thu thập trực tiếp từ đối tượng của mình rồi bán). Trong ví dụ của chúng tôi, nếu bạn không thể thu thập dữ liệu của riêng mình, bạn có thể mua dữ liệu đó từ một tổ chức dẫn đầu các nghiên cứu về mô hình giao thông trong thành phố của bạn. Dữ liệu này không bắt đầu từ bạn, nhưng nó vẫn đáng tin cậy vì nó đến từ một nguồn có kinh nghiệm về phân tích lưu lượng truy cập. Điều tương tự không phải lúc nào cũng đúng đối với dữ liệu của bên thứ ba hoặc dữ liệu được thu thập từ các nguồn bên ngoài không trực tiếp thu thập dữ liệu đó. Dữ liệu này có thể đến từ một số nguồn khác nhau trước khi bạn điều tra nó. Nó có thể không đáng tin cậy, nhưng điều đó không có nghĩa là nó không hữu ích. Bạn sẽ chỉ muốn đảm bảo rằng bạn đã kiểm tra tính chính xác, sai lệch và độ tin cậy của nó. Trên thực tế, bất kể bạn sử dụng loại dữ liệu nào, nó cần được kiểm tra độ chính xác và độ tin cậy. Chúng ta sẽ tìm hiểu thêm về quá trình đó sau. Hiện tại, chỉ cần nhớ rằng dữ liệu bạn chọn sẽ áp dụng cho nhu cầu của bạn và dữ liệu đó phải được phê duyệt để sử dụng. Là một nhà phân tích dữ liệu, công việc của bạn là quyết định sử dụng dữ liệu nào và điều đó có nghĩa là chọn dữ liệu có thể giúp bạn tìm câu trả lời và giải quyết vấn đề cũng như không bị phân tâm bởi dữ liệu khác. Trong ví dụ về lưu lượng truy cập của chúng tôi, dữ liệu tài chính có thể không hữu ích nhưng dữ liệu hiện tại về thời gian lưu lượng truy cập cao sẽ hữu ích. Được rồi. Bây giờ hãy nói về lượng dữ liệu cần thu thập. Population is All possible data values in a certain dataset (Tập hợp là Trong phân tích dữ liệu, tất cả các giá trị dữ liệu có thể có trong tập dữ liệu). Nếu bạn đang phân tích dữ liệu về lưu lượng ô tô trong thành phố, dân số của bạn sẽ là tất cả ô tô trong khu vực đó. Nhưng việc thu thập dữ liệu từ toàn bộ dân số có thể khá khó khăn. Đó là lý do tại sao một mẫu có thể hữu ích. Sample is A part of a population that is representative of the population ( Trong phân tích dữ liệu, một phần đại diện cho toàn bộ tập hợp). Đó là lý do tại sao một mẫu có thể hữu ích. Mẫu là một bộ phận của quần thể đại diện cho quần thể. Bạn có thể thu thập một mẫu dữ liệu về một điểm trong
  • 149. thành phố và phân tích lưu lượng truy cập ở đó hoặc bạn có thể lấy một mẫu ngẫu nhiên từ tất cả dữ liệu hiện có trong dân số. Cách bạn chọn mẫu sẽ phụ thuộc vào dự án của bạn. Khi bạn thu thập dữ liệu, bạn cũng sẽ muốn đảm bảo rằng bạn chọn đúng loại dữ liệu. Đối với dữ liệu lưu lượng truy cập, loại dữ liệu phù hợp có thể là ngày của bản ghi lưu lượng truy cập được lưu trữ ở định dạng ngày. Ngày có thể giúp bạn hình dung những ngày nào trong tuần có khả năng có lưu lượng truy cập cao trong tương lai. Chúng ta sẽ sớm khám phá chủ đề này chi tiết hơn. Data collection considerations:  How the data will be collected  Choose data sources  Decide what data to use  How much data to collect  Select the right data type  Determine the time frame Cuối cùng, bạn cần xác định khung thời gian để thu thập dữ liệu. Trong ví dụ của chúng tôi, nếu bạn cần câu trả lời ngay lập tức, bạn phải sử dụng dữ liệu lịch sử, là dữ liệu đã tồn tại. Nhưng giả sử bạn cần theo dõi các mẫu lưu lượng truy cập trong một khoảng thời gian dài. Điều đó có thể ảnh hưởng đến các quyết định khác mà bạn đưa ra trong quá trình thu thập dữ liệu. Giờ đây, bạn đã biết thêm về các cân nhắc thu thập dữ liệu khác nhau mà bạn sẽ sử dụng với tư cách là nhà phân tích dữ liệu. Do đó, bạn sẽ có thể tìm thấy dữ liệu phù hợp khi bắt đầu tự thu thập dữ liệu đó. Vẫn còn nhiều điều cần tìm hiểu về thu thập dữ liệu, vì vậy hãy chú ý theo dõi.
  • 150. Chương 3: Phân biệt giữa các định dạng và cấu trúc dữ liệu Khám phá các định dạng dữ liệu Tôi không biết bạn thế nào, nhưng khi chọn một bộ phim để xem, đôi khi tôi bị mắc kẹt giữa một vài lựa chọn. Nếu muốn phấn khích hoặc hồi hộp, tôi có thể xem phim kinh dị, nhưng nếu cần tiếng cười sảng khoái, tôi sẽ chọn phim hài. Nếu tôi thực sự không thể quyết định giữa hai bộ phim, tôi thậm chí có thể sử dụng một số kỹ năng phân tích dữ liệu của mình để so sánh và đối chiếu chúng. Nghĩ lại thì, thực sự cần phải có nhiều phim hơn về các nhà phân tích dữ liệu. Tôi sẽ xem nó, nhưng vì chúng tôi không thể xem phim về dữ liệu, ít nhất là chưa, nên chúng tôi sẽ làm điều tốt nhất tiếp theo: xem dữ liệu về phim! Chúng ta sẽ xem xét bảng tính này với dữ liệu phim. Chúng tôi biết mình có thể so sánh các bộ phim và thể loại phim khác nhau. Hóa ra, bạn có thể làm tương tự với dữ liệu và định dạng dữ liệu. Hãy sử dụng bảng tính dữ liệu phim của chúng tôi để hiểu cách thức hoạt động của nó. Chúng ta sẽ bắt đầu với dữ liệu định lượng và định tính. Nếu chúng ta kiểm tra cột A, chúng ta sẽ tìm thấy tiêu đề của các bộ phim. Đây là dữ liệu định tính vì không thể đếm, đo lường hoặc biểu thị dễ dàng bằng các con số. Dữ liệu định tính thường được liệt kê dưới dạng tên, danh mục hoặc mô tả. Trong bảng tính của chúng tôi, tiêu đề phim và diễn viên là dữ liệu định tính. Tiếp theo là dữ liệu định lượng, có thể được đo hoặc đếm và sau đó được biểu thị dưới dạng số. Đây là dữ liệu có số lượng, số lượng hoặc phạm vi nhất định. Trong bảng tính của chúng tôi ở đây, hai cột cuối cùng hiển thị ngân sách và doanh thu phòng vé của phim. Dữ liệu trong các cột này được liệt kê bằng đô la, có thể đếm được, vì vậy chúng tôi biết rằng dữ liệu là định lượng. Chúng ta có thể đi sâu hơn nữa vào dữ liệu định lượng và chia nhỏ nó thành dữ liệu rời rạc hoặc liên tục. Trước tiên hãy kiểm tra dữ liệu rời rạc. Discrete data is Data that is counted and has a limited number of values ( Dữ liệu rời rạc là Dữ liệu đếm được và có một số giá trị giới hạn). Đây là dữ liệu được tính và có số lượng giá trị giới hạn. Quay trở lại bảng tính của chúng tôi, chúng tôi sẽ tìm thấy ngân sách của mỗi bộ phim và doanh thu phòng vé trong các cột M và N. Đây là cả hai ví dụ về dữ liệu rời rạc có thể được tính và có số lượng giá trị hạn chế. Ví dụ: số tiền mà một bộ phim kiếm được chỉ có thể được biểu thị bằng đúng hai chữ số sau dấu thập phân để biểu thị xu. Không thể có bất cứ thứ gì giữa một và hai xu. Continuous data is Data that is measured and can have almost any numeric value ( Dữ liệu liên tục là dữ liệu được đo lường và có thể có hầu hết mọi giá trị số). Dữ liệu liên tục có thể được đo bằng bộ đếm thời gian và giá trị của nó có thể được hiển thị dưới dạng số thập phân với một số vị trí. Hãy tưởng tượng một bộ phim về các nhà phân tích dữ liệu mà tôi chắc
  • 151. chắn sẽ tham gia vào một ngày nào đó. Bạn có thể biểu thị thời gian chạy của bộ phim đó là 110,0356 phút. Bạn thậm chí có thể thêm dữ liệu phân số sau dấu thập phân nếu cần. Ngoài ra còn có dữ liệu không thứ tự và thứ tự. Nominal data is A type of qualitiative data that is categorized without a set order (Dữ liệu không thứ tự là một loại dữ liệu định tính được phân loại mà không thiết lập thứ tự). Nói cách khác, dữ liệu này không có trình tự. Đây là một ví dụ nhanh. Giả sử bạn đang thu thập dữ liệu về phim. Bạn hỏi mọi người xem họ đã xem một bộ phim nhất định chưa. Phản hồi của họ sẽ ở dạng dữ liệu danh nghĩa. Họ có thể trả lời "Có", "Không" hoặc "Không chắc". Những lựa chọn này không có thứ tự cụ thể. Ordinal data is A type qualitative data with a set order or scale (Dữ liệu có thứ tự là Dữ liệu định tính với thứ tự hoặc có quy mô nhất định). Nếu bạn yêu cầu một nhóm người xếp hạng một bộ phim từ 1 đến 5, một số người có thể xếp hạng phim đó là 2, những người khác là 4, v.v. Những thứ hạng này theo thứ tự mức độ thích bộ phim của mỗi người. Bây giờ hãy nói về dữ liệu nội bộ, internal data is data that lives within a company’s own systems (Dữ liệu nội bộ là dữ liệu nằm trong hệ thống riêng của công ty). Ví dụ: nếu một hãng phim đã biên soạn tất cả dữ liệu trong bảng tính chỉ bằng các phương pháp thu thập của riêng họ, thì đó sẽ là dữ liệu nội bộ của họ. Điều tuyệt vời về dữ liệu nội bộ là nó thường đáng tin cậy hơn và dễ thu thập hơn, nhưng trong bảng tính này, nhiều khả năng hãng phim phải sử dụng dữ liệu do các hãng phim và nguồn khác sở hữu hoặc chia sẻ vì dữ liệu đó bao gồm các bộ phim họ không làm . Điều đó có nghĩa là họ sẽ thu thập dữ liệu bên ngoài. External data is data that lives and is generated outside of an organization (Dữ liệu bên ngoài là dữ liệu tồn tại và được tạo bên ngoài tổ chức). Dữ liệu bên ngoài trở nên đặc biệt có giá trị khi phân tích của bạn dựa trên càng nhiều nguồn càng tốt. Một điều tuyệt vời về dữ liệu này là nó có cấu trúc. Structured data is Data organized in a certain format such as rows and columns (Dữ liệu có cấu trúc là Dữ liệu được tổ chức theo một định dạng nhất định chẳng hạn như hàng và cột). Bảng tính và cơ sở dữ liệu quan hệ là hai ví dụ về phần mềm có thể lưu trữ dữ liệu theo cách có cấu trúc. Bạn có thể nhớ khám phá trước đây của chúng tôi về tư duy có cấu trúc, giúp bạn thêm một khuôn khổ cho một vấn đề để bạn có thể giải quyết nó một cách có tổ chức và hợp lý. Bạn có thể nghĩ về dữ liệu có cấu trúc theo cách tương tự. Có một khuôn khổ cho dữ liệu làm cho dữ liệu có thể dễ dàng tìm kiếm và sẵn sàng phân tích hơn.
  • 152. Là một nhà phân tích dữ liệu, bạn sẽ làm việc với nhiều dữ liệu có cấu trúc, thường ở dạng bảng, bảng tính hoặc cơ sở dữ liệu quan hệ, nhưng đôi khi bạn sẽ bắt gặp dữ liệu phi cấu trúc. Unstructured data id data that is not organized in any easily identifiable manner (Dữ liệu phi cấu trúc là Dữ liệu không được tổ chức theo bất kỳ cách thức dễ nhận dạng nào). Các tệp âm thanh và video là những ví dụ về dữ liệu phi cấu trúc vì không có cách nào rõ ràng để xác định hoặc sắp xếp nội dung của chúng. Dữ liệu phi cấu trúc có thể có cấu trúc bên trong, nhưng dữ liệu không nằm gọn trong các hàng và cột như dữ liệu có cấu trúc.
  • 153. Hiểu dữ liệu có cấu trúc Xin chào, rất vui được gặp lại bạn! Trước đó, chúng tôi đã so sánh một số định dạng dữ liệu, bao gồm cả dữ liệu có cấu trúc và không có cấu trúc. Hầu hết dữ liệu được tạo ngay bây giờ thực sự không có cấu trúc. Các tệp âm thanh, tệp video, email, ảnh và phương tiện truyền thông xã hội đều là những ví dụ về dữ liệu phi cấu trúc. Chúng có thể khó phân tích hơn ở định dạng phi cấu trúc của chúng. Nhưng đây là tin tốt, hầu hết thời gian bạn sẽ làm việc với dữ liệu có cấu trúc. Ví dụ: nếu bạn cần phân tích dữ liệu về dữ liệu phi cấu trúc trong email, ảnh và trang web truyền thông xã hội, rất có thể dữ liệu đó sẽ được cấu trúc để phân tích trước khi bạn tiếp cận. Do đó, tôi muốn khám phá dữ liệu có cấu trúc nhiều hơn một chút. Nhắc lại nhanh, dữ liệu có cấu trúc là dữ liệu được sắp xếp theo định dạng như hàng và cột. Nhưng chắc chắn có nhiều hơn thế. Dữ liệu có cấu trúc hoạt động độc đáo trong mô hình dữ liệu. Data model is a model that is used for organizing data elements and how they relate to one another (Mô hình dữ liệu là một công cụ để tổ chức các phần tử dữ liệu và cách chúng liên quan với nhau). Data elements is pieces of information, such as people’s names, account numbers, and addresses (Phần tử dữ liệu là Một phần thông tin trong tập dữ liệu). Chúng là những mẩu thông tin, chẳng hạn như tên, số tài khoản và địa chỉ của mọi người. Các mô hình dữ liệu giúp giữ cho dữ liệu nhất quán và cung cấp bản đồ về cách tổ chức dữ liệu. Điều này giúp các nhà phân tích và các bên liên quan khác dễ dàng hiểu được dữ liệu của họ và sử dụng dữ liệu đó cho mục đích kinh doanh. Ngoài việc hoạt động tốt trong các mô hình dữ liệu, dữ liệu có cấu trúc cũng hữu ích cho cơ sở dữ liệu. Điều này giúp các nhà phân tích dễ dàng nhập, truy vấn và phân tích dữ liệu bất cứ khi nào họ cần. Điều này cũng giúp làm cho việc trực quan hóa dữ liệu trở nên khá dễ
  • 154. dàng vì dữ liệu có cấu trúc có thể được áp dụng trực tiếp vào biểu đồ, đồ thị, bản đồ nhiệt, bảng điều khiển và hầu hết các biểu diễn dữ liệu trực quan khác. Được rồi, giờ chúng ta đã biết rằng bảng tính và cơ sở dữ liệu lưu trữ tập dữ liệu là những nguồn dữ liệu có cấu trúc được sử dụng rộng rãi. Sau khi bạn khám phá một số cấu trúc dữ liệu khác, bạn sẽ kiểm tra thêm các loại dữ liệu bằng cách sử dụng bảng tính. Cuộc phiêu lưu vẫn tiếp tục!
  • 155. Chương 4: Khám phá các loại dữ liệu, trường và giá trị Biết loại dữ liệu mà bạn đang làm việc Đến bây giờ bạn đã học được rất nhiều về dữ liệu. Từ dữ liệu được tạo, đến dữ liệu được thu thập, đến định dạng dữ liệu, bạn nên biết càng nhiều càng tốt về dữ liệu bạn sẽ sử dụng để phân tích. Trong video này, chúng ta sẽ nói về một cách khác để bạn có thể mô tả dữ liệu: kiểu dữ liệu. Data type is a specific kind of data attribute that tells what kind of value the data is (Kiểu dữ liệu là thuộc tính mô tả một phần dữ liệu dựa trên các giá trị, ngôn ngữ lập trình của nó hoặc các thao tác mà nó có thể thực hiện). Nói cách khác, một kiểu dữ liệu cho bạn biết bạn đang làm việc với loại dữ liệu nào. Các loại dữ liệu có thể khác nhau tùy thuộc vào ngôn ngữ truy vấn bạn đang sử dụng. Ví dụ: SQL cho phép các loại dữ liệu khác nhau tùy thuộc vào cơ sở dữ liệu bạn đang sử dụng. Tuy nhiên, bây giờ, hãy tập trung vào các loại dữ liệu mà bạn sẽ sử dụng trong bảng tính. Để giúp chúng tôi, chúng tôi sẽ sử dụng bảng tính đã chứa đầy dữ liệu. Chúng tôi sẽ gọi nó là "Sở thích đồ ngọt trên toàn thế giới thông qua tìm kiếm trên Google". Data types in spreadsheets:  Number  Text or string  Boolean Bạn có thể tìm thấy các chương trình bảng tính phân loại chúng hơi khác một chút hoặc bao gồm các loại khác, nhưng các loại giá trị này chỉ bao gồm mọi dữ liệu bạn sẽ tìm thấy trong bảng tính. Chúng tôi sẽ xem xét tất cả những điều này chỉ trong một chút. Nhìn vào các
  • 156. cột B, D và F, chúng tôi tìm thấy các loại dữ liệu số. Mỗi số biểu thị sở thích tìm kiếm cho các cụm từ "bánh nướng nhỏ", "kem" và "kẹo" trong một tuần cụ thể. Con số càng gần 100 thì cụm từ tìm kiếm đó càng phổ biến trong tuần đó. Một trăm đại diện cho mức độ phổ biến cao nhất. Hãy nhớ rằng trong trường hợp này, 100 là giá trị tương đối, không phải số lượt tìm kiếm thực tế. Nó đại diện cho số lượng tìm kiếm tối đa trong một thời gian nhất định. Hãy nghĩ về nó giống như một tỷ lệ phần trăm trong một bài kiểm tra. Sau đó, tất cả các tìm kiếm khác cũng có giá trị trên 100. Bạn cũng có thể nhận thấy điều này trong các tập dữ liệu khác. Sao vàng cho 100! Nếu cần, bạn có thể thay đổi số thành phần trăm hoặc định dạng khác, chẳng hạn như tiền tệ. Đây là tất cả các ví dụ về kiểu dữ liệu số. Trong cột H, dữ liệu hiển thị món ăn phổ biến nhất cho mỗi tuần, dựa trên dữ liệu tìm kiếm. Vì vậy, như chúng ta sẽ tìm thấy trong ô H4 trong tuần bắt đầu từ ngày 28 tháng 7 năm 2019, món ăn phổ biến nhất là kem. Đây là một ví dụ về Text or string data type is A sequence of characters and punctuation that contains textual information ( Kiểu dữ liệu văn bản là Một chuỗi các kí tự và dấu câu có chứa thông tin văn bản). Trong ví dụ này, thông tin đó sẽ là món ăn và tên của mọi người. Chúng cũng có thể bao gồm các số, như số điện thoại hoặc số trong địa chỉ đường phố. Nhưng những con số này sẽ không được sử dụng để tính toán. Trong trường hợp này, chúng được xử lý như văn bản, không phải số. Trong các cột C, E và G, có vẻ như chúng ta có một số văn bản. Nhưng văn bản ở đây không phải là kiểu dữ liệu văn bản hoặc chuỗi. Thay vào đó, đó là kiểu dữ liệu Boolean. Boolean data type is a data type with only two possible values, such as TRUE or FALSE (Dữ liệu luận lý là Một kiểu dữ liệu chỉ có 2 giá trị cụ thể, thường là đúng hoặc sai). Các cột C, E và G hiển thị dữ liệu Boolean cho biết sở thích tìm kiếm cho mỗi tuần, ít nhất là 50 trên 100. Đây là cách nó hoạt động. Để có được dữ liệu này, chúng tôi đã tạo một công thức tính toán xem dữ liệu sở thích tìm kiếm trong các cột B, D và F có từ 50 trở lên hay không. Trong ô B4, sở thích tìm kiếm là 14. Trong ô C4, chúng tôi tìm thấy từ FALSE vì đối với tuần dữ liệu này, sở thích tìm kiếm nhỏ hơn 50. Đối với mỗi ô trong cột C, E và G, chỉ có hai giá trị có thể là đúng hoặc sai. Thay vào đó, chúng ta có thể thay đổi công thức để các từ khác xuất hiện trong các ô này, nhưng đó vẫn là dữ liệu Boolean. Bạn sẽ sớm có cơ hội đọc thêm về kiểu dữ liệu Boolean. Hãy nói về một vấn đề phổ biến mà mọi người gặp phải trong bảng tính: nhầm kiểu dữ liệu với giá trị ô. Ví dụ, trong ô B57, chúng ta có thể tạo công thức để tính toán dữ liệu trong các ô khác. Điều này sẽ cung cấp cho chúng tôi mức trung bình của sở thích tìm kiếm về bánh nướng nhỏ trong tất cả các tuần trong tập dữ liệu, là khoảng 15. Công thức hoạt động vì chúng tôi đã tính toán bằng cách sử dụng loại dữ liệu số. Nhưng nếu chúng tôi thử với kiểu dữ liệu văn bản hoặc chuỗi, chẳng hạn như dữ liệu trong cột C, chúng tôi sẽ gặp lỗi. Giá trị lỗi thường xảy ra nếu nhập sai giá trị vào ô.
  • 157. Bạn càng biết nhiều về loại dữ liệu của mình và loại dữ liệu nào sẽ sử dụng, bạn sẽ càng gặp ít lỗi hơn. Chúng ta chưa xong đâu. Sắp tới, chúng ta sẽ đi sâu hơn vào mối quan hệ giữa các kiểu dữ liệu, trường và giá trị. Hẹn sớm gặp lại. Thành phần bảng dữ liệu Đây là một câu đố cho bạn. Danh sách phát nhạc, chương trình làm việc theo lịch và hộp thư đến email có điểm gì chung? Tôi sẽ cho bạn một gợi ý. Nó không phải là một phiên mứt hàng tuần. Câu trả lời là tất cả chúng đều được sắp xếp trong bảng. Hãy tiếp tục và kiểm tra hộp thư đến email của bạn hoặc danh sách phát yêu thích hoặc xem chương trình làm việc trên lịch của bạn. Có bảng trong mỗi một! Một bảng dữ liệu hoặc dữ liệu dạng bảng có cấu trúc rất đơn giản. Nó được sắp xếp theo hàng và cột. Bạn có thể gọi các hàng là "bản ghi" và các cột là "trường". Về cơ bản, chúng có nghĩa giống nhau, nhưng các bản ghi và trường có thể được sử dụng cho bất kỳ loại bảng dữ liệu nào, trong khi các hàng và cột thường được dành riêng cho bảng tính. Khi nói về cơ sở dữ liệu có cấu trúc, những người trong lĩnh vực phân tích dữ liệu thường sử dụng "bản ghi" và "trường". Đôi khi, một trường cũng có thể tham chiếu đến một phần dữ liệu, chẳng hạn như giá trị trong một ô. Trong mọi trường hợp, bạn sẽ nghe thấy cả hai phiên bản của các thuật ngữ này được sử dụng trong suốt chương trình này và công việc của bạn. Hãy quay lại ví dụ về danh sách phát của chúng tôi. Chúng tôi sẽ sử dụng các thuật ngữ mới mà chúng tôi vừa giới thiệu. Vì vậy, mỗi bài hát là một kỷ lục. Mỗi bản ghi có các trường giống như các bản ghi khác theo cùng một thứ tự. Nói cách khác, danh sách phát có cùng thông tin về mỗi bài hát. Mỗi đặc điểm của bài hát, như tiêu đề và nghệ sĩ, là một lĩnh vực.
  • 158. Mỗi trường riêng biệt có cùng kiểu dữ liệu, nhưng các trường khác nhau có thể có các kiểu khác nhau. Hãy để tôi chỉ cho bạn những gì tôi muốn nói. Đối với danh sách bài hát, tên bài hát là một loại văn bản hoặc chuỗi, trong khi độ dài của bài hát có thể là một loại số nếu bạn đang sử dụng nó để tính toán. Hoặc nó có thể là một loại ngày và thời gian. Cột dành cho mục yêu thích là Boolean vì nó có hai giá trị có thể: yêu thích hoặc không yêu thích. Chúng ta có thể xem bảng tính theo cách tương tự. Các bản ghi trong bảng tính có thể là về đủ thứ: khách hàng, sản phẩm, hóa đơn hoặc bất kỳ thứ gì khác. Mỗi bản ghi có một số trường tiết lộ thêm về khách hàng, sản phẩm hoặc hóa đơn. Giá trị trong mỗi ô chứa một phần dữ liệu cụ thể, chẳng hạn như địa chỉ của khách hàng hoặc số tiền của hóa đơn. Là một nhà phân tích dữ liệu, rất nhiều dữ liệu sẽ đến với bạn và các bản ghi, trường cũng như giá trị trong bảng dữ liệu sẽ giúp bạn điều hướng phân tích. Hiểu cấu trúc của các bảng mà bạn đang làm việc là một phần trong đó. Và hy vọng rằng trong khi bạn đang làm việc chăm chỉ với phân tích của mình và các bảng đó, bạn có thể vui vẻ một chút với một bảng dữ liệu khác: bảng có danh sách phát yêu thích của bạn! Đáp ứng dữ liệu rộng và dài Bạn có thể sử dụng các từ "rộng" và "dài" mọi lúc. Bạn có thể sử dụng "rộng" để mô tả kích thước của một thứ gì đó từ bên này sang bên kia, chẳng hạn như một dòng sông rộng. Nhưng một dòng sông cũng có thể di chuyển rất xa, vì vậy bạn cũng có thể gọi nó là "dài". Chờ đợi! Trước khi bạn dừng video, tôi đảm bảo rằng bạn không vô tình nhấp vào nhầm hướng. Tôi không ở đây để dạy bạn những từ bạn đã biết. Nhưng các từ "rộng" và "dài" cũng có thể được sử dụng để mô tả dữ liệu. Vì vậy, tôi ở đây để giúp bạn hiểu dữ liệu rộng và dữ liệu dài. Cho đến nay, bạn đã xử lý dữ liệu được sắp xếp chủ yếu ở định dạng rộng. Wide data is Data in which every data subject has a single row with multiple columns to hold the values of various attributes of subject (Dữ liệu rộng là tập dữ liệu trong đó mỗi chủ thể dữ liệu có một hàng với nhiều cột để chứa các giá trị của các thuộc tính khác nhau của chủ đề). Đây là một số dữ liệu rộng trong một bảng tính.
  • 159. Bạn có thể nhớ rằng chúng tôi đã thảo luận về dữ liệu này về dân số của các quốc gia Latinh và Caribê trước đó. Đối với tập dữ liệu này, mỗi hàng cung cấp tất cả thông tin dân số về một quốc gia. Mỗi cột hiển thị dân số cho một năm khác nhau. Dữ liệu rộng cho phép bạn dễ dàng xác định và nhanh chóng so sánh các cột khác nhau. Trong ví dụ của chúng tôi, dữ liệu được sắp xếp theo thứ tự bảng chữ cái theo quốc gia, vì vậy, bạn có thể so sánh dân số hàng năm của Antigua và Barbuda, Aruba và Bahamas bằng cách chỉ kiểm tra các giá trị trong mỗi cột. Định dạng dữ liệu rộng cũng giúp dễ dàng tìm và so sánh dân số của các quốc gia trong các khoảng thời gian khác nhau. Ví dụ: bằng cách sắp xếp dữ liệu, chúng tôi phát hiện ra rằng Brazil có dân số cao nhất trong tất cả các quốc gia vào năm 2010 và Quần đảo Virgin thuộc Anh có dân số thấp nhất trong tất cả các quốc gia vào năm 2013. Được rồi, bây giờ hãy khám phá dữ liệu này ở định dạng dài. Ở đây, dữ liệu không còn được sắp xếp thành các cột theo năm. Tất cả các năm hiện nằm trong một cột với mỗi quốc gia, chẳng hạn như Argentina, xuất hiện trong nhiều hàng, mỗi hàng cho mỗi năm dữ liệu.
  • 160. Long data is Data in which each row is one time point per subject, so each subject will have data in multiple rows (Dữ liệu dài là Tập dữ liệu trong đó mỗi hàng là một mốc thời gian cho mỗi chủ đề, vì vậy mỗi chủ đề có dữ liệu trong nhiều hàng). Bảng tính của chúng tôi được định dạng để hiển thị dữ liệu dân số hàng năm. Ở đây chúng ta thấy Antigua và Barbuda trước. Dữ liệu dài là một định dạng tuyệt vời để lưu trữ và sắp xếp dữ liệu khi có nhiều biến cho mỗi đối tượng tại mỗi thời điểm mà chúng ta muốn quan sát. Với định dạng dữ liệu dài này, chúng tôi có thể lưu trữ và phân tích tất cả dữ liệu này bằng cách sử dụng ít cột hơn. Ngoài ra, nếu chúng tôi thêm một biến mới, chẳng hạn như độ tuổi trung bình của dân số, thì chúng tôi chỉ cần thêm một cột nữa. Thay vào đó, nếu chúng tôi sử dụng định dạng dữ liệu rộng, chúng tôi sẽ cần thêm 10 cột, mỗi cột cho mỗi năm. Định dạng dữ liệu dài giúp mọi thứ đẹp và nhỏ gọn. Nếu bạn đang băn khoăn không biết nên sử dụng định dạng nào, thì câu trả lời đơn giản là "còn tùy." Đôi khi, bạn sẽ phải chuyển đổi dữ liệu rộng thành định dạng dữ liệu dài hoặc những lúc khác thì ngược lại.
  • 161. Bạn có thể sẽ làm việc với cả hai định dạng trong công việc của mình. Và chắc chắn bạn sẽ xem lại cả hai định dạng sau này trong chương trình này. Điều đó nhắc nhở tôi: trước đây chúng ta định nghĩa dữ liệu là một tập hợp các dữ kiện. Như bạn đã khám phá ra trong một số video gần đây, bộ sưu tập dữ kiện đó có thể có nhiều định dạng, cấu trúc, loại khác nhau, v.v. Tìm hiểu về tất cả các cách mà dữ liệu có thể được trình bày sẽ giúp ích rất nhiều cho bạn trong suốt quá trình phân tích dữ liệu. Bạn càng làm việc nhiều với dữ liệu ở mọi dạng, bạn sẽ bắt đầu nhận ra dữ liệu nào cần sử dụng và khi nào sử dụng dữ liệu đó càng nhanh. Và chỉ trong chốc lát, bạn sẽ sử dụng tất cả dữ liệu được lưu trữ trong não để giúp bạn đánh giá. Sau đó, bạn sẽ học cách xác định và tránh sự thiên vị trong dữ liệu cũng như cách nắm lấy uy tín, tính chính trực và đạo đức. Cuộc phiêu lưu dữ liệu tiến về phía trước. Tôi rất vui vì bạn đang di chuyển với nó!''
  • 162. Tuần 2: Xu hướng, độ tin cậy, quyền riêng tư, đạo đức và quyền truy cập Khi các nhà phân tích dữ liệu làm việc với dữ liệu, họ luôn kiểm tra xem dữ liệu có khách quan và đáng tin cậy hay không. Trong phần này của khóa học, bạn sẽ học cách xác định các loại sai lệch khác nhau trong dữ liệu và cách đảm bảo độ tin cậy trong dữ liệu của bạn. Bạn cũng sẽ khám phá dữ liệu mở và mối quan hệ giữa và tầm quan trọng của đạo đức dữ liệu và quyền riêng tư dữ liệu. Mục tiêu học tập:  Giải thích những gì liên quan đến việc xem xét dữ liệu để xác định sai lệch  Thảo luận về sự khác biệt giữa dữ liệu thiên vị và không thiên vị  Xác định các loại sai lệch khác nhau bao gồm xác nhận, diễn giải và sai lệch của người quan sát  Thảo luận về đặc điểm của các nguồn dữ liệu đáng tin cậy bao gồm tham chiếu đến dữ liệu lộn xộn  Giải thích khái niệm về dữ liệu mở với tham chiếu đến cuộc tranh luận đang diễn ra trong phân tích dữ liệu  Xác định đạo đức dữ liệu và quyền riêng tư dữ liệu  Giải thích mối quan hệ giữa đạo đức dữ liệu và quyền riêng tư dữ liệu  Thể hiện sự hiểu biết về lợi ích của việc ẩn danh dữ liệu  Thể hiện nhận thức về các vấn đề về khả năng truy cập liên quan đến dữ liệu mở Chương 1: Dữ liệu khách quan và không thiên vị Đảm bảo tính toàn vẹn của dữ liệu Chào mừng trở lại. Trong một khóa học trước, chúng tôi đã nói về cách chuẩn bị dữ liệu theo cách giúp bạn kể một câu chuyện có ý nghĩa. Bây giờ chúng ta hãy tìm hiểu những gì tiếp theo. Giống như tất cả các câu chuyện hay, câu chuyện dữ liệu của bạn sẽ chứa đầy các nhân vật, câu hỏi, thử thách, xung đột và hy vọng là một giải pháp. Bí quyết là tránh xung đột, vượt qua các thử thách và trả lời các câu hỏi. Đó là tất cả những gì về khóa học này. Đây là cách chúng tôi sẽ làm điều đó. Đầu tiên, bạn sẽ học cách phân tích dữ liệu về sự thiên vị và độ tin cậy. Điều này rất quan trọng vì ngay cả những dữ liệu tốt nhất cũng có thể bị sai lệch hoặc hiểu sai. Sau đó, chúng ta sẽ tìm hiểu về tầm quan trọng của việc tốt và xấu. Đúng, giống như khi chúng ta còn nhỏ. Nhưng trong trường hợp này, chúng ta sẽ khám phá các nguồn dữ liệu
  • 163. tốt và học cách tránh xa kẻ thù không đội trời chung, dữ liệu xấu. Sau đó, chúng ta sẽ tìm hiểu thêm về thế giới của đạo đức dữ liệu, quyền riêng tư và quyền truy cập. Khi ngày càng có nhiều dữ liệu và các thuật toán chúng tôi tạo để sử dụng dữ liệu này trở nên phức tạp và phức tạp hơn, các vấn đề mới sẽ tiếp tục xuất hiện. Chúng ta cần đặt câu hỏi như, ai sở hữu tất cả dữ liệu này? Chúng ta có bao nhiêu quyền kiểm soát đối với quyền riêng tư của dữ liệu? Chúng tôi có thể sử dụng và tái sử dụng dữ liệu theo cách chúng tôi muốn không? Là một nhà phân tích dữ liệu, điều quan trọng là phải hiểu đạo đức dữ liệu và quyền riêng tư vì trong công việc của mình, bạn sẽ đưa ra nhiều phán đoán về việc sử dụng và ứng dụng dữ liệu đúng cách. Tôi rất vui được hướng dẫn bạn một số câu hỏi, câu trả lời, rủi ro và phần thưởng liên quan. Hãy mở ra chương đầu tiên của câu chuyện dữ liệu này trong video tiếp theo của chúng tôi. Thiên kiến: Từ câu hỏi đến kết luận Hãy bắt đầu mọi thứ bằng cách du hành ngược thời gian, ít nhất là trong tâm trí của chúng ta. Cỗ máy thời gian thực của tôi ở trong cửa hàng. Hãy tưởng tượng bạn đang học cấp hai và tham gia một dự án cho hội chợ khoa học. Bạn đã làm việc chăm chỉ trong nhiều tuần để hoàn thiện mọi yếu tố và họ sắp công bố người chiến thắng. Bạn nhắm mắt lại, hít một hơi thật sâu và bạn nghe thấy họ gọi tên bạn cho vị trí thứ hai. Đáng tiếc, bạn thực sự muốn chiếc cúp hạng nhất đó, nhưng này, bạn sẽ nhận dải băng để được công nhận. Ngày hôm sau, bạn biết được thẩm phán là chú của người chiến thắng. Thế nào là công bằng!? Anh ấy có thể thực sự được mong đợi để chọn người chiến thắng một cách công bằng khi thành viên gia đình của anh ấy là một trong những thí sinh? Anh ấy có lẽ thiên vị! Có thể cháu gái của ông xứng đáng giành chiến thắng và có thể không. Nhưng vấn đề là: rất dễ tạo ra trường hợp thiên vị trong tình huống đó. Đây là một ví dụ siêu đơn giản, nhưng sự thật là chúng ta luôn gặp phải sự thiên vị trong cuộc sống hàng ngày. Bộ não của chúng ta được thiết kế về mặt sinh học để hợp lý hóa suy nghĩ và đưa ra những phán đoán nhanh chóng. Bias is a preference in favor of or against a person, group of people, or thing ( Thiên kiến là sự thiên vị có ý thức hoặc tiềm thức ủng hộ hoặc chống lại một người, một nhóm người hoặc một sự vật). Nó có thể có ý thức hoặc tiềm thức. Tin tốt là một khi chúng ta biết và chấp nhận rằng mình có thành kiến, chúng ta có thể bắt đầu nhận ra lối suy nghĩ của chính mình và học cách quản lý nó. Điều quan trọng cần biết là sự thiên vị cũng có thể xâm nhập vào thế giới dữ liệu. Data bias is A type of error that systematically skews results in a certain direction (Thiên kiến dữ liệu là Khi sở thích ủng hộ hoặc chống lại một người, một nhóm người hoặc một sự vật có hệ thống làm sai lệch kết quả phân tích dữ liệu theo một hướng nhất định).
  • 164. Có thể các câu hỏi trong một cuộc khảo sát có khuynh hướng cụ thể ảnh hưởng đến câu trả lời hoặc có thể nhóm mẫu không thực sự đại diện cho dân số đang được nghiên cứu. Ví dụ: nếu bạn định lấy độ tuổi trung bình của dân số bệnh nhân Hoa Kỳ có bảo hiểm y tế, thì bạn sẽ không chỉ sử dụng một mẫu bệnh nhân Medicare từ 65 tuổi trở lên. Xu hướng cũng có thể xảy ra nếu một nhóm mẫu thiếu tính toàn diện. Ví dụ, người khuyết tật có xu hướng ít được xác định, ít được đại diện hoặc bị loại trừ trong nghiên cứu sức khỏe chính thống. Cách bạn thu thập dữ liệu cũng có thể làm sai lệch một tập dữ liệu. Ví dụ: nếu bạn chỉ cho mọi người một khoảng thời gian ngắn để trả lời các câu hỏi, họ sẽ vội vàng trả lời. Khi vội vã, chúng ta mắc nhiều lỗi hơn, điều này có thể ảnh hưởng đến chất lượng dữ liệu của chúng ta và tạo ra kết quả sai lệch. Là một nhà phân tích dữ liệu, bạn phải suy nghĩ về sự thiên vị và công bằng từ thời điểm bạn bắt đầu thu thập dữ liệu cho đến khi bạn đưa ra kết luận của mình. Xét cho cùng, những kết luận đó có thể có những tác động nghiêm trọng. Hãy nghĩ về điều này: người ta thừa nhận rằng các nghiên cứu lâm sàng về sức khỏe tim mạch có xu hướng bao gồm nhiều nam giới hơn nữ giới. Điều này đã dẫn đến việc phụ nữ không nhận ra các triệu chứng và cuối cùng là bệnh tim của họ không được phát hiện và điều trị. Đó chỉ là một cách thiên vị có thể có tác động rất thực tế. Mặc dù chúng ta đã đi một chặng đường dài trong việc nhận ra sự thiên vị, nhưng điều đó vẫn dẫn đến việc bạn thua cháu gái của giám khảo tại cuộc thi khoa học đó. Nó vẫn đang ảnh hưởng đến các quyết định kinh doanh, lựa chọn và tiếp cận chăm sóc sức khỏe, hành động của chính phủ, v.v. Vì vậy, chúng tôi vẫn còn có việc phải làm. Sắp tới, chúng tôi sẽ chỉ cho bạn cách xác định xu hướng trong chính dữ liệu và khám phá một số tình huống khi bạn thực sự có thể hưởng lợi từ nó. Dữ liệu thiên vị và không thiên vị Xin chào lần nữa. Cho đến nay, chúng ta đã biết rằng những thành kiến mà chúng ta có với tư cách là mọi người cuối cùng có thể tạo ra những dữ liệu thiên vị, chúng ta thiên vị khi chúng ta có những sở thích dựa trên những quan niệm định sẵn hoặc thậm chí là trong tiềm thức của chính chúng ta. Khi dữ liệu bị sai lệch, nó có thể làm lệch kết quả theo một hướng nhất định một cách có hệ thống, khiến chúng không đáng tin cậy. Chúng tôi đã đề cập đến vấn đề này sớm hơn bằng cách sử dụng sai lệch lấy mẫu làm ví dụ. Sampling bias is When a sample isn’t representative of the population as a whole ( Thiên kiến lấy mẫu là Đại diện quá mức hoặc không đại diện cho một số thành viên nhất định của tập hợp do kết quả của việc làm việc với một mẫu không đại diện cho toàn bộ tập hợp). Bạn có thể tránh điều này bằng cách đảm bảo rằng mẫu được chọn ngẫu nhiên để tất cả các bộ phận dân số đều có cơ hội được đưa vào như nhau.
  • 165. Nếu bạn không sử dụng lấy mẫu ngẫu nhiên trong quá trình thu thập dữ liệu, thì cuối cùng bạn sẽ chọn một kết quả. Đây là một cách đơn giản để xem xét nó. Giả sử có 50 học sinh trong một lớp và bạn muốn biết phần lớn học sinh trong lớp thích thời tiết ấm hay lạnh. bạn quyết định khảo sát 10 sinh viên đầu tiên bạn gặp và dựa trên câu trả lời của họ, bạn xác định rằng cả lớp thích thời tiết ấm áp hơn. Nhưng chờ đã, có một số sai lệch ở đó. 10 người đầu tiên đó đều là phụ nữ, vì vậy chỉ có phụ nữ được đưa vào cuộc khảo sát của bạn. Cuộc khảo sát của bạn không phải là đại diện hợp lý cho toàn bộ lớp vì nó không bao gồm các số nhận dạng khác trên phạm vi giới tính. Nếu bạn sử dụng một mẫu dân số ngẫu nhiên hơn bao gồm tất cả các giới tính, thì bạn sẽ có một mẫu không thiên vị. Unbiased sampling is When a sample is representative of the population being measured (Lấy mẫu không thiên kiến là Khi mẫu của tập hợp được đo lường là đại diện cho toàn bộ tập thể). Một cách tuyệt vời khác để khám phá xem bạn có đang làm việc với dữ liệu khách quan hay không là làm cho kết quả trở nên sống động bằng hình ảnh hóa. Trong ví dụ về lớp học mà chúng tôi vừa trình bày, bạn có thể hình dung tổng số học sinh trong lớp và nhận dạng giới tính của họ bằng biểu đồ thanh. Sau đó, bạn có thể so sánh biểu đồ đó với một biểu đồ thanh tương tự hiển thị các sinh viên mà bạn đã khảo sát. Điều này sẽ giúp bạn dễ dàng xác định bất kỳ sai lệch nào với mẫu của bạn. Được rồi, bây giờ chúng ta đã biết thiên vị trông như thế nào từ góc độ lấy mẫu, hãy khám phá một số loại thiên vị khác và cách nhận ra chúng. Hiểu về sự thiên vị trong dữ liệu Tôi có thể thiên vị, nhưng tôi nghĩ việc tìm hiểu về những đặc điểm tốt và xấu của dữ liệu là điều khá thú vị. Tiếp theo, chúng ta sẽ khám phá ra rằng có rất nhiều loại sai lệch dữ liệu khác nhau, ngoài sai lệch lấy mẫu mà chúng ta đã đề cập trước đó. Nhắc lại nhanh, thiên kiến lấy mẫu là khi một mẫu không đại diện cho toàn bộ dân số. Ví dụ: nếu bạn đang nghiên cứu về hành khách và chỉ khảo sát những người đi bộ trên vỉa hè, thì bạn sẽ bỏ lỡ thông tin đầu vào từ những người đi xe đạp, lái xe hoặc đi tàu điện ngầm. Bạn cần tất cả các khía cạnh của câu chuyện để tránh sai lệch lấy mẫu. Trong video này, chúng ta sẽ khám phá thêm ba loại sai lệch dữ liệu:  Thiên kiến quan sát  Thiên kiến lý giải  sai lệch xác nhận đồng thời chúng ta sẽ tìm hiểu cách tránh chúng. Observer bias is The tendency for different people to observe things differently ( Thiên kiến quan sát là xu hướng những người khác nhau quan sát mọi thứ khác nhau). Về cơ bản, đó là xu hướng quan sát mọi thứ khác nhau của những người khác nhau. Bạn có thể nhớ trước
  • 166. đó, chúng tôi đã biết rằng các nhà khoa học sử dụng các quan sát rất nhiều trong công việc của họ, chẳng hạn như khi họ quan sát vi khuẩn dưới kính hiển vi để thu thập dữ liệu. Trong khi hai nhà khoa học nhìn vào cùng một kính hiển vi có thể thấy những thứ khác nhau, thì đó là sự thiên vị của người quan sát. Một lần khác, sự sai lệch của người quan sát có thể xảy ra là khi đo huyết áp bằng tay. Vì đồng hồ đo áp suất rất nhạy nên nhân viên y tế thường nhận được các kết quả khá khác nhau. Thông thường, họ sẽ chỉ làm tròn đến số nguyên gần nhất để bù cho sai số. Nhưng nếu các bác sĩ liên tục làm tròn hoặc giảm chỉ số huyết áp của bệnh nhân, tình trạng sức khỏe có thể bị bỏ sót và bất kỳ nghiên cứu nào liên quan đến bệnh nhân của họ sẽ không có dữ liệu chính xác và chính xác. Một loại sai lệch dữ liệu phổ biến khác là thiên kiến lý giải. Interpretation bias is The tendency to always interpret ambiguous situations in a positive or negative way ( Thiên kiến lý giải là xu hướng giải thích các tình huống mơ hồ theo hướng tích cực hoặc tiêu cực). Đây là một ví dụ. Giả sử bạn đang ăn trưa với một đồng nghiệp thì bạn nhận được thư thoại từ sếp yêu cầu bạn gọi lại cho cô ấy. Bạn tức giận đặt điện thoại xuống, chắc chắn rằng cô ấy đang tức giận và bạn đang ngồi trên ghế nóng vì điều gì đó. Nhưng khi bạn phát tin nhắn cho bạn mình, anh ấy không nghe thấy tức giận chút nào, anh ấy thực sự nghĩ rằng cô ấy nghe có vẻ bình tĩnh và thẳng thắn. Xu hướng diễn giải, có thể dẫn đến việc hai người nhìn hoặc nghe chính xác cùng một thứ và diễn giải nó theo nhiều cách khác nhau, bởi vì họ có nền tảng và kinh nghiệm khác nhau. Lịch sử của bạn với sếp của bạn khiến bạn diễn giải cuộc gọi theo cách này, trong khi bạn của bạn diễn giải nó theo cách khác, bởi vì họ là những người xa lạ. Thêm những diễn giải này vào phân tích dữ liệu và bạn có thể nhận được kết quả sai lệch. Loại thành kiến cuối cùng mà chúng tôi sẽ đề cập, làm tôi nhớ đến câu nói, mọi người nhìn thấy những gì họ muốn thấy. Loại thành kiến cuối cùng mà chúng tôi sẽ đề cập, làm tôi nhớ đến câu nói, mọi người nhìn thấy những gì họ muốn thấy. Tóm lại, điều đó tổng hợp khá nhiều thành kiến xác nhận. Confirmation bias is The tendency to search for or interpret information in a way that confirms pre- existing beliefs (Thiên kiến xác nhận là Xu hướng giải thích hoặc tìm kiếm thông tin theo cách xác nhận những niềm tin đã có từ trước). Ai đó có thể quá háo hức để xác nhận cảm giác ruột thịt, đến nỗi họ chỉ chú ý đến những thứ hỗ trợ nó, bỏ qua tất cả các tín hiệu khác. Điều này xảy ra mọi lúc trong cuộc sống hàng ngày. Chúng tôi có thể lấy tin tức của mình từ một trang web nhất định vì những người viết chia sẻ niềm tin của chúng tôi hoặc chúng tôi giao tiếp với mọi người vì chúng tôi biết rằng họ có cùng quan điểm. Rốt cuộc, những quan điểm trái ngược nhau có thể khiến chúng ta đặt câu hỏi về thế giới quan của mình, điều này có thể khiến chúng ta thay đổi toàn bộ hệ thống niềm tin của mình, và hãy đối mặt với điều đó, thay đổi là điều khó khăn. Nhưng bạn
  • 167. biết những gì thậm chí còn khó khăn hơn? Làm tốt công việc khi bạn có dữ liệu xấu, vì vậy điều quan trọng là tránh thiên vị. Types of data bias:  Sampling bias  Observer bias  Interpretation bias  Confirmation bias nhưng chúng có một điểm chung. Chúng đều ảnh hưởng đến cách chúng tôi thu thập và hiểu ý nghĩa của dữ liệu. Thật không may, chúng cũng chỉ là một ví dụ nhỏ, nhằm mục đích chơi chữ, về các loại thành kiến mà bạn có thể gặp phải trong sự nghiệp của mình với tư cách là một nhà phân tích dữ liệu. Nhưng tin tốt là, một khi bạn biết một vài điều, bạn sẽ thấy mình thường xuyên cảnh giác với sự thiên vị dưới mọi hình thức. Điều quan trọng cần nhớ là bất kể bạn sử dụng loại dữ liệu nào, tất cả dữ liệu đó đều cần được kiểm tra về độ chính xác và độ tin cậy. Chúng ta sẽ sớm nói thêm về điều đó khi chúng ta bắt đầu khám phá dữ liệu xấu. Tạm biệt bây giờ.
  • 168. Chương 2: Khám phá độ tin cậy của dữ liệu Xác định nguồn dữ liệu tốt Này, cái gì tốt!? Không, thực sự, tôi muốn biết: Điều gì là tốt? Hãy để tôi đặt nó theo cách này. Nếu tôi yêu cầu bạn đặt tên cho một bài hát hay, tôi có thể không thích nó. Đó là bởi vì tốt là chủ quan. Điều tôi nghĩ là tốt và điều bạn nghĩ là tốt có thể khác nhau. Vậy còn những nguồn dữ liệu tốt thì sao? Đó có phải là chủ quan không? Theo một số cách, chúng đúng như vậy, nhưng may mắn thay, có một số phương pháp hay nhất để làm theo sẽ giúp bạn đo lường độ tin cậy của tập dữ liệu trước khi sử dụng chúng. Đó là những gì chúng ta sẽ thảo luận trong video này. Tôi nghĩ tất cả chúng ta đều có thể đồng ý rằng tất cả chúng ta đều muốn có dữ liệu tốt. Càng có nhiều dữ liệu chất lượng cao, chúng ta càng có thể tự tin hơn trong các quyết định của mình. Hãy tìm hiểu cách chúng ta có thể tìm và xác định các nguồn dữ liệu tốt. Trước tiên, chúng ta cần học cách xác định chúng. Một quy trình mà tôi muốn gọi là ROCCC, R-O-C-C-C. Được rồi. Tôi chỉ nghĩ ra điều đó, nhưng tôi nghĩ các từ viết tắt là một cách thực sự tuyệt vời để giúp thông tin mới ghi nhớ trong não. Bắt đầu mọi thứ là R cho đáng tin cậy. Giống như một người bạn tốt, nguồn dữ liệu tốt là đáng tin cậy. Với dữ liệu này, bạn có thể tin tưởng rằng mình đang nhận được thông tin chính xác, đầy đủ và không thiên vị đã được kiểm tra và chứng minh là phù hợp để sử dụng. Được rồi. On to O. O là dành cho nguyên bản. Rất có thể bạn sẽ khám phá dữ liệu thông qua nguồn của bên thứ hai hoặc bên thứ ba. Để đảm bảo bạn đang xử lý dữ liệu tốt, hãy đảm bảo xác thực dữ liệu đó với nguồn ban đầu. Thời gian cho C. C đầu tiên là toàn diện. Các nguồn dữ liệu tốt nhất chứa tất cả thông tin quan trọng cần thiết để trả lời câu hỏi hoặc tìm ra giải pháp. Hãy suy nghĩ về nó như thế này. Bạn sẽ không muốn làm việc cho một công ty chỉ vì bạn tìm thấy một đánh giá trực tuyến tuyệt vời về nó. Bạn sẽ nghiên cứu mọi khía cạnh của tổ chức để đảm bảo rằng nó phù hợp. Điều quan trọng là phải làm như vậy để phân tích dữ liệu của bạn. C tiếp theo là cho hiện tại. Tính hữu ích của dữ liệu giảm dần khi thời gian trôi qua. Nếu bạn muốn mời tất cả khách hàng hiện tại tham dự một sự kiện kinh doanh, bạn sẽ không sử dụng danh sách khách hàng 10 năm tuổi. Đối với dữ liệu cũng vậy. Các nguồn dữ liệu tốt nhất là hiện tại và có liên quan đến nhiệm vụ hiện tại. Chữ C cuối cùng là dành cho trích dẫn. Nếu bạn đã từng nói với một người bạn rằng bạn nghe nói rằng phần tiếp theo của bộ phim mới đang được thực hiện, thì bạn đã trích dẫn một nguồn. Trích dẫn làm cho thông tin bạn cung cấp đáng tin cậy hơn. Khi bạn chọn một nguồn dữ liệu, hãy nghĩ về ba điều. Ai đã tạo ra tập dữ liệu? Nó có phải là một phần của một tổ chức đáng tin cậy không? Dữ liệu được làm mới lần cuối khi nào?
  • 169. Nếu bạn có dữ liệu gốc từ một tổ chức đáng tin cậy và dữ liệu đó toàn diện, cập nhật và được trích dẫn, thì đó là ROCCC! Có rất nhiều nơi nổi tiếng là có dữ liệu tốt. Đặt cược tốt nhất của bạn là sử dụng các bộ dữ liệu công khai đã được kiểm duyệt, các bài báo học thuật, dữ liệu tài chính và dữ liệu của cơ quan chính phủ. Bây giờ bạn đã biết cách phát hiện dữ liệu tốt, ROCCC nào, bạn đã sẵn sàng tìm hiểu về hàng núi dữ liệu xấu và cách tránh nó. Chúng ta hãy di chuyển. Dữ liệu "xấu" là gì? Chào mừng trở lại. Lần trước chúng ta gặp nhau, chúng ta đã học cách xác định và tìm nguồn dữ liệu tốt. Một quá trình mà tôi đã tạo ra ROCCC. Chúng tôi nhận thấy rằng nếu bộ dữ liệu đáng tin cậy, nguyên bản, toàn diện, cập nhật và được trích dẫn, thì đó là ROCCC (hoặc nghiêm túc hơn: nó tốt). Hy vọng rằng điều này được làm mới bộ nhớ của bạn. Bây giờ là lúc rút ra những gì chúng ta đã học về dữ liệu tốt và áp dụng nó vào bài học hôm nay: các nguồn dữ liệu xấu không được ROCCC. Chúng không đáng tin cậy, nguyên bản, toàn diện, cập nhật hoặc được trích dẫn. Tệ hơn nữa, chúng có thể hoàn toàn sai hoặc chứa đầy lỗi của con người. Chúng ta sẽ bắt đầu lại với R. R không đáng tin cậy. Dữ liệu xấu không thể tin cậy được vì nó không chính xác, không đầy đủ hoặc sai lệch. Đây có thể là dữ liệu có xu hướng lựa chọn mẫu vì nó không phản ánh toàn bộ dân số. Hoặc nó có thể là trực quan hóa dữ liệu và đồ thị gây hiểu lầm.
  • 170. Ví dụ, hãy xem 2 biểu đồ thanh này. Cái bên trái sử dụng điểm bắt đầu trục y là 3,14%. Và cái bên phải sử dụng 0. Điều này làm cho có vẻ như lãi suất đã tăng vọt trong khoảng thời gian 4 năm trong khi chúng thực sự vẫn khá ổn định. Được rồi, vào O. O không phải là nguyên bản. Nếu bạn không thể định vị nguồn dữ liệu gốc và bạn chỉ đang dựa vào thông tin của bên thứ hai hoặc bên thứ ba, điều đó có thể báo hiệu rằng bạn có thể cần phải hết sức cẩn thận khi hiểu dữ liệu của mình. Bây giờ, C là không toàn diện. Nguồn dữ liệu xấu đang thiếu thông tin quan trọng cần thiết để trả lời câu hỏi hoặc tìm giải pháp. Tệ hơn nữa, chúng cũng có thể chứa lỗi của con người. C tiếp theo là không hiện tại. Nguồn dữ liệu xấu đã lỗi thời và không liên quan. Nhiều nguồn uy tín làm mới dữ liệu của họ thường xuyên, giúp bạn tin tưởng rằng đó là thông tin mới nhất hiện có. Ví dụ: bạn luôn có thể tin tưởng Data.gov, nơi lưu trữ dữ liệu mở của chính phủ Hoa Kỳ. C cuối cùng là không được trích dẫn. Nếu nguồn của bạn chưa được trích dẫn hoặc hiệu đính, thì đó là điều không nên. Vì vậy, tóm lại, dữ liệu tốt phải là dữ liệu gốc từ một tổ chức đáng tin cậy, toàn diện, cập nhật và được trích dẫn. Nó nên ROCCC! Nếu không, đó là dữ liệu xấu. Nếu bạn cần một nguồn dữ liệu đáng tin cậy, hãy xem Cục điều tra dân số Hoa Kỳ, nơi thường xuyên cập nhật thông tin của họ. Điều quan trọng đối với các nhà phân tích dữ liệu là phải hiểu và theo dõi dữ liệu xấu vì nó có thể gây ra những tác động nghiêm trọng và lâu dài. Cho dù đó là một kết luận không chính xác dẫn đến một quyết định kinh doanh tồi tệ hay
  • 171. thông tin không chính xác khiến các quy trình bị lỗi và khiến mọi người gặp rủi ro, mọi giải pháp tốt đều được tìm ra bằng cách tránh dữ liệu xấu. Để có dữ liệu tốt, hãy gắn bó với các bộ dữ liệu công cộng đã được kiểm duyệt, các bài báo học thuật, dữ liệu tài chính và dữ liệu của cơ quan chính phủ. Và với điều đó, chúng tôi đã đi đến cuối cuộc phiêu lưu của mình với sự thiên vị và sự tín nhiệm. Sau một vài bài tập nữa, bạn sẽ sẵn sàng cho những gì ở phía trước. Tôi mong chờ sự tiến bộ của bạn.
  • 172. Chương 3: Đạo đức dữ liệu và quyền riêng tư Giới thiệu về đạo đức dữ liệu Xin chào một lần nữa, cho tôi hỏi bạn một cái gì đó. Điều gì đến với tâm trí của bạn khi bạn nghĩ về từ, đạo đức? Đối với tôi, đó là một tập hợp các nguyên tắc để sống theo. Hầu hết mọi người đều có một quy tắc đạo đức cá nhân giúp họ điều hướng thế giới. Khi chúng ta còn trẻ, điều đó có thể đơn giản như không bao giờ nói dối, lừa dối hoặc ăn cắp, nhưng khi chúng ta già đi, đó là một danh sách rộng hơn nhiều về những điều nên làm và không nên làm. Đạo đức cá nhân của chúng ta phát triển và trở nên hợp lý hơn, cho chúng ta một la bàn đạo đức để sử dụng khi chúng ta đối mặt với các câu hỏi, thách thức và cơ hội trong cuộc sống. Khi chúng tôi phân tích dữ liệu, chúng tôi cũng phải đối mặt với các câu hỏi, thách thức và cơ hội, nhưng chúng tôi phải dựa vào nhiều thứ hơn là chỉ quy tắc đạo đức cá nhân của mình để giải quyết chúng. Như chúng ta đã biết trước đó, tất cả chúng ta đều có những thành kiến cá nhân của riêng mình, chưa kể những thành kiến trong tiềm thức khiến đạo đức thậm chí còn khó định hướng hơn. Đó là lý do tại sao chúng ta có đạo đức dữ liệu, một khía cạnh quan trọng của phân tích mà chúng ta sẽ khám phá ngay trong video này. Nhưng trước tiên, hãy quay trở lại ý tưởng chung về đạo đức. Trong khi một định nghĩa chính xác vẫn đang được thảo luận trong triết học, một quan điểm thực tế cho rằng đạo đức đề cập đến các tiêu chuẩn đúng và sai có cơ sở, quy định những gì con người phải làm, thường là về quyền, nghĩa vụ, lợi ích cho xã hội, sự công bằng hoặc đức tính cụ thể. Cũng giống như con người, dữ liệu cũng có các tiêu chuẩn để tuân theo. Data ethics is Well- founded standards of right and wrong that dictate how data is collected, shared, and used. (Đạo đức dữ liệu là Các tiêu chuẩn có cơ sở về đúng và sai quy định cách dữ liệu được thu thập, chia sẻ và ứng dụng). Vì khả năng thu thập, chia sẻ và sử dụng dữ liệu với số lượng lớn như vậy là tương đối mới nên các quy tắc điều chỉnh và chi phối quá trình này vẫn đang phát triển. Tầm quan trọng của quyền riêng tư dữ liệu đã được các chính phủ trên toàn thế giới công nhận và họ bắt đầu xây dựng luật bảo vệ dữ liệu để giúp bảo vệ mọi người và dữ liệu của họ. GDPA is General Data Protection Regulation of the European Union (GDPA là Cơ quan hoạch định chính sách ở liên minh Châu Âu được thành lập để giúp bảo vệ con người và dữ liệu của họ). Trong khi các nhà hoạch định chính sách tiếp tục công việc của họ, các công ty như Google có trách nhiệm dẫn đầu nỗ lực và sẽ làm như vậy với tinh thần giống như chúng tôi luôn có bằng cách cung cấp các sản phẩm biến quyền riêng tư thành hiện thực cho mọi người. Khái niệm về đạo đức dữ liệu và các vấn đề liên quan đến tính minh bạch và quyền riêng tư là một phần của quy trình. Đạo đức dữ liệu cố gắng tìm hiểu gốc rễ trách nhiệm giải
  • 173. trình của các công ty trong việc bảo vệ và sử dụng có trách nhiệm dữ liệu họ thu thập. Có rất nhiều khía cạnh khác nhau của đạo đức dữ liệu nhưng chúng tôi sẽ đề cập đến sáu khía cạnh: quyền sở hữu, tính minh bạch của giao dịch, sự đồng ý, tiền tệ, quyền riêng tư và tính mở. Chúng ta sẽ khám phá tính riêng tư và tính mở của dữ liệu sau. Đầu tiên là quyền sở hữu. Điều này trả lời câu hỏi ai sở hữu dữ liệu? Không phải tổ chức đã đầu tư thời gian và tiền bạc để thu thập, lưu trữ, xử lý và phân tích nó. Ownership is Individuals own the raw thay provide and they have primary control over its usage, how it’s processed, and how it’s share ( Quyền sở hữu là Khía cạnh của đạo đức dữ liệu cho rằng các cá nhân sở hữu dữ liệu thô mà họ cung cấp và có quyền kiểm soát chính đối với việc sử dụng, xử lý và chia sẻ dữ liệu đó). Tiếp theo, chúng tôi có tính minh bạch trong giao dịch, transaction transparency is All data- processing activities and algorithms should be completely explainable and understood by the individual who provides their data ( Giao dịch minh bạch là Khía cạnh của đạo đức dữ liệu giả định tất cả các hoạt động và thuật toán xử lý dữ liệu phải được giải thích và hiểu bởi cá nhân cung cấp dữ liệu). Điều này nhằm giải quyết những lo ngại về sai lệch dữ liệu, mà chúng ta đã thảo luận trước đó, là một loại lỗi làm lệch kết quả một cách có hệ thống theo một hướng nhất định. Kết quả thiên vị có thể dẫn đến hậu quả tiêu cực. Để tránh chúng, bạn nên cung cấp phân tích minh bạch, đặc biệt là cho những người chia sẻ dữ liệu của họ. Điều này cho phép mọi người đánh giá liệu kết quả có công bằng và không thiên vị hay không và cho phép họ nêu lên những lo ngại tiềm ẩn. Bây giờ hãy nói về một khía cạnh khác của đạo đức dữ liệu, sự đồng ý. Consent is An individual’s right to know explicit details about how and why their data will be used before agreeing to provide it (Đồng ý là khía cạnh của đạo đức dữ liệu giả định quyền của một cá nhân được biết cách thức và lý do dữ liệu cá nhân của họ sẽ được sử dụng trước khi đồng ý cung cấp). Họ nên biết câu trả lời cho các câu hỏi như tại sao dữ liệu được thu thập? Nó sẽ được sử dụng như thế nào? Nó sẽ được lưu trữ trong bao lâu? Cách tốt nhất để đưa ra sự đồng ý có lẽ là một cuộc trò chuyện giữa người cung cấp dữ liệu và người yêu cầu. Nhưng với rất nhiều hoạt động diễn ra trực tuyến ngày nay, sự đồng ý thường chỉ giống như một hộp kiểm điều khoản và điều kiện với các liên kết đến thông tin chi tiết hơn. Hãy đối mặt với nó, không phải ai cũng nhấp qua để đọc những chi tiết đó. Sự đồng ý rất quan trọng vì nó ngăn chặn tất cả các nhóm dân số bị nhắm mục tiêu không công bằng, đây là một vấn đề rất lớn đối với các nhóm bị thiệt thòi, những người thường bị dữ liệu sai lệch trình bày sai một cách không cân xứng. Kế đến là tiền tệ. Currency is Individuals should be aware of financial transactions resulting from the use of their personal data the scale of these transactions. (Tiền tệ là khía
  • 174. cạnh đạo đức dữ liệu cho rằng các cá nhân nên nhận thức được các giao dịch tài chính do sử dụng dữ liệu cá nhân của họ và quy mô của các giao dịch đó). Các cá nhân nên biết về các giao dịch tài chính phát sinh từ việc sử dụng dữ liệu cá nhân của họ và quy mô của các giao dịch này. Nếu dữ liệu của bạn đang giúp tài trợ cho các nỗ lực của công ty, thì bạn nên biết những nỗ lực đó là gì và có cơ hội từ chối. Hai khía cạnh cuối cùng của đạo đức dữ liệu, quyền riêng tư và tính mở, xứng đáng được chú ý riêng trong giai đoạn dữ liệu này. Sắp tới, bạn sẽ thấy tại sao. Giới thiệu về quyền riêng tư dữ liệu Chúng tôi đã khám phá một số khía cạnh quan trọng của đạo đức dữ liệu và một trong những lĩnh vực cá nhân nhất liên quan đến quyền riêng tư. Quyền riêng tư là của cá nhân. Tất cả chúng ta có thể định nghĩa quyền riêng tư theo cách riêng của mình và tất cả chúng ta đều có quyền với điều đó. Cho dù đó là các thành viên trong gia đình muốn có sự riêng tư khi sử dụng máy tính dùng chung, một thanh thiếu niên muốn chia sẻ ảnh tự sướng chỉ với những người cụ thể hay một công ty muốn bảo mật thông tin thẻ tín dụng của khách hàng, tất cả chúng ta đều quan tâm đến cách dữ liệu của chúng ta được sử dụng và chia sẻ . Quyền riêng tư dữ liệu rất quan trọng trong nền văn hóa ngày nay, vì vậy hãy khám phá nó một cách đầy đủ. Privacy is Preserving a data subject’s information and activity any time a data transaction occurs ( Quyền riêng tư có nghĩa là bảo toàn thông tin và hoạt động của chủ thể dữ liệu bất kỳ khi nào xảy ra giao dịch dữ liệu). Điều này đôi khi được gọi là bảo mật thông tin hoặc bảo vệ dữ liệu. Đó là tất cả về truy cập, sử dụng và thu thập dữ liệu. Nó cũng bao gồm quyền hợp pháp của một người đối với dữ liệu của họ. Điều này có nghĩa là những người như bạn hoặc tôi phải được bảo vệ khỏi truy cập trái phép vào dữ liệu riêng tư của chúng tôi, không bị sử dụng dữ liệu của chúng tôi một cách không phù hợp, quyền kiểm tra, cập nhật hoặc chỉnh sửa dữ liệu của chúng tôi, khả năng đồng ý sử dụng dữ liệu của chúng tôi và quyền hợp pháp để truy cập dữ liệu của chúng tôi. Đối với các công ty, điều đó có nghĩa là áp dụng các biện pháp bảo mật để bảo vệ dữ liệu của các cá nhân. Quyền riêng tư về dữ liệu rất quan trọng, ngay cả khi bạn không phải là người nghĩ về nó hàng ngày. Tầm quan trọng của quyền riêng tư dữ liệu đã được các chính phủ trên toàn thế giới công nhận và họ đã bắt đầu xây dựng luật bảo vệ dữ liệu để giúp bảo vệ mọi người và dữ liệu của họ. Có thể tin tưởng các công ty với dữ liệu của bạn là rất quan trọng. Đó là điều khiến mọi người muốn sử dụng sản phẩm của công ty, chia sẻ thông tin của họ, v.v. Niềm tin là một trách nhiệm thực sự lớn không thể xem nhẹ. Khía cạnh cuối cùng liên quan đến đạo đức dữ liệu là một khía cạnh liên tục được thảo luận. Ý tưởng về sự cởi mở, truy cập miễn phí, sử dụng và chia sẻ dữ liệu. Chúng tôi sẽ đề cập đến điều đó trong một video khác. Bạn đang trên đường trở thành một nhà phân tích dữ liệu có đạo đức.
  • 175. Andrew: Việc sử dụng dữ liệu có đạo đức
  • 176. Chương 2: Hiểu dữ liệu mở Đặc điểm của dữ liệu mở Có một cái gì đó rất tự do về việc có thể tìm thấy thông tin về bất kỳ chủ đề nào trên Internet. Không thể nhớ dòng thứ 3 của bài hát thời thơ ấu yêu thích của bạn, tò mò xem ai là người chạy về nhà nhiều nhất vào năm 1986, muốn tự học ngôn ngữ ký hiệu? Chỉ cần bật máy tính xách tay của bạn, gõ một số văn bản và gặp sự cố, bạn có những gì bạn cần. Nhiều nhóm nghĩ rằng chúng ta cũng nên có mức truy cập dữ liệu này. Thậm chí còn có một phong trào toàn cầu tin rằng tính mở của dữ liệu có thể biến đổi xã hội và cách các quyết định được đưa ra. Cho đến nay, chúng ta đã nói rất nhiều về sức mạnh của dữ liệu và tầm quan trọng của các mối quan tâm về đạo đức dữ liệu bao gồm quyền sở hữu, tính minh bạch của giao dịch, sự đồng ý, tiền tệ và quyền riêng tư. Bây giờ, hãy nói về sự cởi mở. Openness or open data is free access, usage, and sharing of data (Tính mở là khía cạnh của đạo đức dữ liệu thúc đẩy quyền truy cập, sử dụng và chia sẻ dữ liệu miễn phí). Đôi khi chúng tôi coi đây là dữ liệu mở, nhưng điều đó không có nghĩa là chúng tôi bỏ qua các khía cạnh khác của đạo đức dữ liệu mà chúng tôi đã đề cập. Chúng ta vẫn nên minh bạch, tôn trọng quyền riêng tư và đảm bảo rằng chúng ta có sự đồng ý đối với dữ liệu thuộc sở hữu của người khác. Điều này chỉ có nghĩa là chúng tôi có thể truy cập, sử dụng và chia sẻ dữ liệu đó nếu dữ liệu đó đáp ứng các tiêu chuẩn cao này. Ví dụ: có các tiêu chuẩn xung quanh tính khả dụng và quyền truy cập. Dữ liệu mở phải sẵn có như một tổng thể, tốt nhất là bằng cách tải xuống qua Internet ở dạng thuận tiện và có thể sửa đổi. Trang web data.gov là một ví dụ tuyệt vời. Bạn có thể tải xuống dữ liệu khoa học và nghiên cứu cho nhiều ngành ở các định dạng tệp đơn giản như bảng tính. Một tiêu chuẩn khác bao quanh việc tái sử dụng và phân phối lại. Dữ liệu mở phải được cung cấp theo các điều khoản cho phép tái sử dụng và phân phối lại bao gồm khả năng sử dụng nó với các bộ dữ liệu khác. Và lĩnh vực cuối cùng là sự tham gia toàn cầu. Mọi người phải có khả năng sử dụng, tái sử dụng và phân phối lại dữ liệu. Không nên có bất kỳ sự phân biệt đối xử nào đối với các lĩnh vực, con người hoặc nhóm. Không ai có thể đặt ra các hạn chế đối với dữ liệu như chỉ cung cấp dữ liệu đó để sử dụng trong một ngành cụ thể. Bây giờ chúng ta hãy nói thêm một chút về lý do tại sao dữ liệu mở lại là một điều tuyệt vời như vậy và nó có thể giúp bạn như thế nào với tư cách là một nhà phân tích dữ liệu. Một trong những lợi ích lớn nhất của dữ liệu mở là cơ sở dữ liệu đáng tin cậy có thể được sử dụng rộng rãi hơn. Quan trọng hơn, tất cả dữ liệu tốt đó có thể được tận dụng, chia sẻ và kết hợp với các dữ liệu khác. Chỉ cần tưởng tượng tác động sẽ có đối với sự hợp tác khoa học, tiến bộ nghiên cứu, năng lực phân tích và ra quyết định.
  • 177. Ví dụ, trong lĩnh vực sức khỏe con người, tính mở cho phép chúng ta truy cập và kết hợp các dữ liệu đa dạng để phát hiện bệnh ngày càng sớm hơn. Trong chính phủ, bạn có thể giúp quy trách nhiệm cho các nhà lãnh đạo và cung cấp quyền truy cập tốt hơn vào các dịch vụ cộng đồng. Các khả năng và lợi ích là gần như vô tận. Nhưng tất nhiên, mọi ý tưởng lớn đều có những thách thức của nó. Toàn bộ rất nhiều tài nguyên là cần thiết để thực hiện chuyển đổi công nghệ sang dữ liệu mở. Khả năng tương tác là chìa khóa thành công của dữ liệu mở. Data interoperability is the ability of data systems and services to openly connect and share data (Tương tác dữ liệu là khả năng tích hợp dữ liệu từ nhiều nguồn và là yếu tố chính dẫn đến thành công dữ liệu mở giữa các công ty và chính phủ). Ví dụ: khả năng tương tác dữ liệu rất quan trọng đối với các hệ thống thông tin chăm sóc sức khỏe, nơi nhiều tổ chức như bệnh viện, phòng khám, nhà thuốc và phòng thí nghiệm cần truy cập và chia sẻ dữ liệu để đảm bảo bệnh nhân nhận được dịch vụ chăm sóc mà họ cần. Đây là lý do tại sao bác sĩ của bạn có thể gửi đơn thuốc của bạn trực tiếp đến hiệu thuốc của bạn để mua. Họ có cơ sở dữ liệu tương thích cho phép họ chia sẻ thông tin. Nhưng loại khả năng tương tác này đòi hỏi rất nhiều sự hợp tác. Mặc dù có tiềm năng nghiêm trọng trong việc chia sẻ dữ liệu cởi mở, kịp thời, công bằng và đơn giản, nhưng tương lai của nó sẽ phụ thuộc vào cách giải quyết những thách thức lớn hơn một cách hiệu quả. Là một nhà phân tích dữ liệu, tôi nói càng sớm càng tốt. Nói về điều này, chúng ta sẽ nói nhiều hơn về dữ liệu mở và xem việc sử dụng nó trong thực tế trong một video sắp tới. Bây giờ bạn đã học tất cả về đạo đức dữ liệu, bạn có một số nguyên tắc quan trọng để hướng dẫn bạn trên hành trình dữ liệu của mình. Bất cứ khi nào bạn không chắc chắn về dữ liệu của mình, hãy nhớ những gì bạn đã học được ở đây. Những Con Đường Hạnh Phúc. Andrew: Các bước sử dụng dữ liệu có đạo đức Tên tôi là Andrew. Tôi là Người ủng hộ nhà phát triển cấp cao trong nhóm nghiên cứu đạo đức AI tại Google. Là một nhà phân tích, có khá nhiều điều bạn có thể làm khi đánh giá tập dữ liệu của mình để đảm bảo rằng bạn đang xem xét tập dữ liệu đó qua các lăng kính đạo đức khác nhau. Một trong số đó là tự phản ánh và hiểu những gì bạn đang làm và tác động của nó. Cách tốt nhất để thách thức điều đó là đặt câu hỏi chúng ta là ai. Chúng tôi, giống như, được rồi, chúng tôi trong nhóm này đang cố gắng xây dựng điều này bởi vì chúng tôi nghĩ rằng điều đó sẽ giúp cải thiện sản phẩm này hoặc điều đó sẽ giúp đưa ra các quyết định về những gì chúng tôi muốn làm tiếp theo. Hãy nghĩ về không chỉ những thứ ngồi bên cạnh bạn, mà còn nghĩ về những thứ được thể hiện trong tập dữ liệu này và những thứ không được trình bày trong tập dữ liệu này, sau đó sử dụng trực giác đó để tiếp tục đặt câu hỏi về tính toàn vẹn, chất lượng, đại diện có trong tập dữ liệu đó. Và sau đó, hãy nghĩ về những tác hại và rủi ro khác nhau liên quan đến công
  • 178. việc bạn đang làm. Ví dụ: nếu bạn nghĩ rằng bạn sẽ được lợi khi lưu giữ tập dữ liệu lâu hơn, thì bạn cũng có thể muốn hiểu rủi ro khi lưu giữ tập dữ liệu này là gì? Tác hại tiềm tàng có thể phát sinh nếu bạn tiếp tục xem tập dữ liệu và tiếp tục lưu trữ và tiếp tục truy xuất dữ liệu này là gì? Và hơn thế nữa, cũng hiểu quy trình chấp thuận như thế nào. Bạn có đang thông báo cho những người đó rằng bạn đang thu thập dữ liệu về cách dữ liệu sẽ được sử dụng không? Kênh truyền thông như thế nào? Đặt các lăng kính đạo đức khác nhau, thực hiện một cách tiếp cận nhiều sắc thái hơn đối với phân tích của bạn, nhận thức được tất cả các rủi ro và tác hại có thể phát sinh khi không chỉ phân tích tập dữ liệu mà còn trình bày tập dữ liệu của bạn. Cách bạn miêu tả các kết quả, cách chúng được sử dụng trong quá trình ra quyết định, cho dù bạn đang trình bày kết quả này với ban quản lý hay trình bày điều này với giám đốc điều hành hay trình bày điều này với nhiều đối tượng hơn. Tất cả những điều đó quan trọng trong việc sử dụng có trách nhiệm bộ dữ liệu. Nhưng với tư cách là nhà phân tích dữ liệu, bạn đứng ở điểm giao nhau giữa chính những người sẽ được hưởng lợi từ công nghệ đang được phát triển và những người trong tổ chức của bạn đang cố gắng đưa ra quyết định sáng suốt hơn về việc có nên tiếp tục với công nghệ hay không. Có thể cảm thấy như có rất nhiều trọng lượng ở đó, và có, nhưng nó cũng rất quan trọng, và nó nói lên mức độ tác động của công việc của bạn.
  • 179. Tuần 3: Cơ sở dữ liệu: Nơi dữ liệu tồn tại Khi bạn đang phân tích dữ liệu, bạn sẽ truy cập nhiều dữ liệu từ cơ sở dữ liệu. Đó là nơi dữ liệu tồn tại. Trong phần này của khóa học, bạn sẽ tìm hiểu tất cả về cơ sở dữ liệu, bao gồm cách truy cập và trích xuất, lọc và sắp xếp dữ liệu mà chúng chứa. Bạn cũng sẽ kiểm tra siêu dữ liệu để khám phá các loại khác nhau và cách các nhà phân tích sử dụng chúng. Mục tiêu học tập:  Mô tả cơ sở dữ liệu với các tham chiếu đến các chức năng và thành phần của chúng  Giải thích siêu dữ liệu vì nó liên quan đến cơ sở dữ liệu  Thảo luận về tầm quan trọng của siêu dữ liệu và cách siêu dữ liệu liên quan đến công việc của nhà phân tích dữ liệu  Thể hiện sự hiểu biết về các vấn đề và các bước liên quan đến việc truy cập dữ liệu từ nhiều nguồn  Giải thích việc sử dụng các bộ lọc và chức năng sắp xếp trong bảng tính  Thể hiện sự hiểu biết về cách sử dụng chức năng bảng tính để nhập và kiểm tra một tập hợp dữ liệu nhất định  Thể hiện sự hiểu biết về cách sử dụng các hàm SQL để trích xuất dữ liệu từ cơ sở dữ liệu Chương 1: Làm việc với cơ sở dữ liệu Tất cả về cơ sở dữ liệu Xin chào lần nữa. Cho đến giờ, bạn đã biết cách dữ liệu có thể được thu thập và phân tích để giải quyết tất cả các loại vấn đề. Bước tiếp theo, chúng ta sẽ tìm hiểu tất cả về cơ sở dữ liệu. Nhắc lại, cơ sở dữ liệu là một tập hợp dữ liệu được lưu trữ trong hệ thống máy tính, nhưng lưu trữ chỉ là bước khởi đầu. Bạn sẽ khám phá cách cơ sở dữ liệu có thể tìm thấy chính xác thông tin bạn cần cho phân tích của mình. Bạn cũng sẽ tìm hiểu cách sắp xếp dữ liệu để phóng to những gì bạn cần để tạo các báo cáo chuyên sâu và hơn thế nữa. Sau đó, chúng ta sẽ đi sâu hơn nữa, và ý tôi là thực sự, thực sự sâu sắc. Tôi đang nói về siêu dữ liệu. Chắc hẳn bạn đã từng nghe ai đó nói, ồ, thật là meta. Thông thường, họ đang nói về điều gì đó liên quan đến chính nó hoặc hoàn toàn tự nhận thức được. Ví dụ: nếu một nhân vật trong sách biết cô ấy đang ở trong sách, đó là meta. Nếu bạn làm phim tài liệu về làm phim tài liệu, đó cũng là meta. Và tại Google, tôi liên tục phân tích cách tôi phân tích dữ liệu. Đó chắc chắn là meta. Tôi làm điều đó để kiểm tra chất lượng công việc của mình để đảm bảo các phương pháp của tôi là công bằng. Và để chắc chắn rằng tôi đang chú ý đến bất kỳ thành kiến nào có thể ảnh hưởng đến kết quả.
  • 180. Là một nhà phân tích, bạn cũng nên làm điều này. Đôi khi chúng ta đến quá gần với dữ liệu của mình. Vì vậy, hãy lùi lại và tự hỏi liệu các quy trình của chúng ta có hợp lý hay không mới là điều quan trọng. Nhưng hãy sao lưu một chút và xác định siêu dữ liệu. Metadata is Data about data (Siêu dữ liệu là dữ liệu về dữ liệu). Giống như tôi đã nói: sâu sắc. Siêu dữ liệu cực kỳ quan trọng khi làm việc với cơ sở dữ liệu. Hãy nghĩ về nó giống như một hướng dẫn tham khảo. Nếu không có hướng dẫn, tất cả những gì bạn có là một đống dữ liệu không có ngữ cảnh giải thích ý nghĩa của nó. Siêu dữ liệu cho bạn biết dữ liệu đến từ đâu, khi nào và bằng cách nào dữ liệu được tạo cũng như nội dung của dữ liệu. Tiếp theo, bạn sẽ tìm hiểu cách lấy dữ liệu từ cơ sở dữ liệu hoặc nguồn khác và đưa dữ liệu đó vào bảng tính. Bạn sẽ làm điều này bằng cách nhập nó trực tiếp hoặc bằng cách sử dụng SQL để tạo yêu cầu. Và một khi bạn có dữ liệu trong bảng tính, khả năng là vô tận. Mọi thứ chúng tôi sắp trình bày là một phần rất quan trọng trong giai đoạn chuẩn bị của quy trình phân tích dữ liệu. Đó là cách các nhà phân tích dữ liệu tìm ra loại dữ liệu nào sẽ hữu ích nhất cho họ. Nếu bạn có dữ liệu phù hợp, bạn sẽ có nhiều khả năng giải quyết thành công các vấn đề kinh doanh của mình. Vì vậy, bạn đã sẵn sàng khai thác sức mạnh đáng kinh ngạc của cơ sở dữ liệu chưa? Đi nào! Tính năng cơ sở dữ liệu Cơ sở dữ liệu là công cụ cần thiết cho các nhà phân tích dữ liệu. Tôi sử dụng chúng liên tục. Gần như tất cả dữ liệu tôi truy cập được lưu trữ trong cơ sở dữ liệu. Cơ sở dữ liệu lưu trữ và sắp xếp dữ liệu, giúp các nhà phân tích dữ liệu quản lý và truy cập thông tin dễ dàng hơn nhiều. Chúng giúp chúng tôi hiểu rõ hơn nhanh hơn, đưa ra quyết định dựa trên dữ liệu và giải quyết vấn đề. Bạn đã nghe một chút về cơ sở dữ liệu là gì và cách các nhà phân tích dữ liệu sử dụng chúng. Bây giờ hãy tìm hiểu thêm về các tính năng và thành phần của cơ sở dữ liệu. Đây là một cấu trúc cơ sở dữ liệu đơn giản.
  • 181. Nó chứa các bảng có thông tin từ một nhà sản xuất ô tô. Cấp cao nhất bao gồm đại lý xe hơi, chi tiết sản phẩm và bộ phận sửa chữa. Sau đó, nếu bạn xem chi tiết cấp độ tiếp theo bằng cách chọn một trong các bảng đó, bạn sẽ tìm thấy nhiều chi tiết cụ thể hơn về từng mục. Đây được gọi là cơ sở dữ liệu quan hệ. Relational database is A database that contains a series of ralated tables that can be connected via their relationships. (Cơ sở dữ liệu quan hệ là Cơ sở dữ liệu có chứa một loạt các bảng có thể được kết nối để tạo thành các mối quan hệ). Để hai bảng có mối quan hệ, một hoặc nhiều trường giống nhau phải tồn tại bên trong cả hai bảng. Ví dụ, ở đây, ID nhánh tồn tại trong bảng này và bảng này. Nếu một trường tồn tại trong cả hai bảng, chúng ta có thể sử dụng nó để kết nối các bảng lại với nhau.
  • 182. Trường ID nhánh là chìa khóa để kết nối các bảng này. Có hai loại khóa. Primary key is An identifier that references a column in which each value is unique ( Khóa chính là một mã định danh trong cơ sở dữ liệu tham chiếu đến một cột trong đó mỗi giá trị là duy nhất). Bạn có thể coi nó như một mã định danh duy nhất cho mỗi hàng trong bảng. Đối với bảng đại lý của chúng tôi có thông tin về các chi nhánh đại lý khác nhau, ID chi nhánh là khóa chính. Tương tự, đối với bảng chi tiết sản phẩm về từng dòng xe, số VIN là khóa chính của chúng ta. Là một nhà phân tích, bạn có thể cần phải tạo các bảng. Nếu bạn quyết định bao gồm một khóa chính, thì khóa đó phải là duy nhất, nghĩa là không có hai hàng nào có cùng một khóa chính. Ngoài ra, nó không thể rỗng hoặc trống. Ngoài ra còn có các khóa ngoại. Foreign key is A field within a table that is a primary key in another table (Khóa ngoại là Một trường trong bảng cơ sở dữ liệu là khóa chính trong bảng khác). Khóa ngoại là một trường trong một bảng là khóa chính trong một bảng khác. Nói cách khác, khóa ngoại là cách một bảng có thể được kết nối với một bảng khác. Bởi vì bảng các bộ phận sửa chữa của chúng tôi chứa thông tin về từng bộ phận của ô tô nên khóa chính là ID bộ phận. Mỗi hàng trong bảng các bộ phận sửa chữa của chúng tôi đại diện cho một bộ phận duy nhất. Tất cả các khóa khác trong bảng này, chẳng hạn như số VIN, là các khóa ngoại cho phép kết nối bảng bộ phận sửa chữa với các bảng khác. Như bạn có thể thấy, một bảng chỉ có thể có một khóa chính nhưng nó có thể có nhiều khóa ngoại. Việc hiểu các khóa chính và khóa ngoại có thể khó khăn, vì vậy bạn sẽ có nhiều cơ hội hơn để thực hành trong thời gian tới. Nhưng như một bản tóm tắt chung:  Khóa chính được sử dụng để đảm bảo dữ liệu trong một cột cụ thể là duy nhất.  Nó xác định duy nhất một bản ghi trong bảng cơ sở dữ liệu quan hệ.  Chỉ một khóa chính được phép trong một bảng và chúng không được chứa các giá trị rỗng hoặc trống. Và khóa ngoại là:  Một cột hoặc nhóm cột trong bảng cơ sở dữ liệu quan hệ cung cấp liên kết giữa dữ liệu và hai bảng.  Nó đề cập đến trường trong một bảng là khóa chính của một bảng khác.  Cuối cùng, điều quan trọng cần lưu ý là có nhiều hơn một khóa ngoại được phép tồn tại trong một bảng. Vui lòng xem lại video này để chắc chắn rằng bạn hiểu rõ khóa chính và khóa ngoại. Và sắp tới, bạn sẽ bắt đầu thực hành cách truy cập và phân tích dữ liệu từ cơ sở dữ liệu thực tế. Đó sẽ là cơ hội tuyệt vời để nâng cao hiểu biết của bạn về khóa chính và khóa ngoại, tổ chức cơ sở dữ liệu và cách bạn có thể sử dụng cơ sở dữ liệu trong sự nghiệp phân tích trong tương lai của mình.
  • 183. Quản lý dữ liệu với siêu dữ liệu Bây giờ bạn đã hiểu các cách khác nhau để tổ chức dữ liệu trong cơ sở dữ liệu, hãy nói về cách bạn có thể mô tả dữ liệu đó. Trong video này, chúng ta sẽ bắt đầu khám phá siêu dữ liệu, đây là một khía cạnh rất quan trọng của việc quản lý cơ sở dữ liệu. Tuy nhiên, siêu dữ liệu là một khái niệm trừu tượng. Hãy bắt đầu bằng một ví dụ đơn giản hàng ngày. Bạn có biết rằng mỗi khi một bức ảnh được chụp bằng điện thoại thông minh, dữ liệu sẽ tự động được thu thập và lưu trữ trong bức ảnh đó? Hãy xem. Chọn bất kỳ ảnh nào trên máy tính của bạn. Đây là một bức ảnh dễ thương chụp những chú chó của bạn tôi, Rudy và Matilda. Trên ảnh của bạn, nhấp chuột phải vào "Nhận thông tin" hoặc "Thuộc tính". Thao tác này sẽ cung cấp cho bạn siêu dữ liệu của ảnh, siêu dữ liệu này có thể cho bạn biết loại tệp của ảnh; ngày và thời gian nó được thực hiện; vị trí địa lý, hoặc nơi nó được thực hiện; loại thiết bị nào được sử dụng để chụp ảnh; và nhiều hơn nữa. Khá tuyệt vời, phải không? Đây là một ví dụ khác. Mỗi khi bạn gửi hoặc nhận email, siêu dữ liệu sẽ được gửi cùng với thư đó. Bạn có thể tìm thấy nó bằng cách nhấp vào "Hiển thị bản gốc" hoặc "Xem chi tiết tin nhắn". Siêu dữ liệu của email bao gồm chủ đề, người gửi, người gửi và ngày giờ gửi. Siêu dữ liệu thậm chí còn biết nó được gửi nhanh như thế nào sau khi người gửi nhấn "Gửi". Siêu dữ liệu là thông tin được sử dụng để mô tả dữ liệu có trong một thứ gì đó, chẳng hạn như ảnh hoặc email. Hãy nhớ rằng siêu dữ liệu không phải là dữ liệu. Thay vào đó, đó là dữ liệu về dữ liệu. Trong phân tích dữ liệu, siêu dữ liệu giúp các nhà phân tích dữ liệu giải thích nội dung của dữ liệu trong cơ sở dữ liệu. Đó là lý do tại sao siêu dữ liệu rất quan trọng khi làm việc với cơ sở dữ liệu. Nó cho nhà phân tích biết dữ liệu là gì. Điều đó cho phép đưa dữ liệu vào giải quyết vấn đề và đưa ra quyết định dựa trên dữ liệu. Là một nhà phân tích dữ liệu, có ba loại siêu dữ liệu phổ biến mà bạn sẽ gặp:  mô tả  cấu trúc  quản trị Descriptive metadata is Metadata that describes a piece of data and can be used to identify it at a later point in the time ( Siêu dữ liệu mô tả là Siêu dữ liệu mô tả một phần dữ liệu và có thể được sử dụng để xác định dữ liệu sau đó). Ví dụ: siêu dữ liệu mô tả của một cuốn sách trong thư viện sẽ bao gồm mã bạn nhìn thấy trên gáy sách, được gọi là Số sách tiêu chuẩn quốc tế duy nhất, còn được gọi là ISBN. Nó cũng sẽ bao gồm tác giả và tiêu đề của cuốn sách. Structual metadata is metadata that indicates how a piece of data is orgainzed and whether it is part of one, or more than one, data collection. ( Siêu dữ liệu cấu trúc là Siêu dữ liệu cho biết cách một phần dữ liệu được tổ chức và liệu nó có phải là một phần của một hay nhiều tập hợp hay không). Hãy quay trở lại thư viện. Một ví dụ về dữ liệu cấu trúc sẽ là cách
  • 184. các trang của một cuốn sách được ghép lại với nhau để tạo ra các chương khác nhau. Điều quan trọng cần lưu ý là siêu dữ liệu cấu trúc cũng theo dõi mối quan hệ giữa hai điều. Ví dụ, nó có thể cho chúng ta thấy rằng tài liệu kỹ thuật số của một bản thảo sách thực sự là phiên bản gốc của một cuốn sách hiện đang được in. Administrative metadata is Metadata that indicates the technical source of a digital asset. ( Siêu dữ liệu quản trị là Siêu dữ liệu cho biết nguồn kỹ thuật của tài sản kỹ thuật số). Khi chúng tôi xem xét siêu dữ liệu bên trong ảnh, đó là siêu dữ liệu quản trị. Nó cho bạn biết loại tệp, ngày và giờ được thực hiện, v.v. Đây là một suy nghĩ cuối cùng để giúp bạn hiểu siêu dữ liệu. Nếu bạn đang trên đường đến thư viện để chọn một cuốn sách, bạn có thể nghiên cứu tên sách, tác giả, độ dài và số chương của cuốn sách. Đó là tất cả siêu dữ liệu, và nó có thể cho bạn biết nhiều điều về cuốn sách, nhưng bạn phải thực sự đọc cuốn sách để biết nội dung của nó. Tương tự như vậy, bạn có thể đọc về phân tích dữ liệu, nhưng bạn phải tham gia khóa học này để lấy chứng chỉ Google Data Analytics. Tiếp tục tiến về phía trước để đạt được quan điểm mới đó. Sử dụng siêu dữ liệu như một nhà phân tích Bây giờ bạn đã biết siêu dữ liệu là gì, đã đến lúc khám phá lý do tại sao các nhà phân tích dữ liệu sử dụng nó. Bạn đã biết rằng dữ liệu cần được xác định và mô tả trước khi có thể giúp bạn giải quyết vấn đề hoặc đưa ra quyết định kinh doanh hiệu quả. Đưa dữ liệu vào ngữ cảnh có lẽ là điều có giá trị nhất mà siêu dữ liệu làm được, nhưng vẫn còn nhiều lợi ích khác khi sử dụng siêu dữ liệu. Đây là một. Siêu dữ liệu tạo ra một nguồn sự thật duy nhất bằng cách giữ cho mọi thứ nhất quán và thống nhất. Chúng tôi, các nhà phân tích dữ liệu yêu thích sự nhất quán. Chúng tôi luôn hướng đến sự đồng nhất này trong dữ liệu và cơ sở dữ liệu của chúng tôi. Xét cho cùng, dữ liệu thống nhất có thể được sắp xếp, phân loại, lưu trữ, truy cập và sử dụng một cách hiệu quả. Ngoài ra, khi cơ sở dữ liệu nhất quán, việc khám phá mối quan hệ giữa dữ liệu bên trong nó và dữ liệu ở nơi khác sẽ dễ dàng hơn nhiều. Siêu dữ liệu cũng làm cho dữ liệu trở nên đáng tin cậy hơn bằng cách đảm bảo dữ liệu chính xác, xác thực, phù hợp và kịp thời. Điều này cũng giúp các nhà phân tích dữ liệu dễ dàng xác định nguyên nhân gốc rễ của bất kỳ sự cố nào có thể xảy ra. Điểm mấu chốt là, khi dữ liệu chúng tôi làm việc với chất lượng cao, nó sẽ giúp mọi việc trở nên dễ dàng hơn và cải thiện kết quả của chúng tôi. Một trong những cách mà các nhà phân tích dữ liệu đảm bảo dữ liệu của họ nhất quán và đáng tin cậy là sử dụng thứ gọi là kho lưu trữ siêu dữ liệu. Metadata repository is A database specifically created to store metadata ( Nơi lưu trữ siêu dữ liệu là Cơ sở dữ liệu được tạo để lưu trữ siêu dữ liệu).
  • 185. Kho lưu trữ siêu dữ liệu có thể được lưu trữ ở một vị trí thực tế hoặc chúng có thể là ảo, giống như dữ liệu tồn tại trong đám mây. Các kho lưu trữ này mô tả siêu dữ liệu đến từ đâu, giữ siêu dữ liệu ở dạng có thể truy cập được để có thể sử dụng nhanh chóng và dễ dàng, đồng thời giữ siêu dữ liệu ở một cấu trúc chung cho tất cả những ai có thể cần sử dụng. Kho lưu trữ siêu dữ liệu giúp việc tập hợp nhiều nguồn để phân tích dữ liệu trở nên dễ dàng và nhanh chóng hơn. Chúng thực hiện điều này bằng cách mô tả trạng thái và vị trí của siêu dữ liệu, cấu trúc của các bảng bên trong và cách dữ liệu chảy qua kho lưu trữ. Họ thậm chí còn theo dõi xem ai truy cập siêu dữ liệu và khi nào. Đây là một ví dụ thực tế. Là nhà phân tích chăm sóc sức khỏe tại Google, tôi sử dụng dữ liệu của bên thứ hai và thứ ba. Như bạn đã biết, dữ liệu của bên thứ hai là dữ liệu được một nhóm thu thập trực tiếp từ đối tượng của mình rồi bán. Dữ liệu của bên thứ ba đến từ các nguồn bên ngoài, không phải là người thu thập ban đầu dữ liệu đó. Họ lấy nó từ các trang web hoặc chương trình lấy dữ liệu từ các nền tảng khác nhau nơi nó được tạo ban đầu. Nó hơi phức tạp, nhưng điều chính cần nhớ là dữ liệu của bên thứ ba không đến từ bên trong doanh nghiệp của bạn. Nếu nhóm của tôi cần làm việc với dữ liệu không được tạo tại Google, điều đó có nghĩa là đôi khi chúng tôi không biết nhiều về chất lượng và độ tin cậy của dữ liệu đó, nhưng chúng tôi cần chắc chắn rằng dữ liệu của mình đáng tin cậy và được thu thập một cách có trách nhiệm. Rốt cuộc, nếu dữ liệu không đáng tin cậy, kết quả của chúng tôi cũng có thể không đáng tin cậy. Đó là lý do tại sao việc hiểu siêu dữ liệu của cơ sở dữ liệu bên ngoài là rất quan trọng. Nó cho phép chúng tôi xác nhận rằng dữ liệu sạch, chính xác, phù hợp và kịp thời. Điều này đặc biệt quan trọng nếu dữ liệu đến từ một tổ chức khác. Một bước quan trọng khác khi làm việc với dữ liệu ngoài là xác nhận rằng chúng tôi được phép sử dụng dữ liệu đó. Chúng tôi thường liên hệ với chủ sở hữu để đảm bảo rằng chúng tôi có thể truy cập hoặc mua nó. Tóm lại, kho lưu trữ siêu dữ liệu rất hữu ích vì tất cả những lý do này. Ngoài ra, chúng giúp đảm bảo rằng nhóm của tôi đang lấy nội dung phù hợp cho dự án cụ thể và sử dụng nội dung đó một cách thích hợp. Chúng tôi có thể xác nhận điều này vì siêu dữ liệu mô tả rõ ràng cách thức và thời điểm dữ liệu được thu thập, cách thức tổ chức dữ liệu và hơn thế nữa. Bạn sẽ sớm tìm hiểu thêm về cách sử dụng siêu dữ liệu trong phân tích dữ liệu và nếu bạn thấy siêu dữ liệu đặc biệt hấp dẫn, bạn sẽ khám phá ra một số lựa chọn nghề nghiệp thực sự thú vị tập trung vào siêu dữ liệu. Hãy chú ý theo dõi. Quản lý siêu dữ liệu Siêu dữ liệu và kho lưu trữ siêu dữ liệu là những công cụ rất mạnh trong hộp công cụ phân tích dữ liệu. Như chúng ta đã thảo luận trước đây, các nhà phân tích dữ liệu sử dụng chúng để tạo ra một nguồn sự thật duy nhất, giữ cho dữ liệu nhất quán và thống nhất, đồng thời đảm bảo rằng dữ liệu chúng tôi làm việc là chính xác, xác thực, phù hợp và kịp thời.
  • 186. Những công cụ này cũng giúp truy cập và sử dụng dữ liệu dễ dàng hơn bằng cách chuẩn hóa các quy trình của chúng tôi. Trong video này, chúng ta sẽ khám phá thêm các thành phần của siêu dữ liệu và tìm hiểu cách các nhà phân tích siêu dữ liệu làm việc để sắp xếp mọi thứ. Chúng tôi biết rằng lượng dữ liệu ngoài kia tiếp tục tăng, nhưng rất nhiều doanh nghiệp không sử dụng dữ liệu của họ. Đôi khi, họ không biết những gì họ có, đôi khi họ không thể tìm thấy nó hoặc đôi khi một doanh nghiệp không tin tưởng vào nó. Đặc biệt là trong các công ty lớn hơn, dữ liệu có thể bao gồm nhiều quy trình và hệ thống khác nhau. Và tập hợp dữ liệu từ rất nhiều nơi có thể là một thách thức lớn. Ví dụ: giả sử một công ty bắt đầu với hệ thống lưu trữ dữ liệu truyền thống trong văn phòng của mình. Nhưng sau đó, khi lượng dữ liệu mà nó sở hữu tiếp tục mở rộng, thì lưu trữ đám mây cũng cần thiết. Ngoài ra, công ty này cũng có thể đang truy cập và sử dụng dữ liệu của bên thứ hai hoặc bên thứ ba từ một tổ chức đối tác. Mỗi hệ thống này có các quy tắc và yêu cầu riêng, vì vậy mỗi hệ thống tổ chức dữ liệu theo một cách hoàn toàn khác, làm tăng thêm độ phức tạp. Không có gì ngạc nhiên khi rất nhiều tổ chức phải vật lộn để tìm đúng dữ liệu vào đúng thời điểm. Mặt khác, siêu dữ liệu được lưu trữ ở một vị trí trung tâm duy nhất và nó cung cấp cho công ty thông tin được chuẩn hóa về tất cả dữ liệu của nó. Điều này được thực hiện theo hai cách. Đầu tiên, siêu dữ liệu bao gồm thông tin về vị trí của từng hệ thống và vị trí của các bộ dữ liệu trong các hệ thống đó. Thứ hai, siêu dữ liệu mô tả cách tất cả dữ liệu được kết nối giữa các hệ thống khác nhau. Một khía cạnh quan trọng khác của siêu dữ liệu là một thứ được gọi là quản trị dữ liệu. Data governance is a process to ensure the formal management of a company’s data assets ( Quản trị dữ liệu là Quy trình đảm bảo việc quản lý chính thức tài sản dữ liệu của công ty). Điều này giúp tổ chức kiểm soát tốt hơn dữ liệu của họ và giúp công ty quản lý các vấn đề liên quan đến bảo mật dữ liệu và quyền riêng tư, tính toàn vẹn, khả năng sử dụng cũng như luồng dữ liệu bên trong và bên ngoài. Điều quan trọng cần lưu ý là quản trị dữ liệu không chỉ đơn thuần là chuẩn hóa thuật ngữ và quy trình. Đó là về vai trò và trách nhiệm của những người làm việc với siêu dữ liệu hàng ngày. Đây là những chuyên gia về siêu dữ liệu và họ tổ chức cũng như duy trì dữ liệu của công ty, đảm bảo rằng dữ liệu đó có chất lượng cao nhất có thể. Những người này tạo thông tin khám phá và nhận dạng siêu dữ liệu cơ bản, mô tả cách các bộ dữ liệu khác nhau hoạt động cùng nhau và giải thích nhiều loại tài nguyên dữ liệu khác nhau. Các chuyên gia siêu dữ liệu cũng tạo ra các tiêu chuẩn rất quan trọng mà mọi người tuân theo và các mô hình được sử dụng để tổ chức dữ liệu. Có một điều tất cả họ đều có điểm chung. Cho dù họ làm việc tại một công ty công nghệ, hiệp hội phi lợi nhuận hay tổ chức tài chính, các nhà phân tích
  • 187. siêu dữ liệu đều là những người làm nhóm tuyệt vời. Họ đam mê làm cho dữ liệu có thể truy cập được bằng cách chia sẻ với đồng nghiệp và các bên liên quan khác. Nếu bạn đang tìm kiếm một vai trò khuyến khích bạn khám phá tất cả dữ liệu mà thế giới kỹ thuật số cung cấp, thì con đường trở thành nhà phân tích siêu dữ liệu có thể là lựa chọn phù hợp với bạn. Nhưng dù sao đi nữa, các doanh nghiệp thuộc mọi loại hình đều phải đối mặt với xu hướng thị trường và sự cạnh tranh, và họ cần hiểu tại sao quy trình này hiệu quả trong khi quy trình khác thì không. Phân tích dữ liệu cho phép họ trả lời các câu hỏi chính và tiếp tục cải thiện. Megan: Vui với siêu dữ liệu Tên tôi là Megan và tôi là trưởng bộ phận đo lường đại lý tại Google. Về cơ bản, tôi giúp làm sáng tỏ việc đo lường và phân tích cho các công ty quảng cáo. Vì vậy, những người được giao nhiệm vụ thực hiện các kế hoạch truyền thông cho các nhà quảng cáo nhưng cũng có những người quan tâm đến việc đo lường tác động của phương tiện truyền thông đối với khách hàng của họ. Vì vậy, tôi đã làm việc này được khoảng 17 năm nay và đã chứng kiến rất nhiều sự phát triển trong không gian từ tính sẵn có của dữ liệu, từ các kỹ thuật lập mô hình khác nhau trở nên tiên tiến hơn nhưng cũng dễ tiếp cận hơn và đó thực sự là một hành trình thú vị để xem nó như thế nào, đã phát triển như thế nào, phân tích đã trở nên phổ biến hơn như thế nào và mọi người đang hào hứng hơn với nó như thế nào. Siêu dữ liệu về cơ bản là chìa khóa cho tập dữ liệu lớn hơn của bạn. Nó giúp mô tả những gì có trong các hàng và cột của dữ liệu mà bạn sẽ làm việc. Siêu dữ liệu là một loại tốc ký hoặc phiên bản CliffsNotes của một bộ thông tin phức tạp hơn nhiều. Nó có thể hữu ích trong việc giúp bạn xử lý những gì trong một tập dữ liệu duy nhất mà bạn có thể có quyền truy cập. Đây là một phần quan trọng trong quy trình khám phá của bất kỳ dự án phân tích nào khi bạn đang làm việc với khách hàng hoặc nhà cung cấp để hiểu các tài nguyên mà bạn sẽ có để giải quyết vấn đề và những gì có thể bị thiếu. Nó chỉ cung cấp cho bạn chìa khóa để mở khóa dữ liệu đó theo cách thực sự đơn giản và dễ hiểu, đồng thời là một công cụ giao tiếp tuyệt vời. Khi tôi làm việc cho một nhà quảng cáo, một trong những điều mà chúng tôi đang cố gắng thực hiện là xây dựng một thứ gọi là hồ dữ liệu. Vì vậy, về cơ bản, đây là tập hợp tất cả các nguồn dữ liệu mà bạn có thể muốn sử dụng trong phân tích vào một nơi, điều này có thể thực sự rất phức tạp. Một trong những lợi ích của siêu dữ liệu là tìm ra nơi chúng tôi có các nguồn có thể trùng lặp, nơi chúng tôi có các nguồn dữ liệu có điểm chung. Và những mẩu thông tin duy nhất mà chúng tôi đã nhận được từ mỗi bộ dữ liệu đó là gì. Vì vậy, khi chúng tôi nghĩ về việc giải quyết dự án thực sự lớn và quan trọng này, chúng tôi đã có thể sử dụng siêu dữ liệu để nhanh chóng và dễ dàng tiếp cận các cấu trúc cơ bản mà chúng tôi đang cố gắng giải quyết.
  • 188. Khi bạn làm việc với những người có thể không coi phân tích là công việc hàng ngày của họ, thì việc có được khoảnh khắc "aha" đó, giúp họ hiểu cách đo lường và phân tích là những công cụ có thể giúp họ đạt được mục tiêu của mình, thực sự quan trọng. Và việc bạn đạt được ý tưởng đó đã tạo ra một thứ mà trước đây không thể tiếp cận được trở nên dễ tiếp cận hơn một chút đối với nhóm đó và thứ mà họ cảm thấy thoải mái khi đưa vào thực tế là điều thực sự quan trọng và thực sự là một cách tuyệt vời để tạo ra mối quan hệ đối tác.
  • 189. Chương 3: Truy cập các nguồn dữ liệu khác nhau Làm việc với nhiều nguồn dữ liệu hơn Trong video này, chúng ta sẽ thảo luận về những nơi khác nhau mà các nhà phân tích dữ liệu sẽ kết nối với dữ liệu. Có tất cả các loại dữ liệu ngoài kia và điều quan trọng là phải biết cách truy cập dữ liệu đó. Trước đó, bạn biết rằng có hai loại dữ liệu cơ bản được sử dụng bởi các nhà phân tích dữ liệu: nội bộ và bên ngoài. Internal data is data that lives within a company’s own systems ( Dữ liệu nội bộ là Dữ liệu nằm trong hệ thống riêng của công ty). Nó thường cũng được tạo ra từ bên trong công ty. Bạn cũng có thể nghe thấy dữ liệu nội bộ được mô tả là dữ liệu chính. External data is Data that lives and is generated outside an orgaination ( Dữ liệu bên ngoài là dữ liệu tồn tại và được tạo bên ngoài tổ chức). Nó có thể đến từ nhiều nơi, bao gồm các doanh nghiệp khác, nguồn chính phủ, phương tiện truyền thông, hiệp hội nghề nghiệp, trường học, v.v. Dữ liệu bên ngoài đôi khi được gọi là dữ liệu thứ cấp. Thu thập dữ liệu nội bộ có thể phức tạp. Tùy thuộc vào dự án phân tích dữ liệu của bạn, bạn có thể cần dữ liệu từ nhiều nguồn và phòng ban khác nhau, bao gồm bán hàng, tiếp thị, quản lý quan hệ khách hàng, tài chính, nhân sự và thậm chí cả kho lưu trữ dữ liệu. Nhưng nỗ lực là xứng đáng. Dữ liệu nội bộ có rất nhiều lợi thế cho một doanh nghiệp. Nó cung cấp thông tin có liên quan đến các vấn đề bạn đang cố gắng giải quyết và truy cập miễn phí vì công ty đã sở hữu nó. Với dữ liệu nội bộ, các nhà phân tích có thể làm việc trên tất cả các dự án dữ liệu mà không cần nhìn xa hơn bức tường của chính họ. Nhưng đôi khi dữ liệu nội bộ không cung cấp cho bạn bức tranh đầy đủ. Trong những trường hợp đó, các nhà phân tích dữ liệu có thể chuyển sang dữ liệu bên ngoài và áp dụng thông tin đó vào phân tích của họ. Ví dụ: với tư cách là nhà phân tích chăm sóc sức khỏe, chúng tôi thường hợp tác với các tổ chức chăm sóc sức khỏe hoặc tổ chức phi lợi nhuận khác và sử dụng dữ liệu của họ để tạo ra các phân tích sâu hơn và bổ sung thêm một số quan điểm cấp ngành. Trong một video trước đó, bạn đã biết rằng tính mở đã tạo ra rất nhiều dữ liệu cho các nhà phân tích sử dụng, chủ yếu thông qua các sáng kiến về dữ liệu mở. Xin nhắc lại, tính mở hay dữ liệu mở đề cập đến việc truy cập, sử dụng và chia sẻ dữ liệu miễn phí. Ví dụ: chính phủ Hoa Kỳ cung cấp hàng trăm nghìn bộ dữ liệu cho công chúng trên Data.gov. Những bộ dữ liệu này chứa thông tin về các kiểu thời tiết, tiến bộ giáo dục, tỷ lệ tội phạm, giao thông vận tải, v.v. Có rất nhiều lý do cho những sáng kiến dữ liệu mở này. Một là làm cho các hoạt động của chính phủ trở nên minh bạch hơn, chẳng hạn như để công chúng biết tiền được tiêu vào đâu. Nó cũng giúp giáo dục công dân về bầu cử và các vấn đề địa phương. Dữ liệu mở cũng cải thiện dịch vụ công bằng cách cung cấp cho mọi người những cách để trở thành một phần
  • 190. của kế hoạch công hoặc cung cấp phản hồi cho chính phủ. Cuối cùng, dữ liệu mở dẫn đến sự đổi mới và tăng trưởng kinh tế bằng cách giúp mọi người và các công ty hiểu rõ hơn về thị trường của họ. Google thực sự lưu trữ rất nhiều cơ sở dữ liệu công cộng với thông tin về khoa học, giao thông vận tải, kinh tế, khí hậu, v.v. Ví dụ: một công ty chia sẻ xe đạp có thể sử dụng dữ liệu giao thông từ trong cơ sở dữ liệu giao thông công cộng của chúng tôi để xem nơi nào đường đông đúc nhất, sau đó chọn những vị trí đó cho xe đạp của họ để giảm ô tô trên đường và cung cấp cho mọi người một lựa chọn di chuyển khác. Bây giờ bạn đã quen thuộc với dữ liệu bên trong và bên ngoài cũng như cách bạn có thể truy cập cả hai. Sắp tới, chúng ta sẽ tìm hiểu cách nhập tất cả dữ liệu bạn thu thập từ các nguồn khác nhau vào một bảng tính. Nhập dữ liệu từ bảng tính và cơ sở dữ liệu Tại thời điểm này, bạn đã học tất cả về dữ liệu bên trong và bên ngoài cũng như cách chuẩn bị để sử dụng. Bây giờ, chúng ta sẽ thực hiện quá trình nhập dữ liệu thực sự từ các nguồn khác nhau. Đôi khi bạn muốn tải lên bảng tính từ các tệp của mình, chẳng hạn như tệp CSV. CSV ( Comma-separated values) is A CSV file saves data in a table format ( file văn bản được phân tách sử dụng dấu phẩy để phân tách các giá trị). Tệp CSV lưu dữ liệu ở định dạng bảng. Bây giờ, hãy đưa tệp đó vào một bảng tính mới. Chúng tôi sẽ bắt đầu bằng cách chọn file, sau đó import. Sau đó, chúng tôi sẽ chọn upload a file.
  • 191. Điều hướng đến nó, mở nó và chèn nó dưới dạng một trang tính mới. Các tệp CSV sử dụng văn bản thuần túy và chúng được phân định bằng các ký tự. Vì vậy, mỗi cột hoặc trường khác biệt rõ ràng với cột khác khi nhập. Như bạn đã biết, các tệp CSV được phân tách bằng dấu phẩy và thông thường, ứng dụng bảng tính sẽ tự động phát hiện các dấu phân tách đó. Nhưng đôi khi, bạn có thể cần chỉ ra rằng dấu phân cách là một ký tự khác hoặc một khoảng trắng bằng cách chọn các tùy chọn khác nhau trong cửa sổ này. Ngoài ra, nếu bạn định làm việc với tập dữ liệu, thông thường bạn sẽ chuyển đổi thành văn bản, số hoặc các tùy chọn khác tại đây. Nhưng văn bản thuần túy vẫn ổn cho mục đích báo cáo. Vì vậy, chúng ta có thể để những lĩnh vực đó một mình.
  • 192. Cuối cùng, chọn Import data. Bây giờ, tệp CSV của chúng tôi đã sẵn sàng hoạt động trong bảng tính của chúng tôi. Tôi dành phần lớn thời gian tại nơi làm việc để phân tích các bảng tính chứa đầy thông tin chăm sóc sức khỏe. Tôi thường bắt đầu bằng cách xem xét một tập dữ liệu lớn hơn. Sau đó, tôi kéo một tập hợp con của nó vào một bảng tính để tôi có thể làm việc với nó. Có lẽ tôi muốn phân tích mức tăng trưởng hàng năm về nhu cầu của người dùng trên Google Tìm kiếm đối với một số dịch vụ chăm sóc sức khỏe nhất định, chẳng hạn như khám bệnh từ xa. Hoặc có thể tôi muốn xem xét các bộ dữ liệu từ các tổ chức hoặc cơ quan chăm sóc sức khỏe bên ngoài để hiểu rõ hơn về xu hướng này. Ví dụ, với dịch vụ y tế từ xa, có thể tôi sẽ xem một bảng tính liệt kê các nhà cung cấp dịch vụ y tế từ xa. Có rất nhiều cách mà bảng tính có thể giúp bạn tìm thấy thông tin chi tiết bạn cần. Một nguồn mà tôi sử dụng rất nhiều là kho dữ liệu của Tổ chức Y tế Thế giới. Đây là nơi mà bất kỳ ai cũng có thể truy cập dữ liệu nguồn mở. Như bạn có thể thấy, có rất nhiều dữ liệu có sẵn. Bạn có thể tìm kiếm theo chủ đề, thể loại, chỉ số và quốc gia. Bạn cũng có thể truy cập siêu dữ liệu của Tổ chức Y tế Thế giới nếu muốn tìm hiểu thêm về dữ liệu trong kho lưu trữ. Ví dụ của chúng tôi, chúng tôi sẽ xem xét các bác sĩ theo quốc gia và năm. Thông tin này sẽ hữu ích cho một dự án phân tích dữ liệu xem xét có bao nhiêu bác sĩ sẵn sàng điều trị cho bệnh nhân trong một nhóm dân số nhất định so với các nhóm dân số khác.
  • 193. Để có được dữ liệu này, chúng tôi sẽ bắt đầu trên trang web này, trang này chứa tập dữ liệu mà chúng tôi muốn. Sau đó, chúng tôi sẽ tải xuống dữ liệu dưới dạng tệp CSV. Sau đó, mở một bảng tính mới và nhập tệp bằng cách chọn Tệp, Nhập. Tiếp theo, tải tệp của bạn lên và chọn Nhập dữ liệu. Sau khi xem xét dữ liệu để đảm bảo dữ liệu rõ ràng, chúng ta có thể đặt tiêu đề cho dữ liệu và bắt đầu công việc của mình. Tôi biết đây là rất nhiều thông tin để tiếp thu, nhưng bạn sẽ cảm thấy thoải mái hơn nhiều với điều này khi bạn thực hành nhiều hơn. Sắp tới, chúng ta sẽ tìm hiểu cách sắp xếp và lọc dữ liệu của bạn để tập trung vào thông tin liên quan đến bạn.
  • 194. Chương 4: Sắp xếp và lọc Sắp xếp và lọc Trong một số video trước đây, bạn đã tìm hiểu về cả dữ liệu bên trong và bên ngoài. Bây giờ tôi sẽ chỉ cho bạn cách chỉ tập trung vào dữ liệu liên quan đến vấn đề mà bạn đang cố gắng giải quyết. Điều này hữu ích nếu bạn đang làm việc với một bảng tính phức tạp rất lớn, điều mà các nhà phân tích dữ liệu luôn gặp phải. Có nhiều dữ liệu có thể gây khó khăn cho việc nhanh chóng tìm và phân tích thông tin bạn cần. Không có hai dự án phân tích nào giống nhau. Thông thường, các nhà phân tích dữ liệu xử lý, xem và sử dụng dữ liệu rất khác nhau, ngay cả khi dữ liệu đến từ cùng một nguồn. Đây là một ví dụ. Kiểm tra bảng tính này cho biết đại diện bán hàng của công ty và nơi họ làm việc. Các nhà phân tích dữ liệu khác nhau có thể muốn có thông tin khác nhau từ bảng tính và đó là lúc sắp xếp và lọc xuất hiện. Việc sắp xếp và lọc dữ liệu trong bảng tính giúp chúng tôi tùy chỉnh cách trình bày dữ liệu. Họ cũng có thể tổ chức dữ liệu để các nhà phân tích có thể phóng to các phần quan trọng. Hãy coi nó như một chiếc kính lúp cho dữ liệu của chúng ta. Hãy bắt đầu với việc sắp xếp. Sorting data is Arranging data into a meaningful order to make it easier to understand, analyze, and visualize. Sắp xếp liên quan đến việc sắp xếp dữ liệu theo thứ tự có ý nghĩa để dễ hiểu, dễ phân tích và trực quan hơn. Dữ liệu có thể được sắp xếp theo thứ tự tăng dần hoặc giảm dần và theo thứ tự bảng chữ cái hoặc số. Việc sắp xếp có thể được thực hiện trên toàn bộ bảng tính hoặc chỉ trong một cột hoặc bảng. Bạn cũng có thể sắp xếp theo nhiều biến. Chẳng hạn, nếu tập dữ liệu của chúng
  • 195. tôi chứa cả trường thành phố và tiểu bang, trước tiên chúng tôi có thể sắp xếp theo thành phố và sau đó theo tiểu bang. Bất cứ khi nào bạn sắp xếp dữ liệu, bạn nên cố định hàng tiêu đề trước. Để làm điều này, chúng tôi sẽ đánh dấu hàng. Sau đó, từ menu xem, chọn đóng băng và một hàng. Điều này khóa hàng tại chỗ. Bây giờ khi chúng tôi cuộn xuống trang tính, hàng tiêu đề vẫn hiển thị để chúng tôi biết danh mục của từng cột. Bây giờ hãy sắp xếp toàn bộ bảng tính. Chúng tôi sẽ sắp xếp theo thành phố đầu tiên. Để thực hiện việc này, hãy chọn cột thành phố, sau đó sử dụng mũi tên thả xuống để sắp xếp trang tính. Chọn A đến Z. Thao tác này sẽ sắp xếp tất cả các cột từ A đến Z theo hàng, với cột được chọn là tiêu chí sắp xếp chính. Các thành phố hiện được sắp xếp theo thứ tự bảng chữ cái và chúng vẫn được nhóm với các tiểu bang, đại diện bán hàng và phụ tùng ô tô tương ứng. Các chi tiết trên mỗi hàng được tự động giữ lại với nhau khi sắp xếp một phần cụ thể, như bạn có thể thấy ở đây. Sắp xếp theo nhiều tiêu chí là một công cụ phân tích dữ liệu rất hữu ích khác. Chẳng hạn, giả sử chúng ta muốn xem danh sách các đại diện bán hàng theo thành phố và tiểu bang nơi họ làm việc. Đầu tiên, chúng tôi chọn toàn bộ tập dữ liệu, sau đó chọn dữ liệu và phạm vi sắp xếp. Trong hộp thoại, đảm bảo rằng "Dữ liệu có hàng tiêu đề" được tô sáng. Bằng cách đó, hàng A, thành phố, tiểu bang, đại diện bán hàng và phụ tùng ô tô sẽ không thuộc loại này. Sau đó, trong menu thả xuống sắp xếp theo, hãy chọn trạng thái và thứ tự sắp xếp từ A đến Z. Bây giờ, hãy thêm một cột sắp xếp khác. Trong trình đơn thả xuống "then by", hãy chọn thành phố và thứ tự sắp xếp từ A đến Z. Cuối cùng, chọn Sắp xếp. Giờ đây, chúng tôi có thể tìm kiếm dữ liệu để dễ dàng tìm thấy đại diện bán hàng làm việc ở một tiểu bang và thành phố cụ thể. Sắp xếp rất hữu ích khi bạn muốn xem mọi thứ trong bảng tính theo thứ tự bảng chữ cái hoặc số. Nhưng đôi khi các nhà phân tích dữ liệu muốn cô lập một phần thông tin cụ thể. Để làm điều này, họ sử dụng một bộ lọc. Lọc có nghĩa là chỉ hiển thị dữ liệu đáp ứng một tiêu chí cụ thể trong khi ẩn phần còn lại. Bộ lọc đơn giản hóa bảng tính bằng cách chỉ hiển thị cho chúng tôi thông tin chúng tôi cần. Ví dụ: chúng tôi có thể thêm bộ lọc để chỉ xem những đại diện bán hàng đã làm việc với một sản phẩm cụ thể. Để thực hiện việc này, trước tiên chúng tôi chọn Dữ liệu và Tạo bộ lọc. Chọn cột có dữ liệu chúng tôi cần. Trong trường hợp này, Auto Parts. Các nút lọc sẽ xuất hiện ở góc của mỗi tiêu đề cột. Để lọc bảng tính của chúng tôi theo phụ tùng ô tô, hãy nhấp vào nút trong tiêu đề Auto part. Trong ví dụ này, giả sử chúng tôi chỉ muốn xem các đại diện bán hàng đã làm việc với vành xe. Xóa các dấu kiểm khỏi các danh mục mà chúng tôi không muốn xem, đó là mọi thứ ngoại trừ vành. Sau đó chọn được. Bộ lọc tạm thời ẩn bất cứ thứ gì không đáp ứng điều kiện. Nhưng lưu ý rằng, mặc dù chúng không hiển thị nhưng chúng vẫn ở đó. Khi đến lúc xem lại toàn bộ bảng tính khu vực, chỉ cần tắt bộ lọc. Sắp xếp và lọc là những công cụ rất quan trọng trong hộp công cụ của nhà phân tích dữ liệu. Trong video tiếp theo, bạn sẽ khám
  • 196. phá ra nhiều cách hơn nữa để thu hẹp thông tin chính xác mà bạn cần cho bất kỳ dự án phân tích dữ liệu nào.
  • 197. Chương 5: Làm việc với bộ dữ liệu lớn trong SQL Thiết lập BigQuery, bao gồm sandbox và tùy chọn thanh toán CHÀO. Chào mừng trở lại. Trong suốt khóa học này, bạn đã thấy cách BigQuery có thể được sử dụng để xem và phân tích dữ liệu từ rất nhiều nguồn. Bây giờ, chúng ta sẽ khám phá các cấp tài khoản khác nhau mà BigQuery cung cấp, để bạn biết cách chọn cấp tài khoản phù hợp với nhu cầu của mình và cách bạn có thể truy cập chúng. BigQuery được cung cấp miễn phí cho bạn. Có sẵn các tùy chọn trả phí, nhưng chúng tôi sẽ không cần chúng cho các hoạt động trong khóa học này. Thay vào đó, chúng ta sẽ nói về hai loại tài khoản: sandbox và dùng thử miễn phí. Tài khoản Sandbox được cung cấp miễn phí và bất kỳ ai có tài khoản Google đều có thể đăng nhập và sử dụng tài khoản đó. Có một số hạn chế đối với loại tài khoản này. Ví dụ: bạn nhận được tối đa 12 dự án cùng một lúc. Điều này có nghĩa là nếu bạn muốn tạo dự án thứ 13, bạn sẽ phải xóa một trong số 12 dự án ban đầu của mình. Nó cũng không cho phép bạn chèn bản ghi mới vào cơ sở dữ liệu hoặc cập nhật giá trị trường của bản ghi hiện có. Các thao tác Ngôn ngữ Thao tác Dữ liệu hoặc DML này không được hỗ trợ trong sandbox. Tuy nhiên, bạn sẽ không cần phải làm điều này trong các hoạt động của khóa học. Bạn có thể đọc thêm về các giới hạn của tài khoản sandbox trong tài liệu BigQuery. Đây là loại tài khoản chúng tôi sẽ sử dụng cho hầu hết các hoạt động của mình. Thật đơn giản để thiết lập. Vì vậy, ở phần sau của video này, chúng tôi sẽ hướng dẫn các bước cần thiết để tạo tài khoản. Tuy nhiên, trước đó, chúng ta nên nói về một cách khác để sử dụng BigQuery mà không phải trả phí. Bản dùng thử Google Cloud miễn phí. Bản dùng thử miễn phí cung cấp cho bạn quyền truy cập vào nhiều thứ hơn mà BigQuery cung cấp với ít giới hạn tổng thể hơn. Bản dùng thử miễn phí cung cấp tín dụng $300 để sử dụng trong Google Cloud trong 90 ngày đầu tiên. Bạn sẽ không đạt đến giới hạn chi tiêu đó nếu chỉ sử dụng bảng điều khiển BigQuery để thực hành các truy vấn SQL. Sau khi bạn chi tiêu khoản tín dụng $300 hoặc sau 90 ngày, thời gian dùng thử miễn phí của bạn sẽ hết hạn và bạn sẽ cần phải tự chọn nâng cấp lên tài khoản trả phí để tiếp tục hoạt động trong Google Cloud. Phương thức thanh toán của bạn sẽ không bị tính phí tự động sau khi thời gian dùng thử miễn phí của bạn kết thúc. Bản dùng thử miễn phí yêu cầu bạn thiết lập tùy chọn thanh toán với Google Cloud. Nhưng trừ khi bạn chọn tham gia nâng cấp tài khoản, nó sẽ không tính phí bạn. Tuy nhiên, nó yêu cầu bạn nhập loại thanh toán. Vì vậy, chúng tôi hiểu nếu bạn không cảm thấy thoải mái với tùy chọn này. Đây là một lý do khiến tài khoản BigQuery sandbox tồn tại, vì vậy bạn không phải nhập bất kỳ thông tin thanh toán nào. Với một trong hai loại tài khoản, bạn có thể nâng cấp lên tài khoản trả phí bất kỳ lúc nào và giữ lại tất cả các dự án hiện có của mình. Nếu bạn thiết lập tài khoản dùng thử
  • 198. miễn phí nhưng chọn không nâng cấp lên tài khoản trả phí khi thời gian dùng thử của bạn kết thúc, bạn có thể thiết lập tài khoản sandbox miễn phí vào thời điểm đó. Tuy nhiên, các dự án từ bản dùng thử của bạn sẽ không chuyển sang hộp cát của bạn. Nó sẽ giống như bắt đầu lại từ đầu. Chỉ là một thứ để ghi nhớ trong đầu. Bây giờ, chúng tôi sẽ thiết lập tài khoản sandbox của bạn, tài khoản này bạn có thể đổi thành bản dùng thử miễn phí hoặc nâng cấp lên tài khoản trả phí nếu muốn. Đầu tiên, chúng ta sẽ chuyển đến trang tài liệu hộp cát BigQuery. Sau đó chuyển đến góc trên bên phải và đăng nhập vào bất kỳ tài khoản Google nào bạn muốn sử dụng cho tài khoản hộp cát BigQuery.
  • 199. Sau đó, chúng tôi sẽ chọn nút "Chuyển đến BigQuery" trên trang tài liệu. Điều này cung cấp cho chúng tôi trình đơn thả xuống để chọn quốc gia và đọc các điều khoản của thỏa thuận dịch vụ. Thao tác này sẽ đưa chúng ta đến không gian làm việc SQL mà chúng ta sẽ sử dụng cho các hoạt động sắp tới. Chọn "Tạo dự án" và đặt tên cho dự án và cung cấp cho nó một ID. Chọn "Tạo" rồi chọn "Xong". Ở đó chúng tôi có nó. Trong video tiếp theo, chúng ta sẽ khám phá chức năng của từng phần của không gian làm việc SQL và cách chúng ta sẽ sử dụng phần đó trong các hoạt động trong tương lai. Hẹn gặp bạn ở đó. Cách sử dụng BigQuery Xin chào. Trong video này, chúng ta sẽ tìm hiểu về từng phần của không gian làm việc BigQuery SQL để bạn có thể sử dụng nó trong khóa học này và trong suốt sự nghiệp của mình với tư cách là nhà phân tích dữ liệu. Đây là một công cụ cực kỳ có giá trị và phổ biến rộng rãi, vì vậy việc hiểu cách thức hoạt động của nó là cực kỳ hữu ích. Vui lòng theo dõi trên màn hình của bạn khi chúng tôi khám phá BigQuery. Bạn có thể nhận thấy rằng màn hình của tôi trông hơi khác so với màn hình của bạn vì BigQuery liên tục cập nhật giao diện của nó. Đừng lo lắng nếu điều này xảy ra vì những khác biệt nhỏ sẽ không ngăn cản bạn hiểu những điều cơ bản. Để bắt đầu, hãy truy cập trang đích BigQuery, sau đó đăng nhập vào tài khoản bạn đã tạo trước đó. Để điều hướng đến không gian làm việc SQL, hãy chọn menu ở bên trái màn hình và cuộn xuống tiêu đề Dữ liệu lớn. Sau đó di chuột qua nhãn BigQuery và nhấp vào ''Không gian làm việc SQL'' từ trình đơn thả xuống. Bây giờ chúng ta đang ở trong không gian
  • 200. làm việc SQL, chúng ta sẽ tìm kiếm tập dữ liệu công khai, chọn tập dữ liệu thông qua Data Explorer, chạy truy vấn và tải dữ liệu của chính chúng ta lên để truy vấn. Trước tiên, chúng tôi sẽ tìm kiếm tập dữ liệu công khai để sử dụng. Để chọn tập dữ liệu công khai, hãy điều hướng đến menu Explorer ở bên trái màn hình. Nhấp vào nút "Add Data" ở phía trên bên phải của menu. Sau đó, trong menu thả xuống, hãy chọn "Explore public datasets". Thao tác này sẽ mở thị trường và hiển thị cho bạn các bộ dữ liệu công khai có sẵn. Hãy chuyển đến thanh thị trường tìm kiếm và tìm kiếm noaa_lightning, bộ dữ liệu chúng ta sẽ sử dụng trong hoạt động sắp tới. Nhấp vào tập dữ liệu “Cloud-to-Ground Lightning Strikes''. Điều này sẽ cung cấp cho chúng tôi mô tả và xem trước tập dữ liệu ghi lại các quan sát về hoạt động của sét và các kiểu thời tiết ở Hoa Kỳ. Nhấp vào "View dataset" Điều này sẽ đưa bạn trở lại không gian làm việc SQL và tạo một tab cho tập dữ liệu. Sau đó, chúng tôi có thể quay lại tab Trình chỉnh sửa mà chúng tôi đã mở hoặc nhấp vào "Compose new query" để bắt đầu viết bằng SQL. Ở bên trái, hãy lưu ý rằng danh sách thả xuống dữ liệu công khai của BigQuery nằm trong menu Explorer. Chúng tôi có thể nhấp vào mũi tên để mở rộng danh sách dữ liệu BigQuery và chọn một tập dữ liệu mới. Hãy chọn tập dữ liệu đầu tiên trong danh sách thả xuống, austin_311. Khi chúng tôi thực hiện, nó sẽ mở rộng để hiển thị bảng trong tập dữ liệu. Chúng tôi có thể mở tập dữ liệu để xem trước. Tab Lược đồ chứa tên của từng cột trong tập dữ liệu. Tab Chi tiết chứa siêu dữ liệu bổ sung, chẳng hạn như ngày tạo tập dữ liệu. Tab Xem trước chứa các hàng đầu tiên từ tập dữ liệu. Trên trang này, chúng tôi có thể nhấp vào "Query" để tự động tạo cửa sổ trình chỉnh sửa mới với mẫu cho truy vấn đã được điền sẵn. Từ đây, đặt dấu hoa thị sau Select, nơi con trỏ của chúng ta bật lên, sau đó chạy truy vấn. Xin chúc mừng, bạn đã chạy một truy vấn SQL trong BigQuery. Truy vấn bạn đã chạy đã trả về các hàng từ tập dữ liệu xuất hiện trong một cửa sổ bên dưới giao diện trình chỉnh sửa. Kết quả từ bất kỳ truy vấn nào bạn chạy cũng sẽ hiển thị ở đây. Bây giờ, giả sử bạn có kết quả khảo sát mà bạn muốn tải lên BigQuery và phân tích bằng SQL. Để thêm dữ liệu của riêng bạn vào BigQuery, hãy chọn ID của dự án mà bạn muốn thêm vào. Chọn biểu tượng ba dấu chấm dọc để mở các tùy chọn cho dự án, sau đó chọn "Create dataset". Đặt tên cho tập dữ liệu nào đó sẽ giúp bạn xác định nó sau này, chẳng hạn như upload_test_dataset. Sau đó nhấp vào "Create dataset." Tiếp theo, chuyển đến trình đơn Explorer và chọn ba dấu chấm dọc bên cạnh tập dữ liệu trong trình đơn thả xuống Dự án. Bây giờ chúng ta sẽ chọn biểu tượng để tạo bảng, biểu tượng này sẽ mở ra một cửa sổ bật lên. Trong Nguồn và tạo bảng từ, chọn "Upload" hoặc bất kỳ phương pháp nào bạn muốn tải dữ liệu của mình lên. Tại đây, chúng tôi có thể tải lên bất kỳ tệp dữ liệu nào, chẳng hạn như tệp CSV. Hãy đặt cho bảng của chúng ta một cái tên hữu ích, chẳng hạn như test_table. Đảm bảo rằng lược đồ được đặt thành tự động phát hiện và chọn "Create table". Còn nhiều điều nữa sẽ đến với BigQuery. Vui lòng xem lại video này bất cứ lúc nào và tiếp tục luyện tập. Hẹn sớm gặp lại.
  • 201. BigQuery trong hành động Bạn đã học cách sắp xếp và lọc dữ liệu trong bảng tính giúp nhà phân tích dữ liệu tùy chỉnh thông tin. Việc tùy chỉnh dữ liệu giúp dữ liệu có ý nghĩa hơn, dễ hiểu, dễ phân tích và trực quan hơn. Bạn cũng phát hiện ra rằng một số bảng tính có thể rất dài và phức tạp. Vì vậy, biết cách tập trung vào dữ liệu chính xác mà bạn cần trong khi đặt phần còn lại sang một bên sẽ giúp bạn tập trung vào phân tích của mình. Điều này cũng đúng với cơ sở dữ liệu. Đôi khi, tập dữ liệu quá lớn để tải xuống hoặc tập dữ liệu không vừa với bảng tính. Vì vậy, nhà phân tích dữ liệu sẽ sử dụng SQL để tạo truy vấn nhằm xem dữ liệu cụ thể mà họ muốn từ bên trong tập hợp lớn hơn. Chúng ta đã biết rằng cơ sở dữ liệu là tập hợp dữ liệu được lưu trữ trong hệ thống máy tính. Và SQL đó là viết tắt của Ngôn ngữ truy vấn có cấu trúc. Các nhà phân tích dữ liệu sử dụng ngôn ngữ truy vấn để giao tiếp với cơ sở dữ liệu. Trong một video trước đó, bạn cũng đã biết rằng một cơ sở dữ liệu quan hệ chứa một loạt các bảng có thể được kết nối để tạo thành các mối quan hệ. Các mối quan hệ này được biểu diễn bằng khóa chính và khóa ngoại. Các nhà phân tích dữ liệu viết các truy vấn để lấy dữ liệu từ các bảng này. Hãy xem làm thế nào điều này hoạt động. Chúng tôi sẽ bắt đầu với trình xem bảng của chúng tôi. Ở đây chúng ta có thể xem những bộ dữ liệu công khai nào có sẵn. Chúng tôi sẽ cuộn qua dữ liệu trước khi bắt đầu sử dụng để cảm nhận về nội dung của dữ liệu và để đảm bảo dữ liệu sạch. Một số trình xem bảng cho phép bạn xem trước một vài hàng trước khi viết truy vấn. Điều này hữu ích nếu bạn muốn xem nhanh để chắc chắn rằng tập dữ liệu sẽ phù hợp với dự
  • 202. án của bạn. Để cho bạn biết cách thức hoạt động của tính năng này, hãy xem tập dữ liệu mẫu. Cái này cho biết lượng ánh sáng mặt trời chiếu vào các mái nhà trong một năm. Điều này sẽ rất hữu ích cho một nhà phân tích dữ liệu làm việc trong một dự án năng lượng mặt trời chẳng hạn. Chúng tôi sẽ bắt đầu bằng cách xem trước tập dữ liệu. Bấm vào nó, như thế này. Sau đó, chúng tôi sẽ chọn một tập hợp con của dữ liệu này, nơi chúng tôi tìm thấy các khu vực, tiểu bang, ánh sáng mặt trời hàng năm, v.v. Bây giờ để xem toàn bộ tập dữ liệu, hãy viết một truy vấn.
  • 203. Bước đầu tiên là tìm ra tên đầy đủ chính xác của tập dữ liệu. Để thực hiện việc này, hãy chọn tập dữ liệu, tiềm năng năng lượng mặt trời theo mã bưu chính và chọn bảng truy vấn. Tên của tập dữ liệu được hiển thị bên trong hai dấu gạch ngược. Điều này là để giúp chúng tôi đọc truy vấn dễ dàng hơn. Chúng tôi cũng có thể loại bỏ các backticks trong trường hợp này và truy vấn của chúng tôi sẽ vẫn chạy. Những từ bạn nhìn thấy trước dấu chấm đại diện cho tên cơ sở dữ liệu. Và các từ sau dấu chấm đại diện cho tên bảng. Hãy chọn và sao chép tên tập dữ liệu ngay bây giờ vì chúng ta sẽ cần nó trong giây lát.
  • 204. Bây giờ chúng ta sẽ nhấp vào dấu cộng để soạn một truy vấn mới. Hầu hết các truy vấn bắt đầu bằng từ SELECT. Sau đó, chúng tôi thêm một không gian. Bởi vì chúng tôi muốn xem toàn bộ tập dữ liệu, chúng tôi sẽ đặt dấu sao tiếp theo. Dấu sao cho biết chúng tôi muốn bao gồm tất cả các cột. Đây là một lối tắt tuyệt vời vì nếu không có nó, chúng ta sẽ phải nhập từng tên trường. Tiếp theo, chúng tôi sẽ nhấn quay lại và nhập FROM. FROM chỉ làm những gì nó giống như. Nó cho biết dữ liệu đến từ đâu. Sau đó, chúng tôi sẽ thêm một không gian khác. Bây giờ, chúng tôi dán tên của tập dữ liệu mà chúng tôi đã sao chép trước đó. Và cuối cùng, chạy truy vấn.
  • 205. Bây giờ, bạn có thể kiểm tra cẩn thận tập dữ liệu trước khi chúng tôi bắt đầu làm việc với nó. Một điều quan trọng cần lưu ý: Các truy vấn SQL có thể được viết theo nhiều cách khác nhau nhưng vẫn cung cấp các kết quả giống nhau. Ví dụ: chúng tôi có thể viết truy vấn này dưới dạng một dòng hướng dẫn dài như thế này và chúng tôi vẫn nhận được kết quả tương tự. Các dòng và khoảng trắng bổ sung không ảnh hưởng đến kết quả của truy vấn, nhưng chúng giữ cho truy vấn của bạn được sắp xếp và dễ đọc hơn cho chính bạn và những người khác. Bây giờ, nếu dự án không yêu cầu tất cả các trường này, chúng ta có thể sử dụng SQL để xem một hoặc nhiều phần dữ liệu cụ thể. Để làm điều này, chúng tôi chỉ định một tên cột
  • 206. nhất định trong truy vấn. Ví dụ: có thể chúng tôi chỉ muốn xem dữ liệu từ Pennsylvania. Vì vậy, chúng tôi sẽ bắt đầu truy vấn của mình giống như cách chúng tôi vừa học. SELECT, dấu cách, thêm dấu sao. Sau đó, FROM cơ sở dữ liệu tiềm năng năng lượng mặt trời của chúng tôi. Nhưng lần này chúng ta sẽ thêm WHERE. WHERE cũng thực hiện chính xác những gì nó giống như. Nó cho cơ sở dữ liệu biết nơi để tìm kiếm thông tin. Trong trường hợp này, cột tên tiểu bang. Vì vậy, hãy thêm một khoảng trắng và nêu tên gạch dưới, tên của cột. Bây giờ vì chúng tôi chỉ muốn xem dữ liệu từ Pennsylvania, chúng tôi thêm dấu bằng và từ Pennsylvania với dấu nháy đơn xung quanh nó. Trong SQL, các dấu nháy đơn cho biết phần đầu và phần cuối của một chuỗi. Cuối cùng, chúng tôi chạy truy vấn. Bây giờ chúng ta có thể xem xét dữ liệu về tiềm năng năng lượng mặt trời chỉ cho Pennsylvania. Bây giờ chúng tôi đã có dữ liệu mình muốn và chúng tôi đã sẵn sàng bắt đầu đưa dữ liệu đó vào hoạt động, chúng tôi sẽ đề cập đến vấn đề này sau. Nhưng bây giờ, hãy ăn mừng khi hoàn thành một mô-đun khác. Bạn đã bao phủ rất nhiều thông tin phức tạp và kỹ thuật cao. Tuy nhiên, khi bạn tiếp tục luyện tập, mọi thứ sẽ bắt đầu cảm thấy tự nhiên hơn rất nhiều. Bây giờ, hãy dành một chút thời gian để ngồi lại và suy nghĩ về tất cả những gì bạn đã học được. Bạn đã khám phá ra siêu dữ liệu và cách nó sắp xếp dữ liệu bằng cách mô tả nội dung của dữ liệu đó. Bạn đã thấy cách dữ liệu bên trong và bên ngoài được truy cập và cách các nhà phân tích dữ liệu sử dụng chúng để tìm những hiểu biết sâu sắc hấp dẫn để giải quyết các vấn đề kinh doanh. Và bạn có thể sắp xếp và lọc dữ liệu của mình để xác định chính xác thông tin bạn cần.
  • 207. Cuối cùng, bạn vừa học về các truy vấn và thậm chí bạn đã thực hành viết một số truy vấn. Sắp tới, bạn sẽ có một vài bài đọc và sau đó là một thử thách hàng tuần để kiểm tra kiến thức của bạn. Điều này sẽ giúp bạn xác nhận rằng bạn đã hiểu những gì chúng tôi đã làm trong các video này. Và như mọi khi, nếu bạn không chắc chắn về một câu hỏi, tôi thực sự khuyến khích bạn xem lại các video và bài đọc để tìm câu trả lời. Bây giờ bạn là thám tử dữ liệu, vì vậy hãy sử dụng những kỹ năng đó. Hãy tiếp tục công việc tuyệt vời và tôi sẽ gặp bạn sau thử thách hàng tuần.
  • 208. Tuần 4: Tổ chức và bảo vệ dữ liệu của bạn Kỹ năng tổ chức tốt là một phần quan trọng của hầu hết các loại công việc và phân tích dữ liệu cũng không khác. Trong phần này của khóa học, bạn sẽ tìm hiểu các phương pháp hay nhất để tổ chức và bảo mật dữ liệu. Bạn cũng sẽ tìm hiểu cách các nhà phân tích sử dụng quy ước đặt tên tệp để giúp họ sắp xếp công việc của mình. Mục tiêu học tập:  Giải thích các bước có thể thực hiện để bảo mật dữ liệu  Thảo luận về việc sử dụng các quy ước đặt tên tệp của các nhà phân tích dữ liệu  Mô tả các phương pháp hay nhất để tổ chức dữ liệu Chương 1: Tổ chức dữ liệu hiệu quả Cảm thấy tự tin vào dữ liệu của bạn Này, thật tốt khi có bạn trở lại. Cho đến bây giờ, chúng tôi đã tập trung vào việc chuẩn bị dữ liệu của bạn để xử lý và phân tích. Trong những video tiếp theo này, chúng ta sẽ khám phá một phần quan trọng khác của quy trình đó, sắp xếp và bảo vệ dữ liệu của bạn. Việc sắp xếp dữ liệu của bạn rất quan trọng vì một vài lý do; nó giúp bạn dễ dàng tìm kiếm và sử dụng hơn, giúp bạn tránh mắc lỗi trong quá trình phân tích và giúp bảo vệ nó. Sắp tới, chúng ta sẽ xem xét các khái niệm cơ bản về tổ chức dữ liệu cho mục đích sử dụng cá nhân và chuyên nghiệp cũng như các quy ước đặt tên tệp. Sau đó, chúng ta sẽ xem xét một số tính năng bảo mật cho bảng tính. Khi kết thúc một số video tiếp theo này, bạn sẽ có thể thực hiện tất cả những điều này và bạn sẽ có thể giải thích các bước này cho các bên liên quan để họ có thể yên tâm rằng các phương pháp xử lý dữ liệu của bạn an toàn và bảo mật. Khi bạn đã sẵn sàng để bắt đầu, hãy chuyển sang video tiếp theo. Ở đó, chúng ta sẽ bắt đầu với việc tổ chức dữ liệu cho mục đích sử dụng cá nhân. Hãy sắp xếp lại Này, chào mừng trở lại. Cho dù bạn đang sắp xếp dữ liệu cá nhân của mình để sử dụng riêng hay sắp xếp dữ liệu dự án cho công việc, thì bạn muốn tuân theo một số quy trình nhất định để đảm bảo dữ liệu của bạn dễ tìm và sử dụng. Trong video này, chúng tôi sẽ đề cập đến một số phương pháp tổ chức tốt nhất và cũng xem xét một số cách khác nhau để tổ chức dữ liệu dự án. Có rất nhiều phương pháp hay nhất mà bạn có thể sử dụng khi tổ chức dữ liệu, bao gồm quy ước đặt tên, tạo thư mục và lưu trữ các tệp cũ hơn.
  • 209. Trước đây chúng ta đã nói về cách đặt tên tệp, còn được gọi là quy ước đặt tên. Đây là những nguyên tắc nhất quán mô tả nội dung, ngày tháng hoặc phiên bản của tệp trong tên của nó. Về cơ bản, điều này có nghĩa là bạn muốn sử dụng tên hợp lý và mô tả cho các tệp của mình để dễ tìm và sử dụng chúng hơn. Nói về việc dễ dàng tìm thấy mọi thứ, việc sắp xếp các tệp của bạn vào các thư mục sẽ giúp giữ các tệp liên quan đến dự án cùng nhau ở một nơi. Điều này được gọi là thư mục. Ví dụ: tất cả các tệp liên quan đến kế hoạch cho kỳ nghỉ của bạn có thể nằm trong thư mục Kỳ nghỉ2025. Sau đó, bạn có thể chia nhỏ thư mục đó hơn nữa bằng cách tạo các thư mục con như hành trình hoặc ảnh, tùy thuộc vào những gì khác mà bạn muốn dễ dàng truy cập. Cũng có thể hữu ích khi di chuyển các dự án cũ đến một vị trí riêng biệt để tạo kho lưu trữ và giảm bớt sự lộn xộn. Việc tìm và sử dụng các tệp sẽ dễ dàng hơn rất nhiều khi tôi đặt tên cho chúng một cái gì đó có ý nghĩa và có thể tìm kiếm được cũng như khi tôi sắp xếp chúng vào các thư mục. Nó làm cho tất cả dữ liệu của tôi dễ truy cập và hữu ích hơn. Ngoài ba phương pháp hay nhất này, còn có hai điều nữa mà bạn sẽ muốn xem xét khi tổ chức dữ liệu để sử dụng cho công việc. Đầu tiên, dữ liệu dự án mà bạn sẽ sử dụng cho công việc có thể được truy cập và sử dụng bởi nhiều người. Điều quan trọng là phải điều chỉnh các phương pháp đặt tên và lưu trữ của bạn với nhóm của bạn để tránh mọi nhầm lẫn. Nhóm của bạn cũng có thể phát triển các phương pháp siêu dữ liệu như tạo một tệp phác thảo các quy ước đặt tên dự án để dễ dàng tham khảo. Chúng ta sẽ nói chi tiết hơn về các quy ước đặt tên cho các tệp công việc sau. Thứ hai, bạn muốn nghĩ về tần suất bạn tạo bản sao dữ liệu và lưu trữ ở những nơi khác nhau. Quan trọng nhất, bởi vì nếu dữ liệu được lưu trữ trong nhiều cơ sở dữ liệu hoặc bảng tính khác nhau, nó có thể tự mâu thuẫn và dẫn đến sai lầm sau này. Ngoài ra, việc lưu trữ dữ liệu ở nhiều nơi chiếm rất nhiều dung lượng. Cơ sở dữ liệu quan hệ có thể giúp bạn tránh trùng lặp dữ liệu và lưu trữ dữ liệu hiệu quả hơn. Bạn có thể sử dụng các phương pháp này để tổ chức dữ liệu theo nhiều cách khác nhau tùy theo dự án của mình. Hãy xem xét một số ví dụ về tổ chức dữ liệu. Tôi có một số thư mục dự án mẫu ở đây, mỗi thư mục được tổ chức theo một cách hơi khác. Hãy mở chúng ra và xem chúng trông như thế nào. Chúng ta sẽ bắt đầu với thư mục Tài chính cấp cao. Thư mục Tài chính đã được tổ chức phân loại. Có các thư mục con như ngân sách, hóa đơn và bảng lương đại diện cho các danh mục khác nhau. Hãy nhấp vào "Hóa đơn" để xem có gì trong đó. Trong thư mục hóa đơn, bạn có thể thấy rằng chúng tôi có một tập hợp các thư mục con khác được gắn nhãn theo năm, 2014, 2015.... Có vẻ như các thư mục này theo thứ tự thời gian. Đôi khi cách sắp xếp các tệp có thể cho chúng tôi biết dữ liệu trong các tệp đó cũng được sắp xếp như thế nào. Hãy mở một tập tin để xem điều đó có đúng không. Trong thư mục con 2014, có một tệp có hóa đơn từ tháng Sáu. Nếu chúng tôi mở nó, chúng tôi có thể thấy rằng chúng đã được sắp xếp theo ngày, giống như các thư mục.
  • 210. Có nhiều cách khác nhau để tổ chức dữ liệu tùy thuộc vào mục đích bạn cần. Tổ chức phân loại của các thư mục con và tài chính giúp tôi dễ dàng đi thẳng đến hóa đơn, nhưng tổ chức theo trình tự thời gian của thư mục con hóa đơn có thể giúp chúng tôi tìm dữ liệu tài chính từ ngày chính xác mà chúng tôi đang tìm kiếm. Cũng có những cách khác để tổ chức dữ liệu: theo thứ tự quan trọng hoặc thậm chí theo vị trí. Ví dụ: một công ty có thể sử dụng tổ chức phân cấp để dữ liệu nhân viên phản ánh cấu trúc của tổ chức nhân viên của họ. Hoặc một công ty làm việc với dữ liệu địa lý có thể chọn tổ chức theo vị trí. Bạn nên dành thời gian sớm trong một dự án để xem xét phương pháp tổ chức tốt nhất sẽ là gì để bạn và nhóm của bạn gắn bó. Đây là một cách khác để suy nghĩ về nó. Dữ liệu không được sắp xếp giống như một căn phòng lộn xộn. Nó quá tải, khó tìm thấy bất cứ thứ gì trong đó và càng trở nên tồi tệ hơn khi bạn không dọn dẹp nó lâu hơn. Nhưng bằng cách sớm đảm bảo bạn biết nơi đặt các tệp của mình, bạn có thể sắp xếp dữ liệu công việc của mình, dễ sử dụng và không có lỗi. Bây giờ bạn đã thấy tầm quan trọng của việc sắp xếp dữ liệu cho cả mục đích sử dụng cá nhân và công việc, chúng ta sẽ xem xét kỹ hơn các quy ước đặt tên tệp và cách chúng chuyển sang cơ sở dữ liệu của bạn. Hẹn gặp lại các bạn trong video tiếp theo. Tất cả về đặt tên tập tin Xin chào. Bạn đã nghe tôi đề cập đến ý tưởng sử dụng tên tệp hợp lý và có ý nghĩa để giúp tổ chức dữ liệu của bạn. Nhưng việc sử dụng tên tệp nhất quán cũng có thể hợp lý hóa hoặc thậm chí tự động hóa quy trình phân tích của bạn, giúp bạn tiết kiệm thời gian và năng lượng trong thời gian dài. Khi bạn sử dụng các nguyên tắc nhất quán mô tả nội dung, ngày tháng hoặc phiên bản của tệp và tên của tệp, bạn đang sử dụng các quy ước đặt tên tệp. Như chúng tôi đã phát hiện ra, các quy ước đặt tên tệp này giúp chúng tôi sắp xếp, truy cập, xử lý và phân tích dữ liệu của mình. Vì vậy, đây là một số mẹo chung về cách tạo quy ước đặt tên tệp hợp lý và có chức năng. Dưới đây là một số cách đặt tên tệp nhanh Do's. Hãy vạch ra các quy ước của bạn sớm để tránh phải mất thời gian làm lại sau này. Căn chỉnh cách đặt tên tệp của bạn với nhóm của bạn và đảm bảo rằng tên tệp của bạn có ý nghĩa với các tham chiếu đến tên dự án, ngày tạo, phiên bản sửa đổi hoặc bất kỳ thông tin hữu ích nào khác cần thiết để hiểu nội dung trong tệp đó. Bây giờ, có một số điều đơn giản khác mà bạn có thể thực hiện để đảm bảo các quy ước đặt tên tệp của mình được thực hiện đúng. Trước hết, bạn muốn giữ tên tệp của mình ngắn gọn và hấp dẫn. Chúng được coi là điểm tham chiếu nhanh cho bạn biết nội dung trong tệp. Từ các video trước đó, chúng tôi biết rằng chúng tôi muốn bao gồm ngày và số sửa đổi trong tên tệp của mình. Tôi khuyên bạn nên định dạng nó theo năm, tháng và ngày vì điều đó
  • 211. tuân theo tiêu chuẩn ngày quốc tế. Các quốc gia khác nhau có các quy ước về ngày khác nhau, vì vậy hãy ghi nhớ điều đó. Khi bạn bao gồm các số sửa đổi trong tên tệp, hãy thêm số 0 vào đầu, để nếu bạn gặp các số sửa đổi có hai chữ số, thì số đó đã được tích hợp vào quy ước của bạn. Một quy tắc tốt khác là sử dụng dấu gạch ngang, dấu gạch dưới hoặc chữ cái viết hoa thay vì sử dụng dấu cách. Phần mềm của bạn có thể không nhận ra dấu cách và ký tự đặc biệt. Ngoài ra, việc tránh khoảng trắng chắc chắn giúp làm việc với SQL dễ dàng hơn. Lời khuyên cuối cùng của tôi: tạo một tệp văn bản trình bày tất cả các quy ước đặt tên của bạn cho một dự án. Điều này thực sự hữu ích nếu ai đó mới tham gia nhóm của bạn hoặc nếu bạn chỉ cần một lời nhắc nhanh khi đang làm việc gì đó. Chúng tôi đã nói về điều này sớm hơn khi chúng tôi đề cập đến siêu dữ liệu, đó là dữ liệu về dữ liệu. Nó giúp giải thích dữ liệu nào có và cách dữ liệu được tổ chức. Khi bạn sử dụng các quy ước đặt tên tệp nhất quán, có ý nghĩa trong suốt dự án của mình, dữ liệu của bạn sẽ dễ tìm và sử dụng, đồng thời bạn cũng có thể tiết kiệm thời gian cho mình. Tiếp theo, chúng ta sẽ tiếp tục xem xét các bảng tính và chúng ta sẽ nói về các tính năng bảo mật cũng như cách bạn có thể sử dụng chúng để bảo vệ dữ liệu của mình khi dữ liệu đã được sắp xếp. Hẹn gặp bạn ở đó.
  • 212. Chương 2: Bảo mật dữ liệu Các tính năng bảo mật trong bảng tính Bạn quay trở lại rồi. Được rồi, bây giờ dữ liệu của chúng ta đã được tổ chức và dễ tìm, đã đến lúc bắt đầu nghĩ về cách bảo vệ dữ liệu đó. Tin tốt là bảng tính đi kèm với các tính năng bảo mật đã được tích hợp sẵn. Trong video này, chúng ta sẽ xem xét các chương trình bảng tính khác nhau và cách các tính năng bảo mật của chúng, như bảo vệ trang tính và kiểm soát truy cập, giống nhau như thế nào. Khi tôi nói "các tính năng bảo mật", bạn có thể hình dung ra các cách để bảo vệ dữ liệu khỏi những người khác. Nhưng đó chỉ là một loại bảo mật. Các tính năng bảo mật có thể được thiết kế để ngăn người dùng trái phép xem một số tệp nhất định hoặc chỉ khóa trang tính của bạn để bạn không vô tình phá vỡ công thức của mình. Điều này được gọi là bảo mật dữ liệu. Data security is Protecting data from unauthorized access or corruption by adopting safety measures (Bảo mật dữ liệu là bảo vệ dữ liệu khỏi truy cập trái phép hoặc phá hoại bảng bằng cách áp dụng các biện pháp an toàn). Bất kỳ chương trình bảng tính nào bạn đang sử dụng sẽ có các biện pháp bảo mật tương tự được tích hợp sẵn. Là một nhà phân tích dữ liệu, bạn sẽ gặp Google Trang tính và Excel rất nhiều. Hãy nói về những điểm chung của họ. Đầu tiên, cả hai chương trình đều có các tính năng cho phép bạn bảo vệ bảng tính hoặc các phần của bảng tính khỏi bị chỉnh sửa, từ toàn bộ trang tính cho đến các ô đơn lẻ trong bảng. Nếu bạn đang cộng tác với những người dùng khác, bạn có thể dễ dàng khóa các công thức của mình để chúng không vô tình bị hỏng. Nói về cộng tác, cả Excel và Google Trang tính đều có các tính năng kiểm soát truy cập như bảo vệ bằng mật khẩu và quyền của người dùng. Điều này cho phép bạn kiểm soát nhiều hơn đối với những người có thể làm những gì với bảng tính của bạn. Bởi vì các chương trình này được đặt ở những nơi khác nhau, các tính năng này hơi khác nhau. Đối với bảng tính Excel, bạn có thể mã hóa tệp và trang tính bằng mật khẩu trước khi gửi email cho người dùng khác. Trong Google Trang tính, các cài đặt này được tìm thấy trong menu chia sẻ, cho phép bạn kiểm soát ai có thể xem hoặc chỉnh sửa trang tính trực tuyến. Google Trang tính cũng có thể được sao chép để người dùng có thể làm việc với dữ liệu đó mà không làm thay đổi bản gốc. Các tab cũng có thể được ẩn và hiện trong Trang tính và Excel, cho phép bạn thay đổi dữ liệu nào đang được xem. Nhưng hãy nhớ rằng ngay cả những tab bị ẩn cũng có thể được hiển thị bởi người khác, vì vậy hãy chắc chắn rằng bạn vẫn ổn khi những tab đó vẫn có thể truy cập được. Là một nhà phân tích dữ liệu, bảo mật dữ liệu sẽ là ưu tiên hàng đầu. Nhưng cho dù bạn sử dụng chương trình nào để tạo bảng tính, thì vẫn có các tính năng bảo mật giúp bạn giữ cho công việc của mình được an toàn và bảo mật. Có một số phương pháp hay nhất cơ bản
  • 213. khác mà bạn có thể thực hiện để giữ cho dữ liệu của mình an toàn hơn về tổng thể, mà chúng tôi sẽ đề cập sau trong phần đọc này. Bạn đã hoàn thành phần cuối của mô-đun này. Chúc mừng. Trong các video này, chúng tôi đã đề cập đến các chiến lược tổ chức dữ liệu cho mục đích sử dụng cá nhân và công việc, cách phát triển các quy ước đặt tên tệp chức năng và một số biện pháp bảo mật mà bạn có thể tận dụng trong bảng tính. Trước khi bạn chuyển sang bước tiếp theo trong vòng đời phân tích dữ liệu. Điều quan trọng là bạn phải đảm bảo rằng dữ liệu của mình đã được chuẩn bị sẵn sàng, bao gồm cả việc tổ chức và bảo mật dữ liệu đó. Như thường lệ sau video này, bạn sẽ có thử thách hàng tuần. Tôi biết bạn đã nhận được điều này. Sau đó, sau thử thách hàng tuần, có một số tài liệu tùy chọn về kết nối với cộng đồng dữ liệu trực tuyến. Khi bạn bắt đầu xây dựng sự nghiệp của mình trong lĩnh vực phân tích dữ liệu, việc kết nối với những người khác, tìm hiểu về các xu hướng mới trong lĩnh vực này và chia sẻ công việc của bạn sẽ thực sự có giá trị. Tôi nghĩ bạn sẽ nhận được rất nhiều từ những video đó. Điều đó sẽ giúp bạn phát triển sự hiện diện trực tuyến chuyên nghiệp và tìm cách giao tiếp với những người trong lĩnh vực của bạn, đây là chìa khóa khi mạng ngày càng trở nên trực tuyến và cơ hội làm việc từ xa trở thành tiêu chuẩn. Nhưng nếu bạn cảm thấy khá tự tin về sự hiện diện trực tuyến của mình, thay vào đó, bạn có thể chuyển sang thử thách của khóa học. Chúc may mắn trong thử thách hàng tuần này và tôi sẽ sớm gặp lại bạn!
  • 214. Tuần 5: Tùy chọn: Tham gia vào cộng đồng dữ liệu Có một sự hiện diện trực tuyến mạnh mẽ có thể là một trợ giúp lớn cho tất cả những người tìm việc. Trong phần này của khóa học, bạn sẽ khám phá cách quản lý sự hiện diện trực tuyến của mình. Bạn cũng sẽ khám phá những lợi ích của việc kết nối mạng với các chuyên gia phân tích dữ liệu khác. Mục tiêu học tập:  Giải thích tầm quan trọng của việc kết nối mạng với các nhà phân tích dữ liệu khác, bao gồm tham chiếu đến cố vấn và giao tiếp  Áp dụng các phương pháp hay nhất để quản lý sự hiện diện trực tuyến chuyên nghiệp  Mô tả các phương pháp để xây dựng sự hiện diện trực tuyến với tư cách là nhà phân tích dữ liệu Chương 1: Tạo hoặc nâng cao sự hiện diện trực tuyến của bạn Quản lý sự hiện diện của bạn với tư cách là nhà phân tích dữ liệu Này, thật tuyệt khi có bạn trở lại! Cho đến nay, chúng tôi đã đề cập đến mọi thứ, từ việc sử dụng SQL đến các khía cạnh chính của đạo đức dữ liệu. Bạn đã phát triển rất nhiều kỹ năng và tất cả chúng sẽ giúp bạn trên hành trình đến với sự nghiệp phân tích dữ liệu. Nhưng bạn không cần phải tự mình làm mọi thứ. Là một nhà phân tích dữ liệu, bạn sẽ là một phần của cộng đồng dữ liệu đang phát triển. Bằng cách xây dựng sự hiện diện trực tuyến nhất quán và chuyên nghiệp, bạn sẽ có thể kết nối với những người khác trong lĩnh vực của mình và mở rộng mạng lưới của mình. Sắp tới, bạn sẽ tìm hiểu cách bạn có thể bắt đầu xây dựng sự hiện diện trực tuyến của mình. Hoặc nếu bạn đã là thành viên của cộng đồng, bạn có thể đưa mạng lưới trực tuyến của mình tiến xa hơn như thế nào. Với công việc từ xa, trực tuyến ngày càng trở nên phổ biến, mạng trực tuyến cũng vậy. Điều đó có nghĩa là việc có và duy trì sự hiện diện trực tuyến phát triển tốt có thể mở ra nhiều cơ hội mới. Tôi thấy mình liên hệ với những người mà tôi đã làm việc cùng trong suốt sự nghiệp của mình để giữ liên lạc, đặt câu hỏi về trải nghiệm của họ và xem họ đang làm những điều thú vị gì, và điều đó chỉ có thể thực hiện được nhờ tôi duy trì sự hiện diện trực tuyến của mình. Hãy tham gia cùng tôi trong video tiếp theo để bắt đầu xây dựng sự hiện diện trực tuyến của bạn và kết nối! Tại sao sự hiện diện trực tuyến lại quan trọng Xin chào lại. Ngày nay, rất nhiều người trong chúng ta dành nhiều thời gian để kết nối với mọi người trực tuyến. Chúng tôi giữ liên lạc với gia đình và bạn bè mà chúng tôi không thể gặp hàng ngày hoặc đăng về những gì chúng tôi đang làm, đang ăn và đang xem trên mạng
  • 215. xã hội. Nhưng sự hiện diện của chúng tôi trực tuyến vượt xa cá nhân. Sự hiện diện trực tuyến nhất quán và chuyên nghiệp là một công cụ quan trọng để xây dựng sự nghiệp trong lĩnh vực phân tích dữ liệu. Sự hiện diện trực tuyến chuyên nghiệp rất quan trọng vì một vài lý do chính. Đầu tiên, nó có thể giúp các nhà tuyển dụng tiềm năng tìm thấy bạn. Thứ hai, nó cho phép bạn tạo kết nối với các nhà phân tích dữ liệu khác trong lĩnh vực của mình, tìm hiểu và chia sẻ các phát hiện dữ liệu và thậm chí có thể tham gia vào các sự kiện cộng đồng. Hãy nhớ rằng rất nhiều mạng diễn ra trực tuyến bây giờ. Nếu bạn không duy trì sự hiện diện trực tuyến của mình, bạn có thể đang bỏ lỡ những cơ hội tuyệt vời mà không hề hay biết. Có rất nhiều trang web chuyên nghiệp khác nhau mà bạn có thể tận dụng khi bắt đầu xây dựng sự hiện diện trực tuyến của riêng mình. Tuy nhiên, hiện tại, chúng tôi sẽ tập trung vào LinkedIn và GitHub. LinkedIn được thiết kế đặc biệt để giúp mọi người kết nối với những người khác trong lĩnh vực của họ. Đó là một cách tuyệt vời để theo dõi các xu hướng trong ngành của bạn, học hỏi từ các nhà lãnh đạo ngành và tiếp tục tương tác với cộng đồng chuyên nghiệp rộng lớn hơn. Và nếu bạn đang tích cực tìm kiếm một công việc mới, LinkedIn có các bảng công việc mà bạn có thể tìm kiếm. Bạn thậm chí có thể thu hẹp vị trí của mình để xem ai đang tuyển dụng gần bạn. Ngoài ra, các nhà tuyển dụng việc làm thường xuyên sử dụng LinkedIn để tìm các nhà phân tích dữ liệu tiềm năng cho các dự án mới. Luôn luôn là một ý kiến hay để giữ cho hồ sơ LinkedIn của bạn được cập nhật cùng với sơ yếu lý lịch của bạn. Bạn có thể thấy mình được tuyển dụng. LinkedIn cũng cho phép bạn kết nối với mọi người và xây dựng mạng lưới. Bạn có thể chia sẻ những điều thú vị xảy ra trong cuộc sống nghề nghiệp của mình và cập nhật các mối quan hệ của bạn. Bạn không bao giờ biết khi nào bạn có thể kết thúc làm việc với ai đó một lần nữa. Với LinkedIn, bạn có thể được xác nhận vì có kỹ năng làm việc hoặc xác nhận người khác. Nếu bạn gây ấn tượng với ai đó ở công việc trước đây, họ có thể cho người khác biết bạn tuyệt vời như thế nào khi làm việc cùng. GitHub, trang web khác mà tôi đã đề cập trước đó, hơi khác một chút. GitHub là một phần trang web chia sẻ mã, một phần phương tiện truyền thông xã hội. Nó có một cộng đồng tích cực hợp tác và chia sẻ thông tin chi tiết để xây dựng tài nguyên. Bạn có thể nói chuyện với những người dùng GitHub khác trên diễn đàn, sử dụng wiki hướng đến cộng đồng hoặc thậm chí sử dụng nó để quản lý các dự án nhóm. GitHub cũng tổ chức các sự kiện cộng đồng nơi bạn có thể gặp gỡ những người khác trong lĩnh vực này và học hỏi một số điều mới. GitHub có rất nhiều tính năng để bạn kiểm tra. Cách tốt nhất để tìm hiểu thêm về nó là tự mình kiểm tra. Chúng ta cũng sẽ nói nhiều hơn về GitHub ở phần sau của chương trình.
  • 216. Đôi khi, nếu bạn đang tìm kiếm một công việc mới, việc tìm một người có điểm chung với bạn, chẳng hạn như có chung sở thích hoặc cùng quê hương, và tiếp cận với họ, có thể giúp ích rất nhiều. Chỉ một cuộc trò chuyện kéo dài 15 phút với ai đó có thể đưa bạn đến con đường dẫn đến một sự nghiệp mới, cho dù đó là trên một trang mạng chuyên nghiệp như LinkedIn hay tại một sự kiện cộng đồng do GitHub tổ chức. LinkedIn đã trở thành một trong những trang truyền thông xã hội chuyên nghiệp tiêu chuẩn, vì vậy đây là nơi khởi đầu tốt để xây dựng sự hiện diện trực tuyến của bạn. GitHub cung cấp rất nhiều công cụ thực sự tuyệt vời cho các nhà phân tích dữ liệu trong cộng đồng. Nếu bạn chưa có tài khoản trên các trang web này, hãy thử thách bản thân thiết lập chúng ngay bây giờ. Kết nối với những người khác. Chia sẻ một số cập nhật về những gì bạn đang làm ngay bây giờ. Nếu bạn đã sử dụng LinkedIn và GitHub, thì đây là một tin tuyệt vời: chúng ta sẽ nói nhiều hơn về cách tăng cường sự hiện diện trên mạng xã hội hiện tại của bạn vào lần tới. Hẹn sớm gặp lại. Mẹo để tăng cường sự hiện diện trực tuyến của bạn Xin chào. Hãy nói về phương tiện truyền thông xã hội. Ngày nay, có 3,8 tỷ người sử dụng mạng xã hội trên khắp thế giới. Có một cơ hội tốt là bạn có thể đã có sự hiện diện trực tuyến. Thật tuyệt. Điều đó có nghĩa là bạn đã kết nối trực tuyến với mọi người, thậm chí có thể là chuyên nghiệp trên các trang web như LinkedIn. Nếu chưa, bạn có thể bắt đầu dễ dàng bằng cách đăng ký ngay hôm nay. Tuy nhiên, có một số cách thực sự dễ dàng để bạn có thể tăng cường sự hiện diện trực tuyến của mình hơn nữa và sử dụng các hồ sơ hiện có để xây dựng bản sắc chuyên nghiệp của mình. Một trong những điều đầu tiên bạn nên tự hỏi mình khi nhìn vào sự hiện diện trực tuyến mới hoặc hiện có của mình là: bạn có đồng ý với việc các nhà tuyển dụng và đồng nghiệp tiềm năng xem hồ sơ trên mạng xã hội của bạn không? Hãy thử đặt mình vào vị trí của họ. Khi một nhà tuyển dụng tiềm năng đang xem hồ sơ công khai của bạn, họ sẽ tự hỏi liệu bạn có phải là người phù hợp để đại diện cho công ty và các giá trị của họ không. Có điều gì trên tài khoản hiện tại của bạn có thể khiến họ nghĩ khác không? Nếu bạn muốn giới hạn những gì mình chia sẻ, hãy đảm bảo kiểm tra cài đặt quyền riêng tư trên tài khoản của bạn. Nếu chúng được đặt ở chế độ công khai, bất kỳ ai cũng có thể xem mọi thứ bạn đăng. Bạn cũng có thể đặt ảnh hoặc anbom cụ thể ở chế độ riêng tư, nhưng hãy nhớ rằng thao tác này sẽ không xóa chúng khỏi Internet. Xin lưu ý rằng việc thay đổi cài đặt quyền riêng tư không nhất thiết giữ an toàn cho tất cả các bài đăng của bạn, vì vậy bạn phải luôn suy nghĩ cẩn thận trước khi đăng. Giờ đây, cách tốt nhất để đảm bảo rằng các bài đăng và ảnh của bạn phù hợp và chuyên nghiệp là xóa bất kỳ nội dung nào mà bạn không muốn sếp tương lai của mình nhìn thấy. Nếu
  • 217. bạn chuẩn bị tải ảnh lên lần đầu tiên, hãy nghĩ xem những ảnh đó đại diện cho bạn như thế nào trước khi đăng chúng. Vui lòng sao lưu những ảnh này cho các tệp cá nhân của bạn, nhưng có thể không đưa chúng lên Facebook hoặc Instagram. Nói về Facebook và Instagram, có một số tùy chọn dễ dàng để xóa bài đăng trên các nền tảng này. Cả Facebook và Instagram đều có chức năng lưu trữ cho phép bạn xóa bài đăng khỏi trang cá nhân của mình. Bạn thậm chí có thể xóa hàng loạt bài đăng trên Facebook. Trong khi bạn đang ở đó, hãy kiểm tra Twitter của bạn. Các hồ sơ trên mạng xã hội của bạn có thể được kết nối với nhau, vì vậy, điều quan trọng là phải đảm bảo rằng tất cả chúng đều đại diện cho bạn theo cách mà bạn muốn được nhìn nhận một cách chuyên nghiệp. Một nguyên tắc nhỏ: bài đăng của bạn phải thân thiện với gia đình. Điều này áp dụng cho hình ảnh và bài viết văn bản. Kiểm tra để đảm bảo nội dung và ngôn ngữ của bạn phù hợp với cả gia đình. Trong khi bạn đang làm việc để nâng cao tính cách trực tuyến của mình, thì một ảnh đại diện chuyên nghiệp là một điểm nhấn tuyệt vời. Ngay cả khi tài khoản của bạn được đặt ở chế độ riêng tư, nhà tuyển dụng vẫn có thể xem ảnh hồ sơ của bạn. Việc có ảnh cho hồ sơ LinkedIn của bạn rất quan trọng vì nó làm tăng đáng kể cơ hội được liên hệ của bạn. Làm cho ảnh hồ sơ của bạn đại diện cho khía cạnh chuyên nghiệp của bạn theo cách tốt nhất có thể. Khi bạn đã thiết lập và chạy hồ sơ của mình, hãy đăng một cách thận trọng. Hãy nghĩ về hình ảnh chuyên nghiệp mà bạn đang cố gắng tạo ra và gắn bó với nó. Điều này có nghĩa là quản lý các bài đăng cho các nền tảng khác nhau. Quyết định nền tảng nào bạn muốn sử dụng cho gia đình và bạn bè, chẳng hạn như Facebook và Instagram, đồng thời cập nhật về cuộc sống cá nhân của bạn trên các nền tảng đó. Sử dụng các nền tảng chuyên nghiệp, như LinkedIn, cho các bài đăng liên quan đến cuộc sống công việc của bạn và xây dựng các mối quan hệ nghề nghiệp. Một số lượng lớn các công ty và nhà quản lý tuyển dụng sử dụng các nguồn trực tuyến để xác định và chọn ứng viên. Vì vậy, điều quan trọng là đảm bảo rằng sự hiện diện trực tuyến của bạn có tác động tích cực đến cuộc sống thực của bạn. Đảm bảo rằng sự hiện diện trực tuyến của bạn phù hợp với công việc bằng cách đặt tài khoản của bạn ở chế độ riêng tư, xóa các bài đăng mà bạn không muốn sếp hoặc đồng nghiệp của mình xem và đăng bài một cách thận trọng. Đừng ngại nhờ người mà bạn tôn trọng một cách chuyên nghiệp xem qua và đưa ra một số phản hồi cho bạn. Đó có thể là một trợ giúp lớn trong việc xây dựng sự hiện diện trực tuyến đó và sử dụng nó để tạo kết nối trong cộng đồng nghề nghiệp của bạn. Bây giờ chúng tôi đã xây dựng và nâng cao sự hiện diện trực tuyến của mình, hãy tìm hiểu thêm về cách xây dựng mạng lưới và tiếp cận với các chuyên gia khác. Hẹn sớm gặp lại.
  • 218. Chương 2: Xây dựng mạng lưới phân tích dữ liệu Kiến thức về mạng Nghề nào làm networking tốt nhất? Ngành công nghiệp đánh cá. Nhưng nghiêm túc mà nói, công việc chúng ta làm đều liên quan đến con người. Khi bạn đã học được các kỹ năng và phát triển một danh mục đầu tư mạnh mẽ, bước tiếp theo là kết nối với những người trong nghề hoặc ngành của bạn, những người có thể giúp bạn sử dụng những thế mạnh đó để xây dựng sự nghiệp. Trong video này, chúng ta sẽ nói về kết nối mạng. Networking is Professional relationship builing (). Đó là tất cả về việc gặp gỡ mọi người cả trực tuyến và ngoại tuyến và xây dựng mối quan hệ với họ. Kết nối mạng sẽ giúp bạn gặp gỡ những người giống và khác với bạn, đồng thời cũng cập nhật những gì đang diễn ra trong lĩnh vực của bạn. Ngay cả trong tổ chức của bạn, bạn muốn kết nối với các nhóm khác để hiểu rõ hơn về các dự án mà bạn đang thực hiện. Đây là sự thật, rất nhiều cơ hội tốt nhất không được đăng trên bảng việc làm. Họ ở ngoài đó trong thế giới thực. Những vấn đề đang chờ được giải quyết, những đổi mới đang chờ nguồn cảm hứng. Xây dựng mạng lưới của bạn với các nhà phân tích dữ liệu khác thực sự có thể làm tăng khả năng bạn thâm nhập vào lĩnh vực này. Trên thực tế, kết nối với bất kỳ chuyên gia nào trong ngành có thể giúp bạn làm điều đó. Dưới đây là một số điều bạn có thể bắt đầu, tìm kiếm các buổi gặp mặt công khai trong khu vực của mình. Thường có ít nhất một trong mỗi thành phố lớn. Chỉ cần google data analytics meetup gần bạn hoặc tìm kiếm trên meetup.com. Sau đó, bạn có thể tìm hiểu thêm về các loại phân tích dữ liệu khác nhau hoặc chia sẻ mối quan tâm của mình với những người khác trong lĩnh vực này. Bạn cũng nên nhớ rằng chúng ta đang sống trong thế giới kỹ thuật số, vì vậy đừng cảm thấy bị giới hạn trong mạng trực tiếp. Một số người có ảnh hưởng phân tích dữ liệu tốt nhất là trên phương tiện truyền thông xã hội. Theo dõi các công ty thú vị hoặc các nhà lãnh đạo tư tưởng trên LinkedIn, Twitter, Facebook và Instagram, tương tác với họ và chia sẻ nội dung của họ. Nếu có một bài viết mà bạn thích, có thể để lại một bình luận giải thích lý do tại sao. Ngày nay, mạng kỹ thuật số có thể đưa bạn đi bất cứ đâu. Ngoài ra, còn có rất nhiều podcast dữ liệu tuyệt vời để theo dõi. Chúng không chỉ giúp bạn cập nhật cách ngành đang phát triển mà việc nghe các khái niệm được lặp đi lặp lại theo thời gian có thể giúp bạn tự tin hơn vào kiến thức của mình. Ngoài ra còn có rất nhiều blog và cộng đồng trực tuyến như O'Reilly, Kaggle, KDnuggets, GitHub và Medium, có thể giúp bạn kết nối với các đồng nghiệp và chuyên gia. Các khả năng hầu như vô hạn khi nói đến việc xây dựng mạng của bạn. Trong video tiếp theo, chúng ta sẽ nói về một trong những phương pháp hiệu quả nhất, đó là tìm một người cố vấn. Tin tôi đi, bạn không muốn bỏ lỡ điều này đâu.
  • 219. Lợi ích của cố vấn Đó là Maya Angelou cho Oprah Winfrey. Steven Spielberg cho JJ Abrams. Và Warren Buffett cho Bill Gates. Đó là một người cố vấn, và việc có một người có thể tác động rất lớn đến sự nghiệp và cuộc sống của bạn nói chung. Về cơ bản, một người cố vấn là một chuyên gia chia sẻ kiến thức, kỹ năng và kinh nghiệm của họ để giúp bạn phát triển và trưởng thành. Khoảng 3 trong số 4 người nghĩ rằng có một người cố vấn là một phần quan trọng trong quá trình phát triển nghề nghiệp. Nhưng các nghiên cứu chỉ tìm thấy 37 phần trăm thực sự có một người cố vấn. Là một nhà phân tích dữ liệu, bạn không bắt buộc phải có một người cố vấn, nhưng những người tìm thấy một người giỏi sẽ không bao giờ quên họ. Cố vấn có nhiều hình thức. Họ có thể là cố vấn đáng tin cậy, hội đồng âm thanh, nhà phê bình, tài nguyên hoặc tất cả những điều trên. Đôi khi mối quan hệ diễn ra một cách tự nhiên, nhưng thường thì bạn cần chính thức nhờ họ cố vấn cho mình vì họ có thể không biết bạn quan tâm đến sự hướng dẫn của họ. Tôi đã cố gắng tìm kiếm những người cố vấn ở mọi giai đoạn trong sự nghiệp của mình, từ trường học cho đến vai trò hiện tại của tôi tại Google. Luôn luôn tốt để đảm bảo rằng những người cố vấn của bạn có thời gian để hỗ trợ sự phát triển của bạn và việc bạn duy trì mối quan hệ nghề nghiệp với họ cũng quan trọng không kém. Ngoài một người cố vấn, một nhà tài trợ cũng có thể giúp bạn phát triển sự nghiệp. Nhưng chúng ta sẽ nói thêm về điều đó sau. Điều rất quan trọng là tìm ra những gì bạn đang tìm kiếm ở một người cố vấn. Điều này sẽ giúp thu hẹp danh sách các chuyên gia tiềm năng của bạn. Hãy thử nghĩ về những điểm mạnh và thách thức của bạn trong công việc cũng như cách bạn muốn phát triển với tư cách là một nhà phân tích dữ liệu. Và chia sẻ điều đó một cách cởi mở với những người cố vấn tiềm năng! Thật tuyệt khi nghĩ về những trải nghiệm được chia sẻ hoặc điểm chung. Có thể bạn là một cựu chiến binh sẽ được hưởng lợi từ sự hướng dẫn của một nhà phân tích dữ liệu cho quân đội. Hoặc có thể bạn chỉ nghĩ rằng bạn thực sự có thể thu được lợi ích khi nói chuyện với ai đó cùng quê hương với mình. Không có cách nào đúng để tìm được người cố vấn hoàn hảo. Người cố vấn của bạn thậm chí không phải làm việc với bạn. Nếu không có ai mà bạn có thể kết nối trong môi trường làm việc hiện tại của mình, bạn có thể tìm người cố vấn ở bất cứ đâu từ nền tảng truyền thông xã hội, sự kiện kết nối mạng hoặc chương trình kết hợp người cố vấn. Chẳng hạn, các trang web như Score.org và MicroMentor.org và một ứng dụng có tên Mentorship cho phép bạn tìm kiếm thông tin đăng nhập cụ thể phù hợp với nhu cầu của mình. Sau đó, bạn có thể sắp xếp thời gian dành riêng, có thể trên nền tảng, để gặp gỡ hoặc nói chuyện qua điện thoại. Cá nhân tôi thích liên hệ bằng một email hoặc tin nhắn thân thiện trên một trang mạng chuyên nghiệp. Nếu bạn đi theo con đường này, hãy dành chút thời gian để mô tả các mục tiêu
  • 220. nghề nghiệp của bạn và cách chúng có thể phù hợp với kinh nghiệm của chính họ. Hãy thử đề cập đến một số điều bạn đặc biệt thích về tác phẩm hoặc nội dung đã xuất bản của họ. Từ đó, bạn có thể dễ dàng đề xuất một cuộc trò chuyện cà phê, buổi gặp mặt ảo hoặc trao đổi email để mọi thứ diễn ra suôn sẻ. Khi bạn đã có một vài trao đổi, hãy chắc chắn kiểm tra lại với chính mình. Đảm bảo rằng nó phù hợp tự nhiên và bạn đang có mọi thứ mình cần. Bạn cũng nên kiểm tra với người cố vấn của mình để đảm bảo rằng nó cũng hoạt động tốt với họ. Hãy nhớ rằng, đây là một quan hệ đối tác. Bạn và người cố vấn của bạn là những người tham gia bình đẳng. Bạn càng xác thực và trung thực về nó, nó sẽ càng tốt hơn. Ví dụ, chia sẻ lòng biết ơn của bạn đối với thời gian và công sức của họ luôn là một ý tưởng hay. Giờ đây, trong khi một người cố vấn sẽ giúp bạn đạt được những kỹ năng quan trọng và vượt qua những thách thức trong công việc, nhiều người thấy rằng có một người đỡ đầu có thể đưa sự nghiệp của họ tiến xa hơn nữa. Nhà tài trợ là một người ủng hộ chuyên nghiệp, người cam kết thúc đẩy sự nghiệp của người được tài trợ với một tổ chức. Để hiểu sự khác biệt giữa hai vai trò này, hãy nghĩ về nó như thế này. Một người cố vấn giúp bạn nâng cao kỹ năng, một nhà tài trợ giúp bạn thăng tiến. Có sự hỗ trợ của một nhà tài trợ giống như có một mạng lưới an toàn. Họ có thể cho bạn sự tự tin để chấp nhận rủi ro trong công việc, chẳng hạn như yêu cầu một nhiệm vụ mới hoặc thăng chức. Hãy nói về cách bạn có được một nhà tài trợ. Chà, không giống như những người cố vấn, bạn không được chọn người bảo trợ. Nhà tài trợ hầu như luôn chọn bạn. Cách hành động tốt nhất là luôn cam kết làm tốt nhất công việc của mình. Có một cơ hội tốt ai đó có ảnh hưởng sẽ chú ý. Bây giờ chúng ta đã thấy tầm quan trọng của việc kết nối mạng lưới trong các mối quan hệ, nên thực hiện một số bước chủ động. Đầu tiên, xây dựng và nuôi dưỡng sự hiện diện trên LinkedIn của bạn. Tiếp theo, hãy xem xét sự hiện diện trên mạng xã hội hiện tại của bạn và đảm bảo rằng nó đang giúp bạn phát huy hết khả năng của mình. Cuối cùng, hãy luôn cởi mở để kết nối với đồng nghiệp và đồng nghiệp. Bạn không bao giờ biết những điều tuyệt vời mà một cuộc trò chuyện sẽ mang lại. Rachel: Người cố vấn là chìa khóa
  • 221. Học phần 4: Xử lý dữ liệu từ bẩn sang sạch Tuần 1: Tầm quan trọng của sự chính trực Khi bạn bắt đầu nghĩ về cách chuẩn bị dữ liệu để khám phá, phần này của khóa học sẽ nêu bật lý do tại sao tính toàn vẹn của dữ liệu lại rất cần thiết để đưa ra quyết định thành công. Bạn sẽ tìm hiểu về cách tạo dữ liệu và các kỹ thuật mà nhà phân tích sử dụng... Mục tiêu học tập:  Mô tả các biện pháp thống kê liên quan đến tính toàn vẹn của dữ liệu bao gồm sức mạnh thống kê, kiểm tra giả thuyết và biên độ lỗi  Mô tả các chiến lược có thể được sử dụng để giải quyết dữ liệu không đầy đủ  Thảo luận về tầm quan trọng của cỡ mẫu liên quan đến độ lệch mẫu và mẫu ngẫu nhiên  Mô tả mối quan hệ giữa dữ liệu và các mục tiêu kinh doanh liên quan  Xác định tính toàn vẹn của dữ liệu với tham chiếu đến các loại và rủi ro  Thảo luận về tầm quan trọng của các hoạt động trước khi làm sạch Chương 1: Tập trung vào sự chính trực Giới thiệu tập trung vào sự trung thực CHÀO! Rất vui được gặp bạn! Tên tôi là Sally, và tôi ở đây để dạy cho bạn tất cả về cách xử lý dữ liệu. Tôi là trưởng nhóm đo lường và phân tích tại Google. Công việc của tôi là giúp các công ty và đại lý quảng cáo đo lường mức độ thành công và phân tích dữ liệu của họ, vì vậy tôi gặp gỡ nhiều người khác nhau để chỉ cho họ cách phân tích dữ liệu giúp ích cho quảng cáo của họ. Nói về phân tích, trước đó bạn đã học rất tốt cách thu thập và sắp xếp dữ liệu để phân tích. Đây chắc chắn là một bước quan trọng trong quá trình phân tích dữ liệu, bạn đã hoàn thành rất tốt! Bây giờ hãy nói về cách đảm bảo rằng dữ liệu được sắp xếp của bạn hoàn chỉnh và chính xác. Dữ liệu sạch là chìa khóa để đảm bảo dữ liệu của bạn có tính toàn vẹn trước khi bạn phân tích dữ liệu đó. Chúng tôi sẽ chỉ cho bạn cách đảm bảo dữ liệu của bạn sạch sẽ và ngăn nắp. Làm sạch và xử lý dữ liệu là một phần của quá trình phân tích dữ liệu tổng thể. Xin nhắc lại, quy trình đó là Hỏi, Chuẩn bị, Xử lý, Phân tích, Chia sẻ và Hành động. Điều đó có nghĩa là đã đến lúc chúng ta khám phá giai đoạn Xử lý và tôi ở đây để hướng dẫn bạn toàn bộ quá trình. Tôi rất quen thuộc với nơi bạn đang ở ngay bây giờ. Tôi chưa bao giờ nghe nói về phân tích dữ liệu cho đến khi tôi xem qua một chương trình tương tự như chương trình này. Khi tôi bắt đầu tiến
  • 222. bộ, tôi nhận ra rằng tôi thích phân tích dữ liệu đến mức nào và những cánh cửa mà nó có thể mở ra. Và bây giờ tôi rất vui được giúp bạn mở những cánh cửa đó! Một điều tôi nhận ra khi làm việc cho các công ty khác nhau là dữ liệu sạch rất quan trọng trong mọi ngành. Ví dụ, tôi đã sớm học được cách đề phòng dữ liệu trùng lặp, một vấn đề phổ biến mà các nhà phân tích gặp phải khi làm sạch. Tôi đã từng làm việc cho một công ty có nhiều loại đăng ký khác nhau. Trong tập dữ liệu của chúng tôi, mỗi người dùng sẽ có một hàng mới cho từng loại đăng ký mà họ đã mua, điều đó có nghĩa là người dùng sẽ xuất hiện nhiều lần trong dữ liệu của tôi. Vì vậy, nếu tôi đã đếm số lượng người dùng trong một bảng mà không tính đến các bản sao như thế này, tôi sẽ tính một số người dùng hai lần thay vì một lần. Kết quả là, phân tích của tôi sẽ sai, dẫn đến các vấn đề trong báo cáo của tôi và cho các bên liên quan dựa vào phân tích của tôi. Hãy tưởng tượng nếu tôi nói với Giám đốc điều hành rằng chúng tôi có số lượng khách hàng gấp đôi so với thực tế!? Đó là lý do tại sao dữ liệu sạch lại rất quan trọng. Vì vậy, bước đầu tiên trong quá trình xử lý dữ liệu là tìm hiểu về tính toàn vẹn của dữ liệu. Bạn sẽ tìm hiểu tính toàn vẹn của dữ liệu là gì và tại sao việc duy trì tính toàn vẹn của dữ liệu trong suốt quá trình phân tích dữ liệu lại quan trọng. Đôi khi, bạn thậm chí có thể không có dữ liệu mình cần, vì vậy bạn sẽ phải tự tạo dữ liệu đó. Điều này sẽ giúp bạn biết cỡ mẫu và lấy mẫu ngẫu nhiên có thể giúp bạn tiết kiệm thời gian và công sức như thế nào. Kiểm tra dữ liệu là một bước quan trọng khác cần thực hiện khi xử lý dữ liệu. Chúng tôi sẽ chia sẻ một số hướng dẫn về cách kiểm tra dữ liệu trước khi quá trình phân tích của bạn chính thức bắt đầu. Giống như bạn giặt quần áo và bát đĩa trong cuộc sống hàng ngày, các nhà phân tích cũng luôn làm sạch dữ liệu của họ. Tầm quan trọng của dữ liệu sạch chắc chắn sẽ là một trọng tâm ở đây. Bạn sẽ học các kỹ thuật làm sạch dữ liệu cho tất cả các tình huống, cùng với một số cạm bẫy cần chú ý khi bạn làm sạch. Bạn sẽ khám phá cách làm sạch dữ liệu trong cả bảng tính và cơ sở dữ liệu, dựa trên những gì bạn đã học về bảng tính. Chúng ta sẽ nói nhiều hơn về SQL và cách bạn có thể sử dụng nó để làm sạch dữ liệu cũng như làm những việc hữu ích khác. Khi các nhà phân tích làm sạch dữ liệu của họ, họ làm nhiều việc hơn là kiểm tra tại chỗ để đảm bảo dữ liệu được thực hiện chính xác. Bạn sẽ học cách xác minh và báo cáo kết quả làm sạch của mình. Điều này bao gồm ghi lại quá trình làm sạch của bạn, quá trình này có rất nhiều lợi ích mà chúng ta sẽ khám phá. Điều quan trọng cần nhớ là xử lý dữ liệu chỉ là một trong những nhiệm vụ bạn sẽ hoàn thành với tư cách là nhà phân tích dữ liệu. Trên thực tế, kỹ năng làm sạch dữ liệu của bạn có thể chỉ là thứ bạn đánh dấu trong sơ yếu lý lịch khi bắt đầu tìm việc. Nói về sơ yếu lý lịch, bạn sẽ có thể bắt đầu suy nghĩ về cách xây dựng sơ yếu lý lịch của riêng mình từ góc độ của một nhà phân tích dữ liệu. Sau khi hoàn thành ở đây, bạn sẽ đánh giá cao dữ liệu sạch và tầm quan trọng của nó trong quá trình phân tích dữ liệu. Vậy hãy bắt đầu!
  • 223. Chương 2: Tính toàn vẹn của dữ liệu và mục tiêu phân tích Tại sao tính toàn vẹn của dữ liệu lại quan trọng? Chào mừng trở lại. Trong video này, chúng ta sẽ thảo luận về tính toàn vẹn của dữ liệu và một số rủi ro mà bạn có thể gặp phải với tư cách là nhà phân tích dữ liệu. Một phân tích mạnh mẽ phụ thuộc vào tính toàn vẹn của dữ liệu. Nếu dữ liệu bạn đang sử dụng bị xâm phạm theo bất kỳ cách nào, phân tích của bạn sẽ không hiệu quả như mong muốn. Data integrity is The accuracy, completeness, consistency, and trustworthiness of data throughout its lifecycle (Toàn vẹn dữ liệu là tính chính xác, đầy đủ, nhất quán và đáng tin cậy của dữ liệu trong suốt vòng đời của nó). Điều đó nghe có vẻ giống như rất nhiều phẩm chất để dữ liệu tồn tại. Nhưng hãy tin tôi, bạn nên kiểm tra tất cả chúng trước khi tiến hành phân tích. Nếu không, phân tích của bạn có thể sai. Không phải vì bạn đã làm sai điều gì đó, mà vì dữ liệu bạn đang làm việc đã sai ngay từ đầu. Khi tính toàn vẹn của dữ liệu thấp, nó có thể gây ra bất kỳ điều gì, từ việc mất một pixel trong hình ảnh cho đến quyết định y tế không chính xác. Trong một số trường hợp, một phần bị thiếu có thể khiến tất cả dữ liệu của bạn trở nên vô dụng. Tính toàn vẹn của dữ liệu có thể bị xâm phạm theo nhiều cách khác nhau. Có khả năng dữ liệu có thể bị xâm phạm mỗi khi nó được sao chép, truyền hoặc thao tác theo bất kỳ cách nào. Data replication is The process of storing data in multiple (Nhân bản dữ liệu là quá trình lưu trữ dữ liệu ở nhiều vị trí). Nếu bạn đang sao chép dữ liệu vào những thời điểm khác nhau ở những nơi khác nhau, thì có khả năng dữ liệu của bạn sẽ không đồng bộ. Dữ liệu này thiếu tính toàn vẹn vì những người khác nhau có thể không sử dụng cùng một dữ liệu cho các phát hiện của họ, điều này có thể gây ra sự không nhất quán. Data transfer is The process of copying data from a storage device to memory, or from one computer to another (Chuyển đổi dữ liệu là quá trình sao chép dữ liệu từ thiết bị lưu trữ vào bộ nhớ máy tình hoặc từ máy tính này sang máy tính khác). Nếu quá trình truyền dữ liệu của bạn bị gián đoạn, bạn có thể nhận được tập dữ liệu không đầy đủ, có thể không hữu ích cho nhu cầu của bạn. Data mainipulation is The process of changing data to make it move organized and easier to read (Thao tác dữ liệu là quá trình thay đổi dữ liệu để làm cho dữ liệu có tổ chức và dễ đọc hơn). Thao tác dữ liệu nhằm làm cho quá trình phân tích dữ liệu hiệu quả hơn, nhưng một lỗi trong quá trình này có thể làm giảm hiệu quả. Cuối cùng, dữ liệu cũng có thể bị xâm phạm do lỗi của con người, vi-rút, phần mềm độc hại, hack và lỗi hệ thống, tất cả đều có thể khiến bạn đau đầu hơn. Tôi sẽ dừng lại ở đó. Đó là đủ tin xấu để tiêu hóa.
  • 224. Hãy chuyển sang một số tin tốt có thể xảy ra. Ở nhiều công ty, kho dữ liệu hoặc nhóm kỹ thuật dữ liệu đảm nhiệm việc đảm bảo tính toàn vẹn của dữ liệu. Sắp tới, chúng ta sẽ tìm hiểu về cách kiểm tra tính toàn vẹn của dữ liệu với tư cách là nhà phân tích dữ liệu. Nhưng hãy yên tâm, thường sẽ có người khác hỗ trợ bạn. Sau khi bạn biết mình đang làm việc với dữ liệu nào, điều quan trọng là phải kiểm tra kỹ xem dữ liệu của bạn có đầy đủ và hợp lệ hay không trước khi phân tích. Điều này sẽ giúp đảm bảo rằng các phân tích và kết luận cuối cùng của bạn là chính xác. Kiểm tra tính toàn vẹn của dữ liệu là một bước quan trọng trong quá trình xử lý dữ liệu của bạn để chuẩn bị sẵn sàng cho việc phân tích, cho dù bạn hay người khác trong công ty của bạn đang thực hiện việc đó. Sắp tới, bạn sẽ tìm hiểu nhiều hơn về tính toàn vẹn của dữ liệu. Hẹn sớm gặp lại! Cân bằng các mục tiêu với tính toàn vẹn dữ liệu Xin chào, bạn nên nhớ kiểm tra tính toàn vẹn của dữ liệu. Điều quan trọng nữa là kiểm tra xem dữ liệu bạn sử dụng có phù hợp với mục tiêu kinh doanh hay không. Điều này bổ sung thêm một lớp nữa để duy trì tính toàn vẹn của dữ liệu vì dữ liệu bạn đang sử dụng có thể có những hạn chế mà bạn cần phải xử lý. Quá trình khớp dữ liệu với các mục tiêu kinh doanh thực sự có thể khá đơn giản. Đây là một ví dụ nhanh. Giả sử bạn là nhà phân tích cho một doanh nghiệp sản xuất và bán phụ tùng ô tô. Nếu bạn cần giải quyết câu hỏi về doanh thu được tạo ra từ việc bán một bộ phận nhất định, thì bạn sẽ lấy bảng doanh thu từ tập dữ liệu. Nếu câu hỏi là về đánh giá của khách hàng, thì bạn sẽ kéo bảng đánh giá lên để phân tích xếp hạng trung bình. Nhưng trước khi đi sâu vào bất kỳ phân tích nào, bạn cần xem xét một số hạn chế có thể ảnh hưởng đến nó. Nếu dữ liệu chưa được làm sạch đúng cách thì bạn sẽ không thể sử dụng dữ liệu đó. Bạn sẽ cần đợi cho đến khi quá trình làm sạch kỹ lưỡng được thực hiện. Bây giờ, giả sử bạn đang cố gắng tìm số tiền chi tiêu trung bình của một khách hàng. Bạn nhận thấy dữ liệu của cùng một khách hàng hiển thị trong nhiều hàng. Điều này được gọi là dữ liệu trùng lặp. Để khắc phục điều này, bạn có thể cần thay đổi định dạng của dữ liệu hoặc bạn có thể cần thay đổi cách tính trung bình. Nếu không, có vẻ như dữ liệu dành cho hai người khác nhau và bạn sẽ mắc kẹt với các tính toán sai lệch. Bạn cũng có thể nhận ra rằng không có đủ dữ liệu để hoàn thành một phân tích chính xác. Có thể bạn chỉ có dữ liệu bán hàng trong vài tháng. Có rất ít khả năng bạn có thể đợi thêm dữ liệu, nhưng có nhiều khả năng là bạn sẽ phải thay đổi quy trình của mình hoặc tìm các nguồn dữ liệu thay thế trong khi vẫn đạt được mục tiêu của mình. Tôi thích nghĩ về một tập dữ liệu giống như một bức tranh. Chụp bức ảnh này. chúng tôi đang tìm gì vậy? Trừ khi bạn là một chuyên gia du lịch hoặc am hiểu về khu vực này, có thể khó để chọn ra chỉ từ hai hình ảnh này. Trực quan, nó rất rõ ràng khi chúng ta không nhìn thấy bức tranh toàn cảnh. Khi bạn có được bức tranh hoàn chỉnh, bạn nhận ra rằng... bạn đang
  • 225. ở London! Với dữ liệu không đầy đủ, thật khó để nhìn thấy bức tranh toàn cảnh để có cảm giác thực sự về những gì đang diễn ra. Đôi khi, chúng tôi tin tưởng vào dữ liệu vì nếu dữ liệu đến với chúng tôi theo hàng và cột, có vẻ như mọi thứ chúng tôi cần đều ở đó nếu chúng tôi chỉ truy vấn nó. Nhưng điều đó không đúng. Tôi nhớ có lần tôi phát hiện ra mình không có đủ dữ liệu và phải tìm giải pháp. Tôi đang làm việc cho một công ty bán lẻ trực tuyến và được yêu cầu tìm cách rút ngắn thời gian mua hàng của khách hàng xuống thời gian giao hàng. Thời gian giao hàng nhanh hơn thường dẫn đến khách hàng hạnh phúc hơn. Khi tôi kiểm tra tập dữ liệu, tôi thấy thông tin theo dõi rất hạn chế. Chúng tôi đã thiếu một số chi tiết khá quan trọng. Vì vậy, các kỹ sư dữ liệu và tôi đã tạo các quy trình mới để theo dõi thông tin bổ sung, chẳng hạn như số điểm dừng trong một hành trình. Sử dụng dữ liệu này, chúng tôi đã giảm thời gian từ khi mua hàng đến khi giao hàng và nhận thấy sự cải thiện về mức độ hài lòng của khách hàng. Điều đó cảm thấy khá tuyệt vời! Học cách xử lý các vấn đề về dữ liệu trong khi vẫn tập trung vào mục tiêu của bạn sẽ giúp bạn chuẩn bị thành công trong sự nghiệp với tư cách là nhà phân tích dữ liệu. Và con đường dẫn đến thành công của bạn vẫn tiếp tục. Bước tiếp theo, bạn sẽ tìm hiểu thêm về cách sắp xếp dữ liệu phù hợp với mục tiêu. Cố lên nhé!
  • 226. Chương 3: Vượt qua những thách thức của việc thiếu dữ liệu Xử lý dữ liệu không đầy đủ Mọi nhà phân tích đều ở trong tình huống không có đủ dữ liệu để trợ giúp cho mục tiêu kinh doanh của họ. Xem xét lượng dữ liệu được tạo ra mỗi ngày, có thể khó tin nhưng đó là sự thật. Vì vậy, hãy thảo luận về những gì bạn có thể làm khi không có đủ dữ liệu. Chúng tôi sẽ đề cập đến cách đặt giới hạn cho phạm vi phân tích của bạn và dữ liệu nào bạn nên đưa vào. Tại một thời điểm, tôi là nhà phân tích dữ liệu tại một trung tâm hỗ trợ. Mỗi ngày, chúng tôi nhận được câu hỏi của khách hàng, được đăng nhập dưới dạng vé hỗ trợ. Tôi được yêu cầu dự đoán số lượng yêu cầu hỗ trợ sẽ đến mỗi tháng để biết họ cần thuê thêm bao nhiêu người. Điều rất quan trọng là chúng tôi phải có đủ dữ liệu trong ít nhất vài năm trở lại đây vì tôi phải tính đến những thay đổi hàng năm và theo mùa. Nếu tôi chỉ có sẵn dữ liệu của năm hiện tại, tôi sẽ không biết rằng mức tăng đột biến trong tháng 1 là phổ biến và liên quan đến những người yêu cầu hoàn tiền sau kỳ nghỉ lễ. Vì tôi có đủ dữ liệu nên tôi có thể đề nghị chúng ta thuê thêm người vào tháng Giêng để chuẩn bị. Những thách thức chắc chắn sẽ xuất hiện, nhưng tin tốt là một khi bạn biết mục tiêu kinh doanh của mình, bạn sẽ có thể nhận ra liệu mình có đủ dữ liệu hay không. Và nếu không, bạn sẽ có thể xử lý nó trước khi bắt đầu phân tích. Bây giờ, hãy xem một số hạn chế mà bạn có thể gặp phải và cách bạn có thể xử lý các loại dữ liệu không đủ khác nhau. Giả sử bạn đang làm việc trong ngành du lịch và bạn cần tìm hiểu kế hoạch du lịch nào được tìm kiếm thường xuyên nhất. Nếu bạn chỉ sử dụng dữ liệu từ một trang web đặt phòng, thì bạn đang giới hạn bản thân với dữ liệu chỉ từ một nguồn. Các trang web đặt phòng khác có thể hiển thị các xu hướng khác nhau mà bạn muốn xem xét để phân tích. Nếu một giới hạn như thế này ảnh hưởng đến phân tích của bạn, thì bạn có thể dừng lại và quay lại gặp các bên liên quan để vạch ra kế hoạch. Nếu tập dữ liệu của bạn liên tục cập nhật, điều đó có nghĩa là dữ liệu vẫn đang đến và có thể chưa hoàn chỉnh. Vì vậy, nếu có một điểm thu hút khách du lịch hoàn toàn mới mà bạn đang phân tích sự quan tâm và tham dự, thì có thể không có đủ dữ liệu để bạn xác định xu hướng. Ví dụ: bạn có thể muốn đợi một tháng để thu thập dữ liệu. Hoặc bạn có thể liên hệ với các bên liên quan và hỏi về việc điều chỉnh mục tiêu. Ví dụ: bạn có thể phân tích xu hướng từ tuần này sang tuần khác thay vì tháng này sang tháng khác. Bạn cũng có thể dựa trên phân tích của mình về các xu hướng trong ba tháng qua và nói: "Đây là tình hình tham dự điểm du lịch trong tháng thứ tư." Bạn có thể không có đủ dữ liệu để biết liệu con số này quá thấp hay quá cao. Nhưng bạn sẽ nói với các bên liên quan rằng đó là ước tính tốt nhất của bạn dựa trên dữ liệu bạn hiện có. Mặt khác, dữ liệu của bạn có thể cũ hơn và không còn phù hợp nữa. Dữ liệu lỗi thời về sự hài lòng của khách hàng sẽ không bao gồm các phản hồi gần đây nhất. Vì vậy, bạn sẽ dựa vào xếp hạng cho các khách sạn hoặc nhà nghỉ cho thuê có thể không còn chính xác nữa. Trong trường hợp này, cách tốt nhất của bạn
  • 227. có thể là tìm một tập dữ liệu mới để làm việc. Dữ liệu bị giới hạn về mặt địa lý cũng có thể không đáng tin cậy. Nếu công ty của bạn hoạt động trên toàn cầu, bạn sẽ không muốn sử dụng dữ liệu giới hạn để đi du lịch chỉ trong một quốc gia. Bạn sẽ muốn có một bộ dữ liệu bao gồm tất cả các quốc gia. Vì vậy, đó chỉ là một số hạn chế phổ biến nhất mà bạn sẽ gặp phải và một số cách bạn có thể giải quyết chúng. Bạn có thể xác định xu hướng với dữ liệu có sẵn hoặc đợi thêm dữ liệu nếu thời gian cho phép; bạn có thể nói chuyện với các bên liên quan và điều chỉnh mục tiêu của mình; hoặc bạn có thể tìm kiếm một tập dữ liệu mới. Nhu cầu thực hiện các bước này sẽ phụ thuộc vào vai trò của bạn trong công ty và có thể là nhu cầu của toàn ngành. Nhưng học cách đối phó với dữ liệu không đầy đủ luôn là một cách tuyệt vời để chuẩn bị cho bạn thành công. Quyền hạn phân tích dữ liệu của bạn đang phát triển mạnh mẽ hơn. Và đúng lúc. Sau khi tìm hiểu thêm về các hạn chế và giải pháp, bạn sẽ tìm hiểu về sức mạnh thống kê, một công cụ tuyệt vời khác để bạn sử dụng. Hẹn sớm gặp lại! Tầm quan trọng của cỡ mẫu Được rồi, trước đó chúng ta đã nói về việc có đúng loại dữ liệu để đáp ứng mục tiêu kinh doanh của bạn và tầm quan trọng của việc có đúng lượng dữ liệu để đảm bảo phân tích của bạn chính xác nhất có thể. Bạn có thể nhớ rằng đối với các nhà phân tích dữ liệu, population is All possible data values in a certain dataset (Tổng thể là tất cả các giá trị dữ liệu có thể có trong một tập dữ liệu). Nếu bạn có thể sử dụng 100 phần trăm dân số trong phân tích của mình, điều đó thật tuyệt. Nhưng đôi khi việc thu thập thông tin về toàn bộ dân số là không thể. Nó quá tốn thời gian hoặc tốn kém. Ví dụ: giả sử một tổ chức toàn cầu muốn biết thêm về những người nuôi thú cưng có mèo. Bạn có nhiệm vụ tìm ra loại đồ chơi mà chủ sở hữu mèo ở Canada thích. Nhưng có hàng triệu chủ sở hữu mèo ở Canada, vì vậy việc lấy dữ liệu từ tất cả họ sẽ là một thách thức lớn. Đừng sợ! Cho phép tôi giới thiệu với bạn... cỡ mẫu! Sample size is A part of population that is representative of the population (Mẫu là một phân đoạn của tổng thể dùng để đại diện cho toàn bộ tổng thể). Mục tiêu là thu thập đủ thông tin từ một nhóm nhỏ trong quần thể để đưa ra dự đoán hoặc kết luận về toàn bộ quần thể. Mẫu giúp đảm bảo mức độ mà bạn có thể tin tưởng rằng kết luận của bạn đại diện chính xác cho tổng thể. Đối với dữ liệu về chủ sở hữu mèo, kích thước mẫu có thể chứa dữ liệu về hàng trăm hoặc hàng nghìn người thay vì hàng triệu người. Sử dụng một mẫu để phân tích sẽ tiết kiệm chi phí hơn và mất ít thời gian hơn. Nếu được thực hiện cẩn thận và chu đáo, bạn có thể nhận được kết quả tương tự bằng cách sử dụng một cỡ mẫu thay vì cố gắng săn lùng từng chủ sở hữu mèo để tìm đồ chơi mèo yêu thích của họ.
  • 228. Dù vậy, có một nhược điểm tiềm năng. Khi bạn chỉ sử dụng một mẫu nhỏ của tổng thể, điều đó có thể dẫn đến sự không chắc chắn. Bạn không thể thực sự chắc chắn 100 phần trăm rằng số liệu thống kê của bạn là đại diện đầy đủ và chính xác về tổng thể. Điều này dẫn đến sai lệch lấy mẫu mà chúng ta đã đề cập trước đó trong chương trình. Sampling bias is A sample isn’t representative of the population as a whole (Lấy mẫu thiên vị là Dữ liệu được lấy mẫu không đại diện cho toàn bộ tổng thể). Điều này có nghĩa là một số thành viên của dân số đang được đại diện quá mức hoặc không được đại diện quá mức. Ví dụ: nếu cuộc khảo sát được sử dụng để thu thập dữ liệu từ những người nuôi mèo chỉ bao gồm những người có điện thoại thông minh, thì những người nuôi mèo không có điện thoại thông minh sẽ không được thể hiện trong dữ liệu. Sử dụng lấy mẫu ngẫu nhiên có thể giúp giải quyết một số vấn đề với sai lệch lấy mẫu. Random sampling is A way of selecting a sample from a population so that every possible type of the sample has an equal chance of being chosen (Lấy mẫu ngẫu nhiên là một cách lấy mẫu từ một tập hợp sao cho mỗi loại mẫu có thể đều có cơ hội được chọn như nhau). Quay trở lại chủ sở hữu mèo của chúng tôi một lần nữa, sử dụng một mẫu chủ sở hữu mèo ngẫu nhiên có nghĩa là chủ sở hữu mèo thuộc mọi loại đều có cơ hội được chọn như nhau. Những người nuôi mèo sống trong các căn hộ ở Ontario sẽ có cơ hội được đại diện giống như những người sống trong các ngôi nhà ở Alberta. Là một nhà phân tích dữ liệu, bạn sẽ thấy rằng việc tạo kích thước mẫu thường diễn ra trước khi bạn có được dữ liệu. Nhưng bạn vẫn nên biết rằng dữ liệu bạn sắp phân tích là đại diện cho tổng thể và phù hợp với mục tiêu của bạn. Bạn cũng nên biết điều gì sắp xảy ra trong hành trình dữ liệu của mình. Trong video tiếp theo, bạn sẽ có một tùy chọn để trở nên thoải mái hơn với kích thước mẫu. Hẹn gặp bạn ở đó.
  • 229. Chương 4: Kiểm tra dữ liệu của bạn Sử dụng sức mạnh thống kê Này, kia. Chắc hẳn ai trong chúng ta cũng từng mơ ước có được siêu năng lực ít nhất một lần trong đời. Tôi biết tôi có. Tôi rất thích có thể bay. Nhưng có một siêu năng lực khác mà bạn có thể chưa từng nghe đến: sức mạnh thống kê. Statistical power is The probability of getting meaningful results from a test (Sức mạnh thống kê là xác suất mà một thử nghiệm có ý nghĩa sẽ có một ảnh hưởng đáng kể về mặt thống kê). Tôi đoán đó không phải là siêu năng lực mà bất kỳ ai trong số các bạn từng mơ ước. Tuy nhiên, đó là một siêu cường dữ liệu khá tuyệt vời. Đối với các nhà phân tích dữ liệu, các dự án của bạn có thể bắt đầu bằng cuộc khảo sát hoặc nghiên cứu. Hypothesis testing is A way to see if a survey or experiment has meaningful results (Kiểm định giả thuyết là một quy trình để xác định xem kết quả của một cuộc khảo sát hoặc thử nghiệm có ý nghĩa hay không). Đây là một ví dụ. Giả sử bạn làm việc cho một chuỗi nhà hàng đang lên kế hoạch cho chiến dịch tiếp thị cho món sữa lắc mới của họ. Bạn cần thử nghiệm quảng cáo trên một nhóm khách hàng trước khi biến nó thành một chiến dịch quảng cáo trên toàn quốc. Trong thử nghiệm, bạn muốn kiểm tra xem khách hàng thích hay không thích chiến dịch. Bạn cũng muốn loại trừ bất kỳ yếu tố nào bên ngoài quảng cáo có thể khiến họ nói rằng họ không thích quảng cáo đó. Sử dụng tất cả các khách hàng của bạn sẽ là quá tốn thời gian và tốn kém. Vì vậy, bạn sẽ cần tính xem bạn sẽ cần bao nhiêu khách hàng để chứng minh rằng quảng cáo có hiệu quả. Năm mươi có lẽ sẽ không đủ. Ngay cả khi bạn chọn ngẫu nhiên 50 khách hàng, bạn vẫn có thể gặp phải những khách hàng hoàn toàn không thích sữa lắc. Và nếu điều đó xảy ra, bạn sẽ không thể đo lường hiệu quả của quảng cáo trong việc nhận được nhiều đơn đặt hàng sữa lắc hơn vì không có ai trong cỡ mẫu sẽ đặt hàng chúng. Đó là lý do tại sao bạn cần cỡ mẫu lớn hơn: để bạn có thể đảm bảo rằng bạn có đủ số lượng người cho thử nghiệm của mình. Thông thường, cỡ mẫu càng lớn thì cơ hội bạn có kết quả có ý nghĩa thống kê với thử nghiệm của mình càng cao. Và đó là sức mạnh thống kê. Trong trường hợp này, sử dụng càng nhiều khách hàng càng tốt sẽ cho thấy sự khác biệt thực sự giữa nhóm thích hoặc không thích quảng cáo so với những người có quyết định hoàn toàn không dựa trên quảng cáo. Có nhiều cách để tính toán chính xác sức mạnh thống kê, nhưng chúng ta sẽ không đi sâu vào chúng ở đây. Bạn có thể cần phải tự mình tính toán nó với tư cách là một nhà phân tích dữ liệu. Hiện tại, bạn nên biết rằng sức mạnh thống kê thường được hiển thị dưới dạng giá trị trên một. Vì vậy, nếu sức mạnh thống kê của bạn là 0,6, thì điều đó cũng giống như nói 60%. Trong thử nghiệm quảng cáo sữa lắc, nếu bạn tìm thấy sức mạnh thống kê là 60%, điều đó có
  • 230. nghĩa là có 60% khả năng bạn nhận được kết quả có ý nghĩa thống kê về hiệu quả của quảng cáo. "Có ý nghĩa thống kê" là một thuật ngữ được sử dụng trong thống kê. Nếu bạn muốn tìm hiểu thêm về ý nghĩa kỹ thuật, bạn có thể tìm kiếm trực tuyến. Nhưng về cơ bản, nếu một cuộc khảo sát có ý nghĩa thống kê, điều đó có nghĩa là kết quả của cuộc khảo sát là có thật và không phải là lỗi do cơ hội ngẫu nhiên gây ra. Vì vậy, có 60% khả năng kết quả kiểm tra quảng cáo sữa lắc là đáng tin cậy và có thật và 40% khả năng kết quả kiểm tra là sai. Thông thường, bạn cần có sức mạnh thống kê ít nhất là 0,8 hoặc 80% để coi kết quả của bạn có ý nghĩa thống kê. Hãy xem thêm một kịch bản nữa. Chúng tôi sẽ gắn bó với sữa lắc bởi vì tôi thích sữa lắc. Hãy tưởng tượng bạn làm việc cho một chuỗi nhà hàng muốn tung ra một loại sữa lắc có hương vị bánh sinh nhật hoàn toàn mới. Loại sữa lắc này sẽ đắt hơn để sản xuất so với các loại sữa lắc khác của bạn. Công ty của bạn hy vọng rằng tiếng vang xung quanh hương vị mới sẽ mang lại nhiều khách hàng hơn và tiền để bù đắp chi phí này. Trước tiên, họ muốn thử nghiệm điều này ở một vài địa điểm nhà hàng. Vì vậy, hãy tính xem bạn phải sử dụng bao nhiêu vị trí để tự tin vào kết quả của mình. Đầu tiên, bạn phải suy nghĩ về những gì có thể ngăn bạn nhận được kết quả có ý nghĩa thống kê. Có nhà hàng nào đang thực hiện bất kỳ chương trình khuyến mãi nào khác có thể mang lại khách hàng mới không? Có phải một số nhà hàng có những khách hàng luôn mua món đồ mới nhất, bất kể đó là món gì không? Có một số địa điểm có công trình xây dựng mới bắt đầu, điều đó sẽ ngăn cản khách hàng thậm chí đến nhà hàng không? Để có được sức mạnh thống kê cao hơn, bạn phải xem xét tất cả các yếu tố này trước khi quyết định có bao nhiêu địa điểm để đưa vào cỡ mẫu cho nghiên cứu của mình. Bạn muốn đảm bảo rằng mọi tác động đều có thể là do hương vị sữa lắc mới chứ không phải do yếu tố khác. Các tác động có thể đo lường được sẽ là sự gia tăng doanh số bán hàng hoặc số lượng khách hàng tại các địa điểm trong cỡ mẫu của bạn. Đó là nó cho bây giờ. Sắp tới, chúng ta sẽ khám phá các kích thước mẫu một cách chi tiết hơn để bạn có thể hiểu rõ hơn về cách chúng tác động đến các khảo sát và nghiên cứu của bạn. Trong thời gian chờ đợi, bạn đã biết thêm một chút về sữa lắc và siêu năng lực. Và tất nhiên, sức mạnh thống kê. Đáng buồn thay, chỉ sức mạnh thống kê mới có thể thực sự hữu ích cho các nhà phân tích dữ liệu. Mặc dù việc mặc áo choàng của tôi và bay đi lấy một ly sữa lắc ngay bây giờ nghe có vẻ khá tốt. Xác định kích thước mẫu tốt nhất Thật tuyệt khi được gặp lại bạn. Trong video này, chúng ta sẽ đi vào chi tiết hơn về kích thước mẫu và tính toàn vẹn của dữ liệu.
  • 231. Nếu bạn đã từng đến một cửa hàng phát hàng mẫu, bạn sẽ biết đó là một trong những thú vui nho nhỏ của cuộc đời. Đối với tôi, dù sao đi nữa! Những mẫu nhỏ đó cũng là một cách rất thông minh để doanh nghiệp tìm hiểu thêm về sản phẩm của họ từ khách hàng mà không cần phải cung cấp cho mọi người một mẫu miễn phí. Rất nhiều tổ chức sử dụng kích thước mẫu theo cách tương tự. Họ lấy một phần của cái gì đó lớn hơn. Trong trường hợp này, một mẫu của tổng thể. Đôi khi, họ sẽ thực hiện các thử nghiệm phức tạp trên dữ liệu của mình để xem dữ liệu đó có đáp ứng các mục tiêu kinh doanh của họ hay không. Chúng tôi sẽ không đi vào tất cả các tính toán cần thiết để làm điều này một cách hiệu quả. Thay vào đó, chúng ta sẽ tập trung vào một cái nhìn "bức tranh lớn" về quy trình và những gì nó liên quan. Xin nhắc lại, cỡ mẫu là một phần của tổng thể đại diện cho tổng thể. Đối với các doanh nghiệp, nó là một công cụ rất quan trọng. Việc phân tích toàn bộ dữ liệu có thể vừa tốn kém vừa tốn thời gian. Sử dụng kích thước mẫu thường có ý nghĩa nhất và vẫn có thể dẫn đến những phát hiện hợp lệ và hữu ích. Có những máy tính trực tuyến tiện dụng có thể giúp bạn tìm cỡ mẫu. Bạn cần nhập độ tin cậy, quy mô tổng thể và giới hạn sai số. Chúng ta đã nói về quy mô dân số trước đây. Để xây dựng điều đó, chúng ta sẽ tìm hiểu về mức độ tin cậy và giới hạn sai số. Biết về những khái niệm này sẽ giúp bạn hiểu tại sao bạn cần chúng để tính cỡ mẫu. Confidence level is The probability that your sample size accurately reflects the greater population (Độ tin cậy là xác suất để kích thước mẫu phản ánh chính xác tổng thể). Bạn có thể nghĩ về nó giống như sự tự tin trong bất cứ điều gì khác. Đó là mức độ bạn cảm thấy rằng bạn có thể dựa vào điều gì đó hoặc ai đó. Có mức độ tin cậy 99 phần trăm là lý tưởng. Nhưng hầu hết các ngành hy vọng mức độ tin cậy ít nhất là 90 hoặc 95 phần trăm. Các ngành như dược phẩm thường muốn mức độ tin cậy càng cao càng tốt khi họ sử dụng cỡ mẫu. Điều này hợp lý vì họ đang thử nghiệm các loại thuốc và cần đảm bảo rằng chúng có tác dụng và an toàn cho mọi người sử dụng. Đối với các nghiên cứu khác, các tổ chức có thể chỉ cần biết rằng kết quả kiểm tra hoặc khảo sát giúp họ đi đúng hướng. Ví dụ: nếu một công ty sơn đang thử nghiệm các màu mới, thì mức độ tin cậy thấp hơn cũng không sao. Bạn cũng muốn xem xét giới hạn sai số cho nghiên cứu của mình. Bạn sẽ sớm tìm hiểu thêm về điều này, nhưng về cơ bản, nó cho bạn biết kết quả cỡ mẫu của bạn gần như thế nào với kết quả của bạn nếu bạn sử dụng toàn bộ dân số mà cỡ mẫu của bạn đại diện. Hãy nghĩ về nó như thế này. Giả sử hiệu trưởng của một trường cấp hai tiếp cận bạn với một nghiên cứu về sở thích ăn kẹo của học sinh. Họ cần biết một cỡ mẫu phù hợp và họ cần nó ngay bây giờ. Trường có 500 học sinh và họ đang yêu cầu mức độ tin cậy là 95 phần trăm và sai số là 5 phần trăm.
  • 232. Chúng tôi đã thiết lập một máy tính trong bảng tính, nhưng bạn cũng có thể dễ dàng tìm thấy loại máy tính này bằng cách tìm kiếm "máy tính cỡ mẫu" trên internet. Cũng giống như những máy tính đó, máy tính bảng tính của chúng tôi không hiển thị bất kỳ phép tính phức tạp nào để tính cỡ mẫu. Tất cả những gì chúng ta cần làm là nhập các số cho dân số, mức độ tin cậy và biên độ sai số. Và khi chúng tôi nhập 500 cho quy mô dân số, 95 cho tỷ lệ phần trăm mức độ tin cậy, 5 cho tỷ lệ phần trăm sai số, kết quả là khoảng 218. Điều đó có nghĩa là đối với nghiên cứu này, cỡ mẫu phù hợp sẽ là 218. Nếu chúng tôi khảo sát 218 sinh viên và thấy rằng 55 phần trăm trong số họ thích sô cô la, thì chúng tôi có thể khá tự tin rằng điều đó sẽ đúng với tất cả 500 sinh viên. 218 là số người tối thiểu chúng tôi cần khảo sát dựa trên tiêu chí của chúng tôi về mức độ tin cậy 95 phần trăm và tỷ lệ sai sót 5 phần trăm. Trong trường hợp bạn đang thắc mắc, mức độ tin cậy và biên độ sai số không nhất thiết phải bằng 100%. Chúng độc lập với nhau. Vì vậy, giả sử chúng ta thay đổi biên độ sai số từ 5 phần trăm thành 3 phần trăm. Sau đó, chúng tôi thấy rằng cỡ mẫu của chúng tôi cần phải lớn hơn, khoảng 341 thay vì 218, để làm cho kết quả nghiên cứu mang tính đại diện hơn cho dân số. Hãy thực hành với một máy tính trực tuyến. Biết kích thước mẫu và cách tìm nó sẽ giúp ích cho bạn khi làm việc với dữ liệu. Chúng tôi có nhiều kiến thức hữu ích hơn sắp tới cho bạn, bao gồm cả việc tìm hiểu về giới hạn sai số. Hẹn sớm gặp lại!
  • 233. Chương 5: Xem xét giới hạn sai số Đánh giá độ tin cậy của dữ liệu Xin chào! Trước đó, chúng tôi đã đề cập đến sai số mà không giải thích đầy đủ. Chà, chúng ta sẽ sửa lỗi đó trong video này bằng cách giải thích thêm về sai số. Chúng tôi thậm chí sẽ bao gồm một ví dụ về cách tính toán nó. Là một nhà phân tích dữ liệu, điều quan trọng là bạn phải tìm ra quy mô mẫu và các biến số như mức độ tin cậy và tỷ lệ lỗi trước khi chạy bất kỳ loại thử nghiệm hoặc khảo sát nào. Đó là cách tốt nhất để đảm bảo kết quả của bạn là khách quan và giúp bạn có cơ hội tốt hơn để nhận được kết quả có ý nghĩa thống kê. Nhưng nếu bạn đã biết kích thước mẫu, chẳng hạn như khi bạn được cung cấp kết quả khảo sát để phân tích, thì bạn có thể tự tính giới hạn sai số. Sau đó, bạn sẽ hiểu rõ hơn về mức độ khác biệt giữa mẫu và tổng thể của bạn. Chúng ta sẽ bắt đầu từ đầu với một định nghĩa đầy đủ hơn. Margin of error is The maxium amount that the sample results are expected to differ from those of the actual population ( Giới hạn sai số là giá trị tối đa mà kết quả của quá trình lấy mẫu sẽ khác với kết quả của tổng thể). Hãy nghĩ về một ví dụ về giới hạn sai số. Sẽ rất tuyệt nếu khảo sát hoặc kiểm tra toàn bộ tổng thể, nhưng thường không thể hoặc không thực tế để làm điều này. Vì vậy, thay vào đó, chúng tôi lấy mẫu của tổng thể lớn hơn. Dựa trên cỡ mẫu, giới hạn sai số thu được sẽ cho chúng ta biết kết quả có thể khác biệt như thế nào so với kết quả nếu chúng ta khảo sát toàn bộ dân số. Giới hạn sai số giúp bạn hiểu mức độ tin cậy của dữ liệu từ thử nghiệm giả thuyết của bạn. Giới hạn sai số càng gần bằng 0 thì kết quả từ mẫu của bạn càng gần với kết quả từ tổng thể. Ví dụ: giả sử bạn đã hoàn thành một cuộc khảo sát trên toàn quốc bằng cách sử dụng một mẫu tổng thể. Bạn đã hỏi những người làm việc theo tuần làm việc năm ngày xem họ có thích ý tưởng về tuần làm việc bốn ngày không. Vì vậy, cuộc khảo sát của bạn cho bạn biết rằng 60% thích một tuần làm việc bốn ngày. Biên độ sai số là 10%, cho chúng ta biết rằng từ 50 đến 70% thích ý tưởng đó. Vì vậy, nếu chúng tôi khảo sát tất cả những người lao động làm việc năm ngày trên toàn quốc, thì khoảng 50 đến 70% sẽ đồng ý với kết quả của chúng tôi. Hãy nhớ rằng phạm vi của chúng tôi là từ 50 đến 70%. Đó là do giới hạn sai số được tính theo cả hai hướng từ kết quả khảo sát là 60%. Nếu bạn thiết lập mức độ tin cậy 95% cho cuộc khảo sát của mình, sẽ có 95% khả năng phản hồi của toàn bộ dân số sẽ nằm trong khoảng từ 50 đến 70% nói rằng, vâng, họ muốn một tuần làm việc bốn ngày. Vì biên độ sai số của bạn trùng với mốc 50% đó, nên bạn không thể nói chắc chắn rằng công chúng thích ý tưởng về một tuần làm việc bốn ngày. Trong trường hợp đó, bạn phải nói rằng cuộc khảo sát của bạn không thuyết phục.
  • 234. Bây giờ, nếu bạn muốn tỷ lệ sai số thấp hơn, chẳng hạn như 5%, với phạm vi từ 55 đến 65%, bạn có thể tăng kích thước mẫu. Nhưng nếu bạn đã được cung cấp kích thước mẫu, bạn có thể tự tính giới hạn sai số. Sau đó, bạn có thể tự quyết định bao nhiêu khả năng kết quả của bạn có ý nghĩa thống kê dựa trên giới hạn sai số của bạn. Nói chung, bạn càng đưa nhiều người vào cuộc khảo sát của mình thì mẫu của bạn càng có nhiều khả năng đại diện cho toàn bộ dân số. Việc giảm mức độ tin cậy cũng sẽ có tác dụng tương tự, nhưng điều đó cũng sẽ khiến khảo sát của bạn ít có khả năng chính xác hơn. Vì vậy, để tính toán giới hạn sai số, bạn cần ba điều: quy mô tổng thể, quy mô mẫu và độ tin cậy. Và giống như với kích thước mẫu, bạn có thể tìm thấy rất nhiều công cụ tính trực tuyến bằng cách tìm kiếm "máy tính biên sai số". Nhưng chúng tôi sẽ hiển thị cho bạn trong một bảng tính, giống như chúng tôi đã làm khi tính toán kích thước mẫu. Giả sử bạn đang thực hiện một nghiên cứu về hiệu quả của một loại thuốc mới. Bạn có cỡ mẫu gồm 500 người tham gia có tình trạng ảnh hưởng đến 1% dân số thế giới. Đó là khoảng 80 triệu người, là tổng thể cho nghiên cứu của bạn. Vì đây là nghiên cứu về thuốc nên bạn cần có mức độ tin cậy là 99%. Bạn cũng cần một tỷ lệ lỗi thấp. Hãy tính toán nó. Chúng ta sẽ đặt các con số về tổng thể, độ tin cậy và cỡ mẫu vào các ô bảng tính thích hợp. Và kết quả của chúng tôi là biên độ sai số gần 6%, cộng hoặc trừ. Khi nghiên cứu thuốc hoàn tất, bạn sẽ áp dụng sai số cho kết quả của mình để xác định độ tin cậy của kết quả. Máy tính như thế này trong bảng tính chỉ là một trong nhiều công cụ bạn có thể sử dụng để đảm bảo tính toàn vẹn của dữ liệu. Và bạn cũng nên nhớ rằng việc kiểm tra tính toàn vẹn của dữ liệu và căn chỉnh dữ liệu với các mục tiêu của bạn sẽ giúp bạn có trạng thái tốt để hoàn thành phân tích của mình. Biết về cỡ mẫu, sức mạnh thống kê, giới hạn sai số và các chủ đề khác mà chúng tôi đã đề cập sẽ giúp quá trình phân tích của bạn diễn ra suôn sẻ. Đó là rất nhiều khái niệm mới cần tiếp thu. Nếu bạn muốn xem lại chúng bất kỳ lúc nào, bạn có thể tìm thấy tất cả chúng trong bảng thuật ngữ hoặc vui lòng xem lại video! Bạn sẽ sớm khám phá những thông tin chi tiết về dữ liệu sạch. Cuộc phiêu lưu dữ liệu tiếp tục di chuyển! Tôi rất vui vì bạn đang di chuyển cùng với nó. Bạn hiểu rồi đấy!
  • 235. Chương 2: Làm sạch dữ liệu là điều bắt buộc Dọn dẹp nào! Bạn có đoán được dữ liệu không chính xác hoặc dữ liệu xấu khiến doanh nghiệp phải trả giá bao nhiêu hàng năm không? Hàng ngàn đô la? Hàng triệu? Hàng tỷ? Theo IBM, chi phí hàng năm cho dữ liệu chất lượng kém là 3,1 nghìn tỷ đô la chỉ riêng ở Hoa Kỳ. Đó là rất nhiều số không. Bây giờ, bạn có đoán được nguyên nhân số một của dữ liệu kém chất lượng không? Đó không phải là một triển khai hệ thống mới hay trục trặc kỹ thuật máy tính. Yếu tố phổ biến nhất thực sự là lỗi của con người. Đây là một bảng tính từ một văn phòng luật. Nó hiển thị cho khách hàng, các dịch vụ pháp lý mà họ đã mua, số thứ tự dịch vụ, số tiền họ đã thanh toán và phương thức thanh toán. Dữ liệu bẩn có thể là kết quả của việc ai đó nhập sai một phần dữ liệu; định dạng không nhất quán; trường trống; hoặc cùng một phần dữ liệu được nhập nhiều lần, điều này tạo ra các bản sao. Dirty data is Data that is incomplete, incorrect, or irrelevant to the problem you’re trying to solve (Dữ liệu không sạch là dữ liệu không đầy đủ, không chính xác hoặc không liên quan đến các vấn đề cần giải quyết). Khi bạn làm việc với dữ liệu bẩn, bạn không thể chắc chắn rằng kết quả của mình là chính xác. Trên thực tế, bạn có thể đặt cược khá nhiều rằng họ sẽ không như vậy. Trước đó, bạn đã biết rằng tính toàn vẹn của dữ liệu rất quan trọng đối với kết quả phân tích dữ liệu đáng tin cậy và dữ liệu sạch sẽ giúp bạn đạt được tính toàn vẹn của dữ liệu. Clean data is Data that is complete, correct, and relevant to the problem you’re trying to solve ( Dữ liệu sạch là dữ liệu đầy đủ, chính xác và có liên quan đến vấn đề đang được giải quyết). Khi bạn làm việc với dữ liệu sạch, bạn sẽ thấy rằng các dự án của mình diễn ra suôn sẻ hơn nhiều. Tôi nhớ lần đầu tiên tôi tận mắt chứng kiến tầm quan trọng của dữ liệu sạch. Tôi mới bắt đầu sử dụng SQL và tôi nghĩ nó hoạt động như một phép màu. Tôi có thể yêu cầu máy tính tổng hợp hàng triệu con số, giúp tôi tiết kiệm rất nhiều thời gian và công sức. Nhưng tôi nhanh chóng phát hiện ra rằng nó chỉ hoạt động khi dữ liệu sạch. Nếu thậm chí có một chữ cái ngẫu nhiên trong một cột lẽ ra chỉ có số, máy tính sẽ không biết phải làm gì. Vì vậy, nó sẽ báo lỗi và đột nhiên, tôi bị mắc kẹt. Và không đời nào tôi có thể cộng hàng triệu con số một mình. Vì vậy, tôi phải xóa dữ liệu đó để làm cho nó hoạt động. Tin tốt là có rất nhiều quy trình và công cụ hiệu quả giúp bạn làm điều đó. Sắp tới, bạn sẽ đạt được các kỹ năng và kiến thức cần thiết để đảm bảo dữ liệu bạn làm việc luôn sạch sẽ. Đồng thời, chúng ta sẽ tìm hiểu sâu hơn về sự khác biệt giữa dữ liệu sạch và dữ liệu bẩn và tại sao dữ liệu sạch lại quan trọng đến vậy. Chúng tôi cũng sẽ nói về các cách khác nhau để làm
  • 236. sạch dữ liệu của bạn và các vấn đề phổ biến cần tìm trong quá trình này. Sẵn sàng để bắt đầu? Hãy làm nó. Tại sao làm sạch dữ liệu lại quan trọng Dữ liệu sạch là vô cùng quan trọng để phân tích hiệu quả. Nếu một phần dữ liệu được nhập vào bảng tính hoặc cơ sở dữ liệu không chính xác hoặc nếu nó bị lặp lại hoặc nếu một trường bị bỏ trống hoặc nếu định dạng dữ liệu không nhất quán thì kết quả là dữ liệu bẩn. Những sai lầm nhỏ có thể dẫn đến hậu quả lớn về lâu dài. Tôi sẽ hoàn toàn trung thực với bạn, làm sạch dữ liệu giống như đánh răng của bạn. Đó là điều bạn nên làm và làm đúng cách vì nếu không nó có thể gây ra những vấn đề nghiêm trọng. Đối với răng, đó có thể là sâu răng hoặc bệnh nướu răng. Đối với dữ liệu, điều đó có thể khiến công ty của bạn mất tiền hoặc một ông chủ tức giận. Nhưng đây là tin tốt. Nếu bạn tiếp tục đánh răng hai lần một ngày, mỗi ngày, nó sẽ trở thành một thói quen. Ngay sau đó, bạn thậm chí không cần phải suy nghĩ về nó. Nó giống với dữ liệu. Tin tôi đi, nó sẽ khiến bạn trông thật tuyệt khi bạn dành thời gian để dọn sạch dữ liệu bẩn đó. Nhắc lại nhanh, dữ liệu bẩn không đầy đủ, không chính xác hoặc không liên quan đến vấn đề bạn đang cố gắng giải quyết. Nó không thể được sử dụng một cách có ý nghĩa, điều này làm cho việc phân tích trở nên rất khó khăn, nếu không muốn nói là không thể. Mặt khác, dữ liệu sạch là đầy đủ, chính xác và có liên quan đến vấn đề bạn đang cố gắng giải quyết. Điều này cho phép bạn hiểu và phân tích thông tin cũng như xác định các mẫu quan trọng, kết nối thông tin liên quan và rút ra kết luận hữu ích. Sau đó, bạn có thể áp dụng những điều học được để đưa ra những quyết định hiệu quả. Trong một số trường hợp, bạn sẽ không phải thực hiện nhiều thao tác để xóa dữ liệu. Ví dụ: khi bạn sử dụng dữ liệu nội bộ đã được các kỹ sư dữ liệu và nhóm kho dữ liệu của công ty bạn xác minh và chăm sóc, thì dữ liệu đó có nhiều khả năng là sạch. Hãy nói về một số người mà bạn sẽ làm việc cùng với tư cách là nhà phân tích dữ liệu. Data engineers Tranform data into a useful format for analysis and give it a reliable infrastructure ( Kỹ sư dữ liệu là Một chuyên gia chuyển đổi dữ liệu thành một định dạng hữu ích để phân tích và cung cấp cho nó một cơ sở hạ tầng đáng tin cậy). Điều này có nghĩa là họ phát triển, duy trì và thử nghiệm cơ sở dữ liệu, bộ xử lý dữ liệu và các hệ thống liên quan. Data warehousing specialists is Develop processes and procedures to effectively store and organize data (Chuyên viên quản lý kho dữ liệu là Một chuyên gia phát triển các quy trình và thủ tục để lưu trữ và tổ chức dữ liệu một cách có hiệu quả). Họ đảm bảo rằng dữ liệu có sẵn, an toàn và được sao lưu để tránh mất mát. Khi trở thành nhà phân tích dữ liệu, bạn có thể học được nhiều điều bằng cách làm việc với người duy trì cơ sở dữ liệu của bạn để tìm hiểu về hệ thống của họ.
  • 237. Nếu trước tiên, dữ liệu được chuyển qua tay của kỹ sư dữ liệu hoặc chuyên gia kho dữ liệu, thì bạn biết rằng dự án của mình đang có một khởi đầu thuận lợi. Có rất nhiều cơ hội nghề nghiệp tuyệt vời với tư cách là kỹ sư dữ liệu hoặc chuyên gia kho dữ liệu. Nếu loại công việc này nghe có vẻ thú vị với bạn, có thể con đường sự nghiệp của bạn sẽ liên quan đến việc giúp các tổ chức tiết kiệm nhiều thời gian, công sức và tiền bạc bằng cách đảm bảo dữ liệu của họ sạch sẽ. Nhưng ngay cả khi bạn đi theo một hướng khác với sự nghiệp phân tích dữ liệu của mình và có lợi thế khi làm việc với các kỹ sư dữ liệu và chuyên gia kho bãi, bạn vẫn có khả năng phải làm sạch dữ liệu của chính mình. Điều quan trọng cần nhớ là: không có bộ dữ liệu nào là hoàn hảo. Bạn luôn nên kiểm tra và làm sạch dữ liệu trước khi bắt đầu phân tích. Đây là một ví dụ. Giả sử bạn đang thực hiện một dự án mà bạn cần tính xem có bao nhiêu người sử dụng chương trình phần mềm của công ty bạn. Bạn có một bảng tính được tạo nội bộ và được xác minh bởi kỹ sư dữ liệu và chuyên gia kho dữ liệu. Kiểm tra cột có nhãn "Tên người dùng". Có vẻ hợp lý khi bạn chỉ cần cuộn xuống và đếm các hàng để biết bạn có bao nhiêu người dùng. Nhưng điều đó sẽ không hiệu quả vì đôi khi một người có nhiều tên người dùng. Có thể họ đã đăng ký từ các địa chỉ email khác nhau hoặc có thể họ có tài khoản cá nhân và công việc. Trong những tình huống như thế này, bạn sẽ cần xóa dữ liệu bằng cách loại bỏ mọi hàng trùng lặp. Khi bạn đã hoàn thành việc đó, sẽ không có bất kỳ mục trùng lặp nào nữa. Sau đó, bảng tính của bạn đã sẵn sàng để hoạt động. Cho đến nay chúng tôi đã thảo luận về làm việc với dữ liệu nội bộ. Nhưng việc làm sạch dữ liệu càng trở nên quan trọng hơn khi làm việc với dữ liệu bên ngoài, đặc biệt nếu dữ liệu đó đến từ nhiều nguồn. Giả sử công ty phần mềm trong ví dụ của chúng tôi đã khảo sát khách hàng của họ để tìm hiểu mức độ hài lòng của họ với sản phẩm phần mềm của họ. Nhưng khi bạn xem lại dữ liệu khảo sát, bạn thấy rằng bạn có một số điểm không. Giá trị null là dấu hiệu cho thấy giá trị không tồn tại trong tập dữ liệu. Lưu ý rằng nó không giống như số không. Trong trường hợp khảo sát, giá trị rỗng có nghĩa là khách hàng đã bỏ qua câu hỏi đó. Số không có nghĩa là họ cung cấp số không làm phản hồi của họ. Để thực hiện phân tích của mình, trước tiên bạn cần làm sạch dữ liệu này. Bước một sẽ là quyết định phải làm gì với những giá trị rỗng đó. Bạn có thể lọc chúng ra và thông báo rằng bạn hiện có cỡ mẫu nhỏ hơn hoặc bạn có thể giữ chúng lại và học hỏi từ thực tế là khách hàng không đưa ra phản hồi. Có rất nhiều lý do tại sao điều này có thể xảy ra. Có thể câu hỏi khảo sát của bạn không được viết tốt nhất có thể. Có thể chúng gây nhầm lẫn hoặc thiên vị, điều mà chúng ta đã biết trước đó. Chúng tôi đã đề cập đến những điều cơ bản về làm sạch dữ liệu bên trong và bên ngoài, nhưng còn nhiều điều nữa sắp tới. Chúng ta sẽ sớm tìm hiểu về các lỗi phổ biến cần lưu ý để đảm bảo dữ liệu của bạn hoàn chỉnh, chính xác và có liên quan. Hẹn sớm gặp lại!
  • 238. Nhận biết và khắc phục dữ liệu bẩn Xin chào Trong video này, chúng tôi sẽ tập trung vào các vấn đề phổ biến liên quan đến dữ liệu bẩn. Chúng bao gồm lỗi chính tả và các văn bản khác, nhãn, định dạng và làn đường trường không nhất quán, dữ liệu bị thiếu và trùng lặp. Điều này sẽ giúp bạn nhận ra vấn đề nhanh hơn và cung cấp cho bạn thông tin cần thiết để khắc phục chúng khi bạn gặp sự cố tương tự trong quá trình phân tích của riêng mình. Điều này cực kỳ quan trọng trong phân tích dữ liệu. Hãy quay trở lại bảng tính của văn phòng luật của chúng ta. Để ôn lại nhanh, chúng ta sẽ bắt đầu bằng cách kiểm tra các loại dữ liệu bẩn khác nhau mà nó hiển thị. Đôi khi, ai đó có thể nhập sai một phần dữ liệu. Những lần khác, chúng có thể không giữ các định dạng dữ liệu nhất quán. Việc để trống một trường cũng là điều bình thường. Đó cũng được gọi là null, mà chúng ta đã học trước đó. Nếu ai đó thêm cùng một phần dữ liệu nhiều lần, điều đó sẽ tạo ra một bản sao. Hãy chia nhỏ nó ra. Sau đó, chúng ta sẽ tìm hiểu về một số loại dữ liệu bẩn khác và các chiến lược để làm sạch dữ liệu đó. Lỗi chính tả, biến thể chính tả, chữ viết lẫn lộn, dấu chấm câu không nhất quán và lỗi chính tả nói chung xảy ra khi ai đó nhập sai một phần dữ liệu. Là một nhà phân tích dữ liệu, bạn cũng sẽ xử lý các loại tiền tệ khác nhau. Ví dụ: một tập dữ liệu có thể bằng đô la Mỹ và một tập dữ liệu khác bằng euro và bạn không muốn chúng bị lẫn lộn. Chúng tôi muốn tìm những loại lỗi này và sửa chúng như thế này. Bạn sẽ tìm hiểu thêm về điều này sớm. Dữ liệu sạch phụ thuộc phần lớn vào các quy tắc toàn vẹn dữ liệu mà một tổ chức tuân theo, chẳng hạn như nguyên tắc chính tả và chấm câu. Ví dụ: một công ty nước giải khát có thể yêu cầu mọi người làm việc trong cơ sở dữ liệu của mình nhập dữ liệu về thể tích tính bằng ounce chất lỏng thay vì cốc. Thật tuyệt khi một tổ chức có các quy tắc như thế này. Nó thực sự giúp giảm thiểu khối lượng dữ liệu cần làm sạch nhưng không thể loại bỏ hoàn toàn. Giống như chúng ta đã thảo luận trước đó, luôn có khả năng xảy ra lỗi do con người. Loại dữ liệu bẩn tiếp theo mà bảng tính của chúng tôi hiển thị là định dạng không nhất quán. Trong ví dụ này, thứ gì đó nên được định dạng là tiền tệ được hiển thị dưới dạng phần trăm. Cho đến khi lỗi này được khắc phục, như thế này, văn phòng luật sẽ không biết khách hàng này đã trả bao nhiêu tiền cho các dịch vụ của họ. Chúng ta sẽ sớm tìm hiểu về các cách khác nhau để giải quyết vấn đề này và nhiều vấn đề khác. Trước đây chúng ta đã thảo luận về null, nhưng xin nhắc lại, null là các trường trống. Loại dữ liệu bẩn này đòi hỏi nhiều công việc hơn là chỉ sửa lỗi chính tả hoặc thay đổi định dạng. Trong ví dụ này, các nhà phân tích dữ liệu sẽ cần nghiên cứu khách hàng nào đã tư vấn vào ngày 4 tháng 7 năm 2020. Sau đó, khi họ tìm thấy thông tin chính xác, họ phải thêm thông tin đó vào bảng tính.
  • 239. Một loại dữ liệu bẩn phổ biến khác là trùng lặp. Có thể hai người khác đã thêm cuộc hẹn này vào ngày 13 tháng 8 mà không nhận ra rằng người khác đã thực hiện việc đó hoặc có thể người nhập dữ liệu đã vô tình nhấn sao chép và dán. Dù lý do là gì, công việc của nhà phân tích dữ liệu là xác định lỗi này và sửa nó bằng cách xóa một trong các bản sao. Bây giờ, hãy tiếp tục với một số loại dữ liệu bẩn khác. Việc đầu tiên phải làm với ghi nhãn. Để hiểu cách ghi nhãn, hãy tưởng tượng bạn đang cố gắng để máy tính xác định chính xác gấu panda trong số các hình ảnh của tất cả các loại động vật khác nhau. Bạn cần cho máy tính xem hàng nghìn hình ảnh gấu panda. Tất cả chúng đều được dán nhãn là gấu panda. Bất kỳ hình ảnh nào được dán nhãn không chính xác, chẳng hạn như hình ảnh ở đây chỉ là con gấu, sẽ gây ra vấn đề. Loại dữ liệu bẩn tiếp theo có độ dài trường không nhất quán. Trước đó, bạn đã biết rằng một trường là một phần thông tin duy nhất từ một hàng hoặc cột của bảng tính. Độ dài trường là một công cụ để xác định có thể nhập bao nhiêu ký tự vào một trường. Chỉ định độ dài nhất định cho các trường trong bảng tính của bạn là một cách tuyệt vời để tránh lỗi. Ví dụ: nếu bạn có một cột cho năm sinh của ai đó, bạn biết độ dài của trường là bốn vì tất cả các năm đều có bốn chữ số. Một số ứng dụng bảng tính có một cách đơn giản để chỉ định độ dài của trường và đảm bảo người dùng chỉ có thể nhập một số ký tự nhất định vào một trường. Đây là một phần của xác thực dữ liệu. Xác thực dữ liệu là một công cụ để kiểm tra tính chính xác và chất lượng của dữ liệu trước khi thêm hoặc nhập dữ liệu. Xác thực dữ liệu là một hình thức làm sạch dữ liệu mà bạn sẽ sớm tìm hiểu thêm. Nhưng trước tiên, bạn sẽ làm quen với nhiều kỹ thuật hơn để làm sạch dữ liệu. Đây là một phần rất quan trọng của công việc phân tích dữ liệu. Tôi mong được chia sẻ những chiến lược làm sạch dữ liệu này với bạn.
  • 240. Chương 2: Bắt đầu làm sạch dữ liệu Công cụ và kỹ thuật làm sạch dữ liệu Xin chào. Bây giờ bạn đã quen thuộc với một số loại dữ liệu bẩn phổ biến nhất, đã đến lúc dọn sạch chúng. Như bạn đã biết, dữ liệu sạch là điều cần thiết để đảm bảo tính toàn vẹn của dữ liệu cũng như các giải pháp và quyết định đáng tin cậy. Tin vui là bảng tính có tất cả các loại công cụ mà bạn có thể sử dụng để chuẩn bị sẵn dữ liệu cho việc phân tích. Các kỹ thuật làm sạch dữ liệu sẽ khác nhau tùy thuộc vào tập dữ liệu cụ thể mà bạn đang làm việc. Vì vậy, chúng tôi sẽ không đề cập đến mọi thứ bạn có thể gặp phải, nhưng điều này sẽ cung cấp cho bạn một điểm khởi đầu tuyệt vời để khắc phục các loại dữ liệu bẩn mà các nhà phân tích tìm thấy thường xuyên nhất. Hãy coi mọi thứ sắp diễn ra như một đoạn giới thiệu giới thiệu về các công cụ làm sạch dữ liệu. Tôi sẽ cung cấp cho bạn một cái nhìn tổng quan cơ bản về một số công cụ và kỹ thuật phổ biến, sau đó chúng ta sẽ thực hành lại chúng sau. Tại đây, chúng ta sẽ thảo luận về cách xóa dữ liệu không mong muốn, làm sạch văn bản để loại bỏ các khoảng trắng và khoảng trắng thừa, sửa lỗi chính tả và làm cho định dạng nhất quán. Tuy nhiên, trước khi xóa dữ liệu không mong muốn, bạn nên tạo một bản sao của tập dữ liệu. Bằng cách đó, nếu bạn xóa thứ gì đó mà bạn sẽ cần trong tương lai, bạn có thể dễ dàng truy cập và đưa nó trở lại tập dữ liệu. Khi đã xong, bạn có thể tiếp tục loại bỏ các dữ liệu trùng lặp hoặc dữ liệu không liên quan đến vấn đề mà bạn đang cố gắng giải quyết. Thông thường, các bản sao xuất hiện khi bạn kết hợp các tập dữ liệu từ nhiều nguồn hoặc sử dụng dữ liệu từ nhiều bộ phận trong cùng một doanh nghiệp. Bạn đã học được một chút về các bản trùng lặp, nhưng bây giờ chúng ta hãy thực hành loại bỏ chúng một lần nữa bằng cách sử dụng bảng tính liệt kê các thành viên của hiệp hội hậu cần chuyên nghiệp này. Bản sao có thể là một vấn đề lớn đối với các nhà phân tích dữ liệu. Vì vậy, điều thực sự quan trọng là bạn có thể tìm và loại bỏ chúng trước khi bất kỳ phân tích nào bắt đầu. Đây là một ví dụ về những gì tôi đang nói. Giả sử hiệp hội này có các bản sao về tư cách thành viên trị giá 500 đô la của một người trong cơ sở dữ liệu của hiệp hội. Khi dữ liệu được tóm tắt, nhà phân tích sẽ nghĩ rằng thành viên này đã trả 1.000 đô la và sẽ đưa ra quyết định dựa trên dữ liệu không chính xác đó. Nhưng trên thực tế, thành viên này chỉ trả 500 USD. Những sự cố này có thể được khắc phục theo cách thủ công nhưng hầu hết các ứng dụng bảng tính cũng cung cấp nhiều công cụ giúp bạn tìm và loại bỏ các bản sao. Bây giờ, dữ liệu không liên quan, tức là dữ liệu không phù hợp với vấn đề cụ thể mà bạn đang cố gắng giải quyết, cũng cần phải bị xóa. Quay trở lại ví dụ về danh sách thành viên hiệp hội của chúng tôi, giả sử một nhà phân tích dữ liệu đang làm việc trong một dự án chỉ tập trung vào các thành viên hiện tại. Họ sẽ không muốn bao gồm thông tin về những người không
  • 241. còn là thành viên, hoặc những người chưa bao giờ tham gia ngay từ đầu. Việc xóa dữ liệu không liên quan sẽ tốn thêm một chút thời gian và công sức vì bạn phải tìm ra sự khác biệt giữa dữ liệu bạn cần và dữ liệu bạn không cần. Nhưng tin tôi đi, đưa ra những quyết định đó sẽ giúp bạn tiết kiệm rất nhiều nỗ lực trong tương lai. Bước tiếp theo là loại bỏ các khoảng trắng và khoảng trống thừa. Khoảng trắng thừa có thể gây ra kết quả không mong muốn khi bạn sắp xếp, lọc hoặc tìm kiếm trong dữ liệu của mình. Và bởi vì những ký tự này rất dễ bỏ sót, chúng có thể dẫn đến những kết quả không mong muốn và khó hiểu. Ví dụ: nếu có thêm khoảng trắng và trong số ID thành viên, khi bạn sắp xếp cột từ thấp nhất đến cao nhất, hàng này sẽ không đúng chỗ. Để xóa các khoảng trắng hoặc ô trống không mong muốn này, bạn có thể tự xóa chúng. Hoặc một lần nữa, bạn có thể dựa vào bảng tính của mình, bảng tính này cung cấp nhiều chức năng tuyệt vời để tự động xóa dấu cách hoặc khoảng trống. Bước làm sạch dữ liệu tiếp theo liên quan đến việc sửa lỗi chính tả, viết hoa không nhất quán, chấm câu sai và các lỗi chính tả khác. Những loại lỗi này có thể dẫn đến một số vấn đề lớn. Giả sử bạn có cơ sở dữ liệu email mà bạn sử dụng để giữ liên lạc với khách hàng của mình. Nếu một số email có lỗi chính tả, dấu chấm ở sai vị trí hoặc bất kỳ loại lỗi đánh máy nào khác, bạn không chỉ có nguy cơ gửi email đến nhầm người mà còn có nguy cơ gửi thư rác cho những người ngẫu nhiên. Hãy nghĩ lại về ví dụ thành viên hiệp hội của chúng tôi. Lỗi chính tả có thể khiến nhà phân tích dữ liệu tính sai số lượng thành viên chuyên nghiệp nếu họ sắp xếp loại thành viên này rồi đếm số hàng. Giống như các sự cố khác mà bạn gặp phải, bạn cũng có thể khắc phục các sự cố này theo cách thủ công. Hoặc bạn có thể sử dụng các công cụ bảng tính, chẳng hạn như kiểm tra chính tả, tự động sửa lỗi và định dạng có điều kiện để giúp cuộc sống của bạn dễ dàng hơn. Ngoài ra còn có các cách dễ dàng để chuyển đổi văn bản thành chữ thường, chữ hoa hoặc trường hợp thích hợp, đây là một trong những điều chúng ta sẽ kiểm tra lại sau. Được rồi, chúng ta đang đến đó. Bước tiếp theo là xóa định dạng. Điều này đặc biệt quan trọng khi bạn lấy dữ liệu từ nhiều nguồn khác nhau. Mọi cơ sở dữ liệu đều có định dạng riêng, điều này có thể khiến dữ liệu có vẻ không nhất quán. Tạo giao diện trực quan rõ ràng và nhất quán cho bảng tính của bạn sẽ giúp làm cho bảng tính trở thành công cụ có giá trị cho bạn và nhóm của bạn khi đưa ra các quyết định quan trọng. Hầu hết các ứng dụng bảng tính cũng có công cụ "xóa định dạng", đây là một công cụ tiết kiệm thời gian tuyệt vời. Làm sạch dữ liệu là một bước thiết yếu để tăng chất lượng dữ liệu của bạn. Bây giờ bạn biết rất nhiều cách khác nhau để làm điều đó. Trong video tiếp theo, bạn sẽ tiếp tục nâng cao kiến thức đó và tìm hiểu cách làm sạch dữ liệu đến từ nhiều nguồn.
  • 242. Làm sạch dữ liệu từ nhiều nguồn Chào mừng trở lại. Cho đến nay, bạn đã học được nhiều điều về dữ liệu bẩn và cách dọn dẹp các lỗi phổ biến nhất trong tập dữ liệu. Bây giờ chúng ta sẽ tiến thêm một bước nữa và nói về việc dọn dẹp nhiều bộ dữ liệu. Làm sạch dữ liệu đến từ hai hoặc nhiều nguồn là điều rất phổ biến đối với các nhà phân tích dữ liệu, nhưng nó đi kèm với một số thách thức thú vị. Một ví dụ điển hình là sáp nhập, Merger is An agreement that unites two organizations into a single new one (Sự hợp nhất là một thỏa thuận hợp nhất hai thành phần và trở thành một thành phần mới). Trong lĩnh vực logistics, gần đây có nhiều thay đổi lớn, chủ yếu là do sự bùng nổ của thương mại điện tử. Với rất nhiều người mua sắm trực tuyến, điều hợp lý là các công ty chịu trách nhiệm giao những sản phẩm đó đến tận nhà của họ đang ở giữa một cuộc cải tổ lớn. Khi những sự kiện lớn xảy ra trong một ngành, thông thường hai tổ chức sẽ hợp tác và trở nên mạnh mẽ hơn thông qua việc sáp nhập. Hãy nói về việc điều đó sẽ ảnh hưởng đến hiệp hội hậu cần của chúng ta như thế nào. Xin nhắc lại, bảng tính này liệt kê số ID thành viên hiệp hội, họ và tên, địa chỉ, số tiền mỗi thành viên trả phí, thời điểm tư cách thành viên hết hạn và các loại thành viên. Bây giờ, hãy nghĩ xem điều gì sẽ xảy ra nếu Hiệp hội Hậu cần Quốc tế quyết định kết hợp với Hiệp hội Hậu cần Toàn cầu để giúp các thành viên của họ giải quyết những nhu cầu đáng kinh ngạc của thương mại điện tử. Đầu tiên, tất cả dữ liệu từ mỗi tổ chức sẽ cần được kết hợp bằng cách sử dụng hợp nhất dữ liệu. Data merging is The process of combining two or more datasets into a single dataset (Hợp nhất dữ liệu là quá trình hợp nhất hai hoặc nhiều tập dữ liệu thành một tập dữ liệu duy nhất). Đây là một thách thức đặc biệt bởi vì khi kết hợp hai bộ dữ liệu hoàn toàn khác nhau, thông tin gần như được đảm bảo là không nhất quán và sai lệch. Ví dụ: bảng tính của Hiệp hội Hậu cần Toàn cầu có một cột riêng cho số dãy phòng, căn hộ hoặc đơn vị của một người, nhưng Hiệp hội Hậu cần Quốc tế kết hợp thông tin đó với địa chỉ đường phố của họ. Điều này cần phải được sửa chữa để làm cho số cột địa chỉ nhất quán. Tiếp theo, hãy xem cách Hiệp hội Hậu cần Toàn cầu sử dụng địa chỉ email của mọi người làm ID thành viên của họ, trong khi Hiệp hội Hậu cần Quốc tế sử dụng số. Đây là một vấn đề lớn vì những người trong một ngành nhất định, chẳng hạn như hậu cần, thường tham gia nhiều hiệp hội nghề nghiệp. Rất có khả năng những bộ dữ liệu này bao gồm thông tin thành viên của cùng một người, chỉ là theo những cách khác nhau. Điều cực kỳ quan trọng là loại bỏ những bản sao đó. Ngoài ra, Hiệp hội Hậu cần Toàn cầu có nhiều loại thành viên hơn các tổ chức khác. Trên hết, nó sử dụng một thuật ngữ, "Chuyên gia trẻ tuổi" thay vì "Cộng tác viên sinh viên". Nhưng cả hai đều mô tả các thành viên vẫn đang đi học hoặc mới bắt đầu sự nghiệp.
  • 243. Nếu đang hợp nhất hai bộ dữ liệu này, thì bạn cần làm việc với nhóm của mình để khắc phục sự thật là hai liên kết mô tả tư cách thành viên rất khác nhau. Bây giờ bạn đã hiểu tại sao việc hợp nhất các tổ chức cũng yêu cầu hợp nhất dữ liệu và điều đó có thể phức tạp. Nhưng có rất nhiều lý do khác khiến các nhà phân tích dữ liệu hợp nhất các bộ dữ liệu. Ví dụ: ở một trong những công việc trước đây của tôi, tôi đã hợp nhất rất nhiều dữ liệu từ nhiều nguồn để có được thông tin chi tiết về việc mua hàng của khách hàng. Những loại thông tin chi tiết mà tôi có được đã giúp tôi xác định các kiểu mua hàng của khách hàng. Khi hợp nhất các bộ dữ liệu, tôi luôn bắt đầu bằng cách tự hỏi mình một số câu hỏi chính để giúp tôi tránh dư thừa và để xác nhận rằng các bộ dữ liệu tương thích. Trong phân tích dữ liệu, Compatibility is How well two or more datasets are able to work together (Tính tương thích là Mức độ hai hoặc nhiều tập dữ liệu có thể hoặt động cùng nhau tốt thế nào). Câu hỏi đầu tiên tôi sẽ hỏi là, tôi có tất cả dữ liệu tôi cần không? Để thu thập thông tin chi tiết về hoạt động mua hàng của khách hàng, tôi muốn đảm bảo rằng mình có dữ liệu về khách hàng, giao dịch mua hàng của họ và nơi họ mua sắm. Tiếp theo, tôi sẽ hỏi, dữ liệu tôi cần có tồn tại trong các bộ dữ liệu này không? Như bạn đã học trước đó trong chương trình này, điều này liên quan đến việc xem xét toàn bộ tập dữ liệu một cách phân tích. Xem qua dữ liệu trước khi bắt đầu sử dụng cho phép tôi cảm nhận được nội dung của nó, sơ đồ trông như thế nào, liệu nó có liên quan đến thông tin chi tiết về hành vi mua hàng của khách hàng của tôi hay không và liệu đó có phải là dữ liệu sạch hay không. Điều đó đưa tôi đến câu hỏi tiếp theo. Các bộ dữ liệu có cần được làm sạch hay chúng đã sẵn sàng để tôi sử dụng không? Bởi vì tôi đang làm việc với nhiều nguồn, nên tôi cũng sẽ tự hỏi mình, các bộ dữ liệu có được làm sạch theo cùng một tiêu chuẩn không? Ví dụ, những trường nào được lặp lại thường xuyên? Các giá trị bị thiếu được xử lý như thế nào? Dữ liệu được cập nhật gần đây như thế nào? Tìm câu trả lời cho những câu hỏi này và hiểu liệu tôi có cần khắc phục bất kỳ sự cố nào khi bắt đầu dự án hay không là một bước rất quan trọng trong quá trình hợp nhất dữ liệu. Trong cả hai ví dụ chúng tôi khám phá ở đây, các nhà phân tích dữ liệu có thể sử dụng công cụ bảng tính hoặc truy vấn SQL để dọn dẹp, hợp nhất và chuẩn bị bộ dữ liệu để phân tích. Tùy thuộc vào công cụ bạn quyết định sử dụng, quy trình dọn dẹp có thể đơn giản hoặc rất phức tạp. Chẳng mấy chốc, bạn sẽ học cách đưa ra lựa chọn tốt nhất cho tình huống của mình. Lưu ý cuối cùng, các ngôn ngữ lập trình như R cũng rất hữu ích để làm sạch dữ liệu. Bạn sẽ tìm hiểu thêm về cách sử dụng R và các khái niệm khác mà chúng tôi sẽ sớm đề cập.
  • 244. Chương 3: Làm sạch dữ liệu trong bảng tính Các tính năng làm sạch dữ liệu trong bảng tính Chào bạn lần nữa nhé. Như bạn đã biết trước đó, có rất nhiều cách khác nhau để dọn dẹp dữ liệu. Tôi đã chỉ cho bạn một số ví dụ về cách bạn có thể xóa dữ liệu theo cách thủ công, chẳng hạn như tìm kiếm và sửa lỗi chính tả hoặc xóa khoảng trống và trùng lặp. Chúng tôi cũng biết được rằng rất nhiều ứng dụng bảng tính có các công cụ giúp đơn giản hóa và tăng tốc quá trình làm sạch dữ liệu. Có rất nhiều công cụ hiệu quả tuyệt vời mà các nhà phân tích dữ liệu luôn sử dụng, chẳng hạn như định dạng có điều kiện, loại bỏ trùng lặp, định dạng ngày, sửa chuỗi văn bản và chuỗi con cũng như tách văn bản thành cột. Bây giờ chúng ta sẽ khám phá những điều đó chi tiết hơn. Đầu tiên là cái gọi là định dạng có điều kiện. Conditional formatting is A spreadsheet tool that changes how cells appear when values meet specific conditions (Định dạng có điều kiện là Công cụ bảng tính thay đổi cách các ô xuất hiện khi các giá trị trong ô đáp ứng các điều kiện cụ thể). Tương tự như vậy, nó có thể cho bạn biết khi một ô không đáp ứng các điều kiện bạn đã đặt. Các tín hiệu trực quan như thế này rất hữu ích cho các nhà phân tích dữ liệu, đặc biệt là khi chúng ta đang làm việc trong một bảng tính lớn có nhiều dữ liệu. Làm nổi bật các điểm dữ liệu nhất định giúp thông tin dễ hiểu và dễ phân tích hơn. Để làm sạch dữ liệu, biết khi nào dữ liệu không tuân theo điều kiện là rất hữu ích. Hãy quay lại bảng tính hiệp hội hậu cần để kiểm tra hoạt động của định dạng có điều kiện. Chúng tôi sẽ sử dụng định dạng có điều kiện để tô sáng các ô trống. Bằng cách đó, chúng tôi biết nơi thiếu thông tin để có thể thêm thông tin đó vào bảng tính. Để làm điều này, chúng tôi sẽ bắt đầu bằng cách chọn phạm vi mà chúng tôi muốn tìm kiếm. Đối với ví dụ này, chúng tôi không tập trung vào địa chỉ 3 và địa chỉ 5. Các trường sẽ bao gồm tất cả các cột trong bảng tính của chúng tôi, ngoại trừ F và H. Tiếp theo, chúng ta sẽ đi đến Định dạng và chọn Định dạng có điều kiện. Tuyệt vời. Phạm vi của chúng tôi được tự động chỉ định trong trường. Quy tắc định dạng sẽ là định dạng ô nếu ô trống. Cuối cùng, chúng ta sẽ chọn kiểu định dạng. Tôi sẽ chọn một màu hồng sáng, để những khoảng trống của tôi thực sự nổi bật. Sau đó nhấp vào "Xong" và các ô trống sẽ được tô sáng ngay lập tức. Công cụ bảng tính tiếp theo sẽ loại bỏ các bản sao. Như bạn đã biết trước đây, việc tạo một bản sao của tập dữ liệu trước khi xóa bất kỳ thứ gì luôn là điều khôn ngoan. Hãy làm điều đó ngay bây giờ. Tuyệt, bây giờ chúng ta có thể tiếp tục. Bạn có thể nhớ rằng bảng tính ví dụ của chúng tôi có một thành viên hiệp hội được liệt kê hai lần. Để khắc phục điều đó, hãy chuyển đến Dữ liệu và chọn "Xóa các mục trùng lặp".
  • 245. "Xóa các mục trùng lặp" là một công cụ tự động tìm kiếm và loại bỏ các mục nhập trùng lặp khỏi bảng tính. Chọn "Dữ liệu có hàng tiêu đề" vì bảng tính của chúng ta có một hàng ở trên cùng mô tả nội dung của từng cột. Tiếp theo, chọn "Tất cả" vì chúng tôi muốn kiểm tra toàn bộ bảng tính của mình. Cuối cùng, "Xóa các mục trùng lặp." Bạn sẽ nhận thấy hàng trùng lặp đã được tìm thấy và bị xóa ngay lập tức. Một công cụ bảng tính hữu ích khác cho phép bạn tạo các định dạng nhất quán. Ví dụ: một số ngày trong bảng tính này ở định dạng ngày chuẩn. Điều này có thể gây nhầm lẫn nếu bạn muốn phân tích thời điểm các thành viên hiệp hội tham gia, tần suất họ gia hạn tư cách thành viên hoặc họ đã tham gia hiệp hội được bao lâu. Để làm cho tất cả các ngày của chúng tôi nhất quán, trước tiên hãy chọn cột J, sau đó chuyển đến "Định dạng", chọn "Số", sau đó chọn "Ngày". Bây giờ tất cả các ngày của chúng tôi có một định dạng nhất quán. Trước khi chúng ta chuyển sang công cụ tiếp theo, tôi muốn giải thích chuỗi văn bản là gì. Trong phân tích dữ liệu, chuỗi văn bản là một nhóm ký tự trong một ô, thường bao gồm các chữ cái. Một đặc điểm quan trọng của chuỗi văn bản là độ dài của nó, là số lượng ký tự trong đó. Bạn sẽ tìm hiểu thêm về điều đó sớm. Hiện tại, cũng rất hữu ích khi biết rằng một chuỗi con là một tập hợp con nhỏ hơn của một chuỗi văn bản. Bây giờ hãy nói về Split. Split là một công cụ chia chuỗi văn bản xung quanh ký tự đã chỉ định và đặt từng đoạn vào một ô mới và riêng biệt. Tách rất hữu ích khi bạn có nhiều phần dữ liệu trong một ô và bạn muốn tách chúng ra. Đây có thể là tên và họ của một người được liệt kê cùng nhau hoặc có thể là một ô chứa thành phố, tiểu bang, quốc gia và mã zip của ai đó, nhưng bạn thực sự muốn mỗi tên đó nằm trong cột riêng của mình. Giả sử hiệp hội này muốn phân tích tất cả các chứng chỉ chuyên môn khác nhau mà các thành viên của hiệp hội đã đạt được. Để làm điều này, bạn muốn tách từng chứng nhận thành cột riêng. Ngay bây giờ, các chứng chỉ được phân tách bằng dấu phẩy. Đó là văn bản được chỉ định phân tách từng mục, còn được gọi là dấu phân cách. Hãy tách chúng ra. Đánh dấu cột, sau đó chọn "Dữ liệu" và "Chia văn bản thành cột". Ứng dụng bảng tính này tự động biết rằng dấu phẩy là dấu phân cách và tách từng chứng nhận. Nhưng đôi khi bạn có thể cần chỉ định dấu phân cách phải là gì. Tách văn bản thành các cột cũng hữu ích để sửa các trường hợp số được lưu trữ dưới dạng văn bản. Đôi khi các giá trị trong bảng tính của bạn trông giống như các con số, nhưng chúng được định dạng dưới dạng văn bản. Điều này có thể xảy ra khi sao chép và dán từ nơi này sang nơi khác hoặc nếu định dạng sai. Đối với ví dụ này, hãy xem bảng tính mới của chúng tôi từ một nhà sản xuất mỹ phẩm. Nếu một nhà phân tích dữ liệu muốn xác định tổng lợi nhuận, họ có thể cộng mọi thứ vào cột F. Nhưng có một vấn đề; một trong các ô có lỗi. Nếu bạn kiểm tra nó, bạn sẽ biết rằng "707" trong ô này là văn bản và không thể thay đổi thành số. Khi bảng tính cố gắng nhân giá thành của sản phẩm với số lượng đơn vị đã bán, nó không thể thực hiện phép tính. Nhưng nếu
  • 246. chúng ta chọn cột đơn hàng và chọn "Chia văn bản thành cột", lỗi sẽ được khắc phục vì bây giờ nó có thể được coi là một số. Sắp tới, bạn sẽ tìm hiểu về một công cụ có tác dụng ngược lại. Concatenate is A function that joins multiple text strings into a single string ( Là một hàm bảng tính kết hợp hai hoặc nhiều chuỗi với nhau). Bảng tính là một phần rất quan trọng trong phân tích dữ liệu. Chúng tiết kiệm thời gian và công sức của các nhà phân tích dữ liệu, đồng thời giúp chúng tôi loại bỏ lỗi mỗi ngày. Tại đây, bạn đã tìm hiểu về một số công cụ phổ biến nhất mà chúng tôi sử dụng. Nhưng còn rất nhiều điều nữa sẽ đến. Tiếp theo, chúng ta sẽ tìm hiểu thêm về cách làm sạch dữ liệu bằng các công cụ bảng tính. Tạm biệt nhé! Tối ưu hóa quy trình làm sạch dữ liệu Chào mừng trở lại. Bạn đã biết về một số công cụ làm sạch dữ liệu rất hữu ích được tích hợp ngay trong các ứng dụng bảng tính. Bây giờ chúng ta sẽ khám phá cách các chức năng có thể tối ưu hóa nỗ lực của bạn để đảm bảo tính toàn vẹn của dữ liệu. Xin nhắc lại, hàm là một tập hợp các hướng dẫn thực hiện một phép tính cụ thể bằng cách sử dụng dữ liệu trong bảng tính. Hàm đầu tiên chúng ta sẽ thảo luận được gọi là COUNTIF. COUNTIF is a function that returns the number of cells that match a specified value ( COUNTIF là một hàm bảng tính trả về số lượng ô trong một phạm vi khớp với một giá trị được chỉ định). Về cơ bản, nó đếm số lần một giá trị xuất hiện trong một dải ô. Hãy quay trở lại bảng tính hiệp hội nghề nghiệp của chúng tôi. Trong ví dụ này, chúng tôi muốn đảm bảo giá thành viên hiệp hội được liệt kê chính xác. Chúng tôi sẽ sử dụng COUNTIF để kiểm tra một số vấn đề phổ biến, chẳng hạn như số âm hoặc giá trị nhỏ hơn nhiều hoặc lớn hơn nhiều so với dự kiến. Để bắt đầu, hãy tìm tư cách thành viên ít tốn kém nhất: $100 cho hội sinh viên. Đó sẽ là số thấp nhất tồn tại trong cột này. Nếu bất kỳ ô nào có giá trị nhỏ hơn 100, COUNTIF sẽ thông báo cho chúng tôi. Chúng tôi sẽ thêm một vài hàng nữa ở cuối bảng tính của mình, sau đó bên dưới cột H, nhập "thành viên phải trả ít hơn 100 đô la". Tiếp theo, nhập hàm vào ô bên cạnh. Mỗi chức năng có một cú pháp nhất định cần được tuân theo để nó hoạt động. Syntax is a predetermined structure that includes all required information and its proper placement (Cú pháp là một cấu trúc được xác định trước bao gồm tất cả các thông tin cần thiết và vị trí thích hợp của nó). Cú pháp của hàm COUNTIF phải như sau: =COUNTIF(range,”value”) . Nó sẽ hiển thị như thế này: =COUNTIF(I2:I72,”<100”) .Điều này cho biết hàm đi qua cột I và trả về số lượng tất cả các ô chứa số nhỏ hơn 100. Hóa ra là có một ô! Cuộn qua dữ liệu của chúng tôi, chúng tôi thấy rằng một phần dữ liệu đã bị nhập nhầm thành số âm. Hãy khắc phục điều đó ngay bây giờ.
  • 247. Bây giờ, chúng tôi sẽ sử dụng COUNTIF để tìm kiếm bất kỳ giá trị nào nhiều hơn chúng tôi mong đợi. Loại thành viên đắt nhất là 500 đô la cho các thành viên công ty. Nhập chức năng trong ô. Lần này nó sẽ xuất hiện như thế này: =COUNTIF(I2:I72,”>500”) .Có một cái ở đây nữa. Kiểm tra nó ra. Mục nhập này có thêm một số không. Nó phải là 100 đô la. Chức năng tiếp theo chúng ta sẽ thảo luận được gọi là LEN. LEN is a function that tells you the length of a text string by counting the number of characters it contains (LEN là Một hàm trả về độ dài của một chuỗi văn bản bằng cách đếm số kí tự mà nó chứa). Điều này hữu ích khi làm sạch dữ liệu nếu bạn có một phần thông tin nhất định trong bảng tính của mình mà bạn biết phải chứa một độ dài nhất định. Ví dụ: hiệp hội này sử dụng mã nhận dạng thành viên gồm sáu chữ số. Nếu chúng tôi vừa nhập dữ liệu này và muốn chắc chắn rằng tất cả các mã của chúng tôi đều có số chữ số chính xác, thì chúng tôi sẽ sử dụng LEN. Cú pháp của LEN =LEN(range) Chúng tôi sẽ chèn một cột mới sau ID thành viên. Sau đó nhập dấu bằng và LEN. Thêm một dấu ngoặc đơn mở. Phạm vi là số ID Thành viên đầu tiên trong A2. Kết thúc chức năng bằng cách đóng dấu ngoặc đơn. =LEN(A2) Nó cho chúng ta biết rằng có sáu ký tự trong ô A2. Hãy tiếp tục chức năng thông qua toàn bộ cột và tìm xem có kết quả nào không phải là sáu không. Nhưng thay vì duyệt qua bảng tính của chúng tôi theo cách thủ công để tìm kiếm những trường hợp này, chúng tôi sẽ sử dụng định dạng có điều kiện. Chúng tôi đã nói về định dạng có điều kiện trước đó. Đó là một công cụ bảng tính thay đổi cách các ô xuất hiện khi các giá trị đáp ứng các điều kiện cụ thể. Hãy thực hành điều đó ngay bây giờ. Chọn tất cả cột B ngoại trừ tiêu đề. Sau đó vào Định dạng và chọn Định dạng có điều kiện. Quy tắc định dạng là định dạng các ô nếu không bằng 6. Nhấp vào "Xong." Ô có số 7 bên trong được tô sáng. Bây giờ chúng ta sẽ nói về TRÁI và PHẢI. LEFT is a fuction that gives you a set number of characters from left side of text string (Một hàm trả về một tập hợp các kí tự từ phía bên trái của một chuỗi văn bản). Right is a fuction that gives you a set number of characters from right side of text string (Một hàm trả về một tập hợp các kí tự từ phía bên phải của một chuỗi văn bản). Xin nhắc lại, chuỗi văn bản là một nhóm ký tự trong một ô, thường bao gồm các chữ cái, số hoặc cả hai. Để xem hoạt động của các chức năng này, hãy quay lại bảng tính của nhà sản xuất mỹ phẩm trước đó. Bảng tính này chứa mã sản phẩm. Mỗi cái có một mã số gồm năm chữ số và sau đó là một mã định danh văn bản gồm bốn ký tự. Nhưng giả sử chúng ta chỉ muốn làm việc với bên này hay bên kia. Bạn có thể sử dụng LEFT hoặc RIGHT để cung cấp cho bạn bộ ký tự hoặc số cụ thể mà bạn cần. Trước tiên, chúng ta sẽ thực hành dọn dẹp dữ liệu của mình bằng hàm LEFT. Cú pháp của LEFT =LEFT(range,number of characters) Ở đây, dự án của chúng tôi chỉ yêu cầu mã số gồm năm chữ số. Trong một cột riêng biệt, nhập bằng TRÁI, mở dấu ngoặc đơn, sau đó nhập phạm vi. Phạm vi của chúng tôi là A2.
  • 248. Sau đó, thêm dấu phẩy và sau đó đánh số 5 cho mã sản phẩm gồm năm chữ số của chúng tôi. Cuối cùng, kết thúc hàm bằng dấu ngoặc đơn đóng. =LEFT(A2,5) Bấm phím Enter." Và bây giờ, chúng ta có một chuỗi con, chỉ là phần số của mã sản phẩm. Nhấp và kéo chức năng này qua toàn bộ cột để chỉ tách các mã sản phẩm còn lại theo số. Bây giờ, giả sử dự án của chúng ta chỉ cần mã định danh văn bản gồm bốn ký tự. Để làm được điều đó, chúng ta sẽ sử dụng hàm RIGHT và cột tiếp theo sẽ bắt đầu hàm này. Cú pháp bằng RIGHT, mở ngoặc đơn, phạm vi, dấu phẩy và số lượng ký tự chúng tôi muốn. Sau đó, chúng tôi kết thúc với một dấu ngoặc đơn đóng. Hãy quan trọng điều đó ngay bây giờ. Bằng bên phải, mở dấu ngoặc đơn và phạm vi vẫn là A2. Thêm một dấu phẩy. Lần này, chúng tôi sẽ nói với nó rằng chúng tôi muốn bốn ký tự đầu tiên từ bên phải. Đóng dấu ngoặc đơn và nhấn "Enter." Sau đó, kéo hàm trong toàn bộ cột. Giờ đây, chúng tôi có thể phân tích sản phẩm trong bảng tính của mình dựa trên một trong hai chuỗi con. Mã số gồm năm chữ số hoặc mã định danh văn bản gồm bốn ký tự. Hy vọng rằng điều đó làm rõ cách bạn có thể sử dụng LEFT và RIGHT để trích xuất các chuỗi con từ bên trái và bên phải của một chuỗi. Bây giờ, hãy tìm hiểu làm thế nào bạn có thể trích xuất một cái gì đó ở giữa. Đây là nơi chúng ta sẽ sử dụng thứ gọi là MID. MID là hàm cung cấp cho bạn một đoạn từ giữa chuỗi văn bản. Công ty mỹ phẩm này liệt kê tất cả khách hàng của mình bằng mã khách hàng. Nó bao gồm ba chữ cái đầu tiên của thành phố nơi khách hàng tọa lạc, tên viết tắt của tiểu bang và sau đó là số nhận dạng gồm ba chữ số. Nhưng giả sử một nhà phân tích dữ liệu chỉ cần làm việc với các trạng thái ở giữa. Cú pháp cho MID bằng MID, mở dấu ngoặc đơn, phạm vi, sau đó là dấu phẩy. Khi sử dụng MID, bạn luôn cần cung cấp một điểm tham chiếu. Nói cách khác, bạn cần đặt vị trí bắt đầu chức năng. Sau đó, đặt một dấu phẩy khác và bao nhiêu ký tự ở giữa mà bạn muốn. Trong trường hợp này, phạm vi của chúng tôi là D2. Hãy bắt đầu chức năng trong một cột mới. Nhập bằng MID, mở dấu ngoặc đơn, D2. Sau đó, ba ký tự đầu tiên đại diện cho tên thành phố, vì vậy điều đó có nghĩa là điểm bắt đầu là điểm thứ tư. Thêm một dấu phẩy và bốn. Chúng ta cũng cần cho hàm biết chúng ta muốn có bao nhiêu ký tự ở giữa. Thêm một dấu phẩy nữa và hai dấu phẩy vì các chữ viết tắt của tiểu bang dài hai ký tự. Nhấn "Enter" và bam, chúng tôi chỉ nhận được chữ viết tắt của tiểu bang. Tiếp tục hàm MID thông qua phần còn lại của cột. Chúng ta đã học về một vài hàm giúp tách các chuỗi văn bản cụ thể. Nhưng nếu chúng ta muốn kết hợp chúng lại thì sao? Để làm được điều đó, chúng ta sẽ sử dụng CONCATENATE, đây là một hàm kết hợp hai hoặc nhiều chuỗi văn bản lại với nhau. Cú pháp bằng CONCATENATE, =CONCATENATE(item1,item2) sau đó một dấu ngoặc đơn mở bên trong cho biết từng chuỗi văn bản bạn muốn nối, được phân tách bằng dấu phẩy. Sau đó kết thúc hàm bằng dấu ngoặc đơn đóng. Để thực hành, giả sử chúng ta cần nối lại chuỗi văn bản bên trái và bên phải thành mã sản phẩm hoàn chỉnh. Trong một cột mới, hãy bắt đầu
  • 249. chức năng của chúng ta. Nhập bằng CONCATENATE, sau đó là dấu ngoặc đơn mở. Chuỗi văn bản đầu tiên chúng tôi muốn tham gia là trong H2. Sau đó thêm dấu phẩy. Phần thứ hai là trong I2. Thêm một dấu ngoặc đơn đóng và nhấn "Enter". Kéo nó xuống qua toàn bộ cột và cứ như vậy, tất cả các mã sản phẩm của chúng tôi trở lại với nhau. Chức năng cuối cùng chúng ta sẽ tìm hiểu ở đây là TRIM. TRIM là một chức năng loại bỏ các khoảng trắng ở đầu, cuối và lặp lại trong dữ liệu. Đôi khi, khi bạn nhập dữ liệu, các ô của bạn có thêm khoảng trắng, điều này có thể cản trở quá trình phân tích của bạn. Ví dụ: nếu nhà sản xuất mỹ phẩm này muốn tra cứu tên khách hàng cụ thể, thì tên đó sẽ không hiển thị trong kết quả tìm kiếm nếu có thêm khoảng trắng. Bạn có thể sử dụng TRIM để khắc phục sự cố đó. Cú pháp của TRIM bằng TRIM, dấu ngoặc đơn mở, phạm vi của bạn và dấu ngoặc đơn đóng =TRIM(range) Trong một cột riêng biệt, nhập bằng TRIM và một dấu ngoặc đơn mở. Phạm vi là C2, vì bạn muốn kiểm tra tên khách hàng. Đóng dấu ngoặc đơn và nhấn "Enter". Cuối cùng, tiếp tục chức năng xuống cột. TRIM đã sửa các khoảng trống thừa. Bây giờ chúng tôi biết một số chức năng rất hữu ích có thể làm cho việc dọn dẹp dữ liệu của bạn thành công hơn nữa. Đây là rất nhiều thông tin. Như mọi khi, hãy thoải mái quay lại và xem lại video rồi tự mình thực hành. Chúng tôi sẽ sớm tiếp tục xây dựng các công cụ này và bạn cũng sẽ có cơ hội thực hành. Chẳng bao lâu nữa, các bước làm sạch dữ liệu này sẽ trở thành bản năng thứ hai, giống như đánh răng vậy. Các quan điểm dữ liệu khác nhau
  • 250. Chương 3: Sử dụng SQL để làm sạch dữ liệu Sử dụng SQL để làm sạch dữ liệu Chào mừng trở lại và hoàn thành xuất sắc nhiệm vụ trong thử thách hàng tuần cuối cùng đó. Bây giờ chúng ta đã biết sự khác biệt giữa làm sạch dữ liệu bẩn và một số kỹ thuật làm sạch dữ liệu chung, hãy tập trung vào việc làm sạch dữ liệu bằng SQL. Sắp tới, chúng ta sẽ tìm hiểu về các chức năng làm sạch dữ liệu khác nhau trong bảng tính và SQL cũng như cách SQL có thể được sử dụng để làm sạch các tập dữ liệu lớn. Tôi cũng sẽ chỉ cho bạn cách phát triển một số truy vấn tìm kiếm cơ bản cho cơ sở dữ liệu và cách áp dụng các hàm SQL cơ bản để chuyển đổi dữ liệu và làm sạch chuỗi. Làm sạch dữ liệu của bạn là bước cuối cùng trong quy trình phân tích dữ liệu trước khi bạn có thể chuyển sang phân tích thực tế và SQL có rất nhiều công cụ tuyệt vời có thể giúp bạn làm điều đó. Nhưng trước khi bắt đầu dọn dẹp cơ sở dữ liệu, chúng ta sẽ xem xét kỹ hơn về SQL và thời điểm sử dụng nó. Tôi sẽ gặp bạn ở đó. Sally: Vì tình yêu SQL Các cơ quan quảng cáo nhận tiền từ khách hàng của họ để quảng cáo thương hiệu của họ. Các đại lý này sử dụng sản phẩm của chúng tôi, sử dụng một số nền tảng, nền tảng quảng cáo nhất định của Google và tôi giúp họ cách sử dụng những nền tảng đó một cách tốt nhất, các chiến lược khác nhau mà họ có thể sử dụng để trở thành người giỏi nhất trong tầng lớp. Rất nhiều người ở các công ty quảng cáo có báo cáo rằng họ phải gửi cho khách hàng của mình. Các báo cáo này mất rất nhiều thời gian để tạo và trực quan hóa, vì vậy điều tôi làm là giúp các học viên và nhóm phân tích sử dụng một sản phẩm cụ thể cho phép họ tạo các báo cáo đó nhanh hơn và dễ dàng hơn nhiều. Nếu bạn bắt đầu với tư cách là một nhà phân tích dữ liệu, nó sẽ mở ra rất nhiều cánh cửa vì mọi người đang theo dõi dữ liệu, đang sử dụng dữ liệu, cần sử dụng dữ liệu, bất kể ngành nào. Bất cứ nơi nào từ chăm sóc sức khỏe, quảng cáo, thương mại điện tử, giải trí, mọi thứ và mọi thứ, mọi người đều sử dụng dữ liệu, vì vậy mọi người cần bạn với tư cách là nhà phân tích dữ liệu. SQL làm cho cuộc sống của chúng ta dễ dàng hơn khi chúng ta phân tích nhiều dữ liệu khác nhau. Chỉ gần đây thôi, các chương trình SQL mà chúng ta sử dụng hiện nay có thể cho chúng ta kết quả tức thì để phân tích hàng triệu hoặc hàng tỷ dữ liệu. Cách đây nhiều năm, có thể khoảng năm năm trước hoặc lâu hơn, mặc dù chúng tôi vẫn có thể phân tích hàng triệu hàng đó, nhưng cuối cùng chúng tôi sẽ phải đợi mười lăm phút, ba mươi phút để truy vấn chạy. Nhưng bây giờ nó là tức thời, và vì vậy điều đó thực sự thú vị, và chúng ta có thể làm được nhiều hơn nữa với sức mạnh đó.
  • 251. SQL đã giúp ích rất nhiều cho sự nghiệp của tôi vì nó là một trong những điều cơ bản mà bạn phải biết với tư cách là một nhà phân tích dữ liệu. Trước đây, không phải ai cũng biết SQL, vì vậy biết SQL chắc chắn là một lợi thế cạnh tranh. Còn bây giờ, tôi xin nói nhiều người hơn, có lẽ hầu hết mọi người đều biết. Đó là một kỹ năng cốt lõi và được mọi người tìm kiếm rất nhiều. Vì vậy, biết SQL, trở thành một nhà phân tích dữ liệu khiến bạn trở nên khá nổi tiếng với các nhà tuyển dụng, vì vậy tôi nghĩ điều đó thực sự thú vị. Tôi đã tự học SQL, vì vậy kiến thức về SQL của tôi là thứ mà tôi luôn trân trọng và yêu quý, gần gũi với trái tim mình vì nó gần như là thứ mà tôi đã tự tạo ra cho mình và tôi cảm thấy rất hài lòng về nó. Vì vậy, đó là lý do tại sao tôi thực sự thích SQL. Một trong những điều thú vị về SQL và một lý do khác khiến tôi thực sự thích sử dụng nó là vì khi bạn nhập nội dung nào đó vào truy vấn đó và bạn chỉ cần nhấn Control, Shift, Enter hoặc sau khi chạy truy vấn, bạn sẽ nhận được kết quả gần như ngay lập tức, tùy thuộc vào nền tảng bạn sử dụng. Nhưng thật thú vị khi xem liệu bạn có nghĩ về mặt khái niệm rằng máy tính đang thực hiện bao nhiêu phân tích cho bạn dựa trên một chút mã lệnh hoặc một chút mã bạn đã viết, và nó thật sự rất hiệu quả nếu bạn nghĩ về những gì đang xảy ra đằng sau hậu trường. Vì vậy, tôi nghĩ rằng đó là niềm vui để xem xét. Chúng ta đang sống trong một thế giới dữ liệu lớn và nó ngày càng lớn hơn. Sức mạnh tính toán cũng đang tăng theo cấp số nhân. Với tất cả dữ liệu mà chúng tôi có thể theo dõi, chúng tôi càng có thể theo dõi dữ liệu đó nhiều hơn, chúng tôi càng cần nhiều nhà phân tích dữ liệu hơn. Triển vọng nghề nghiệp của chúng tôi về cơ bản là tăng vọt. Tôi là Sally, tôi là trưởng nhóm đo lường và phân tích tại Google. Hiểu các khả năng của SQL Xin chào lần nữa. So, trước khi chúng ta xem xét tất cả các cách mà các nhà phân tích dữ liệu sử dụng SQL để làm sạch dữ liệu, tôi muốn chính thức giới thiệu với bạn về SQL. Chúng ta đã nói về SQL rất nhiều rồi. Bạn đã thấy một số cơ sở dữ liệu và một số chức năng cơ bản trong SQL và thậm chí bạn đã thấy cách SQL có thể được sử dụng để xử lý dữ liệu. Nhưng bây giờ hãy thực sự định nghĩa SQL. SQL là ngôn ngữ truy vấn có cấu trúc mà các nhà phân tích sử dụng để làm việc với cơ sở dữ liệu. Các nhà phân tích dữ liệu thường sử dụng SQL để xử lý các tập dữ liệu lớn vì nó có thể xử lý lượng dữ liệu khổng lồ. Và ý tôi là hàng nghìn tỷ hàng. Đó là rất nhiều hàng để quấn quanh đầu của bạn. Vì vậy, hãy để tôi cho bạn biết lượng dữ liệu thực sự là bao nhiêu. Hãy tưởng tượng một bộ dữ liệu chứa tên của tất cả 8 tỷ người trên thế giới. Một người bình thường sẽ mất 101 năm để đọc hết 8 tỷ cái tên. SQL có thể xử lý việc này trong vài giây. Cá nhân, tôi nghĩ rằng đó là khá tuyệt. Các công cụ khác như bảng tính có thể mất nhiều thời gian để xử lý lượng dữ liệu đó, đó là một trong những lý do chính khiến các nhà phân tích dữ liệu chọn sử dụng SQL khi xử lý các tập dữ liệu lớn.
  • 252. Hãy để tôi cung cấp cho bạn một lịch sử ngắn về SQL. Sự phát triển trên SQL thực sự bắt đầu vào đầu những năm 70. Năm 1970, Edgar F.Codd đã phát triển lý thuyết về cơ sở dữ liệu quan hệ. Bạn có thể nhớ đã học về cơ sở dữ liệu quan hệ trước đây. Đây là một cơ sở dữ liệu chứa một loạt các bảng có thể được kết nối để tạo thành các mối quan hệ. Vào thời điểm đó, IBM đang sử dụng một hệ thống quản lý cơ sở dữ liệu quan hệ có tên là System R. Các nhà khoa học máy tính của IBM đang cố gắng tìm ra cách để thao tác và truy xuất dữ liệu từ IBM System R. Ngôn ngữ truy vấn đầu tiên của họ rất khó sử dụng. Vì vậy, họ nhanh chóng chuyển sang phiên bản tiếp theo, SQL. Năm 1979, sau khi thử nghiệm rộng rãi SQL, bây giờ chỉ được đánh vần là SQ-L, đã được phát hành công khai. Đến năm 1986, SQL đã trở thành ngôn ngữ tiêu chuẩn cho giao tiếp cơ sở dữ liệu quan hệ và nó vẫn vậy. Đây là một lý do khác khiến các nhà phân tích dữ liệu chọn SQL. Đó là một tiêu chuẩn nổi tiếng trong cộng đồng. Lần đầu tiên tôi sử dụng SQL để lấy dữ liệu từ cơ sở dữ liệu thực là cho công việc đầu tiên của tôi với tư cách là nhà phân tích dữ liệu. Trước đó tôi không có bất kỳ kiến thức cơ bản nào về SQL. Tôi chỉ phát hiện ra nó bởi vì nó là một yêu cầu cho công việc đó. Nhà tuyển dụng cho vị trí đó đã cho tôi một tuần để tìm hiểu nó. Vì vậy, tôi đã lên mạng và nghiên cứu về nó và kết thúc bằng việc tự học SQL. Họ thực sự đã cho tôi một bài kiểm tra viết như một phần của quá trình xin việc. Tôi đã phải viết các hàm và truy vấn SQL trên bảng trắng. Nhưng tôi đã sử dụng SQL kể từ đó. Và tôi thực sự thích nó. Và giống như tôi đã tự học SQL, tôi muốn nhắc bạn rằng bạn cũng có thể tự tìm hiểu mọi thứ. Có rất nhiều nguồn tài nguyên trực tuyến tuyệt vời để học tập. Vì vậy, đừng để một yêu cầu công việc cản trở bạn mà không thực hiện một số nghiên cứu trước. Bây giờ chúng ta đã biết thêm một chút về lý do tại sao các nhà phân tích chọn làm việc với SQL khi họ đang xử lý nhiều dữ liệu và một chút về lịch sử của SQL, chúng ta sẽ tiếp tục và tìm hiểu một số ứng dụng thực tế cho nó. Tiếp theo, chúng ta sẽ kiểm tra một số công cụ mà chúng ta đã học trong bảng tính và tìm hiểu xem có công cụ nào trong số đó áp dụng để làm việc trong SQL hay không. Cảnh báo spoiler, họ làm. Hẹn sớm gặp lại. Bảng tính so với SQL Xin chào. Cho đến giờ chúng ta đã học về cả bảng tính và SQL. Mặc dù có rất nhiều điểm khác biệt giữa bảng tính và SQL, nhưng bạn cũng sẽ tìm thấy một số điểm tương đồng. Hãy xem bảng tính và SQL có điểm gì chung và chúng khác nhau như thế nào. Bảng tính và SQL thực sự có rất nhiều điểm chung. Cụ thể, có những công cụ bạn có thể sử dụng trong cả bảng tính và SQL để đạt được kết quả tương tự. Chúng ta đã tìm hiểu về một số công cụ để làm sạch dữ liệu trong bảng tính, nghĩa là bạn đã biết một số công cụ mà bạn có thể sử dụng trong SQL.
  • 253. Ví dụ: bạn vẫn có thể thực hiện phép tính số học, sử dụng công thức và nối dữ liệu khi đang sử dụng SQL, vì vậy, chúng ta sẽ xây dựng dựa trên các kỹ năng đã học trong bảng tính và sử dụng chúng để thực hiện công việc thậm chí còn phức tạp hơn trong SQL. Đây là một ví dụ về ý nghĩa của công việc phức tạp hơn. Nếu chúng tôi đang làm việc với dữ liệu sức khỏe cho một bệnh viện, chúng tôi cần có khả năng truy cập và xử lý rất nhiều dữ liệu. Chúng tôi có thể cần dữ liệu nhân khẩu học, chẳng hạn như tên, ngày sinh và địa chỉ của bệnh nhân, thông tin về bảo hiểm hoặc các lần thăm khám trước đây của họ, dữ liệu y tế công cộng hoặc thậm chí dữ liệu do người dùng tạo để thêm vào hồ sơ bệnh nhân của họ. Tất cả dữ liệu này đang được lưu trữ ở những nơi khác nhau, thậm chí có thể ở các định dạng khác nhau và mỗi vị trí có thể có hàng triệu hàng và hàng trăm bảng liên quan. Đây là quá nhiều dữ liệu để nhập thủ công, ngay cả đối với chỉ một bệnh viện. Đó là nơi SQL có ích. Thay vì phải xem xét từng nguồn dữ liệu riêng lẻ và ghi lại vào bảng tính của mình, chúng ta có thể sử dụng SQL để lấy tất cả thông tin này từ các vị trí khác nhau trong cơ sở dữ liệu của mình. Bây giờ, giả sử chúng ta muốn tìm điều gì đó cụ thể trong tất cả dữ liệu này, chẳng hạn như có bao nhiêu bệnh nhân với một chẩn đoán nhất định đến khám hôm nay. Trong một bảng tính, chúng ta có thể sử dụng hàm COUNTIF để tìm ra điều đó hoặc chúng ta có thể kết hợp các truy vấn COUNT và WHERE trong SQL để tìm xem có bao nhiêu hàng phù hợp với tiêu chí tìm kiếm của chúng ta. Điều này sẽ cho chúng ta kết quả tương tự, nhưng hoạt động với tập hợp dữ liệu lớn hơn và phức tạp hơn nhiều. Tiếp theo, hãy nói về sự khác nhau của bảng tính và SQL. Đầu tiên, điều quan trọng là phải hiểu rằng bảng tính và SQL là những thứ khác nhau. Bảng tính được tạo bằng chương trình như Excel hoặc Google Trang tính. Các chương trình này được thiết kế để thực hiện một số chức năng tích hợp sẵn. Mặt khác, SQL là ngôn ngữ có thể được sử dụng để tương tác với các chương trình cơ sở dữ liệu, như Oracle MySQL hoặc Microsoft SQL Server. Sự khác biệt giữa hai chủ yếu là ở cách chúng được sử dụng. Nếu một nhà phân tích dữ liệu được cung cấp dữ liệu ở dạng bảng tính, họ có thể sẽ làm sạch và phân tích dữ liệu trong bảng tính đó, nhưng nếu họ đang làm việc với một tập dữ liệu lớn có hơn một triệu hàng hoặc nhiều tệp trong cơ sở dữ liệu , việc sử dụng SQL dễ dàng hơn, nhanh hơn và có thể lặp lại nhiều hơn. SQL có thể truy cập và sử dụng nhiều dữ liệu hơn vì nó có thể tự động lấy thông tin từ các nguồn khác nhau trong cơ sở dữ liệu, không giống như bảng tính chỉ có quyền truy cập vào dữ liệu bạn nhập. Điều này cũng có nghĩa là dữ liệu được lưu trữ ở nhiều nơi. Nhà phân tích dữ liệu có thể sử dụng bảng tính được lưu trữ cục bộ trên ổ cứng hoặc đám mây cá nhân của họ khi họ làm việc một mình, nhưng nếu họ làm việc trong một nhóm lớn hơn với nhiều nhà phân tích cần truy cập và sử dụng dữ liệu được lưu trữ trên cơ sở dữ liệu, thì SQL có thể là một công cụ hữu ích hơn.
  • 254. Do những khác biệt này, bảng tính và SQL được sử dụng cho những mục đích khác nhau. Như bạn đã biết, bảng tính phù hợp với các tập dữ liệu nhỏ hơn và khi bạn làm việc độc lập. Ngoài ra, bảng tính có các chức năng tích hợp sẵn, chẳng hạn như kiểm tra chính tả có thể thực sự tiện dụng. SQL rất phù hợp để làm việc với các tập dữ liệu lớn hơn, thậm chí hàng nghìn tỷ hàng dữ liệu. Vì SQL đã là ngôn ngữ tiêu chuẩn để giao tiếp với cơ sở dữ liệu từ rất lâu nên nó có thể được điều chỉnh và sử dụng cho nhiều chương trình cơ sở dữ liệu. SQL cũng ghi lại các thay đổi trong truy vấn, điều này giúp dễ dàng theo dõi các thay đổi trong nhóm của bạn nếu bạn đang cộng tác làm việc. Tiếp theo, chúng ta sẽ tìm hiểu thêm các truy vấn và hàm trong SQL sẽ cung cấp cho bạn một số công cụ mới để làm việc. Bạn thậm chí có thể học cách sử dụng các công cụ bảng tính theo những cách hoàn toàn mới. Hẹn gặp lại bạn lần sau.
  • 255. Chương 2: Tìm hiểu các truy vấn SQL cơ bản Các truy vấn SQL được sử dụng rộng rãi Này, chào mừng trở lại. Cho đến giờ, chúng ta đã biết rằng SQL có một số công cụ giống như bảng tính, nhưng ở quy mô lớn hơn nhiều. Trong video này, chúng ta sẽ tìm hiểu một số truy vấn SQL được sử dụng rộng rãi nhất mà bạn có thể bắt đầu sử dụng để làm sạch dữ liệu của riêng mình và phân tích cuối cùng. Bắt đầu nào. Chúng ta đã nói về các truy vấn dưới dạng yêu cầu bạn đưa vào cơ sở dữ liệu để yêu cầu cơ sở dữ liệu thực hiện mọi việc cho bạn. Truy vấn là một phần quan trọng trong việc sử dụng SQL. Rốt cuộc, đó là Ngôn ngữ truy vấn có cấu trúc. Truy vấn có thể giúp bạn làm rất nhiều việc, nhưng có một số truy vấn phổ biến mà các nhà phân tích dữ liệu luôn sử dụng. Vì vậy, hãy bắt đầu ở đó. Đầu tiên, tôi sẽ chỉ cho bạn cách sử dụng truy vấn SELECT. Tôi đã gọi cái này trước đây, nhưng bây giờ tôi sẽ thêm một số thứ mới để chúng ta thử. Ngay bây giờ, trình xem bảng trống vì chúng tôi chưa lấy bất kỳ thứ gì từ cơ sở dữ liệu. Trong ví dụ này, cửa hàng mà chúng tôi đang hợp tác đang tổ chức một chương trình tặng quà cho khách hàng ở một số thành phố nhất định. Chúng tôi có cơ sở dữ liệu chứa thông tin khách hàng mà chúng tôi có thể sử dụng để thu hẹp khách hàng nào đủ điều kiện nhận quà tặng. Hãy làm điều đó ngay bây giờ. Chúng ta có thể sử dụng SELECT để chỉ định chính xác dữ liệu nào chúng ta muốn tương tác trong một bảng. Nếu chúng ta kết hợp SELECT với FROM, chúng ta có thể lấy dữ liệu từ bất kỳ bảng nào trong cơ sở dữ liệu này miễn là họ biết các cột và hàng được đặt tên là gì. Chúng tôi có thể muốn lấy dữ liệu về tên khách hàng và thành phố từ một trong các bảng. Để làm điều đó, chúng ta có thể nhập SELECT name “,” city FROM customer_data.customer_address . Để lấy thông tin này từ bảng địa chỉ gạch dưới của khách hàng, nằm trong dữ liệu gạch dưới của khách hàng, tập dữ liệu.
  • 256. SELECT và FROM giúp chỉ định dữ liệu nào chúng tôi muốn trích xuất từ cơ sở dữ liệu và sử dụng. Chúng tôi cũng có thể chèn dữ liệu mới vào cơ sở dữ liệu hoặc cập nhật dữ liệu hiện có. Ví dụ: có thể chúng tôi có một khách hàng mới mà chúng tôi muốn chèn vào bảng này. Chúng ta có thể sử dụng truy vấn INSERT INTO để đưa thông tin đó vào. Hãy bắt đầu với nơi chúng ta đang cố gắng chèn dữ liệu này, bảng địa chỉ gạch dưới của khách hàng. Chúng tôi cũng muốn chỉ định cột nào chúng tôi sẽ thêm dữ liệu này vào bằng cách nhập tên của chúng vào dấu ngoặc đơn. Bằng cách đó, SQL có thể cho cơ sở dữ liệu biết chính xác nơi chúng tôi đã nhập thông tin mới. Sau đó, chúng tôi sẽ cho nó biết những giá trị mà chúng tôi đang đưa vào. INSERT INTO customer_data.customer_address (customer_id, address, city, state, zipcode, country) VALUES (2645, ‘333 SQL Road’, ‘Jackson’, ‘MI’, 49202, ‘US’) Sau đó, chúng tôi sẽ cho nó biết những giá trị mà chúng tôi đang đưa vào. Chạy truy vấn và cứ như vậy, nó đã thêm nó vào bảng của chúng tôi cho chúng tôi. Bây giờ, giả sử chúng ta chỉ cần thay đổi địa chỉ của một khách hàng. Chà, chúng ta có thể yêu cầu cơ sở dữ liệu cập nhật nó cho chúng ta. Để làm điều đó, chúng ta cần nói với nó rằng chúng ta đang cố cập nhật bảng địa chỉ gạch dưới của khách hàng. Sau đó, chúng tôi cần cho nó biết giá trị mà chúng tôi đang cố gắng thay đổi. Nhưng chúng ta cũng cần cho nó biết cụ thể chúng ta đang thực hiện thay đổi đó ở đâu để nó không thay đổi mọi địa chỉ trong bảng. Đấy. Bây giờ địa chỉ của một khách hàng này đã được cập nhật.
  • 257. UPDATE customer_data.customer_address SET address = ‘123 New Address’ WHERE customer_id = 2645 Nếu chúng ta muốn tạo một bảng mới cho cơ sở dữ liệu này, chúng ta có thể sử dụng câu lệnh CREATE TABLE IF NOT EXISTS. Hãy ghi nhớ, chỉ chạy truy vấn SQL không thực sự tạo bảng cho dữ liệu mà chúng tôi trích xuất. Nó chỉ lưu trữ nó trong bộ nhớ cục bộ của chúng tôi. Để lưu nó, chúng tôi cần tải xuống dưới dạng bảng tính hoặc lưu kết quả vào một bảng mới. Là một nhà phân tích dữ liệu, có một số tình huống mà bạn có thể cần phải làm điều đó. Nó thực sự phụ thuộc vào loại dữ liệu bạn đang lấy và tần suất. Nếu bạn chỉ đang sử dụng tổng số lượng khách hàng, thì có thể bạn không cần tệp CSV hoặc bảng mới trong cơ sở dữ liệu của mình. Nếu bạn đang sử dụng tổng số khách hàng mỗi ngày để làm điều gì đó như theo dõi chương trình khuyến mãi cuối tuần tại một cửa hàng, thì bạn có thể tải xuống dữ liệu đó dưới dạng tệp CSV để có thể hình dung dữ liệu đó trong bảng tính. Nhưng nếu bạn được yêu cầu kéo theo xu hướng này một cách thường xuyên, bạn có thể tạo một bảng sẽ tự động làm mới với truy vấn bạn đã viết. Bằng cách đó, bạn có thể trực tiếp tải xuống kết quả bất cứ khi nào bạn cần để báo cáo. Một điều tốt nữa cần ghi nhớ, nếu bạn đang tạo nhiều bảng trong cơ sở dữ liệu, bạn sẽ muốn sử dụng câu lệnh DROP TABLE IF EXISTS để tự dọn dẹp. Đó là công việc dọn dẹp tốt. Bạn có thể sẽ không xóa các bảng hiện có thường xuyên. Rốt cuộc, đó là dữ liệu của công ty và bạn không muốn xóa dữ liệu quan trọng khỏi cơ sở dữ liệu của họ. Tuy nhiên, bạn có thể đảm bảo rằng bạn đang dọn sạch các bảng mà chính bạn đã tạo để không còn các bảng cũ hoặc không được sử dụng với thông tin dư thừa làm lộn xộn cơ sở dữ liệu.
  • 258. There. Bây giờ bạn đã thấy một số truy vấn SQL được sử dụng rộng rãi nhất đang hoạt động. Chắc chắn có nhiều từ khóa truy vấn hơn để bạn tìm hiểu và các kết hợp độc đáo sẽ giúp bạn làm việc trong cơ sở dữ liệu. Nhưng đây là một nơi tuyệt vời để bắt đầu. Sắp tới, chúng ta sẽ tìm hiểu nhiều hơn về các truy vấn trong SQL và cách sử dụng chúng để làm sạch dữ liệu của chúng ta. Hẹn gặp lại bạn lần sau. Evan: Vui vẻ với SQL Xin chào, tôi là Evan. Tôi là người quản lý danh mục đầu tư học tập tại Google. Tôi không nghĩ mình thuộc loại khoa học máy tính hay siêu kỹ thuật, nhưng tôi thực sự, thực sự thích làm việc với những con số, vì vậy thực sự, tôi đã theo học ngành kế toán. Và khoảng sau hai năm làm kế toán, tôi nói, "Chà, tôi thực sự không muốn làm tất cả những việc này bằng tay," nên tôi tham gia lớp hệ thống thông tin đầu tiên, nơi họ dạy tôi ngôn ngữ SQL hoặc S- Q-L, và nó hoàn toàn mở ra lên tâm trí của tôi. Giữa kiến thức làm việc về bảng tính nơi bạn thay đổi một ô và toàn bộ bảng tính thay đổi vì những trường được tính toán tuyệt vời đó và SQL nơi tôi có thể truy vấn hàng tỷ hàng dữ liệu chỉ trong giây lát, tôi hoàn toàn bị thuyết phục bởi tình yêu dành cho dữ liệu của mình. Tôi đã cống hiến cả cuộc đời và sự nghiệp của mình chỉ để truyền đạt niềm đam mê đó và khiến mọi người hào hứng với những điều họ có thể làm với dữ liệu của mình. Tại sao SQL lại là ngôn ngữ đầu tiên tuyệt vời để chọn? Chà, có rất nhiều thứ bạn có thể làm với nó. Trước tiên tôi sẽ báo trước và nói rằng, tôi không phải là sinh viên chuyên ngành khoa học máy tính. Tôi không biết sâu về Java và Python, và tôi hơi e ngại khi học một ngôn ngữ máy tính. Nó giống như một ngôn ngữ lập trình giả, nhưng trên thực tế, bạn có thể viết câu lệnh SQL đầu tiên của mình như bạn sắp tìm hiểu ở đây chỉ trong năm phút hoặc ít hơn. Thành thật mà nói, SQL là một trong những ngôn ngữ dễ học và thậm chí còn thú vị hơn khi thành thạo. Tôi đã học SQL được 15 năm. Tôi đã dạy nó được 10 năm. Như bạn sẽ thấy trong một số phòng thí nghiệm thực hành này mà bạn sẽ làm việc, rất dễ dàng để trả về dữ liệu từ bên trong cơ sở dữ liệu hoặc tập hợp dữ liệu. Chỉ cần chọn bất kỳ cột nào từ bất kỳ cơ sở dữ liệu nào mà bạn đang lấy từ đó và ngay lập tức bạn sẽ lấy lại được dữ liệu. Bây giờ, phần thực sự thú vị là thực sự trêu chọc và nói, tôi tự hỏi liệu tôi có thay đổi truy vấn của mình không, thêm các cột khác này, lọc tập dữ liệu này theo một cách khác, chia sẻ với đồng nghiệp của tôi. Nó có nghĩa là một ngôn ngữ truy vấn tương tác và "truy vấn" có nghĩa là "đặt câu hỏi". Nếu tôi có thể thách thức bạn một điều, thì đó là cú pháp để chọn SQL, giống như luật chơi cờ vua, rất dễ hiểu. Nhưng phần khó thực sự không phải là cách viết cú pháp, giống như bất kỳ ngôn ngữ lập trình nào, mà là câu hỏi thực tế bạn muốn hỏi về dữ liệu của mình là gì?
  • 259. Điều tôi khuyến khích bạn làm là cực kỳ tò mò về bất kỳ tập dữ liệu nào mà bạn được cung cấp. Hãy dành nhiều thời gian, ngay cả trước khi bạn chạm vào bàn phím, để suy nghĩ về tập dữ liệu nào hoặc thông tin chi tiết nào bạn có thể nhận được từ dữ liệu của mình. Và sau đó bắt đầu có niềm vui. Có nhiều cách khác nhau để viết cùng một câu lệnh SQL chính xác, vì vậy hãy thử một cách, chia sẻ nó với bạn bè của bạn và sau đó bắt đầu trả lại dữ liệu đó để biết thông tin chi tiết. Chúc may mắn. Làm sạch các biến chuỗi bằng SQL
  • 267. Chương 3: Chuyển đổi dữ liệu Các chức năng làm sạch dữ liệu nâng cao, phần 1 Xin chào và chào mừng trở lại. Cho đến giờ, chúng ta đã xem qua một số hàm và truy vấn SQL cơ bản có thể giúp bạn làm sạch dữ liệu của mình. Chúng tôi cũng đã kiểm tra một số cách bạn có thể xử lý các biến chuỗi trong SQL để giúp công việc của bạn dễ dàng hơn. Hãy sẵn sàng để tìm hiểu thêm các hàm xử lý chuỗi trong SQL. Tin tôi đi, những chức năng này sẽ thực sự hữu ích trong công việc của bạn với tư cách là một nhà phân tích dữ liệu. Trong video này, chúng ta sẽ kiểm tra lại các chuỗi và tìm hiểu cách sử dụng hàm CAST để định dạng dữ liệu chính xác. Khi bạn nhập dữ liệu chưa tồn tại trong bảng SQL của mình, các kiểu dữ liệu từ tập dữ liệu mới có thể không được nhập chính xác. Đây là nơi chức năng CAST có ích. CAST là một hàm SQL chuyển đổi dữ liệu từ một kiểu dữ liệu này sang một kiểu dữ liệu khác. Hãy xem một ví dụ. Hãy tưởng tượng chúng ta đang làm việc với cửa hàng nội thất của Lauren. Chủ sở hữu đã thu thập dữ liệu giao dịch trong năm qua, nhưng cô ấy mới phát hiện ra rằng họ thực sự không thể tổ chức dữ liệu của mình vì dữ liệu không được định dạng chính xác. Chúng tôi sẽ giúp cô ấy bằng cách chuyển đổi dữ liệu của chúng tôi để làm cho nó hữu ích trở lại. Ví dụ: giả sử chúng tôi muốn sắp xếp tất cả các giao dịch mua theo buy_price theo thứ tự giảm dần. Điều đó có nghĩa là chúng tôi muốn giao dịch mua đắt nhất xuất hiện đầu tiên trong kết quả của chúng tôi. Để viết truy vấn SQL, chúng ta bắt đầu với cấu trúc SQL cơ bản. SELECT Purchase_price FROM customer_data.customer_purchase ORDER BY Purchase_price DESC Tiếp theo là mệnh đề WHERE. Chúng tôi không lọc ra bất kỳ dữ liệu nào vì chúng tôi muốn tất cả giá mua được hiển thị vì vậy chúng tôi có thể loại bỏ mệnh đề WHERE.
  • 268. Cuối cùng, để sắp xếp purchase_price theo thứ tự giảm dần, chúng tôi nhập ORDER BY purchase_price DESC vào cuối truy vấn của chúng tôi. Hãy chạy truy vấn này. Chúng tôi thấy rằng 89,85 xuất hiện ở trên cùng với 799,99 ở bên dưới. Nhưng chúng ta biết rằng 799,99 là một số lớn hơn 89,85. Cơ sở dữ liệu không nhận ra rằng đây là những con số, vì vậy nó không sắp xếp chúng theo cách đó. Nếu chúng ta quay lại bảng customer_purchase và xem lược đồ của nó, chúng ta có thể thấy kiểu dữ liệu mà cơ sở dữ liệu cho rằng giá gạch dưới của giao dịch mua là gì. Nó nói ở đây, cơ sở dữ liệu cho rằng giá gạch dưới mua hàng là một chuỗi, trong khi thực tế nó là một số float, là một số có chứa số thập phân. Đó là lý do tại sao 89,85 xuất hiện trước 799,99. Khi bắt đầu viết các chữ cái, chúng ta bắt đầu từ chữ cái đầu tiên trước khi chuyển sang chữ cái thứ hai. Nếu chúng ta muốn sắp xếp các từ táo và cam theo thứ tự giảm dần, chúng ta bắt đầu với các chữ cái đầu tiên a và o. Vì o đứng sau a nên màu cam sẽ xuất hiện trước, sau đó là quả táo. Cơ sở dữ liệu cũng làm như vậy với 89,85 và 799,99. Nó bắt đầu bằng chữ cái đầu tiên, trong trường hợp này lần lượt là 8 và 7. Vì 8 lớn hơn 7 nên cơ sở dữ liệu đã sắp xếp 89,85 trước rồi đến 799,99. Bởi vì cơ sở dữ liệu coi những chuỗi này là chuỗi văn bản, nên cơ sở dữ liệu không nhận ra những chuỗi này là float vì chúng chưa được đánh máy để khớp với kiểu dữ liệu đó. Typecasting: Chuyển đổi kiểu/ ép kiểu là Chuyển đổi dữ liệu từ loại này sang loại khác. Đó là những gì chúng ta sẽ làm với chức năng CAST. Chúng tôi sử dụng hàm CAST để thay thế purchase_price bằng purchase_price mới mà cơ sở dữ liệu nhận dạng là float thay vì chuỗi. Chúng tôi bắt đầu bằng cách thay thế purchase_price bằng CAST. Sau đó, chúng tôi cho SQL biết trường mà chúng tôi muốn thay đổi, đó là trường purchase_price. Tiếp theo là kiểu dữ liệu mà chúng ta muốn thay đổi purchase_price thành kiểu dữ liệu float.
  • 269. BigQuery lưu trữ các số trong hệ thống 64 bit. Kiểu dữ liệu float được tham chiếu là float64 trong truy vấn của chúng tôi. Điều này có thể hơi khác so với các nền tảng SQL khác, nhưng về cơ bản, 64 và float64 chỉ cho biết rằng chúng tôi đang truyền các số trong hệ thống 64 bit dưới dạng số float. Chúng tôi cũng cần sắp xếp trường mới này, vì vậy, chúng tôi thay đổi purchase_price sau ORDER BY để CAST giá gạch dưới mua dưới dạng float64. Đây là cách chúng tôi sử dụng hàm CAST để cho phép SQL nhận dạng cột purchase_price dưới dạng số float thay vì chuỗi văn bản. Bây giờ, chúng tôi có thể bắt đầu mua hàng của mình theo purchase_price. Cứ như vậy, cửa hàng nội thất của Lauren có dữ liệu thực sự có thể được sử dụng để phân tích. Là một nhà phân tích dữ liệu, bạn sẽ được yêu cầu định vị và sắp xếp dữ liệu rất nhiều, đó là lý do tại sao bạn muốn đảm bảo rằng bạn sớm chuyển đổi giữa các loại dữ liệu. Các doanh nghiệp như cửa hàng nội thất của chúng tôi quan tâm đến dữ liệu bán hàng kịp thời và bạn cần có khả năng giải thích điều đó trong phân tích của mình. Hàm CAST cũng có thể được sử dụng để thay đổi chuỗi thành các loại dữ liệu khác, chẳng hạn như ngày và giờ. Là một nhà phân tích dữ liệu, bạn có thể thấy mình sử dụng dữ liệu từ nhiều nguồn khác nhau. Một phần công việc của bạn là đảm bảo dữ liệu từ những nguồn đó có thể nhận dạng và sử dụng được trong cơ sở dữ liệu của bạn để bạn không gặp phải bất kỳ vấn đề nào với phân tích của mình. Bây giờ bạn biết làm thế nào để làm điều đó. Chức năng CAST là một công cụ tuyệt vời mà bạn có thể sử dụng khi làm sạch dữ liệu. Sắp tới, chúng tôi sẽ đề cập đến một số chức năng nâng cao khác mà bạn có thể thêm vào hộp công cụ của mình. Hẹn gặp lại
  • 270. Các chức năng làm sạch dữ liệu nâng cao, phần 2 Xin chào. Thật tuyệt khi được gặp lại bạn. Cho đến giờ, chúng ta đã thấy một số hàm SQL đang hoạt động. Trong video này, chúng ta sẽ xem xét nhiều cách sử dụng hơn cho CAST, sau đó tìm hiểu về CONCAT và COALESCE. Bắt đầu nào. Trước đó chúng ta đã nói về chức năng CAST, cho phép chúng ta chuyển các chuỗi văn bản thành các số float. Tôi đã chỉ ra rằng chức năng CAST cũng có thể được sử dụng để thay đổi thành các loại dữ liệu khác. Hãy xem một ví dụ khác về cách bạn có thể sử dụng CAST trong công việc dữ liệu của riêng mình. Chúng tôi đã có dữ liệu giao dịch mà chúng tôi đang làm việc từ ví dụ về Cửa hàng nội thất của Lauren. Nhưng bây giờ, chúng ta sẽ kiểm tra trường ngày mua hàng. Chủ cửa hàng đồ nội thất đã yêu cầu chúng tôi xem xét các giao dịch mua diễn ra trong thời gian khuyến mãi bán hàng của họ vào tháng 12. Hãy viết một truy vấn SQL sẽ kéo ngày và giá_mua cho tất cả các giao dịch mua diễn ra trong khoảng thời gian từ ngày 1 tháng 12 năm 2020 đến ngày 31 tháng 12 năm 2020. Chúng ta bắt đầu bằng cách viết cấu trúc SQL cơ bản: SELECT, FROM và WHERE. SELECT date, purchase_price FROM customer_data.customer_purchase WHERE Date BETWEEN ‘2020-12-01’ AND ‘2020-12-31’ Chúng tôi biết dữ liệu đến từ bảng customer_purchase trong bộ dữ liệu customer_data, vì vậy chúng tôi viết customer_data.customer_purchase sau TỪ. Tiếp theo, chúng tôi cho SQL biết dữ liệu nào cần lấy. Vì chúng tôi muốn ngày và giá_mua, nên chúng tôi thêm chúng vào câu lệnh SELECT. Cuối cùng, chúng tôi muốn SQL lọc các giao dịch mua chỉ xảy ra trong tháng 12. Chúng tôi nhập ngày GIỮA '2020-12-01' AND '2020-12-31' trong mệnh đề WHERE. Hãy chạy truy vấn. Bốn giao dịch mua diễn ra vào tháng 12, nhưng trường ngày có vẻ lạ. Đó là bởi vì cơ sở dữ liệu nhận dạng trường ngày này là ngày giờ, bao gồm ngày và giờ. Truy vấn SQL của chúng tôi vẫn hoạt động chính xác, ngay cả khi trường ngày là ngày giờ thay vì ngày tháng. Nhưng chúng ta có thể yêu cầu SQL chuyển đổi trường ngày thành kiểu dữ liệu ngày để chúng ta chỉ thấy ngày chứ không phải thời gian. Để làm điều đó, chúng ta sử dụng lại hàm CAST(). Chúng ta sẽ sử dụng hàm CAST() để thay thế trường ngày trong câu lệnh SELECT bằng trường ngày mới sẽ hiển thị ngày chứ không phải thời gian. Chúng tôi có thể làm điều đó bằng cách nhập CAST() và thêm ngày làm trường mà chúng tôi muốn thay đổi. Sau đó, chúng tôi cho SQL biết loại dữ liệu mà chúng tôi muốn thay vào đó, đó là loại dữ liệu ngày tháng. Ở đó. Giờ đây, chúng tôi có thể có kết quả rõ ràng hơn cho các giao dịch mua xảy ra trong khoảng
  • 271. thời gian giảm giá tháng 12. CAST là một chức năng cực kỳ hữu ích để làm sạch và sắp xếp dữ liệu, đó là lý do tại sao tôi muốn bạn xem nó hoạt động một lần nữa. Tiếp theo, hãy kiểm tra chức năng CONCAT. CONCAT cho phép bạn thêm các chuỗi lại với nhau để tạo chuỗi văn bản mới có thể được sử dụng làm khóa duy nhất. Quay trở lại bảng customer_purchase của chúng ta, chúng ta thấy rằng cửa hàng nội thất bán các màu khác nhau của cùng một sản phẩm. Chủ sở hữu muốn biết liệu khách hàng có thích một số màu nhất định hay không, vì vậy, chủ sở hữu có thể quản lý khoảng không quảng cáo của cửa hàng cho phù hợp. Vấn đề là, product_code giống nhau, bất kể màu sản phẩm. Chúng tôi cần tìm một cách khác để phân biệt sản phẩm theo màu sắc, nhờ đó chúng tôi có thể biết liệu khách hàng có thích màu này hơn màu khác hay không. Chúng tôi sẽ sử dụng CONCAT để tạo một khóa duy nhất giúp chúng tôi phân biệt các sản phẩm theo màu sắc và đếm chúng dễ dàng hơn. Hãy viết truy vấn SQL của chúng ta bằng cách bắt đầu với cấu trúc cơ bản: SELECT, FROM và WHERE. Chúng tôi biết dữ liệu của chúng tôi đến từ bảng customer_purchase và bộ dữ liệu customer_data. Chúng tôi nhập "customer_data.customer_purchase" sau TỪ Tiếp theo, chúng tôi cho SQL biết dữ liệu cần lấy. Chúng tôi sử dụng hàm CONCAT() tại đây để lấy khóa sản phẩm và màu sắc duy nhất đó. Vì vậy, chúng tôi nhập CONCAT(), cột đầu tiên chúng tôi muốn, product_code và cột khác chúng tôi muốn, product_color. Cuối cùng, giả sử chúng ta muốn xem xét những chiếc ghế dài, vì vậy chúng tôi lọc những chiếc ghế dài bằng cách nhập product = 'couch' trong mệnh đề WHERE.
  • 272. Giờ đây, chúng tôi có thể đếm xem mỗi chiếc ghế dài đã được mua bao nhiêu lần và tìm hiểu xem khách hàng có thích một màu nào hơn những màu khác hay không. Với CONCAT, cửa hàng nội thất có thể tìm ra những chiếc ghế dài màu nào phổ biến nhất và đặt hàng nhiều hơn. Tôi có một chức năng nâng cao cuối cùng muốn cho bạn thấy, COALESCE. COALESCE có thể được sử dụng để trả về các giá trị khác null trong danh sách. Giá trị null là giá trị bị thiếu. Nếu bạn có một trường là tùy chọn trong bảng của mình, thì trường đó sẽ có giá trị rỗng đối với các hàng không có giá trị thích hợp để đặt ở đó. Hãy mở bảng customer_purchase để tôi có thể chỉ cho bạn ý của tôi. Trong bảng customer_purchase, chúng ta có thể thấy một vài hàng thiếu thông tin sản phẩm. Đó là lý do tại sao chúng ta thấy null ở đó. Nhưng đối với các hàng có tên sản phẩm là null, chúng tôi thấy rằng có dữ liệu product_code mà chúng tôi có thể sử dụng thay thế. Chúng tôi muốn SQL hiển thị cho chúng tôi tên sản phẩm, chẳng hạn như giường hoặc đi văng, vì chúng tôi dễ đọc hơn. Nhưng nếu tên sản phẩm không tồn tại, chúng ta có thể yêu cầu SQL cung cấp cho chúng ta product_code để thay thế. Đó là lúc chức năng COALESCE phát huy tác dụng. Giả sử chúng ta muốn có một danh sách tất cả các sản phẩm đã được bán. Chúng tôi muốn sử dụng cột product_name để hiểu loại sản phẩm nào đã được bán. Chúng tôi viết truy vấn SQL của mình với cấu trúc SQL cơ bản: Select, From, AND Where. Chúng tôi biết dữ liệu của chúng tôi đến từ bảng customer_purchase và bộ dữ liệu customer_data. Chúng tôi nhập "customer_data.customer_purchase" sau TỪ. Tiếp theo, chúng tôi cho SQL biết dữ liệu chúng tôi muốn. Chúng tôi muốn có danh sách tên sản phẩm, nhưng nếu không có tên, hãy cung cấp cho chúng tôi mã sản phẩm. Đây là nơi chúng tôi gõ "COALESCE." sau đó chúng tôi cho
  • 273. SQL biết cột nào cần kiểm tra trước, sản phẩm và cột nào cần kiểm tra thứ hai nếu cột đầu tiên là null, product_code. Chúng tôi sẽ đặt tên trường mới này là product_info. Cuối cùng, chúng tôi không lọc ra bất kỳ dữ liệu nào, vì vậy chúng tôi có thể loại bỏ mệnh đề WHERE. Điều này cung cấp cho chúng tôi thông tin sản phẩm cho mỗi lần mua hàng. Bây giờ chúng tôi có một danh sách tất cả các sản phẩm đã được bán để chủ sở hữu xem xét. COALESCE cũng có thể giúp bạn tiết kiệm thời gian khi thực hiện các phép tính bằng cách bỏ qua bất kỳ giá trị null nào và giữ cho phép toán của bạn chính xác. Đó chỉ là một số chức năng nâng cao mà bạn có thể sử dụng để làm sạch dữ liệu của mình và chuẩn bị sẵn sàng cho bước tiếp theo trong quy trình phân tích. Bạn sẽ khám phá thêm khi tiếp tục làm việc với SQL. Nhưng đó là phần cuối của video này và mô-đun này. Công việc tuyệt vời. Chúng tôi đã bao phủ rất nhiều nền tảng. Bạn đã học các chức năng làm sạch dữ liệu khác nhau trong bảng tính và SQL cũng như lợi ích của việc sử dụng SQL để xử lý các tập dữ liệu lớn. Chúng tôi cũng đã thêm một số công thức và hàm SQL vào bộ công cụ của bạn và quan trọng nhất là chúng tôi đã trải nghiệm một số cách mà SQL có thể giúp bạn chuẩn bị dữ liệu cho phân tích của mình. Sau đó, bạn sẽ dành thời gian tìm hiểu cách xác minh và báo cáo kết quả làm sạch của mình để dữ liệu của bạn sạch sẽ và các bên liên quan của bạn biết điều đó. Nhưng trước đó, bạn có một thử thách hàng tuần khác cần giải quyết. Bạn đã có cái này. Một số khái niệm này thoạt nghe có vẻ khó khăn, nhưng chúng sẽ trở thành bản chất thứ hai đối với bạn khi bạn thăng tiến trong sự nghiệp. Nó chỉ mất thời gian và thực hành. Nói về thực hành, vui lòng quay lại bất kỳ video nào trong số này và xem lại hoặc thậm chí tự mình thử một số lệnh này. Chúc may mắn. Tôi sẽ gặp lại bạn khi bạn đã sẵn sàng.
  • 274. Tuần 4: Xác minh và báo cáo về kết quả làm sạch của bạn Làm sạch dữ liệu của bạn là một bước thiết yếu trong quá trình phân tích dữ liệu. Xác minh và báo cáo quá trình làm sạch của bạn là một cách để cho thấy rằng dữ liệu của bạn đã sẵn sàng cho bước tiếp theo. Trong phần này của khóa học, bạn sẽ tìm hiểu các quy trình liên quan đến việc xác minh và báo cáo việc làm sạch dữ liệu cũng như các lợi ích của chúng. Mục tiêu học tập:  Mô tả quy trình liên quan đến việc xác minh kết quả làm sạch dữ liệu  Mô tả những gì liên quan đến việc làm sạch dữ liệu theo cách thủ công  Thảo luận về các yếu tố và tầm quan trọng của báo cáo làm sạch dữ liệu  Mô tả lợi ích của việc ghi lại quá trình làm sạch dữ liệu Chương 1: Làm sạch dữ liệu thủ công Kiểm tra và báo cáo kết quả Xin chào, thật tuyệt khi có bạn trở lại. Bạn đã học được rất nhiều về tầm quan trọng của dữ liệu sạch và khám phá một số công cụ và chiến lược để giúp bạn trong suốt quá trình làm sạch. Trong các video này, chúng tôi sẽ đề cập đến bước tiếp theo trong quy trình: xác minh và báo cáo về tính toàn vẹn của dữ liệu sạch của bạn. Verification is A process to confirm that a data- cleaning effort was well-executed and the resulting data is accurate and reliable (Sự xác minh là một quy trình để xác nhận rằng nỗ lực làm sạch dữ liệu đã được thực hiện tốt và dữ liệu kết quả là chính xác và đáng tin cậy). Nó liên quan đến việc kiểm tra lại tập dữ liệu sạch của bạn, thực hiện một số thao tác dọn dẹp thủ công nếu cần và dành một chút thời gian để ngồi lại và thực sự suy nghĩ về mục đích ban đầu của dự án. Bằng cách đó, bạn có thể tin tưởng rằng dữ liệu bạn thu thập là đáng tin cậy và phù hợp với mục đích của bạn. Việc đảm bảo dữ liệu của bạn được xác minh chính xác là rất quan trọng vì nó cho phép bạn kiểm tra kỹ xem công việc bạn đã làm để làm sạch dữ liệu của mình có kỹ lưỡng và chính xác hay không. Ví dụ: bạn có thể đã tham chiếu sai số điện thoại di động hoặc vô tình nhập sai chính tả. Xác minh cho phép bạn bắt lỗi trước khi bắt đầu phân tích. Không có nó, bất kỳ thông tin chi tiết nào bạn thu được từ phân tích đều không thể tin cậy để đưa ra quyết định. Bạn thậm chí có thể gặp rủi ro khi trình bày sai về dân số hoặc làm hỏng kết quả của một sản phẩm mà bạn đang thực sự cố gắng cải thiện. Tôi nhớ mình đã làm việc trong một dự án mà tôi nghĩ rằng dữ liệu mình có rất sạch vì tôi đã sử dụng tất cả các công cụ và quy trình phù hợp, nhưng khi thực hiện các bước để xác minh tính toàn vẹn của dữ liệu, tôi phát hiện ra một dấu chấm phẩy mà tôi đã quên xóa. Nghe có vẻ như là một lỗi rất nhỏ, tôi biết, nhưng nếu tôi không bắt được dấu chấm phẩy trong quá trình xác minh và xóa dấu chấm phẩy đó, điều
  • 275. đó sẽ dẫn đến một số thay đổi lớn trong kết quả của tôi. Tất nhiên, điều đó có thể dẫn đến các quyết định kinh doanh khác nhau. Có một ví dụ về lý do tại sao việc xác minh lại quan trọng đến vậy. Nhưng đó không phải là tất cả. Phần quan trọng khác của quy trình xác minh là báo cáo về những nỗ lực của bạn. Giao tiếp cởi mở là cứu cánh cho bất kỳ dự án phân tích dữ liệu nào. Báo cáo là một cách siêu hiệu quả để cho nhóm của bạn thấy rằng bạn minh bạch 100% về việc làm sạch dữ liệu của mình. Báo cáo cũng là một cơ hội tuyệt vời để cho các bên liên quan thấy rằng bạn có trách nhiệm giải trình, tạo niềm tin với nhóm của mình và đảm bảo rằng tất cả các bạn đều nắm được thông tin chi tiết quan trọng của dự án. Sắp tới, bạn sẽ tìm hiểu các chiến lược khác nhau để báo cáo, chẳng hạn như tạo báo cáo làm sạch dữ liệu, ghi lại quá trình làm sạch của bạn và sử dụng thứ gọi là nhật ký thay đổi. Changelog is A file containing a chronologically ordered list of modifications made to a project ( Bảng ghi thay đổi là Một tệp chứa danh sách các sửa đổi theo thứ tự thời gian được thực hiện cho một dự án). Nó thường được sắp xếp theo phiên bản và bao gồm ngày, theo sau là danh sách các tính năng được thêm, cải tiến và xóa. Nhật ký thay đổi rất hữu ích để theo dõi cách một bộ dữ liệu phát triển trong quá trình thực hiện dự án. Chúng cũng là một cách tuyệt vời khác để giao tiếp và báo cáo dữ liệu cho người khác. Trong quá trình thực hiện, bạn cũng sẽ thấy một số ví dụ về cách xác minh và báo cáo có thể giúp bạn tránh lặp lại lỗi và tiết kiệm thời gian cho bạn và nhóm của bạn. Sẵn sàng để bắt đầu? Đi nào! Dọn dẹp và kỳ vọng dữ liệu của bạn Trong video này, chúng ta sẽ thảo luận về cách bắt đầu quy trình xác minh các nỗ lực làm sạch dữ liệu của bạn. Xác minh là một phần quan trọng của bất kỳ dự án phân tích nào. Không có nó, bạn không có cách nào biết được rằng những hiểu biết sâu sắc của bạn có thể được dựa vào để đưa ra quyết định dựa trên dữ liệu. Hãy nghĩ về xác minh như một con dấu phê duyệt. Để làm mới bộ nhớ của bạn, xác minh là một quá trình để xác nhận rằng nỗ lực làm sạch dữ liệu đã được thực hiện tốt và dữ liệu thu được là chính xác và đáng tin cậy. Nó cũng liên quan đến việc làm sạch dữ liệu theo cách thủ công để so sánh kỳ vọng của bạn với những gì thực sự hiện có. Bước đầu tiên trong quy trình xác minh là quay lại tập dữ liệu không sạch ban đầu của bạn và so sánh nó với những gì bạn có hiện tại. Xem lại dữ liệu bẩn và cố gắng xác định bất kỳ vấn đề phổ biến nào. Ví dụ: có thể bạn có rất nhiều giá trị rỗng. Trong trường hợp đó, bạn kiểm tra dữ liệu sạch của mình để đảm bảo không có giá trị rỗng. Để làm điều đó, bạn có thể tìm kiếm dữ liệu theo cách thủ công hoặc sử dụng các công cụ như bộ lọc hoặc định dạng có điều kiện. Hoặc có thể có một lỗi chính tả phổ biến như ai đó nhập sai tên của một sản phẩm nhiều lần. Trong trường hợp đó, bạn sẽ chạy FIND trong dữ liệu sạch của mình để đảm bảo không có trường hợp từ sai chính tả nào xảy ra.
  • 276. Một phần quan trọng khác của việc xác minh liên quan đến việc có một cái nhìn toàn cảnh về dự án của bạn. Đây là cơ hội để xác nhận rằng bạn đang thực sự tập trung vào vấn đề kinh doanh mà bạn cần giải quyết và các mục tiêu tổng thể của dự án, đồng thời đảm bảo rằng dữ liệu của bạn thực sự có khả năng giải quyết vấn đề đó và đạt được các mục tiêu đó. Điều quan trọng là dành thời gian để thiết lập lại và tập trung vào bức tranh toàn cảnh vì các dự án đôi khi có thể phát triển hoặc biến đổi theo thời gian mà chúng ta không hề nhận ra. Có thể một công ty thương mại điện tử quyết định khảo sát 1000 khách hàng để lấy thông tin sẽ được sử dụng để cải thiện sản phẩm. Nhưng khi các phản hồi bắt đầu đến, các nhà phân tích nhận thấy rất nhiều bình luận về việc khách hàng không hài lòng như thế nào với nền tảng trang web thương mại điện tử. Vì vậy, các nhà phân tích bắt đầu tập trung vào đó. Mặc dù trải nghiệm mua hàng của khách hàng tất nhiên là quan trọng đối với bất kỳ doanh nghiệp thương mại điện tử nào, nhưng đó không phải là mục tiêu ban đầu của dự án. Các nhà phân tích trong trường hợp này cần dành một chút thời gian để tạm dừng, tập trung lại và quay lại giải quyết vấn đề ban đầu. Có một cái nhìn toàn cảnh về dự án của bạn bao gồm việc thực hiện ba việc. Trước tiên, hãy xem xét vấn đề kinh doanh mà bạn đang cố gắng giải quyết bằng dữ liệu. Nếu bạn không nhìn thấy vấn đề, bạn không có cách nào biết dữ liệu nào thuộc về phân tích của mình. Thực hiện một cách tiếp cận vấn đề đầu tiên để phân tích là điều cần thiết ở tất cả các giai đoạn của bất kỳ dự án nào. Bạn cần chắc chắn rằng dữ liệu của bạn sẽ thực sự giúp giải quyết vấn đề kinh doanh của bạn. Thứ hai, bạn cần xem xét mục tiêu của dự án. Chỉ biết rằng công ty của bạn muốn phân tích phản hồi của khách hàng về một sản phẩm là chưa đủ. Điều bạn thực sự cần biết là mục tiêu của việc nhận phản hồi này là để cải thiện sản phẩm đó. Trên hết, bạn cũng cần biết liệu dữ liệu bạn đã thu thập và làm sạch có thực sự giúp công ty của bạn đạt được mục tiêu đó hay không. Và thứ ba, bạn cần xem xét liệu dữ liệu của bạn có khả năng giải quyết vấn đề và đáp ứng các mục tiêu của dự án hay không. Điều đó có nghĩa là suy nghĩ xem dữ liệu đến từ đâu và kiểm tra quy trình thu thập và làm sạch dữ liệu của bạn. Đôi khi các nhà phân tích dữ liệu có thể quá quen thuộc với dữ liệu của chính họ, điều này khiến họ dễ bỏ sót điều gì đó hoặc đưa ra các giả định. Yêu cầu một đồng đội xem xét dữ liệu của bạn từ một góc độ mới và nhận phản hồi từ những người khác là rất có giá trị trong giai đoạn này. Đây cũng là lúc để thông báo xem có bất kỳ điều gì khiến bạn nghi ngờ hoặc có thể có vấn đề trong dữ liệu của bạn hay không. Một lần nữa, hãy lùi lại, nhìn một bức tranh toàn cảnh và tự hỏi bản thân, những con số có ý nghĩa không? Hãy quay lại ví dụ về công ty thương mại điện tử của chúng ta. Hãy tưởng tượng một nhà phân tích đang xem xét dữ liệu đã được làm sạch từ cuộc khảo sát mức độ hài lòng của khách hàng. Cuộc khảo sát ban đầu được gửi tới 1.000 khách hàng, nhưng nếu nhà phân tích phát hiện ra rằng có hơn một nghìn phản hồi trong dữ liệu thì sao? Điều này có
  • 277. thể có nghĩa là một khách hàng đã tìm ra cách thực hiện khảo sát nhiều lần. Hoặc nó cũng có thể có nghĩa là đã xảy ra lỗi trong quá trình làm sạch dữ liệu và một trường bị trùng lặp. Dù bằng cách nào, đây là tín hiệu cho thấy đã đến lúc quay lại quy trình làm sạch dữ liệu và khắc phục sự cố. Việc xác minh dữ liệu của bạn đảm bảo rằng thông tin chi tiết bạn thu được từ phân tích có thể được tin cậy. Đó là một phần thiết yếu của quá trình làm sạch dữ liệu giúp các công ty tránh được những sai lầm lớn. Đây là một nơi khác mà các nhà phân tích dữ liệu có thể tiết kiệm thời gian. Sắp tới, chúng ta sẽ thực hiện các bước tiếp theo trong quy trình làm sạch dữ liệu. Hẹn gặp bạn ở đó. Bước cuối cùng trong quá trình làm sạch dữ liệu Xin chào. Trong video này, chúng tôi sẽ tiếp tục xây dựng quy trình xác minh. Xin nhắc lại, mục tiêu là để đảm bảo rằng công việc làm sạch dữ liệu của chúng tôi được thực hiện đúng cách và kết quả có thể tin cậy được. Bạn muốn dữ liệu của mình được xác minh để bạn biết rằng dữ liệu đã sẵn sàng hoạt động 100%. Nó giống như việc các công ty ô tô tiến hành vô số cuộc thử nghiệm để đảm bảo một chiếc ô tô an toàn trước khi lưu thông trên đường. Bạn đã biết rằng bước đầu tiên trong quá trình xác minh là quay lại tập dữ liệu ban đầu, không sạch sẽ của bạn và so sánh nó với những gì bạn có hiện tại. Đây là một cơ hội để tìm kiếm các vấn đề phổ biến. Sau đó, bạn dọn dẹp các vấn đề theo cách thủ công. Ví dụ: bằng cách loại bỏ khoảng trắng thừa hoặc xóa dấu ngoặc kép không mong muốn. Nhưng cũng có một số công cụ tuyệt vời để tự động sửa các lỗi phổ biến, chẳng hạn như TRIM và loại bỏ các lỗi trùng lặp. Trước đó, bạn đã biết rằng TRIM là một hàm loại bỏ dữ liệu và khoảng trắng ở đầu, cuối và lặp lại. Loại bỏ các mục trùng lặp là một công cụ tự động tìm kiếm và loại bỏ các mục nhập trùng lặp khỏi bảng tính. Bây giờ, đôi khi bạn gặp phải một lỗi xuất hiện lặp đi lặp lại và lỗi này không thể được giải quyết bằng chỉnh sửa thủ công nhanh hoặc một công cụ tự động khắc phục sự cố. Trong những trường hợp này, sẽ rất hữu ích nếu bạn tạo một bảng tổng hợp. Bảng tổng hợp là một công cụ tóm tắt dữ liệu được sử dụng trong xử lý dữ liệu. Bảng Pivot sắp xếp, sắp xếp lại, nhóm, đếm, tổng hoặc dữ liệu trung bình được lưu trữ trong cơ sở dữ liệu. Bây giờ chúng ta sẽ thực hành điều đó bằng cách sử dụng bảng tính từ cửa hàng đồ dùng cho bữa tiệc.
  • 278. Chương 3: Ghi lại kết quả và quá trình làm sạch Ghi lại những thay đổi trong quá trình làm sạch Chào bạn lần nữa nhé. Bây giờ bạn đã học được cách làm cho dữ liệu của mình trở nên sạch sẽ, đã đến lúc xử lý tất cả những vết bẩn mà bạn đã để lại. Khi bạn xóa dữ liệu của mình, tất cả thông tin không chính xác hoặc lỗi thời sẽ biến mất, để lại cho bạn nội dung chất lượng cao nhất. Nhưng tất cả những thay đổi bạn đã thực hiện đối với dữ liệu cũng có giá trị. Trong video này, chúng ta sẽ thảo luận về lý do tại sao việc theo dõi các thay đổi lại quan trọng đối với mọi dự án dữ liệu và cách ghi lại tất cả các thay đổi làm sạch của bạn để đảm bảo mọi người luôn được thông báo. Documentation is The process of tracking changes, additions, deletions, and error involved in your data-cleaning effort (Tài liệu là quá trình theo dõi các thay đổi, bổ sung, xóa và lỗi liên quan đến nỗ lực làm sạch dữ liệu của bạn). Bạn có thể coi nó giống như một chương trình truyền hình tội phạm. Bằng chứng phạm tội được tìm thấy tại hiện trường và được chuyển cho đội pháp y. Họ phân tích từng inch của hiện trường và ghi lại từng bước để có thể kể một câu chuyện với bằng chứng. Rất nhiều lần, nhà khoa học pháp y được gọi ra tòa để làm chứng về bằng chứng đó, và họ có một báo cáo chi tiết để tham khảo. Điều tương tự cũng áp dụng cho việc làm sạch dữ liệu. Lỗi dữ liệu là tội ác, làm sạch dữ liệu là thu thập bằng chứng và tài liệu trình bày chi tiết chính xác những gì đã xảy ra để đánh giá ngang hàng hoặc đưa ra tòa. Có một bản ghi về cách một tập dữ liệu phát triển thực hiện ba điều rất quan trọng. Đầu tiên, nó cho phép chúng tôi khôi phục các lỗi làm sạch dữ liệu. Thay vì vò đầu bứt tai, cố gắng nhớ xem mình có thể đã làm gì ba tháng trước, chúng ta có một bảng mẹo để dựa vào nếu sau này gặp lại những lỗi tương tự. Bạn cũng nên tạo một bảng sạch hơn là ghi đè lên bảng hiện có của mình. Bằng cách này, bạn vẫn có dữ liệu gốc trong trường hợp cần thực hiện lại quá trình dọn dẹp. Thứ hai, tài liệu cung cấp cho bạn một cách để thông báo cho những người dùng khác về những thay đổi mà bạn đã thực hiện. Nếu bạn từng đi nghỉ hoặc được thăng chức, nhà phân tích thay bạn sẽ có một bảng tham khảo để kiểm tra. Thứ ba, tài liệu giúp bạn xác định chất lượng của dữ liệu được sử dụng trong phân tích. Hai lợi ích đầu tiên cho rằng các lỗi không thể sửa được. Nhưng nếu đúng như vậy, một bản ghi sẽ cung cấp cho kỹ sư dữ liệu thêm thông tin để tham khảo. Đó cũng là một lời cảnh báo tuyệt vời cho chúng tôi rằng bộ dữ liệu đầy lỗi và nên tránh trong tương lai. Nếu các lỗi tốn nhiều thời gian để khắc phục, tốt hơn hết là kiểm tra các bộ dữ liệu thay thế mà chúng tôi có thể sử dụng để thay thế. Các nhà phân tích dữ liệu thường sử dụng nhật ký thay đổi để truy cập thông tin này. Xin nhắc lại, nhật ký thay đổi là một tệp chứa danh sách các sửa đổi được sắp xếp theo thứ tự
  • 279. thời gian được thực hiện cho một dự án. Bạn có thể sử dụng và xem nhật ký thay đổi trong bảng tính và SQL để đạt được kết quả tương tự. Hãy bắt đầu với bảng tính. Chúng ta có thể sử dụng lịch sử phiên bản của Trang tính, lịch sử này cung cấp trình theo dõi thời gian thực về tất cả các thay đổi và ai đã thực hiện chúng từ các ô riêng lẻ đến toàn bộ trang tính. Để tìm tính năng này, hãy bấm vào tab Tệp, rồi chọn Lịch sử phiên bản. Trong bảng bên phải, chọn một phiên bản cũ hơn. Chúng tôi có thể tìm thấy ai đã chỉnh sửa tệp và những thay đổi họ đã thực hiện trong cột bên cạnh tên của họ. Để quay lại phiên bản hiện tại, hãy chuyển lên trên cùng bên trái và nhấp vào "Quay lại". Nếu muốn kiểm tra các thay đổi trong một ô cụ thể, chúng ta có thể nhấp chuột phải và chọn Hiển thị lịch sử chỉnh sửa. Ngoài ra, nếu bạn muốn người khác có thể duyệt qua lịch sử phiên bản của một trang tính, bạn sẽ cần chỉ định quyền. Bây giờ hãy chuyển hướng và nói về SQL. Cách bạn tạo và xem nhật ký thay đổi bằng SQL tùy thuộc vào chương trình phần mềm bạn đang sử dụng. Một số công ty thậm chí còn có phần mềm riêng để theo dõi nhật ký thay đổi và các truy vấn SQL quan trọng. Điều này trở nên khá tiên tiến. Về cơ bản, tất cả những gì bạn phải làm là xác định chính xác những gì bạn đã làm và tại sao khi bạn gửi một truy vấn tới kho lưu trữ dưới dạng một truy vấn mới và được cải thiện. Điều này cho phép công ty hoàn nguyên về phiên bản trước nếu bạn làm gì đó làm hỏng hệ thống, điều này đã từng xảy ra với tôi trước đây. Một tùy chọn khác là chỉ thêm nhận xét khi bạn thực hiện trong khi xóa dữ liệu trong SQL. Điều này sẽ giúp bạn xây dựng nhật ký thay đổi của mình sau khi thực tế xảy ra. Hiện tại, chúng tôi sẽ kiểm tra lịch sử truy vấn, theo dõi tất cả các truy vấn bạn đã chạy. Bạn có thể nhấp vào bất kỳ trong số chúng để hoàn nguyên về phiên bản trước của truy vấn của mình hoặc hiển thị phiên bản cũ hơn để tìm những gì bạn đã thay đổi. Đây là những gì chúng tôi đã có. Tôi đang ở tab Lịch sử truy vấn. Được liệt kê ở dưới cùng bên phải là tất cả các truy vấn chạy theo ngày và giờ. Bạn có thể nhấp vào biểu tượng này ở bên phải của từng truy vấn riêng lẻ để hiển thị truy vấn đó trong trình chỉnh sửa Truy vấn. Nhật ký thay đổi như thế này là một cách tuyệt vời để giúp bạn đi đúng hướng. Nó cũng cho phép nhóm của bạn nhận được các bản cập nhật theo thời gian thực khi họ muốn. Nhưng có một cách khác để giữ cho thông tin liên lạc trôi chảy, đó là báo cáo. Hãy tiếp tục và bạn sẽ học được một số cách dễ dàng để chia sẻ tài liệu của mình và có thể gây ấn tượng với các bên liên quan trong quá trình này. Hẹn gặp lại các bạn trong video tiếp theo.
  • 280. Tại sao tài liệu lại quan trọng Tuyệt vời, bạn đã trở lại. Hãy chuẩn bị sẵn sàng. Tội ác là dữ liệu bẩn. Chúng tôi đã thu thập bằng chứng. Nó đã được làm sạch, xác minh và làm sạch lại. Bây giờ là lúc để trình bày bằng chứng của chúng tôi. Chúng tôi sẽ tìm lại các bước và trình bày trường hợp của chúng tôi với các đồng nghiệp của chúng tôi. Như chúng ta đã thảo luận trước đó, việc làm sạch, xác minh và báo cáo dữ liệu rất giống với phim tội phạm. Bây giờ là ngày của chúng ta ở tòa án. Giống như một nhà khoa học pháp y làm chứng tại chỗ về bằng chứng, các nhà phân tích dữ liệu được tin tưởng sẽ trình bày những phát hiện của họ sau nỗ lực làm sạch dữ liệu. Trước đó, chúng tôi đã học cách lập tài liệu và theo dõi từng bước của quy trình làm sạch dữ liệu, điều đó có nghĩa là chúng tôi có thông tin chắc chắn để lấy từ đó. Nhắc lại nhanh, tài liệu là quá trình theo dõi các thay đổi, bổ sung, xóa và lỗi liên quan đến nỗ lực làm sạch dữ liệu, nhật ký thay đổi là ví dụ điển hình về điều này. Vì nó được dàn dựng theo trình tự thời gian nên nó cung cấp tài khoản theo thời gian thực cho mọi sửa đổi. Tài liệu sẽ giúp bạn tiết kiệm thời gian rất nhiều với tư cách là nhà phân tích dữ liệu trong tương lai. Về cơ bản, đây là một trang phục mà bạn có thể tham khảo nếu đang làm việc với tập dữ liệu tương tự hoặc cần giải quyết các lỗi tương tự. Mặc dù nhóm của bạn có thể xem nhật ký thay đổi trực tiếp nhưng các bên liên quan không thể và phải dựa vào báo cáo của bạn để biết bạn đã làm gì. Hãy xem cách chúng tôi có thể ghi lại quy trình làm sạch dữ liệu của mình bằng cách sử dụng ví dụ mà chúng tôi đã làm việc trước đó. Trong ví dụ đó, chúng tôi thấy rằng hiệp hội này có hai trường hợp thành viên giống nhau với giá 500 đô la trong cơ sở dữ liệu của hiệp hội. Chúng tôi đã quyết định khắc phục sự cố này theo cách thủ công bằng cách xóa thông tin trùng lặp. Có rất nhiều cách chúng ta có thể thực hiện để ghi lại những gì chúng ta đã làm. Một cách phổ biến là chỉ tạo một tài liệu liệt kê các bước chúng tôi đã thực hiện và tác động của chúng. Ví dụ: đầu tiên trong danh sách của bạn là bạn xóa phiên bản trùng lặp, giúp giảm số lượng hàng từ 33 xuống 32 và giảm tổng số thành viên xuống $500. Nếu đang làm việc với SQL, chúng ta có thể đưa chú thích vào câu lệnh mô tả lý do thay đổi mà không ảnh hưởng đến việc thực thi câu lệnh. Đó là một cái gì đó cao cấp hơn một chút, mà chúng ta sẽ nói về sau. Bất kể chúng tôi nắm bắt và chia sẻ nhật ký thay đổi của mình như thế nào, chúng tôi đang chuẩn bị cho thành công bằng cách minh bạch 100% về việc làm sạch dữ liệu của mình. Điều này giúp mọi người thống nhất quan điểm và cho các bên liên quan của dự án thấy rằng chúng tôi chịu trách nhiệm về các quy trình hiệu quả. Nói cách khác, điều này giúp xây dựng uy tín của chúng ta với tư cách là những nhân chứng đáng tin cậy để trình bày tất cả các bằng chứng một cách chính xác trong quá trình lấy lời khai. Đối với dữ liệu bẩn, đó là trường hợp mở và đóng.
  • 281. Phản hồi và làm sạch Chào mừng trở lại. Hiện tại, có thể nói rằng việc xác minh, lập tài liệu và báo cáo là những bước có giá trị trong quy trình làm sạch dữ liệu. Bạn có bằng chứng để cung cấp cho các bên liên quan rằng dữ liệu của bạn là chính xác và đáng tin cậy. Và nỗ lực để đạt được nó đã được thực hiện tốt và được ghi lại. Bước tiếp theo là nhận phản hồi về bằng chứng và sử dụng nó cho mục đích tốt, chúng tôi sẽ đề cập đến điều này trong video này. Dữ liệu sạch rất quan trọng đối với nhiệm vụ hiện tại. Nhưng bản thân quá trình làm sạch dữ liệu có thể tiết lộ những hiểu biết hữu ích cho doanh nghiệp. Phản hồi chúng tôi nhận được khi báo cáo về quá trình làm sạch của mình có thể thay đổi quy trình thu thập dữ liệu và cuối cùng là phát triển kinh doanh. Ví dụ, một trong những thách thức lớn nhất khi làm việc với dữ liệu là xử lý lỗi. Một số lỗi phổ biến nhất liên quan đến lỗi của con người như nhập sai hoặc viết sai chính tả, các quy trình bị lỗi như thiết kế mẫu khảo sát kém và các sự cố hệ thống trong đó các hệ thống cũ tích hợp dữ liệu không chính xác. Dù lý do là gì, việc làm sạch dữ liệu có thể làm sáng tỏ bản chất và mức độ nghiêm trọng của các quy trình tạo lỗi. Với tài liệu và báo cáo nhất quán, chúng tôi có thể phát hiện ra các mẫu lỗi trong quy trình nhập và thu thập dữ liệu, đồng thời sử dụng phản hồi mà chúng tôi nhận được để đảm bảo các lỗi phổ biến không lặp lại. Có lẽ chúng ta cần lập trình lại cách thu thập dữ liệu hoặc thay đổi các câu hỏi cụ thể trên mẫu khảo sát. Trong những trường hợp cực đoan hơn, phản hồi mà chúng tôi nhận được thậm chí có thể đưa chúng tôi trở lại bảng vẽ để suy nghĩ lại về các kỳ vọng và có thể cập nhật các quy trình kiểm soát chất lượng. Ví dụ: đôi khi sẽ hữu ích khi lên lịch cuộc họp với kỹ sư dữ liệu hoặc chủ sở hữu dữ liệu để đảm bảo dữ liệu được đưa vào đúng cách và không yêu cầu phải làm sạch liên tục. Khi các lỗi đã được xác định và giải quyết, các bên liên quan có dữ liệu mà họ có thể tin tưởng để ra quyết định. Và bằng cách giảm các lỗi và sự thiếu hiệu quả trong việc thu thập dữ liệu, công ty có thể phát hiện ra những khoản tăng lớn cho lợi nhuận của mình. Chúc mừng! Bây giờ bạn đã có nền tảng cần thiết để xác minh thành công báo cáo về kết quả làm sạch của mình. Hãy theo dõi để tiếp tục xây dựng các kỹ năng mới của bạn.
  • 282. Tuần 5: Thêm dữ liệu vào sơ yếu lý lịch của bạn Tạo một sơ yếu lý lịch hiệu quả sẽ giúp bạn trên con đường sự nghiệp phân tích dữ liệu của mình. Trong phần này của khóa học, bạn sẽ tìm hiểu tất cả về quy trình xin việc, tập trung vào việc tạo một bản sơ yếu lý lịch làm nổi bật điểm mạnh và kinh nghiệm áp dụng của bạn. Ngay cả khi bạn chưa nộp đơn xin việc, đây vẫn là thời điểm tốt để cải thiện sơ yếu lý lịch của bạn. Nó giống như đào tạo mùa xuân cho mùa giải đầu tiên trong một giải đấu lớn-bạn không muốn bỏ lỡ nó! Mục tiêu học tập:  Xác định các yếu tố chính của sơ yếu lý lịch phân tích dữ liệu  Thể hiện sự hiểu biết về kinh nghiệm trước đây có thể được thêm vào sơ yếu lý lịch như thế nào  Thảo luận về cách mô tả công việc của nhà phân tích dữ liệu có thể phù hợp với một lĩnh vực quan tâm cụ thể Chương 1: Quy trình tuyển dụng chuyên viên phân tích dữ liệu Giới thiệu về quy trình tuyển dụng chuyên viên phân tích dữ liệu Này, cảm ơn vì đã ghé qua một lần nữa. So, trước đó chúng tôi đã kiểm tra một số con đường sự nghiệp tiềm năng có thể mở ra cho bạn sau khi bạn hoàn thành chương trình. Bạn cũng có thể đã khám phá những lợi ích của việc kết nối mạng và xây dựng sự hiện diện trực tuyến. Và tôi muốn nói với bạn rằng chỉ bằng cách ở đây bây giờ, bạn đã cho thấy bạn đã cam kết. Bạn đang thực hiện một bước tiến lớn trong sự nghiệp tương lai của mình. Sắp tới, chúng ta sẽ dành thời gian xây dựng sơ yếu lý lịch của bạn. Bạn có thể đã có một sơ yếu lý lịch mà bạn đã sử dụng hoặc đang lưu và điều đó thật tuyệt. Có một cơ hội tốt là bạn vẫn có thể sử dụng nó ngay cả khi bạn dự định chuyển đổi nghề nghiệp. Chúng ta sẽ cùng nhau tìm hiểu xem bạn có thể muốn thực hiện những loại thay đổi nào đối với sơ yếu lý lịch của mình. Nhưng trước đó, chúng ta sẽ tìm hiểu toàn bộ quá trình nộp đơn là như thế nào. Sau đó, chúng ta sẽ khám phá cách tốt nhất để viết hoặc điều chỉnh sơ yếu lý lịch của bạn sao cho trông chuyên nghiệp nhất có thể và sẵn sàng cho vai trò là nhà phân tích dữ liệu của bạn. Chúng tôi cũng sẽ xem qua một số ví dụ về các sơ yếu lý lịch khác. Sau đó, chúng tôi sẽ yêu cầu bạn tự phân tích một chút khi chúng tôi xem xét các loại công việc phân tích dữ liệu khác nhau hiện có, vì vậy bạn có thể nghĩ xem công việc nào phù hợp nhất với mình. Mặc dù tôi chắc chắn không phải là cố vấn nghề nghiệp, nhưng chúng ta vẫn có thể coi đây là một loại buổi tư vấn nghề nghiệp. Bạn sẽ có ý tưởng tốt hơn về cách xây dựng sơ yếu lý lịch của mình đồng thời suy nghĩ về bức tranh sự nghiệp lớn hơn của mình. Vậy hãy bắt đầu!
  • 283. Quy trình xin việc của nhà phân tích dữ liệu Chào bạn lần nữa nhé. Ngay bây giờ, có vẻ như là thời điểm hoàn hảo để lùi lại một bước khỏi việc tìm hiểu về phân tích dữ liệu, để bạn có thể hào hứng với những gì sẽ xảy ra sau khi bạn hoàn thành ở đây. Con đường tìm việc có thể đầy thử thách, nhưng bạn đang xây dựng bộ kỹ năng của mình và học những điều cần thiết để trở thành một nhà phân tích dữ liệu. Trong video này, chúng tôi sẽ đề cập đến những gì bạn có thể mong đợi từ quá trình tìm kiếm việc làm của mình, cùng với một số mẹo sử dụng các kỹ năng và kiến thức mới tìm được để giúp quá trình tìm kiếm của bạn dễ dàng hơn. Tôi nhớ khi tôi mới bắt đầu. Tôi đã liên hệ với càng nhiều người càng tốt để tìm hiểu về con đường sự nghiệp, công ty và vai trò của họ. Tôi muốn có được một ý tưởng tốt về những gì mong đợi. Và đó là những gì chúng tôi đang làm bây giờ: cung cấp cho bạn ý tưởng về những gì sẽ xảy ra trong quá trình tìm kiếm việc làm của chính bạn. Điều quan trọng cần nhớ là tìm kiếm của mọi người sẽ khác nhau. Nó có thể phụ thuộc vào nơi bạn sống, sở thích của bạn trong lĩnh vực này và sở thích cá nhân, chẳng hạn như loại môi trường làm việc mà bạn cảm thấy thoải mái. Cách phổ biến nhất để bắt đầu là kiểm tra các công việc có sẵn. Có rất nhiều trang web việc làm được xây dựng dành riêng cho những người tìm kiếm việc làm. Bạn cũng có thể truy cập các trang web của công ty, nơi họ cũng thường đăng danh sách việc làm. Các trang web này thậm chí có thể có tùy chọn gửi thông báo cho bạn khi có vai trò phù hợp với tìm kiếm của bạn. Sau khi bạn tìm thấy một số công ty ưng ý, hãy thực hiện một số nghiên cứu để tìm hiểu thêm về các công ty và thông tin chi tiết về các vị trí cụ thể mà bạn sẽ ứng tuyển. Sau đó, bạn có thể cập nhật sơ yếu lý lịch của mình hoặc tạo một sơ yếu lý lịch mới. Bạn sẽ muốn nó cụ thể và phản ánh những gì mỗi công ty đang tìm kiếm. Nhưng bạn chắc chắn có thể có một sơ yếu lý lịch chính mà bạn điều chỉnh cho từng vị trí. Nó cũng có thể hữu ích để tạo một bảng tính với tất cả kinh nghiệm và thành tích của bạn để giúp bạn quyết định những gì cần đưa vào sơ yếu lý lịch của bạn cho mỗi người. Nếu bạn đang sử dụng một trang mạng chuyên nghiệp như LinkedIn, bạn có thể đã có những kết nối có thể giúp bạn tìm kiếm việc làm. Có thể bạn biết ai đó có thể viết thư giới thiệu cho bạn hoặc biết một công việc trong công ty của họ phù hợp với bạn. Và ngay cả khi bạn không gặp may mắn với các mối quan hệ của mình, bạn cũng có thể liên hệ với nhân viên của các công ty mà bạn quan tâm. Họ có thể cung cấp cho bạn một số thông tin chi tiết về những cách tốt nhất để làm nổi bật các kỹ năng và kinh nghiệm của bạn khi ứng tuyển. Và, không sao nếu họ không viết lại. Tiếp tục cố gắng! Đây có lẽ là thời điểm tốt để kể cho bạn nghe về phần thử thách nhất trong quá trình tìm kiếm việc làm: nghe từ "không". Bạn có thể sẽ nghe thấy nó rất nhiều, và điều đó 100% không sao cả. Đó là một phần kinh nghiệm của mọi người, đặc biệt là khi thay đổi con đường
  • 284. sự nghiệp. Những người bạn tiếp cận có thể không giúp được bạn. Các công ty bạn muốn làm việc có thể không có bất kỳ cơ hội nào. Công việc bạn ứng tuyển có thể được lấp đầy bởi người khác, và đó là một phần của quá trình. Điều quan trọng là phải tập trung. Đừng nản lòng, và trên hết hãy tin vào chính mình. Được rồi, bài phát biểu kết thúc, nhưng đừng quên nó, nếu không tôi sẽ buộc phải phát biểu nhiều hơn. Vì vậy, trở lại tìm kiếm của bạn. Nếu công ty bạn đang ứng tuyển quan tâm, đầu mối liên hệ đầu tiên của bạn có thể là nhà tuyển dụng. Nhà tuyển dụng cũng có thể liên hệ với bạn dựa trên nghiên cứu của riêng họ. Họ có thể tìm thấy hồ sơ chuyên nghiệp của bạn trực tuyến và nghĩ rằng bạn là người phù hợp cho một vị trí. Nhắc mới nhớ, đó là một lý do khác để tiếp tục xây dựng và làm mới hồ sơ trực tuyến của bạn. Các nhà tuyển dụng ở đó để đảm bảo bạn là ứng viên hợp pháp cho công việc được đăng trong phần mô tả. Vì vậy, khi bạn nói chuyện với nhà tuyển dụng, dù qua điện thoại, trực tuyến hay gặp trực tiếp, hãy tỏ ra chuyên nghiệp và lịch sự. Đó là điều tự nhiên để cảm thấy lo lắng ở đây. Vì vậy, có thể hữu ích khi tham khảo lại sơ yếu lý lịch của bạn để khiến họ thán phục với kiến thức của bạn về ngành phân tích dữ liệu. Và hãy nhớ rằng, các nhà tuyển dụng cũng đang tìm kiếm ai đó và họ hy vọng đó sẽ là bạn. Đây là một mẹo khác. Sử dụng các thuật ngữ kỹ thuật như "SQL" và "dữ liệu sạch" sẽ cho nhà tuyển dụng thấy rằng bạn biết mình đang làm gì. Các nhà tuyển dụng có thể sẽ không đi vào quá nhiều chi tiết về những thứ bên trong và bên ngoài. Nhưng họ muốn thấy rằng bạn biết bạn đang nói về điều gì. Họ cũng có thể cung cấp cho bạn tài liệu chuẩn bị hoặc các đề xuất khác. Hãy tận dụng những điều này vì nhà tuyển dụng muốn bạn làm tốt. Tiếp theo thường là người quản lý tuyển dụng. Đây là bước quan trọng nhất. Công việc của người quản lý tuyển dụng là đánh giá xem bạn có khả năng thực hiện công việc hay không và liệu bạn có phù hợp với nhóm của họ hay không. Công việc của bạn là thuyết phục họ rằng có, bạn có và có, bạn sẽ như vậy. Một điều tốt bạn có thể làm ở đây là sử dụng LinkedIn hoặc các trang web chuyên nghiệp khác để nghiên cứu các nhà quản lý tuyển dụng hoặc thậm chí các nhà phân tích khác có vai trò tương tự với vị trí bạn đang ứng tuyển. Bạn càng có nhiều thông tin về công việc, bạn càng có cơ hội thực sự nhận được nó. Bạn cũng nên tận dụng cơ hội này để đặt nhiều câu hỏi nhằm giúp bạn tìm hiểu xem công ty có phù hợp với bạn không. Bạn cũng có thể làm điều này khi nói chuyện với nhà tuyển dụng. Bây giờ nếu người quản lý tuyển dụng thấy bạn phù hợp, rất có thể bạn sẽ có ít nhất một cuộc phỏng vấn nữa. Mục đích của những cuộc phỏng vấn này là để các bên liên quan và đồng đội trong tương lai của bạn có cơ hội quyết định xem bạn có phải là ứng cử viên tốt nhất cho vị trí này hay không. Bước tiếp theo là bước tốt nhất. Nếu mọi việc suôn sẻ, bạn sẽ nhận được một đề nghị chính thức. Thường là qua điện thoại trước và có thể sau đó là một lá thư chính thức. Tại thời điểm này, hãy thoải mái để ăn mừng. Gọi tất cả mọi người và ăn mừng một số chi tiết. Nhưng ngay cả khi đó là công việc mơ ước của bạn, hãy chắc chắn rằng đó là
  • 285. một đề nghị cạnh tranh trước khi bạn ký hợp đồng. Hãy nhớ rằng, nếu họ liên hệ với bạn bằng một đề nghị, điều đó có nghĩa là họ muốn bạn nhiều như bạn muốn họ. Nếu bạn đang phỏng vấn ở những nơi khác, bạn có thể tận dụng điều này để tìm hiểu xem liệu có thể đàm phán để có được lời đề nghị cạnh tranh hơn hay không. Bạn cũng nên nghiên cứu về tiền lương, phúc lợi, thời gian nghỉ phép và bất kỳ yếu tố nào khác quan trọng đối với bạn đối với các công việc tương tự. Nếu bạn có thể đưa ra nghiên cứu cụ thể như công ty X trả nhiều tiền hơn cho Y cho cùng một vai trò, thì thường có một số cơ hội để bạn thương lượng về lương, ngày nghỉ phép hoặc điều gì đó khác. Hãy nhớ rằng bạn sẽ cần tìm sự cân bằng giữa những gì bạn muốn, những gì họ muốn cung cấp cho bạn và những gì công bằng. Vì vậy, hãy biết giá trị của bản thân nhưng cũng hiểu rằng công ty tuyển dụng bạn đã đặt một giá trị nhất định cho vai trò của bạn. Được rồi, giả sử rằng mọi thứ đều suôn sẻ và bạn hài lòng với thỏa thuận đã thương lượng và hào hứng tham gia nhóm mới của mình. Ngay cả khi đó, hãy tạm dừng và dành cho bản thân ít nhất hai tuần trước khi bạn chính thức bắt đầu. Tại sao? Chà, nếu bạn đã được tuyển dụng ở một nơi khác trong quá trình tìm kiếm việc làm của mình, theo thông lệ và lịch sự, bạn nên thông báo trước ít nhất hai tuần về công việc cũ trước khi bắt đầu công việc mới. Ngoài ra, thật tốt khi cho bản thân nghỉ ngơi trước khi bắt đầu cuộc phiêu lưu mới thú vị. Bạn đã kiếm được nó. Đến bây giờ, bạn nên có một ý tưởng khá hay về những gì sẽ xảy ra khi bạn bắt đầu tìm kiếm công việc phân tích dữ liệu của mình. Sắp tới chúng ta sẽ nói nhiều hơn về việc xây dựng sơ yếu lý lịch của bạn. Hẹn gặp lại các bạn trong video tiếp theo. Tạo sơ yếu lý lịch Tuyệt vời, bạn đã trở lại. Khi bạn chụp ảnh, bạn thường cố chụp nhiều thứ khác nhau trong một ảnh. Có thể bạn đang chụp ảnh hoàng hôn và muốn chụp những đám mây, hàng cây và những ngọn núi. Về cơ bản, bạn muốn chụp nhanh toàn bộ khoảnh khắc đó. Bạn có thể nghĩ về việc xây dựng một sơ yếu lý lịch theo cách tương tự. Bạn muốn sơ yếu lý lịch của mình là một bản chụp nhanh tất cả những gì bạn đã làm cả ở trường học và nghề nghiệp. Trong video này, chúng ta sẽ thực hiện quy trình xây dựng một sơ yếu lý lịch mà bạn cũng có thể thêm thông tin chi tiết của riêng mình. Hãy ghi nhớ đây là một ảnh chụp nhanh. Khi các nhà quản lý và nhà tuyển dụng nhìn vào những gì bạn đã đưa vào sơ yếu lý lịch của mình, họ sẽ có thể biết ngay những gì bạn có thể cung cấp cho công ty của họ. Chìa khóa ở đây là ngắn gọn. Cố gắng giữ mọi thứ trong một trang và mỗi mô tả chỉ có một vài gạch đầu dòng. Hai đến bốn gạch đầu dòng là đủ nhưng hãy nhớ giữ cho các gạch đầu dòng của bạn thật ngắn gọn. Tập trung vào một trang sẽ giúp bạn tập trung vào những chi tiết phản ánh đúng nhất con người bạn hoặc con người bạn muốn trở thành một cách chuyên nghiệp. Một trang cũng có thể là tất cả những gì mà người
  • 286. quản lý tuyển dụng và nhà tuyển dụng có thời gian xem xét. Họ là những người bận rộn, vì vậy bạn muốn thu hút sự chú ý của họ bằng sơ yếu lý lịch của mình càng nhanh càng tốt. Bây giờ hãy nói về việc thực sự xây dựng sơ yếu lý lịch của bạn. Đây là lúc các mẫu xuất hiện. Chúng là một cách tuyệt vời để xây dựng một sơ yếu lý lịch hoàn toàn mới hoặc định dạng lại sơ yếu lý lịch mà bạn đã có. Các chương trình như Microsoft Word hoặc Google Docs và thậm chí một số trang web tìm kiếm việc làm đều có các mẫu mà bạn có thể sử dụng. Mẫu có chỗ dành sẵn cho thông tin bạn cần nhập và các yếu tố thiết kế riêng của mẫu để làm cho sơ yếu lý lịch của bạn trông hấp dẫn. Bạn sẽ có cơ hội khám phá tùy chọn này sau một thời gian sau. Hiện tại, chúng ta sẽ xem qua các bước bạn có thể thực hiện để làm cho sơ yếu lý lịch của mình trở nên chuyên nghiệp, dễ đọc và không có lỗi. Nếu bạn đã có tài liệu sơ yếu lý lịch, bạn có thể sử dụng các bước sau để chỉnh sửa nó. Hiện nay, có nhiều cách để xây dựng sơ yếu lý lịch, nhưng hầu hết đều có thông tin liên hệ ở đầu tài liệu. Điều này bao gồm tên, địa chỉ, số điện thoại và địa chỉ email của bạn. Nếu bạn có nhiều địa chỉ email hoặc số điện thoại, hãy sử dụng những địa chỉ đáng tin cậy và chuyên nghiệp nhất. Cũng thật tuyệt nếu bạn có thể sử dụng họ và tên của mình trong địa chỉ email của mình, chẳng hạn như janedoe17@email.com. Bạn cũng nên đảm bảo rằng thông tin liên hệ của mình khớp với các chi tiết mà bạn đã đưa vào các trang web chuyên nghiệp. Mặc dù hầu hết các sơ yếu lý lịch đều có thông tin liên hệ ở cùng một nơi, nhưng cách bạn tổ chức thông tin đó tùy thuộc vào bạn. Một định dạng tập trung nhiều hơn vào các kỹ năng và trình độ và ít hơn vào lịch sử công việc sẽ rất tốt cho những người có khoảng trống trong lịch sử công việc của họ. Nó cũng tốt cho những người mới bắt đầu sự nghiệp hoặc đang thay đổi nghề nghiệp và đó có thể là bạn. Nếu bạn muốn làm nổi bật quá trình làm việc của mình, vui lòng đưa vào các chi tiết về kinh nghiệm làm việc của bạn bắt đầu từ công việc gần đây nhất của bạn. Nếu bạn đã có nhiều công việc liên quan đến vị trí mới mà bạn đang ứng tuyển, thì định dạng này rất hợp lý. Nếu bạn đang chỉnh sửa sơ yếu lý lịch mà bạn đã có, bạn có thể giữ nguyên định dạng đó và điều chỉnh các chi tiết. Nếu bạn đang bắt đầu một cái mới hoặc lần đầu tiên xây dựng một sơ yếu lý lịch, hãy chọn định dạng phù hợp nhất với bạn. Có rất nhiều nguồn sơ yếu lý lịch trực tuyến. Bạn nên duyệt qua một loạt các sơ yếu lý lịch khác nhau để có ý tưởng về các định dạng mà bạn cho là phù hợp nhất với mình. Khi bạn đã quyết định định dạng của mình, bạn có thể bắt đầu thêm thông tin chi tiết của mình. Một số sơ yếu lý lịch bắt đầu bằng phần tóm tắt, nhưng phần này không bắt buộc. Bản tóm tắt có thể hữu ích nếu bạn có kinh nghiệm không phải là truyền thống đối với nhà phân tích dữ liệu hoặc nếu bạn đang chuyển đổi nghề nghiệp. Nếu bạn quyết định đưa vào phần tóm tắt, hãy giữ nó trong một hoặc hai câu làm nổi bật điểm mạnh của bạn và cách bạn có thể giúp ích cho công ty mà bạn đang ứng tuyển. Bạn cũng sẽ muốn đảm bảo rằng phần tóm tắt của mình bao gồm những từ tích cực về bản thân, chẳng hạn như tận tâm và chủ động. Bạn có thể hỗ trợ
  • 287. những từ đó bằng dữ liệu, chẳng hạn như số năm bạn đã làm việc hoặc các công cụ bạn đã trải nghiệm như SQL và bảng tính. Một bản tóm tắt có thể bắt đầu với một cái gì đó như đại diện dịch vụ khách hàng chăm chỉ với hơn năm năm kinh nghiệm. Khi bạn đã hoàn thành chương trình này và có chứng chỉ của mình, bạn cũng có thể bao gồm chứng chỉ đó, có thể giống như thế này, "chuyên gia phân tích dữ liệu cấp đầu vào gần đây đã hoàn thành Chứng chỉ Chuyên gia Google Data Analytics." Nghe khá tốt, phải không? Một tùy chọn khác là để lại một trình giữ chỗ cho bản tóm tắt của bạn trong khi bạn xây dựng phần còn lại của sơ yếu lý lịch và sau đó viết nó sau khi bạn hoàn thành các phần khác. Bằng cách này, bạn có thể xem lại các kỹ năng và kinh nghiệm mà bạn đã đề cập và lấy hai hoặc ba điểm nổi bật để sử dụng trong bản tóm tắt của mình. Bạn cũng nên lưu ý rằng bản tóm tắt có thể thay đổi một chút khi bạn nộp đơn cho các công việc khác nhau. Nếu bạn đang bao gồm phần kinh nghiệm làm việc, bạn có thể thêm nhiều loại kinh nghiệm khác nhau. Ngoài công việc với các công ty khác, bạn cũng có thể bao gồm các vị trí tình nguyện mà bạn đã có và bất kỳ công việc tự do hoặc công việc phụ nào bạn đã làm. Chìa khóa ở đây là cách bạn mô tả những trải nghiệm này. Cố gắng mô tả công việc bạn đã làm theo cách có liên quan đến vị trí bạn đang ứng tuyển. Hầu hết các mô tả công việc đều có trình độ hoặc yêu cầu tối thiểu được liệt kê. Đây là những kinh nghiệm, kỹ năng và trình độ học vấn mà bạn sẽ cần được xem xét cho công việc. Điều quan trọng là phải nêu rõ chúng trong sơ yếu lý lịch của bạn. Nếu bạn là một người phù hợp, bước tiếp theo là kiểm tra các bằng cấp ưa thích, mà rất nhiều bản mô tả công việc cũng bao gồm. Những điều này không bắt buộc, nhưng mọi bằng cấp bổ sung mà bạn phù hợp sẽ khiến bạn trở thành ứng cử viên cạnh tranh hơn cho vai trò này. Bao gồm bất kỳ phần nào trong kỹ năng và kinh nghiệm của bạn phù hợp với mô tả công việc sẽ giúp hồ sơ của bạn vượt lên trên đối thủ. Nếu danh sách công việc mô tả trách nhiệm công việc là "quản lý tài nguyên dữ liệu hiệu quả", thì bạn sẽ muốn có mô tả của riêng mình phản ánh trách nhiệm đó. Ví dụ: nếu bạn tình nguyện hoặc làm việc tại một trường học địa phương hoặc trung tâm cộng đồng, bạn có thể nói rằng bạn "đã quản lý hiệu quả các nguồn lực cho các hoạt động sau giờ học". Sau này, bạn sẽ tìm hiểu thêm nhiều cách để làm cho lịch sử công việc phù hợp với bạn. Thật hữu ích khi mô tả các kỹ năng và trình độ của bạn theo cùng một cách. Ví dụ: nếu danh sách nói về tổ chức và hợp tác với những người khác, hãy thử nghĩ về những trải nghiệm liên quan mà bạn đã có. Có thể bạn đã giúp tổ chức ổ đĩa thức ăn hoặc hợp tác với ai đó để bắt đầu kinh doanh trực tuyến. Trong phần mô tả của mình, bạn muốn làm nổi bật tác động mà bạn đã có trong vai trò của mình, cũng như tác động của vai trò đó đối với bạn. Nếu bạn đã giúp một doanh nghiệp bắt đầu hoặc đạt đến một tầm cao mới, hãy nói về trải nghiệm đó và bạn đã đóng góp một phần như thế nào trong đó. Hoặc nếu bạn làm việc tại một cửa hàng khi cửa hàng mới mở,
  • 288. bạn có thể nói rằng bạn đã giúp khởi động công việc kinh doanh thành công bằng cách đảm bảo chất lượng dịch vụ khách hàng. Nếu bạn đã sử dụng phân tích dữ liệu trong bất kỳ công việc nào của mình, chắc chắn bạn cũng sẽ muốn đưa nó vào. Lát nữa chúng ta sẽ đề cập đến cách thêm các kỹ năng phân tích dữ liệu cụ thể. Một cách để làm điều này là làm theo công thức trong phần mô tả của bạn: Hoàn thành X được đánh giá bằng Y, bằng cách thực hiện Z. Đây là một ví dụ về cách điều này có thể được ghi trong sơ yếu lý lịch: Được chọn là một trong số 275 người tham gia trên toàn quốc cho chương trình phát triển chuyên nghiệp kéo dài 12 tháng này dành cho những tài năng đạt thành tích cao dựa trên tiềm năng lãnh đạo và thành công trong học tập. Nếu bạn đã đạt được những kỹ năng mới trong một trong những trải nghiệm của mình, hãy nhớ nêu bật tất cả chúng và chúng đã giúp ích như thế nào. Đây có lẽ là một vị trí tốt như bất kỳ vị trí nào để đưa ra các phân tích dữ liệu. Ngay cả khi chương trình này là lần đầu tiên bạn thực sự nghĩ về phân tích dữ liệu, thì bây giờ bạn đã được trang bị một số kiến thức, bạn sẽ muốn sử dụng kiến thức đó để mang lại lợi ích cho mình. Nếu bạn đã từng quản lý tiền, có thể điều đó có nghĩa là bạn đã giúp doanh nghiệp phân tích thu nhập trong tương lai. Hoặc có thể bạn đã tạo ngân sách dựa trên phân tích chi tiêu trước đó của mình. Ngay cả khi đó là doanh nghiệp nhỏ của riêng bạn hoặc của một người bạn, thì đó vẫn là dữ liệu mà bạn đã phân tích. Bây giờ bạn có thể suy nghĩ về thời gian, cách thức và sử dụng nó trong sơ yếu lý lịch của mình. Sau khi bạn đã thêm kinh nghiệm và kỹ năng làm việc, bạn nên bao gồm một phần cho bất kỳ trình độ học vấn nào bạn đã hoàn thành. Vâng, khóa học này hoàn toàn được tính. Bạn có thể thêm khóa học này như một phần trong quá trình giáo dục của mình và bạn cũng có thể tham khảo nó trong phần tóm tắt và kỹ năng của mình. Tùy thuộc vào định dạng sơ yếu lý lịch của bạn, bạn có thể muốn thêm một phần cho các kỹ năng kỹ thuật mà bạn đã đạt được cả trong khóa học này và các khóa học khác. Bên cạnh các kỹ năng kỹ thuật như SQL, bạn cũng có thể bao gồm trình độ thông thạo ngôn ngữ trong phần này. Có một số khả năng về một ngôn ngữ khác ngoài tiếng Anh có thể giúp ích cho quá trình tìm việc của bạn. Bây giờ bạn đã có ý tưởng về cách làm cho sơ yếu lý lịch của mình trông chuyên nghiệp và hấp dẫn. Khi bạn tiến về phía trước, bạn sẽ học được nhiều hơn về cách làm cho sơ yếu lý lịch của bạn tỏa sáng. Cuối cùng, bạn sẽ có một bản lý lịch mà bạn có thể tự hào. Tiếp theo, chúng ta sẽ nói về cách làm cho sơ yếu lý lịch của bạn thực sự độc đáo. Hẹn sớm gặp lại.
  • 289. Chương 2: Hiểu các yếu tố của sơ yếu lý lịch phân tích dữ liệu Làm cho sơ yếu lý lịch của bạn trở nên độc đáo Thật tuyệt khi được gặp lại bạn. Xây dựng một bản lý lịch mạnh mẽ là một cách tuyệt vời để đạt được thành công trong quá trình tìm việc của bạn. Bạn đã có cơ hội bắt đầu xây dựng sơ yếu lý lịch của mình và bây giờ chúng tôi sẽ thực hiện bước tiếp theo bằng cách chỉ cho bạn cách tinh chỉnh sơ yếu lý lịch của mình cho các công việc phân tích dữ liệu. Bắt đầu nào. Đối với phân tích dữ liệu, một trong những điều quan trọng nhất mà sơ yếu lý lịch của bạn nên làm là thể hiện rằng bạn là một người giao tiếp rõ ràng. Các công ty đang tìm kiếm các nhà phân tích muốn biết rằng những người họ thuê có thể thực hiện phân tích, nhưng cũng có thể giải thích điều đó cho bất kỳ đối tượng nào một cách rõ ràng và trực tiếp. Đối tượng đầu tiên của bạn với tư cách là nhà phân tích dữ liệu rất có thể sẽ là người quản lý và nhà tuyển dụng đang tuyển dụng. Trực tiếp và mạch lạc trong sơ yếu lý lịch của bạn cũng sẽ đi một chặng đường dài với họ. Hãy bắt đầu với phần tóm tắt. Mặc dù bạn sẽ không đi vào quá nhiều chi tiết trong phần này về bất kỳ kinh nghiệm làm việc nào của mình, nhưng đây là một điểm tốt để chỉ ra liệu bạn có đang chuyển sang một vai trò nghề nghiệp mới hay không. Bạn có thể thêm nội dung nào đó như "chuyển đổi từ công việc trong ngành ô tô và tìm kiếm vai trò toàn thời gian trong lĩnh vực phân tích dữ liệu". Một chiến lược mà bạn có thể sử dụng trong phần tóm tắt và xuyên suốt sơ yếu lý lịch của mình là các câu P-A-R hoặc PAR. PAR là viết tắt của Vấn đề, Hành động, Kết quả. Đây là một cách tuyệt vời để giúp bạn viết rõ ràng và ngắn gọn. Thay vì nói điều gì đó như "chịu trách nhiệm viết hai blog mỗi tháng", bạn sẽ nói, "kiếm được trang web ít được biết đến hơn 2.000 lần nhấp mới nhờ viết blog chiến lược." Trang web ít được biết đến là vấn đề. Hành động chiến lược là viết blog chiến lược. Và kết quả là 2.000 lần nhấp mới. Việc thêm các tuyên bố về Cải cách hành chính vào phần mô tả công việc hoặc phần kỹ năng của bạn có thể giúp ích cho việc tổ chức và nhất quán trong sơ yếu lý lịch của bạn. Họ chắc chắn đã giúp tôi khi tôi thay đổi công việc. Nói về phần kỹ năng, hãy đảm bảo rằng bạn bao gồm mọi kỹ năng và bằng cấp mà bạn đã đạt được thông qua khóa học này và của chính bạn. Bạn không cần phải siêu kỹ thuật. Nhưng nói về trải nghiệm của bạn với bảng tính, SQL, Tableau và R, là ngôn ngữ lập trình mà chúng ta sẽ đề cập sau, sẽ nâng cao sơ yếu lý lịch và cơ hội kiếm việc làm của bạn. Nếu bạn đang liệt kê trình độ hoặc kỹ năng, bạn có thể bao gồm một vị trí dành cho “ngôn ngữ lập trình”, sau đó liệt kê SQL và R, cả hai đều là một phần của chứng chỉ Google Data Analytics. Bạn thậm chí có thể thêm vào các hàm, gói hoặc công thức hàng đầu mà bạn cảm thấy thoải mái trong mỗi hàm.
  • 290. Cũng nên bao gồm các kỹ năng bạn đã đạt được trong các bảng tính như bảng tổng hợp. Bảng Pivot, SQL, R và nhiều thuật ngữ khác mà chúng tôi đề cập ở đây có thể khiến bạn được các nhà quản lý tuyển dụng và nhà tuyển dụng chú ý. Nhưng bạn chắc chắn muốn sơ yếu lý lịch của mình thể hiện chính xác các kỹ năng và khả năng của bạn. Chỉ bổ sung những kỹ năng này sau khi bạn đã hoàn thành chứng chỉ này. Khi bạn bắt đầu áp dụng những ý tưởng mà chúng tôi đã đề cập ở đây vào sơ yếu lý lịch của mình, bạn sẽ dễ dàng tạo được sự khác biệt với các ứng viên khác. Sau khi hoàn thành khóa học cuối cùng, bạn sẽ có cơ hội hoàn thành một nghiên cứu điển hình và liên kết nó trong sơ yếu lý lịch của mình. Đây sẽ là một cơ hội tuyệt vời để cho các nhà tuyển dụng và người quản lý tuyển dụng thấy những kỹ năng bạn đã học được khi lấy chứng chỉ của mình. Trước khi bạn biết điều đó, bạn sẽ có một sơ yếu lý lịch khá tuyệt vời mà bạn có thể cập nhật nhanh chóng bất cứ khi nào tìm kiếm công việc phân tích dữ liệu. Không có gì sai với điều đó. Tiếp theo, chúng ta sẽ nói nhiều hơn về việc thêm kinh nghiệm vào sơ yếu lý lịch của bạn. Tạm biệt bây giờ. Joseph: Người da đen và người Mỹ gốc Phi tham gia vào ngành công nghiệp dữ liệu Xin chào tên tôi là Joseph. Tôi là nhà phân tích con người tại Google. Là một nhà phân tích con người, công việc của tôi là làm việc với các giám đốc điều hành và đối tác kinh doanh nhân sự để sử dụng dữ liệu nhằm đưa ra quyết định sáng suốt cho mọi người. Hòa nhập là rất cần thiết cho công việc mà chúng tôi làm. Như bạn đã biết, đôi khi bạn có thể bắt đầu với dữ liệu và có thành kiến của riêng bạn trong đó. Đối với chúng tôi trong lĩnh vực rất nhạy cảm này, nó đòi hỏi chúng tôi phải có một nhóm người đa dạng có nền tảng khác nhau để lăng kính dữ liệu này hoạt động. Là một chuyên gia da đen, tôi có thể kể một câu chuyện về những người da màu mang tính cá nhân hơn rất nhiều đối với tôi. Là một nhà phân tích yêu cầu tôi lấy dữ liệu và kể một câu chuyện với nó. Trên quan điểm cá nhân, tôi rất đam mê lĩnh vực ngày càng có nhiều đại diện trong ngành công nghệ này. Ví dụ, ngoài công việc, tôi điều hành một tổ chức phi lợi nhuận tên là Sankofa Tech. Toàn bộ mục tiêu của chúng tôi về cơ bản là giúp phát triển thế hệ kỹ sư da đen tiếp theo, những người về cơ bản có thể làm việc trong lĩnh vực này và đại diện cho trải nghiệm của chúng tôi bằng cách sử dụng dữ liệu làm nền tảng và cung cấp công nghệ làm yếu tố chuyển động mạnh mẽ trong tương lai. Điều quan trọng là chúng ta có nhiều người da đen hơn trong lĩnh vực công nghệ. Như các bạn đã biết, trong 10-20 năm tới, AI, học máy, sẽ giống như việc nói tiếng Anh ở đất nước này hoặc thậm chí trên toàn thế giới. Vì vậy, chúng ta càng có nhiều người da đen trong lĩnh vực này, chúng ta càng có thể đại diện cho nó trong các sản phẩm đang được
  • 291. chế tạo và trải nghiệm của chúng ta càng bị ảnh hưởng trong từng sản phẩm mà các công ty này chế tạo. Điều chắc chắn quan trọng là chúng ta có nhiều kỹ sư da đen hơn, chúng ta có nhiều nhà khoa học dữ liệu da đen hơn để thực hiện phân tích và cũng chỉ có các nhà phân tích dữ liệu da đen để giúp kể câu chuyện bao gồm nhiều trải nghiệm của chúng ta hơn. Điều chắc chắn cần thiết là chúng tôi phải có những người từ các nền tảng, màu da, tín ngưỡng khác nhau để thực sự hiểu dữ liệu và có liên minh với nó, đồng thời kể câu chuyện và làm cho nó trở nên rất riêng tư đối với khán giả của chúng tôi.
  • 292. Chương 3: Làm nổi bật kinh nghiệm trong sơ yếu lý lịch Kinh nghiệm làm việc trong quá khứ Chào mừng trở lại. Mọi người ngoài kia đều có lịch sử công việc cá nhân của riêng họ. Tất cả chúng ta đều bắt đầu từ đâu đó, dù là bán thời gian hay toàn thời gian. Điều quan trọng đối với sơ yếu lý lịch của bạn là cách bạn trình bày công việc bạn đã hoàn thành. Trong video này, chúng ta sẽ trau dồi về lịch sử công việc và cách bạn có thể chuyển giao lịch sử công việc của mình một cách hiệu quả cho sơ yếu lý lịch của nhà phân tích dữ liệu. Nếu bạn không có một phần cụ thể về lịch sử công việc trong sơ yếu lý lịch của mình, điều đó không sao cả. Bạn có thể sử dụng những ý tưởng cơ bản tương tự để điều chỉnh phần kỹ năng và trình độ của mình. Tin tốt là bạn đã có rất nhiều kỹ năng mà các nhà tuyển dụng và đại lý tuyển dụng tìm kiếm khi họ thuê các nhà phân tích dữ liệu. Bạn có thể đã sử dụng rất nhiều trong số họ trong công việc trước đây. Chúng tôi gọi đây là những "kỹ năng có thể chuyển giao". Kỹ năng có thể chuyển giao là những kỹ năng và phẩm chất có thể chuyển từ công việc này sang ngành khác. Hãy suy nghĩ về tất cả các vị trí bạn đã nắm giữ, cộng sự, chủ sở hữu, thành viên nhóm, người quản lý và cách họ có thể được sử dụng với tư cách là nhà phân tích dữ liệu. Hãy bắt đầu với vấn đề lớn mà chúng ta đã nói trước đây: giao tiếp. Khi mô tả công việc nói rằng họ muốn có kỹ năng giao tiếp tốt cho một nhà phân tích dữ liệu, điều đó thường có nghĩa là họ muốn một người có thể nói về những gì họ làm với những người không có kỹ thuật hoặc phân tích. Nếu ai đó không quen thuộc với phân tích có thể hiểu những gì bạn đang nói khi bạn cố gắng giải thích cho họ, thì kỹ năng giao tiếp của bạn thường là tốt. Bạn có thể đã phải giao tiếp trong các công việc khác mà bạn đã đảm nhận, cho dù với nhân viên, khách hàng hay khách hàng, thành viên nhóm hay người quản lý. Bạn cũng có thể phải thuyết trình, dù là trang trọng hay trang trọng. Trong phần lịch sử công việc của bạn, bạn có thể nêu bật những kỹ năng giao tiếp hiệu quả đã giúp bạn như thế nào. Bạn cũng có thể tham khảo các bài thuyết trình cụ thể mà bạn đã thực hiện và kết quả của những bài thuyết trình đó, thậm chí bạn có thể bao gồm khán giả cho các bài thuyết trình của mình, đặc biệt nếu bạn thuyết trình trước các nhóm lớn hoặc những người ở vị trí cấp cao. Sau khi liệt kê chi tiết công việc, chẳng hạn như địa điểm và thời gian làm việc, bạn có thể thêm nội dung nào đó như "quy trình làm việc hàng ngày được triển khai và truyền đạt hiệu quả cho các thành viên trong nhóm, dẫn đến tăng năng suất". Tại đây, bạn sẽ thay đổi các chi tiết dựa trên công việc bạn đã làm. Vì bạn sẽ làm việc trong thế giới dữ liệu, bao gồm mọi dữ liệu định lượng sẽ là lý tưởng. Ví dụ, mức tăng năng suất có thể là mức tăng 15%. Miễn là
  • 293. bạn có cách sao lưu dữ liệu của mình, hy vọng có nhiều dữ liệu hơn, thì bạn có thể đưa nó vào sơ yếu lý lịch của mình. Ví dụ này đưa chúng ta đến kỹ năng chuyển tiếp tiếp theo. Các nhà phân tích dữ liệu là những người giải quyết vấn đề. Khi các vấn đề phát sinh trong cơ sở dữ liệu hoặc các dòng mã, các nhà phân tích dữ liệu cần có khả năng tìm và khắc phục sự cố. Nếu trước đó bạn chưa có kinh nghiệm làm việc với dữ liệu, bạn vẫn có thể nói về kỹ năng giải quyết vấn đề của mình. Ví dụ cuối cùng mà chúng tôi chia sẻ đã thể hiện rất tốt khả năng giải quyết vấn đề. Nó thực sự được viết dưới dạng một tuyên bố về cải cách hành chính, hoặc tuyên bố về vấn đề, hành động, kết quả, mà chúng ta đã đề cập trước đó. Vấn đề là các quy trình công việc hàng ngày không được áp dụng. Hành động là bạn thực hiện các quy trình và truyền đạt chúng cho nhóm của mình, và kết quả là năng suất tăng 15 phần trăm. Điều này cho thấy rõ ràng rằng có một vấn đề và bạn đã giải quyết nó. Chúng tôi cũng có thể sử dụng một tuyên bố để chỉ ra tinh thần đồng đội là một phẩm chất quan trọng cần mang đến cho thế giới phân tích dữ liệu. Mặc dù bạn có thể có nhiều việc phải làm một mình, nhưng điều đó sẽ luôn vì lợi ích của nhóm. Nhóm không chỉ có nghĩa là nhóm dữ liệu mà bạn tham gia, mà còn có nghĩa là toàn bộ công ty. Đó là một số kỹ năng bạn có thể thêm vào phần kinh nghiệm làm việc và kỹ năng và trình độ của mình. Tất cả những điều này được gọi là kỹ năng mềm. Kỹ năng mềm là những đặc điểm và hành vi phi kỹ thuật liên quan đến cách bạn làm việc. Định hướng chi tiết và thể hiện sự kiên trì là hai ví dụ khác về kỹ năng mềm mà bất kỳ ai thuê một nhà phân tích dữ liệu sẽ tìm kiếm. Các công ty muốn biết rằng bạn sẽ thực hiện phân tích của mình một cách cẩn thận và hoàn thành, bất kể bạn có thể gặp phải những trở ngại nào trên đường đi. Nếu bạn đã làm việc tại một công việc bán lẻ, bạn có thể nói về cách mà sự chú ý đến từng chi tiết giúp bạn phát hiện ra sự khác biệt trong khi xử lý một khối lượng tiền lớn và bạn có thể thêm cách bạn tiếp tục thực hiện dịch vụ khách hàng ở cấp độ cao, mặc dù tỷ lệ doanh thu cao ở cấp độ quản lý. Đây chỉ là một số ví dụ để bạn suy nghĩ và áp dụng vào chi tiết công việc của mình. Hãy dành một chút thời gian và nghĩ lại về công việc trước đây của bạn, hoặc có thể đó là công việc hiện tại của bạn. Những kỹ năng mềm nào bạn sử dụng để tìm kiếm thành công? Bạn đang bắt đầu hiểu làm thế nào những thứ đó có thể chuyển sang thế giới phân tích dữ liệu? Sử dụng các tuyên bố về Cải cách hành chính và tập trung vào các kỹ năng mềm có thể chuyển đổi của bạn thực sự có thể tăng thêm sức mạnh cho sơ yếu lý lịch của bạn. Bây giờ bạn có thể tiếp tục chuyển sang bước tiếp theo để tiếp tục tìm hiểu về lĩnh vực phân tích dữ liệu và công việc tương lai của bạn trong đó. Hẹn gặp lại các bạn trong video tiếp theo.
  • 294. Kate: Con đường sự nghiệp của tôi với tư cách là một nhà phân tích dữ liệu Xin chào, tôi là Kate. Tôi là nhà phân tích sản phẩm cao cấp tại Google. Tôi luôn luôn có lẽ là một người tò mò khó chịu. Ngay cả khi còn nhỏ, tôi nhớ mình đã tháo rời mọi thứ chỉ để xem chúng hoạt động như thế nào. Tôi chỉ thích xem mọi thứ hoạt động cùng nhau như thế nào và tôi thích đặt những câu hỏi mới. Tôi thích có thêm thông tin. Tôi nghĩ điều đó khiến tôi trở thành một người toàn diện hơn và chắc chắn là một nhà phân tích giỏi hơn. Mỗi bước đi trong sự nghiệp của tôi, kể cả bước đầu tiên trong quân đội, tôi luôn chọn những gì có thể để cố gắng tự học về những thứ như cơ sở dữ liệu và những thứ như dữ liệu. Một trong những bước đột phá đầu tiên của tôi vào dữ liệu là, tôi đã được triển khai và khi quay lại, tôi làm việc với văn phòng nhân sự và chúng tôi phải làm những việc như theo dõi mọi người đang ở đâu, mức lương của họ và cấp bậc của họ và liệu họ có nhận được giải thưởng hay không và không có một hệ thống duy nhất nào xử lý việc đó, vì vậy tôi sử dụng cơ sở dữ liệu Access. Tôi đã mất rất nhiều thời gian để tìm hiểu khóa ngoại là gì và khóa chính là gì. Tôi sẽ hoàn toàn trung thực, tôi đã làm rất kém. Cuối cùng tôi đã quay lại Excel, nhưng đó là một trải nghiệm học tập thực sự tốt. Sau thời gian ở trong quân đội, tôi không biết mình muốn làm gì. Tôi đã từng làm nhân sự, nhưng tôi thực sự vẫn thích mảng công nghệ. Bằng cách nào đó, tôi đã chuyển sự nghiệp quân ngũ của mình sang lĩnh vực hậu cần và nhận được một công việc hậu cần cho cái mà họ gọi là nhà tròn. Đó là nơi họ làm việc trên các động cơ đầu máy. Tôi đã làm rất nhiều bảo trì cơ sở dữ liệu. Khi rời ngành đường sắt, tôi đến một công ty hàn, nơi tôi khởi nghiệp với vị trí nhân viên hậu cần làm việc trên xe tải. Ý tôi là phụ tùng xe tải. Nhưng sau đó, tôi đã có thể chuyển sang vai trò tập trung vào dữ liệu cơ sở dữ liệu hơn. Sau thời gian làm việc tại công ty hàn, tôi đã sẵn sàng thử sức với một thứ gì đó mang tính kỹ thuật cao hơn. Tôi thực sự đã làm việc cho một công ty tư vấn nhỏ rất sang trọng và đã làm rất nhiều việc với Tableau, nơi chúng tôi bắt đầu làm việc với các công ty và dạy họ cách thực hiện trực quan hóa dữ liệu. Tôi đã đào tạo Tableau một thời gian. Nhưng thực sự thì tôi đã ở đó hơn sáu năm và trong suốt thời gian ở đó, tôi đã làm kỹ thuật cơ sở dữ liệu, tôi đã làm kỹ thuật dữ liệu. Tôi phải điều hành một nhóm các nhà phân tích, tôi phải dạy mọi người cách tư vấn. Tôi đã trưởng thành rất nhiều trong khoảng thời gian sáu năm đó. Sau đó, tôi quyết định đến với Google. Tôi làm việc với các bên liên quan về bản dịch trên toàn thế giới của Google. Nếu ai đó muốn dịch thứ gì đó từ ngôn ngữ này sang ngôn ngữ khác, tôi sẽ bắt tay vào phân tích ngôn ngữ đó. Điều đó có nghĩa là nếu bạn chọn 500 ngôn ngữ khác nhau hoặc 40 ngôn ngữ khác nhau thì chi phí là bao nhiêu? Chúng ta dịch bao nhiêu từ? Chất lượng bản dịch đó trông như thế nào? Nếu nhìn lại sự nghiệp của mình, tôi sẽ tự nói với mình cách đây 5, 10 năm rằng hãy tập trung vào một thứ gì đó. Đừng cố gắng để cảm thấy quá choáng ngợp. Điều quan trọng để có thể làm là có thể đặt câu hỏi đúng và biết cách trả lời nó. Tôi có sự tự tin. Sự tự tin thực sự quan trọng vì mọi người tìm đến tôi để tìm câu trả lời. Đó là công việc của tôi, là suy nghĩ thật kỹ về các
  • 295. câu hỏi và đưa ra câu trả lời giúp chúng trở nên tốt hơn và giúp công ty tốt hơn. Thực tế là tôi biết rằng tôi có thể làm điều này ngay bây giờ, bây giờ tôi đã dành thời gian và công sức cho nó, nó thực sự rất bổ ích.
  • 296. Chương 4: Khám phá các lĩnh vực quan tâm Đâu là sở thích của bạn? Xin chào. Nếu bạn chưa tìm kiếm công việc phân tích dữ liệu, hãy thử. Một điều bạn có thể nhận thấy là có bao nhiêu loại công việc của nhà phân tích dữ liệu. Bạn sẽ tìm thấy một số công việc chỉ ghi "nhà phân tích dữ liệu" trong chức danh công việc và những công việc khác bao gồm nhiều chi tiết hơn như "nhà phân tích nghiên cứu thị trường" và "nhà phân tích dữ liệu kỹ thuật số". Sự đa dạng này là một điều tốt. Điều đó có nghĩa là với tư cách là một nhà phân tích dữ liệu, bạn sẽ có rất nhiều cơ hội việc làm. Mặc dù bạn có thể không phù hợp với mọi vị trí được đăng, nhưng mọi vị trí được đăng có thể không phù hợp với bạn. Khi bạn tiếp tục tiến về phía trước, điều quan trọng là phải ghi nhớ những lợi ích của riêng bạn. Có thể có một số chủ đề mà chúng tôi đã đề cập hoặc chúng tôi sẽ đề cập đến mà bạn thấy mình đặc biệt quan tâm. Khi tìm việc làm, bạn có thể muốn điều chỉnh quá trình tìm kiếm của mình để tìm các công việc tập trung vào hoặc bao gồm các lĩnh vực mà bạn quan tâm. Ví dụ: nếu bản mô tả công việc liệt kê việc dọn dẹp dữ liệu là trách nhiệm của công việc và bạn nghĩ rằng mình thực sự thích quy trình đó, thì bạn có thể đặt công việc đó thành ưu tiên hàng đầu của mình. Đồng thời, hãy nghĩ về những sở thích khác của bạn. Nếu bạn có kiến thức cơ bản về bán lẻ hoặc y học hoặc tài chính và có kinh nghiệm tốt về lĩnh vực này, bạn có thể nộp đơn xin việc phù hợp với kiến thức của mình. Là một phần thưởng bổ sung, kinh nghiệm của bạn sẽ trông tuyệt vời trong sơ yếu lý lịch của bạn. Nhưng bạn cũng có thể tìm kiếm công việc trong lĩnh vực mà bạn không có kinh nghiệm chuyên môn. Nếu bạn luôn yêu thích ô tô, hãy xem ngành công nghiệp ô tô có những vị trí nào. Nếu bạn hứng thú với cách thức hoạt động của các công ty tiện ích, hãy tìm kiếm việc làm trong ngành năng lượng và tiện ích. Tìm được việc làm là điều tuyệt vời. Tìm được một công việc mà bạn yêu thích thậm chí còn tốt hơn. Hãy luôn nhớ rằng phân tích dữ liệu không ngừng phát triển trong nhiều ngành khác nhau. Chức danh công việc và nhu cầu tuyển dụng cũng có thể thay đổi. Nhưng các cơ hội, bất kể chúng là gì khi bạn đang tìm kiếm, sẽ ở đó. Bây giờ, hãy xem trước một số loại công việc phân tích dữ liệu hiện có. Chứng chỉ bạn kiếm được ở đây sẽ được áp dụng nhiều nhất cho các vị trí phân tích dữ liệu cấp dưới hoặc liên kết. Nhưng điều đó không có nghĩa là bạn phải giới hạn việc tìm kiếm công việc của mình chỉ với các vị trí dành cho nhà phân tích cấp dưới hoặc cộng sự. Chức danh công việc có đủ hình dạng và kích cỡ. Các nhà phân tích mới làm việc trong nhiều ngành công nghiệp. Các nhà phân tích chăm sóc sức khỏe thu thập và giải thích dữ liệu từ các nguồn như hồ sơ sức khỏe điện tử và khảo sát bệnh nhân. Công việc của họ giúp các tổ chức cải thiện chất lượng chăm sóc của họ. Các nhà phân tích chăm sóc sức khỏe cũng có thể tìm cách giảm chi phí chăm sóc và cải thiện
  • 297. trải nghiệm của bệnh nhân. Các nhà phân tích dữ liệu trong tiếp thị hoàn thành phân tích thị trường định lượng và định tính. Họ xác định các số liệu thống kê quan trọng, giải thích và trình bày những phát hiện của mình để giúp các bên liên quan hiểu được dữ liệu đằng sau các chiến lược tiếp thị của họ. Các nhà phân tích tình báo kinh doanh giúp các công ty sử dụng dữ liệu họ đã thu thập để tăng hiệu quả và tối đa hóa lợi nhuận của họ. Những nhà phân tích này thường làm việc với một lượng lớn dữ liệu để xác định xu hướng và tạo thông tin chi tiết về doanh nghiệp. Các nhà phân tích tài chính cũng làm việc với rất nhiều dữ liệu. Thực sự tất cả các nhà phân tích làm. Nhưng các nhà phân tích tài chính sử dụng dữ liệu để xác định và có khả năng đề xuất các cơ hội kinh doanh và đầu tư. Nếu bạn là một nhà phân tích cấp dưới trong lĩnh vực này, có lẽ bạn sẽ bắt đầu thực hiện nhiều công việc thu thập dữ liệu và lập mô hình tài chính cũng như bảo trì bảng tính. Đây chỉ là một phần nhỏ của các loại công việc phân tích dữ liệu ngoài kia. Mỗi loại chúng tôi đã đề cập cũng có thể phân nhánh sang các ngành khác. Ví dụ: các nhà phân tích tình báo kinh doanh có thể làm việc trong lĩnh vực chăm sóc sức khỏe, chính phủ, thương mại điện tử, v.v. Thật thú vị khi nghĩ về các khả năng. Tất nhiên, bạn còn nhiều việc phải làm, nhưng không có gì sai khi nhìn về phía trước. Khi bạn đến được nơi mà bạn đang hướng tới, bạn sẽ có thể chịu trách nhiệm và tìm được công việc tốt nhất cho mình. Hiện tại, chúng tôi sẽ tiếp tục khám phá sơ yếu lý lịch của bạn. Hẹn sớm gặp lại.
  • 298. Học phần 5: Phân tích dữ liệu để trả lời câu hỏi Tuần 1: Tổ chức dữ liệu để phân tích Tổ chức dữ liệu làm cho dữ liệu dễ sử dụng hơn trong phân tích của bạn. Trong phần này của khóa học, bạn sẽ tìm hiểu tầm quan trọng của việc tổ chức dữ liệu của mình thông qua sắp xếp và lọc. Bạn sẽ khám phá các quy trình này trong cả bảng tính và SQL khi tiếp tục chuẩn bị dữ liệu để phân tích. Mục tiêu học tập:  Mô tả những gì liên quan đến quá trình phân tích dữ liệu có liên quan đến các mục tiêu và nhiệm vụ chính  Thảo luận về tầm quan trọng của việc sắp xếp dữ liệu trước khi phân tích với các tham chiếu đến sắp xếp và bộ lọc  Mô tả sắp xếp vì nó liên quan đến dữ liệu trong bảng tính hoặc cơ sở dữ liệu có liên quan đến chức năng và lợi ích  Thể hiện sự hiểu biết về các bước liên quan đến sắp xếp và lọc dữ liệu thông qua việc sử dụng các truy vấn SQL Chương 1: Hãy tổ chức Giới thiệu về tổ chức Xin chào, các nhà phân tích dữ liệu trong tương lai! Bạn đã đạt được rất nhiều tiến bộ cho đến nay. Đó không phải là một hành trình dễ dàng, nhưng bạn đang làm rất tốt. Trước khi bạn bắt đầu chương trình này, một điều gì đó bên trong bạn đã thuyết phục bạn lấy Chứng chỉ Google Data Analytics của mình. Bạn đã có một ý tưởng, đã thực hiện một số nghiên cứu và dành thời gian để bắt đầu. Sau đó, bạn đã đưa ra quyết định cam kết với mục tiêu của mình. Bây giờ hãy nhìn xem bạn đang ở đâu! Đó là điều đáng tự hào. Ngay từ đầu, chúng tôi đã nhảy ngay vào thế giới phân tích dữ liệu và xem dữ liệu đóng vai trò như thế nào trong cuộc sống hàng ngày của bạn. Bạn đã học cách điều hướng bảng tính và tại sao tư duy có cấu trúc lại là chìa khóa để giải quyết vấn đề. Bạn cũng đã khám phá những cách tốt nhất để thu thập và lưu trữ dữ liệu của mình. Từ đó, bạn hiểu rõ hơn về dữ liệu sạch và tính toàn vẹn của dữ liệu. Bạn đã xác định được cách đặt câu hỏi phù hợp và học cách làm sạch dữ liệu. Bây giờ chúng tôi sẽ nâng kỹ năng của bạn lên một tầm cao mới. Tiếp theo, bạn sẽ học cách đưa ra câu trả lời rõ ràng và khách quan cho bất kỳ câu hỏi nào về dữ liệu mà bạn gặp phải. Trước đó, chúng ta đã học về quy trình phân tích dữ liệu.
  • 299. Xin nhắc lại, các giai đoạn của quy trình đó là Hỏi, Chuẩn bị, Xử lý, Phân tích, Chia sẻ và Hành động. Chúng ta sẽ khám phá thêm giai đoạn Phân tích ở đây, tập trung vào cách sắp xếp và định dạng dữ liệu bạn có để bạn có thể thực hiện tất cả các loại tính toán. Biết cách phân tích dữ liệu bạn đã thu thập và làm sạch là điều cần thiết cho công việc của bạn với tư cách là nhà phân tích. Trước khi chúng ta bắt đầu, tôi muốn giới thiệu bản thân mình. Tên tôi là Ayanna, và tôi rất vui được trở thành người hướng dẫn của bạn cho khóa học này. Tôi là người quản lý thông tin chi tiết toàn cầu tại Google và tôi cũng đã giảng dạy tại Học viện Google Analytics, đây là tài nguyên đào tạo dành cho các nhà phân tích của Google. Trong công việc của mình, tôi giúp các nhà quảng cáo xác định giá trị của việc đầu tư vào các sản phẩm của Google. Khi bạn tìm kiếm thứ gì đó trực tuyến, bạn sẽ thường thấy một quảng cáo trên trang. Đó là khoản đầu tư mà một nhà quảng cáo đã thực hiện. Tôi sử dụng phân tích dữ liệu để cho các nhà quảng cáo thấy giá trị mà họ có thể thu được từ việc đầu tư vào những quảng cáo đó. Đó là điều tôi yêu thích khi trở thành một nhà phân tích dữ liệu: tìm ra cách tạo ra giá trị bất cứ khi nào tôi bước vào một tình huống. Cách tốt nhất để biết liệu bạn có đang tạo ra giá trị hay không là bạn có bằng chứng hay không. Đối với tôi, bằng chứng đó là dữ liệu. Bây giờ bạn đã biết một chút về tình yêu của tôi đối với dữ liệu, hãy nói về những gì bạn sẽ học được ở đây. Bạn sẽ bắt đầu bằng cách trình bày các phương pháp hay nhất để tổ chức dữ liệu của mình và các cách khác nhau mà bạn có thể sắp xếp dữ liệu đó bằng bảng tính và SQL. Chúng ta cũng sẽ dành thời gian tìm hiểu ba cách quan trọng để làm việc với dữ liệu giúp nâng cao kỹ năng phân tích của bạn. Sau đó, chúng ta sẽ nói về tiết kiệm thời gian. Bạn sẽ khám phá các mẹo và thủ thuật có thể giúp bạn phân tích dữ liệu hiệu quả hơn. Cuối cùng nhưng không kém phần quan trọng, chúng ta sẽ làm việc cùng nhau để xác định các kỹ thuật giúp bạn trở nên công bằng và không thiên vị nhất có thể. Chà, đó là tất cả những gì bạn cần biết lúc này. Sắp tới, chúng tôi sẽ chia nhỏ các khái niệm cơ bản về phân tích dữ liệu và đưa bạn đến gần hơn một bước với tương lai của dữ liệu.
  • 300. Chương 2: Phân tích dữ liệu cơ bản Quy trình phân tích Chào mừng trở lại. Thật là tuyệt khi gặp lại bạn. Vì vậy, hãy nói về phân tích. Chúng tôi đã học cách đặt câu hỏi phù hợp, chuẩn bị dữ liệu để khám phá và sau đó xử lý dữ liệu đó để đảm bảo dữ liệu sạch sẽ. Bây giờ là lúc cho trọng tâm của quá trình: phân tích thực tế! Cuối cùng, phải không? Nhưng phân tích là gì? Về cơ bản, phân tích là quá trình được sử dụng để hiểu ý nghĩa của dữ liệu được thu thập. Nó có nghĩa là thực hiện các bước phù hợp để tiếp tục và suy nghĩ về dữ liệu của bạn theo những cách khác nhau. Mục tiêu của phân tích là xác định các xu hướng và mối quan hệ trong dữ liệu để bạn có thể trả lời chính xác câu hỏi mà mình đang đặt ra. Để làm được điều này, bạn nên tuân theo 4 giai đoạn phân tích: sắp xếp dữ liệu, định dạng và điều chỉnh dữ liệu, lấy thông tin đầu vào từ người khác và chuyển đổi dữ liệu bằng cách quan sát mối quan hệ giữa các điểm dữ liệu và thực hiện phép tính. 1. Organize data 2. Format and adjust data 3. Get input from others 4. Transform data Hãy áp dụng 4 giai đoạn phân tích vào một tình huống trong thế giới thực. Hãy tưởng tượng bạn muốn mua một món quà cho đám cưới của người bạn Zara. Vấn đề là bạn không chắc chắn những gì để có được cô ấy. May mắn thay, bạn có rất nhiều dữ liệu từ trang web đám cưới của cô ấy. Nhưng thay vì đọc tất cả dữ liệu trên trang web của cô ấy và cuộn qua album ảnh của cô ấy và đối tác của cô ấy, bạn hãy truy cập thẳng vào sổ đăng ký trực tuyến, một danh sách mong muốn những món quà mà họ sẽ thích. Sổ đăng ký giống như một bộ dữ liệu mà bạn có thể phân tích để đưa ra quyết định. Bây giờ bạn đang kiểm tra dữ liệu được sắp xếp trong sổ đăng ký, bạn muốn đảm bảo rằng danh sách dữ liệu hoặc quà tặng trong trường hợp này được định dạng theo cách dễ tham khảo. Định dạng dữ liệu hợp lý hóa mọi thứ và tiết kiệm thời gian cho bạn. Cuộn qua hàng trăm quà tặng có thể tốn thời gian. Thay vào đó, bạn có thể điều chỉnh dữ liệu theo cách giúp dễ hiểu bằng cách lọc và sắp xếp dữ liệu của mình. Bạn có một ngân sách mà bạn muốn duy trì, vì vậy bạn sắp xếp giá quà tặng từ thấp đến cao. Sau đó, bạn lọc giá để bao gồm quà tặng nằm trong ngân sách $60 của mình. Bạn đang làm việc với một danh sách dữ liệu mới được định dạng. Tại thời điểm này, bạn nên nhớ rằng thông tin đầu vào từ những người khác cũng có thể thực sự hữu ích khi phân tích thông tin và đưa ra quyết định. Bạn có thể kiểm tra danh sách quà tặng để biết liệu có ai
  • 301. khác đã mua bất kỳ mặt hàng nào chưa. Bạn nhận ra rằng một số mặt hàng trong danh sách đã được mua và điều này cho biết quyết định của bạn. Khi phân tích dữ liệu, việc thu thập thông tin đầu vào từ những người khác là rất quan trọng vì nó cung cấp cho bạn một quan điểm mà bạn có thể không hiểu hoặc không tiếp cận được. Ngoài việc thu thập thông tin đầu vào từ những người khác, điều quan trọng là sớm tìm hiểu quan điểm của người khác. Bằng cách đó, nếu họ dự đoán bất kỳ trở ngại hoặc thách thức nào, bạn sẽ biết trước. Những người mà bạn tìm kiếm thông tin đầu vào không nhất thiết phải là chuyên gia mới có thể hữu ích. Đôi khi tất cả những gì bạn cần là dành cho ai đó quen thuộc với chủ đề hoặc dữ liệu mà bạn đang xem xét. Trong ví dụ của chúng tôi, đó sẽ là những khách dự tiệc cưới của Zara, những người đang mua quà từ cùng một cơ sở đăng ký trực tuyến. Họ có thể không phải là chuyên gia về quà tặng đám cưới, nhưng nỗ lực hợp tác của họ để đánh dấu món đồ họ mua có thể giúp bạn tìm ra thứ không nên mua, điều này sẽ ngăn Zara nhận được hai lần cùng một món quà. Cuối cùng, nhận được thông tin đầu vào rất có giá trị đối với phân tích của bạn. Điều này đưa chúng ta đến bước cuối cùng của quá trình phân tích: chuyển đổi dữ liệu. Chuyển đổi dữ liệu có nghĩa là xác định các mối quan hệ và mẫu giữa dữ liệu và thực hiện các phép tính dựa trên dữ liệu bạn có. Quay trở lại ví dụ của chúng tôi, bạn có thể tìm thấy một món quà mà bạn biết Zara sẽ thích và một món quà phù hợp với ngân sách của bạn. Bạn cũng có thể chọn một món quà mà người khác chưa mua. Bằng cách tìm mối quan hệ giữa các điểm dữ liệu này, bạn đã chọn, mua và gửi một món quà có thể giải quyết vấn đề mà bạn muốn giải quyết. Cái hay của quá trình phân tích là bạn có thể đã phân tích các tình huống trong cuộc sống hàng ngày của mình. Cho dù bạn đang phân tích dữ liệu trong cuộc sống cá nhân hay trong sự nghiệp, bốn nhiệm vụ này có thể giúp bạn đưa ra quyết định tốt hơn. Bạn càng làm nhiều, bạn sẽ càng cảm thấy thoải mái hơn với quá trình này. Tôi hy vọng điều này giúp bạn hiểu rõ hơn về những điều cơ bản của phân tích. Khi tiếp tục, chúng ta sẽ kiểm tra cách định vị dữ liệu để phân tích, cả trong bảng tính và sử dụng SQL. Khi bạn đã sẵn sàng, bạn có thể tiếp tục. Hẹn sớm gặp lại! Ayanna: Gắn bó với nó Tôi nghĩ một trong những điều thú vị nhất khi làm việc với dữ liệu tại Google là chúng tôi có một trong những bộ dữ liệu có giá trị nhất thế giới. Mọi người coi dữ liệu của Google thực sự là một lăng kính nhìn vào sự tò mò của con người. Chúng ta thường coi Google thực sự là đại diện cho những gì đang xảy ra trên thế giới. Và vì vậy, đối với nhiều nhà quảng cáo của chúng tôi, họ thực sự rất coi trọng dữ liệu và thông tin chi tiết mà chúng tôi có thể cung cấp cho họ từ Google vì họ tin rằng đó là đại diện hoặc sự phản ánh những gì đang xảy ra trong doanh nghiệp hoặc trong ngành của họ. Vì vậy, tôi nghĩ rằng giá trị của dữ liệu mà chúng tôi có thể làm việc tại Google thực sự khiến tôi hứng thú và hào hứng với công việc mình làm.
  • 302. Vì vậy, tôi đã đến Google khoảng ba năm trước sau khi dành vài năm làm tư vấn. Vì vậy, tôi thực sự quan tâm đến việc chuyển sang một vai trò thực sự tập trung vào bán hàng và tiếp thị. Nhưng đồng thời, tôi vẫn muốn có thể tận dụng bộ kỹ năng phân tích mà tôi đã đạt được trước đó. Vai trò này là sự bổ sung tuyệt vời cho các bộ kỹ năng mà tôi đã có và sự quan tâm mà tôi có được khi chuyển sang chức năng bán hàng và tiếp thị. Tôi nghĩ một điều quan trọng mà tất cả học sinh cần nhận ra là không ai học tài liệu này qua một đêm. Nhiều đồng nghiệp của bạn mà bạn có thể coi là chuyên gia, nhưng rất có thể họ đã có thể đạt được trình độ chuyên môn đó qua nhiều năm làm việc trong lĩnh vực này. Tôi nghĩ một trong những thuộc tính lớn nhất mà sinh viên nên ghi nhớ là điều quan trọng nhất mà họ cần phải có trong suốt hành trình học tập này là sự gan dạ. Cố gắng hiểu rằng đó có thể là một cuộc đấu tranh, nó có thể là một thách thức, nhưng nếu bạn nỗ lực, bạn dành thời gian, những khái niệm này cuối cùng sẽ thành công và bạn sẽ vững bước trên con đường trở thành một nhà phân tích dữ liệu . Xin chào, tên tôi là Ayanna và tôi là người quản lý thông tin chi tiết toàn cầu tại Google.
  • 303. Chương 3: Tổ chức dữ liệu để phân tích Luôn luôn cần phải tổ chức Chào bạn lần nữa nhé. Hãy bắt đầu lại. Hiện tại, chúng ta đang ở giai đoạn Phân tích của quy trình phân tích dữ liệu. Và mặc dù mỗi giai đoạn là duy nhất, các nhà phân tích dữ liệu đưa ra quyết định về tổ chức trong tất cả các giai đoạn đó. Đó là những gì chúng ta đang nói ở đây: tổ chức. Điều cực kỳ quan trọng là bạn phải sắp xếp dữ liệu của mình trong suốt quá trình phân tích. Cách dữ liệu của bạn được phân loại và cấu trúc sẽ ảnh hưởng đến những phát hiện của bạn, cho dù bạn đang làm việc trong bảng tính hay cơ sở dữ liệu. Và khi bạn biết cách tổ chức dữ liệu của mình, bạn sẽ có thể nắm bắt hoặc thu thập thông tin bạn cần. Hầu hết dữ liệu bạn sẽ sử dụng trong phân tích của mình sẽ được sắp xếp trong các bảng. Các bảng giúp bạn tổ chức các loại dữ liệu tương tự thành các danh mục và lĩnh vực chủ đề mà bạn có thể tập trung vào khi phân tích. Ví dụ: cơ sở dữ liệu cơ bản này có các bảng dành cho đại lý ô tô, chi tiết sản phẩm và bộ phận sửa chữa. Sau đó, mỗi bảng có một số trường dữ liệu, như chủ sở hữu chi nhánh và chi phí sửa chữa các bộ phận. Bạn có thể sử dụng các bảng và trường này để giúp bạn quyết định cách tiến hành phân tích của mình. Cấu trúc của cơ sở dữ liệu này có thể giúp bạn quyết định dữ liệu nào bạn cần lấy để đáp ứng các mục tiêu của mình. Ví dụ: tổng số lượng của một thương hiệu ô tô cụ thể đã bán hoặc một bộ phận sửa chữa cho một kiểu dáng và kiểu dáng ô tô cụ thể tại một chi nhánh nhất định. Các bảng cho phép bạn đưa ra quyết định về các kiểu dữ liệu. Chúng giúp bạn tìm ra những biến bạn cần và loại dữ liệu mà những biến đó nên có. Vì vậy, nếu bạn có cơ sở dữ liệu mà bạn cần chuyển đổi kiểu dữ liệu trong quá trình phân tích, bạn có thể thực hiện điều đó bằng cách sử dụng lệnh CAST trong SQL hoặc bất kỳ phương pháp nào khác mà bạn học được trong công việc hoặc từ nghiên cứu của riêng mình. Giống như ví dụ này, nơi chúng tôi đã chuyển đổi cột giá mua thành FLOAT thay vì CHUỖI để nó ở dạng số mà chúng tôi có thể sử dụng để tính toán.
  • 304. Nếu bạn đang thực hiện phân tích trong bảng tính, bạn muốn đảm bảo rằng các cột và hàng được sắp xếp hiệu quả. Bạn thậm chí có thể ẩn các cột mà bạn không cần phân tích hoặc hiển thị thông tin trùng lặp. Khi bạn đã sắp xếp và định dạng dữ liệu, bạn sẽ sẵn sàng sắp xếp và lọc dữ liệu đó để tìm dữ liệu mình cần. Chúng tôi sẽ sớm đề cập đến sắp xếp và lọc. Nhưng hiện tại, bạn chỉ cần biết rằng cả bộ lọc và sắp xếp đều bị ảnh hưởng bởi loại dữ liệu mà chúng ta đang làm việc. Điểm mấu chốt là điều quan trọng là phải có dữ liệu của bạn ở định dạng phù hợp. Vì vậy, hãy luôn chuẩn bị sẵn sàng để điều chỉnh, cho dù bạn có phân tích sâu đến đâu. Đó là tất cả cho bây giờ. Sắp tới, chúng tôi sẽ cho bạn biết tất cả những gì về bộ lọc. Tạm biệt! Tìm hiểu thêm về sắp xếp và lọc Này, rất vui được gặp lại bạn. Trước đó, chúng ta đã nói về lý do tại sao bạn nên sắp xếp dữ liệu của mình, bất kể dữ liệu đó nằm trong phần nào của vòng đời. Cũng giống như bất kỳ bộ sưu tập nào, việc quản lý và chăm sóc một nhóm đối tượng sẽ dễ dàng hơn khi có cấu trúc xung quanh chúng. Bây giờ chúng ta nên ghi nhớ rằng tổ chức không chỉ là sắp xếp mọi thứ có trật tự. Nó cũng giúp bạn dễ dàng tìm kiếm và định vị dữ liệu bạn cần một cách nhanh chóng và dễ dàng. Là một nhà phân tích dữ liệu, bạn sẽ thấy mình phải sắp xếp lại và sàng lọc cơ sở dữ liệu khá thường xuyên. Hai trong số những cách phổ biến nhất để thực hiện việc này là sắp xếp và lọc. Chúng ta đã thảo luận ngắn gọn về sắp xếp và lọc trước đây và điều quan trọng là bạn biết chính xác chức năng của từng loại. Sorting is When you arrange data into a meaningful order to make it easier to understand, analyze, and visualize (Sắp xếp là quá trình sắp xếp dữ liệu thành một ký tự có ý nghĩa để dễ hiểu, phân tích và hình dung hơn).
  • 305. Sắp xếp xếp hạng dữ liệu của bạn dựa trên một số liệu cụ thể mà bạn có thể chọn. Bạn có thể sắp xếp dữ liệu trong bảng tính và cơ sở dữ liệu sử dụng SQL. Chúng tôi sẽ đề cập đến tất cả các chức năng thú vị mà bạn có thể sử dụng trong cả hai phần sau. Cách phổ biến để sắp xếp các mặt hàng khi bạn mua sắm trên trang web là sắp xếp theo giá từ thấp nhất đến cao nhất, nhưng bạn cũng có thể sắp xếp theo thứ tự bảng chữ cái, chẳng hạn như sách trong thư viện. Hoặc bạn có thể sắp xếp từ mới nhất đến cũ nhất, giống như thứ tự tin nhắn văn bản trong điện thoại. Hoặc gần nhất đến xa nhất, chẳng hạn như khi bạn đang tìm kiếm nhà hàng trực tuyến. Một cách khác để tổ chức thông tin là sử dụng bộ lọc. Filtering is Showing only the data that meets a specific criteria while hiding the rest ( Lọc là Chỉ hiển thị dữ liệu đáp ứng một tiêu chí cụ thể trong khi ẩn phần còn lại).Thông thường, bạn có thể sử dụng bộ lọc khi muốn thu hẹp lượng dữ liệu muốn sàng lọc. Giả sử bạn đang tìm kiếm giày thể thao màu xanh lục trên mạng. Để tiết kiệm thời gian, bạn chỉ lọc giày màu xanh lá cây. Sử dụng bộ lọc làm giảm các tập dữ liệu lớn hơn thành các tập hợp con nhỏ hơn có liên quan đến những gì bạn cần. Sắp xếp và lọc là hai thao tác mà bạn có thể thực hiện rất nhiều trên mạng. Cho dù bạn đang sắp xếp lịch chiếu phim từ sớm nhất đến mới nhất hay chỉ lọc kết quả tìm kiếm của mình thành hình ảnh, thì có lẽ bạn đã quen thuộc với mức độ hữu ích của chúng đối với việc hiểu dữ liệu. Bây giờ chúng ta hãy lấy kiến thức đó và áp dụng nó. Khi nói đến việc sàng lọc các đống dữ liệu lớn, lộn xộn, các bộ lọc chính là người bạn đồng hành của bạn. Bạn có thể nhớ từ video trước rằng bạn có thể sử dụng các bộ lọc và chương trình bảng tính, như Excel và Trang tính, để chỉ hiển thị dữ liệu từ các hàng khớp với phạm vi hoặc điều kiện mà bạn đã đặt. Bạn cũng có thể lọc dữ liệu trong SQL bằng mệnh đề WHERE. Mệnh đề WHERE hoạt động tương tự như lọc trong bảng tính vì nó trả về các hàng dựa trên điều kiện bạn đặt tên. Hãy tìm hiểu cách bạn có thể sử dụng mệnh đề WHERE trong cơ sở dữ liệu. Chúng tôi sẽ sử dụng BigQuery để truy cập cơ sở dữ liệu và chạy truy vấn của mình. Nếu bạn đang tham gia cùng chúng tôi, hãy mở công cụ bạn chọn để sử dụng SQL và tham khảo tài nguyên trước đó về cách truy cập tập dữ liệu. Nếu không, hãy xem mệnh đề WHERE thực hiện công việc của nó. Đây là cơ sở dữ liệu. Bạn có thể nhận ra nó từ các video trước đây. Về cơ bản, đó là một danh sách dài các bộ phim. Mỗi hàng bao gồm một mục nhập cho các cột có tên Movie_Title, Release_Date, Genre, Director, Cast_Members, Budget và Total_Revenue. Nó cũng bao gồm một liên kết đến trang Wikipedia của bộ phim. Nếu bạn cuộn xuống danh sách, danh sách sẽ tiếp tục trong một thời gian dài. Tất nhiên, chúng tôi sẽ không cần phải xem qua mọi thứ để tìm dữ liệu mà chúng tôi muốn. Đó là vẻ đẹp của một bộ lọc!
  • 306. Trong trường hợp này, chúng ta sẽ sử dụng mệnh đề WHERE để lọc cơ sở dữ liệu và thu hẹp danh sách xuống các phim thuộc thể loại hài. Để bắt đầu, chúng ta sẽ sử dụng lệnh SELECT theo sau là dấu hoa thị. Trong SQL, dấu hoa thị chọn tất cả dữ liệu. Trên một dòng mới, chúng tôi sẽ nhập TỪ và tên của cơ sở dữ liệu: movie_data.movies. Để lọc phim theo thể loại hài, chúng ta sẽ nhập WHERE, sau đó liệt kê điều kiện là Genre(Thể loại). Thể loại là một cột trong tập dữ liệu và chúng tôi chỉ muốn chọn các hàng có ô trong cột Thể loại khớp chính xác với "Comedy". Tiếp theo, chúng tôi sẽ nhập dấu bằng và viết thể loại cụ thể mà chúng tôi đang lọc, đó là hài kịch. Vì dữ liệu trong cột Thể loại là dạng chuỗi nên khi viết chúng ta phải sử dụng dấu nháy đơn hoặc nháy kép. Và hãy nhớ rằng vấn đề viết hoa ở đây, vì vậy chúng ta phải đảm bảo rằng cách viết hoa đầu dòng khớp chính xác với tên cột. Và bây giờ chúng ta có thể nhấp vào Run để kiểm tra kết quả. Những gì chúng ta còn lại là một danh sách phim hài ngắn hơn. Thật tuyệt vời, phải không? Đây là một cái gì đó khác bạn nên biết. Bạn có thể áp dụng nhiều bộ lọc cho cơ sở dữ liệu. Bạn thậm chí có thể sắp xếp và lọc dữ liệu cùng lúc để có kết quả chính xác hơn nữa. Là một nhà phân tích dữ liệu, biết cách sắp xếp và lọc dữ liệu sẽ giúp bạn trở thành một siêu sao. Đó là tất cả cho bây giờ. Sắp tới, chúng ta sẽ đi sâu vào chi tiết cơ bản của các chức năng sắp xếp trong bảng tính. Hẹn gặp bạn ở đó!
  • 307. Chương 4: Sắp xếp dữ liệu trong bảng tính Sắp xếp tập dữ liệu Xin chào, chuyên gia dữ liệu! Rất vui được gặp lại bạn và sẵn sàng khám phá thêm khía cạnh tổ chức của phân tích dữ liệu. Trong video này, chúng ta sẽ tìm hiểu cách sắp xếp dữ liệu trong bảng tính. Chúng tôi đã thực hiện một số sắp xếp trong bảng tính trước đó trong chương trình. Bây giờ là lúc xây dựng dựa trên những gì chúng ta đã đề cập và giới thiệu một số kỹ thuật sắp xếp nâng cao hơn. Sắp xếp rất tuyệt vời. Nó không chỉ thêm trật tự và ý nghĩa cho bảng tính của bạn, nó còn cung cấp cho bạn sức mạnh để hình dung lại toàn bộ dữ liệu. Khi bạn sắp xếp dữ liệu dựa trên một số liệu cụ thể, bạn có thể khám phá các mẫu và mối quan hệ mới trong bộ dữ liệu mà bạn có thể không nhận thấy. Điều này đặc biệt đúng đối với bảng tính mà bạn sẽ sử dụng rất nhiều trong công việc của mình với tư cách là nhà phân tích dữ liệu. Biết cách sắp xếp dữ liệu trong bảng tính có thể giúp bạn trở thành một nhà phân tích mạnh mẽ và tự tin hơn. Theo nhiều cách, việc sắp xếp dựa vào khả năng sáng tạo của bạn để hình dung lại thông tin bạn có trước mặt. Trong bảng tính, bạn có thể sắp xếp dữ liệu theo thứ tự tăng dần hoặc giảm dần bằng cách sử dụng số hoặc chữ cái. Nếu các ô được gắn nhãn màu, bạn cũng có thể sắp xếp chúng theo màu. Khi sắp xếp dữ liệu trong bảng tính, bạn có thể chọn "Sắp xếp trang tính" hoặc "Phạm vi sắp xếp". Nếu áp dụng "Sort sheet", tất cả dữ liệu trong bảng tính được sắp xếp theo các điều kiện của một cột, nhưng thông tin liên quan trên mỗi hàng vẫn ở cùng nhau. Mặt khác, "Sort range" không giữ thông tin giữa các hàng với nhau. Khi bạn sắp xếp một phạm vi, bạn đang chọn một tập hợp ô cụ thể hoặc phạm vi mà bạn muốn giới hạn sắp xếp. Không có gì khác trên bảng tính được sắp xếp lại ngoại trừ các ô được chỉ định. Có hai phương pháp để sắp xếp dữ liệu bảng tính: một là sử dụng menu; cách khác liên quan đến việc viết ra chức năng sắp xếp. Hiện tại, chúng tôi sẽ tập trung vào việc sắp xếp bằng menu. Chúng ta sẽ viết ra các chức năng sau này. Bây giờ, tùy thuộc vào chương trình bạn sử dụng, quy trình có thể hơi khác một chút, nhưng các hướng dẫn và khái niệm mà chúng ta thảo luận về cơ bản sẽ giống nhau. Quay lại sắp xếp với menu dữ liệu. Để cung cấp cho bạn ý tưởng về cách thực hiện, chúng tôi sẽ sử dụng bảng tính phim. Hãy cùng kiểm tra nào. Trong ví dụ này, chúng tôi sẽ sắp xếp phim theo ngày phát hành. Chúng ta sẽ chuyển sang cột B, được liệt kê là "Ngày phát hành". Nhấp vào nút "B" để đánh dấu tất cả các ô trong cột. Từ đó, chúng ta sẽ chuyển đến tab Dữ liệu trong menu. Bây giờ bạn có hai lựa chọn: sắp xếp một trang tính hoặc một dải dữ liệu. Bạn sẽ nhận thấy rằng chúng tôi chỉ chọn ngày phát hành, nhưng những ngày phát hành này có liên quan cụ thể đến các phim trong hàng của chúng. Trong trường hợp này, bạn muốn ngày phát hành và tiêu đề phim ở cùng một hàng khi bạn sắp xếp vì chúng có liên quan với nhau. Để thực hiện
  • 308. việc này, bạn sẽ muốn "Sắp xếp trang tính". Điều này sẽ giữ tất cả dữ liệu cùng nhau theo hàng, bất kể bạn sắp xếp nó như thế nào. Tùy thuộc vào thứ tự bạn muốn có ngày phát hành, bạn có thể sắp xếp từ A đến Z, điều này cũng sẽ xếp hạng các ngày theo số. Hoặc bạn có thể sắp xếp từ Z đến A, cách này sẽ sắp xếp dữ liệu theo cách ngược lại. Vì chúng tôi muốn ngày phát hành theo thứ tự, chúng tôi sẽ nhấp vào "Sắp xếp trang tính theo cột B" từ A đến Z. Và thế là xong. Bạn vừa sắp xếp một bảng dữ liệu bằng menu. Bây giờ các bộ phim được sắp xếp theo thứ tự thời gian dựa trên ngày phát hành. Giả sử bạn muốn sắp xếp dữ liệu trong một cột cụ thể, nhưng không cần các ô trong cột đó được liên kết với một hàng thông tin cụ thể. Thay vào đó, bạn muốn tách riêng dữ liệu của cột và tự sắp xếp nó mà không ảnh hưởng đến cách sắp xếp phần còn lại của trang tính. Để giải trí, chúng tôi sẽ sử dụng cột Tiêu đề phim trong ví dụ này. Trước tiên, chúng tôi sẽ chọn cột mà chúng tôi muốn sắp xếp: cột A. Nhấp vào cột A tô sáng tất cả các ô trong cột chứa tiêu đề phim. Sau đó, chúng tôi sẽ chuyển đến trình đơn và nhấp vào Dữ liệu vì chúng tôi đang tách riêng cột khỏi phần còn lại của trang tính. Khi chúng tôi sắp xếp lần này, chúng tôi sẽ nhấp vào "Sắp xếp phạm vi theo cột A." Đối với ví dụ này, chúng tôi sẽ sắp xếp tên phim theo thứ tự bảng chữ cái từ A đến Z. Vậy là xong! Bạn sẽ nhận thấy rằng "Phạm vi sắp xếp" không giữ các hàng lại với nhau nên dữ liệu hơi lộn xộn. Có thể bạn sẽ sử dụng "Bảng phân loại" thường xuyên hơn, nhưng điều quan trọng là phải hiểu cả hai để bạn không vô tình nhầm lẫn chúng. Bạn vừa sắp xếp dữ liệu trong bảng tính bằng menu và bạn đã học cách sắp xếp dữ liệu theo toàn bộ trang tính hoặc theo một dải ô. Đó là thứ bạn sẽ có thể mang theo bên mình mọi lúc mọi nơi với tư cách là nhà phân tích dữ liệu. Tiếp theo, chúng ta sẽ tìm hiểu về cách sắp xếp thứ hai trong bảng tính: bằng cách viết ra một hàm. Chúng tôi cũng sẽ đưa việc sắp xếp lên cấp độ tiếp theo bằng cách sắp xếp tùy chỉnh dữ liệu của bạn. Hẹn gặp bạn ở đó! Hàm SẮP XẾP Rất vui khi có bạn trở lại. Trước đó trong chương trình, chúng ta đã đề cập đến một số khái niệm cơ bản về sắp xếp trong bảng tính. Chúng tôi đã tìm hiểu sự khác biệt giữa sắp xếp một phạm vi và toàn bộ trang tính cũng như cách sắp xếp bảng tính bằng menu. Bây giờ chúng ta đã đặt nền móng, đã đến lúc chuyển sang các cách sắp xếp thông tin nâng cao hơn. Chúng ta đã nói về cách có hai phương pháp sắp xếp dữ liệu trong bảng tính. Phương pháp đầu tiên sử dụng tab Dữ liệu trong menu của chương trình bảng tính của bạn. Cách thứ hai để lưu trữ thông tin trong bảng tính là viết hàm SORT. Trong bảng tính, các hàm là các lệnh đặt trước thực hiện một quy trình cụ thể. Vì vậy, trong trường hợp này, hàm SORT, như bạn có thể đoán, sẽ sắp xếp dữ liệu của bạn. Hãy xem bảng tính kế hoạch tổ chức tiệc này để chứng kiến chức năng SORT hoạt động.
  • 309. Bộ dữ liệu được sắp xếp đầu tiên là bộ dữ liệu ban đầu của chúng tôi về khách và một số thông tin về họ. Vì vậy, giả sử bạn muốn sắp xếp khách dự tiệc theo bàn để biết ai sẽ ngồi ở đâu. Để làm điều đó, hãy bắt đầu bằng cách nhập một hàm vào một ô trống. Cũng giống như bất kỳ chức năng nào, bạn thực hiện việc này bằng cách nhập dấu bằng, rồi viết SORT sau dấu bằng. Sau dấu ngoặc đơn mở đầu tiên của bạn, hãy tham chiếu ô đầu tiên mà dữ liệu được thu thập từ đó. Trong trường hợp này, đó là A2. Sau đó, bạn sẽ thêm dấu hai chấm và viết ô cuối cùng mà bạn muốn đưa vào hàm, đó là D6. A2 dấu hai chấm D6 là phạm vi cho chức năng này. Tiếp theo, hãy viết dấu phẩy để phân tách phạm vi khỏi những gì chúng tôi sắp xếp theo, đó là cột B. Bạn nên nhớ rằng phần này của hàm không nhận dạng các chữ cái trong cột. Vì vậy, trong trường hợp này, chúng tôi sử dụng số tương ứng thay vào đó là 2, vì cột B là cột thứ hai trong phạm vi của chúng tôi. Bây giờ thêm một dấu phẩy. Trong phần tiếp theo này, bạn sẽ cần quyết định xem bạn muốn dữ liệu trong cột này theo thứ tự tăng dần hay giảm dần. Một tuyên bố TRUE theo thứ tự tăng dần và FALSE giảm dần. Bởi vì chúng tôi muốn các bảng được liệt kê bắt đầu từ bảng số một, chúng tôi sẽ viết TRUE cho tăng dần, sau đó kết thúc hàm bằng dấu ngoặc đơn đóng. Bây giờ, hãy xem chức năng của chúng tôi diễn ra. Khách dự tiệc của chúng tôi hiện được sắp xếp theo bàn mà họ đang ngồi. Sau khi bạn có ý tưởng về dữ liệu bạn muốn được sắp xếp và cách sắp xếp, việc áp dụng các hàm cho dữ liệu của bạn rất đơn giản. Bây giờ, bạn có hai công cụ khác nhau trong dây đai công cụ để sắp xếp dữ liệu. Sau khi bạn đã giải quyết xong việc viết các hàm SẮP XẾP, bạn cũng sẽ muốn tùy chỉnh các thứ tự sắp xếp. Customized sort order is When you sort data in a spreadsheet using multiple conditions (Thứ tự sắp xếp tùy chỉnh là khi bạn sắp xếp dữ liệu trong bảng tính bằng nhiều điều kiện). Điều này có nghĩa là việc sắp xếp sẽ dựa trên thứ tự của các điều kiện mà bạn chọn. Hãy quay trở lại bảng tính bữa tiệc của chúng ta. Hãy tưởng tượng bạn muốn khách mời được sắp xếp theo việc họ có được gửi lời mời hay không. Và dựa vào đó, chúng tôi muốn những tên khách đó được liệt kê theo thứ tự bảng chữ cái. Bạn có thể làm điều đó một cách dễ dàng với tùy chọn "Phạm vi sắp xếp" trong Dữ liệu. Đầu tiên, đánh dấu tất cả dữ liệu trong tập hợp từ ô A1 đến D6. Sau đó, trong tab Dữ liệu trong menu, nhấp vào "Phạm vi sắp xếp". Trong trường hợp này, hãy kiểm tra "Dữ liệu có hàng tiêu đề", điều này đảm bảo rằng tiêu đề của cột không bị trộn lẫn khi sắp xếp. Sau đó, chúng tôi sẽ đảm bảo rằng nó được sắp xếp theo "Đã gửi lời mời". Ở đây, chúng tôi muốn câu trả lời "Không" trước và câu trả lời "Có" thứ hai, vì vậy chúng tôi sẽ đảm bảo nhấp vào A đến Z để sắp xếp các câu trả lời theo thứ tự đó. Bởi vì chúng tôi muốn thêm một điều kiện sắp xếp bổ sung, bây giờ chúng tôi sẽ nhấp vào "Thêm cột sắp xếp khác". Tên khách phải theo thứ tự bảng chữ cái. Vì vậy, hãy chọn "Tên khách" và sắp xếp từ A đến Z. Sau đó, chúng tôi sẽ nhấp
  • 310. vào Sắp xếp. Và Voila! Bạn đã chính thức áp dụng thứ tự sắp xếp tùy chỉnh như một nhà vô địch. Được rồi, vậy là bạn đã xử lý việc sắp xếp trong bảng tính theo trang tính, theo phạm vi, thông qua menu và bằng cách sử dụng một hàm. Trên hết, bạn đã bổ sung thêm kỹ năng tổ chức của mình bằng cách học cách tạo các thứ tự sắp xếp tùy chỉnh. Bạn sẽ sớm học được một công cụ mạnh mẽ khác: cách sắp xếp dữ liệu bằng SQL. Mặc dù cơ sở dữ liệu đôi khi có thể rất khó hiểu, nhưng việc học những kỹ năng này sẽ mang lại cho bạn sức mạnh để sắp xếp lại dữ liệu theo cách phù hợp với bạn. Khi bạn đã sắp xếp dữ liệu theo cách thực sự ấn tượng, bạn sẽ hiểu tại sao nó lại có giá trị như vậy đối với bạn với tư cách là một nhà phân tích dữ liệu. Tạm biệt nhé! Emma: Hành trình đến với sự nghiệp ý nghĩa Tôi là Emma và tôi là nhà phân tích sản phẩm trên Google Health. Sản phẩm mà tôi đang giúp phân tích dữ liệu là một công cụ dành cho các bác sĩ lâm sàng và điều mà điều này sẽ cho phép các bác sĩ lâm sàng làm là tìm dữ liệu sức khỏe của bệnh nhân của họ một cách dễ dàng như bạn có thể tìm thấy dữ liệu trên Google Tìm kiếm. Điều tôi đặc biệt tập trung vào là chuẩn hóa dữ liệu chăm sóc sức khỏe, phân tích dữ liệu đó để tìm ra điểm bất thường hoặc các vấn đề về chất lượng dữ liệu, đồng thời trao đổi với người quản lý sản phẩm về những tính năng nào chúng tôi nên khởi chạy và lý do. Tôi đã giải quyết các vấn đề từ việc giải quyết các sự cố đầu máy trong việc dự đoán chúng trước khi chúng xảy ra, đến việc dự báo doanh số bán túi xách trước khi túi xách được tung ra thị trường, đến giờ là làm việc với dữ liệu chăm sóc sức khỏe để cố gắng cho phép các bác sĩ lâm sàng dễ dàng có dữ liệu về bệnh nhân của họ tại phòng khám. trong tầm tay. Tôi thực sự thích làm việc trong lĩnh vực phân tích dữ liệu, nhưng tôi đang cố gắng tìm ra loại dữ liệu nào tôi muốn làm việc hoặc lĩnh vực nào trong phân tích dữ liệu mà tôi muốn tập trung vào vì có rất nhiều. Cuối cùng tôi đã bị thu hút bởi việc làm việc với dữ liệu chăm sóc sức khỏe. Tôi thực sự yêu thích tất cả các vấn đề mà chúng ta gặp phải ngày nay trong lĩnh vực chăm sóc sức khỏe và làm thế nào mà lượng dữ liệu khổng lồ có sẵn trong ngành chăm sóc sức khỏe này có thể được sử dụng tốt hơn để giúp đỡ bệnh nhân, giúp đỡ các bác sĩ lâm sàng, cải thiện sức khỏe dân số. Làm việc với các bộ dữ liệu có ý nghĩa là điều thực sự khiến tôi hào hứng đến làm việc mỗi ngày và hào hứng giải quyết những vấn đề này. Điều tôi nhận thấy trong sự nghiệp của mình là việc theo dõi các tập dữ liệu mà tôi quan tâm, các loại vấn đề mà tôi quan tâm, luôn mang lại kết quả tốt hơn bởi vì tôi có động lực đi làm nhiều hơn mỗi ngày để cố gắng hết sức để giải quyết những vấn đề này. vấn đề thú vị bởi vì nó chỉ là những gì tôi quan tâm. Điều đáng kinh ngạc là dữ liệu có ở khắp mọi nơi, có những vấn đề về dữ liệu ở mọi công ty trong mọi lĩnh vực và bạn thực sự chỉ cần làm theo những gì mình đam mê.
  • 311. Chương 5: Sắp xếp dữ liệu bằng SQL Sắp xếp truy vấn trong SQL Xin chào! Nếu bạn đang muốn tìm hiểu về sắp xếp—trong SQL lần này—thì chắc chắn bạn đã đến đúng nơi. Cho đến nay, chúng tôi đã sắp xếp các bảng tính thông qua menu và với một chức năng được viết. Điều này đưa chúng ta đến phần tiếp theo của bài học: nhiều hàm sắp xếp hơn, nhưng lần này là trong SQL. Các nhà phân tích dữ liệu thích chơi với cách trình bày dữ liệu. Sắp xếp là một cách hữu ích để sắp xếp lại dữ liệu vì nó có thể giúp bạn hiểu dữ liệu bạn có theo một cách khác. Như bạn có thể đã nhận thấy, rất nhiều thứ bạn có thể làm trong bảng tính cũng có thể được thực hiện trong SQL. Sắp xếp là một trong những điều đó. Trước đây chúng ta đã nói về việc sử dụng SQL với các bộ dữ liệu lớn. Khi một bảng tính có quá nhiều dữ liệu, bạn có thể nhận được thông báo lỗi hoặc có thể khiến chương trình của bạn gặp sự cố. Đó chắc chắn là điều chúng tôi muốn tránh. SQL rút ngắn các quy trình mà nếu không sẽ mất rất nhiều thời gian hoặc không thể hoàn thành trong bảng tính. Cá nhân tôi sử dụng SQL để kéo và kết hợp các bảng dữ liệu khác nhau. Nó nhanh hơn nhiều so với bảng tính và điều đó thường có ích. Đây là một số điều khá hữu ích mà bạn có thể thực hiện với SQL. Bạn có thể sử dụng mệnh đề ORDER BY để sắp xếp kết quả trả về trong một truy vấn. Hãy quay lại bảng tính phim của chúng ta để hiểu rõ hơn về cách thức hoạt động của nó. Vui lòng theo dõi công cụ SQL mà bạn chọn khi chúng tôi tiếp tục. Để cập nhật nhanh, chúng tôi có một cơ sở dữ liệu gồm các phim được liệt kê với các dữ liệu như ngày phát hành, đạo diễn, v.v. Chúng ta có thể sắp xếp bảng này theo nhiều cách khác nhau bằng hàm ORDER BY. Đối với ví dụ này, hãy sắp xếp theo ngày phát hành. Đầu tiên, chúng ta có hàm SELECT và dấu hoa thị. Hãy nhớ rằng dấu hoa thị có nghĩa là tất cả các cột được chọn. Sau đó, chúng tôi có TỪ và tên của cơ sở dữ liệu và bảng mà chúng tôi đang ở ngay bây giờ. Bây giờ chúng ta hãy kiểm tra dòng tiếp theo. Nó trống, nhưng đó là nơi chúng ta sẽ viết hàm ORDER BY. Lệnh ORDER BY thường là mệnh đề cuối cùng trong truy vấn của bạn. Quay lại phân loại thực tế! Chúng tôi sẽ nhập ORDER BY với khoảng trắng. Với mệnh đề này, bạn có thể chọn sắp xếp dữ liệu theo các trường trong một cột nhất định. Vì chúng tôi muốn sắp xếp theo ngày phát hành, nên chúng tôi sẽ nhập Release_Date.
  • 312. Theo mặc định, mệnh đề ORDER BY sắp xếp dữ liệu theo thứ tự tăng dần. Nếu bạn chạy truy vấn như hiện tại, phim sẽ được sắp xếp từ ngày phát hành cũ nhất đến ngày phát hành gần đây nhất. Hãy chạy truy vấn và xem những gì chúng tôi đã có. Bạn cũng có thể sắp xếp ngày phát hành theo thứ tự ngược lại từ ngày gần đây nhất đến ngày cũ nhất. Để làm điều này, chỉ cần xác định thứ tự giảm dần trong lệnh ORDER BY được viết là DESC, D-E-S-C. Hãy chạy truy vấn này. Như bạn sẽ nhận thấy, những bộ phim được phát hành gần đây nhất hiện đang ở trên cùng của cơ sở dữ liệu. Trong bảng tính, bạn có thể kết hợp các loại và bộ lọc để hiển thị thông tin theo cách khác. Bạn cũng có thể làm điều gì đó tương tự trong SQL.
  • 313. Bạn có thể nhớ rằng trong khi sắp xếp đặt dữ liệu theo một thứ tự cụ thể, bộ lọc sẽ thu hẹp dữ liệu để bạn chỉ thấy dữ liệu phù hợp với bộ lọc. Ví dụ: giả sử chúng tôi muốn lọc phim theo thể loại để chúng tôi chỉ làm việc với phim hài. Nhưng chúng tôi vẫn muốn ngày phát hành được sắp xếp theo thứ tự giảm dần, từ phim gần đây nhất đến phim cũ nhất. Chúng ta có thể làm điều này với mệnh đề WHERE. Hãy thử điều đó ngay bây giờ. Đầu tiên, chúng ta sẽ kiểm tra xem mệnh đề ORDER BY luôn ở dòng cuối cùng. Điều đó đảm bảo rằng tất cả kết quả của truy vấn bạn đang chạy được sắp xếp theo mệnh đề đó. Sau đó, chúng ta sẽ thêm một dòng mới cho mệnh đề WHERE sau FROM và trước ORDER BY. Đây là những gì chúng tôi đã có cho đến nay. Từ đó, chúng tôi muốn nhập cột mà chúng tôi đang lọc. Trong trường hợp này, chúng tôi muốn lọc cơ sở dữ liệu cho các Comedy. Sau mệnh đề WHERE, chúng tôi sẽ nhập tên của danh sách cột là Genre. Bây giờ, chúng tôi sẽ thêm dấu bằng sau. Thể loại vì chúng tôi chỉ muốn bao gồm các thể loại phù hợp với những gì chúng tôi đang lọc. Trong trường hợp này, chúng tôi đang lọc hài kịch, vì vậy chúng tôi sẽ nhập Hài kịch giữa hai dấu nháy đơn. Bây giờ, nếu bạn kiểm tra toàn bộ truy vấn, bạn sẽ nhận thấy rằng chúng tôi đang chọn tất cả các cột và chúng tôi biết đó là tất cả các cột vì đó là ý nghĩa của dấu sao. Mệnh đề FROM chỉ định tên của cơ sở dữ liệu phim chúng tôi đang sử dụng và mệnh đề WHERE lọc dữ liệu để bao gồm các mục có thể loại được chỉ định là hài kịch. Sau đó, ở dòng cuối cùng, chúng ta có mệnh đề ORDER BY, mệnh đề này sẽ sắp xếp dữ liệu mà chúng ta đã chọn để lọc theo ngày phát hành theo thứ tự giảm dần. Điều này có nghĩa là khi chúng tôi chạy truy vấn, chúng tôi sẽ chỉ có các bộ phim hài được liệt kê từ bản phát hành mới nhất đến bản phát hành cũ nhất. Hãy chạy nó và tìm hiểu xem đó có phải là trường hợp không. Cool. Hãy xem tất cả những bộ phim hài đó và cách sắp xếp những ngày đó.
  • 314. Đây là những gì chúng tôi đã có cho đến nay. Từ đó, chúng tôi muốn nhập cột mà chúng tôi đang lọc. Trong trường hợp này, chúng tôi muốn lọc cơ sở dữ liệu cho các bộ phim hài. Sau mệnh đề WHERE, chúng tôi sẽ nhập tên của danh sách cột là Thể loại. Bây giờ, chúng tôi sẽ thêm dấu bằng sau Thể loại vì chúng tôi chỉ muốn bao gồm các thể loại phù hợp với những gì chúng tôi đang lọc. Trong trường hợp này, chúng tôi đang lọc hài kịch, vì vậy chúng tôi sẽ nhập Hài kịch giữa hai dấu nháy đơn. Bây giờ, nếu bạn kiểm tra toàn bộ truy vấn, bạn sẽ nhận thấy rằng chúng tôi đang chọn tất cả các cột và chúng tôi biết đó là tất cả các cột vì đó là ý nghĩa của dấu hoa thị. Mệnh đề FROM chỉ định tên của cơ sở dữ liệu phim chúng tôi đang sử dụng và mệnh đề WHERE lọc dữ liệu để bao gồm các mục có thể loại được chỉ định là hài kịch. Sau đó, ở dòng cuối cùng, chúng ta có mệnh đề ORDER BY, mệnh đề này sẽ sắp xếp dữ liệu mà chúng ta đã chọn để lọc theo ngày phát hành theo thứ tự giảm dần. Điều này có nghĩa là khi chúng tôi chạy truy vấn, chúng tôi sẽ chỉ có các bộ phim hài được liệt kê từ bản phát hành mới nhất đến bản phát hành cũ nhất. Hãy chạy nó và tìm hiểu xem đó có phải là trường hợp không. Mát mẻ. Hãy xem tất cả những bộ phim hài đó và cách sắp xếp những ngày đó. Bây giờ, hãy thực hiện truy vấn này thêm một bước nữa. Chúng tôi sẽ lọc hai điều kiện cùng một lúc bằng cách sử dụng bộ lọc AND. Làm việc với truy vấn mà chúng ta đang sử dụng, chúng ta sẽ thêm điều kiện thứ hai vào mệnh đề WHERE. Chúng tôi sẽ giữ nguyên cách sắp xếp. Giả sử bạn muốn lọc theo phim hài và phim kiếm được hơn 300 triệu đô la tại phòng vé. Trong trường hợp này, sau hàm AND, bạn sẽ thêm điều kiện doanh thu bằng cách nhập Doanh thu. Từ đó, bạn sẽ xác định rằng bạn chỉ muốn trả lại những bộ phim có doanh thu trên 300 triệu USD. Để làm điều đó, hãy nhập dấu lớn hơn và sau đó nhập số đầy đủ 300 triệu không có dấu phẩy. Bây giờ hãy chạy truy vấn. Ở đây, dữ liệu chỉ hiển thị các phim hài có doanh thu trên 300 triệu USD và được sắp xếp theo thứ tự giảm dần theo ngày phát hành. Nó trông thực sự tốt. Bạn vừa lọc và sắp xếp cơ sở dữ liệu giống như đó là công việc của bạn. Và với thực hành, một ngày nó có thể được. Cứ như vậy, bạn đã hoàn thành một bước nữa trong hành trình phân tích dữ liệu của mình. Đến bây giờ, bạn đã thực sự đào sâu và tìm hiểu về quy trình phân tích với sự nhấn mạnh đặc biệt về cách tổ chức có thể thay đổi cách bạn xem xét dữ liệu của mình. Bạn cũng đã học về cả bảng tính và SQL cũng như cách sắp xếp và lọc dữ liệu trong cả hai loại chương trình. Để giúp bạn cảm thấy thoải mái hơn khi sử dụng các tính năng bảng tính và SQL, bạn sẽ nhận được một số tài liệu mà bạn có thể sử dụng làm tài nguyên. Sắp tới, chúng ta sẽ xem tư duy tổ chức có thể nâng cao kỹ năng phân tích của bạn hơn nữa như thế nào. Chúng tôi cũng sẽ đề cập đến việc chuyển đổi, định dạng và điều chỉnh dữ liệu để kết hợp thông tin theo cách hợp lý. Học những kỹ năng đó từ sớm có thể giúp công việc của bạn với tư cách là nhà phân tích dữ liệu hiệu quả và hiệu quả hơn trong thời gian dài. Hẹn sớm gặp lại.
  • 315. Tuần 2: Định dạng và điều chỉnh dữ liệu Khi bạn tiến gần hơn đến việc phân tích dữ liệu của mình, bạn sẽ muốn dữ liệu được định dạng và sẵn sàng hoạt động. Trong phần này của khóa học, bạn sẽ tìm hiểu tất cả về cách chuyển đổi và định dạng dữ liệu, bao gồm cách các truy vấn SQL có thể giúp bạn kết hợp dữ liệu. Bạn cũng sẽ tìm hiểu giá trị của phản hồi và hỗ trợ từ đồng nghiệp cũng như cách nó có thể dẫn đến việc học tập mới mà bạn có thể áp dụng vào công việc của mình. Mục tiêu học tập:  Thể hiện sự hiểu biết về những gì liên quan đến việc chuyển đổi và định dạng dữ liệu  Thể hiện sự hiểu biết về việc sử dụng bảng tính và truy vấn SQL để kết hợp nhiều phần dữ liệu  Thảo luận về tầm quan trọng của việc tìm kiếm phản hồi và hỗ trợ từ những người khác Chương 1: Chuyển đổi và định dạng dữ liệu Bắt đầu với định dạng dữ liệu Này, thật tuyệt khi có bạn trở lại! Bạn đã học được rất nhiều điều và bây giờ bạn đã sẵn sàng để bắt đầu phân tích dữ liệu. Sắp tới, chúng tôi sẽ đề cập đến một số điều cuối cùng bạn cần thực hiện cho phân tích của mình để đảm bảo dữ liệu của bạn được định dạng và điều chỉnh chính xác. Chúng tôi sẽ bắt đầu chuyển đổi và định dạng dữ liệu của bạn; sử dụng xác thực dữ liệu trong bảng tính; và định dạng có điều kiện. Bạn cũng sẽ học cách kết hợp nhiều phần dữ liệu. Và cuối cùng, chúng ta sẽ nói về cách nhận hỗ trợ trong quá trình phân tích của bạn và tìm tài nguyên bất cứ khi nào bạn gặp khó khăn. Những kỹ năng này sẽ giúp đảm bảo rằng quy trình phân tích dữ liệu của bạn diễn ra suôn sẻ nhất có thể. Và ngay cả khi không, bạn sẽ biết cách giải quyết mọi vấn đề có thể xảy ra. Một phần quan trọng của việc trở thành một nhà phân tích là khắc phục sự cố và giải quyết vấn đề. Bạn là một nhà phân tích giỏi nhờ khả năng đặt câu hỏi đúng, đó là lý do tại sao chúng ta sẽ dành thời gian tìm hiểu về các chiến lược giải quyết vấn đề mà bạn có thể sử dụng trong quá trình phân tích. Vì vậy, bất cứ khi nào bạn sẵn sàng bắt đầu tìm hiểu về định dạng dữ liệu và giải quyết vấn đề, hãy chuyển sang video tiếp theo và chúng ta sẽ bắt đầu. Từ loại này sang loại khác Này đó! Cho đến giờ, chúng ta đã học về cách truyền dữ liệu kiểu chữ với SQL như một cách chuyển đổi dữ liệu từ kiểu này sang kiểu khác trong cơ sở dữ liệu. Bây giờ tôi muốn xem một cách khác để định dạng kiểu dữ liệu trong bảng tính.
  • 316. Trong video này, chúng ta sẽ nói thêm về lý do tại sao việc đảm bảo dữ liệu của bạn được định dạng đúng lại quan trọng đến vậy và cách định dạng số cũng như chuyển đổi đơn vị đo lường trong bảng tính của bạn. Bắt đầu nào. Đôi khi, bạn cần chuyển đổi dữ liệu khi đang làm việc với bảng tính. Điều đó có thể có nghĩa là thay đổi số thành ngày, chuỗi, tỷ lệ phần trăm hoặc thậm chí là tiền tệ. Điều quan trọng là phải kiểm tra kỹ xem tất cả dữ liệu của bạn có ở định dạng phù hợp cho phân tích của bạn hay không. Đôi khi ngay cả sau khi làm sạch và xử lý dữ liệu, nó vẫn có thể không ở đúng định dạng bạn cần. Hãy nghĩ lại bảng với dữ liệu phim từ trước. Có rất nhiều loại dữ liệu khác nhau bao gồm các con số, chẳng hạn như ngày tháng, ngân sách và chuỗi văn bản, chẳng hạn như tên diễn viên. Đây là những giá trị riêng biệt nhưng không phải lúc nào bảng tính cũng tự động biết điều đó. Đây là một ví dụ. Giả sử bạn muốn sắp xếp phim trong bảng tính này theo thời gian gần đây nhất. Nếu bảng tính truyền chúng dưới dạng chuỗi thay vì ngày, thì bảng tính có thể sắp xếp chúng theo thứ tự bảng chữ cái. Bạn sẽ không thể sắp xếp chúng theo cách bạn muốn cho đến khi bạn thay đổi loại dữ liệu. Cũng có thể bộ dữ liệu của bạn chứa các đơn vị đo lường không nhất quán mà bạn cần phải chuyển đổi. Giống như nói, một bảng bao gồm cả đô la Mỹ và bảng Anh. Đó là lý do tại sao việc kiểm tra lại các loại dữ liệu đó là rất quan trọng để bạn không gặp phải bất kỳ sự cố nào trong quá trình phân tích thực tế. Hãy suy nghĩ về ngày diễn viên không chính xác trong bảng phim của chúng tôi. Nếu sếp của bạn cần danh sách 20 bộ phim gần đây nhất, nhưng bảng tính của bạn được sắp xếp theo thứ tự bảng chữ cái thay vì theo bộ phim gần đây nhất, thì bạn sẽ không đưa cho cô ấy danh sách phim mà cô ấy cần. Dữ liệu được định dạng không chính xác có thể dẫn đến những sai lầm tốn thời gian trong quá trình phân tích của bạn và cuối cùng có thể ảnh hưởng đến việc ra quyết định của các bên liên quan. Nhưng dành thời gian sớm để chuyển đổi và định dạng dữ liệu của bạn có thể giúp bạn tránh được điều đó. Và bây giờ bạn đã biết lý do tại sao bạn cần chuyển đổi các loại dữ liệu khi làm việc trong bảng tính, hãy cùng tìm hiểu cách thực hiện. Trước tiên, hãy để tôi chỉ cho bạn một menu thực sự hữu ích để chỉ định các loại dữ liệu trong bảng tính. Đây là bảng dữ liệu phim mà chúng tôi sử dụng trước đây, nhưng bây giờ các cột tiền không được nhập dưới dạng tiền tệ. Trên thanh công cụ ở đầu trang tính, bạn sẽ tìm thấy một menu có thể giúp bạn chuyển đổi những số này thành các loại dữ liệu cụ thể. Nó cung cấp cho bạn rất nhiều lựa chọn chỉ từ menu thả xuống, chẳng hạn như số, tiền tệ, ngày, tỷ lệ phần trăm.... Và nếu bạn nhấp để mở menu đầy đủ, thậm chí còn có nhiều tùy chọn hơn, bao gồm một tùy chọn cho định dạng số tùy chỉnh .
  • 317. Chúng tôi biết rằng chúng tôi muốn các cột này ở định dạng tiền tệ, vì vậy hãy làm điều đó. Tất cả những gì tôi phải làm là chọn cột này và sau đó nhấn phím tắt tiền tệ. Và bây giờ tất cả đã được gõ chính xác. Nhưng nó không dừng lại ở đó. Bạn có thể đi xa hơn nữa và chuyển đổi đơn vị đo lường mà bạn đang sử dụng. Đối với ví dụ này, hãy kiểm tra một bảng khác. Hãy tưởng tượng rằng bạn đang làm việc với một kênh thời tiết để thu thập dữ liệu về nhiệt độ hàng ngày. Bạn có một bảng với một số dữ liệu về các quan sát hàng ngày về nhiệt độ, tốc độ gió và lượng mưa ở khu vực này. Hiện tại, nhiệt độ tính bằng độ F, nhưng để phân tích, bạn cần nhiệt độ tính bằng độ C. Không vấn đề gì. Tất cả những gì bạn cần làm là sử dụng chức năng CONVERT để thay đổi đơn vị đo lường. Chúng tôi sẽ sử dụng cột trống này ở đây. Đây là nhiệt độ đầu tiên trong bảng. Chúng ta sẽ nhập hàm CONVERT vào cột mới để thay đổi nó thành độ C. Sau đó, chúng ta cần đặt ô nào chúng ta muốn chuyển đổi. =CONVERT(B2,”F”,”C”) Và cuối cùng, chúng ta sẽ chuyển đổi. Và thế là xong! Bây giờ ô này có đơn vị đo phù hợp cho phân tích của bạn. Bạn chỉ cần áp dụng nó cho phần còn lại của cột này. Giờ đây, tất cả dữ liệu nhiệt độ này đều tính bằng độ C và đơn vị đo lường của bạn nhất quán trên toàn bảng. Và đây là một mẹo khác. Khi thêm dữ liệu vào bảng bằng công thức, hãy quay lại và dán dữ liệu vào dưới dạng giá trị sau đó. Bằng cách đó, chúng bị khóa. Nếu không, ô sẽ ở dạng công thức và có thể gây nhầm lẫn khi bạn bắt đầu làm việc với dữ liệu. Vì vậy, hãy làm điều đó ngay bây giờ. Chúng tôi sẽ sao chép các giá trị và sau đó nhấp chuột phải vào một cột mới. Có một tùy chọn cho "Dán đặc biệt". Và có một tùy chọn để "Chỉ dán giá trị." Và bây giờ chúng ta có các giá trị tĩnh trong cột này. Đảm bảo dữ liệu của bạn ở định dạng phù hợp trước khi bắt đầu phân tích là rất quan trọng. Hãy làm điều này và phân tích của bạn sẽ trả về những loại câu trả lời mà bạn thực sự
  • 318. đang tìm kiếm. Và bây giờ bạn đã biết một số cách để nhập số và chuyển đổi đơn vị đo lường trong bảng tính. Bạn có thể yên tâm rằng dữ liệu của mình được định dạng đúng cách. Tiếp theo, chúng ta sẽ nói nhiều hơn về việc điều chỉnh dữ liệu của bạn để phân tích và xác thực dữ liệu. Hẹn sớm gặp lại. Xác nhận dữ liệu Chào mừng trở lại! Trong khi chúng ta đang tìm hiểu về định dạng dữ liệu, tôi muốn nói với bạn về một tính năng khác của bảng tính: xác thực dữ liệu. Trong video này, tôi sẽ hướng dẫn bạn một chút về xác thực dữ liệu và chỉ cho bạn cách sử dụng nó. Hiện tại, khi tôi nói xác thực dữ liệu, tôi đang nói về chức năng, nó khác với quy trình xác thực dữ liệu. Chúng ta sẽ đi sâu vào vấn đề đó sau. Nhưng trước tiên, hãy nói về chức năng xác thực dữ liệu trong bảng tính. Về cơ bản, nó cho phép bạn kiểm soát những gì có thể và không thể nhập trong trang tính của mình. Thông thường, xác thực dữ liệu được sử dụng để thêm danh sách thả xuống vào các ô với các tùy chọn được xác định trước để người dùng lựa chọn. Nếu bạn có một bảng tính với nhiều cộng tác viên, điều này có thể giúp họ tương tác với bảng của bạn dễ dàng hơn. Bạn có thể coi nó giống như một câu hỏi trắc nghiệm trong một bài kiểm tra. Vì bạn kiểm soát những gì được nhập vào trang tính, nó sẽ giảm bớt lượng dữ liệu bạn phải làm sau này. Hãy tìm hiểu làm thế nào chúng ta có thể làm điều đó. Trong ví dụ này, chúng ta sẽ làm việc trên một dự án có nhiều cột mốc và thời hạn để theo dõi. Giả sử nhóm của chúng tôi có một bảng tính theo dõi tiến trình của mọi người. Nhưng thay vì yêu cầu mọi người viết riêng vị trí của họ trong nhiệm vụ của họ, chúng tôi có thể cung cấp menu thả xuống với nhiều tùy chọn, chẳng hạn như "Chưa bắt đầu", "Đang tiến hành" và "Sẵn sàng". Vì vậy, chúng tôi sẽ chọn cột mà chúng tôi muốn thêm menu thả xuống, trong trường hợp này là cột "Trạng thái". Sau đó, chúng tôi sẽ chuyển đến trình đơn Dữ liệu kéo xuống ở trên cùng ở đây và nhấp vào "Xác thực dữ liệu". Thao tác này sẽ hiển thị menu bật lên với các tùy chọn để xác thực dữ liệu. Trong trường hợp này, chúng tôi biết rằng chúng tôi muốn thêm danh sách các mục để người dùng khác lựa chọn. Vì vậy, chúng tôi sẽ chọn tùy chọn "danh sách các mục" từ các tiêu chí có thể và nhập các lựa chọn mà chúng tôi muốn tạo. Sau đó nhấn Lưu và bây giờ tất cả các ô đó đều có menu thả xuống mà chúng ta có thể sử dụng để dễ dàng đánh dấu tiến trình cho từng tác vụ. Nhưng cũng có những thứ khác mà bạn có thể thực hiện với xác thực dữ liệu và bảng tính, chẳng hạn như tạo các hộp kiểm tùy chỉnh. Để thực hiện việc này, hãy chọn các ô bên dưới cột "Đánh giá" để tạo hộp kiểm cho chúng tôi biết liệu các nhiệm vụ đã được phê duyệt hay chưa. Chúng tôi sẽ quay lại menu xác thực dữ liệu. Nhưng thay vì chọn "Danh sách từ một phạm vi", chúng tôi sẽ chọn "Hộp kiểm". Có một tùy chọn để sử dụng các giá trị ô tùy chỉnh. Hãy chọn cái đó và nhập "Đã phê duyệt" và "Không được phê duyệt."
  • 319. Giờ đây, những nhiệm vụ này có thể được đánh dấu bởi bất kỳ ai đang xem xét chúng, chẳng hạn như người quản lý dự án. Một cách khác mà chúng ta có thể sử dụng xác thực dữ liệu là bảo vệ dữ liệu có cấu trúc và công thức. Càng nhiều người làm việc cùng nhau trong một bảng tính thì càng có nhiều khả năng ai đó vô tình phá vỡ một công thức. Nhưng tin tốt là: menu xác thực dữ liệu có một tùy chọn để từ chối các thông tin nhập không hợp lệ, giúp đảm bảo các công cụ tùy chỉnh của chúng tôi sẽ tiếp tục chạy chính xác, ngay cả khi ai đó nhập sai dữ liệu do nhầm lẫn. Được rồi, bây giờ bạn đã biết ba cách sử dụng để xác thực dữ liệu trong bảng tính của mình: thêm danh sách thả xuống, tạo hộp kiểm tùy chỉnh và bảo vệ dữ liệu có cấu trúc và công thức. Xác thực dữ liệu có thể giúp nhóm của bạn theo dõi tiến độ, bảo vệ bảng của bạn khỏi bị hỏng khi làm việc trong nhóm lớn và giúp bạn tùy chỉnh bảng theo nhu cầu của mình. Sắp tới, chúng ta sẽ tìm hiểu thêm về định dạng có điều kiện và một số cách bạn có thể sử dụng định dạng có điều kiện và xác thực dữ liệu cùng nhau. Hẹn sớm gặp lại! Định dạng có điều kiện Chào bạn lần nữa nhé. Vì vậy, trước đó chúng ta đã nói về định dạng có điều kiện như một công cụ bảng tính thay đổi cách các ô xuất hiện khi các giá trị đáp ứng các điều kiện cụ thể. Điều này cho phép bạn thêm các dấu hiệu trực quan vào bảng tính của mình để giúp bạn dễ dàng hiểu bảng của mình hơn trong nháy mắt và làm cho thông tin trong bảng tính rõ ràng hơn đối với các bên liên quan của bạn. Trong video này, chúng ta sẽ tiến xa hơn nữa bằng cách kết hợp định dạng có điều kiện và xác thực dữ liệu để tạo các công cụ tùy chỉnh cho bảng tính của mình. Cho đến nay, chúng tôi đã sử dụng định dạng có điều kiện để đánh dấu các ô trống vẫn cần dữ liệu để chúng tôi có thể nhanh chóng xác định thông tin nào mà bảng của chúng tôi bị thiếu và thêm thông tin đó vào. Bây giờ, hãy xây dựng điều đó bằng cách sử dụng nó để làm cho bảng lập lịch trình của chúng tôi dễ đọc trong nháy mắt. Đây là bảng mà chúng tôi đã làm việc khi đề cập đến xác thực dữ liệu. Nó đang theo dõi trạng thái của các nhiệm vụ khác nhau trong dự án của chúng tôi để nhóm của chúng tôi kiểm tra. Nhưng bây giờ thậm chí còn có nhiều nhiệm vụ hơn so với lần cuối cùng chúng tôi xem xét nó. Bảng này có thông tin hữu ích, nhưng phải mất một giây để hiểu. Hiện tại, chúng tôi không có hình ảnh trực quan về số lượng nhiệm vụ đang được tiến hành hoặc số lượng thời hạn sắp tới. Nhưng nếu chúng ta mã hóa màu các thành phần đó của bảng, chúng ta có thể nhanh chóng nhìn thấy các phần dữ liệu chính một cách dễ dàng. Hãy bắt đầu với cột Trạng thái, cột C. Trong ví dụ trước, chúng tôi đã tạo các menu thả xuống này bằng công cụ xác thực dữ liệu. Bây giờ chúng ta có thể sử dụng định dạng có điều
  • 320. kiện để thêm một số màu. Hãy chuyển đến tùy chọn định dạng có điều kiện trong menu Định dạng. Thao tác này sẽ hiển thị một thanh bên nơi chúng tôi có thể chọn quy tắc phạm vi của mình theo kiểu định dạng. Chúng tôi cần quyết định những hàng nào sẽ áp dụng định dạng của mình khi điều kiện chúng tôi đặt được đáp ứng. Chúng ta có thể nhấp vào nút này trong các tùy chọn phạm vi để chọn tất cả các hàng mà chúng ta đang áp dụng định dạng thay vì nhập nó vào. Bây giờ chúng ta đã chọn các ô đó, chúng ta có thể chọn quy tắc mà chúng ta muốn áp dụng cho các ô này. Chúng tôi đã có menu thả xuống với văn bản cụ thể. Vì vậy, chúng tôi có thể chọn "Định dạng ô nếu... Văn bản chính xác" từ các quy tắc. Đối với quy tắc đầu tiên của chúng tôi, hãy viết "Chưa bắt đầu" làm điều kiện văn bản. Sau đó, chúng ta sẽ chọn một màu để áp dụng cho những ô có chữ "Chưa bắt đầu" trong đó. Hãy sử dụng màu đỏ. Bây giờ, tất cả các ô đã chọn "Chưa bắt đầu" từ trình đơn thả xuống sẽ có màu đỏ. Hãy nhấn nút "Thêm quy tắc khác" để thêm định dạng có điều kiện vào các tùy chọn trạng thái khác. Hãy thêm điều kiện "Đang tiến hành" tiếp theo. Chúng ta có thể làm cho cái đó màu vàng. Sau đó, chúng tôi sẽ thêm một quy tắc cuối cùng cho "Sẵn sàng". Hãy chọn màu xanh lá cây. Bây giờ chúng ta có một gợi ý trực quan dễ hiểu cho chúng ta biết có bao nhiêu nhiệm vụ đang được tiến hành và bao nhiêu nhiệm vụ đã hoàn thành. Chúng tôi cũng có thể kết hợp xác thực dữ liệu và định dạng có điều kiện để theo dõi thời hạn sắp tới. Chúng tôi có một cột ngày được gọi là "Đánh giá trước ngày này". Trước tiên, hãy sử dụng chức năng xác thực dữ liệu để đảm bảo người dùng chỉ nhập ngày hợp lệ. Chúng tôi sẽ quay lại trình đơn thả xuống Dữ liệu ở trên cùng, kéo lên Xác thực dữ liệu và chọn Ngày làm tiêu chí của chúng tôi. Sau đó, chúng ta có thể vào menu Định dạng ở trên cùng. Đi xuống định dạng có điều kiện và mở lại thanh bên. Chúng tôi sẽ nhấp vào biểu tượng "Chọn phạm vi" và chọn cột "Xem lại trước ngày này". Bây giờ trong Quy tắc định dạng, chúng tôi có thể chọn "Ngày là sau", điều này sẽ cung cấp cho chúng tôi một tùy chọn khác. Hãy chọn "hôm nay." Và cuối cùng, hãy chọn màu cho các ô này. Vì vậy, nếu ngày được liệt kê trong các hàng này sau ngày hôm nay, thì ngày đó sẽ được tô màu cam. Bạn cũng có thể chọn một ngày khóa cụ thể nếu cần. Nhưng bây giờ, hãy đi với ngày hôm nay. Giờ đây, tất cả các ngày xem xét sắp tới đều có mã màu dễ nhìn, vì vậy, bất kỳ ai sử dụng bảng này đều có thể nhanh chóng tham khảo các thời hạn này. Bạn sẽ thấy rằng một số chương trình bảng tính, chẳng hạn như Excel, có mã màu tích hợp sẵn mà bạn cũng có thể sử dụng. Giờ đây, bạn đã biết cách sử dụng xác thực dữ liệu và định dạng có điều kiện để tạo các công cụ tùy chỉnh và tín hiệu trực quan giúp thông tin của bạn trở nên dễ hiểu. Có rất nhiều cách khác nhau để sử dụng những công cụ này, vì vậy, hãy thoải mái thử nghiệm chúng trong bảng tính của riêng bạn. Sắp tới, chúng ta sẽ tiếp tục tìm hiểu về các công cụ mới dành cho bảng tính và SQL. Tạm biệt bây giờ.
  • 321. Chương 2: Kết hợp nhiều bộ dữ liệu Hợp nhất và nhiều nguồn Thật tuyệt khi thấy bạn trở lại. Trong video này, chúng ta sẽ xây dựng dựa trên những gì đã học về CONCATENATE và IMPORTRANGE bằng cách khám phá một truy vấn SQL mới: CONCAT. Bạn có thể nhớ rằng CONCATENATE là một hàm nối hai hoặc nhiều chuỗi văn bản lại với nhau. Xin nhắc lại, chuỗi văn bản là một nhóm ký tự trong một ô thường bao gồm các chữ cái nhất. Bạn đã thấy nó hoạt động như thế nào trong một bảng tính. Nhưng có một hàm tương tự trong SQL cho phép bạn nối nhiều chuỗi văn bản từ nhiều nguồn, đó là CONCAT. Hãy sử dụng CONCAT để kết hợp các chuỗi từ nhiều bảng để tạo chuỗi mới. Đối với ví dụ này, chúng tôi sẽ sử dụng dữ liệu mở từ Citi Bike, một hệ thống chia sẻ xe đạp công cộng ở New York. Như bạn đã biết trước đó, các sáng kiến dữ liệu mở đã tạo ra rất nhiều dữ liệu cho các nhà phân tích sử dụng. Tính mở hay dữ liệu mở là truy cập, sử dụng và chia sẻ dữ liệu miễn phí. Đó là một nguồn tài nguyên tuyệt vời nếu bạn muốn thực hành hoặc thử nghiệm các công cụ phân tích dữ liệu mà bạn đã học ở đây. Bạn có quyền truy cập mở vào dữ liệu chia sẻ xe đạp của thành phố New York, dữ liệu này có thông tin về việc sử dụng xe đạp dùng chung trên toàn thành phố. Bây giờ chúng ta có thể sử dụng CONCAT để kéo và nối dữ liệu từ các cột khác nhau được lưu trữ tại đây. Điều đầu tiên chúng ta cần làm là tìm ra cột nào chúng ta cần. Bằng cách đó, chúng ta có thể cho SQL biết vị trí của các chuỗi mà chúng ta muốn. Ví dụ, công ty chia sẻ xe đạp có hai loại khách hàng khác nhau; khách hàng và thuê bao thanh toán một lần. Giả sử chúng ta muốn tìm ra tuyến đường nào phổ biến nhất với các loại người dùng khác nhau. Để làm được điều đó, chúng ta cần tạo các chuỗi tên tuyến đường dễ nhận biết mà chúng ta có thể đếm và sắp xếp. Chúng tôi biết rằng thông tin chúng tôi cần có trong bảng các trạm và chuyến đi. Chúng tôi sẽ bắt đầu xây dựng truy vấn của mình từ đó. Trước tiên, chúng tôi sẽ nhập SELECT loại người dùng để cho SQL biết rằng chúng tôi muốn loại người dùng dưới dạng một cột. Sau đó, chúng tôi sẽ sử dụng CONCAT để kết hợp tên của các trạm bắt đầu và kết thúc cho mỗi chuyến đi trong một cột mới. Thao tác này sẽ tạo một cột dựa trên lộ trình mọi người đi. Chúng ta cũng cần nhập tiêu đề cho cột mới này. Chúng tôi sẽ nhập, AS route, để đặt tên cho cột tuyến đường bằng cách sử dụng các tên trạm bắt đầu và kết thúc mà chúng tôi đã kết hợp với CONCAT. Điều này sẽ giúp chúng ta dễ dàng đọc và hiểu các tên tuyến đường này. Sau đó, chúng tôi muốn SQL đếm số chuyến đi. Vì vậy, chúng tôi sẽ nhập COUNT để làm điều đó. Chúng tôi có thể sử dụng dấu hoa thị để yêu cầu nó đếm số hàng trong dữ liệu mà chúng tôi đang chọn. Trong trường hợp này, mỗi hàng đại diện cho một chuyến đi, đó là lý do
  • 322. tại sao chúng tôi chỉ có thể đếm tất cả các hàng mà chúng tôi đã chọn. Chúng tôi sẽ đặt tên đầu ra này là num_trips. Bây giờ, hãy cũng lấy thời lượng chuyến đi trung bình cho mỗi tuyến đường. Trong trường hợp này, chúng ta không cần giá trị trung bình chính xác, vì vậy chúng ta có thể sử dụng hàm ROUND để làm tròn số. Chúng tôi sẽ đặt giá trị đó trước và sau đó sử dụng giá trị trung bình trong ngoặc đơn để có thời lượng chuyến đi trung bình. Chúng tôi cũng sẽ muốn dữ liệu này ở dạng số nguyên cho phép tính này, vì vậy chúng tôi sẽ nhập ép kiểu là int 64. Truy vấn lớn lưu trữ các số trong hệ thống bộ nhớ 64 bit, đó là lý do tại sao có số 64 sau số nguyên trong trường hợp này. Tiếp theo, chúng ta sẽ chia nó cho số hàng và cho biết chúng ta muốn nó làm tròn bao xa, hai chữ số thập phân. Chúng tôi sẽ đặt tên đầu ra này là thời lượng. Chúng ta sẽ cần cho SQL biết nơi lưu trữ thông tin này. Chúng tôi sẽ sử dụng TỪ và vị trí chúng tôi sẽ lấy nó từ đó. Vì chúng tôi đang sử dụng các hàm COUNT và AVERAGE trong mệnh đề chọn của mình, nên chúng tôi phải sử dụng GROUP BY để nhóm các hàng tóm tắt lại với nhau. Hãy nhóm theo trạm bắt đầu, trạm kết thúc và loại người dùng cho truy vấn này. Cuối cùng, chúng tôi sẽ sử dụng ORDER BY để cho nó biết cách chúng tôi muốn tổ chức dữ liệu này. Đối với điều này, chúng tôi muốn tìm ra các chuyến đi phổ biến nhất để chúng tôi có thể nhập vào cột số chuyến đi và sử dụng DESC để sắp xếp nó theo thứ tự giảm dần. Cuối cùng, chúng tôi chỉ muốn top 10, vì vậy hãy thêm GIỚI HẠN 10. Giờ đây, nhờ CONCAT, chúng tôi có thể dễ dàng đọc các tên tuyến đường này và lần theo chúng trở lại các địa điểm thực. Chúng tôi có thể biết loại khách hàng nào đang đi trên tuyến đường nào, điều này có thể giúp công ty chia sẻ xe đạp hiểu được cơ sở người dùng của họ ở các khu vực khác nhau trong thành phố và nơi có nhiều xe đạp hơn cho mọi người thuê.
  • 323. Khả năng kết hợp nhiều phần dữ liệu có thể cung cấp cho bạn những cách thức mới để tổ chức và phân tích dữ liệu. Có rất nhiều công cụ khác nhau để giúp bạn làm điều đó. Bây giờ bạn đã thấy CONCAT hoạt động và sau đó bạn sẽ bắt gặp một truy vấn tương tự khác, JOIN. Nhưng trong phần tiếp theo, chúng ta sẽ nói nhiều hơn về cách làm việc với các chuỗi. Hẹn sớm gặp lại. Chuỗi trong bảng tính Này, chào mừng trở lại. Cho đến giờ, trước đây chúng ta đã làm việc với các chuỗi trong cả SQL và bảng tính, và chúng ta biết rằng chúng thường có các chức năng tương tự nhau. Trong video này, chúng ta sẽ xem xét lại LEN, LEFT, RIGHT và FIND. Bạn đã bắt gặp những hàm này được sử dụng trong SQL, nhưng bây giờ bạn sẽ tìm hiểu cách chúng hoạt động trong bảng tính. Quay trở lại bộ dữ liệu chia sẻ xe đạp của chúng tôi, hãy xem một trong các bảng tính của họ. Đây là một trong những bảng tính Dữ liệu chuyến đi. Trong cột thời gian bắt đầu và thời gian dừng, có các chuỗi chứa thông tin về ngày giờ của mỗi chuyến đi. Đây là tất cả dữ liệu hữu ích, nhưng rất có thể chúng ta sẽ chỉ cần một phần của chuỗi để tạo công thức hoặc trả lời câu hỏi. Ví dụ: các chuỗi này chứa nhiều điểm dữ liệu, chẳng hạn như ngày và giờ. Nhưng nếu chúng tôi đang cố gắng tìm thời gian trung bình giữa các lần bắt đầu, thì chúng tôi sẽ không cần ngày. Chúng tôi thực sự có thể sử dụng LEN, LEFT và RIGHT và FIND để chia các dấu thời gian thành các cột riêng biệt nếu chúng tôi muốn. Hãy xây dựng một công thức đơn giản để tách ngày trong các chuỗi này. Chúng tôi biết rằng LEN cho chúng tôi biết độ dài của một chuỗi. Hãy kiểm tra xem các chuỗi ngày giờ này dài bao nhiêu. Để bắt đầu, chúng ta sẽ nhập phần đầu tiên của công thức. Và sau đó chúng ta sẽ chỉ chọn một trong các ô có chuỗi ngày giờ trong đó. (=LEN(C3)) Các chuỗi này dài 19 ký tự. Chúng ta có thể sử dụng hàm FIND để định vị các ký tự cụ thể trong một chuỗi. Hãy ghi nhớ, đây là trường hợp nhạy cảm. Vì vậy, nếu bạn đang sử dụng TÌM để kéo một chuỗi con, hãy đảm bảo rằng bạn đã nhập đúng chuỗi con. Chúng tôi nhận thấy rằng tất cả các chuỗi ngày giờ đều có khoảng trắng ngăn cách ngày và dấu thời gian. Vì vậy, chúng tôi thực sự có thể sử dụng TÌM để tìm ra ngày kết thúc ở đâu. Được rồi, có vẻ như khoảng trắng là ký tự thứ 11 trong chuỗi này. Vì vậy, chuỗi con dấu thời gian sẽ bắt đầu ở ký tự 12. Chúng ta có thể sử dụng các hàm LEFT và RIGHT để chọn phần nào của chuỗi mà chúng ta muốn tách riêng trong một cột mới. Chúng tôi sẽ sử dụng RIGHT trên một trong các ô này để cho biết rằng chúng tôi muốn lấy bên phải. Và giống như chúng ta đã bắt gặp trước đây, LEFT thực sự hoạt động theo cùng một cách. Bây giờ chúng ta có thể áp dụng điều đó cho phần còn lại của cột C để kéo các dấu thời gian đó.
  • 324. Là một nhà phân tích dữ liệu, khả năng làm việc với chuỗi là một kỹ năng quan trọng, đặc biệt khi bạn thấy mình đang làm việc với dữ liệu từ các nguồn bên ngoài. Hy vọng rằng bạn cảm thấy thoải mái hơn một chút khi áp dụng các hàm LEN, RIGHT, LEFT và FIND trong cả SQL và bảng tính. Sau này, chúng ta sẽ sử dụng các hàm này để thực hiện các công thức thậm chí còn phức tạp hơn, vì vậy hãy tự mình thử chúng trên một số dữ liệu, thậm chí có thể là một số dữ liệu mở như chúng ta đang sử dụng ngày nay. Hẹn gặp lại.
  • 325. Chương 3: Nhận hỗ trợ trong quá trình phân tích Phải làm gì khi bạn gặp khó khăn Chào bạn. Các nhà phân tích dữ liệu dành nhiều thời gian để giải quyết vấn đề và điều đó có nghĩa là sẽ có lúc bạn gặp khó khăn, nhưng mẹo là biết phải làm gì khi điều đó xảy ra. Trong video này, chúng ta sẽ nói về tầm quan trọng của việc biết cách nhận trợ giúp, cho dù điều đó có nghĩa là nhờ người khác giúp đỡ hay tìm kiếm câu trả lời trên Internet. Hỏi người khác về vấn đề bạn đang gặp phải có thể giúp bạn tìm ra các giải pháp mới giúp dự án tiến lên phía trước. Bạn nên liên hệ với đồng nghiệp và người cố vấn của mình, đặc biệt nếu họ đang làm việc với bạn trong dự án đó. Các thành viên trong nhóm của bạn có kiến thức và hiểu biết sâu sắc có giá trị có thể giúp bạn tìm ra giải pháp cần thiết để tháo gỡ khó khăn. Đôi khi, chúng ta dành nhiều thời gian để xoay bánh xe của mình và nói: "Tôi có thể tự làm việc này", nhưng chúng ta có thể làm việc hiệu quả hơn nếu chúng ta tương tác với người khác, tìm nguồn lực mới để dựa vào và cố gắng thu hút càng nhiều tiếng nói càng tốt có liên quan. Ví dụ: giả sử bạn đang làm việc với dữ liệu thời gian đạp xe từ các video trước. Có thể bạn đang cố gắng tìm thời gian trung bình giữa các lần đạp xe trong một tháng nhất định. Việc tính toán sự khác biệt giữa các lần đạp xe trước nửa đêm rất dễ dàng, nhưng bạn có thể gặp sự cố nếu thời gian đã trôi qua kéo dài sang ngày hôm sau. Nếu ai đó đạp xe lúc 11 giờ đêm, nhưng chuyến tiếp theo phải đến 06:00 sáng, công thức của bạn sẽ trả về số âm vì thời gian kết thúc nhỏ hơn thời gian bắt đầu. Bạn biết rằng bạn có thể cộng một trừ đi thời gian bắt đầu nếu hai chuyến đạp xe bắt đầu và kết thúc vào những ngày khác nhau, nhưng công thức đó sẽ không hoạt động vào những thời điểm diễn ra trong cùng một ngày và sẽ không hiệu quả khi cuộn qua từng chuyến đạp xe để xác định chính xác những trường hợp đặc biệt này. Bạn cần tìm cách xây dựng một công thức có điều kiện, nhưng bạn không chắc làm thế nào. Bạn quyết định kiểm tra với các nhà phân tích khác làm việc trong nhóm của bạn để xem họ có ý tưởng nào không. Bạn có thể gửi cho họ một email nhanh hoặc ghé qua bàn làm việc của họ để xem liệu họ có thời gian để nói chuyện với bạn hay không. Hóa ra họ đã gặp vấn đề tương tự trong một dự án trước đó và họ có thể chỉ cho bạn một công thức có điều kiện mà bạn có thể sử dụng để tăng tốc độ tính toán của mình. Tuyệt vời!
  • 326. Họ đề xuất sử dụng công thức IF như thế này. Điều này về cơ bản nói rằng, "nếu thời gian kết thúc lớn hơn thời gian bắt đầu, hãy thay thế công thức thời gian kết thúc trừ thời gian bắt đầu tiêu chuẩn bằng một trừ thời gian bắt đầu cộng với thời gian kết thúc." Bây giờ cũng có thể các thành viên trong nhóm của bạn không có câu trả lời; điều đó cũng không sao. Chắc chắn có người khác có cùng vấn đề đặt câu hỏi tương tự trực tuyến. Biết cách tìm giải pháp trực tuyến là một công cụ giải quyết vấn đề cực kỳ có giá trị để phân tích dữ liệu. Ngoài ra còn có tất cả các loại diễn đàn nơi người dùng bảng tính có thể đặt câu hỏi và bạn không bao giờ biết mình có thể tìm thấy gì chỉ bằng một tìm kiếm cơ bản. Ví dụ: giả sử bạn xem bảng tính "tính số giờ giữa các thời điểm" và tìm hướng dẫn hữu ích cho một công thức phức tạp hơn bằng cách sử dụng MOD. Thao tác này sẽ chuyển các giá trị âm thành giá trị dương, giải quyết vấn đề tính toán của bạn. Cho dù bạn đang hỏi ai đó mà bạn biết hay tìm kiếm câu trả lời trên Internet, việc tìm kiếm sự trợ giúp có thể mang đến cho bạn một số giải pháp thực sự thú vị và những cách mới để giải quyết vấn đề để phân tích trong tương lai. Sắp tới, chúng ta sẽ tìm hiểu nhiều hơn về cách tìm kiếm các giải pháp trực tuyến. Hẹn sớm gặp lại. Layla: Tất cả về giai đoạn phân tích CHÀO. Tên tôi là Layla và tôi là trưởng nhóm phân tích tại Google. Đầu mối phân tích là người giúp các nhà quảng cáo hiểu được giá trị của số tiền quảng cáo của họ. Chúng tôi cũng giúp họ hiểu nếu họ chi thêm một đô la cho quảng cáo, họ nên chi số tiền đó vào đâu và họ có thể mong đợi nhận được gì từ số tiền đó. Bộ kỹ năng liên quan đến loại vai trò này hoàn
  • 327. toàn liên quan đến việc có thể xem xét một tập dữ liệu và hiểu ý nghĩa của nó, sau đó kể một câu chuyện cho những người có thể không có cùng mức kinh nghiệm với dữ liệu. Điều gì đang xảy ra trong dữ liệu? Điều gì đang thúc đẩy tăng trưởng cho khách hàng hoặc công ty của bạn? Họ có thể làm gì nhiều hơn hoặc ít hơn để thúc đẩy nhiều hơn những gì họ muốn xảy ra? Giai đoạn phân tích giống như chuẩn bị một bữa ăn thịnh soạn. Bạn đã hoàn thành tất cả công việc dọn dẹp, chuẩn bị và nấu nướng, và cuối cùng bạn có thể cắn một miếng và xem liệu điều bạn đang hy vọng ban đầu sẽ xảy ra hay điều bạn đang mong đợi, để xem liệu điều đó có thực sự xảy ra hay không. Nó có ngon không? Có chính xác như bạn mong đợi? Hoặc là độ đặc hơi giảm và bạn cần thêm một chút muối? Giai đoạn phân tích bắt đầu sau khi bạn chuẩn bị và làm sạch dữ liệu của mình. Bạn không muốn có những trường trống sẽ khiến bạn thất vọng hoặc các mục nhập trùng lặp sẽ phóng to tập dữ liệu của bạn vượt quá những gì thực sự đúng. Giai đoạn phân tích là nơi bạn trở thành chuyên gia về tập dữ liệu của mình. Ở đây, bạn sẽ hiểu tất cả các lĩnh vực khác nhau. Bạn sẽ hiểu mức trung bình của chúng, có thể là trung bình của dữ liệu. Bạn sẽ hiểu các hàng khác nhau trong dữ liệu của bạn khác nhau như thế nào. Và đó là nơi bạn sẽ có được sự tự tin để có thể giải thích những phát hiện của mình cho khán giả có thể không có cùng trình độ chuyên môn với dữ liệu mà bạn có. Khi tôi phân tích dữ liệu, tôi thường thích sử dụng SQL và bảng tính. Ví dụ, bạn có thể sử dụng các công cụ này để sắp xếp dữ liệu của mình và hiểu mục nhập nào lớn hơn mục nhập khác. Hoặc để hiểu số lần điều gì đó xảy ra bằng cách chọn các mục riêng biệt. Tại đây, bạn cũng có thể lọc ra dữ liệu mà bạn đặc biệt quan tâm đến việc phân tích hoặc trong bảng tính, sử dụng định dạng có điều kiện để hiển thị mục nhập nào cho kết quả tích cực hơn và mục nhập nào có thể tiêu cực hơn. Sử dụng SQL và bảng tính để giúp bạn vượt qua giai đoạn phân tích là vô cùng quan trọng. Với những công cụ này, bạn có thể định dạng tập dữ liệu của mình theo cách dễ hiểu và sau đó bắt đầu kể một câu chuyện với dữ liệu. Phần yêu thích của tôi khi làm việc trong bảng tính là khi cuối cùng bạn có dữ liệu mà bạn muốn dọn dẹp và xuất khỏi truy vấn SQL của mình. Sau đó, bạn có thể biến nó thành một bảng tổng hợp và lập biểu đồ chính xác phần cắt dữ liệu mà bạn muốn xem xét ngay từ đầu và khám phá các xu hướng đang diễn ra ở đó. Khi bạn làm được điều đó, về cơ bản, bạn mở khóa cả một thế giới thông tin và bạn có thể chọn câu chuyện mà bạn thực sự muốn kể với dữ liệu của mình mà không cần chỉ nói, "Đây là số lớn nhất; đây là số nhỏ nhất." Ở đây, bạn phải chỉ ra những gì có khả năng xảy ra theo thời gian hoặc những gì bạn sẽ thấy trong tương lai. Gặp thử thách? Đừng lo lắng! Chào mừng trở lại. Trước đó, chúng ta đã nói một chút về việc tìm tài nguyên trực tuyến để giúp bạn tìm ra giải pháp cho các vấn đề trong quá trình phân tích. Internet có rất nhiều kiến thức và lời khuyên để cung cấp, nhưng bạn cần biết cách tìm ra nó. Trong video này, chúng ta sẽ nói nhiều hơn về việc tìm câu trả lời trực tuyến. Bạn có thể nghĩ rằng các nhà
  • 328. phân tích dữ liệu giỏi không thường xuyên dựa vào các nguồn bên ngoài, nhưng đó là một lầm tưởng. Các nhà phân tích dữ liệu giỏi nhất biết rằng việc tìm kiếm câu trả lời cho các vấn đề của họ trực tuyến có thể tiếp thêm sức mạnh và cung cấp cho họ kiến thức mới cho tương lai. Có thể tìm ra những ý tưởng mới và kết hợp chúng với những gì bạn đã biết có thể giúp bạn nghĩ ra một số điều tuyệt vời. Đừng ngại truy cập internet để tìm câu trả lời cho mình. Đó là một nguồn tài nguyên tuyệt vời mà nhiều nhà phân tích sử dụng. Tôi bao gồm. Nhưng hãy nói thêm về cách bạn có thể đảm bảo rằng mình đang sử dụng tài nguyên web theo cách tốt nhất có thể. Có sự kết hợp của các phương pháp hay nhất mà bạn có thể sử dụng để hướng dẫn tìm kiếm câu trả lời trực tuyến. Bằng cách thực hành các kỹ năng tư duy mà chúng ta đã học được trong chương trình này, sử dụng các thuật ngữ phân tích dữ liệu phù hợp và kiến thức cơ bản về các công cụ phân tích, bạn sẽ có mọi thứ cần thiết để tìm câu trả lời và áp dụng chúng vào công việc của mình. Và nó bắt đầu với cách bạn tiếp cận một vấn đề về mặt tinh thần. Bạn đã học về các loại kỹ năng tư duy khác nhau và cách thực hành chúng trong công việc phân tích dữ liệu của mình. Từ phân tích, đến toán học, đến tư duy có cấu trúc. Điều này giúp xây dựng mô hình tinh thần của bạn, hoặc quá trình suy nghĩ của bạn và cách bạn tiếp cận một vấn đề. Các nhà phân tích dữ liệu sử dụng những kỹ năng tư duy này để tiếp cận vấn đề một cách hợp lý và chia nó thành các phần nhỏ hơn. Đưa điều này vào quy trình giải quyết vấn đề của riêng bạn có thể giúp bạn xác định chính xác các câu hỏi cụ thể mà bạn có thể sử dụng để tìm tài nguyên dễ dàng hơn. Ví dụ: có thể bạn tiếp tục gặp lỗi trong quá trình phân tích của mình. Bạn thu hẹp nó xuống còn hai khả năng: công thức của bạn hoặc chính dữ liệu. Bạn kiểm tra lại công thức của mình và bạn thấy rằng nó đúng. Vì vậy, bây giờ bạn biết rằng bạn cần đảm bảo rằng dữ liệu đã được nhập chính xác. Bạn xem xét vấn đề một cách logic và truy tìm nguồn gốc của nó, sử dụng mô hình tinh thần của bạn. Tiếp theo, điều quan trọng là sử dụng đúng thuật ngữ khi tìm kiếm giải pháp. Biết cách sắp xếp các câu hỏi phân tích dữ liệu với cùng ngôn ngữ mà các nhà phân tích khác đang sử dụng sẽ giúp bạn nhận được nhiều kết quả tìm kiếm hơn và điều đó sẽ giúp bạn hiểu những gì các nhà phân tích khác đang nói. Ví dụ: có thể bạn cần sử dụng bốn ký tự bên trái của một chuỗi cho một cột trong SQL. Làm thế nào bạn sẽ tìm kiếm này? Tìm kiếm "bốn ký tự trong một cột" hơi mơ hồ và có thể không hiển thị các tài nguyên cụ thể. Nhưng "SQL truy vấn chuỗi bên trái" sử dụng một số từ khóa mà các nhà phân tích dữ liệu khác cũng đang sử dụng để nói về những điều này. Ngoài việc có thể sử dụng các thuật ngữ phù hợp để tìm kiếm trực tuyến, bạn cũng cần phải làm quen với các công cụ cơ bản. Theo cách đó, khi một tài nguyên trực tuyến hướng dẫn bạn qua một chức năng mới và một công cụ mà bạn đã sử dụng trước đây, bạn sẽ biết những công cụ đó hoạt động như thế nào. Ví dụ: nếu bạn tìm thấy một công thức bảng tính trực tuyến, bạn cần hiểu cách thức hoạt động của các công thức đó để áp dụng công thức đó vào bảng tính của riêng mình hoặc có thể tập dữ liệu bạn đang làm việc quá lớn đối với một bảng tính và bạn sẽ cần phải chuyển đổi sang SQL. Có nhiều công cụ trong bộ công cụ của bạn rất quan trọng với tư cách
  • 329. là nhà phân tích dữ liệu, nhưng điều quan trọng không kém là biết khi nào nên sử dụng chúng. Nếu bạn thấy mình bị mắc kẹt trong một vấn đề, bạn nên lùi lại một bước và xem xét lại cách bạn tiếp cận một nhiệm vụ. Chúng tôi đã đề cập đến rất nhiều công cụ mà bạn có thể sử dụng với tư cách là nhà phân tích dữ liệu trong suốt chương trình này. Sau đó, bạn sẽ tìm hiểu thêm một điều nữa, R. Chúng ta sẽ nói về R nhiều hơn sau, nhưng đây là một đỉnh điểm để bạn hào hứng với nó. R là một ngôn ngữ lập trình khác, nhưng nó không phải là ngôn ngữ cơ sở dữ liệu như SQL. Đó là ngôn ngữ lập trình thường được sử dụng để phân tích thống kê, trực quan hóa và phân tích dữ liệu khác. R hơi khác một chút so với các công cụ khác mà chúng tôi đã làm việc cùng, nhưng nó là phần bổ sung tuyệt vời cho các công cụ bạn đang sử dụng và nó sẽ cung cấp cho bạn nhiều giải pháp tiềm năng hơn khi bạn gặp sự cố. Sử dụng các kỹ năng tư duy mà chúng ta đã học được trong suốt chương trình này, các thuật ngữ phù hợp và sự hiểu biết của bạn về các công cụ phân tích khác nhau, chúng tôi sẽ giúp bạn sẵn sàng cho các bước tiếp theo của quy trình này: thực sự tìm kiếm câu trả lời trực tuyến. Có rất nhiều tài nguyên như các trang web và diễn đàn hỗ trợ chương trình nơi các nhà phân tích dữ liệu khác đang hỏi và trả lời các câu hỏi. Trong một video trước đó, chúng tôi đã gặp sự cố khi cố gắng tính toán thời gian trôi qua giữa các lần đạp xe và dữ liệu chia sẻ xe đạp. Có thể lần tìm kiếm đầu tiên của chúng tôi, "Tính toán thời gian trong bảng tính", không đưa ra câu trả lời mà chúng tôi cần. Bằng cách suy nghĩ về câu hỏi cụ thể của chúng tôi và cách các nhà phân tích dữ liệu khác có thể hỏi câu hỏi đó, chúng tôi có thể thay đổi tìm kiếm đó thành "Công thức có điều kiện để tính thời gian đã trôi qua trong bảng tính". Bây giờ, chúng tôi có nhiều giải pháp cụ thể hơn cho vấn đề của mình. Cuối cùng, có thể sửa đổi mã ví dụ để phù hợp với nhu cầu của riêng bạn là rất hữu ích. Hiểu cú pháp của các công thức và hàm cho các công cụ khác nhau sẽ cho phép bạn áp dụng những gì bạn đã học trực tuyến và làm cho nó hoạt động cho bạn, và thậm chí có thể xây dựng trên đó để tạo ra một giải pháp hoàn toàn mới. Ví dụ: công thức MOD mà chúng tôi đã tạo để tính các chuyến đi bắt đầu và kết thúc vào những ngày khác nhau trong dữ liệu chia sẻ xe đạp của chúng tôi. Công thức MOD mà chúng tôi tìm thấy trực tuyến không được tạo cho dữ liệu mà chúng tôi đang làm việc. Nhưng vì chúng tôi đã quen thuộc với các công cụ bảng tính nên chúng tôi có thể áp dụng nó vào dữ liệu của mình và sử dụng nó như một giải pháp cho vấn đề của mình. Các nhà phân tích dữ liệu giỏi biết cách tìm và sử dụng các tài nguyên trực tuyến để giúp họ xây dựng các giải pháp mới cho các vấn đề mà họ gặp phải. Bằng cách sử dụng các kỹ năng tư duy mà bạn đã học được trong chương trình này và sử dụng kiến thức của mình về các thuật ngữ và công cụ phân tích dữ liệu, bạn cũng có thể làm được. Khi bạn đã tìm thấy một số câu trả lời cho các vấn đề của mình, bạn có thể đưa chúng vào công việc phân tích của mình để vượt qua mọi thử thách mà bạn có thể gặp phải.
  • 330. Khi nào sử dụng công cụ nào Xin chào. Trong các video này, bạn đã được giới thiệu về bảng tính, SQL và rất nhiều công cụ khác. Chúng tôi cũng đã nói về việc chọn đúng công cụ trước khi bạn bắt đầu một dự án. Nhưng đôi khi bạn thấy mình bị mắc kẹt trong một vấn đề trong quá trình phân tích dữ liệu của mình. Điều đó có thể có nghĩa là đã đến lúc xem xét lại công cụ bạn đang sử dụng cho công việc. Ví dụ: nếu bạn đang làm việc với một bảng tính đơn giản, có thể từ 5 đến 10 hàng và một vài cột, thì bảng tổng hợp là một cách tuyệt vời để trực quan hóa dữ liệu đó. Nhưng nếu bảng tính đó có hơn một triệu hàng, nó sẽ bắt đầu gặp sự cố, khiến bảng tổng hợp khó hoàn thành. Khi bạn thấy mình đang làm việc với một bảng tính khổng lồ liên tục gặp sự cố, bạn có thể chuyển sang SQL để lấy dữ liệu mình cần từ các vị trí khác nhau trong cơ sở dữ liệu thay vì từ một bảng tính duy nhất. Bạn có thể nhớ rằng SQL có thể xử lý hàng nghìn tỷ hàng dữ liệu và hiện là ngôn ngữ chuẩn để làm việc với các chương trình cơ sở dữ liệu. SQL rất tốt cho việc truy vấn, cập nhật và tối ưu hóa dữ liệu. Nhưng cố gắng phân tích dữ liệu của bạn chỉ bằng SQL có thể trở nên phức tạp. Khi bạn tiếp tục phát triển với tư cách là nhà phân tích dữ liệu, bạn có thể thấy mình dành nhiều thời gian để xây dựng các truy vấn dài, lồng nhau và sau đó gỡ lỗi chúng. Có thể đã đến lúc xem xét một công cụ khác, R. R là một công cụ mới mà bạn sẽ làm việc sau này, nhưng bây giờ, tôi sẽ nói cho bạn biết một chút về nó để bạn có thể bắt đầu hứng thú. R là một ngôn ngữ lập trình khác, nhưng nó không phải là ngôn ngữ cơ sở dữ liệu như SQL. Đó là ngôn ngữ lập trình thường được sử dụng để phân tích thống kê, trực quan hóa và phân tích dữ liệu khác. R hơi khác so với các công cụ khác mà chúng tôi đang làm việc cùng, nhưng nó là sự bổ sung tuyệt vời cho các công cụ bạn đang sử dụng. Với R, bạn sẽ có thể phân tích và trực quan hóa dữ liệu theo nhiều cách mới. Chúng ta sẽ nói về R nhiều hơn sau, nhưng tôi hy vọng cái nhìn lén lút này mang đến cho bạn cái nhìn đầu tiên thú vị. Có nhiều công cụ trong bộ công cụ của bạn rất quan trọng với tư cách là nhà phân tích dữ liệu, nhưng điều quan trọng không kém là biết khi nào nên sử dụng chúng. Nếu bạn thấy mình bị mắc kẹt trong một vấn đề, bạn nên lùi lại một bước và xem xét lại cách bạn tiếp cận một nhiệm vụ. Bạn có quá nhiều dữ liệu cho một bảng tính? Chuyển sang SQL. Bạn có đang dành nhiều thời gian để gỡ lỗi truy vấn hơn là thực sự phân tích dữ liệu không? Có lẽ bạn nên xem xét R. Bây giờ bạn cũng biết cách tìm câu trả lời trực tuyến. Vì vậy, nếu bạn từng gặp sự cố và cần thử một công cụ khác, tìm kiếm nhanh có thể thực sự hữu ích. Có thể có tài nguyên trực tuyến hoặc ai đó khác có thể gặp vấn đề tương tự và đã đăng về vấn đề đó. Điều này thật tuyệt nếu bạn bắt đầu cảm thấy bế tắc trước một vấn đề và thậm chí bạn có thể tìm ra một cách mới để sử dụng một công cụ mà bạn đã quen thuộc. Điều đó đưa chúng ta đến phần cuối của mô-đun này. Bạn đã làm rất tốt. Chúng tôi đã bao phủ rất nhiều thông tin. Chúng ta đã học về cách chuyển đổi và định dạng dữ liệu, cách kết hợp nhiều phần dữ liệu và cách tìm kiếm trợ giúp khi bạn cần hỗ trợ trong quá trình phân tích. Tiếp theo, bạn sẽ tham gia thử thách
  • 331. hàng tuần. Như mọi khi, vui lòng quay lại bất cứ điều gì chúng tôi đã học được từ những video trước đây. Sau đó, tôi sẽ gặp bạn trong video tiếp theo. Chúc may mắn.
  • 332. Tuần 3: Tổng hợp dữ liệu để phân tích Là một phần trong phân tích của bạn, bạn sẽ thường phải kết hợp dữ liệu để hiểu rõ hơn và hoàn thành các mục tiêu kinh doanh. Trong phần này của khóa học, bạn sẽ khám phá các chức năng, quy trình và cú pháp liên quan đến việc kết hợp hoặc tổng hợp dữ liệu. Bạn sẽ học cách thực hiện điều này từ nhiều ô trong bảng tính và từ nhiều bảng cơ sở dữ liệu bằng truy vấn SQL. Mục tiêu học tập:  Thể hiện sự hiểu biết về các chức năng và quy trình có thể được sử dụng để kết hợp dữ liệu từ nhiều ô trong bảng tính  Thể hiện sự hiểu biết về các chức năng và cú pháp để tạo các truy vấn SQL để kết hợp dữ liệu từ nhiều bảng cơ sở dữ liệu  Sử dụng VLOOKUP để truy vấn dữ liệu, cắt dữ liệu, chuyển đổi dữ liệu văn bản thành dữ liệu số và tạo bảng tóm tắt từ thông tin được truy vấn Chương 1: VLOOKUP để tổng hợp dữ liệu Tổng hợp dữ liệu để phân tích Chuẩn bị cho VLOOKUP VLOOKUP đang hoạt động Xác định các lỗi VLOOKUP phổ biến Chương 2: Sử dụng JOINS để tổng hợp dữ liệu trong SQL Hiểu về JOINS COUNT và COUNT DISTINCT Chương 3: Làm việc với các truy vấn con
  • 333. Truy vấn trong truy vấn Sử dụng truy vấn con để tổng hợp dữ liệu Justin: Phân tích dữ liệu đưa bạn đến đâu
  • 334. Tuần 4: Thực hiện tính toán dữ liệu Tính toán là một trong những nhiệm vụ phổ biến hơn mà các nhà phân tích dữ liệu hoàn thành trong quá trình phân tích. Trong phần này của khóa học, bạn sẽ khám phá các công thức, hàm và bảng tổng hợp trong bảng tính và truy vấn trong SQL, tất cả đều sẽ giúp bạn tính toán. Bạn cũng sẽ tìm hiểu về lợi ích của việc sử dụng SQL để quản lý các bảng tạm thời. Mục tiêu học tập:  Mô tả việc sử dụng các hàm để tiến hành tính toán cơ bản trên dữ liệu trong bảng tính  Thảo luận về việc sử dụng bảng tổng hợp để tiến hành tính toán trên dữ liệu trong bảng tính  Thể hiện sự hiểu biết về việc sử dụng các truy vấn SQL để hoàn thành các phép tính  Giải thích tầm quan trọng của quy trình xác thực dữ liệu để đảm bảo tính chính xác và nhất quán trong phân tích  Thảo luận về việc sử dụng các truy vấn SQL để quản lý các bảng tạm thời  Suy ngẫm về cách sử dụng các câu lệnh có điều kiện để tạo các hàm và truy vấn phức tạp  Tạo nhiều điểm tóm tắt dựa trên nhiều điều kiện khác nhau bằng cách sử dụng COUNTIF, SUMIF, MAXIF và AVERAGEIF Tuần 4: Chương 1: Bắt đầu tính toán dữ liệu Tính toán dữ liệu CHÀO. Thật tốt khi bạn trở lại. Sắp tới, chúng ta sẽ xem lại một số khái niệm quen thuộc và sau đó sử dụng những khái niệm đó để khám phá những khái niệm mới. Là một nhà phân tích dữ liệu, bạn sẽ sử dụng đi sử dụng lại các công cụ và quy trình chính, nhưng bạn cũng sẽ học được những điều mới khi bạn phát triển trong công việc của mình. Nó có thể là bất cứ điều gì từ việc xây dựng một loại phân tích mới đến một lối tắt tiết kiệm thời gian. Khi lần đầu tiên đến với Google, tôi chỉ dựa vào một vài chương trình và công cụ để truy cập dữ liệu và thực hiện phân tích của mình. Nhưng tôi sớm nhận ra rằng mình đã không làm việc hiệu quả như mong muốn. Khi tôi cảm thấy thoải mái khi lấy dữ liệu và phân tích dữ liệu đó bằng SQL, nó cho phép tôi làm việc hiệu quả hơn trước rất nhiều. Và tôi càng giỏi SQL và lấy dữ liệu từ các bảng dữ liệu, thì tôi càng hoàn thành phân tích của mình nhanh hơn. Tôi đã bị cuốn hút. Trong một số video tiếp theo, tôi sẽ chỉ cho bạn một số cách để đạt hiệu quả cao nhất có thể trong khi hoàn thành các phép tính trong quá trình phân tích của bạn. Chúng ta sẽ bắt đầu bằng cách xem lại các bảng tính, nơi chúng ta sẽ xem xét các công thức cho các phép tính
  • 335. cơ bản. Sau đó, chúng ta sẽ chuyển sang các công thức có điều kiện sử dụng hàm IF để kiểm tra xem một điều kiện có được đáp ứng thông qua một phép tính hay không. Sau đó, chúng ta sẽ khám phá hàm SUMPRODUCT đa chức năng. Hãy thử nói điều đó năm lần một cách nhanh chóng! SUMPRODUCT cộng và nhân tất cả trong một bước, vì vậy tính năng này rất hữu ích. Tiếp theo chúng ta sẽ xem xét lại các bảng tổng hợp. Nếu bạn đã bỏ qua và đây là lần đầu tiên bạn tìm hiểu về chúng, bạn sẽ biết tất cả về chúng. Bảng Pivot có rất nhiều công dụng, bao gồm cả việc tổ chức các phép tính của bạn. Sau đó, chúng tôi sẽ xoay vòng sang SQL, chơi chữ có chủ đích. Chúng tôi sẽ chỉ ra cách truy vấn và phép tính đi đôi với nhau trong SQL. Chúng ta cũng sẽ xem xét các bảng tạm thời trong SQL, giúp ích cho việc lưu trữ tạm thời dữ liệu của bạn trong quá trình phân tích. Chúng tôi sẽ đề cập đến nhiều khái niệm mới trong các video này, vì vậy, vui lòng nhấn nút tạm dừng bất kỳ lúc nào để suy nghĩ về vấn đề hoặc các bước để tự mình thử. Và bạn luôn có thể xem lại các video bao nhiêu tùy thích. Vì vậy, để tóm tắt lại, chúng ta sẽ xem xét một chút, và sau đó đề cập đến một số khái niệm hoàn toàn mới, tất cả về tính toán. Bạn đã sẵn sàng chưa? Tốt. Tôi cũng vậy. Các công thức tính phổ biến Xin chào. Bạn có thể làm rất nhiều tính toán trong cuộc sống hàng ngày của bạn. Có thể đó là tính toán số tiền boa cho ai đó hoặc cân đối ngân sách của bạn. Bạn có thể thực hiện một số phép tính này trong đầu hoặc bằng giấy và bút chì hoặc máy tính trên điện thoại của mình. Bạn thậm chí có thể sử dụng các phím tắt để tính toán dễ dàng hơn. Bạn cũng sẽ thực hiện nhiều tính toán với tư cách là nhà phân tích dữ liệu. Nhưng chúng sẽ liên quan đến nhiều con số hơn trong phạm vi tính toán rộng hơn. Đó là nơi bạn sẽ đặt các công cụ phân tích dữ liệu của mình hoạt động. Chúng tôi sẽ chỉ cho bạn cách bạn có thể sử dụng các công thức trong bảng tính để hoàn thành một số phép tính cơ bản nhất. Công thức là một trong nhiều phím tắt mà các nhà phân tích dữ liệu sử dụng. Nhưng yên tâm, dù là phím tắt nhưng chúng vẫn sẽ tính toán chính xác tuyệt đối. Chúng tôi đã đề cập đến rất nhiều tính toán này trước đó trong chương trình. Nhưng nếu bạn bỏ qua phần đó và muốn xem lại, chúng tôi sẽ xem xét chúng tại đây. Những tính toán này cũng sẽ nâng cao hơn so với những tính toán chúng tôi đã đề cập cho đến nay. Nhưng chúng cũng sẽ gần giống với những gì bạn có thể sử dụng trong công việc. Chúng tôi sẽ sử dụng Google Trang tính trong video này nhưng bạn cũng có thể sử dụng Excel. Các bước có thể trông hơi khác một chút trong Excel, nhưng kết quả sẽ giống nhau. Hãy thử tính toán với dữ liệu bán hàng từ một chuỗi cửa hàng giảm giá. Chúng tôi sẽ xem xét dữ liệu của một trong các cửa hàng trong chuỗi. Mục tiêu của chúng tôi: sử dụng dữ liệu bán hàng hiện có để tìm bất kỳ xu hướng nào. Đây là một cách tuyệt vời để xem rất nhiều cách mà các công thức có thể hữu ích trong phân tích của bạn. Chúng ta sẽ bắt đầu bằng cách tìm doanh thu hàng năm trong những năm 2011-2020. Dữ liệu đã được sắp xếp theo cột theo
  • 336. tháng và theo hàng theo năm. Nhưng chúng tôi chưa có tổng doanh thu cho mỗi năm. Chúng ta có thể sử dụng một hàm tổng để giúp chúng ta tìm ra điều đó. Chúng tôi sẽ cộng doanh số bán hàng từ năm 2011 trước. Chúng ta sẽ thêm một tiêu đề cho cột doanh thu hàng năm, sau đó chúng ta có thể nhập hàm tính tổng và một công thức. Tất cả các công thức bắt đầu bằng một dấu bằng. Chúng tôi sẽ nhập nó trước, tiếp theo là tổng và sau đó là dấu ngoặc đơn mở. Sau dấu ngoặc đơn mở, chúng ta cần cho công thức biết những ô nào đang được thêm vào. Trong trường hợp này, chúng tôi cần dữ liệu từ toàn bộ hàng bắt đầu trong ô B2. B2 là tham chiếu ô mà chúng ta sẽ sử dụng. Thay vì gõ từng ô một, chúng ta có thể đưa chúng vào công thức một cách nhanh chóng bằng cách chọn ô B2 và kéo chốt điền qua hàng đến ô cuối cùng có dữ liệu bán hàng, M2. Bây giờ chúng ta sẽ hoàn thành công thức bằng cách đóng dấu ngoặc đơn và nhấn Enter. Cứ như vậy, chúng ta đã tính được tổng doanh số bán hàng cho năm 2011. Đây là một lối tắt khác mà chúng ta đã sử dụng trong một video trước đó. Tay cầm lấp đầy là hộp nhỏ ở góc của mỗi lần bán hàng. Bạn có thể sử dụng nó cho nhiều việc như chọn nhiều ô cho một công thức hoặc tiếp tục một mẫu trên nhiều ô, núm điều khiển điền chắc chắn đủ điều kiện làm phím tắt. Chúng tôi có thể sử dụng công thức chúng tôi đã tạo để tính tổng doanh số cho các năm khác trong bộ dữ liệu. Tất cả những gì chúng ta phải làm là kéo thanh điều khiển điền xuống các ô khác trong cột doanh số hàng năm và chúng ta sẽ có tổng dữ liệu doanh số cho những năm còn lại trong tập dữ liệu. Giả sử, chúng ta cũng cần tìm mức tăng trưởng doanh thu hàng năm từ năm này sang năm khác. Đây sẽ là thời điểm tốt để suy nghĩ thấu đáo vấn đề trước khi cố gắng giải quyết nó. Chúng ta có dữ liệu cần thiết để giải quyết vấn đề này không? Chưa. Suy nghĩ ngược như thế này giúp chúng ta hoạch định các bước để tiến về phía trước. Bước đầu tiên chúng ta cần làm là tính tổng doanh thu mỗi năm. Sau đó, chúng tôi sẽ đo tốc độ thay đổi giữa các năm. Chúng ta sẽ bắt đầu bằng cách gắn nhãn cho một cột mới. Trong trường hợp này, chúng tôi sẽ không cần sử dụng hàm hoặc dấu ngoặc đơn, vì chúng tôi chỉ sử dụng dữ liệu từ hai ô. Chúng tôi chỉ có thể sử dụng tên của các ô đó, chúng tôi sẽ nhập dấu bằng và sau đó nhấp vào "Ô N3", ô này sẽ tự động điền doanh số bán hàng đó vào công thức. Tiếp theo, chúng tôi sẽ thêm dấu trừ vào công thức vì chúng tôi đang trừ để tìm sự khác biệt giữa hai năm liên tiếp. Nhấp vào "Ô N2" sẽ cho chúng tôi tổng số của năm 2011, sau đó chúng tôi có thể trừ đi tổng số của năm 2012. Sau đó, chúng tôi nhấn Enter và nhận được mức tăng trưởng doanh số bán hàng của chúng tôi từ năm 2011-2012. Chúng tôi chắc chắn nhận được một số dữ liệu hữu ích ở đây. Cứ đi đi. Chúng tôi cũng có thể sử dụng tốc độ tăng trưởng doanh số bán hàng của mình để tìm tốc độ tăng trưởng giữa hai năm. Chúng tôi sẽ hiển thị điều này dưới dạng phần trăm. Chúng tôi sẽ đứng đầu cột của chúng tôi với dấu phần trăm và tăng trưởng. Để làm điều này, chúng ta sẽ chia tổng số trong ô O3 cho doanh thu hàng năm từ năm 2011 trong ô N2. Dấu gạch chéo là một ký hiệu mà một công thức nhận dạng là phép chia, vì vậy chúng tôi sẽ đặt nó giữa hai tham chiếu ô và thế là xong, có tốc độ tăng trưởng. Tỷ lệ tăng trưởng thường được hiển thị dưới dạng phần trăm, có thể dễ đọc và hiểu hơn số
  • 337. thập phân. Hãy thay đổi con số này thành một tỷ lệ phần trăm. Thời gian cho một phím tắt khác. Tất cả những gì chúng ta phải làm là nhấp vào nút kiểu phần trăm và tốc độ tăng trưởng của chúng ta sẽ trở thành phần trăm. Chúng ta có thể chọn các ô cho cả tổng mức tăng trưởng và tốc độ tăng trưởng để điền vào phần còn lại của hai cột. Chúng tôi có một số con số âm, nhưng điều đó chỉ có nghĩa là có sự tăng trưởng âm từ năm này sang năm khác. Chúng tôi chỉ còn một số điều cần tính toán cho các bên liên quan. Bước tiếp theo là tìm doanh số bán hàng trung bình. Chúng tôi muốn so sánh doanh số bán hàng giữa các tháng để tìm hiểu xem có xu hướng nào không. Chúng tôi sẽ thêm phần này vào một hàng thay vì một cột. Điều này sẽ xếp hàng trung bình của chúng tôi dưới mỗi tháng. Để tìm giá trị trung bình, chúng tôi sẽ tính tổng rồi chia tổng đó cho số giá trị được thêm vào để có giá trị đó. Chúng ta có thể làm điều này bằng cách sử dụng hàm trung bình. Giữa các dấu ngoặc đơn của chúng tôi sẽ chọn các ô chứa dữ liệu bán hàng cho tháng 1, từ B2 đến B11. Chúng tôi sẽ lặp lại công thức đó trên toàn bộ hàng cho đến hết tháng 12 để tìm kiếm các xu hướng. Ngay lập tức, chúng tôi biết rằng các tháng mùa hè và tháng 12 có doanh số bán hàng trung bình cao nhất. Vì các bên liên quan của chúng tôi sẽ muốn hiểu những phát hiện của chúng tôi một cách nhanh chóng và dễ dàng, nên chúng tôi sẽ thêm một chút hình ảnh trực quan vào dữ liệu với định dạng có điều kiện. Bạn sẽ sớm tìm hiểu thêm về trực quan hóa dữ liệu như định dạng có điều kiện. Nhưng đây là một cái nhìn lén lút. Định dạng có điều kiện là một công cụ bảng tính thay đổi cách các ô xuất hiện khi các giá trị đáp ứng các điều kiện cụ thể. Hãy áp dụng định dạng có điều kiện cho các ô có doanh số trung bình theo tháng. Chúng tôi sẽ sử dụng thang màu để hiển thị phạm vi trung bình. Chà, mức trung bình hàng tháng thấp nhất còn lại là màu trắng và chúng tôi sẽ áp dụng các sắc thái màu lục cho các giá trị còn lại. Màu xanh lá cây càng sáng, mức trung bình càng cao. Giờ đây, khi chúng tôi chia sẻ phân tích của mình với các bên liên quan, họ sẽ có thể biết ngay tháng nào có doanh số bán hàng trung bình cao nhất. Chỉ cần một vài bước nữa để hoàn thành phân tích của chúng tôi. Bây giờ chúng ta cần tìm mức tối thiểu và tối đa cho doanh thu trung bình hàng tháng. Với tập dữ liệu nhỏ như vậy, có thể dễ dàng tìm thấy các giá trị tối thiểu và tối đa mà không cần công thức, nhưng bạn vẫn nên sử dụng một công thức. Chưa kể, việc sử dụng công thức giúp ngăn ngừa lỗi của con người, một lần nữa sẽ dựa vào công thức có Hàm để thực hiện các phép tính này, chúng tôi sẽ bắt đầu với mức trung bình hàng tháng thấp nhất. Hàm của chúng tôi ở đây là MIN, theo sau là các ô có tháng trung bình từ B12 đến M12. Sau khi chúng tôi nhấn Enter, mức trung bình hàng tháng thấp nhất được tính toán. Chúng tôi có thể lặp lại các bước tương tự để tìm mức trung bình hàng tháng cao nhất, trong công thức này sẽ sử dụng cùng một dữ liệu, nhưng chúng tôi sẽ thay thế MIN bằng MAX cho mức tối đa. Đối với vị trí cửa hàng này, doanh số bán hàng cao nhất vào tháng 12 và yếu nhất vào tháng 1. Chúng tôi có thể chia sẻ những phát hiện này với các bên liên quan nếu họ đáp ứng các mục tiêu của chúng tôi. Nếu không, chúng ta có thể cần tiếp tục phân tích. Dù bằng cách nào, tôi hy vọng bạn đã học được cách các công thức bảng tính có thể trở thành công cụ
  • 338. có giá trị khi thực hiện các phép tính. Sắp tới, chúng ta sẽ kiểm tra nhiều công thức hơn. Hẹn sớm gặp lại. Chức năng và điều kiện Chào mừng trở lại! Một trong những phép tính đầu tiên mà hầu hết trẻ em học cách thực hiện là đếm. Ngay sau đó, chúng học cách cộng và điều đó không mất đi. Bất kể chúng ta ở độ tuổi nào, chúng ta luôn đếm hoặc thêm một thứ gì đó, cho dù đó là tiền thừa ở cửa hàng tạp hóa hay số đo trong công thức nấu ăn. Các nhà phân tích dữ liệu cũng thực hiện rất nhiều việc đếm và cộng. Và với lượng dữ liệu mà bạn sẽ gặp với tư cách là một nhà phân tích dữ liệu, bạn sẽ rất biết ơn khi có các chức năng có thể thực hiện việc đếm và cộng cho bạn. Vì vậy, hãy tìm hiểu xem các hàm COUNTIF và SUMIF này có thể giúp bạn thực hiện các phép tính để phân tích dễ dàng và chính xác hơn như thế nào. Chúng ta sẽ bắt đầu với hàm COUNTIF. Bạn có thể nhớ COUNTIF từ một số video trước đó về làm sạch dữ liệu. COUNTIF trả về số ô khớp với một giá trị đã chỉ định. Trước đó, chúng tôi đã chỉ ra cách COUNTIF có thể được sử dụng để tìm và đếm lỗi trong tập dữ liệu. Phát video bắt đầu từ ::55 và theo dõi bản ghi 0:55 Ở đây chúng ta sẽ chỉ đếm. Tuy nhiên, xin nhắc lại rằng mặc dù chúng tôi sẽ không tích cực tìm kiếm các lỗi trong video này, nhưng bạn vẫn sẽ muốn đề phòng bất kỳ dữ liệu nào có vẻ không ổn khi thực hiện phân tích của riêng mình. Là một nhà phân tích dữ liệu, bạn sẽ tìm kiếm và sửa lỗi trong từng bước. Đối với ví dụ này, chúng ta sẽ xem xét một mẫu dữ liệu từ một nhà bán lẻ đồ dùng nhà bếp trực tuyến. Các bên liên quan đã yêu cầu chúng tôi trả lời một số câu hỏi về dữ liệu để hiểu thêm về các giao dịch của khách hàng, bao gồm cả doanh thu mà họ mang lại. Chúng tôi đã thêm các câu hỏi cần trả lời vào bảng tính. Chúng ta sẽ thiết lập một bảng tóm tắt đơn giản, đây là bảng được sử dụng để tóm tắt thông tin thống kê về dữ liệu. Chúng tôi sẽ sử dụng các câu hỏi để tạo các thuộc tính cho các cột trong bảng của mình: số lượng, tổng doanh thu và doanh thu trung bình trên mỗi giao dịch. Mỗi câu hỏi của chúng tôi hỏi về giao dịch với một mặt hàng hoặc giao dịch với nhiều mặt hàng, vì vậy đó sẽ là những quan sát cho các hàng của chúng tôi. Chúng tôi sẽ đặt Số lượng làm tiêu đề cho các quan sát của chúng tôi. Chúng tôi cũng sẽ thêm các đường viền để làm cho bảng tóm tắt đẹp và rõ ràng. Câu hỏi đầu tiên hỏi, Có bao nhiêu giao dịch bao gồm chính xác một mặt hàng? Để trả lời câu hỏi này, chúng ta sẽ thêm một công thức sử dụng hàm COUNTIF trong ô G11. Chúng ta sẽ bắt đầu với một dấu bằng, COUNTIF, và một dấu ngoặc đơn mở. Cột B có dữ liệu về số lượng. Vì vậy, chúng tôi sẽ chọn các ô từ B3 đến B50, theo sau là dấu phẩy. Tiếp theo, chúng ta cần cho công thức biết giá trị mà chúng ta đang tìm kiếm trong các ô mà chúng ta đã chọn. Chúng tôi muốn yêu cầu dữ liệu đếm số lượng giao dịch nếu chúng bằng 1. Trong trường hợp này, giữa các dấu ngoặc kép, chúng tôi sẽ nhập dấu bằng và số 1 vì đó là giá trị chính xác mà chúng tôi cần tính. Khi chúng tôi thêm một dấu ngoặc đơn đóng và nhấn enter, chúng tôi sẽ nhận
  • 339. được tổng số giao dịch chỉ có một mục, là 25. Chúng tôi có thể làm theo các bước tương tự để đếm các giá trị lớn hơn một. Nhưng lần này, vì chúng ta chỉ muốn các giá trị lớn hơn 1, nên chúng ta sẽ nhập dấu lớn hơn vào công thức bên trong dấu bằng. Nhận thông tin này giúp chúng tôi so sánh dữ liệu về số lượng. Được rồi, bây giờ chúng ta cần tìm hiểu tổng doanh thu mà mỗi loại giao dịch mang lại là bao nhiêu. Vì dữ liệu không được sắp xếp theo số lượng nên chúng ta sẽ sử dụng hàm SUMIF để giúp cộng doanh thu cho các giao dịch với một mặt hàng và thêm một mặt hàng nữa mục một cách riêng biệt. SUMIF là hàm cộng dữ liệu số dựa trên một điều kiện. Xây dựng công thức với SUMIF hơi khác so với xây dựng với COUNTIF. Cả hai đều bắt đầu theo cùng một dấu bằng và hàm, nhưng công thức SUMIF chứa phạm vi ô được đánh giá theo tiêu chí của bạn và tiêu chí. Nói cách khác, SUMIF có một danh sách các ô cần kiểm tra dựa trên tiêu chí bạn đặt trong công thức. Sau đó, phạm vi mà chúng tôi muốn thêm các số sẽ được đặt trong công thức nếu phạm vi đó khác với phạm vi được đánh giá. Có dấu phẩy giữa mỗi phần này. Thêm khoảng trắng sau mỗi dấu phẩy là tùy chọn. Vì vậy, hãy thử điều này. Trong ô H11, chúng tôi sẽ nhập công thức của mình. Phạm vi được đánh giá nằm trong cột B, vì vậy chúng tôi sẽ chọn các ô đó. Điều kiện mà chúng tôi muốn dữ liệu đáp ứng là các giá trị trong cột phải bằng một. Vì vậy, chúng tôi sẽ nhập dấu phẩy và sau đó bên trong dấu ngoặc kép một dấu bằng và số một. Sau đó, chúng tôi sẽ chọn phạm vi sẽ được thêm vào dựa trên việc liệu dữ liệu từ phạm vi đầu tiên của chúng tôi có bằng một hay không. Phạm vi này nằm trong cột C, liệt kê doanh thu cho mỗi giao dịch. Vì vậy, mọi khoản doanh thu kiếm được từ một giao dịch chỉ với một mặt hàng sẽ được cộng lại với nhau. Và có tổng số của chúng tôi. Vì đây là doanh thu nên chúng tôi sẽ thay đổi định dạng của số thành đơn vị tiền tệ để số này hiển thị dưới dạng đô la và xu. Vì vậy, các giao dịch với chính xác một mặt hàng kiếm được $1.555,00 doanh thu. Hãy xem có bao nhiêu giao dịch với nhiều mặt hàng kiếm được. Được rồi, hãy kiểm tra kết quả. Cũng giống như ví dụ về COUNTIF của chúng tôi, công thức SUMIF thứ hai sẽ giống như công thức đầu tiên, ngoại trừ điều kiện làm cho nó lớn hơn một. Khi chạy công thức, chúng tôi phát hiện ra rằng tổng doanh thu cao hơn nhiều, $4.735,00. Điều này hợp lý vì doanh thu đến từ các giao dịch có nhiều mặt hàng. Tin tốt. Để hoàn thành mục tiêu của chúng tôi, chúng tôi sẽ thực hiện thêm hai phép tính nhanh. Đầu tiên, chúng ta sẽ tìm doanh thu trung bình trên mỗi giao dịch bằng cách chia từng tổng số cho số lượng của nó. Điều này sẽ cho các bên liên quan của chúng tôi biết mức độ chênh lệch về doanh thu trên mỗi giao dịch giữa giao dịch một mặt hàng và giao dịch nhiều mặt hàng. Thông tin này có thể hữu ích vì nhiều lý do. Ví dụ: tìm hiểu xem có nên thêm chiết khấu khi mua nhiều mặt hàng để khuyến khích khách hàng mua nhiều hơn hay không. Chúng tôi sẽ đặt những tính toán này vào cột cuối cùng của bảng tóm tắt của chúng tôi. Bạn có thể nhớ rằng chúng tôi sử dụng dấu gạch chéo trong công thức làm toán tử cho các phép tính chia. Doanh thu trung bình cho các giao dịch với một mặt hàng là $62,20. Và doanh thu trung bình cho các giao dịch có nhiều mặt hàng là $205,87. Và đó là nó cho phân tích của chúng tôi. Bảng tóm
  • 340. tắt của chúng tôi hiện cung cấp cho các bên liên quan và các thành viên trong nhóm một bản tóm tắt phân tích dễ hiểu. Các hàm COUNTIF và SUMIF của chúng tôi đóng một vai trò quan trọng ở đây. Sử dụng các hàm này để hoàn thành các phép tính, đặc biệt là trong các bộ dữ liệu lớn, có thể giúp tăng tốc độ phân tích của bạn. Họ cũng có thể làm cho việc đếm và thêm một chút thú vị hơn. Không có gì sai với điều đó. Và sắp tới, chúng ta sẽ khám phá nhiều chức năng hơn để giúp các phép tính của bạn chạy trơn tru. Tạm biệt bây giờ. Chương 2: Pivot...pivot...pivot... Bắt đầu làm việc với các bảng tổng hợp Này, kia. Đến giờ, chúng ta đã học được rất nhiều về hàm và công thức. Chúng là những công cụ rất hữu ích cho hộp công cụ của bạn và tuyệt vời để tìm lối tắt để hoàn thành phép tính. Nhưng có một công cụ khác thực hiện một số điều tương tự trong bảng tính: bảng tổng hợp. Xin nhắc lại, bảng tổng hợp cho phép bạn xem dữ liệu theo nhiều cách để tìm thông tin chi tiết và xu hướng. Trước đây, chúng ta đã nói về cách các bảng tổng hợp giúp làm sạch và sắp xếp dữ liệu của bạn, bao gồm sắp xếp và nhóm dữ liệu. Nhưng bảng tổng hợp cũng có thể giúp tính toán. Ví dụ: chúng rất tuyệt vời để tính nhanh tổng và giá trị trung bình. Hãy xem lại bộ dữ liệu phim của chúng tôi để cho bạn thấy cách các bảng tổng hợp và các phép tính phối hợp với nhau. Trước đó, chúng tôi đã tóm tắt và sắp xếp dữ liệu này trong các bảng tổng hợp. Chúng tôi cũng sẽ làm điều đó ở đây. Nhưng trong trường hợp này, tổ chức là một phần thưởng cho việc sử dụng các bảng tổng hợp để tính toán. Bạn cũng có thể thực hiện các bước này trong Excel, mặc dù một số bước có thể trông khác. Nếu đang sử dụng Excel, bạn có thể xem phần đọc sau video này để biết thêm chi tiết về bảng tổng hợp và bảng tính Excel. Trong ví dụ này, người quản lý của bạn yêu cầu bạn tìm một số xu hướng để giúp họ suy nghĩ thông qua các ý tưởng phim mới bằng cách sử dụng tính toán doanh thu. Bảng tính này có dữ liệu về các bộ phim từ vài năm trước. Vì vậy, nó có thể sẽ không hữu ích ngay bây giờ. Tuy nhiên, các bước chúng tôi thực hiện để phân tích dữ liệu hoàn toàn áp dụng cho đến bây giờ. Vì vậy, chúng ta hãy đi vào nó. Đầu tiên, chúng ta cần tìm hiểu xem doanh thu được tạo ra mỗi năm là bao nhiêu. Một bảng tổng hợp là một cách tốt để tổ chức việc này. Vì vậy, chúng tôi sẽ tạo một bảng tổng hợp để hiển thị điều này. Trong bảng tổng hợp của chúng tôi, chúng tôi cũng có thể tìm thấy doanh thu trung bình trên mỗi bộ phim. Sau đó, chúng tôi có thể kiểm tra những phát hiện của mình để biết một số xu hướng có thể xảy ra. Chúng tôi sẽ bắt đầu bằng cách tìm doanh thu được tạo ra mỗi năm. Điều này cung cấp cho chúng tôi ngày
  • 341. phát hành của mỗi bộ phim trong cột B và doanh thu phòng vé trong cột N. Thay vì sắp xếp lại bảng theo năm và xây dựng công thức để tính doanh thu mỗi năm, chúng tôi sẽ tạo một bảng tổng hợp. Chà, tại bảng tổng hợp trong một trang tính mới giữ phạm vi dữ liệu của ô A1 đến ô N509. Thêm một trang tính mới đặc biệt hữu ích khi làm việc trong một tập dữ liệu lớn như thế này. Nó giúp giữ các tính toán của chúng ta ở cùng một nơi và tách biệt với phần còn lại của dữ liệu. Chúng tôi sẽ đổi tên doanh thu trang tính này để gọi ra vị trí tính toán của chúng tôi, cho cả chúng tôi và cho bất kỳ ai khác trong nhóm của chúng tôi, những người có thể cần phân tích của chúng tôi. Bây giờ chúng ta có thể tạo bảng tổng hợp của mình, bắt đầu với các hàng. Chúng tôi sẽ sắp xếp các hàng theo ngày phát hành để tìm ra doanh thu mỗi năm. Bạn có thể nhận thấy điều này tạo ra một hàng cho mỗi ngày một hoặc nhiều phim trong bộ dữ liệu này được phát hành. Vì chúng tôi chỉ cần số năm, nên chúng tôi sẽ nhấp chuột phải vào một trong các ô trong cột ngày phát hành để tạo nhóm ngày xoay vòng và nhóm theo năm. Bây giờ chúng tôi có các hàng, một hàng cho mỗi năm mà những bộ phim này được phát hành. Tiếp theo, chúng tôi muốn làm việc với các giá trị. Chà, tại dữ liệu doanh thu phòng vé đây. Điều này điền vào các cột bên cạnh ngày phát hành với tổng doanh thu phòng vé và mỗi năm. Các tính toán này là tự động vì bảng tổng hợp đã được đặt để tóm tắt dữ liệu bằng hàm tổng. Vì vậy, không cần phải thay đổi cài đặt này. Tuy nhiên, có các chức năng khác và được tóm tắt theo menu, chẳng hạn như min cho số tiền doanh thu tối thiểu mỗi năm và tính cho số lượng phim tạo ra doanh thu trong mỗi năm. Được rồi, hãy xem chúng ta có gì ở đây. Số liệu này cho thấy năm 2014 có doanh thu cao nhất, trong khi năm 2016 có doanh thu thấp nhất. Đây có thể là thông tin hữu ích, nhưng việc tìm kiếm doanh thu trung bình trên mỗi phim rất có thể sẽ hữu ích hơn vì số lượng phim được phát hành mỗi năm là khác nhau. Vì vậy, chúng tôi sẽ thêm một cột khác cho doanh thu trung bình kiếm được của mỗi bộ phim trong năm. Chúng ta có thể làm điều này trong cùng một bảng tổng hợp. Chúng tôi sẽ thêm một giá trị khác và thay đổi hàm mà chúng tôi sử dụng để tóm tắt từ tổng thành trung bình. Hàm trung bình cho chúng ta doanh thu trung bình mỗi năm của các phim trong tập dữ liệu. Có thể thấy doanh thu bình quân năm 2015 thấp hơn nhiều so với các năm khác. Vì dữ liệu này rất nổi bật nên chúng ta hãy tiếp tục khám phá để tìm hiểu lý do tại sao. Đưa phân tích của bạn lên một cấp độ khác như thế này là một dấu hiệu của một nhà phân tích tuyệt vời. Khi làm công việc của mình, bạn muốn trả lời các câu hỏi mà người quản lý và các bên liên quan của bạn đặt ra. Nhưng bạn cũng muốn trả lời những câu hỏi xuất hiện trong khi bạn đang phân tích. Vì vậy, hãy cố gắng tìm ra điều này. Trước tiên, chúng tôi sẽ biết có bao nhiêu phim từ mỗi năm được đưa vào tập dữ liệu, chúng tôi sẽ thêm một giá trị mới và sử dụng hàm đếm lần
  • 342. này. Điều này cho chúng ta thấy rằng có nhiều phim trong bộ dữ liệu từ năm 2015 hơn bất kỳ năm nào khác. Nhưng năm 2015 vẫn có tổng doanh thu phòng vé thấp thứ hai. Điều này có thể có nghĩa là một vài điều. Có khả năng nhiều phim từ năm 2015 không kiếm được nhiều doanh thu so với các năm khác, điều này sẽ làm giảm doanh thu trung bình chung. Ngay cả khi tổng doanh thu vẫn ngang bằng với các năm khác. Chúng ta sẽ khám phá chỉ một khả năng này ở đây. Nhưng bạn luôn có thể tiến xa hơn khi phân tích dữ liệu trong công việc của chính mình. Nó sẽ phụ thuộc vào mục tiêu của bạn và các câu hỏi bạn cần trả lời. Bây giờ, hãy sao chép và dán bảng tổng hợp của chúng tôi để chúng tôi có thể kiểm tra giả thuyết của mình. Chúng tôi sẽ đổi tên các cột và bảng sao chép của chúng tôi để phân biệt chúng với bảng gốc của chúng tôi. Chúng tôi sẽ đặt tên cho chúng dựa trên dữ liệu mà chúng tôi sẽ xem xét, tôi sẽ giải thích điều này trong video tiếp theo. Bây giờ bảng tổng hợp được sao chép của chúng tôi đã sẵn sàng để chúng tôi kiểm tra giả thuyết của mình. Tiếp theo, chúng tôi sẽ sử dụng các bộ lọc để tìm xem có bao nhiêu phim kiếm được doanh thu dưới 10 triệu đô la Mỹ trong năm 2015. Sau đó, chúng tôi cũng sẽ tạo một trường được tính toán để xác định tỷ lệ phần trăm trong tổng số phim từ năm đó mà chúng đại diện. Tôi sẽ ở đây khi bạn sẵn sàng tìm hiểu thêm về bảng tổng hợp. Tiếp tục bảng tổng hợp Chào mừng trở lại. Trong video trước, chúng tôi đã tạo một bảng tổng hợp dữ liệu phim và tính toán doanh thu để giúp người quản lý của chúng tôi nghĩ ra các ý tưởng phim mới. Chúng tôi đã sử dụng bảng tổng hợp để thực hiện một số quan sát ban đầu về doanh thu hàng năm. Chúng tôi cũng phát hiện ra rằng doanh thu trung bình của năm 2015 thấp hơn so với các năm khác mặc dù có nhiều phim được phát hành hơn trong năm đó. Chúng tôi đưa ra giả thuyết rằng điều này là do có nhiều phim kiếm được doanh thu dưới 10 triệu đô la Mỹ được phát hành vào năm 2015. Để kiểm tra lý thuyết này, chúng tôi đã tạo một bản sao của bảng tổng hợp ban đầu. Bây giờ chúng ta sẽ áp dụng các bộ lọc trong các trường được tính toán để khám phá dữ liệu nhiều hơn. Bắt đầu nào. Tất cả các bạn đều nhớ rằng tùy chọn bộ lọc chỉ cho phép chúng tôi xem các giá trị chúng tôi cần. Chúng tôi sẽ chọn một ô trong bảng tổng hợp đã sao chép của mình và thêm bộ lọc vào cột doanh thu phòng vé. Sau đó, bộ lọc sẽ được áp dụng cho toàn bộ bảng. Khi chúng tôi mở menu trạng thái, chúng tôi có thể chọn lọc dữ liệu để hiển thị các giá trị cụ thể. Nhưng trong trường hợp của chúng tôi, chúng tôi muốn lọc theo điều kiện để có thể biết có bao nhiêu bộ phim kiếm được dưới 10 triệu đô la mỗi năm. Điều kiện mà chúng tôi sẽ sử dụng trong bộ lọc của mình nhỏ hơn và giá trị của chúng tôi sẽ là 10 triệu đô la, đó là lý do tại sao chúng tôi đã đổi tên các cột này sớm hơn.
  • 343. Chúng tôi sẽ nhập số của mình ở định dạng đô la và xu để điều kiện khớp với dữ liệu trong bảng tổng hợp của chúng tôi. Điều này có thể không cần thiết, nhưng nó ngăn ngừa các lỗi tiềm ẩn xảy ra. Bây giờ chúng ta biết rằng 20 bộ phim được phát hành trong năm 2015 đã kiếm được ít hơn 10 triệu đô la. Đây có vẻ là một con số cao so với các năm khác. Nhưng xin lưu ý rằng có nhiều phim hơn từ tập dữ liệu của chúng tôi được phát hành vào năm 2015. Trước khi tiếp tục, hãy sử dụng trường được tính toán để xác minh mức trung bình của chúng tôi vì trường này được sao chép từ một bảng tổng hợp khác trước khi chúng tôi lọc. Bằng cách đó chúng ta có thể kiểm tra xem nó có đúng không. Chúng tôi sẽ tạo một cột tùy chỉnh được gọi là trường được tính toán bằng menu giá trị của chúng tôi. Calculated field (Trường được tính toán): Trường mới trong bảng tổng hợp thực hiện các tính toán được phép tốt nhất dựa trên giá trị của các trường khác nhau. Bạn cũng có thể làm điều này trong Excel bằng cách sử dụng cài đặt trường và menu tạo công thức. Đối với công thức trong trường được tính toán của chúng tôi, chúng tôi sẽ sử dụng hàm tổng và chia tổng dữ liệu doanh thu phòng vé từ bảng ban đầu của chúng tôi cho số lượng dữ liệu tương tự. Vì chúng tôi đã áp dụng bộ lọc của mình cho bảng tổng hợp này trước đó nên công thức này sẽ chỉ trả về doanh thu trung bình của các bộ phim dưới 10 triệu đô la. Điều đó đã làm việc. Chúng tôi có thể kiểm tra tính chính xác của một số dữ liệu trước khi phân tích. Luôn luôn là một điều tốt. Nhưng vẫn khó nói mức độ ảnh hưởng của những phim có doanh thu thấp hơn này đối với doanh thu trung bình. Hãy chạy một công thức nhanh để tìm tỷ lệ phần trăm phim mỗi năm kiếm được ít hơn 10 triệu đô la. Điều này sẽ làm cho nó dễ dàng hơn để so sánh từ năm này sang năm khác. Thay vì trường được tính toán, chúng tôi sẽ thêm trường này làm công thức trong một cột mới, theo cách đó chúng tôi có thể lấy dữ liệu từ cả hai bảng tổng hợp của mình. Chúng tôi sẽ đặt tiêu đề cho bảng của chúng tôi trong ô G10 và đặt tên cho nó là phần trăm của tổng số phim. Sau đó, chúng tôi sẽ thêm công thức của mình vào ô tiếp theo trong cột. Chia số phim trong bảng sao chép cho số phim trong bảng gốc. Sau đó, chúng ta sẽ sử dụng núm điều khiển điền vào ô có công thức và kéo nó để áp dụng công thức cho các năm còn lại. Cuối cùng, chúng tôi sẽ định dạng những con số này dưới dạng phần trăm. Bây giờ, phân tích của chúng tôi cho thấy rằng 16% phim phát hành trong năm 2015 kiếm được ít hơn 10 triệu đô la doanh thu. Các năm khác đều gần 10 phần trăm. Đây là một lời giải thích khả dĩ cho lý do tại sao doanh thu trung bình tương đối thấp trong năm 2015. Trong thực tế, rất có thể chúng ta cần phải phân tích sâu hơn nữa tùy thuộc vào mục tiêu của mình. Nhưng hiện tại, chúng ta đã sẵn sàng. Bạn đã học cách sử dụng bảng tổng hợp để thực hiện tính toán dữ liệu. Nó sẽ cần thực hành, nhưng các bảng tổng hợp đáng giá vì chúng làm được nhiều việc hơn là tính toán. Họ cũng tổ chức và lọc dữ liệu. Chúng ta đã cùng nhau tìm hiểu các hàm, công thức và bảng tổng hợp. Tất cả các công cụ tuyệt vời để sử dụng
  • 344. trong phân tích. Với thực tế và kinh nghiệm, bạn sẽ cảm thấy như mình đã sử dụng chúng mãi mãi. Chỉ cần dành thời gian của bạn để biết làm thế nào họ làm việc. Tiếp tục khám phá những video này và các bài đọc. Công việc tuyệt vời.
  • 345. Chương 3: Tìm hiểu thêm các phép tính SQL Truy vấn và tính toán Đến bây giờ, bạn có thể biết rằng có nhiều cách để thực hiện công việc hàng ngày của một nhà phân tích dữ liệu. Các phép tính cũng không ngoại lệ. Như chúng tôi đã trình bày trong các video trước đó, bạn có thể hoàn thành các phép tính tương tự theo nhiều cách khác nhau trong bảng tính. Bạn cũng có thể hoàn thành chúng bằng SQL. Trong video này, chúng tôi sẽ cung cấp cho bạn tổng quan về cách tính toán SQL so với tính toán bảng tính. Hãy xem xét các toán tử số học được sử dụng trong cả bảng tính và SQL. Toán tử là một ký hiệu đặt tên cho loại thao tác hoặc phép tính sẽ được thực hiện trong một công thức. Như bạn đã học trước đó, bốn toán tử số học cơ bản trong công thức bảng tính là dấu cộng cho phép cộng, dấu trừ hoặc dấu gạch ngang cho phép trừ, dấu hoa thị cho phép nhân và dấu gạch chéo lên cho phép chia. Các toán tử tương tự này tính toán dữ liệu theo cùng một cách khi viết các truy vấn trong SQL. Các toán tử được nhúng trong các truy vấn khi lấy dữ liệu từ cơ sở dữ liệu. Cũng giống như công thức bảng tính, có một số cách khác nhau để thực hiện phép tính bằng cách sử dụng truy vấn. Hãy xem cú pháp của một truy vấn có thể. Cú pháp của một truy vấn là cấu trúc của nó. Nó phải bao gồm tất cả các chi tiết cụ thể của dữ liệu mà bạn muốn kéo vào một bảng mới, nơi các chi tiết đó sẽ được đặt. Nếu bạn muốn thêm các giá trị từ hai cột của một bảng, bạn bắt đầu bằng lệnh SELECT, theo sau là tên của cột đầu tiên, sau đó là tên của cột thứ hai. Sau đó, bạn sẽ thêm tên của cả hai cột bằng dấu cộng giữa chúng. Sau đó, bạn sẽ nhập AS theo sau là tên bạn muốn đặt cho cột có tổng số được thêm vào. Cuối cùng, bạn hoàn thành truy vấn của mình bằng cách nhập TỪ và sau đó nhập tên của bảng mà bạn đang lấy dữ liệu từ đó.
  • 346. Chạy truy vấn này sẽ giúp bạn có một bảng hiển thị hai cột có các giá trị đang được cộng với nhau cộng với một cột mới hiển thị tổng của các giá trị đó. Toán tử trong truy vấn này là một dấu cộng vì các giá trị đang được thêm vào. Nếu bạn cần trừ, nhân hoặc chia, bạn sẽ làm theo các bước tương tự bằng cách sử dụng các toán tử thích hợp. Nếu bạn cần sử dụng nhiều toán tử số học trong một phép tính, bạn nên sử dụng dấu ngoặc đơn để kiểm soát thứ tự của các phép tính. Nếu chúng tôi bao gồm cột C trong truy vấn của mình, chúng tôi có thể đặt dấu ngoặc đơn xung quanh cột A cộng với cột B. Sau đó, chúng tôi thêm dấu hoa thị nếu chúng tôi đang nhân, theo sau là cột C.
  • 347. Truy vấn này sẽ trả về một cột mới, tổng của các giá trị trong cột A và B nhân với các giá trị trong cột C. Bây giờ, giả sử bạn chỉ muốn phần còn lại từ phép tính chia. Chà, bạn cần một toán tử khác cho việc này, toán tử modulo. Toán tử modulo được biểu thị bằng ký hiệu phần trăm. Modulo is An operator (%) that returns the remainder when one number is divided by another (Một toán tử trả về phần dư khi một số được chia cho một số khác). Trong bảng tính, bạn có thể hoàn thành phép tính tương tự bằng hàm MOD. Điều này đưa chúng ta đến một điểm tương đồng khác giữa các tính toán trong bảng tính và SQL. Rất nhiều lần, bạn có thể sử dụng các hàm thay vì các toán tử để hoàn thành các phép tính. Ví dụ: hàm SUM có thể hoàn thành các bài toán cộng trong bảng tính và SQL. Hàm AVERAGE trong bảng tính giống như hàm AVG trong SQL. Cả hai đều trả về giá trị trung bình của một tập hợp số. Trong SQL, các hàm này được coi là các hàm tổng hợp vì chúng thực hiện phép tính trên một hoặc nhiều giá trị và trả về một giá trị duy nhất. Bạn sẽ sớm tìm hiểu thêm về cách chúng được sử dụng với lệnh GROUP BY trong một truy vấn. Đó là những điều cơ bản của tính toán SQL. Biết cách viết truy vấn cho một phép tính là bước đầu tiên tốt. Ở lại với chúng tôi và bạn sẽ tìm hiểu thêm về các phép tính trong SQL. Tạm biệt bây giờ. Nhúng các phép tính đơn giản vào SQL Chào bạn lần nữa nhé. Trước đó, chúng tôi đã chỉ cho bạn cách hoàn thành các phép tính trong SQL. Mặc dù có một số cách khác nhau nhưng việc nhúng chúng vào các truy vấn là một cách rất hữu ích.
  • 348. Khi bạn đưa một phép tính vào truy vấn bằng các lệnh khác, bạn có thể thực hiện nhiều công việc nhanh hơn. Đây là một cú pháp truy vấn cơ bản mà chúng ta đã nói đến. Chúng tôi bắt đầu với SELECT và sau đó là tên của các cột mà chúng tôi muốn sử dụng trong các phép tính của mình. Sau đó, chúng tôi thêm vào các chi tiết tính toán bao gồm một toán tử như dấu gạch chéo lên để chia. Tiếp theo, chúng tôi nhập AS theo sau là tên cột mới để gắn nhãn cột với các giá trị được tính toán. Cuối cùng, chúng tôi kết thúc truy vấn của mình bằng lệnh FROM và tên của bảng mà chúng tôi đang lấy dữ liệu từ đó. Bây giờ, hãy chuyển sang cấp độ tiếp theo với một số phép tính nhúng sử dụng cú pháp như cú pháp này. Tốt hơn nữa, chúng ta sẽ làm điều này với một số dữ liệu về quả bơ. Xin lỗi những bạn không mê bơ như mình. Bắt đầu nào. Vui lòng tiếp tục xem khi chúng tôi chỉ cho bạn các bước sử dụng BigQuery. Nếu bạn đang tham gia cùng chúng tôi, hãy mở công cụ bạn chọn để sử dụng SQL. Hãy nhớ xem qua các hướng dẫn trong bài đọc ngay trước video này để giúp bạn bắt đầu. Dữ liệu đã được tải sẵn, vì vậy chúng tôi có thể bắt đầu ngay. Mục tiêu của chúng tôi là tìm ra tổng số túi bơ được bán vào mỗi ngày tại mỗi địa điểm bằng cách sử dụng dữ liệu này. Đã có một cột hiển thị cho chúng tôi tổng số, nhưng chúng tôi muốn đảm bảo rằng chúng tôi hiểu cách tính tổng số đó. Chúng tôi muốn đảm bảo rằng tổng cột chỉ là các túi nhỏ, lớn và cực lớn được cộng lại với nhau. Chúng tôi sẽ cộng các giá trị trong ba cột đó lại với nhau trong truy vấn của mình, sau đó so sánh chúng với cột tổng số túi trong tập dữ liệu. Chúng ta sẽ bắt đầu với lệnh SELECT mà chúng ta sẽ sử dụng để kéo các cột nhất định khỏi bảng. Chúng tôi đang chọn một số cột, vì vậy chúng tôi sẽ nhấn Enter sau SELECT và sau dấu phẩy sau mỗi tên cột. Tiếp theo, chúng tôi sẽ nhập các tên cột đó: Ngày, Vùng, Small_bags, Large_bags, XLarge_Bags
  • 349. và Total_Bags. Underscores is Lines used to underline words and connect text characters (Dấu gạch dưới là những dòng được sử dụng để gạch dưới các từ và kết nối các ký tự văn bản). Sử dụng dấu cách có thể gây nhầm lẫn cho một số máy chủ và ứng dụng. Thay vào đó, sử dụng dấu gạch dưới giúp tránh các sự cố tiềm ẩn trong khi vẫn giữ cho tên có thể đọc được. Bây giờ, chúng ta sẽ thêm phép tính vào truy vấn bằng cách sử dụng tên của ba cột có dấu cộng giữa chúng: túi nhỏ cộng với túi lớn cộng với túi cực lớn. Vì chúng tôi muốn tính toán này trong một cột mới, nên chúng tôi sẽ sử dụng lệnh AS để đặt tên cho cột là Total_Bags_Calc. Chúng tôi đã thêm từ "Calc" để có thể so sánh các cột với nhau sau khi tính toán kết quả. Bây giờ, chúng tôi sẽ kết thúc truy vấn của mình với TỪ và tên của tập dữ liệu cũng như tập hợp con mà chúng tôi đang lấy từ đó, butter_data.avocado_prices. Hãy chạy truy vấn. Trong cột "Total Bags Calc", dữ liệu hiển thị tổng của mỗi ngày đối với số lượng túi bơ nhỏ, lớn và cực lớn đã được bán tại mỗi địa điểm. Nếu chúng ta nhanh chóng so sánh hai cột hiển thị tổng số túi, chúng ta sẽ biết rằng các giá trị là như nhau. Điều này cho chúng tôi biết rằng dữ liệu chúng tôi muốn sử dụng là dữ liệu phù hợp. Bây giờ chúng tôi đã xác minh tổng số túi, chúng tôi có thể sử dụng các giá trị đó trong một truy vấn khác. Chúng ta cần tìm bao nhiêu phần trăm tổng số túi là túi nhỏ. Việc tìm ra điều này có thể giúp các bên liên quan đưa ra quyết định về cách đóng gói bơ hoặc kích cỡ túi để tiến hành bán hàng. Công việc của chúng tôi là đưa thông tin đó đến các bên liên quan. Vì vậy, chúng tôi sẽ thiết lập một truy vấn mới. Chúng tôi sẽ chọn các cột Ngày, Khu vực, Tổng số Túi và Túi nhỏ cho truy vấn này. Tiếp theo, chúng tôi sẽ thiết lập một cột mới bắt đầu với phép tính của chúng tôi. Để tìm tỷ lệ phần trăm của các túi nhỏ, trước tiên chúng ta cần chia số lượng túi
  • 350. nhỏ cho tổng số túi bằng cách sử dụng dấu gạch chéo làm toán tử. Chúng tôi sẽ đặt phần tính toán này trong ngoặc đơn để cho máy chủ biết rằng phép tính này nên được thực hiện trước. Sau đó, chúng tôi sẽ nhân tổng số này với 100 bằng cách sử dụng dấu hoa thị làm toán tử của chúng tôi. Nhân với 100 sẽ cho chúng ta một giá trị là phần trăm thay vì số thập phân. Tỷ lệ phần trăm thường giúp mọi người hiểu nhanh hơn khi bạn chia sẻ kết quả với họ. Chúng tôi sẽ sử dụng lệnh AS để đặt tên cho cột mới này là "Phần trăm túi nhỏ". Sau đó, chúng tôi sẽ thêm TỪ và tên của tập hợp mà chúng tôi đang lấy từ đó và chúng tôi sẽ chạy truy vấn của mình. Chúng tôi gặp lỗi trong kết quả của mình. Nó nói rằng chúng ta không thể chia cho số không. Vì chúng tôi đang tìm tỷ lệ phần trăm, chia cho 0 sẽ không hoạt động. Điều này có nghĩa là ở đâu đó trong tập dữ liệu có tổng số túi bằng không. Chúng tôi sẽ phải sửa lỗi này trong truy vấn của mình. Chúng ta có thể sửa lỗi này bằng lệnh WHERE. WHERE cho phép chúng tôi thêm một điều kiện vào phép tính của mình. Sau khi chúng tôi nhập WHERE, chúng tôi sẽ nhập Total_Bags theo sau là dấu nhỏ hơn và sau đó là dấu lớn hơn. Các biểu tượng này cho máy chủ biết rằng các giá trị mà chúng tôi đang tính toán không được bằng với giá trị mà chúng tôi chỉ định. Trong trường hợp này, giá trị đó bằng không. Vì vậy, chúng tôi sẽ thêm số 0 vào truy vấn của mình. Bây giờ, khi chúng tôi chạy truy vấn, bạn sẽ nhận thấy cột mới của chúng tôi hiển thị phần trăm túi nhỏ trong tổng số túi. Chúng tôi sẽ nhận được kết quả tương tự nếu chúng tôi sử dụng dấu chấm than theo sau là dấu bằng thay cho dấu nhỏ hơn và lớn hơn. Lưu ý rằng đây là một cách để làm điều đó. Nhưng có những chức năng như SAFE_DIVIDE cũng cho phép bạn tránh lỗi này. Đó chỉ là một vài ví dụ để giúp bạn bắt đầu. Nhưng với SQL, bạn có thể hoàn thành bất kỳ phép tính nào bạn muốn trong quá trình phân tích của mình. Việc nhúng các phép tính vào các truy vấn của bạn sẽ giúp bạn sắp xếp phân tích của mình trong khi nhận được kết quả. Các phương pháp tính toán mà chúng tôi đã giới thiệu cho bạn ở đây mới chỉ là bước khởi đầu. Vì vậy, hãy tìm kiếm nhiều hơn sắp tới. Hẹn sớm gặp lại. Tính toán với các câu lệnh khác Này, rất vui được gặp bạn. Là một nhà phân tích dữ liệu, bạn sẽ thấy rằng các tính toán của mình có đủ hình dạng và kích cỡ. Trước đó, chúng tôi đã chỉ cho bạn cách thực hiện một số phép tính cơ bản hơn trong SQL. Trong khi, tính toán cơ bản là tuyệt vời. Đôi khi, bạn sẽ cần nhóm dữ liệu trước khi hoàn thành phép tính. Các lệnh GROUP BY và ORDER BY giúp bạn làm việc này. Các lệnh này thường được ghép nối với các hàm tổng hợp như SUM hoặc COUNT. Chúng tôi sẽ chỉ cho bạn cách bạn có thể sử dụng các lệnh và hàm này để tính toán và tóm tắt dữ liệu từ các nhóm hàng trong bảng. Trước tiên hãy khám phá lệnh GROUP BY. GROUP BY là lệnh nhóm các hàng có cùng giá trị từ một bảng thành các hàng tóm tắt. Lệnh GROUP BY được sử dụng với các câu lệnh SELECT. Trong truy vấn SELECT FROM hoặc SELECT-FROM-WHERE cơ bản, GROUP BY xuất hiện ở cuối truy vấn. Được rồi, hãy thử
  • 351. sử dụng GROUP BY. Chúng tôi sẽ làm việc với cơ sở dữ liệu, với dữ liệu từ hệ thống chia sẻ xe đạp. Chúng tôi muốn biết có bao nhiêu chuyến đi mà mọi người đã thực hiện trên những chiếc xe đạp này mỗi năm. Dữ liệu này có một số cột, nhưng đối với tác vụ này, chúng tôi chỉ cần cột thời gian bắt đầu. Vì tập dữ liệu này không được sắp xếp theo ngày và cột thời gian bắt đầu không được sắp xếp theo năm nên chúng tôi cần đưa các bước vào mã của mình để sắp xếp nó. Chúng tôi cũng muốn có tổng số chuyến đi mỗi năm. Vì vậy, chúng tôi sẽ cần bao gồm một phép tính trong truy vấn của chúng tôi cho điều này. Và tùy thuộc vào những câu hỏi mà chúng tôi được giao nhiệm vụ trả lời, đây có thể là bước đầu tiên trong nhiều bước phân tích của chúng tôi. Chúng ta sẽ bắt đầu truy vấn bằng lệnh SELECT. Sau đó, chúng tôi sẽ thêm EXTRACT vào truy vấn của mình. Lệnh EXTRACT cho phép chúng ta kéo một phần của một ngày nhất định để sử dụng. Chúng tôi sẽ trích xuất năm từ cột thời gian bắt đầu. Để làm điều này, chúng tôi sẽ thêm một dấu ngoặc đơn mở, theo sau là NĂM, cho phép máy chủ biết phần ngày mà chúng tôi cần. Sau đó, chúng tôi sẽ thêm lệnh TỪ và THỜI GIAN BẮT ĐẦU để chúng tôi có thể nhận được năm từ tất cả thời gian bắt đầu trong cột đó. Chúng tôi sẽ đóng dấu ngoặc đơn và sau đó sử dụng AS và từ năm để đặt tên cho cột mà chúng tôi đang tạo. Ở dòng tiếp theo của truy vấn, chúng ta sẽ sử dụng hàm tổng hợp COUNT theo sau là dấu hoa thị trong ngoặc đơn. Điều này sẽ đếm số lần đạp xe trong cột thời gian bắt đầu. Sử dụng dấu hoa thị để đảm bảo rằng tất cả thời gian bắt đầu được tính trong dữ liệu. Sau đó, chúng tôi sẽ đặt tên cho cột số lượt đi bằng dấu gạch dưới giữa mỗi từ thay vì dấu cách. Chúng tôi sẽ thêm TỪ trong cơ sở dữ liệu mà chúng tôi đang kéo ở dòng tiếp theo. Trong trường hợp này, đó là bigquery-public-data.new_york.citybike_trips. Và đây là lệnh GROUP BY của chúng ta. Chúng tôi sẽ sử dụng điều này để nhóm dữ liệu theo năm. Vì vậy, chúng tôi sẽ nhập GROUP BY theo sau là năm. Chúng ta có thể tổ chức thêm các kết quả của mình bằng cách sử dụng lệnh ORDER BY. Thêm phần này sau khi GROUP BY sắp xếp kết quả. Chúng tôi sẽ thêm năm để sắp xếp dữ liệu theo năm. Bạn nên lưu ý rằng theo mặc định, ORDER BY sắp xếp dữ liệu theo thứ tự tăng dần. Bây giờ chúng ta có thể chạy truy vấn của mình để nhận kết quả. Các năm được sắp xếp bắt đầu từ năm 2013 và kết thúc bằng năm 2016. Nếu chúng tôi muốn thay đổi thứ tự này thành thứ tự giảm dần, chúng tôi có thể thêm từ khóa DESC vào cuối truy vấn và chạy lại từ khóa. Nhưng cho dù bạn sử dụng thứ tự nào, thì các lệnh GROUP BY và ORDER BY rất hữu ích để giúp chúng ta hoàn thành và sắp xếp một phép tính cho phân tích của mình. Đây là một cách để tính toán khi tổng hợp dữ liệu. Và đó chỉ là một trong nhiều cách mà SQL giúp phân tích của bạn chạy trơn tru và tiến về phía trước. Vẫn còn nhiều điều nữa về tính toán và SQL. Sắp tới, chúng ta sẽ tìm hiểu thêm về xác thực dữ liệu. Hẹn sớm gặp lại.
  • 352. Chương 4: Quy trình xác thực dữ liệu Kiểm tra và kiểm tra lại Chào bạn lần nữa nhé. Trước đó, chúng tôi đã đề cập đến xác thực dữ liệu, một chức năng bảng tính giúp thêm danh sách thả xuống vào các ô. Sử dụng xác thực dữ liệu cho phép bạn kiểm soát những gì có thể và không thể nhập vào trang tính của mình. Một trong những công dụng của nó là bảo vệ dữ liệu có cấu trúc và công thức trong bảng tính của bạn. Nhưng hữu ích như vậy, chức năng xác thực dữ liệu chỉ là một phần của quy trình xác thực dữ liệu lớn hơn. Data validation process is Checking and rechecking the quality of your data so that it is complete, accurate, secure and consistent (Quy trình xác thực dữ liệu là Quy trình kiểm tra và đánh giá lại chất lượng dữ liệu sao cho đầy đủ, chính xác, an toàn và nhất quán). Mặc dù quy trình xác thực dữ liệu là một hình thức làm sạch dữ liệu, nhưng bạn nên sử dụng nó trong suốt quá trình phân tích của mình. Nếu tất cả điều này nghe có vẻ quen thuộc với bạn, thì tốt. Đảm bảo bạn có dữ liệu tốt là cực kỳ quan trọng. Và theo tôi, điều đó thật thú vị vì bạn có thể kết hợp kiến thức về kinh doanh với kỹ năng kỹ thuật của mình. Điều này sẽ giúp bạn hiểu dữ liệu của mình, kiểm tra xem dữ liệu đó có sạch không và đảm bảo rằng bạn đang phù hợp với các mục tiêu kinh doanh của mình. Nói cách khác, đó là những gì bạn làm để đảm bảo dữ liệu của mình có ý nghĩa. Xin lưu ý rằng bạn sẽ xây dựng kiến thức kinh doanh của mình theo thời gian và kinh nghiệm. Và đây là một mẹo chuyên nghiệp. Hỏi càng nhiều câu hỏi càng tốt bất cứ khi nào bạn cần sẽ làm cho điều này dễ dàng hơn nhiều. Được rồi, giả sử chúng ta đang phân tích một số dữ liệu cho một nhà bán lẻ đồ nội thất. Chúng tôi muốn kiểm tra xem các giá trị trong cột giá mua luôn bằng số mặt hàng đã bán nhân với giá sản phẩm. Vì vậy, chúng tôi sẽ thêm một công thức vào một cột mới để tính toán lại giá mua bằng cách sử dụng công thức nhân. Bây giờ, so sánh tổng số, có ít nhất một giá trị không khớp với giá trị trong cột giá mua. Chúng ta cần tìm câu trả lời để giúp chúng ta tiếp tục với phân tích của mình. Bằng cách thực hiện một số nghiên cứu và đặt câu hỏi, chúng tôi thấy rằng có giảm giá 30% khi khách hàng mua từ năm mặt hàng trở lên. Nếu chúng tôi không chạy kiểm tra này, chúng tôi có thể đã bỏ lỡ điều này hoàn toàn. Bạn đã học được rằng với tư cách là một nhà phân tích, tính toán là một phần quan trọng trong công việc của bạn. Vì vậy, điều quan trọng là bất cứ khi nào bạn tính toán, bạn luôn kiểm tra để đảm bảo rằng bạn đã thực hiện chúng đúng cách. Đôi khi, bạn sẽ chạy kiểm tra xác thực dữ liệu là kiểm tra thông thường. Ví dụ: giả sử bạn đang tiến hành phân tích để tìm ra hiệu quả của các chương trình khuyến mại tại cửa hàng cho một doanh nghiệp chỉ mở cửa vào các ngày trong tuần. Bạn kiểm tra để đảm bảo không
  • 353. có dữ liệu bán hàng của thứ 7 và chủ nhật. Nếu dữ liệu của bạn hiển thị doanh số bán hàng vào cuối tuần, thì đó có thể không phải là vấn đề với chính dữ liệu đó. Nó thậm chí có thể không phải là một vấn đề gì cả. Có thể có một lý do tốt. Có thể doanh nghiệp của bạn tổ chức các sự kiện đặc biệt vào Thứ Bảy và Chủ Nhật. Sau đó, bạn sẽ có doanh số bán hàng cho những ngày cuối tuần đó. Bạn vẫn có thể muốn loại bỏ doanh số cuối tuần trong phân tích của mình nếu mục tiêu của bạn chỉ là xem xét các ngày trong tuần. Nhưng việc thực hiện xác thực dữ liệu này có thể giúp bạn tránh khỏi những tính toán sai lầm và các lỗi khác trong quá trình phân tích của mình. Bạn phải luôn thực hiện xác thực dữ liệu bất kể bạn đang sử dụng công cụ phân tích nào. Trong một video trước đó, chúng tôi đã sử dụng SQL để phân tích một số dữ liệu về quả bơ. Một trong những truy vấn là kiểm tra để đảm bảo dữ liệu hiển thị tổng số túi là tổng của các túi nhỏ, lớn và cực lớn. Bằng cách chạy truy vấn này, chúng tôi có thể xác định rằng cột tổng số là chính xác. Chúng tôi đã so sánh ngắn gọn hai cột của mình trong video đó. Nhưng để hoàn toàn chắc chắn rằng không có vấn đề gì với các giá trị dữ liệu trong các cột đó, chúng tôi cũng có thể chạy một truy vấn khác. Trong truy vấn này, chúng tôi sẽ chọn tất cả bằng cách sử dụng dấu hoa thị và FROM bộ dữ liệu giá bơ. Trong mệnh đề WHERE của chúng tôi, chúng tôi cũng sẽ loại ra nơi tổng số tính toán của chúng tôi không bằng cột tổng số túi. Nếu không có giá trị nào được trả về, chúng tôi có thể chắc chắn rằng các giá trị trong cột Tổng số túi là chính xác. Và điều đó khiến chúng tôi tiếp tục phân tích. Nhưng khi chúng tôi cố gắng tìm bao nhiêu phần trăm trong tổng số túi là nhỏ, chúng tôi gặp phải một vấn đề nhỏ. Chúng tôi đã nhận được thông báo lỗi về việc chia cho số không. Chúng tôi đã sửa lỗi đó bằng cách điều chỉnh truy vấn của mình.
  • 354. Nếu chúng tôi đã liên kết truy vấn đó với một bản trình bày gửi tới các bên liên quan của chúng tôi, họ sẽ hiển thị cho chúng tôi lỗi chia cho 0 thay vì các số liệu chúng tôi muốn. Bằng cách xây dựng các loại kiểm tra này như một phần của quy trình xác thực dữ liệu, bạn có thể tránh được lỗi trong phân tích và hoàn thành các mục tiêu kinh doanh của mình để làm hài lòng mọi người. Và hãy tin tôi. Đó là một cảm giác tuyệt vời khi bạn làm. Và một cảm giác tuyệt vời khác là biết rằng bạn đã xem qua một video khác và học được điều gì đó mới. Và chúng tôi có nhiều nơi đến từ đó đến sớm. See you.
  • 355. Chương 5: Sử dụng SQL với các bảng tạm thời Bảng tạm thời Xin chào lần nữa. Bây giờ, nếu bạn giống tôi, bạn luôn có sẵn các ghi chú dán bên cạnh để viết lời nhắc hoặc tìm ra một bài toán nhanh. Ghi chú rất hữu ích và quan trọng, nhưng chúng cũng chỉ dùng một lần vì bạn thường chỉ cần chúng trong một thời gian ngắn trước khi tái chế chúng. Các nhà phân tích dữ liệu có phiên bản ghi chú dán của riêng họ khi họ làm việc với SQL. Chúng được gọi là bảng tạm thời và chúng tôi ở đây để tìm hiểu xem chúng là gì. Temporary table is a database table that is created anf exists temporarily on a database server (Bảng tạm thời là bảng cơ sở dữ liệu được tạo và tồn tại tạm thời trên máy chủ cơ sở dữ liệu). Các bảng tạm thời khi chúng tôi gọi chúng lưu trữ các tập hợp con dữ liệu từ các bảng dữ liệu tiêu chuẩn trong một khoảng thời gian nhất định. Sau đó, chúng sẽ tự động bị xóa khi bạn kết thúc phiên cơ sở dữ liệu SQL của mình. Vì các bảng tạm thời không được lưu trữ vĩnh viễn nên chúng rất hữu ích khi bạn chỉ cần một bảng trong thời gian ngắn để hoàn thành các nhiệm vụ phân tích, chẳng hạn như tính toán. Ví dụ: bạn có thể có nhiều bảng để thực hiện phép tính cùng một lúc. Nếu bạn có một truy vấn cần nối bảy hoặc tám trong số chúng, bạn có thể nối hai hoặc ba bảng có số lượng hàng ít nhất và lưu trữ đầu ra của chúng trong một bảng tạm thời. Sau đó, bạn có thể nối bảng tạm thời này với một trong những bảng lớn hơn khác. Một ví dụ khác là khi bạn có nhiều cơ sở dữ liệu khác nhau mà bạn đang chạy các truy vấn trên đó. Bạn có thể chạy các truy vấn ban đầu này trong từng cơ sở dữ liệu riêng biệt, sau đó sử dụng bảng tạm thời để thu thập kết quả của tất cả các truy vấn này. Sau đó, truy vấn báo cáo cuối cùng sẽ chạy trên bảng tạm thời. Bạn có thể không sử dụng được cấu trúc báo cáo này nếu không có các bảng tạm thời. Chúng cũng hữu ích nếu bạn có một số lượng lớn bản ghi trong một bảng và bạn cần phải làm việc với một tập hợp con nhỏ của những bản ghi đó nhiều lần để hoàn thành một số tính toán hoặc phân tích khác. Vì vậy, thay vì lọc dữ liệu nhiều lần để trả về tập hợp con, bạn có thể lọc dữ liệu một lần và lưu trữ dữ liệu đó trong một bảng tạm thời. Sau đó, bạn có thể chạy các truy vấn của mình bằng bảng tạm thời mà bạn đã tạo. Hãy tưởng tượng rằng bạn được yêu cầu phân tích dữ liệu về hệ thống chia sẻ xe đạp mà chúng ta đã xem xét trước đó. Bạn chỉ cần phân tích dữ liệu cho các chuyến đi bằng xe đạp kéo dài hơn 60 phút hoặc lâu hơn, nhưng bạn có một số câu hỏi cần trả lời về dữ liệu cụ thể. Sử dụng bảng tạm thời sẽ cho phép bạn chạy một số truy vấn về dữ liệu này mà không phải tiếp tục lọc nó. Có nhiều cách khác nhau để tạo các bảng tạm thời trong SQL, tùy thuộc vào hệ thống quản lý cơ sở dữ li