SlideShare a Scribd company logo
Tanapat Limsaiprom
BigData101 Chapter8
Tanapat Limsaiprom
BigData101 Chapter8
 การดาเนินการเก็บรวบรวมข้อมูล เพื่อนามาจัดทาเป็นข้อมูลสถิติมีวิธีการที่ใช้โดยทั่วไปมี 5 วิธี ดังนี้
 1. การเก็บรวบรวมข้อมูลจากรายงานหรือข้อมูลในระบบ (Reporting System)
เป็นผลพลอยได้จากระบบการบริหารงาน เป็นการเก็บรวบรวมข้อมูลจากรายงานที่ทาไว้หรือข้อมูลที่
เก็บไว้ในระบบหรือ จากเอกสารประกอบการทางาน ซึ่งการเก็บรวบรวมข้อมูลจากรายงานส่วนมาก
ใช้เพียงครั้งเดียว จากรายงานดังกล่าว อาจมีข้อมูลเบื้องต้น บางประเภทที่สามารถนามาประมวลเป็น
ยอดรวมข้อมูลสถิติได้
 วิธีเก็บรวบรวมข้อมูลจากรายงานของหน่วยบริหาร นับว่าเป็นวิธีการรวบรวมข้อมูลสถิติโดยไม่ต้อง
สิ้นเปลืองค่าใช้จ่ายในการดาเนินงานมากนัก ค่าใช้จ่ายที่ใช้ส่วนใหญ่ก็เพื่อการประมวลผล พิมพ์
แบบฟอร์มต่างๆ ตลอดจนการพิมพ์ รายงาน วิธีการนี้ใช้กันมากทั้งในหน่วยงาน รัฐบาลและเอกชน
Tanapat LimsaipromBigData101 Chapter8
 2. การเก็บรวบรวมข้อมูลจากทะเบียน (Registration) เป็นข้อมูลสถิติที่
รวบรวมจากระบบทะเบียน มีลักษณะคล้ายกับการรวบรวมจากรายงานตรงที่เป็นผล
พลอยได้เช่นเดียวกัน จะต่างกันตรงที่ แหล่งเบื้องต้นของข้อมูลเป็นเอกสารการ
ทะเบียนซึ่งการเก็บมีลักษณะต่อเนื่อง มีการปรับแก้หรือเปลี่ยนแปลง ให้ถูกต้อง
ทันสมัย
Tanapat LimsaipromBigData101 Chapter8
 3. การเก็บรวบรวมข้อมูลโดยวิธีสามะโน (Census ) เป็นการเก็บรวบรวม
ข้อมูลสถิติของทุกๆ หน่วยของประชากรที่สนใจศึกษาภายในพื้นที่ที่กาหนด และ
ภายในระยะเวลาที่กาหนด การเก็บรวบรวม ข้อมูลสถิติด้วยวิธีนี้ จะทาให้ได้ข้อมูล
ในระดับพื้นที่ย่อย เช่น หมู่บ้าน ตาบล อาเภอ และทาให้ได้ข้อมูลที่เป็นค่าจริง
Tanapat LimsaipromBigData101 Chapter8
 4. วิธีการทดลอง (Experimental Design) การเก็บรวบรวม
ข้อมูล โดยวิธีนี้จะต้องอาศัยวิชาสถิติในเรื่องการวางแผนการทดลองมาช่วย การวิจัย
ทางสังคมส่วนใหญ่จะใช้วิธีนี้ไม่ได้โดยมากจะใช้กับการทดลองทางด้านเกษตร
วิทยาศาสตร์ การแพทย์ เช่น ทดสอบผลของการใช้ปุ๋ยชนิดต่างๆ ต่อ การ
เจริญเติบโตของพืช เป็นต้น
Tanapat LimsaipromBigData101 Chapter8
 5. การเก็บรวบรวมข้อมูลโดยวิธีสารวจ (Sample Survey) เป็นการเก็บรวบรวมข้อมูล
สถิติ จากบางหน่วยของประชากรด้วยวิธีการเลือกตัวอย่าง การเก็บรวบ รวมข้อมูลสถิติด้วยวิธีนี้ จะทาให้
ได้ข้อมูลในระดับรวม เช่น จังหวัด ภาค เขตการปกครอง และรวมทั่วประเทศ และข้อมูลที่ได้จะเป็นค่า
โดยประมาณ การสารวจเป็นวิธีการเก็บรวบรวมข้อมูลที่ใช้งบประมาณ เวลา และกาลังคนไม่มากนักจึง
สามารถจัดทาได้เป็นประจาทุกปี หรือ ทุก 2 ปี ปัจจุบันการสารวจเป็นวิธีการเก็บรวบรวมข้อมูลสถิติที่มี
ความสาคัญ และใช้กันอย่างแพร่หลายมากที่สุด ทั้งในวงการราชการและเอกชน
Tanapat LimsaipromBigData101 Chapter8
 การเก็บรวบรวมข้อมูลโดยวิธีสารวจ
(Sample Survey)
Tanapat LimsaipromBigData101 Chapter8
Tanapat Limsaiprom
BigData101 Chapter8
กรณีที่มีจำนวนคำถำมในแบบสอบถำมมากๆ ผู้ใส่รหัสอาจจะจารหัสได้ไม่ครบจึงจาเป็นต้องจัดทา
คู่มือลงรหัส อันประกอบด้วย
1. เลขที่แบบสอบถาม หมายถึงเลขที่ของแบบสอบถามที่ได้รับคืนกลับมา การใส่เลขที่แบบสอบถามจะ
ทำให้สำมำรถตรวจสอบข้อมูลจำกแบบสอบถำมได้ง่ำย ในกรณีที่มีการพิมพ์ข้อมูล เช่น ถ้าพบว่าอายุ
ของผู้ตอบจากแบบสอบถามชุดที่ 150 เป็น 99 ปี ทำให้สำมำรถตรวจสอบว่ำพิมพ์ผิดหรือไม่ โดย
ตรวจสอบจากแบบสอบถามชุดที่ 150
Tanapat LimsaipromBigData101 Chapter8
 2. เลขที่คาถาม ( Question Number )
เป็นเลขที่คาถามในแบบสอบถาม ผู้วิจัยจะกาหนดรหัสให้ตรงกับเลขที่ข้อในแบบสอบถาม
3. ชื่อตัวแปร ( Variable Name )
ส่วนใหญ่มักจะกาหนดให้ชื่อตัวแปรสอดคล้องกับความหมายของข้อมูล เช่น เพศ มักจะ
ใช้ SEX รายได้ เป็น INCOME เป็นต้น
4. รายการของข้อมูล
เป็นส่วนที่ระบุถึงคาถามในแต่ละข้อ
Tanapat LimsaipromBigData101 Chapter8
 5. ขนาดของตัวแปร
เป็นการกาหนดความกว้างของตัวแปร ถ้าเป็นตัวแปรเชิงปริมาณ เช่น คะแนน
สอบ ตัวแปรอาจจะมีจุดทศนิยม ต้องกาหนดจานวนหลักหลังจุดทศนิยม
ด้วย เช่น ถ้าความกว้างของตัวแปร คะแนนสอบ เป็น 8.2 หมายถึงมีจานวนจุด
หน้าจุดทศนิยม 5 หลัก และจานวนหลักหลังจุดทศนิยม 2 หลัก ( เลข 8 รวม
หมายถึงจานวนหลักหน้าจุดทศนิยม จุดทศนิยมและจานวนหลักหลังจุดทศนิยม )
Tanapat LimsaipromBigData101 Chapter8
 6. ค่าที่เป็นไปได้พร้อมคาอธิบายความหมาย ( Possible Values or Label )
หมายถึงส่วนที่จะระบุค่าที่เป็นไปได้ของตัวแปร เช่น ตัวแปร SEX มีค่า “ 0
” หมายถึง ชาย และค่า “ 1 ” หมายถึงหญิง ส่วนเลข 9 หมายถึง ผู้ตอบไม่
ตอบคาถามนี้ ( missing values )
ตัวอย่างการจัดทาคู่มือการกาหนดรหัสของแบบสอบถามเรื่องความพึงพอใจของ
การให้บริการของบริษัทดีทัวร์ ซึ่งจะสอบถามจากลูกค้าที่เคยใช้บริการของบริษัท
ฯ
Tanapat LimsaipromBigData101 Chapter8
Tanapat LimsaipromBigData101 Chapter8
Tanapat LimsaipromBigData101 Chapter8
Tanapat LimsaipromBigData101 Chapter8
Tanapat LimsaipromBigData101 Chapter8
Tanapat LimsaipromBigData101 Chapter8
Tanapat LimsaipromBigData101 Chapter8
Tanapat LimsaipromBigData101 Chapter8
 1. การเก็บรวบรวมข้อมูลจากรายงานหรือข้อมูลในระบบ
ถ้าเป็นข้อมูลในระบบจะเข้า สู่กระบวนการ ETL เพื่อเตรียมข้อมูลต่อไป
 2.การเก็บรวบรวมข้อมูลโดยวิธีสารวจ (Sample Survey)
ถ้าเป็นข้อมูลจากการสารวจจะต้องนาข้อมูลมาลงรหัส และทาความสะอาด
ข้อมูลก่อนเข้าสู่กระบวนการวิเคราห์ต่อไป
Tanapat LimsaipromBigData101 Chapter8
 ETL ย่อมาจาก Extract-Transform-Load เป็นการนาข้อมูล (Extract) จากหลากหลาย
แหล่งข้อมูล เช่น จากฝ่าย Marketing, จากฝ่าย Sale, จากฝ่าย Customer Service ฯลฯ มา
แปลงรูปแบบให้เหมาะสม (Transform) แล้วเก็บ (Load) เข้าไปใน Data Warehouse หรือ
Data Lake
ที่มาภาพ : DataTH.com Tanapat LimsaipromBigData101 Chapter8
 เป็นการนาข้อมูล (Extract) จากหลากหลายแหล่งข้อมูล เช่น จากฝ่ายขายแล
การตลาด Marketing, จากฝ่ายชาย Sale, จากฝ่ายบริการลูกค้า
Customer Service มาเพื่อรวบรวมข้อมูลไปมาในขั้นตอนต่อไป
 ในขั้นตอนนี้จะเลือกข้อมูลจากแหล่งต่างๆที่ต้องการนามาวิเคราะห์
Tanapat LimsaipromBigData101 Chapter8
 นามาแปลงรูปแบบให้เหมาะสม (Transform)เช่น
- เปลี่ยนประเภทข้อมูล เช่น จาก ตัวอักษร เป็น ตัวเลข
- ทาความสะอาดข้อมูล เช่น ที่พิมพ์ผิด
Tanapat LimsaipromBigData101 Chapter8
 เป็นขั้นตอนนาข้อมูลที่ได้จากการ Transform โหลดข้อมูลเข้าไปใน
Data Warehouse หรือ Data Lake
Tanapat LimsaipromBigData101 Chapter8
โปรดติดตามโมดูลถัดไป
Tanapat LimsaipromBigData101 Chapter8

More Related Content

PDF
Stat 101 Module2 การวิเคราะห์และแปลผล
PDF
แนวคิดแผนภาพกระแสข้อมูล
PDF
การเขียนแผนภาพ DFD
PPT
SA Chapter 6
PDF
Epi info unit09
PDF
Epi info unit08
PDF
การรวบรวมความต้องการ
PPT
พจนานุกรมข้อมูล
Stat 101 Module2 การวิเคราะห์และแปลผล
แนวคิดแผนภาพกระแสข้อมูล
การเขียนแผนภาพ DFD
SA Chapter 6
Epi info unit09
Epi info unit08
การรวบรวมความต้องการ
พจนานุกรมข้อมูล

What's hot (20)

PDF
การออกแบบเอาต์พุต/การออกแบบอินพุต
DOC
บทที่ 3 การวิเคราะห์ระบบและการออกแบบระบบ
PDF
สถาปัตยกรรมฐานข้อมูล
PDF
Epi info unit06
DOCX
สถิติ คณิตศาสตร์
PDF
Role math stat_cs
PDF
Mis_hrcc
PDF
สถิติเบื่องต้น
PDF
01 introduction-to-system-analysis-and-design
PPT
วิธีการสำคัญในการวิเคราะห์ข้อมูลเชิงปริมาณ
PDF
งานนำเสนอ1 คอม
PDF
คู่มือการใช้งานSpss
PPTX
ฐานข้อมูลเชิงสัมพันธ์ 2
PDF
ค32203 โครงการสอน
PPT
การวิเคราะห์ข้อมูลเชิงปริมาณ
PDF
Epi info unit07
PDF
ใบความรู้ที่ 1 การแก้ปัญหาด้วยกระบวนการเทคโนโลยีสารสนเทศ
PPTX
การสร้างแฟ้มข้อมูลจากแบบสอบถามโดยโปรแกรม SPSS
การออกแบบเอาต์พุต/การออกแบบอินพุต
บทที่ 3 การวิเคราะห์ระบบและการออกแบบระบบ
สถาปัตยกรรมฐานข้อมูล
Epi info unit06
สถิติ คณิตศาสตร์
Role math stat_cs
Mis_hrcc
สถิติเบื่องต้น
01 introduction-to-system-analysis-and-design
วิธีการสำคัญในการวิเคราะห์ข้อมูลเชิงปริมาณ
งานนำเสนอ1 คอม
คู่มือการใช้งานSpss
ฐานข้อมูลเชิงสัมพันธ์ 2
ค32203 โครงการสอน
การวิเคราะห์ข้อมูลเชิงปริมาณ
Epi info unit07
ใบความรู้ที่ 1 การแก้ปัญหาด้วยกระบวนการเทคโนโลยีสารสนเทศ
การสร้างแฟ้มข้อมูลจากแบบสอบถามโดยโปรแกรม SPSS
Ad

Similar to Big Data 101 : Chapter 8 Module 1 (20)

PDF
Static excel
PPTX
หน่วยการเรียนรู้ที่ 2
PPTX
หน่วยการเรียนรู้ที่ 2-คอม
PPT
PPT
PPT
ระบบ (System)
PPT
งานคอม อลิตา
PDF
ใบความรู้ที่1
PDF
Chapter 02
DOC
ความหมายของเทคโนโลยีสารสนเทศ
PDF
Database analysis & pivot table
PPTX
บทที่ 2
PPTX
บทที่ 2
PPT
PPTX
สัปดาห์ที่ 11
PPT
Problem solution
DOC
ระบบสารสนเทศ
DOC
ระบบสารสนเทศ
Static excel
หน่วยการเรียนรู้ที่ 2
หน่วยการเรียนรู้ที่ 2-คอม
ระบบ (System)
งานคอม อลิตา
ใบความรู้ที่1
Chapter 02
ความหมายของเทคโนโลยีสารสนเทศ
Database analysis & pivot table
บทที่ 2
บทที่ 2
สัปดาห์ที่ 11
Problem solution
ระบบสารสนเทศ
ระบบสารสนเทศ
Ad

More from ธนาพัฒน์ ลิ้มสายพรหม (20)

PPTX
Physics-Informed-Neural-Networks-PINNs.pptx
PDF
Subnets, Gateways, and Route Table Explaned , tanapat limsaiprom
PDF
AWS Networking Basic , tanapat limsaiprom
PDF
AWS Identity and access management , tanapat limsaiprom
PDF
AWS Technical Essential , Tanapat Limsaiprom
PDF
Ch1 Business Information foundation concept
Physics-Informed-Neural-Networks-PINNs.pptx
Subnets, Gateways, and Route Table Explaned , tanapat limsaiprom
AWS Networking Basic , tanapat limsaiprom
AWS Identity and access management , tanapat limsaiprom
AWS Technical Essential , Tanapat Limsaiprom
Ch1 Business Information foundation concept

Big Data 101 : Chapter 8 Module 1

  • 3.  การดาเนินการเก็บรวบรวมข้อมูล เพื่อนามาจัดทาเป็นข้อมูลสถิติมีวิธีการที่ใช้โดยทั่วไปมี 5 วิธี ดังนี้  1. การเก็บรวบรวมข้อมูลจากรายงานหรือข้อมูลในระบบ (Reporting System) เป็นผลพลอยได้จากระบบการบริหารงาน เป็นการเก็บรวบรวมข้อมูลจากรายงานที่ทาไว้หรือข้อมูลที่ เก็บไว้ในระบบหรือ จากเอกสารประกอบการทางาน ซึ่งการเก็บรวบรวมข้อมูลจากรายงานส่วนมาก ใช้เพียงครั้งเดียว จากรายงานดังกล่าว อาจมีข้อมูลเบื้องต้น บางประเภทที่สามารถนามาประมวลเป็น ยอดรวมข้อมูลสถิติได้  วิธีเก็บรวบรวมข้อมูลจากรายงานของหน่วยบริหาร นับว่าเป็นวิธีการรวบรวมข้อมูลสถิติโดยไม่ต้อง สิ้นเปลืองค่าใช้จ่ายในการดาเนินงานมากนัก ค่าใช้จ่ายที่ใช้ส่วนใหญ่ก็เพื่อการประมวลผล พิมพ์ แบบฟอร์มต่างๆ ตลอดจนการพิมพ์ รายงาน วิธีการนี้ใช้กันมากทั้งในหน่วยงาน รัฐบาลและเอกชน Tanapat LimsaipromBigData101 Chapter8
  • 4.  2. การเก็บรวบรวมข้อมูลจากทะเบียน (Registration) เป็นข้อมูลสถิติที่ รวบรวมจากระบบทะเบียน มีลักษณะคล้ายกับการรวบรวมจากรายงานตรงที่เป็นผล พลอยได้เช่นเดียวกัน จะต่างกันตรงที่ แหล่งเบื้องต้นของข้อมูลเป็นเอกสารการ ทะเบียนซึ่งการเก็บมีลักษณะต่อเนื่อง มีการปรับแก้หรือเปลี่ยนแปลง ให้ถูกต้อง ทันสมัย Tanapat LimsaipromBigData101 Chapter8
  • 5.  3. การเก็บรวบรวมข้อมูลโดยวิธีสามะโน (Census ) เป็นการเก็บรวบรวม ข้อมูลสถิติของทุกๆ หน่วยของประชากรที่สนใจศึกษาภายในพื้นที่ที่กาหนด และ ภายในระยะเวลาที่กาหนด การเก็บรวบรวม ข้อมูลสถิติด้วยวิธีนี้ จะทาให้ได้ข้อมูล ในระดับพื้นที่ย่อย เช่น หมู่บ้าน ตาบล อาเภอ และทาให้ได้ข้อมูลที่เป็นค่าจริง Tanapat LimsaipromBigData101 Chapter8
  • 6.  4. วิธีการทดลอง (Experimental Design) การเก็บรวบรวม ข้อมูล โดยวิธีนี้จะต้องอาศัยวิชาสถิติในเรื่องการวางแผนการทดลองมาช่วย การวิจัย ทางสังคมส่วนใหญ่จะใช้วิธีนี้ไม่ได้โดยมากจะใช้กับการทดลองทางด้านเกษตร วิทยาศาสตร์ การแพทย์ เช่น ทดสอบผลของการใช้ปุ๋ยชนิดต่างๆ ต่อ การ เจริญเติบโตของพืช เป็นต้น Tanapat LimsaipromBigData101 Chapter8
  • 7.  5. การเก็บรวบรวมข้อมูลโดยวิธีสารวจ (Sample Survey) เป็นการเก็บรวบรวมข้อมูล สถิติ จากบางหน่วยของประชากรด้วยวิธีการเลือกตัวอย่าง การเก็บรวบ รวมข้อมูลสถิติด้วยวิธีนี้ จะทาให้ ได้ข้อมูลในระดับรวม เช่น จังหวัด ภาค เขตการปกครอง และรวมทั่วประเทศ และข้อมูลที่ได้จะเป็นค่า โดยประมาณ การสารวจเป็นวิธีการเก็บรวบรวมข้อมูลที่ใช้งบประมาณ เวลา และกาลังคนไม่มากนักจึง สามารถจัดทาได้เป็นประจาทุกปี หรือ ทุก 2 ปี ปัจจุบันการสารวจเป็นวิธีการเก็บรวบรวมข้อมูลสถิติที่มี ความสาคัญ และใช้กันอย่างแพร่หลายมากที่สุด ทั้งในวงการราชการและเอกชน Tanapat LimsaipromBigData101 Chapter8
  • 10. กรณีที่มีจำนวนคำถำมในแบบสอบถำมมากๆ ผู้ใส่รหัสอาจจะจารหัสได้ไม่ครบจึงจาเป็นต้องจัดทา คู่มือลงรหัส อันประกอบด้วย 1. เลขที่แบบสอบถาม หมายถึงเลขที่ของแบบสอบถามที่ได้รับคืนกลับมา การใส่เลขที่แบบสอบถามจะ ทำให้สำมำรถตรวจสอบข้อมูลจำกแบบสอบถำมได้ง่ำย ในกรณีที่มีการพิมพ์ข้อมูล เช่น ถ้าพบว่าอายุ ของผู้ตอบจากแบบสอบถามชุดที่ 150 เป็น 99 ปี ทำให้สำมำรถตรวจสอบว่ำพิมพ์ผิดหรือไม่ โดย ตรวจสอบจากแบบสอบถามชุดที่ 150 Tanapat LimsaipromBigData101 Chapter8
  • 11.  2. เลขที่คาถาม ( Question Number ) เป็นเลขที่คาถามในแบบสอบถาม ผู้วิจัยจะกาหนดรหัสให้ตรงกับเลขที่ข้อในแบบสอบถาม 3. ชื่อตัวแปร ( Variable Name ) ส่วนใหญ่มักจะกาหนดให้ชื่อตัวแปรสอดคล้องกับความหมายของข้อมูล เช่น เพศ มักจะ ใช้ SEX รายได้ เป็น INCOME เป็นต้น 4. รายการของข้อมูล เป็นส่วนที่ระบุถึงคาถามในแต่ละข้อ Tanapat LimsaipromBigData101 Chapter8
  • 12.  5. ขนาดของตัวแปร เป็นการกาหนดความกว้างของตัวแปร ถ้าเป็นตัวแปรเชิงปริมาณ เช่น คะแนน สอบ ตัวแปรอาจจะมีจุดทศนิยม ต้องกาหนดจานวนหลักหลังจุดทศนิยม ด้วย เช่น ถ้าความกว้างของตัวแปร คะแนนสอบ เป็น 8.2 หมายถึงมีจานวนจุด หน้าจุดทศนิยม 5 หลัก และจานวนหลักหลังจุดทศนิยม 2 หลัก ( เลข 8 รวม หมายถึงจานวนหลักหน้าจุดทศนิยม จุดทศนิยมและจานวนหลักหลังจุดทศนิยม ) Tanapat LimsaipromBigData101 Chapter8
  • 13.  6. ค่าที่เป็นไปได้พร้อมคาอธิบายความหมาย ( Possible Values or Label ) หมายถึงส่วนที่จะระบุค่าที่เป็นไปได้ของตัวแปร เช่น ตัวแปร SEX มีค่า “ 0 ” หมายถึง ชาย และค่า “ 1 ” หมายถึงหญิง ส่วนเลข 9 หมายถึง ผู้ตอบไม่ ตอบคาถามนี้ ( missing values ) ตัวอย่างการจัดทาคู่มือการกาหนดรหัสของแบบสอบถามเรื่องความพึงพอใจของ การให้บริการของบริษัทดีทัวร์ ซึ่งจะสอบถามจากลูกค้าที่เคยใช้บริการของบริษัท ฯ Tanapat LimsaipromBigData101 Chapter8
  • 21.  1. การเก็บรวบรวมข้อมูลจากรายงานหรือข้อมูลในระบบ ถ้าเป็นข้อมูลในระบบจะเข้า สู่กระบวนการ ETL เพื่อเตรียมข้อมูลต่อไป  2.การเก็บรวบรวมข้อมูลโดยวิธีสารวจ (Sample Survey) ถ้าเป็นข้อมูลจากการสารวจจะต้องนาข้อมูลมาลงรหัส และทาความสะอาด ข้อมูลก่อนเข้าสู่กระบวนการวิเคราห์ต่อไป Tanapat LimsaipromBigData101 Chapter8
  • 22.  ETL ย่อมาจาก Extract-Transform-Load เป็นการนาข้อมูล (Extract) จากหลากหลาย แหล่งข้อมูล เช่น จากฝ่าย Marketing, จากฝ่าย Sale, จากฝ่าย Customer Service ฯลฯ มา แปลงรูปแบบให้เหมาะสม (Transform) แล้วเก็บ (Load) เข้าไปใน Data Warehouse หรือ Data Lake ที่มาภาพ : DataTH.com Tanapat LimsaipromBigData101 Chapter8
  • 23.  เป็นการนาข้อมูล (Extract) จากหลากหลายแหล่งข้อมูล เช่น จากฝ่ายขายแล การตลาด Marketing, จากฝ่ายชาย Sale, จากฝ่ายบริการลูกค้า Customer Service มาเพื่อรวบรวมข้อมูลไปมาในขั้นตอนต่อไป  ในขั้นตอนนี้จะเลือกข้อมูลจากแหล่งต่างๆที่ต้องการนามาวิเคราะห์ Tanapat LimsaipromBigData101 Chapter8
  • 24.  นามาแปลงรูปแบบให้เหมาะสม (Transform)เช่น - เปลี่ยนประเภทข้อมูล เช่น จาก ตัวอักษร เป็น ตัวเลข - ทาความสะอาดข้อมูล เช่น ที่พิมพ์ผิด Tanapat LimsaipromBigData101 Chapter8
  • 25.  เป็นขั้นตอนนาข้อมูลที่ได้จากการ Transform โหลดข้อมูลเข้าไปใน Data Warehouse หรือ Data Lake Tanapat LimsaipromBigData101 Chapter8