- โซลูชั่น
- การทดสอบการย้ายข้อมูล
- การทดสอบ ETL
- การทดสอบคลังข้อมูล
- การทดสอบรายงาน BI
- การทดสอบการโยกย้าย Hadoop
- การทดสอบข้อมูลขนาดใหญ่
- แผน
- ทรัพยากร
- บล็อก
- วิดีโอ
- กรณีศึกษา
- เกี่ยวกับเรา
- ติดต่อเรา
ขอสาธิต
กรุณากรอกรายละเอียด
ETL ย่อมาจาก Extract, Transform, Load และเป็นกระบวนการของการโหลดหรือย้ายข้อมูลจากแหล่งข้อมูลหนึ่งแหล่งขึ้นไปไปยังแหล่งข้อมูลปลายทาง คลังข้อมูล หรือที่เก็บข้อมูลรวมอื่นๆ
สารสกัด
ขั้นตอนแรกคือการดึงข้อมูลจากแหล่งที่มา (หรือแหล่งที่มา)
แปลง
ขั้นตอนที่สองคือการเตรียมข้อมูลหรือแปลงข้อมูลให้ตรงกับรูปแบบหรือโครงสร้างของเทคโนโลยีฐานข้อมูลปลายทาง
โหลด
ขั้นตอนสุดท้าย โหลดข้อมูลที่แยกออกมาไปยังคลังข้อมูลปลายทาง
- การทดสอบ ETL หมายถึงกระบวนการตรวจสอบ ยืนยัน และตรวจสอบคุณสมบัติของข้อมูล ทำการทดสอบ ETL เพื่อให้แน่ใจว่าการถ่ายโอนข้อมูลจากแหล่งต่าง ๆ ไปยังคลังข้อมูลกลางนั้นเป็นไปตามกฎการเปลี่ยนแปลงอย่างเคร่งครัดและเป็นไปตามการตรวจสอบความถูกต้องทั้งหมด . การทดสอบ ETL ใช้กับระบบคลังข้อมูลและใช้เพื่อรับข้อมูลที่เกี่ยวข้องสำหรับการวิเคราะห์และข่าวกรองธุรกิจ
- การทดสอบ ETL ยังทำเพื่อให้แน่ใจว่าข้อมูลที่โหลดจากต้นทางไปยังปลายทางหลังจากการเปลี่ยนแปลงทางธุรกิจนั้นถูกต้อง นอกจากนี้ยังเกี่ยวข้องกับการตรวจสอบข้อมูลที่ระยะกลางต่างๆ ที่ใช้ระหว่างต้นทางและปลายทาง
- การทดสอบ ETL ทำขึ้นเพื่อยืนยันว่าข้อมูลที่เราแยก แปลง และโหลดนั้นได้รับการแยกออกอย่างสมบูรณ์ ถ่ายโอนอย่างถูกต้อง และโหลดลงในระบบใหม่ในรูปแบบที่ถูกต้อง
- การทดสอบ ETL ยังช่วยระบุและป้องกันปัญหาเกี่ยวกับคุณภาพของข้อมูลในระหว่างกระบวนการ ETL เช่น ข้อมูลซ้ำหรือข้อมูลสูญหาย การทดสอบ ETL ยังยืนยันว่ากระบวนการ ETL นั้นทำงานได้อย่างราบรื่นและไม่มีปัญหาใดๆ
- เรา (DataQ) ต้องการให้แน่ใจว่ากระบวนการ ETL ไม่ประสบปัญหาด้านประสิทธิภาพที่อาจส่งผลกระทบต่อประสิทธิภาพของระบบต้นทางหรือปลายทาง และดำเนินการทดสอบโดยใช้เวลาน้อยลง
ETL กับ ELT
พารามิเตอร์ | อีทีแอล | ELT |
---|---|---|
การกระทำ | การทดสอบข้อมูลเสร็จสิ้นเมื่อข้อมูลถูกแปลงที่เซิร์ฟเวอร์ชั่วคราว จากนั้นหลังจากการทดสอบถ่ายโอนไปยัง Datawarehouse | ข้อมูลยังคงอยู่ในฐานข้อมูลของคลังข้อมูล การทดสอบข้อมูลเสร็จสิ้นในคลังข้อมูลหลังจากการแปลง |
การใช้งาน |
| จำเป็นต้องมีการทดสอบสำหรับข้อมูลจำนวนมาก |
การเปลี่ยนแปลง | การแปลง (การทดสอบข้อมูล) เสร็จสิ้นในเซิร์ฟเวอร์ ETL/พื้นที่การแสดงละคร | การแปลง (การทดสอบข้อมูล) ดำเนินการในระบบเป้าหมาย |
เวลาวัด | ข้อมูลจะถูกโหลดเข้าสู่การจัดเตรียมก่อน จากนั้นจึงทดสอบ จากนั้นจึงโหลดลงในระบบเป้าหมาย การทดสอบข้อมูลเสร็จสิ้นหลังจากโหลดเข้าสู่ระบบเป้าหมายแล้ว | ข้อมูลถูกโหลดเข้าสู่ระบบเป้าหมายเพียงครั้งเดียวและทำการทดสอบหลังจากนี้ เร็วขึ้น. |
รองรับคลังข้อมูล | โมเดล ETL ที่ใช้สำหรับข้อมูลภายในองค์กร ข้อมูลเชิงสัมพันธ์และโครงสร้าง รองรับการทดสอบข้อมูลสำหรับคลังข้อมูล | ใช้ในโครงสร้างพื้นฐานระบบคลาวด์ที่ปรับขนาดได้ซึ่งรองรับแหล่งข้อมูลที่มีโครงสร้างและไม่มีโครงสร้าง การทดสอบข้อมูลยังสามารถจัดการข้อมูลที่มีโครงสร้างและไม่มีโครงสร้าง |
รองรับดาต้าเลค | ไม่สามารถทำการทดสอบข้อมูลได้เนื่องจากไม่รองรับ | อนุญาตให้ใช้ Data Lake กับข้อมูลที่ไม่มีโครงสร้าง การทดสอบข้อมูลควรจะสามารถจัดการ Data Lakes ได้ด้วย.. |
ความซับซ้อน | กระบวนการ ETL จะโหลดเฉพาะข้อมูลสำคัญตามที่ระบุในขณะออกแบบ การทดสอบข้อมูลยังสามารถออกแบบเพื่อการทดสอบที่ดียิ่งขึ้น | กระบวนการนี้เกี่ยวข้องกับการพัฒนาจากเอาต์พุตย้อนกลับและโหลดเฉพาะข้อมูลที่เกี่ยวข้อง การทดสอบข้อมูลสามารถทำได้สำหรับข้อมูลที่เกี่ยวข้องเหล่านี้ |
การค้นหา | ในกระบวนการ ETL จำเป็นต้องมีทั้งข้อเท็จจริงและมิติในพื้นที่การจัดเตรียม การทดสอบข้อมูลควรมีความสามารถในการค้นหา | ข้อมูลทั้งหมดจะพร้อมใช้งานเนื่องจากการดึงข้อมูลและการโหลดเกิดขึ้นในการกระทำเดียว การทดสอบข้อมูลสามารถทำได้หลายขั้นตอน |
การรวมตัว | ความซับซ้อนเพิ่มขึ้นตามจำนวนข้อมูลเพิ่มเติมในชุดข้อมูล DataQ สามารถจัดการข้อมูลที่เกี่ยวข้องกับการทดสอบได้ | พลังของแพลตฟอร์มเป้าหมายสามารถประมวลผลข้อมูลจำนวนมากได้อย่างรวดเร็ว DataQ เป็นวิธีที่รวดเร็วและเหมาะสมกว่าสำหรับการทดสอบข้อมูล |
การคำนวณ | เขียนทับคอลัมน์ที่มีอยู่หรือต้องการผนวกชุดข้อมูลและพุชไปยังแพลตฟอร์มเป้าหมาย สำหรับการทดสอบข้อมูลจำเป็นต้องเข้าใจข้อกำหนดในการดำเนินการ | เพิ่มคอลัมน์จากการคำนวณลงในตารางที่มีอยู่ได้อย่างง่ายดาย ข้อกำหนดนั้นเข้าใจง่ายและใช้การทดสอบข้อมูล |
วุฒิภาวะ | กระบวนการนี้ใช้มานานกว่าสองทศวรรษ มีการบันทึกไว้อย่างดีและแนวทางปฏิบัติที่ดีที่สุดหาได้ง่าย Data Q มีความสามารถที่ดีในการจัดการการทดสอบข้อมูลสำหรับ ETL เช่นกัน | แนวคิดที่ค่อนข้างใหม่และซับซ้อนในการดำเนินการ การทดสอบข้อมูลโดยใช้ DataQ นั้นง่ายกว่า |
รองรับข้อมูลที่ไม่มีโครงสร้าง | ส่วนใหญ่สนับสนุนข้อมูลเชิงสัมพันธ์และการทดสอบข้อมูลจะง่ายกว่าสำหรับข้อมูลเชิงสัมพันธ์ | รองรับข้อมูลที่ไม่มีโครงสร้างพร้อมใช้งาน การทดสอบข้อมูลต้องใช้ความพยายามมากกว่าเมื่อเปรียบเทียบกับข้อมูลที่ไม่มีโครงสร้าง |
แปดขั้นตอนของกระบวนการทดสอบ ETL
แปดขั้นตอนของ
กระบวนการทดสอบ ETL
ระบุความต้องการทางธุรกิจ
กำหนดความต้องการทางธุรกิจที่สมบูรณ์ของโครงการ สิ่งนี้เกี่ยวข้องกับการกำหนดแหล่งข้อมูล ปลายทางข้อมูล เทคโนโลยีที่เกี่ยวข้อง ระดับของการรายงานที่จำเป็น ฯลฯ สร้างเอกสารความต้องการทางธุรกิจที่ละเอียดถี่ถ้วน
ตรวจสอบความถูกต้องของแหล่งข้อมูล
ทำการตรวจสอบการนับข้อมูลอย่างละเอียดของแหล่งที่มา การดำเนินการนี้จะต้องมีการล้างข้อมูลที่ซ้ำกัน จากนั้นทำการตรวจสอบจำนวนข้อมูลสำหรับตาราง แถว และคอลัมน์ ข้อมูลนี้จะช่วยคุณตรวจสอบความถูกต้องของการย้ายข้อมูล
ออกแบบกรณีทดสอบ
ทดสอบข้อมูลในคลัง DB ปลายทางเพื่อให้แน่ใจว่าชนิดข้อมูลตรงตามรูปแบบและข้อกำหนดของแบบจำลองข้อมูล ขั้นตอนนี้ยังต้องการให้คุณสร้างสถานการณ์การแมป สคริปต์ SQL และกฎการแปลง
ดึงข้อมูลจากระบบแหล่งที่มา
ดึงข้อมูลจากฐานข้อมูลต้นทาง ดำเนินการตรวจสอบความถูกต้องเพื่อให้แน่ใจว่าข้อมูลทั้งหมดได้รับการแยกออกในรูปแบบและโครงสร้างที่เหมาะสมแล้ว สิ่งสำคัญคือต้องระบุความผิดปกติหรือข้อบกพร่องใดๆ ในระหว่างขั้นตอนนี้ก่อนที่จะแปลงร่างหรือโหลด
ใช้ตรรกะการแปลง
แปลงข้อมูลตามกฎการแปลงที่กำหนดไว้เพื่อให้ตรงกับสคีมาของคลังฐานข้อมูลปลายทาง ดำเนินการตรวจสอบและทดสอบบนเซิร์ฟเวอร์ staging เพื่อให้แน่ใจว่ามีการแปลงข้อมูลอย่างสมบูรณ์ และการแมปข้อมูลเป็นไปตามที่วางแผนไว้
โหลดข้อมูลเข้าคลังสินค้าเป้าหมาย
โหลดข้อมูลที่แยกและแปลงจากเซิร์ฟเวอร์ staging ไปยังคลังสินค้า DB ปลายทาง ทำการทดสอบ ETL เพื่อให้แน่ใจว่าข้อมูลเป็นของแท้ ตรงกับจำนวนบันทึก และใช้งานได้
รายงานสรุป
แก้ไขข้อผิดพลาด ฯลฯ เอกสารนี้จะช่วยให้ผู้มีส่วนได้ส่วนเสียเข้าใจผลลัพธ์ของระบบ ETL
ปิดการทดสอบ
ปิดกระบวนการ ETL ด้วยเอกสารและการรายงานทั้งหมด
การทดสอบ ETL สำหรับแต่ละขั้นตอน
ของกระบวนการ
การทดสอบข้อมูลเมตา
การทดสอบข้อมูลเมตาประกอบด้วยการตรวจสอบประเภทข้อมูล การตรวจสอบความยาวข้อมูล และการตรวจสอบดัชนี/ข้อจำกัด ตรวจสอบว่าข้อมูลเมตาสอดคล้องกับโมเดลข้อมูลและข้อมูลจำเพาะของแอปพลิเคชัน
การทดสอบความสมบูรณ์ของข้อมูล
ดำเนินการทดสอบความสมบูรณ์ของข้อมูลเพื่อให้แน่ใจว่าข้อมูลทั้งหมดจากต้นทางได้ย้ายไปยังคลังสินค้าปลายทางแล้ว การทดสอบดำเนินการเพื่อเปรียบเทียบและตรวจสอบความถูกต้องของจำนวนข้อมูล การรวมข้อมูล และการเปรียบเทียบข้อมูลจริงระหว่างต้นทางและปลายทาง
การทดสอบคุณภาพข้อมูล
การทดสอบคุณภาพข้อมูลใช้การทำโปรไฟล์ข้อมูลเพื่อระบุปัญหาด้านคุณภาพของข้อมูล และระบบ ETL ได้รับการออกแบบ (หรือแบบอัตโนมัติ) เพื่อแก้ไขปัญหาเหล่านี้ จุดประสงค์ของการทดสอบคุณภาพข้อมูลคือเพื่อให้แน่ใจว่าข้อมูลที่ถูกย้ายนั้นถูกต้องสมบูรณ์
การทดสอบการแปลงข้อมูล
ดำเนินการทดสอบการแปลงข้อมูลเพื่อให้แน่ใจว่าข้อมูลจากต้นทางได้รับการแปลงอย่างถูกต้องเพื่อให้เหมาะกับสคีมาของคลัง DB ปลายทาง สิ่งนี้เกี่ยวข้องกับการตรวจสอบโครงสร้างโปรแกรมเพื่อพัฒนาข้อมูลทดสอบและตรวจสอบตรรกะการแปลงหรือตรวจสอบการทำงานของแอพและวิเคราะห์ตรรกะการแปลงโดยการแมปเอกสารการออกแบบกับข้อมูลทดสอบ
การทดสอบการถดถอย ETL
การทดสอบนี้ตรวจสอบว่าระบบ ETL ให้เอาต์พุตเดียวกันสำหรับอินพุตที่กำหนดก่อนและหลังการเปลี่ยนแปลง
การทดสอบ ETL ที่เพิ่มขึ้น
การทดสอบนี้ตรวจสอบว่ามีการโหลดการอัปเดตต้นทางเข้าสู่ระบบปลายทางอย่างถูกต้อง ซึ่งรวมถึงการตรวจสอบรายการซ้ำที่เป้าหมาย (เมื่อมีการอัปเดตแหล่งที่มา) การเปรียบเทียบค่าข้อมูล และการตรวจสอบการทำให้เป็นปกติ
การทดสอบการรวม ETL
ซึ่งเกี่ยวข้องกับการทดสอบข้อมูลแบบครบวงจรในระบบ ETL การทดสอบการรวม ETL ทำได้โดยการตั้งค่าข้อมูลทดสอบในระบบต้นทาง ดำเนินการกระบวนการ ETL เพื่อโหลดข้อมูลลงในระบบปลายทาง ประมวลผลข้อมูลที่ปลายทาง เปรียบเทียบผลลัพธ์ และตรวจสอบความถูกต้องที่แอปพลิเคชันปลายทาง
การทดสอบประสิทธิภาพ ETL
กระบวนการทดสอบนี้เกี่ยวข้องกับการทดสอบทุกขั้นตอนในกระบวนการ ETL ด้วยชุดข้อมูล โดยจะเกี่ยวข้องกับการตั้งค่าข้อมูลการทดสอบ การรันระบบ ETL การโหลดข้อมูลลงในระบบเป้าหมาย และการวิเคราะห์ขั้นตอนทั้งหมดที่เกี่ยวข้องในระหว่างกระบวนการนี้
ความท้าทายในการทดสอบ ETL
หนึ่งในความท้าทายที่ใหญ่ที่สุดในการทดสอบ ETL คือปริมาณข้อมูล ระบบ ETL มักจะย้ายข้อมูลปริมาณมหาศาลจากแหล่งข้อมูลที่แตกต่างกัน และต้องการการแปลงเพื่อทำงานในคลังสินค้าและแอปพลิเคชันเป้าหมาย สิ่งนี้ทำให้เกิดคอขวดในการปฏิบัติงาน ใช้เวลานาน และเสี่ยงต่อความผิดพลาดของมนุษย์ ความท้าทายหลักบางประการที่ระบุในการทดสอบ ETL คือ:
- ข้อมูลสูญหายหรือเสียหายระหว่างการย้าย ETL
- ข้อมูลต้นฉบับมีปริมาณจำกัด ส่งผลให้มีการทดสอบที่จำกัด
- ไม่วางแผนธุรกิจและข้อกำหนดของแอพอย่างเหมาะสม
- กำลังโหลดข้อมูลที่ซ้ำกัน
- วิธีการทดสอบด้วยตนเองและช้า
- การใช้เครื่องมือ ETL แบบแมนนวลและล้าสมัย
ความท้าทายส่วนใหญ่ของ ETL เกิดจากการใช้กระบวนการแบบแมนนวลและล้าสมัย การสร้างแมปข้อมูล การทดสอบแหล่งที่มา การเข้ารหัสระบบ ETL การเรียกใช้การทดสอบการแปลง ฯลฯ ด้วยตนเองนั้นใช้เวลานานและเปิดโอกาสให้เกิดข้อผิดพลาดจากมนุษย์
ความท้าทายเหล่านี้สามารถเอาชนะได้อย่างง่ายดายโดยใช้เครื่องมือ ETL ที่ทันสมัยและรองรับ AI โซลูชันที่ทันสมัยสำหรับการทดสอบ ETL มีคุณลักษณะมากมาย เช่น อินเทอร์เฟซแบบกราฟิกและการทดสอบแบบร้อน (การทดสอบทันที) ที่ช่วยให้นักพัฒนาเรียกใช้การทดสอบ ETL ได้อย่างมีประสิทธิภาพและรวดเร็วยิ่งขึ้น
คุณสมบัติเด่นของเครื่องมือทดสอบ ETL
คุณสมบัติเด่นของ
เครื่องมือทดสอบ ETL
เปิดใช้งานการทำงานอัตโนมัติ
การทำงานอัตโนมัติช่วยลดเวลาและข้อผิดพลาดของ ETL ได้อย่างมากโดยทำให้ขั้นตอนหลักในกระบวนการ ETL เป็นไปโดยอัตโนมัติ เช่น การพัฒนาโค้ด การแมปข้อมูล การทดสอบการแปลง เป็นต้น
ส่วนติดต่อผู้ใช้แบบกราฟิก
เครื่องมือ ETL พร้อม GUI ทำให้กระบวนการพัฒนาและทดสอบเร็วขึ้น และช่วยให้นักพัฒนาแก้ไขและทดสอบได้ทันที
ข้อมูลที่ซับซ้อนการจัดการ
ผ่านเครื่องมือที่ทันสมัยและมีประสิทธิภาพ เช่น ตัวเชื่อมต่อข้อมูล การจัดการเนื้อหา การรวม CI/CD และเครื่องมือดีบั๊กที่ซับซ้อน
ปลอดภัยและสอดคล้อง
ข้อมูลที่ไหลผ่านระบบ ETL อาจมีความละเอียดอ่อนและควรปลอดภัยจากช่องโหว่ทางออนไลน์ เครื่องมือนี้ควรผ่านการตรวจสอบความปลอดภัยทั้งหมด
การทดสอบ ETL ด้วย DataQ
DataQ เป็นเครื่องมืออัตโนมัติด้านคุณภาพข้อมูลอัจฉริยะที่ใช้งานง่าย โดยมอบเครื่องมือการย้ายข้อมูลที่มีคุณลักษณะหลากหลายพร้อมคุณลักษณะการทำงานอัตโนมัติสำหรับการย้ายข้อมูล ความสามารถในการสังเกตข้อมูล การทดสอบ ETL การกระทบยอดข้อมูล และอื่นๆ
DataQ ผสานรวมกับแหล่งที่มาต่างๆ เช่น Microsoft SQL Server, MongoDB, PostgreSQL, Oracle, Apache Hive, IBM DB2, SAP HANA, Teradata, MySQL, memSQL, Derby, MariaDB และคลังสินค้า DB ปลายทาง เช่น Postgres, Snowflake, Big Query, Redshift, Cassandra, Hadoop และไฮฟ์
DataQ รองรับทั้งโครงสร้างพื้นฐาน Multi-Cloud และสถาปัตยกรรมภายในองค์กร