ETL (חילוץ, טרנספורמציה ועומס) הוא אחד התהליכים החשובים ביותר בניתוח נתונים גדולים - ובמקביל הוא יכול להיות אחד מצוואר הבקבוק הגדולים ביותר שלו. (למידע נוסף על נתונים גדולים, עיין ב 5 קורסים מועילים לביג נתונים שאתה יכול לקחת באינטרנט.)
הסיבה ש- ETL כה חשובה היא שרוב הנתונים שעסק אוסף אינם מוכנים, בצורתם הגולמית, לפיתרון אנליטי לעיכול. בכדי שפתרון אנליטיקה יצור תובנות, יש לחלץ את הנתונים הגולמיים מהיישום בו הם נמצאים כיום, להפוך לפורמט שתוכנית ניתוח יכולה לקרוא ואז לטעון אותו לתוכנית האנליטיקה עצמה.
תהליך זה מקביל לבישול. החומרים הגולמיים שלך הם הנתונים הגולמיים שלך. יש לחלץ אותם (לרכוש אותם מחנות), להפוך (לבשל) ואז להעמיס אותם (מצופים), לפני שניתן יהיה לנתח (לטעום). הקושי וההוצאות יכולים לקבוע מידה בלתי צפויה - קל להכין לעצמכם גבינה של mac n ’, אך הרבה יותר קשה ליצור תפריט גורמה עבור 40 איש בארוחת ערב. למותר לציין שטעות בכל נקודה יכולה להפוך את הארוחה לבלתי ניתנת לעיכול.