בית שמע ניתוח Hadoop: לא כל כך קל על פני מקורות נתונים מרובים

ניתוח Hadoop: לא כל כך קל על פני מקורות נתונים מרובים

תוכן עניינים:

Anonim

Hadoop הוא מקום נהדר להוריד נתונים לעיבוד אנליטי או למודל נפחים גדולים יותר של מקור נתונים בודד שאינם אפשריים במערכות קיימות. עם זאת, מכיוון שחברות מכניסות נתונים ממקורות רבים לחדוא, יש ביקוש גובר לניתוח נתונים על פני מקורות שונים, דבר שיכול להיות קשה ביותר להשגה. פוסט זה הוא הראשון בסדרה בת שלושה חלקים המסבירה את הסוגיות בהן מתמודדים ארגונים, כאשר הם מנסים לנתח מקורות נתונים וסוגים שונים בתוך Hadoop, וכיצד לפתור אתגרים אלה. הפוסט של היום מתמקד בבעיות שמתרחשות כשמשלבים מקורות פנימיים מרובים. שני הפוסטים הבאים מסבירים מדוע בעיות אלה גוברות במורכבות, ככל שנוספים מקורות נתונים חיצוניים, וכיצד גישות חדשות עוזרות לפתור אותן.

נתונים ממקורות שונים שקשה להתחבר ולמפות

לנתונים ממקורות מגוונים יש מבנים שונים המקשים על חיבור ומיפוי סוגי נתונים יחד, אפילו נתונים ממקורות פנימיים. שילוב נתונים יכול להיות קשה במיוחד אם ללקוחות יש מספרי חשבונות מרובים או אם ארגון רכש או התמזג עם חברות אחרות. במהלך השנים האחרונות ניסו ארגונים מסוימים להשתמש ביישומי גילוי נתונים או מדעי נתונים כדי לנתח נתונים ממקורות מרובים המאוחסנים בהאדוף. גישה זו היא בעייתית מכיוון שהיא כרוכה בהרבה ניחושים: המשתמשים צריכים להחליט באילו מקשים זרים ישתמשו כדי לחבר בין מקורות נתונים שונים ולהניח הנחות בעת יצירת שכבות-על של דגמי נתונים. ניחושים אלה קשים לבדיקה ולעיתים קרובות אינם נכונים בעת יישום בקנה מידה, מה שמוביל לניתוח נתונים לקוי ולחוסר אמון במקורות.

מומחי Hadoop מנסים למזג נתונים יחד

לפיכך, ארגונים המעוניינים לנתח נתונים על פני מקורות נתונים, השתמשו בהעסקת מומחי Hadoop כדי ליצור סקריפטים מותאמים אישית וספציפיים למקור כדי למזג קבוצות נתונים יחד. מומחי Hadoop אלה בדרך כלל אינם מומחי שילוב נתונים או רזולוציה של ישויות, אך הם עושים ככל יכולתם על מנת לענות על הצרכים המיידיים של הארגון. מומחים אלה משתמשים בדרך כלל בחזיר או ב- Java בכדי לכתוב כללים קשים ומהירים שקובעים כיצד לשלב נתונים מובנים ממקורות ספציפיים, למשל התאמת רשומות על בסיס מספר חשבון. לאחר שנכתב סקריפט לשני מקורות, אם יש להוסיף מקור שלישי, יש לזרוק את התסריט הראשון ולסקריפט חדש שנועד לשלב שלושה מקורות ספציפיים. אותו דבר קורה אם נוסף מקור נוסף וכן הלאה. לא זו בלבד שגישה זו אינה יעילה, אלא שהיא נכשלת כאשר היא מיושמת בקנה מידה, מטפלת במקרי קצה בצורה גרועה, עלולה לגרום למספר גדול של רשומות כפולות, ולעתים קרובות ממזגת רשומות רבות שלא צריך לשלב.

ניתוח Hadoop: לא כל כך קל על פני מקורות נתונים מרובים