תוכן עניינים:
- Big Data אינו מובנה או מובנה למחצה
- אין טעם לאחסן נתונים גדולים אם לא נוכל לעבד אותם
- כיצד Hadoop פותרת את בעיית ה- Big Data
- התיק העסקי של Hadoop
נתונים גדולים זה … טוב … גדול בגודל! כמה נתונים אפשר לסווג כנתונים גדולים זה לא ברור מאוד, אז בואו לא נתקע בוויכוח ההוא. עבור חברה קטנה שרגילה להתמודד עם נתונים בגיגה-בייט, 10 TB של נתונים יהיה גדול. עם זאת עבור חברות כמו פייסבוק ו- Yahoo, פטיט הוא גדול.
בדיוק בגודל של נתונים גדולים, לא מאפשר (או לפחות אוסרת עלות) לאחסן אותם באחסון מסורתי כמו מסדי נתונים או קבצים רגילים. אנו מדברים על עלות לאחסון ג'יגה-בייט של נתונים. שימוש בתיקוני אחסון מסורתיים יכול לעלות הרבה כסף לאחסון נתונים גדולים.
כאן נסקור נתונים גדולים, אתגריה וכיצד Hadoop יכולה לעזור לפתור אותם. ראשית, האתגרים הגדולים ביותר של נתונים גדולים.
Big Data אינו מובנה או מובנה למחצה
הרבה נתונים גדולים אינם מובנים. לדוגמה, נתוני יומן קליקים יכולים להיראות:
חותמת זמן, user_id, עמוד, דף הפניה
היעדר מבנה גורם למאגרי נתונים יחסיים לא להתאים היטב לאחסון נתונים גדולים. בנוסף, לא הרבה מסדי נתונים יכולים להתמודד עם אחסון של מיליארדי שורות נתונים.
אין טעם לאחסן נתונים גדולים אם לא נוכל לעבד אותם
אחסון נתונים גדולים הוא חלק מהמשחק. עלינו לעבד אותו כדי לכרות את האינטליגנציה שלו. מערכות אחסון מסורתיות די "מטומטמות" במובן זה שהן פשוט מאחסנות ביטים. הם לא מציעים כוח עיבוד כלשהו.
במודל עיבוד הנתונים המסורתי יש נתונים המאוחסנים באשכול אחסון, המועתקים לאשכול מחשוב לעיבוד. התוצאות נכתבות בחזרה לאשכול האחסון.
עם זאת, המודל הזה לא ממש עובד עבור נתונים גדולים מכיוון שהעתקת כל כך הרבה נתונים לאשכול מחשוב עלולה להיות זמן רב מדי או בלתי אפשרי. אז מה היא התשובה?
פיתרון אחד הוא לעבד נתונים גדולים במקום, כמו למשל באשכול אחסון המשמש כאשכול מחשוב.
אז כפי שראינו לעיל, נתונים גדולים מתריסים עם אחסון מסורתי. אז איך מטפלים בנתונים גדולים?
כיצד Hadoop פותרת את בעיית ה- Big Data
Hadoop בנויה לרוץ על מקבץ מכונותנתחיל בדוגמה. בואו נגיד שאנחנו צריכים לאחסן הרבה תמונות. נתחיל בדיסק יחיד. כאשר אנו חורגים מדיסק בודד, אנו עשויים להשתמש בכמה דיסקים המוערמים במחשב. כאשר אנו מוציאים את כל הדיסקים במכונה יחידה, אנו צריכים להשיג חבורה של מכונות, לכל אחת חבורה של דיסקים.
כך בדיוק בנויים Hadoop. Hadoop נועד לרוץ על מקבץ מכונות מההתחלה.
אשכולות Hadoop מתרחשים בצורה אופקית
יותר כוח אחסון וחישוב ניתן להשיג על ידי הוספת צמתים נוספים לאשכול Hadoop. זה מבטל את הצורך לקנות חומרה יותר ויותר חזקה ויקרה.
Hadoop יכולה לטפל בנתונים לא מובנים / מובנים למחצה
Hadoop לא אוכפת סכמה על הנתונים שהיא מאחסנת. זה יכול להתמודד עם טקסט שרירותי ונתונים בינאריים. אז Hadoop יכולה לעכל כל נתונים לא מובנים בקלות.
אשכולות Hadoop מספקים אחסון ומחשוב
ראינו כיצד מקבצי אחסון ועיבוד נפרדים אינם המתאימים ביותר לנתונים גדולים. אשכולות Hadoop, עם זאת, מספקים אחסון ומחשוב מופץ הכל באחד.
התיק העסקי של Hadoop
Hadoop מספקת אחסון לנתונים גדולים במחיר סביראחסון נתונים גדולים באמצעות אחסון מסורתי יכול להיות יקר. Hadoop בנויה סביב חומרת סחורות, כך שהיא יכולה לספק אחסון גדול למדי בעלות סבירה. Hadoop שימש בשדה בקנה מידה פטיבה.
מחקר אחד של קלודרה העלה כי חברות בדרך כלל מוציאות בין 25, 000 ל 50, 000 $ לטרטה בשנה. עם Hadoop העלות הזו יורדת לכמה אלפי דולרים לטרטה בשנה. ככל שהחומרה הופכת זולה וזולה יותר, עלות זו ממשיכה לרדת.
Hadoop מאפשרת לכידת נתונים חדשים או יותר
לפעמים ארגונים לא לוכדים סוג של נתונים מכיוון שזה היה אוסר מדי על מנת לאחסן אותם. מכיוון שהאדופ מספק אחסון בעלות סבירה, ניתן ללכוד ולאחסן נתונים מסוג זה.
דוגמא אחת היא יומני קליקים באתר. מכיוון שהיקף היומנים הללו יכול להיות גבוה מאוד, לא הרבה ארגונים תפסו אותם. עכשיו עם Hadoop אפשר ללכוד ולאחסן את היומנים.
באמצעות Hadoop, אתה יכול לאחסן נתונים זמן רב יותר
כדי לנהל את נפח הנתונים המאוחסנים, חברות מנקות מעת לעת נתונים ישנים. לדוגמה, ניתן לאחסן רק יומנים בשלושת החודשים האחרונים, בעוד יומנים ישנים נמחקו. עם Hadoop אפשר לאחסן את הנתונים ההיסטוריים יותר. זה מאפשר לבצע ניתוחים חדשים על נתונים היסטוריים ישנים.
לדוגמה, קח יומני קליקים מאתר אינטרנט. לפני מספר שנים, יומנים אלה נשמרו במשך פרק זמן קצר כדי לחשב נתונים סטטיסטיים כמו דפים פופולריים. כעת עם Hadoop, קיימת אפשרות לאחסן את יומני הקליקים הללו לפרק זמן ארוך יותר.
Hadoop מספקת ניתוחים הניתנים להרחבה
אין טעם לאחסן את כל הנתונים האלה אם לא נוכל לנתח אותם. Hadoop לא רק מספק אחסון מבוזר, אלא גם עיבוד מבוזר, מה שאומר שנוכל לרסק נפח גדול של נתונים במקביל. המסגרת המחשבתית של Hadoop נקראת MapReduce. MapReduce הוכח בסדר גודל של פטיט.
Hadoop מספקת ניתוחים עשירים
Native MapReduce תומך ב- Java כשפת תכנות ראשית. ניתן להשתמש גם בשפות אחרות כמו רובי, פייתון ו- R.
כמובן שכתיבת קוד MapReduce מותאם אישית אינה הדרך היחידה לנתח נתונים בהאדופ. הפחתת מפה ברמה גבוהה יותר זמינה. לדוגמה, כלי בשם Pig לוקח אנגלית כמו שפת זרימת נתונים ומתרגם אותם ל- MapReduce. כלי נוסף, Hive, לוקח שאילתות SQL ומריץ אותן באמצעות MapReduce.
כלי בינה עסקית (BI) יכולים לספק רמה גבוהה יותר של ניתוח. ישנם כלים לניתוח מסוג זה.
תוכן זה מוצא מתוך "Hadoop מואר" מאת מארק קרזנר וסוג'י מניאם. זה הועמד באמצעות רישיון Creative Commons ייחוס-לא מסחרי-שתף-דומה 3.0 ללא הובלה.