תוכן עניינים:
כולם מדברים על Hadoop, הטכנולוגיה החדשה והחמה המוערכת מאוד בקרב המפתחים ופשוט עשויה לשנות את העולם (שוב). אבל מה זה בכלל? האם זו שפת תכנות? בסיס נתונים? מערכת עיבוד? תה הודי נעים?
התשובה הרחבה: Hadoop זה כל הדברים האלה (למעט התה נעים), ועוד. זוהי ספריית תוכנה המספקת מסגרת תכנות לעיבוד זול ושימושי של עוד מילת באזז מודרנית: ביג דאטה.
מאיפה הגיע הדופ?
Apache Hadoop הוא חלק מפרויקט הקרן של קרן Apache Software, ארגון ללא מטרות רווח אשר מטרתו היא "לספק תוכנה לטובת הציבור." ככזו, ספריית Hadoop הינה בחינם, תוכנת קוד פתוח הזמינה לכל המפתחים.
הטכנולוגיה העומדת בבסיס הכוח של Hadoop הומצאה למעשה על ידי גוגל. עוד בימים הראשונים, מנוע החיפוש הלא ממש ענק היה זקוק לדרך לאינדקס את כמויות הנתונים האדירות שאספו מהאינטרנט, ולהפוך אותו לתוצאות משמעותיות ורלוונטיות עבור המשתמשים בו. בלי שום דבר זמין בשוק שיכול לעמוד בדרישותיהם, גוגל בנתה פלטפורמה משלה.
אותם חידושים שוחררו בפרויקט קוד פתוח בשם Nutch, אשר לאחר מכן שימש Hadoop כבסיס. בעיקרו של דבר, Hadoop מיישמת את כוחה של גוגל על נתונים גדולים באופן שיהיה בר השגה עבור חברות בכל הגדלים.
איך עובד Hadoop?
כאמור, Hadoop אינה דבר אחד - זה הרבה דברים. ספריית התוכנה שהיא Hadoop מורכבת מארבעה חלקים ראשוניים (מודולים), ומספר פתרונות תוספות (כמו מסדי נתונים ושפות תכנות) המשפרים את השימוש שלה בעולם האמיתי. ארבעת המודולים הם:- Hadoop Common: זהו אוסף כלי השירות המשותפים (הספרייה המשותפת) התומכים במודולי Hadoop.
- מערכת קבצים מבוזרת Hadoop (HDFS): מערכת קבצים מבוזרת וחזקה ללא הגבלות על נתונים מאוחסנים (כלומר, נתונים יכולים להיות מובנים או לא מובנים ולחוסר סכנה, כאשר DFSs רבים יאחסנו רק נתונים מובנים) המספקת גישה לתפוקה גבוהה עם יתירות ( HDFS מאפשר לאחסן נתונים בכמה מכונות - כך שאם מכונה אחת נכשלה, נשמרת הזמינות דרך המכונות האחרות).
- Hadoop YARN: מסגרת זו אחראית על תזמון משרות וניהול משאבי אשכול; הוא מוודא שהנתונים נפרשים מספיק על מספר מכונות בכדי לשמור על יתירות. YARN הוא המודול שהופך את Hadoop לדרך סבירה וחסכונית לעבד נתונים גדולים.
- Hadoop MapReduce: מערכת זו מבוססת YARN, הבנויה על טכנולוגיית גוגל, מבצעת עיבוד מקביל של מערכי נתונים גדולים (מובנים ולא מובנים). MapReduce ניתן למצוא גם ברוב מסגרות עיבוד הנתונים הגדולים של ימינו, כולל מסדי נתונים MPP ו- NoSQL.
חומרה שיכולה להתמודד עם כמות כוח העיבוד הנדרשת לעבודה עם נתונים גדולים היא יקרה, בלשון המעטה. זהו החידוש האמיתי של Hadoop: היכולת לפרק כמויות אדירות של כוח עיבוד על פני מכונות קטנות וקטנות יותר, לכל אחת מחשוב ואחסון מקומי משלה, יחד עם יתירות מובנית ברמת היישום כדי למנוע כשלים.
מה עושה Hadoop?
בפשטות, Hadoop הופכת נתונים גדולים לנגישים ושימושיים לכולם.
לפני Hadoop, חברות שמשתמשות בנתונים גדולים עשו זאת בעיקר באמצעות מסדי נתונים יחסיים ומחסני נתונים ארגוניים (המשתמשים בכמויות אדירות של חומרה יקרה). אמנם כלים אלה נהדרים לעיבוד נתונים מובנים - שהם נתונים שכבר ממוינים ומאורגנים בצורה הניתנת לניהול, אך היכולת לעבד נתונים לא מובנים הייתה מוגבלת ביותר, עד כדי כך שהם כמעט ולא היו קיימים. כדי להיות שמיש, היה צורך לבנות את הנתונים תחילה כך שהם ישתלבו בצורה מסודרת בטבלאות.
מסגרת Hadoop משנה את הדרישה הזו ועושה זאת בזול. באמצעות Hadoop, ניתן לעבד כמויות עצומות של נתונים בין 10 ל 100 ג'יגה-בתים ומעלה, מובנים וגם לא מובנים, באמצעות שרתים רגילים (סחורות).
Hadoop מביאה יישומי Big Data פוטנציאליים לעסקים בכל הגדלים, בכל ענף. המסגרת בקוד הפתוח מאפשרת לחברות מימון ליצור מודלים מתוחכמים להערכת תיקים וניתוח סיכונים, או קמעונאים מקוונים כדי לכוונן את תשובות החיפוש שלהם ולהפנות לקוחות לעבר מוצרים שהם נוטים יותר לקנות.
עם Hadoop, האפשרויות באמת בלתי מוגבלות.