תוכן עניינים:
- כיצד החלה הדו"ף?
- מה כל כך חשוב בהודו?
- מה נקרא סכמה בקריאה?
- מהו כוורת?
- איזה סוג נתונים מנתח Hadoop?
- האם אתה יכול לתת דוגמה מעולם האמת של Hadoop?
- האם Hadoop כבר מיושנת או סתם מורפינג?
מה זה Hadoop? זה פיל צעצוע צהוב. לא למה שציפיתם? מה דעתך על זה: דאג קוצץ - יוצר משותף של פרויקט תוכנת הקוד הפתוח הזה - לווה את השם מבנו שבמקרה כינה את פיל הצעצועים שלו Hadoop. על קצה המזלג, Hadoop היא מסגרת תוכנה שפותחה על ידי קרן התוכנה Apache המשמשת לפיתוח מחשוב עתיר נתונים, מבוזר. וזה נדמה שמרכיב עיקרי בשאר מילות buzzword אף פעם לא יכול לקבל מספיק: big data. להלן שבעה דברים שכדאי לדעת על תוכנה ייחודית זו בעלת רישיון חופשי.
כיצד החלה הדו"ף?
לפני 12 שנים גוגל בנתה פלטפורמה לתמרון בכמויות הנתונים העצומות שהיא אוספת. כמו שעושה החברה לעתים קרובות, גוגל העמידה את העיצוב שלה לציבור בצורת שני מאמרים: מערכת הקבצים של גוגל ו- MapReduce.
במקביל, דאג קוטטינג ומייק קפרלה עבדו על נאצ ', מנוע חיפוש חדש. השניים נאבקו גם כיצד לטפל בכמויות גדולות של נתונים. ואז שני החוקרים קיבלו את העיתונים של גוגל. הצומת המאושר הזה שינה את הכל על ידי הצגת חיתוך וקפארלה למערכת קבצים טובה יותר ודרך לעקוב אחר הנתונים, ובסופו של דבר הוביל ליצירת Hadoop.
מה כל כך חשוב בהודו?
כיום, איסוף נתונים קל מתמיד. קבלת כל הנתונים הללו מציגה הזדמנויות רבות, אך ישנם גם אתגרים:- כמויות אדירות של נתונים דורשות שיטות עיבוד חדשות.
- הנתונים שנלכדים הם בפורמט לא מובנה.
בשלב הבא הם נאלצו להתמודד עם נתונים או נתונים לא מובנים בפורמטים שמערכות מסד נתונים יחסיות סטנדרטיות לא הצליחו לטפל בהן. Cutting and Cafarella עיצבו את Hadoop כך שיעבדו עם כל סוג של נתונים: מובנה, לא מובנה, תמונות, קבצי שמע, אפילו טקסט. נייר לבן של Cloudera (משולב Hadoop) מסביר מדוע זה חשוב:
-
"על ידי הפיכת כל הנתונים שלך לשימושיים, ולא רק מה שיש במאגרי המידע שלך, Hadoop מאפשרת לך לחשוף קשרים נסתרים ולחשוף תשובות שתמיד היו רק מחוץ להישג ידם. אתה יכול להתחיל לקבל יותר החלטות על בסיס נתונים קשים, במקום גיבושים, ולהסתכל בערכות נתונים שלמות, לא רק בדוגמאות וסיכומים. "
מה נקרא סכמה בקריאה?
כאמור, אחד היתרונות של Hadoop הוא יכולתו לטפל בנתונים לא מובנים. במובן מסוים, זה "לבעוט בפחית בהמשך הדרך". בסופו של דבר הנתונים זקוקים למבנה כלשהו כדי לנתח אותם.
כאן נכנס לתמונה סכמה בקריאה. הסכימה בקריאה היא מיזוג באיזו פורמט הנתונים נמצאים, היכן ניתן למצוא את הנתונים (זכור שהנתונים מפוזרים בין כמה שרתים), ומה לעשות לנתונים - משימה לא פשוטה. נאמר כי מניפולציה של נתונים במערכת Hadoop דורשת כישורים של אנליסט עסקי, סטטיסטיקאי ומתכנת ג'אווה. למרבה הצער, אין הרבה אנשים עם הכישורים האלה.
מהו כוורת?
אם Hadoop עמד להצליח, היה צורך לפשט את העבודה עם הנתונים. אז הקהל עם הקוד הפתוח התחיל לעבוד ויצר את כוורת:-
"כוורת מספקת מנגנון להקרין מבנה על נתונים אלה ולשאול את הנתונים באמצעות שפה דמוית SQL בשם HiveQL. במקביל, שפה זו מאפשרת גם למפות / להפחית מתכנתים מסורתיים לחבר את המיפויים והמצמצמים שלהם בהתאמה לא נוחה או לא יעיל לבטא את ההיגיון הזה ב- HiveQL. "
כוורת מאפשרת את הטוב שבשני העולמות: אנשי מסד נתונים המכירים פקודות SQL יכולים לתפעל את הנתונים, ומפתחים המכירים את הסכימה בתהליך הקריאה עדיין מסוגלים ליצור שאילתות בהתאמה אישית.
איזה סוג נתונים מנתח Hadoop?
ניתוח אתרים הוא הדבר הראשון שעולה בראשכם, ניתוח יומני אינטרנט ותעבורת אינטרנט על מנת לבצע אופטימיזציה לאתרים. פייסבוק, למשל, בהחלט נכנסת לניתוח אתרים, משתמשת בהודו כדי למיין את טרה-בתים של נתונים שהחברה צוברת.
חברות משתמשות באשכולות Hadoop לביצוע ניתוח סיכונים, איתור הונאה ופילוח בסיס לקוחות. חברות שירות משתמשות בחאוד כדי לנתח נתוני חיישנים מרשת החשמל שלהם, ומאפשרות להם לייעל את ייצור החשמל. חברות מרכזיות כמו Target, 3M ו- Medtronics משתמשות ב- Hadoop כדי לייעל את חלוקת המוצרים, הערכות הסיכון העסקי ופילוח בסיס הלקוחות.
אוניברסיטאות מושקעות גם בהודו. בראד רובין, פרופסור חבר באוניברסיטת סנט תומאס תוכניות לתארים מתקדמים בתוכנה, הזכיר שמומחיותו של Hadoop מסייעת במיון הכמויות השפע של הנתונים שנאספו על ידי קבוצות מחקר באוניברסיטה.
האם אתה יכול לתת דוגמה מעולם האמת של Hadoop?
אחת הדוגמאות הידועות יותר היא TimesMachine. ל"ניו יורק טיימס "יש אוסף של תמונות TIFF בעיתונים מלאים, מטא נתונים משויכים וטקסט מאמרים משנת 1851 עד 1922 בהיקף של טרה-בתים של נתונים. דרק גוטפריד של NYT, משתמש במערכת EC2 / S3 / Hadoop וקוד מיוחד, :-
"הכניסו 405, 000 תמונות TIFF גדולות מאוד, 3.3 מיליון מאמרים ב- SGML ו- 405, 000 קבצי XML הממפים מאמרים לאזורים מלבניים ב- TIFF. נתונים אלו הומרו לתמונות יותר ידידותיות לאינטרנט 810, 000 תמונות PNG (תמונות ממוזערות ותמונות מלאות) ו- 405, 000 קבצי JavaScript. "
באמצעות שרתים בענן שירותי האינטרנט של אמזון, גוטפריד ציין שהם הצליחו לעבד את כל הנתונים הדרושים ל- TimesMachine בפחות מ 36 שעות.
האם Hadoop כבר מיושנת או סתם מורפינג?
Hadoop קיימת כבר למעלה מעשור. יש רבים שאומרים שזה מיושן. מומחה אחד, ד"ר דיוויד ריקו, אמר כי "מוצרי IT הם קצרי מועד. בשנות כלבים, מוצרי גוגל הם בערך 70 ואילו חאדופ הוא 56."
יכול להיות שיש אמת במה שריקו אומר. נראה כי Hadoop עוברת שיפוץ גדול. למידע נוסף על זה, רובין הזמין אותי לישיבת קבוצת משתמשים של התאומים "Hadoop Hadoop", ונושא הדיון היה מבוא ל- YARN:
-
"Apache Hadoop 2 כולל מנוע MapReduce חדש, שיש לו מספר יתרונות ביחס ליישום הקודם, כולל מדרגיות וניצול משאבים טוב יותר. היישום החדש בנוי על מערכת ניהול משאבים כללית להפעלת יישומים מבוזרים בשם YARN."