בית חומרה מגהץ גדול, פגוש נתונים גדולים: שחרור נתונים של מיינפריים עם Hadoop ונצוץ

מגהץ גדול, פגוש נתונים גדולים: שחרור נתונים של מיינפריים עם Hadoop ונצוץ

Anonim

על ידי צוות Techopedia, 2 ביוני 2016

טייק אוויי: המערכת האקולוגית של Hadoop משמשת במסגרות פריים כדי לעבד נתונים גדולים במהירות וביעילות.

אינך מחובר כרגע. התחבר או הירשם כדי לראות את הסרטון.

אריק קוואנה: אוקיי גבירותיי ורבותיי, השעה ארבע מזרחית ביום חמישי, ובימים אלה זה כמובן הגיע הזמן להוט טכנולוגיות. אכן כן, שמי אריק קוואנה. אני אהיה המנחה שלך לסמינר האינטרנט של היום. זה דברים טובים, חברים, "ברזל גדול, פגוש ביג דאטה" - אני פשוט אוהב את הכותרת הזו - "משחרר נתונים של Mainframe עם Hadoop and Spark." אנחנו הולכים לדבר על ישן פוגש חדש. וואו! אנו מכסים את הספקטרום של כל מה שדיברנו עליו בחמישים השנים האחרונות של ה- IT הארגוני. ניצוץ פוגש מיינפריים, אני אוהב את זה.

יש נקודה אצלך באמת ומספיקה בי. השנה חמה. אנחנו מדברים על נושאים חמים בסדרה הזו מכיוון שאנחנו באמת מנסים לעזור לאנשים להבין תחומים מסוימים, מרחבים מסוימים. מה המשמעות של למשל לפלטפורמה אנליטית? מה המשמעות של שחרור נתונים גדולים ממסגרות מרכזיות? מה המשמעות של כל הדברים האלה? אנו מנסים לעזור לך להבין סוגים ספציפיים של טכנולוגיות, היכן הן משתלבות בתערובת ואיך אתה יכול להשתמש בהן.

יש לנו שני אנליסטים היום ואז כמובן Tendü Yogurtçu מסינקסורט. היא בעלת חזון במרחב שלנו, מאוד מרוצה שיש לה היום באינטרנט, עם דז בלנשפילד שלנו וד"ר רובין בלור. אני אומר רק כמה מילים מהירות. האחת היא, אנשים אתם משחקים חלק גדול בתהליך הזה, אז אנא אל תתביישו לשאול כמה שאלות טובות. ברצוננו להגיע אליהם במהלך רכיב השאלות והתשובות של שידור האינטרנט, שהוא בדרך כלל בסוף המופע. וכל מה שיש לי לומר זה שיש לנו הרבה תוכן טוב, אז אני נרגש לשמוע מה יש לבנים האלה לומר. ועם זה אני הולך למסור אותו לדז בלנשפילד. דז, הרצפה היא שלך, קח אותה משם.

דז בלנשפילד: תודה, אריק, ותודה לכולם שהשתתפו היום. אז אני מתרגש למדי כשאני מקבל הזדמנות לדבר על אחד הדברים האהובים עלי בעולם, פריימים גדולים. הם לא זוכים לאהבה רבה בימינו. התפיסה שלי היא שהמיינפריים היה פלטפורמת ה- Big Data המקורית. יש שיטענו כי הם היו המחשב היחיד באותה תקופה וזו נקודה לא מבוטלת לעשות זאת, אבל כבר למעלה מ- 60 שנה שהם למעשה היו חדר המנועים של מה שהאינפורמציה של נתונים גדולים באחרונה הייתה פופולרית. ואני הולך לקחת אותך למסע קטן בשאלה מדוע אני מאמין שזה המצב.

ראינו מסע בערימות החומרה הטכנולוגיות בהקשר של פריימים גדולים משתנה מהתמונה שרואים עכשיו על המסך. זהו mainframe ישן של FACOM, אחד האהובים עלי. עברנו את עצמנו לשלב הברזל הגדול, סוף שנות התשעים ולבום הדוט-קום. זהו Sun Microsystems E10000. הדבר הזה היה מפלצת מוחלטת ב- 96 מעבד. במקור 64 אך ניתן לשדרג אותו ב- 96 מעבד. כל מעבד יכול להריץ 1, 024 חוטים. כל חוט יכול להיות בקצב יישום בו זמנית. זה היה פשוט מפלצתי וזה למעשה הניע את תנופת הדוט-קום. זה כל חד-הקרנים הגדולים כפי שאנחנו מכנים אותם, עכשיו אנחנו מנהלים ולא רק את המפעלים הגדולים, חלק מהאתרים הגדולים.

ואז סיימנו את דגם ה- PC הסחורה הנפוץ הזה. פשוט אספנו יחד הרבה מכונות זולות ויצרנו אשכול וניגשנו לאתגר הברזל הגדול ומה שהפך לנתונים גדולים במיוחד בצורה של פרויקט Hadoop שהוביל את מנוע החיפוש הקוד הפתוח, Nutch. ובעצם יצרנו מחדש את המיינפריים והמון המעבדים הקטנים שהודבקו זה לזה ויכולנו לפעול כמו נתיבי L ובצורה של ניהול עבודות נפרדות או חלקי משרות והם היו די יעילים במובנים רבים. יותר זול אם התחלתם להיות קטנים יותר, אך באופן בלתי נמנע רבים מהצבירים הגדולים הללו הפכו יקרים יותר ממיינפריים.

השקפתי בדברים האלה היא שבזריזות מההתפוצצות dot-com ועד למה שהפך ל- Web 2.0 ועכשיו רודף אחרי חד קרן, שכחנו שיש את הפלטפורמה הזו שעדיין מפעילה רבים ממערכות הביקורת המשימה הגדולות ביותר שלנו שם. כשאנחנו חושבים מה פועל בפלטפורמות המיינפריים שם בחוץ. זה מאוד הנתונים הגדולים, במיוחד סוס העבודה של הנתונים, אבל בהחלט נתונים גדולים. מערכות ארגוניות וממשלות מסורתיות כמו בנקאות וניהול וביטוח וביטוח בפרט, כולנו משתמשים בכל יום.

מערכות הזמנת חברות תעופה וניהול טיסות, במיוחד ניהול טיסות בהן זמן אמת הוא קריטי. כמעט לכל מדינה וממשל פדרלי בתקופה מסוימת הייתה מערכת מיינפריים, ולרוב אין עדיין רבים מהם. קמעונאות וייצור. חלק מהתוכנות הישנות שרק קיימות ומעולם לא נעלמו. פשוט ממשיך לסביבות ייצור חשמל ובוודאי קמעונאיות בסדר גודל. מערכות רפואיות. מערכות הגנה, בהחלט מערכות הגנה.

בשבועות האחרונים האחרונים קראתי מאמרים רבים על כך שחלק ממערכות בקרת הטילים עדיין פועלות על גבי מסגרות מרכזיות ישנות שהם נאבקים למצוא להן חלקים. הם מגלים כיצד לשדרג למסגרות ראשיות חדשות. מערכות תחבורה ולוגיסטיקה. אלה אולי לא נשמעים כמו הנושאים הסקסיים, אבל אלה הנושאים בהם אנו עוסקים מדי יום על פני הקווים. וכמה סביבות טלקומוניקציה גדולות מאוד עדיין פועלות בפלטפורמות מיינפריים.

כשאתה חושב על סוגי הנתונים שנמצאים שם, כולם קריטיים למשימה. הם באמת פלטפורמות ופלטפורמות חשובות שאנחנו לוקחים כמובנות מאליהן מדי יום ובמובנים רבים מאפשרים את החיים. אז מי עדיין משתמש במיינפריים ומי כל האנשים האלה שמחזיקים בפלטפורמות הגדולות האלה ומחזיקים בכל הנתונים האלה? ובכן, כמו שאמרתי כאן, אני מאמין שקל להתבלבל מהמעבר של התקשורת מברזל גדול למתלים של אשכולות מחוץ למדף או מחשבים ניידים זולים או מכונות x86, לחשוב שהמיינפריים מת ונעלם. אבל הנתונים אומרים שהמיינפריים מעולם לא נעלם ולמעשה הוא כאן כדי להישאר.

המחקר שערכתי כאן בשבועיים האחרונים הראה כי 70 אחוז מהנתונים של ארגונים, במיוחד גדולים, עדיין נותרו על בסיס פריים כלשהו. שבעים ואחד אחוזים ממגוון 500 Fortune עדיין מנהלים מערכות ליבה עסקיות במיינסטרים איפשהו. למעשה, כאן באוסטרליה, יש לנו מספר ארגונים שיש להם מרכז נתונים באמצע עיר. זהו מחשב מחתרתי בפועל באופן יעיל, ומספר המסגרות הראשיות שרק רץ לשם, מתקתק ועושה את עבודתן בשמחה. ומעט מאוד אנשים יודעים שמסתובבים ברחובות, ממש מתחת לרגליהם בחלק מסוים של העיר, יש מרכז נתונים ענק זה מלא במסגרות ראשיות. תשעים ושניים מתוך 100 מהבנקים ברחבי העולם, 100 הבנקים המובילים שהם, עדיין מנהלים מערכות בנקאות על פריימים גדולים. עשרים ושלוש מ -25 הרשתות הקמעונאיות המובילות ברחבי העולם משתמשים במסגרות פריים כדי להפעיל עדיין את מערכות הניהול הקמעונאיות שלהן בפלטפורמות EIP ו- BI.

באופן מעניין, 10 מתוך 10 המבטחים המובילים עדיין מפעילים את הפלטפורמות שלהם במיינפריים, והם למעשה מפעילים את שירותי הענן שלהם במיינפריים. אם אתה משתמש בממשק אינטרנט או באפליקציה לנייד במקום כלשהו שיש ממשק אמצעי התווך, שמדברים למעשה עם משהו ממש כבד וגדול בקצה האחורי.

מצאתי למעלה מ- 225 סוכנויות ממשלתיות ומקומיות ברחבי העולם פועלות עדיין על פלטפורמות מיינפריים. אני בטוח שיש לכך הרבה סיבה. אולי אין להם את התקציב לשקול ברזל חדש אבל זה טביעת רגל אדירה של סביבות גדולות מאוד הפועלות על מיינפריים עם כמה נתונים קריטיים מאוד. וכפי שציינתי קודם, רוב המדינות עדיין מנהלות את מערכות ההגנה העיקריות שלהן על מיינפריים. אני בטוח במובנים רבים הם מנסים לרדת משם אבל הנה.

בשנת 2015 המרכז הבינתחומי ביצע סקר ו -350 מבין אנשי ה- CIO שנבדקו דיווחו כי הם עדיין בבעלותם וניהולם של ברזל גדול בצורה של מיינפריים. והדהים אותי שסביר להניח שזה יותר ממספר אשכולות ההדופ הגדולים הנמצאים כיום ברחבי העולם בייצור - סטטט קטן ומעניין שם. אני הולך להמשיך ולאמת את זה, אבל זה היה מספר גדול. שלוש מאות חמישים נציגי רשות המדינות דיווחו שיש להם פריים אחד או יותר עדיין בייצור.

בשנה שעברה, 2015, IBM העניקה לנו את ה- Z13 האדירה, האיטרציה ה -13 של פלטפורמת המיינפריים שלהם. התקשורת השתוללה על הדבר הזה מכיוון שהם נדהמו מכך ש- IBM עדיין מייצרת פריימים גדולים. כשהרימו את מכסה המנוע והסתכלו על מה שנמצא תחת העניין, הם הבינו שזה למעשה בשווה כמעט לכל פלטפורמה מודרנית שהתלהבנו ממנה בצורה של big data, Hadoop ובוודאי האשכולות. הדבר הזה ניהל את ספארק ועכשיו חדוד הילידים. אתה יכול להפעיל עליו אלפי אלפי מכונות לינוקס וזה נראה והרגיש כמו כל אשכול אחר. זו הייתה מכונה מדהימה למדי.

מספר ארגונים העלו את הדברים האלה ולמעשה עשיתי כמה נתונים על כמה מהמחשבים האלה תופסים. כעת הייתה לי הדעה כי מסוף הטקסט 3270 הוחלף על ידי דפדפני אינטרנט ואפליקציות סלולריות מזה זמן רב ויש המון נתונים התומכים בכך. אני חושב שעכשיו אנו נכנסים לעידן בו הבנו שהמסגרות הראשיות הללו לא נעלמות ויש כמות משמעותית של נתונים עליהם. ולכן מה שאנחנו עושים עכשיו הוא פשוט להוסיף את מה שאני מכנה כלי ניתוח מדפים. אלה לא אפליקציות שנבנו בהתאמה אישית. אלה דברים שמותאמים באופן חד פעמי. אלה דברים שאתה יכול ממש פשוט לקנות בארגז ארוז כשלעצמו ולחבר למיינפריים שלך ולעשות כמה ניתוחים.

כפי שאמרתי קודם, המיינפריים קיים כבר למעלה מ- 60 שנה. כשאנחנו חושבים על כמה זמן זה, זה ארוך יותר מאשר בפועל הקריירה של רוב אנשי המקצוע בתחום ה- IT. ולמעשה כנראה גם חלק מחייהם. בשנת 2002 מכרה יבמ 2, 300 פריימים גדולים. בשנת 2013 זה צמח ל -2, 700 פריימים גדולים. זה 2, 700 מכירות של פריימים גדולים בשנה אחת בשנת 2013. לא הצלחתי לקבל נתונים מדויקים על 2015 אבל אני מתאר לעצמי שזה מתקרב במהירות ל -3, 000 יחידות שנמכרו בשנה בשנת 2015, 2013. ואני מצפה להצליח לאשר זאת.

עם שחרורו של ה- Z13, האיטרציה ה -13 של פלטפורמת מיינפריים, שלדעתי עלתה להם בערך 1.2 או 1.3 מיליארד דולר כדי להתפתח מאפס, IBM היא הנה מכונה שנראית ומרגישה ממש כמו כל אשכול אחר יש לנו היום, ומנהל באופן טבעי את Hadoop and Spark. ובהחלט ניתן לחבר אליהם מכלי ניתוח אחרים וכלי נתונים גדולים או לחבר תמיד לאחד מאשכולות ההדופ הקיימים או החדשים שלך. יש לי השקפה זו שלכלול פלטפורמת המיינפריים באסטרטגיית הנתונים הגדולים שלך היא חובה. ברור שאם יש לך נתונים, יש לך הרבה נתונים ואתה רוצה להבין איך להוריד את זה משם. והם נותרים לאסוף אבק במובנים רבים, נפשית ורגשית ככל שעוסק בעולם העסקים, אבל הם כאן כדי להישאר.

קישוריות וממשקים לכל כלי הניתוח שלך לנתונים המתארחים ב- mainframe צריכים להיות חלק מרכזי בארגון ובמיוחד בתוכניות נתונים גדולים של הממשלה. ובאופן בלתי נמנע כעת התוכנה מבחינה בהם, מביטה בהם היטב וארוכה ומבינה מה יש בתוך הדברים האלה ומחברת מוחות שמתחילים לקבל קצת תובנה וקצת תחושה של מה שבאמת נמצא תחת מכסה המנוע. ועם זה אני אעבור לחברתי היקרה, ד"ר רובין בלור והוא יוסיף למסע הקטן הזה. רובין, קח את זה משם.

רובין בלור: טוב, תודה. אוקיי, ובכן, מכיוון שדז שר את השיר של המיינפריים, אכנס למה שאני חושב שקורה מבחינת עולם המיינפריים הישן ועולם Hadoop החדש. אני מניח שהשאלה הגדולה כאן היא, איך אתה מנהל את כל הנתונים האלה? זו לא דעתי שמערערים על המיינפריים ביחס ליכולת הנתונים הגדולה שלה - יכולת הנתונים הגדולים שלה היא מאוד, כפי שציין דז, היא מסוגלת ביותר. למעשה אתה יכול לשים עליו אשכולות Hadoop. היכן שהוא מאותגר הוא מבחינת המערכת האקולוגית שלו ואני דיבר על כך.

להלן מיצוב של מיינפריים. יש לזה עלות כניסה גבוהה ומה שקרה בפועל בעבר, מאז אמצע שנות ה90-, כאשר הפופולריות של המסגרות הראשיות החלה להתעמק, זה נוטה לאבד את הסוף הנמוך שלה, האנשים שקנו פריימרים זולים וזה לא היה זה לא כלכלי במיוחד עבור האנשים האלה. אבל למעלה למעלה למעשה בטווח הבינוני והטווח הגבוה של המיינפריים שהיה עדיין, ובעצם ניתן לכאורה, מחשוב זול להפליא.

זה היה, יש לומר, חולץ על ידי לינוקס מכיוון שלינוקס מיושמת על גבי פריים פריי אפשרה כמובן להפעיל את כל יישומי לינוקס. הרבה אפליקציות לינוקס הלכו לשם לפני שביג נתונים גדולים היו אפילו מילה, או שתי מילים אני מניח. זה למעשה פלטפורמה מעולה למדי לענן פרטי. בגלל זה היא יכולה להשתתף בפריסות ענן היברידיות. אחת הבעיות היא שכישורי mainframe הם במחסור. כישורי המיינפריים שקיימים הם למעשה הזדקנות במובן זה שאנשים עוזבים את הענף לגמלאות שנה אחר שנה והם רק מוחלפים מבחינת כמות האנשים. אז זה נושא. אבל עדיין מדובר במחשוב לא יקר.

האזור בו הוא אתגר כמובן הוא כל העניין הזה של Hadoop. זו תמונה של דאג קוצץ עם הפיל ההודי המקורי. המערכת האקולוגית של Hadoop היא - והיא עתידה להישאר - המערכת האקולוגית הגדולה בנתונים גדולים. היא מציעה היקף טוב יותר ממה שהמיינפריים יכול להשיג בפועל ועלות נמוכה יותר כאחסון נתונים בדרך ארוכה. המערכת האקולוגית של Hadoop מתפתחת. הדרך הטובה ביותר לחשוב על זה היא פעם פלטפורמת חומרה מסוימת וסביבת ההפעלה איתה הופכת להיות דומיננטית, אז המערכת האקולוגית פשוט מתעוררת. וזה קרה עם המיינפריים של יבמ. ובכן, מאוחר יותר קרה עם ה- VAX הדיגיטלי, קרה עם השרתים של סאן, קרה עם Windows, קרה עם לינוקס.

ומה שקרה הוא שההדופ, שאני תמיד חושב עליו, או אוהב לחשוב עליו, כסוג של סביבה מבוזרת לנתונים, המערכת האקולוגית מתפתחת בקצב מדהים. כלומר, אם אתה רק מזכיר את התרומות השונות המרשימות שהם קוד פתוח, Spark, Flink, Kafka, Presto, ואז אתה מוסיף לחלק מהמאגרים, NoSQL ויכולות SQL שיושבים עכשיו על Hadoop. Hadoop היא המערכת האקולוגית הפעילה ביותר שקיימת בפועל שם, בטח בתחום המחשוב הארגוני. אבל אם אתה רוצה להתייחס אליו כאל מסד נתונים, הוא פשוט לא משווה כרגע שום השוואה למה שאני נוטה לחשוב עליו כמסדי נתונים אמיתיים, במיוחד בחלל מחסן הנתונים. וזה מסביר במידה מסוימת את ההצלחה של מספר מסדי נתונים גדולים של NoSQL שלא פועלים על Hadoop כמו CouchDB וכן הלאה.

כאגם נתונים יש לו מערכת אקולוגית עשירה בהרבה מכל פלטפורמה אחרת והיא לא תיעקק מזה. המערכת האקולוגית שלה אינה רק המערכת האקולוגית עם קוד פתוח. יש כיום מספר דרמטי של חברי תוכנה שיש להם מוצרים שבנויים באופן בסיסי עבור Hadoop או שיובאו לחברת Hadoop. והם פשוט יצרו מערכת אקולוגית שאין שום דבר שיכול להתחרות בה מבחינת הרוחב שלה. וזה אומר שבאמת הפכה לפלטפורמה לחדשנות ביג נתונים. אבל לדעתי זה עדיין לא בוגר ויכולנו לקיים דיונים ארוכים על מה שיש ולא, נניח, בשלים מבחינה תפעולית עם Hadoop, אבל אני חושב שרוב האנשים שמסתכלים על התחום הספציפי הזה מודעים היטב לכך שההדופ נמצא עשרות שנים מאחורי המיינפריים מבחינת יכולת תפעולית.

אגם הנתונים המתפתח. אגם הנתונים הוא פלטפורמה בכל הגדרה, ואם אתה חושב שיש שכבת נתונים בתחום המחשוב הארגוני, קל מאוד לחשוב על זה במונחי בסיסי נתונים קבועים פלוס אגם הנתונים המרכיב את שכבת הנתונים. יישומי אגם נתונים הם רבים ומגוונים. יש לי כאן דיאגרמה שפשוט עוברת על דברים שונים המסתבכים נתונים שצריך לעשות אם אתה משתמש ב- Hadoop כאזור בימת או Hadoop ו- Spark כאזור בימוי. ויש לך את כל העניין - שושלת נתונים, טיהור נתונים, ניהול מטא נתונים, גילוי מטא נתונים - זה יכול לשמש עבור ETL ​​עצמו אך לעיתים קרובות דורש מ- ETL להכניס את הנתונים. ניהול נתונים מאסטר, הגדרות עסקיות של נתונים, ניהול שירות של מה קורה בהאדאוף, ניהול מחזור חיים של נתונים ו- ETL מתוך ההאדופ, ויש לך גם יישומי ניתוח ישירים שתוכל להפעיל על Hadoop.

וזו הסיבה שזה הפך לחזק מאוד ובמקום בו הוא מיושם ומיושם בהצלחה, בדרך כלל יש לו לפחות אוסף של יישומים מסוג זה הפועלים עליו. ורוב היישומים האלה, במיוחד אלה שעברתי עליהם, הם פשוט לא זמינים במיינפריים כרגע. אבל אתה יכול להריץ אותם על המיינפריים, על אשכול Hadoop שרץ במחיצה של המיינפריים.

אגם הנתונים הופך, לדעתי, לאזור הבימוי הטבעי לניתוח מהיר של מסד נתונים ול- BI. זה הופך להיות המקום בו אתה קולט את הנתונים, בין אם זה נתונים ארגוניים או נתונים חיצוניים, התעסק איתם עד שיהיה, נניח, מספיק נקי לשימוש ומובנה לשימוש ואז אתה מעביר אותו. וכל זה עדיין בחיתוליו.

הרעיון, לדעתי, של קיום משותף של מיינפריים / Hadoop, הדבר הראשון הוא שסביר להניח שחברות גדולות לא יפקירו את המיינפריים. למעשה, האינדיקציות שראיתי לאחרונה מרמזות שיש השקעה גוברת במיינפריים. אבל הם גם לא מתעלמים מהמערכת האקולוגית של Hadoop. אני רואה נתונים של 60 אחוז מהחברות הגדולות שמשתמשות בהוד גם אם הרבה מהן בעצם רק מגישות טיפוס וניסויים.

העניין הוא אם כן, "איך אתה גורם לשני הדברים האלה להתקיים יחד?" מכיוון שהם יצטרכו לשתף נתונים. נתונים המובאים לאגם הנתונים שהם צריכים להעביר למיינפריים. יתכן כי נתונים שנמצאים במיינפריים צריכים לעבור לאגם הנתונים או דרך אגם הנתונים כדי לחבר אותם לנתונים אחרים. וזה יקרה. וזה אומר שהוא דורש העברת נתונים מהירה / יכולת ETL. לא סביר שעומסי עבודה ישתפו באופן דינמי בסביבת מיינפריים או עם משהו בסביבת Hadoop. זה יהיה נתונים משותפים. ורוב הנתונים בהכרח יתגוררו בהאדוף פשוט מכיוון שזו הפלטפורמה בעלות הזולה ביותר עבורה. והעיבוד האנליטי מקצה לקצה כנראה ישכן גם שם.

לסיכום, בסופו של דבר עלינו לחשוב במונחים של שכבת נתונים ארגונית, אשר עבור חברות רבות תכלול את המסגרת הראשי. ויש לנהל את שכבת הנתונים באופן יזום. אחרת השניים לא יתקיימו זה בזה טוב. אני יכול להחזיר לך את הכדור אריק.

אריק קוואנה: שוב, טנדו פשוט הכנתי לך את הפרזנטורית, אז קחי את זה.

Tendü Yogurtçu: תודה, אריק. תודה שיש לך אותי. שלום לכולם. אדבר על חוויית Syncsort עם הלקוחות ביחס לאופן בו אנו רואים את הנתונים כנכס בארגון מפולס ממיינפריים לנתונים גדולים בפלטפורמות אנליטיקה. ואני מקווה שיהיה לנו זמן גם בסוף המפגש לקבל שאלות מהקהל כי זה באמת החלק החשוב ביותר של שידורי האינטרנט האלה.

רק לאנשים שלא יודעים מה Syncsort עושה, Syncsort היא חברת תוכנה. אנו קיימים למעשה למעלה מ- 40 שנה. התחלנו בצד המיינפריים והמוצרים שלנו נעה בין מיינפריים ל- Unix לפלטפורמות ביג-נתונים, כולל Hadoop, Spark, Splunk, הן על בסיס הענן והן בענן. המיקוד שלנו תמיד היה במוצרי נתונים, עיבוד נתונים ומוצרי שילוב נתונים.

האסטרטגיה שלנו ביחס לנתונים גדולים וחברת Hadoop הייתה באמת להפוך לחלק מהמערכת האקולוגית כבר מהיום הראשון. כבעלים של ספקים שהתמקדו ממש בעיבוד נתונים עם מנועים קלים מאוד, חשבנו שיש הזדמנות גדולה להשתתף בכך שהדאופ יהפוך לפלטפורמת עיבוד נתונים ולהיות חלק מארכיטקטורת מחסני הנתונים של הדור הבא עבור הארגון. אנו תורמים לפרויקטים של קוד פתוח Apache מאז 2011, החל מ- MapReduce. היינו בעשירייה הראשונה עבור Hadoop גרסה 2 והשתתפו בפועל במספר פרויקטים הכוללים חבילות Spark, חלק מהמחברים שלנו מתפרסמים בחבילות Spark.

אנו ממנפים את מנוע עיבוד הנתונים הקל מאוד שלנו שהוא מטא נתונים מבוססי קבצים שטוחים לחלוטין, ויושב היטב עם מערכות הקבצים המופצות כמו מערכת הקבצים המופצת Hadoop. ואנחנו ממנפים את המורשת שלנו על המיינפריים, המומחיות שלנו באלגוריתמים כאשר אנו מפרסמים את מוצרי ה- Big Data שלנו. ואנחנו משתפים פעולה מאוד עם הספקים הגדולים, השחקנים הגדולים כאן כולל Hortonworks, Cloudera, MapR, Splunk. Hortonworks הודיעה לאחרונה כי תמכור את המוצר שלנו למכירת ETL באמצעות Hadoop. עם Dell וקלודרה יש לנו שותפות קרובה מאוד המשווקת גם את מכירת ETL שלנו כחלק ממכשיר הנתונים הגדול שלהם. ובעצם Splunk, אנו מפרסמים נתונים של טלמטריה mainframe ואבטחה בלוח המחוונים של Splunk. יש לנו שותפות קרובה.

מה בראש של כל מנהל ברמת C? זה באמת, "איך אוכל להשתמש בנכסי הנתונים שלי?" כולם מדברים על נתונים גדולים. כולם מדברים על Hadoop, Spark, פלטפורמת המחשבים הבאה שעשויה לעזור לי ליצור זריזות עסקית ולפתוח יישומים טרנספורמטיביים חדשים. הזדמנויות חדשות לשוק. כל מנהל יחיד חושב "מהי אסטרטגיית הנתונים שלי, מהי יוזמת הנתונים שלי ואיך אני מוודא שאני לא נשארת מאחורי התחרות שלי, ואני עדיין בשוק הזה בשלוש השנים הבאות?" ראה זאת כשאנחנו מדברים עם הלקוחות שלנו, כשאנחנו מדברים עם בסיס הלקוחות הגלובלי שלנו, שהוא די גדול, כפי שאתה יכול לדמיין, מכיוון שאנחנו קיימים זמן מה.

כשאנו מדברים עם כל הארגונים הללו אנו רואים זאת גם בערימת הטכנולוגיה בשיבוש שקרה עם Hadoop. זה באמת כדי לספק את הדרישה הזו לגבי נתונים כנכס. מינוף כל נכסי הנתונים שיש לארגון. וראינו שארכיטקטורת מחסני הנתונים של הארגון מתפתחת כך שההדופ הוא כעת היסוד החדש בארכיטקטורת הנתונים המודרנית. ורוב הלקוחות שלנו, בין אם מדובר בשירותים פיננסיים, בין אם מדובר בביטוח, בטלקו של הקמעונאות, היוזמות הן בדרך כלל או שאנו מוצאים את Hadoop כשירות או נתונים כשירות. מכיוון שכולם מנסים להפוך את נכסי הנתונים לזמינים עבור הלקוחות החיצוניים או עבור הלקוחות הפנימיים שלהם. ובחלק מהארגונים אנו רואים יוזמות כמו כמעט שוק נתונים עבור לקוחותיהם.

ואחד הצעדים הראשונים להשגת כל זה הוא יצירת רכזת נתונים ארגונית. לפעמים אנשים יקראו לזה אגם נתונים. יצירת רכזת נתונים ארגונית זו למעשה לא קלה כמו שהיא נשמעת מכיוון שהיא באמת דורשת גישה ואיסוף של כמעט כל נתונים בארגון. ונתונים אלה מגיעים כעת מכל המקורות החדשים כמו חיישנים ניידים כמו גם מסדי נתונים מדור קודם והם נמצאים במצב אצווה ובמצב סטרימינג. שילוב נתונים תמיד היה אתגר, עם זאת, במספר המקורות הנתונים ובמגוון וסגנונות המסירה השונים, בין אם זה אצווה או סטרימינג בזמן אמת, זה מאתגר עוד יותר עכשיו לעומת לפני חמש שנים, לפני עשר שנים. לפעמים אנו מתייחסים לזה כאל "זה כבר לא ETL של אביך."

אז אנחנו מדברים על נכסי הנתונים השונים. כאשר ארגונים מנסים להבין את הנתונים החדשים, את הנתונים שהם אוספים מהמכשירים הניידים, בין אם החיישנים ביצרן רכב ובין אם זה נתוני המשתמשים של חברת גיימינג סלולרית, הם נאלצים לעיתים קרובות להתייחס לנכסי הנתונים הקריטיים ביותר הארגון, שהוא מידע על הלקוח למשל. נכסי נתונים קריטיים אלה חיים לעיתים קרובות על המסגרת הראשי. התאמת נתוני פריים עם מקורות חדשים אלה המתעוררים, שנאספים בענן, נאספים באמצעות מכשירים ניידים, שנאספו בקו הייצור של חברת מכוניות יפנית, או אינטרנט של יישומי דברים, חייבים להבין את הנתונים החדשים האלה על ידי התייחסות למערכות הנתונים שלהם מדור קודם. וערכות הנתונים האלה מדור קודם נמצאות על המסגרת הראשית.

ואם חברות אלה אינן מסוגלות לעשות זאת, אינן מסוגלות להתחבר לנתוני המיינפריים אז יש החמצה. ואז הנתונים כשירות, או מינוף של כל נתוני הארגון, לא ממש מקשרים לנכסים הקריטיים ביותר בארגון. יש גם את חלק הטלמטריה ונתוני האבטחה מכיוון שדי כמעט כל הנתונים העסקיים חיים על המסגרת הראשי.

תאר לעצמך שאתה הולך לכספומט, אני חושב שאחד המשתתפים שלח הודעה למשתתפים כאן להגנה על מערכת הבנקאות, כשאתה מחליף את הכרטיס שלך כי נתונים על עסקאות הם די ברמה הגלובלית על המסגרת הראשי. ואבטחת ואיסוף נתוני האבטחה ונתוני הטלמטריה ממסגרות פריים והנגשתם באמצעות לוח מחוונים של Splunk או באמצעות אחרים, Spark, SQL, הופכת להיות קריטית יותר מתמיד בגלל נפח הנתונים ומגוון הנתונים.

מערכות מיומנות הוא אחד האתגרים הגדולים ביותר. מכיוון שמצד אחד יש לך מחסנית נתונים גדולה המשתנה במהירות, אינך יודע איזה פרויקט עומד לשרוד, איזה פרויקט לא עומד לשרוד, האם עלי להעסיק מפתחי Hive או Pig? האם עלי להשקיע ב- MapReduce או Spark? או הדבר הבא, פלינק, מישהו אמר. האם עלי להשקיע באחת מפלטפורמות המחשבים האלה? מצד אחד, להתמיד במערכת האקולוגית המשתנה במהירות זה אתגר, ומצד שני יש לך מקורות נתונים מדור קודם. מערכות המיומנות החדשות לא ממש תואמות וייתכן שיש לך בעיה מכיוון שהמשאבים האלה עשויים לפרוש. יש פער גדול מבחינת מערך המיומנות של אנשים שמבינים את ערימות הנתונים האלה מדור קודם ושמבינים את ערימת הטכנולוגיה המתהווה.

האתגר השני הוא הממשל. כשאתה באמת ניגש לכל נתוני הארגון בפלטפורמות, יש לנו לקוחות שהעלו חששות כי "אני לא רוצה שהנתונים שלי יינחתו. אני לא רוצה שהנתונים שלי יועתקו במספר מקומות מכיוון שאני רוצה להימנע ככל האפשר מההעתקים המרובים. אני רוצה לקבל גישה מקצה לקצה בלי להנחות אותו באמצע שם. "שליטת נתונים אלה הופכת לאתגר. והקטע האחר הוא שאם אתה ניגש לנתונים שצוואר בקבוק, אם אתה אוסף את מרבית הנתונים שלך בענן וגישה ומפנה לנתונים מדור קודם, רוחב הפס של הרשת הופך לבעיה, פלטפורמת אשכול. ישנם אתגרים רבים מבחינת קיום יוזמת נתונים גדולים זו ופלטפורמות ניתוח מתקדמות ובכל זאת מינוף כל נתוני הארגון.

מה ש- Syncsort מציע זה, מכנים אותנו "פשוט הטובים ביותר" לא מכיוון שאנחנו פשוט הטובים ביותר, אך הלקוחות שלנו באמת מתייחסים אלינו כאל הטובים ביותר בגישה לשילוב של נתונים מיינפריים. אנו תומכים בכל פורמטי הנתונים מ- mainframe ומנגישים אותם לניתוח נתונים גדולים. בין אם זה על Hadoop או Spark או על פלטפורמת המחשב הבאה. כי המוצרים שלנו באמת מבודדים את המורכבות של פלטפורמת המחשבים. אתה, כמפתח, יכול לפתח על מחשב נייד, מתמקד בצינור הנתונים ומהי הכנות הנתונים, הצעדים ליצירת נתונים אלה שנוצרו עבור האנליטיקס, לשלב הבא, וקח את אותו היישום ב- MapReduce או קח את זה אותו יישום בספארק.

עזרנו ללקוחות שלנו לעשות זאת כאשר YARN הפך לזמין והם נאלצו להעביר את היישומים שלהם מ- MapReduce גרסה 1 ל- YARN. אנו עוזרים להם לעשות את אותו הדבר עם אפאצ'י ספארק. המוצר שלנו, המהדורה החדשה 9, פועל גם עם Spark ונשלח עם אופטימיזציה דינאמית שתבודד יישומים אלה למסגרות מחשב עתידיות.

אז יש לנו גישה לנתוני mainframe, בין אם זה קבצי VSAM, בין אם זה DB2, ובין אם זה נתוני טלמטריה, כמו רשומות SMF או Log4j או syslogs, שצריך לדמיין באמצעות לוחות מחוונים של Splunk. ובעוד זאת, מכיוון שהארגון יכול למנף את מהנדסי הנתונים הקיימים שלהם או את מערכי המיומנות של ETL, זמן הפיתוח מצטמצם משמעותית. למען האמת עם Dell וקלודרה, היה חסות מידה עצמאית בחסות, ואותה מידה התמקדה בזמן הפיתוח שלוקח אם אתה מבצע קידוד ידיים או משתמשת בכלים אחרים כמו Syncsort, וזה היה קיצור של 60, 70 אחוז בזמן הפיתוח. . גישור המיומנות מגדיר פער בין קבוצות, בין מארחי קבצי נתונים אלה, וגם על מארחי קבצי נתונים מבחינת האנשים.

בדרך כלל צוות הנתונים הגדולים, או צוות צריכת הנתונים, או הצוות שמוטל עליו לפתח נתונים אלה כארכיטקטורת שירות, אינם בהכרח מדברים עם צוות המיינפריים. הם רוצים למזער את האינטראקציה הזו כמעט ברבים מהארגונים. בסגירת הפער הזה התקדמנו. והחלק החשוב ביותר הוא באמת אבטחת התהליך כולו. כי בארגון כשאתה מתמודד עם נתונים רגישים מסוג זה ישנן דרישות רבות.

בענפים מפוקחים מאוד כמו ביטוח ובנקאות הלקוחות שלנו שואלים, הם אמרו, "אתה מציע גישה לנתונים של מיינפריים זה וזה נהדר. אתה יכול גם להציע לי להכין את פורמט הרשומות המקודד הזה של EBCDIC שנשמר במתכונת המקורית כדי שאוכל לספק את דרישות הביקורת שלי? "אז אנו גורמים לחדוף ולאפצ'י ספארק להבין את נתוני המסגרות הראשיות. אתה יכול לשמור את הנתונים במתכונת הרשומה המקורית, לבצע את פלטפורמת המחשבים של מפיצי העיבוד והרמות שלך, ואם אתה צריך להחזיר את זה אתה יכול להראות שהרשומה לא משתנה ופורמט הרשומה לא משתנה, אתה יכול לעמוד בדרישות הרגולציה. .

ורוב הארגונים, בזמן שהם יוצרים את רכזת הנתונים או אגם הנתונים, הם גם מנסים לעשות זאת בלחיצה אחת כדי להיות מסוגלים למפות מטא נתונים ממאות סכימות במסד נתונים של אורקל לטבלאות כוורת או קבצי ORC או פרקט. הופך להיות הכרחי. אנו שולחים כלים ואנחנו מספקים כלים כדי להפוך את זה לגישה לנתונים של שלב אחד, עבודות לייצור אוטומטי או לתנועת הנתונים, ועבודות לייצור אוטומטי לצורך ביצוע מיפוי הנתונים.

דיברנו על החלק הקישוריות, התאימות, הממשל ועיבוד הנתונים. והמוצרים שלנו זמינים הן בהתחלה והן בענן, מה שהופך את זה למשהו פשוט מאוד מכיוון שהחברות לא צריכות לחשוב מה עומד לקרות בשנה-שנתיים הקרובות אם אחליט ללכת לגמרי בענן ציבורי לעומת היברידי. הסביבה, מכיוון שחלק מהאשכולות עשויים לרוץ בהנחה או בענן. והמוצרים שלנו זמינים הן בשוק Amazon, ב- EC2, Elastic MapReduce וגם למכולה של Docker.

רק כדי להתארגן, כך שיש לנו מספיק זמן לשאלות ותשובות, זה באמת על גישה, שילוב והתאמה לממשל הנתונים, ובכל זאת הפיכת כל זה לפשוט יותר. ובעוד הפיכתו לפשוטה יותר, "לעצב פעם אחת ולפרוס אותה בכל מקום" במובן אמיתי בגלל תרומות הקוד הפתוח שלנו, המוצר שלנו פועל באופן טבעי בזרימת הנתונים של Hadoop ובאופן טבעי עם Spark, מבודד את הארגונים מהמערכת האקולוגית המשתנה במהירות. ומספק צינור נתונים יחיד, ממשק יחיד, הן לאצווה והן לזרם.

וזה גם עוזר לארגונים לפעמים להעריך את המסגרות האלה, מכיוון שתרצה ליצור אפליקציות בפועל ופשוט לרוץ על MapReduce לעומת Spark ולראות בעצמך, כן, לספארק יש את ההבטחה הזו ומספק את כל ההתקדמות בעבודה של אלגוריתמים איטרטיביים למיטב למידת מכונה ויישומי אנליטי חזוי עובדים עם Spark, האם אוכל גם לבצע עומסי עבודה על סטרימינג ועבודות אצווה במסגרת מחשב מחשב זה? אתה יכול לבדוק פלטפורמות מחשב שונות באמצעות המוצרים שלנו. האופטימיזציה הדינמית בין אם אתה פועל בשרת עצמאי, במחשב הנייד שלך, ב- Google Cloud לעומת Apache Spark, היא באמת הצעה בעלת ערך גדול עבור הלקוחות שלנו. וזה באמת מונע על ידי האתגרים שהיו להם.

אני עוסק רק באחד ממחקרי המקרה. זו חברת ביטוח חיים של גרדיאן. והיוזמה של גרדיאן הייתה באמת לרכז את נכסי הנתונים שלהם ולהפוך אותם לזמינים עבור הלקוחות שלהם, לצמצם את זמן הכנת הנתונים והם אמרו שכולם מדברים על הכנת נתונים שגוזלים 80 אחוז מצינור עיבוד הנתונים הכולל והם אמרו שזה למעשה לוקח בערך 75 עד 80 אחוז עבורם והם רצו להפחית את הכנת הנתונים ההיא, זמני שינוי, זמן לשוק עבור פרויקטים אנליטיים. צור זריזות זו כאשר הם מוסיפים מקורות נתונים חדשים. והפוך את הגישה לנתונים הריכוזית לזמינה עבור כל הלקוחות שלהם.

הפיתרון שלהם, כולל מוצרי Syncsort, כרגע הם מחזיקים בשוק נתונים של Amazon Marketplace כמו אתר נתמך על ידי אגם נתונים, שהוא בעצם Hadoop, ומסד נתונים של NoSQL. והם משתמשים במוצרים שלנו כדי להביא את כל נכסי הנתונים לאגם הנתונים, כולל DB2 במיינפריים, כולל קבצי VSAM במיינפריים, ומקורות הנתונים של מדור קודם, כמו גם מקורות הנתונים החדשים. וכתוצאה מכך הם מרכזו את נכסי הנתונים הניתנים לשימוש חוזר הניתנים לחיפוש, נגישים וזמינים ללקוחותיהם. והם באמת מסוגלים להוסיף את מקורות הנתונים החדשים ולשרת את לקוחותיהם בהרבה ויעיל הרבה יותר מבעבר. ויוזמות הניתוח אפילו מתקדמות יותר גם בצד החיזוי. אז אתעכב ואני מקווה שהדבר היה מועיל ואם יש לכם שאלות לגבי אחד הנושאים הקשורים בבקשה, אתם מוזמנים.

אריק קוואנה: בטח, וטנדו, אני פשוט אזרוק אחת. קיבלתי תגובה מחבר הקהל שרק אמר: "אני אוהב את העיצוב הזה פעם אחת, פרוס בכל מקום." האם אתה יכול לחפור איך זה נכון? כלומר, מה עשית כדי לאפשר זריזות מסוג זה והאם יש מס? כמו כשמדברים על וירטואליזציה, למשל, תמיד יש מעט מס על הביצועים. יש אנשים שאומרים שני אחוזים, חמישה אחוזים 10 אחוזים. מה עשית כדי לאפשר את העיצוב פעם אחת, לפרוס בכל מקום - איך אתה עושה את זה והאם יש מס כלשהו הקשור אליו מבחינת הביצועים?

Tendü Yogurtçu: בטח, תודה. לא, מכיוון שלא כמו חלק מהספקים האחרים אנחנו לא באמת מייצרים כוורת או חזיר או קוד אחר שאינו יליד המנועים שלנו. זה המקום בו תרומות הקוד הפתוח שלנו מילאו תפקיד עצום, מכיוון שעבדנו עם ספקי Hadoop, Cloudera, Hortonworks ו- MapR מקרוב מאוד ובשל תרומות הקוד הפתוח שלנו, המנוע שלנו פועל באופן טבעי כחלק מהזרימה, כחלק מזרם ההדופ, כחלק מהספארק.

מה שמתרגם גם, יש לנו אופטימיזציה דינאמית זו. זה היה דבר שהגיע כתוצאה מכך שלקוחותינו התמודדו עם מסגרות מחשב. כשהם נכנסים לייצור עם חלק מהיישומים, הם חזרו, הם אמרו, "אני רק מייצב את אשכול Hadoop שלי, מתייצב על MapReduce YARN גרסה 2, MapReduce גרסה 2, ואנשים מדברים שמפהReduce מתה, ניצוץ הוא הדבר הבא, ויש אנשים שאומרים שפלינק יהיה הדבר הבא, איך אני אתמודד עם זה? "

והאתגרים האלה באמת הפכו להיות כל כך ברורים עבורנו, השקענו בכך שביצוע אופטימיזציה דינאמית זו אנו מכנים כביצוע מושכל. בזמן הריצה, כאשר העבודה, כאשר צינור נתונים זה מוגש, מבוסס על האשכול, בין אם זה Spark, בין אם זה MapReduce או שרת עצמאי של Linux, אנו מחליטים כיצד להפעיל את העבודה הזו, באופן טבעי במנוע שלנו, כחלק מזה זרימת נתונים של Hadoop או Spark. אין תקורה מכיוון שהכל נעשה באמצעות אופטימיזציה דינאמית זו שיש לנו והכל נעשה גם מכיוון שהמנוע שלנו משולב כל כך מקומי בגלל תרומות הקוד הפתוח שלנו. האם זה עונה על שאלתך?

אריק קוואנה: כן, זה טוב. ואני רוצה להעלות עוד שאלה אחת ואז דז ', אולי נמשוך גם אותך ואת רובין. בדיוק קיבלתי תגובה מצחיקה מאחד הנוכחים שלנו. אני אקרא את זה כי זה די גרוע. הוא כותב, "נראה שבתולדות הדברים של HOT" - תבינו את זה? כמו IoT - "האם ככל שאתה מנסה 'לפשט' משהו שהוא באמת מורכב, לעתים קרובות יותר מאשר לא פשוט יותר נראה לעשות דברים, יותר חבל תלוי מסופק. חשוב שאילתת מסד נתונים, פיצוץ, ריבוי חוטים וכו '. האם אתה יכול להגיב על הפרדוקס הזה שהוא מפנה? פשטות מול מורכבות, ובעצם מה באמת קורה מתחת לכיסויים?

Tendü Yogurtçu: בטח. אני חושב שזו נקודה מאוד תקפה. כשאתה מפשט את הדברים ועושה את האופטימיזציות האלה, באופן שמתחת לכסות, מישהו צריך לקחת את המורכבות הזו של מה שצריך לקרות, נכון? אם אתה משתק משהו או שאתה מחליט כיצד לנהל עבודה מסוימת ביחס למסגרת המחשב, ברור שיש חלק מהעבודה שנדחף בין אם זה בסוף המשתמש, קידוד התפריט, או שזה באופטימיזציה של המנוע. יש חלק מזה, על ידי פישוט בחוויית המשתמש יש יתרון עצום מבחינת היכולת למנף מערכות מיומנות שקיימות בארגון.

ואתה יכול למתן את הפרדוקס הזה, להקל על האתגר הזה של "כן, אבל אין לי שליטה על כל מה שקורה תחת הכיסוי, מתחת למכסה המנוע במנוע ההוא, " על ידי חשיפת הדברים למשתמשים המתקדמים יותר אם הם רוצה שתהיה שליטה כזו. על ידי השקעה בכמה מסוגי השירות. היכולת להציע מטא נתונים תפעוליים יותר, נתונים תפעוליים יותר, כמו בדוגמא שהמשתתף נתן, עבור שאילתת SQL כמו גם עם הפעלת המנוע. אני מקווה שזה עונה.

אריק קוואנה: כן זה נשמע טוב. דז, קח אותו משם.

דז בלנשפילד: אני ממש מעוניין לקבל קצת יותר תובנה לגבי טביעת הרגל שלך בתרומות בקוד הפתוח ובמסע שלקחת מהניסיון המסורתי והארוך שלך במיינפריים ובעולם הקנייני ואז המעבר אל תרומה לקוד פתוח ואיך זה התרחש. והדבר האחר שאני מעוניין להבין הוא התפיסה שאתה רואה שעסקים, לא רק מחלקות IT, אלא עסקים לוקחים כעת ביחס למרכזי נתונים או אגמי נתונים כפי שאנשים אומרים עכשיו והאם הם רואים את המגמה הזו של רק אגם נתונים אחד, מאוחד, או שמא אנו רואים אגמי נתונים מבוזרים ואנשים משתמשים בכלים כדי להרכיב אותם?

Tendü Yogurtçu: בטח. לראשונה, זה היה מסע מעניין מאוד, כחברת תוכנת בעלים, מהראשונות אחרי יבמ. עם זאת, שוב, הכל התחיל בכך שלקוחות האוונגליסט שלנו הסתכלו על Hadoop. היו לנו חברות נתונים כמו ComScore, הם היו הראשונים שאימצו את Hadoop מכיוון שהם אוספים נתונים דיגיטליים ברחבי העולם ולא היו מסוגלים לשמור 90 יום של נתונים אלא אם כן הם השקיעו ארגז מחסני נתונים של עשרה מיליון דולר סביבה. הם התחילו להסתכל על Hadoop. עם זה התחלנו גם להסתכל על Hadoop.

וכשקבלנו החלטה והכרנו שההדופ באמת תהיה פלטפורמת הנתונים של העתיד, הגענו גם להבנה שלא נוכל לשחק בזה מחזה, הצגה מוצלחת בזה, אלא אם כן היו חלק מהמערכת האקולוגית. ואנחנו עבדנו מאוד עם רוכלים של Hadoop, עם Cloudera, Hortonworks, MapR וכו '. התחלנו לדבר איתם באמת מכיוון ששותפות הופכת להיות מאוד חשובה לאמת את הערך שספק יכול להביא וגם דואגת שנוכל ללכת במשותף לארגון. ולהציע משהו משמעותי יותר. זה דרש בניית יחסים רבה מכיוון שלא היינו מוכרים לפרויקטים של קוד פתוח Apache, עם זאת הייתה לנו תמיכה רבה מספקי Hadoop האלה, אני חייב לומר.

התחלנו לעבוד יחד ולהסתכל על הרכזת, כיצד נוכל להביא ערך אפילו בלי תוכנת הבעלים שלנו במרחב. זה היה חשוב. זה לא סתם לשים כמה ממשקי API שהמוצר שלך יכול להריץ עליהם, אלא להיות מסוגל לומר שאני אשקיע בזה כי אני מאמין שהאדופ עתיד להיות פלטפורמה של העתיד, כך שתשקיע במקורות שרצינו ליצור בטוח שהוא יתבגר ויהיה מוכן לארגון. אנו למעשה יכולים לאפשר כמה ממקרי השימוש שלא היו זמינים לפני התרומות שלנו. זה יועיל למערכת האקולוגית כולה ונוכל לפתח את השותפויות הללו מקרוב.

זה לקח די הרבה זמן. התחלנו לתרום בשנת 2011, וב -2013, 21 בינואר - אני זוכר את התאריך מכיוון שתאריך זה התחייב התרומה הגדולה ביותר שלנו, מה שאומר שכעת נוכל להשיג את המוצרים שלנו בדרך כלל מאותה נקודה ואילך - לקח לא מעט זמן לפתח את היחסים האלה., הראה את הערך, שותפים הופכים לשותפי עיצוב עם הספקים ועם המתחברים בקהילת הקוד הפתוח. אבל היה כיף. זה היה מאוד משתלם כחברה עבורנו להיות חלק מאותה מערכת אקולוגית ולפתח שותפות נהדרת.

השאלה השנייה לגבי רכזת הנתונים / אגם הנתונים, אני חושב שכשאנחנו רואים נתונים אלה כביצוע שירות ברוב המקרים, כן, יתכן שמדובר באשכולות, אשכולות פיזיים בודדים או מרובים, אבל זה רעיוני יותר מלהפוך לאותו מקום בודד. לכל הנתונים. מכיוון שבארגונים מסוימים אנו רואים פריסת אשכולות גדולה בהנחה, אולם יש להם גם אשכולות, למשל בענן הציבורי מכיוון שחלק מהנתונים שנאספים ממדורים מקוונים באמת נשמרים בענן. זה יכול להיות בעל צינור נתונים יחיד שאתה יכול למנף בפועל את שני אלה, ולהשתמש בהם כרכזת נתונים יחידה, אגם נתונים יחיד, הופך להיות חשוב. לא בהכרח רק את המקום הפיזי, אבל לרכזת נתונים ואגם נתונים על פני אשכולות, על פני גיאוגרפיות ואולי על בסיס הענן והענן, זה יהיה מאוד קריטי, אני חושב. בעיקר קדימה. השנה התחלנו לראות יותר ויותר פריסות בענן. זה מדהים. במחצית הראשונה של השנה עד כה ראינו הרבה פריסות בענן.

אריק קוואנה: אוקיי, מגניב. ורובין, יש לך שאלות? אני יודע שנשארו לנו רק כמה דקות.

רובין בלור: טוב, אני יכול לשאול אותה שאלה. הדבר הראשון שעלה בדעתי הוא שהייתה המון התרגשות בקאפקה והתעניינתי לדעתך לגבי קפקא ואיך אתה משתלב עם הדרך בה אנשים משתמשים בקאפקה?

Tendü Yogurtçu: בטח. כן, קפקא הופך להיות פופולרי למדי. בקרב הלקוחות שלנו אנו רואים כי היותנו סוג של שכבת הובלת הנתונים וצפו כי הנתונים הם אוטובוס, די. לדוגמה, אחד הלקוחות שלנו השתמש בעצם בנתונים צורכים שנדחקו לקאפקה זו בקרב מספר רב, כמו אלפי משתמשים מקוונים והיו מסוגלים לסווג את זה ולדחוף.

שוב, קפקא הוא אוטובוס נתונים לצרכנים השונים של נתונים אלה. סווג חלק מהמשתמשים המתקדמים לעומת המשתמשים הלא מתקדמים ועשה משהו שונה קדימה בצינור הנתונים ההוא. האופן בו אנו משתלבים עם קפקא הוא בעצם, המוצר שלנו DMX-h הופך לצרכן אמין, לצרכן יעיל ואמין ביותר עבור קפקא. זה יכול לקרוא את הנתונים וזה לא שונה מקריאת נתונים מכל מקור נתונים אחר עבורנו. אנו נותנים למשתמשים את היכולת לשלוט בחלון אם מבחינת דרישת הזמן שיש להם או מספר ההודעות שהם עשויים לצרוך מאוטובוס קפקא. ואז נוכל גם להעשיר את הנתונים האלה כשהם עוברים את המוצר שלנו ודוחפים חזרה לקאפקה. בדקנו זאת. השגנו את זה במדריך באתר הלקוח. מאושר גם על ידי Confluent. אנו עובדים בשיתוף פעולה הדוק עם החבר'ה המקובלים וזה מאוד ביצועים וקל לשימוש. שוב, ממשקי ה- API משתנים, אך אינכם צריכים לדאוג מכיוון שהמוצר באמת מתייחס לזה כאל עוד מקור נתונים, מקור נתונים לזרם. די כיף לעבוד עם המוצר שלנו עם קפקא, בעצם.

רובין בלור: אוקיי יש לי שאלה נוספת שהיא סוג של שאלה עסקית כללית, אבל אני מכיר את Syncsort כבר הרבה זמן ותמיד היה לך את המוניטין והעברת תוכנה מהירה במיוחד עבור ETL ​​ועולם המיינפריים. האם זה המקרה שרוב העסק שלך מועבר לחדופ? האם זה המצב שבדרך זו או אחרת הפצת את העסק שלך בצורה די דרמטית מעולם המיינפריים?

Tendü Yogurtçu: מוצרי המיינפריים שלנו עדיין פועלים 50 אחוז ממסגרות הראשי ברחבי העולם. אז יש לנו קו מוצרים חזק מאוד של מיינפריים בנוסף למה שאנחנו עושים בנתונים הגדולים ובסוף Hadoop. ואנחנו עדיין נמצאים ברוב פרויקטי הפישוט או האופטימיזציה של ה- IT מכיוון שיש סוף אחד שאתה רוצה שתוכל להשתמש בנתוני המיינפריים שלך בפלטפורמות ה- Multex הגדולות ולמנף את כל הנתונים הארגוניים, עם זאת יש גם עומסי עבודה קריטיים מאוד. שעדיין ממשיכה לפעול במיינפריים ואנחנו מציעים ללקוחות האלה את הדרכים לייעל את היישומים הללו באמת, להפעיל את מנוע ה- ZIIP כך שהם לא צורכים מחזורי עיבוד ו- MIPS רבים ככל שיהפכו אותם לחסכוניים.

אנו ממשיכים להשקיע במוצרי המיינפריים ובעצם משחקים למרחב הזה בו אנשים עוברים מברזל פריים גדול לביג דאטה ומשתרעים על קו המוצרים גם על פני הפלטפורמות הללו. כך שאנו לא בהכרח מעבירים את כל העסק לצד אחד, אנו ממשיכים להיות בעלי עסקים מצליחים מאוד משני הצדדים. והרכישות הן מוקד גדול גם עבורנו. עם התפתחות שטח ניהול נתונים ומעבדי נתונים עבור פלטפורמות הנתונים הגדולים, אנו מחויבים גם לבצע לא מעט רכישות משלימות.

רובין בלור: טוב, אני מניח שאינני יכול לשאול אותך מה הם כי אסור היה לך להגיד לי. מעניין אותי האם ראית יישומים רבים של Hadoop או Spark בפועל על המיינפריים או שמא זה דבר נדיר מאוד.

Tendü Yogurtçu: לא ראינו. יש עוד שאלה בנושא. אני חושב שחדוף במיינפריים לא הגיוני הרבה בגלל סוג מבנה הליבה. עם זאת הניצוץ על מיינפריים הוא די משמעותי וספארק באמת טוב מאוד עם למידת המכונה והניתוח החזוי והיכולת לקבל כמה מהיישומים האלה עם נתוני מיינפריים באמת, אני חושב, משמעותי למדי. עוד לא ראינו מישהו שעושה את זה, עם זאת, זה באמת המקרה שמניע את הדברים האלה. אם מקרה השימוש שלך כחברה מביא יותר את הנתונים המרכזיים האלה ומשתלב עם שאר מערכות הנתונים בפלטפורמת הנתונים הגדולים, זה סיפור אחד. זה דורש גישה לנתוני המיינפריים מפלטפורמת ה- Bigtex של ה- Big Data מכיוון שלא סביר שתביא את מערכי הנתונים שלך ממערכות פתוחות ותיקרא חזרה למיינפריים. עם זאת, אם יש לך כמה נתוני מיינפריים שאתה רוצה רק לחקור ולעשות קצת גילוי חקר נתונים, החל כמה AI מתקדמים ואנליטיקה מתקדמת, Spark עשוי להיות דרך טובה ללכת ולהפעיל את ה- mainframe ככה.

אריק קוואנה: והנה עוד שאלה אחת מהקהל, בעצם שתיים נוספות. אני אתן לך שאלה של צוות תגים ואז נתחבר. משתתף אחד שואל, "האם IBM משלבת את התרומות בקוד הפתוח שלך במערכת האקולוגית של הענן הציבורי שלה, או במילים אחרות, Bluemix?", ומשתתף אחר הציג נקודה ממש טובה וציין כי Syncsort נהדר לשמירה על ברזל גדול בחיים עבור אלה כבר יש לך את זה, אבל אם חברות יוותרו על פריימות פריים חדשות לטובת מה שהוא מכנה CE, תעריפו על הכל, כי זה ככל הנראה יירד, אך מציין כי אתם ממש טובים בהעברת נתונים על ידי עקיפת מערכות הפעלה עד לגיגה-בייט לשנייה. האם אתה יכול לדבר על חוזק הליבה שלך, כפי שהוא ציין, והאם IBM משלבת את הדברים שלך בבלואמיקס או לא?

Tendü Yogurtçu: עם IBM, אנו כבר שותפים עם IBM והיו לנו דיונים לגבי שירותי ענן הנתונים שלהם המציעים את המוצר. התרומות שלנו בקוד הפתוח פתוחות לכל מי שרוצה למנף אותן. חלק מקישוריות המיינפריים זמינה גם בחבילות Spark, כך שלא רק יבמ. כל אחד יכול למנף את אלה. ב- Bluemix עדיין לא עשינו שום דבר ספציפי בנושא. והאם אכפת לך לחזור על השאלה השנייה?

אריק קוונהאג: כן, השאלה השנייה הייתה על תחום הליבה שלך בפונקציונליות לאורך השנים, שבאמת התמודד עם צווארי בקבוק של ETL וברור שזה משהו שאתה כבר הולך לעשות כמסגרות מרכזיות, ובכן, תיאורטית, תתרחק, אם כי של דז הנקודה היא עדיין סוג של נדנדה ומתגלגל שם. אך הנוכח רק ציין כי Syncsort טוב מאוד להעביר נתונים על ידי עקיפת מערכות הפעלה ועד לגיגה-בייט לשנייה. אתה יכול פשוט להגיב על זה?

Tendü Yogurtçu: כן, באמת שיעילות המשאבים הכוללת הייתה הכוח שלנו והמדרגיות והביצועים היו הכוח שלנו. אנחנו לא מתפשרים, לפשט יש הרבה משמעויות, אנחנו לא מתפשרים מאלו. כאשר אנשים התחילו לדבר על Hadoop בשנת 2014, למשל, רבים מהארגונים לא ממש בדקו ביצועים בתחילה. הם אמרו, "אה, אם יקרה משהו אני יכול להוסיף עוד כמה צמתים ואני אהיה בסדר, הביצועים הם לא הדרישה שלי."

בזמן שדיברנו על הביצועים הטובים ביותר מכיוון שכבר התמודדנו עם הילידים, אפילו לא היה לנו כמה מהשיהוקים הראשונים שהיו ל- Hive עם מספר משרות MapReduce ותקורות בתחילתן. אנשים אמרו לנו, "אה, זה לא הדאגה שלי, אל תדאגו בזה כרגע."

כשהגענו לשנת 2015 הנוף הזה השתנה מכיוון שחלק מלקוחותינו כבר חרגו מהאחסון שהיה להם באשכולות הייצור שלהם. זה הפך להיות מאוד קריטי לראות מה Syncsort יכול להציע. אם אתה לוקח כמה נתונים ממסד נתונים או ממיינפריים וכותב לפורמט פרקט באשכולות, בין אם אתה נוחת ובמה ועושה טרנספורמציה אחרת או סתם מבצע את השינוי ב- inflight ופורמט קובץ היעד, עשה את ההבדל מכיוון שאתה חוסך מ אחסון, אתה חוסך מרוחב הפס של הרשת, אתה חוסך מעומס העבודה באשכול מכיוון שאינך מנהל עבודות נוספות. חוזקות אלו שאנחנו משחקים במונחים של להיות מודעים מאוד, אנו מרגישים את יעילות המשאבים מתחת לעור שלנו, כך נראה.

כך אנו מתארים זאת. זה קריטי עבורנו. אנחנו לא לוקחים את זה כמובן מאליו. מעולם לא לקחנו את זה כמובן מאליו, אז נמשיך להיות חזקים עם המינוף הזה ב- Apache Spark או במסגרת המחשב הבאה. זה ימשיך להיות המוקד שלנו. ומבחינת קטע תנועת הנתונים ופיסת גישה לנתונים, בהחלט זו אחת החוזקות שלנו ואנחנו ניגשים לנתוני DB2 או VSAM במיינסטרים בהקשר של Hadoop או Spark.

אריק קוואנה: ובכן, זו דרך נהדרת לסיים את שידור האינטרנט, חברים. תודה רבה לך על זמנך ותשומת לבך. תודה לך, Tendü ו- Syncsort, על שנכנסתם לחדר התדרוך ונכנסו לסיבוב, כמו שאומרים. הרבה שאלות נהדרות מהקהל. זוהי סביבה מתרחשת תמיד, אנשים. נעבור לארכיון של הוט טק זה כמו שאנחנו עושים עם כל האחרים. אתה יכול למצוא אותנו ב insideanalysis.com ובכתובת techopedia.com. בדרך כלל זה עולה בעוד יום. ועם זה, אנו הולכים להיפרד מכם, אנשים. תודה רבה לך. נדבר איתך בקרוב. שמור על עצמך. ביי ביי.

מגהץ גדול, פגוש נתונים גדולים: שחרור נתונים של מיינפריים עם Hadoop ונצוץ