בית מאגרי מידע כוח ההצעה: כיצד קטלוג נתונים מעצים אנליסטים

כוח ההצעה: כיצד קטלוג נתונים מעצים אנליסטים

Anonim

על ידי צוות Techopedia, 22 ביוני 2016

ברק: המארחת רבקה יוז'ויאק דנה ביתרונות קטלוגי נתונים עם דז בלנשפילד, רובין בלור ודייויד קרופורד.

עליך להירשם לאירוע זה כדי לצפות בסרטון הווידאו. הירשמו לצפייה בסרטון.

רבקה יוז'ויאק: גבירותיי ורבותיי, שלום וברוך הבא לחברת Hot Technologies משנת 2016. היום יש לנו, "כוח ההצעה: כיצד קטלוג נתונים מעצים אנליסטים." אני המארחת שלך רבקה יוז'ויאק, ממלאת את המארח הרגיל שלנו אריק Kavanagh היום, בזמן שהוא מטייל בעולם, אז תודה שהצטרפת אלינו. השנה היא חמה, לא סתם חם בטקסס איפה אני, אלא חם בכל מקום. יש פיצוץ של כל מיני טכנולוגיות חדשות שיוצאות. יש לנו IoT, סטרימינג נתונים, אימוץ ענן, Hadoop ממשיכה להתבגר ולהיאומץ. יש לנו אוטומציה, למידת מכונה וכל הדברים האלה כמובן מודגשים על ידי נתונים. ועסקים הופכים ליותר ויותר נתונים המונעים על ידי היום. וכמובן, הנקודה היא להביא לידע, לגילוי, ואתם יודעים החלטות טובות יותר. אבל כדי לקבל באמת את המרב מהנתונים, זה צריך להיות קל להגיע אליו. אם אתה שומר אותו נעול, או קבור, או במוחם של כמה אנשים בתוך המפעל, זה לא יועיל הרבה למיזם בכללותו.

והייתי סוג של מחשבה על קטלוג נתונים וחשבתי על כמובן ספריות, איפה שכבר מזמן הלכת לשם אם היית צריך למצוא משהו, אם אתה צריך לחקור נושא, או לחפש קצת מידע, הלכת לספריה וכמובן שהלכת לקטלוג הכרטיסים, או לגברת המסורבלת שעבדה שם. אבל היה גם כיף להסתובב בסביבה, אם רק רצית להסתכל, ובטוח שאולי תגלה משהו מסודר, אולי תגלה כמה עובדות מעניינות שלא ידעת, אבל אם באמת היית צריך למצוא משהו., וידעת מה חיפשת, היית זקוק לקטלוג הכרטיסים, וכמובן שהמקבילה הארגונית היא קטלוג נתונים, שיכול לעזור להאיר אור על כל הנתונים שהמשתמשים שלנו יעשירו, יגלה, ישתף, יכלו ויעזרו באמת אנשים מגיעים לנתונים בצורה מהירה וקלה יותר.

אז היום יש לנו דז בלנשפילד, מדען הנתונים שלנו, ויש לנו את הדוקטור רובין בלור, האנליסט הראשי שלנו, יש לנו את דיוויד קרופורד מאלציה, שעומד לדבר על סיפור קטלוג הנתונים של החברה שלו, אבל קודם אנחנו הולכים עם דז. דז, אני מעביר לך את הכדור והרצפה שלך.

דז בלנשפילד: תודה, תודה שהיית לי היום. זה עניין שאני מאוד מעוניין בו, מכיוון שכמעט בכל ארגון שאני נתקלתי בעבודתי היום יומית, אני מוצא בדיוק את אותו הנושא עליו דיברנו בקצרה מאוד בבנטה של ​​לפני המופע, וזהו לרוב הארגונים שנמצאים בעסקים יותר מכמה שנים יש שפע של נתונים הקבורים סביב הארגון, פורמטים שונים, ולמעשה יש לי לקוחות שיש להם מערכי נתונים שחוזרים ל- Lotus Notes, מסדי נתונים שעדיין פועלים בחלק מהם מקרים כמתמחים פסאודו שלהם, והם, כולם, נתקלים באתגר הזה של ממש למצוא היכן הנתונים שלהם נמצאים, וכיצד להשיג גישה אליו, למי לספק גישה אליו, מתי לספק גישה אליהם ואיך פשוט הקטלוג, וכיצד להגיע למקום בו כל אחד יכול: א) להיות מודע למה שיש שם ומה יש בו, ו- B), כיצד לקבל גישה אליו ולהשתמש בו. ואחד האתגרים הגדולים כמובן הוא למצוא אותו, האתגר הגדול האחר הוא לדעת מה יש שם ואיך לגשת אליו.

אני יכול בהחלט לדעת שיש לי עשרות מאגרי מידע, אבל אני לא ממש יודע מה יש שם או איך לגלות מה יש שם, וכל כך תמיד שאנו מגלים כעת בנתונים שלפני המופע, אתה נוטה להסתובב במשרד ולשאול שאלות ולצעוק על קירות הקוביה ולנסות להבין, לעיתים קרובות הניסיון שלי הוא שאתה עשוי לגלות שאתה מסתובב אל דלפק הקבלה, קבלת הפנים ושואל אם מישהו יודע מי אתה הולך לדבר איתו. לעתים קרובות מאוד, זה לא תמיד אנשי ה- IT מכיוון שהם לא מודעים למערך הנתונים מכיוון שמישהו פשוט יצר את זה, וזה יכול להיות משהו פשוט כמו - לעתים קרובות מאוד נמצא פרויקט כזה או אחר שעומד בסביבת IT ו מנהל הפרויקט השתמש בגיליון אלקטרוני של כל הדברים, והוא קיבל כמות עצומה של מידע חשוב סביב נכסים והקשר ושמות, אלא אם אתה מכיר את הפרויקט הזה ואתה מכיר את אותו אדם, אתה פשוט לא יכול למצוא את המידע הזה. זה פשוט לא זמין, ואתה צריך להשיג את הקובץ המקורי הזה.

ישנו ביטוי שמבולבל ביחס לנתונים ואני לא בהכרח מסכים עם זה, אבל אני חושב שמדובר בזריקה קטנה וחמודה וזה כי כמות מסוימת של אנשים חושבים שהנתונים הם השמן החדש, ואני בטוח שנעסוק בזה גם בהיבט כלשהו, ​​בהמשך היום. אבל מה ששמתי לב, בוודאי שהם חלק מאותה שינוי, הוא שארגונים של עסקים שלמדו להעריך את הנתונים שלהם זכו ליתרון משמעותי על פני המתחרים שלהם.

היה מאמר מעניין של יבמ, לפני כחמש-שש שנים, והם סקרו כ -4, 000 חברות כאן באוסטרליה, והם לקחו את כל המידע, כל נתוני הביצועים, כל נתוני הכספים והרכיבו אותם בסיר רותח ואז שלחו את זה לבית הספר לכלכלה באוסטרליה, והם למעשה התחילו כאן מגמה נפוצה, וזה היה שחברות שמנפות טכנולוגיה תמיד השיגו יתרון תחרותי כזה על פני חבריהן ומתחרותיהן כשלעצמן, שהמתחרות שלהן כמעט ולא מדביקות, ולדעתי זה בדיוק המקרה עכשיו עם נתונים שראינו מה שאנשים מכנים טרנספורמציה דיגיטלית, שם ארגונים שהבינו בבירור כיצד למצוא נתונים שיש להם, להנגיש את הנתונים ולהפוך אותם לזמינים בכמה מתכלה קלים מאוד לעצב את הארגון, מבלי לדעת בהכרח מדוע הארגון עשוי להזדקק לו, ולהשיג יתרון משמעותי על פני המתחרים.

יש לי כמה דוגמאות בשקופית זו, שתוכלו לראות. השורה האחת שלי היא, שהשיבוש הגדול בהיקף כמעט בכל ענף תעשיה, לדעתי, מונע על ידי נתונים, ואם המגמות הנוכחיות צריכות לעבור משהו, אני חושב שרק עכשיו הגענו התחלתי מכיוון שכאשר המותגים הוותיקים מתעוררים סוף סוף למה זה אומר ונכנסים למשחק, הם הולכים להיכנס למשחק בסיטונאות. כאשר סוג של הקמעונאים הגדולים שיש להם הרים של נתונים מתחילים ליישם ניתוח היסטורי על הנתונים, אם הם אפילו יודעים שהם קיימים, אז חלק מהשחקנים המקוונים עומדים לקבל שיחת השכמה.

אבל עם רבים מרוב המותגים האלה, אני מתכוון שיש לנו את Uber שהיא חברת המוניות הגדולה בעולם. אין להם מוניות, אז מה זה שגורם להם לקסם, מה הנתונים שלהם? ב- Airbnb, ספקית הלינה הגדולה ביותר, יש לנו WeChat, חברת הטלפונים הגדולה בעולם, אך אין להם שום תשתית ממש, ואין מכשירים, אין קווי טלפון. עליבאבא, הקמעונאית הגדולה ביותר על פני כדור הארץ, אך אין בבעלותם אף אחד מהמלאי. פייסבוק, חברת המדיה הגדולה במילה. אני חושב שבספירה האחרונה היו להם עכשיו 1.4 מיליארד משתמשי נתונים פעילים, שזה מספר מדהים. זה לא נמצא בשום מקום קרוב - אני חושב שמישהו טען שרבע מכוכב הלכת נמצא בעצם כל יום ובכל זאת, הנה ספק תוכן שלמעשה לא יוצר את התוכן, כל הנתונים שהם משרתים לא נוצרים על ידיהם, זה נוצר על ידי המנויים שלהם, וכולנו מכירים את המודל הזה.

SocietyOne, שאולי שמעת עליו או שאולי לא שמעת עליו, זה מותג מקומי, אני חושב שבכמה מדינות זה בנק שעושה הלוואות עמית לעמית, אז במילים אחרות, אין לו כסף. כל מה שהוא עושה זה שהוא מנהל את העסקאות והנתונים יושבים מתחתיו. נטפליקס, כולנו מאוד מכירים את זה. יש כאן אניה אחת מעניינת. כשנטפליקס הצליחה להשתמש באופן חוקי באוסטרליה, כשהוכרזה רשמית, לא היית צריך להשתמש ב- VPN כדי להגיע אליו, אנשים רבים ברחבי העולם נוטים לעשות זאת - אם אתה לא יכול להגיע אליו באזור שלך - כאשר Netfix הושק באוסטרליה, היא הגדילה את רוחב הפס הבינלאומי בקישורי האינטרנט שלנו בכ -40 אחוז, כך שהיא כמעט הכפילה את השימוש באינטרנט באוסטרליה בין לילה, על ידי יישום אחד בלבד, יישום אירוח ענן שאינו עושה דבר מלבד לשחק עם נתונים. זה פשוט נתון מרתק.

וכמובן, כולנו מכירים את אפל וגוגל, אבל אלה הם עסק התוכנה הגדול ביותר בעולם, ובכל זאת הם לא באמת כותבים את האפליקציות. מה הדבר העקבי עם כל הארגונים האלה? ובכן, זה נתונים והם לא הגיעו לשם כי הם לא ידעו היכן הנתונים שלהם הם לא ידעו איך לקטלג אותם.

מה שאנחנו מגלים כעת הוא שיש את כל סוג הנכסים החדש הזה המכונה נתונים, והחברות מתעוררות לזה. אבל לא תמיד יש להם את הכלים והידע והסיבה למפות את כל הנתונים האלה, לקטלג את כל הנתונים האלה ולהנגיש אותם, אבל מצאנו שחברות שאין להן כמעט נכסים פיזיים השיגו שווי שוק גבוה ב שיא זמן באמצעות מחלקת נכסים חדשה זו. כאמור, חלק מהשחקנים הוותיקים עכשיו מתעוררים לזה ובוודאי מוציאים אותו החוצה.

אני מעריץ גדול של לקחת אנשים למסע קטן, כך שבשמונה עשרה מאות, שמונה עשרה מאות מאוחרות, ותהיה יותר מכיר את זה בשוק האמריקאי, התברר שכדי לנהל מפקד בכל שנה בערך, אני חושב שהם ניהלו אותם כל עשר שנים באותה נקודה, אבל אם אתה הולך לנהל מפקד כל שנה, יכול היה לקחת עד שמונה או תשע שנים לבצע בפועל את ניתוח הנתונים. התברר שאותו מערך נתונים נותר אז בתיבות במקומות בנייר, וכמעט אף אחד לא מצא את זה. הם פשוט המשיכו לשאוב את הדיווחים האלה, אבל הנתונים באמת היו קשה להגיע אליהם, יש לנו מצב דומה עם רגע אחר משמעותי בעולם, סביב שנות הארבעים של המאה העשרים, עם מלחמת העולם השנייה, והדבר הזה הוא פארק בלטצ'לי., וזה היה כלי אנליטי מפוצץ מספרים שיעבור במערכות נתונים קטנות וימצא בו אותות וישמש לסייע בפיצוח קודים דרך האניגמה.

הדבר הזה שוב, היה למעשה מכשיר שתוכנן, לא הרבה לקטלוג, אלא לתייג ולמפות נתונים, ולאפשר לצלם דפוסים ולמצוא אותם בתוך מערכי הנתונים, במקרה זה, לשבור קודים, למצוא מפתחות וביטויים ולמצוא אותם באופן קבוע במערכות הנתונים, וכך עברנו את המסע הזה של מציאת דברים בנתונים והובלנו לקטלוג נתונים.

ואז הגיעו הדברים האלה, מתלי מכונות מסיביים בעלות נמוכה, רק מכונות מדף. ועשינו כמה דברים מאוד מעניינים, ואחד הדברים שעשינו איתם זה בנינו אשכולות בעלות נמוכה מאוד שיכולים להתחיל לאנדקס את כדור הארץ, ובאופן מפורסם המותגים הגדולים האלה שהגיעו והלכו, אבל כנראה שגוגל הוא הבית הנפוץ ביותר מותג שכולנו שמענו עליו - הוא הפך לפועל בפועל, ואתה יודע שאתה מצליח כאשר המותג שלך הופך לפועל. אבל מה שגוגל לימדה אותנו, מבלי להבין זאת, אולי בעולם העסקים, היא שהם הצליחו לאינדקס את כדור הארץ כולו לרמה מסוימת, ולקטלג את הנתונים שהיו ברחבי העולם ולהפוך אותם לזמינים בצורה קלה מאוד, טופס נוח בנוסחה קטנה עם שורה אחת, דף אינטרנט שכמעט שום דבר עליו, ואתה מקליד את השאילתה שלך, הוא הולך ומוצא אותה מכיוון שהם כבר סרקו את הכוכב, אינדקסו אותו והפכו אותו לזמין בקלות.

ומה ששמנו לב היה, "נו, רגע, אנחנו לא עושים זאת בארגונים - מדוע זה? מדוע יש לנו ארגון שיכול למפות את כדור הארץ כולו ולאנדקס אותו, לסרוק אותו לאינדקס ולהפוך אותו לזמין, נוכל לחפש אותו ואז ללחוץ על הדבר ללכת ולמצוא אותו, איך אנחנו לא עשו את זה באופן פנימי? "אז יש המון מתלים קטנים של מכונות ברחבי העולם שעושים זאת עבור אינטראטים ומוצאים דברים, אבל הם עדיין ממש מסתדרים עם הרעיון לחרוג מהאינטרנט המסורתי דף או שרת קבצים.

במקום להיכנס לדור הבא של קטלוג הנתונים במובנים רבים, לגלות גישה לנתונים באמצעות תוויות לאחר מכן ושיחות מצננות מים כבר לא ממש שיטה מתאימה לגילוי וקטלוג נתונים, ולמעשה, אני לא חושבת את זה אף פעם באמת היה. אנחנו כבר לא יכולים להוביל את האתגר כולו לאנשים שרק מעבירים הערות, מפרסמים הערות ומפטפטים על זה. אנו נמצאים הרבה מעבר לאזור שעכשיו הגישה הגנרלית הבאה לקטלוג נתונים הגיעה ונעלמה. אנחנו צריכים לסובב את הזרועות שלנו. אם זו הייתה בעיה קלה, היינו כבר פותרים אותה במובנים רבים קודם לכן, אבל אני חושב שזה לא נושא קל, רק יצירת אינדקס וקריאת הנתונים הם רק חלק אחד ממנו, לדעת מה יש בנתונים ו בניית מטא נתונים סביב מה שאנחנו מגלים, ואז הפיכתם לזמינה בצורה מתכלה וקלה, במיוחד לשירות עצמי ואנליטיקה. זו עדיין בעיה שנפתרת, אך חלקים רבים של הפאזל בחמש שנים נפתרים וזמינים היטב.

כידוע, קטלוג נתונים של בני אדם הוא מתכון לכישלון מכיוון ששגיאה אנושית היא אחד הסיוטים הגדולים ביותר שאנו עוסקים בהם בעיבוד נתונים, ואני מדבר באופן קבוע על נושא זה, שם בעיניי, בני אדם שממלאים טפסים מנייר הם כנראה הסיוט הגדול ביותר אנו עוסקים בנתונים גדולים ואנליטיים, כל הזמן צורך לתקן דברים שהם עושים, אפילו לדברים פשוטים כמו התאריכים והשדות, אנשים שמציבים אותם בפורמט לא נכון.

אבל כאמור, ראינו שמנועי חיפוש באינטרנט אינדקסים את העולם כל יום, אז כעת אנו מביאים את הרעיון שניתן לעשות זאת על מערכי נתונים עסקיים בתהליך הגילוי, וכלים ומערכות נמצאים כעת זמין כמו שאתה עומד ללמוד היום. אז הטריק, לדעתי, הוא בחירת הכלים הנכונים, הכלים הטובים ביותר לתפקיד. ועוד יותר מתאים נוסף על כך, למצוא את החלק הנכון בו כדי לעזור לך להתחיל בדרך זו. ואני מאמין שאנחנו הולכים לשמוע על זה היום, אבל לפני שנעשה את זה, אני הולך לעבור למכללה שלי, רובין בלור, ולשמוע את התייחסותו לנושא. רובין, אני יכול לעבור אליך?

רובין בלור: כן, בהחלט אתה יכול. בוא נראה אם ​​זה עובד, אה כן. אוקיי, אני בא מכיוון אחר מאשר דז באמת, אבל אני בסופו של דבר באותו מקום. זה קשור לחיבור לנתונים, אז פשוט חשבתי שאעבור במציאות של חיבור לנתונים, נקודה אחר נקודה באמת.

יש עובדה שהנתונים מפוצלים יותר מכפי שהיו אי פעם. נפח הנתונים גדל בצורה פנומנלית, אך למעשה, מקורות הנתונים השונים צומחים גם הם בקצב מדהים, ולכן הנתונים מתפצלים כל הזמן. אבל בגלל אפליקציות אנליטיקה בפרט - אבל אלה לא היישומים היחידים - יש לנו סיבה ממש טובה להתחבר לכל הנתונים האלה, אז אנחנו תקועים במקום קשה, אנחנו תקועים בעולם של נתונים מקוטעים, ויש הזדמנות בנתונים כפי שקרא לזה דז, השמן החדש.

על נתונים, ובכן, זה היה פעם לחיות על דיסק מסתובב, או במערכות קבצים או בבסיסי נתונים. עכשיו הוא חי בסביבה הרבה יותר מגוונת, הוא חי במערכות קבצים, אך הוא חי גם במופעי Hadoop בימינו, או אפילו במקרים של Spark. הוא חי במינים רבים של מסד נתונים. לפני זמן לא רב, אנו סוגנו סטנדרט כלשהו של מסד נתונים יחסי, ובכן אתה יודע שיצא מהחלון בחמש השנים האחרונות, מכיוון שיש צורך במאגרי מסמכים, ויש צורך במאגרי מידע גרפיים, כך שאתה יודע, יש למשחק השתנה. אז זה חי על דיסק מסתובב, אבל עכשיו הוא חי על SSD. הכמות האחרונה של SSD - בהחלט יחידת ה- SSD האחרונה יוצאת מסמסונג - עשרים ג'יגה-בייט, וזה ענק. עכשיו זה חי בזיכרון, במובן זה שהעתק הנתונים העיקרי יכול להיות בזיכרון, ולא בדיסק, לא היינו בונים מערכות כאלה; אנחנו עושים עכשיו. וזה חי בענן. מה שאומר שהוא יכול לחיות בכל אחד מהדברים האלה, בענן, לא בהכרח תדע איפה הוא בענן, תהיה לך רק הכתובת שלו.

רק כדי לחזור הביתה את הנקודה, Hadoop עד כה נכשלה כחנות נתונים הניתנת להרחבה. קיווינו שהיא תהפוך לחנות נתונים רחבת היקף הניתנת להרחבה, והיא פשוט תהפוך למערכת קבצים אחת לכל דבר, והיא תעשה - קשתות גשם יופיעו בשמיים, בעיקרון, וחדי קרן יחולו סביב, וכל זה לא קרה. מה שאומר שבסופו של דבר יש לנו בעיה של הובלת נתונים, ואין צורך בהעברת נתונים לפעמים, אבל זה גם קושי. לנתונים באמת יש כוח משיכה בימינו, ברגע שנכנסתם למרב-טרה-בתים של נתונים, לאסוף אותם ולזרוק אותם, סוג של גורמים לאיחור להופיע ברשת שלכם או להופיע במקומות שונים. אם אתה רוצה להעביר נתונים מסביב, תזמון הוא גורם. יש כמעט תמיד, בימינו, כמה מגבלות על כמה זמן יש לך להשיג דבר אחד, נתונים ממקום למקום אחר. היה פעם מה שחשבנו עליו כחלונות אצווה, כשהמכונה הייתה די בטלה, ולא משנה כמה נתונים היו לך, אתה פשוט יכול לזרוק אותה והכל יסתדר. ובכן זה נעלם, אנו חיים בעולם הרבה יותר בזמן אמת. לכן תזמון הוא גורם. ברגע שאתה רוצה להעביר נתונים, כך שאם הנתונים יש כוח משיכה, סביר להניח שאתה לא יכול להזיז אותם.

ניהול נתונים הוא גורם במובן זה שבעצם עליכם לנהל את כל הנתונים הללו, אינכם מקבלים אותם בחינם, ועשוי להיות שכפול על מנת לגרום לנתונים לבצע את העבודה שהם צריכים לעשות, כי יכול להיות שזה לא יהיה בכל מקום ששמת את זה. יתכן ולא יהיו לו מספיק משאבים כדי לבצע את העיבוד הרגיל של הנתונים. אז הנתונים משוכפלים, ונתונים משוכפלים יותר ממה שהייתם יכולים לדמיין. אני חושב שמישהו אמר לי מזמן שהנתונים הממוצעים משוכפלים לפחות פעמיים וחצי. ESBs או Kafka מציגים אפשרות לזרימת נתונים, אך בימינו היא דורשת ארכיטקטורה. בימינו אתה באמת צריך לחשוב בצורה כזו או אחרת, על המשמעות של למעשה לזרוק את הנתונים. לפיכך, בדרך כלל, עדיף לגשת לנתונים באשר הם, כל עוד אתה יכול כמובן להשיג את הביצועים שאתה זקוק להם כשאתה הולך למעשה על הנתונים וזה תלוי בהקשר. כך שממילא זה מצב קשה. מבחינת שאילתות נתונים, פעם היינו יכולים לחשוב במונחים של SQL, הגענו ממש עכשיו, אתה יודע, צורות שונות של שאילתות, SQL כן, אבל סמוכים, גם שאילתות גרף, ניצוץ הוא רק דוגמא אחת ל עושה גרף, כיוון שאנו גם צריכים לבצע חיפוש טקסטים, יותר מאי פעם, גם סוגים מחדש של חיפושים, שהיא ממש חיפושים מסובכים אחר דפוסים, והתאמת דפוסים אמיתית, כל הדברים האלה ממש מבעבעים. וכולם מועילים מכיוון שהם משיגים לך את מה שאתה מחפש, או שהם יכולים להשיג לך את מה שאתה מחפש.

שאילתות כיום עומדות על נתונים מרובים, כך שלא תמיד זה עשה זאת ולעיתים קרובות הביצועים מחרידים אם תעשה זאת. אז זה תלוי בנסיבות, אבל אנשים מצפים שיוכלו לשאול נתונים ממקורות נתונים מרובים, ולכן איחוד נתונים כזה או אחר הופך להיות יותר ויותר עדכני. וירטואליזציה של נתונים, שהיא דרך אחרת לעשות זאת, תלוי בביצועים, נפוצה גם היא. שאילתות נתונים הן למעשה חלק מתהליך ולא כל התהליך. ראוי רק לציין שאם אתה בוחן למעשה את ביצועי האנליטיקה, האנליטיקס בפועל יכול לקחת הרבה יותר זמן מאשר איסוף הנתונים, מכיוון שזה תלוי בנסיבות, אך שאילתות נתונים הן הכרח מוחלט אם אתה רוצה לעשות משהו סוג של ניתוח בכמה מקורות נתונים, וזה פשוט, אתה באמת צריך להיות בעל יכולות שמשתרעות.

אז לגבי קטלוגים. קטלוגים קיימים מסיבה אחת, לפחות אנו אומרים שידוע לך, יש לנו ספריות ויש לנו סכימות במאגרי מידע, ויש לנו כל קטלוג ויש לנו לאן שאתה הולך אתה תמצא מקום אחד ואז תוכל למעשה תמצא שיש איזשהו קטלוג, והקטלוג הגלובלי המאוחד הוא רעיון טוב ככל הנראה. אבל למעט מאוד חברות יש דבר כזה. אני כן זוכר, שוב בשנת אלפיים - שנת האלפיים בהלה - אני זוכר שקומוניסטים אפילו לא הצליחו לציין כמה הפעלות היו להם, לא משנה כמה חנויות נתונים שונות היו להם, וזה כנראה המקרה עכשיו אתה יודע שרוב החברות אינן יודעות באופן פעיל במובן הגלובלי, אילו נתונים יש להן. אך ברור שיותר ויותר נחוץ לנהל קטלוג עולמי, או לפחות לקבל תמונה גלובלית של המתרחש בגלל הצמיחה של מקורות נתונים, והמשך הגידול של יישומים, וזה הכרחי במיוחד לניתוח, מכיוון שאתה גם בדרך אחת, ויש כאן סוגיות אחרות כמו שושלת ובעיות בנתונים, וזה הכרחי לביטחון, היבטים רבים של ממשל הנתונים, אם אתה באמת לא יודע איזה נתונים יש לך, הרעיון שאתה הולך לשלוט זה פשוט אבסורד. לכן, כל הנתונים מקוטלגים בדרך כלשהי זו רק עובדה. השאלה היא האם הקטלוג קוהרנטי, ולמעשה מה אתה יכול לעשות איתו. אז אחזור לרבקה.

רבקה יוז'ויאק: אוקיי, תודה לרובין. בשלב הבא יש לנו את דיוויד קרופורד מאלציה, דייוויד אני הולך להמשיך ולהעביר לך את הכדור ותוכל לקחת אותו משם.

דייויד קרופורד: תודה רבה. אני מאוד מעריך אתכם החבר'ה שלכם עם התוכנית הזו. אני חושב שאני הולך להתחיל את זה, אז אני חושב שהתפקיד שלי כאן הוא לקחת חלק מהתיאוריה הזו ולראות איך היא מיושמת בפועל, ואת התוצאות שאנו מסוגלים לנהוג אצל לקוחות אמיתיים וכך תוכלו לראות כמה בשקופית, אני רוצה לדבר על אילו תוצאות נוכל לראות בשיפור אנליטי אולי. אז כדי להניע את הדיון, אנחנו הולכים לדבר על איך הם הגיעו לשם. אז מזל שיש לי לעבוד די קרוב עם הרבה אנשים חכמים באמת, הלקוחות האלה, ואני רק רוצה להצביע על כמה שהצליחו למדוד, ולדבר על כך שהקטלוג של נתונים השפיע על האנליסט שלהם. זרימת עבודה. ורק כדי להישאר בקצרה בחזית, אני חושב שאחד הדברים שאנחנו רואים משתנים, עם קטלוגי נתונים פסוקים לפתרונות מתווכים קודמים ואחת הדרכים שהיחסים באמת חושבים על הפתרונות שהרכבנו, היא להתחיל מהאנליסטים. ולעבוד הפוך. לומר, בואו נעשה את זה לגבי הפעלת התפוקה של אנליסטים. בניגוד לציות, או בניגוד למלאי, אנו מייצרים כלי שהופך אנליסטים לפרודוקטיביים יותר.

לכן, כשאני מדבר עם מדען נתונים בכיכר חברת השירותים הפיננסיים, יש בחור, ניק, שסיפר לנו על האופן בו, הוא נהג לקחת כמה שעות כדי למצוא את מערך הנתונים הנכון כדי להתחיל דוח, עכשיו הוא יכול עשה זאת תוך שניות בעזרת חיפוש בנתח שוק, דיברנו עם ה- CTO שלהם שמשך את האנליסטים שלו שהשתמשו בכיכר, סליחה, השתמש ב- Alation, כדי לברר מה שלהם, מה היתרונות שהם ראו, והם דיווחו על 50 עלייה בפריון של אחוז, וכי, אחד הקמעונאים המובילים בעולם, eBay, יש להם יותר מאלף אנשים שעושים ניתוח SQL על בסיס קבוע, ואני עובד די קרוב עם Deb Says שם, מיהו הפרויקט. מנהלת בצוות כלי הנתונים שלהם, והיא גילתה שכאשר שאילתות מאמצות את Alation, מאמצות קטלוג, הן רואות כפול מהמהירות של כתיבת שאילתות חדשות מול בסיס הנתונים.

אז אלה תוצאות אמיתיות, מדובר באנשים שמיישמים את הקטלוג בארגון שלהם ואני רוצה לעבור את מה שנדרש כדי להתקין. כיצד מתבסס קטלוג בחברה, ואולי הדבר החשוב ביותר לומר, הוא שהרבה ממנו קורה אוטומטית, אז דז דיברה על מערכות, למדה על מערכות, וזה בדיוק מה שקטלוג הנתונים המודרני עושה. אז הם מתקינים את Alation במרכז הנתונים שלהם ואז הם מחברים אותה למקורות מטא נתונים שונים בסביבת הנתונים שלהם. אתמקד מעט במאגרי המידע ובכלי ה- BI - משני אלה אנו הולכים לחלץ מטא נתונים טכניים, בעיקרון על מה שקיים. נכון, אז אילו טבלאות? מה הדיווחים? מהן הגדרות הדוח? אז הם מחלצים מטא נתונים טכניים אלה, ודף קטלוג נוצר באופן אוטומטי עבור כל אובייקט בתוך המערכות האלה, ואז הם גם מחלצים ושכבות על גבי מטא-נתונים טכניים אלה, הם מכילים שכבה על גבי נתוני השימוש. זה נעשה בעיקר על ידי קריאת יומני שאילתה מהמאגר, וזה מקור מידע מעניין באמת. לכן, בכל פעם שאנליטיקאי כותב שאילתה, בכל פעם שכלי דיווח, בין אם הוא מגודל ביתי או מהמדף, האם כלי דיווח מפעיל שאילתה על מנת לעדכן לוח מחוונים, כאשר יישום מפעיל שאילתה כדי להכניס נתונים להפעלה מערך נתונים - כל הדברים האלה נלכדים ביומני שאילתות מסדי נתונים. בין אם יש לך קטלוג ובין אם לא, הם נלכדים ביומן השאילתה עם בסיס הנתונים. מה שקטלוג הנתונים יכול לעשות, ובמיוחד מה הקטלוג של Alation יכול לעשות, הוא לקרוא את היומנים האלה, לשאול את השאלות שבתוכם, וליצור גרף שימוש מעניין באמת על בסיס אותם יומנים, ואנחנו מביאים את זה לשחק כדי ליידע משתמשים עתידיים. מהנתונים על אופן השימוש המשתמשים בעבר בהם.

אז, אנו מכניסים את כל הידע הזה לקטלוג, ופשוט כדי להפוך אותו לממשי, אלה הם השילובים שכבר פרוסים אצל לקוחות, כך שראינו את אורקל, טרטה, רדשיפט, ורטיקה ועוד המון מאגרי מידע יחסים. בעולם Hadoop, יש מגוון SQL ב- Hadoop, מעין חנויות מטא-יחסיות על גבי מערכת הקבצים Hadoop, אימפלה, Tez, Presto ו- Hive, ראינו גם הצלחה עם ספקים פרטיים בענף Hadoop כמו Altiscale, ואנחנו גם הצליחו להתחבר לשרתי Tableau, שרתי MicroStrategy ולאינדקס את לוח המחוונים שם, כמו גם שילובים עם כלי תרשימי מדעי נתונים כמו Plotly.

אז, אנו מתחברים לכל המערכות הללו, חיברנו את המערכות הללו ללקוחות, הוצאנו את המטא נתונים הטכניים, הכנסנו את נתוני השימוש ואנחנו סוגנו אוטומטית את קטלוג הנתונים, אבל בדרך זו, אנחנו לרכז את הידע, אלא רק לרכז את הדברים בקטלוג נתונים, לא כשלעצמו מספק את אותם פרודוקטיביות ממש נפלאות שדיברנו עליהם עם ה- eBay, Square ונתח השוק. בכדי לעשות זאת, אנו צריכים למעשה לשנות את הדרך בה אנו חושבים על העברת ידע לאנליסטים. אחת השאלות שהם מבקשים להתכונן לכך, הייתה "איך הקטלוג משפיע באמת על זרימת העבודה של האנליסט?"

על זה אנו משקיעים את כל היום במחשבה, וכדי לדבר על שינוי חשיבה זה, על דחיפת פסוקים של מודל משיכה, רציתי לעשות אנלוגיה מהירה למה שהעולם היה לפני ואחרי שקראתי ב- Kindle. אז זו פשוט חוויה שחלק מכם עשויה להיות, כשאתם קוראים ספר פיזי, נתקלתם במילה, אינכם בטוחים שאתם מכירים את ההגדרה של המילה בצורה טובה במיוחד, אתם יכולים אולי לנחש אותה מהקשרם, לא סביר שתוכלו הולכים לקום מהספה, לצעוד למדף הספרים שלך, למצוא את המילון שלך, לאבק אותו ולהפוך למקום הנכון ברשימת המילים האלפביתית כדי לוודא, כן, הייתה לך ההגדרה הזו בדיוק, ואתה יודע הניואנסים שבדבר. אז זה לא באמת קורה. אז אתה קונה אפליקציית קינדל ומתחיל לקרוא שם ספרים, ואתה רואה מילה שאתה לא לגמרי בטוח בה ואתה נוגע במילה. פתאום, ממש באותו המסך, היא ההגדרה המילונית של המילה, על כל הניואנסים שלה, שימושים לדוגמה שונים, ואתה מחליק מעט, ומקבל מאמר בוויקיפדיה בנושא זה, אתה שוב מחליק, אתה מקבל כלי תרגום שיכול לתרגם אותו לשפות אחרות או משפות אחרות, ופתאום הידע שלך בשפה הוא כל כך עשיר יותר, וזה פשוט קורה מספר מדהים של פעמים, בהשוואה למתי שהיית צריך ללכת למשוך לעצמך את המשאב הזה.

ולכן מה שאני מתווכח הוא שזרימת העבודה של אנליסט והאופן בו אנליסט יתמודד עם תיעוד נתונים, למעשה דומה מאוד לאופן בו הקורא יעבור אינטראקציה עם המילון, אם זה פיזי, או אם כי להדליק, ולכן מה שאנחנו, באופן שראינו באמת את התגברות הפרודוקטיביות הזו, לא שופכים את הקטלוג, אלא מחברים אותו לזרימת העבודה של האנליטיקאי, וכך הם ביקשו ממני לעשות כאן הדגמה, ואני רוצה כדי להפוך את זה למוקד של מצגת זו. אבל אני רק רוצה להגדיר את ההקשר להדגמה. כשאנחנו חושבים לדחוף את מידע המידע למשתמשים כשהם זקוקים לו, אנו חושבים שהמקום הנכון לעשות זאת, המקום בו הם מבלים את זמנם ואיפה שהם מבצעים את הניתוח, הוא כלי שאילתת SQL. מקום שאתה כותב ומריץ שאילתות SQL. וכך בנינו אחד, ובנינו אותו, והדבר שבאמת שונה ממנו מכלי שאילתה אחרים הוא האינטגרציה העמוקה שלו עם קטלוג הנתונים.

כך שכלי השאילתה שלנו נקרא Alation Compose. זה כלי שאילתה מבוסס אינטרנט ואני אראה לך אותו בעוד שנייה. כלי שאילתה מבוסס אינטרנט שעובד על כל סמלי מסדי הנתונים שראית בשקופית הקודמת. מה שאני אנסה להדגמה במיוחד זה האופן שבו המידע בקטלוג מגיע למשתמשים. והיא עושה זאת דרך שלוש דרכים שונות. זה עושה זאת דרך התערבויות, וכאן מישהו שהוא נגיד נתונים, או דייל נתונים, או מנהל מערכת בדרך כלשהי, או מנהל, יכול להגיד, "אני רוצה לבצע סוג של התערבות עם פתק או אזהרה ב זרימת העבודה וודא שהיא מועברת למשתמשים בזמן הנכון. "אז זו התערבות ונראה את זה.

הצעות חכמות היא דרך בה הכלי משתמש בכל הידע המצטבר שלו בקטלוג כדי להציע אובייקטים וחלקים משאילתה בזמן שאתה כותב אותה. הדבר החשוב ביותר לדעת הוא שהוא באמת מנצל את יומן השאילתה כדי לעשות זאת, כדי להציע דברים המבוססים על שימוש וגם למצוא אפילו חלקים משאילתות שנכתבו בעבר. ונראה זאת.

ואז תצוגה מקדימה. תצוגה מקדימה היא שככל שאתה מקליד את שם האובייקט, אנו מראים לך את כל מה שהקטלוג יודע, או לפחות את הדברים הרלוונטיים ביותר שהקטלוג יודע על אותו אובייקט. אז דוגמאות לנתונים, שהשתמשו בהן בעבר, השם ההגיוני והתיאור של אותו אובייקט, כל אלה באים אליכם בזמן שאתם כותבים אותו מבלי שתצטרכו לבקש אותו.

אז בלי לדבר יותר, אני אגיע להדגמה, ואני רק אחכה שהיא תופיע. מה שאני הולך להראות לכם כאן הוא כלי השאילתה. זהו ממשק ייעודי לכתיבת SQL. זה ממשק נפרד מהקטלוג, במובן מסוים. דז ורובין דיברו על הקטלוג, ואני קופץ קצת על ממשק הקטלוג היישר לאופן שבו הוא מובא ישירות לשירות העבודה.

אני רק מראה כאן מקום שאני יכול להקליד SQL, ובתחתית תראה שאנחנו סוג של מידע שמופיע על האובייקטים שאנחנו מפנים אליהם. אז אני רק אתחיל להקליד שאילתה ואפסיק כשאגיע לאחת ההתערבויות האלה. אז אני אקליד "בחר" ואני רוצה את השנה. אני רוצה את השם. ואני הולך לחפש כמה נתוני שכר. אז זהו מערך נתוני חינוך. יש בו מידע על מוסדות להשכלה גבוהה, ואני בוחן את שכר הסגל הממוצע שנמצא באחד מהטבלאות הללו.

אז הקלדתי את המילה "משכורת". זה לא בדיוק בשם הטור בצורה כזו. אנו משתמשים במטא-נתונים הגיוניים ובמטא-נתונים הפיזיים כדי לבצע הצעות. ומה שאני רוצה לציין כאן זה התיבה הצהובה הזו שמופיעה כאן. כתוב בטור הזה אזהרה. לא חיפשתי את זה, לא לקחתי שיעור כיצד להשתמש בנתונים האלה כמו שצריך. זה הגיע אליי, וזה במקרה מדובר באזהרה לגבי הסכם סודיות שקשור לנתונים אלה. אז יש כמה כללי גילוי. אם אני הולך לשאול נתונים אלה אני הולך להוציא נתונים מהטבלה הזו, אני צריך להיות זהיר לגבי האופן בו אני חושף אותם. אז יש לך כאן מדיניות ממשל. יש כמה אתגרי ציות שמקלים כל כך על קיום המדיניות הזו כשאני יודע עליה באותה עת שאני בוחן את הנתונים.

אז יש לי את זה שעולה אלי ואז אני גם הולך להסתכל על שכר הלימוד. וכאן אנו רואים שהתצוגה המקדימה נכנסת לפעולה. בטור הלימוד הזה אני מבין - יש שולחן לימוד בשולחן המוסדות, ואני רואה פרופיל של זה. Alation הולך ושולף נתונים מדגימה מהטבלאות, ובמקרה זה, זה מראה לי משהו שהוא די מעניין. זה מראה לי את התפלגות הערכים וזה מראה לי שערך האפס הופיע 45 פעמים במדגם, ויותר מכל ערך אחר. אז יש לי תחושה שאולי חסר לנו כמה נתונים.

אם אני אנליסט מתקדם, ייתכן שזה כבר חלק מזרימת העבודה שלי. במיוחד אם אני קפדנית במיוחד, שם הייתי עושה חבורה של שאילתות פרופיל לפני כן. בכל פעם שאני ניגש לנתון חדש אני תמיד חושב מה הכיסוי של הנתונים שלנו. אבל אם אני חדש בניתוח נתונים, אם אני חדש במערך הנתונים הזה, אני יכול להניח שאם יש טור, הוא מלא כל הזמן. או שאני יכול להניח שאם זה לא מלא, זה לא אפס, זה בטל או משהו כזה. אבל במקרה הזה, יש לנו הרבה אפסים, ואם הייתי עושה ממוצע, הם בטח היו טועים, אם רק הייתי מניח שהאפסים האלה הם אפס במקום נתונים חסרים.

אבל Alation, על ידי הכנסת תצוגה מקדימה זו לזרימת העבודה שלך, סוג של מבקש ממך לבדוק את המידע הזה ונותן אפילו סוג של אנליסטים מתחילים לראות שיש מה לשים לב כאן לנתונים האלה. אז יש לנו את התצוגה המקדימה הזו.

הדבר הבא שאעשה הוא לנסות לברר מאילו טבלאות ניתן לקבל מידע זה. אז הנה אנו רואים את ההצעות החכמות. זה נמשך כל הזמן, אבל בפרט כאן, אפילו לא הקלתי שום דבר, אבל זה הולך להציע לי באילו טבלאות אולי ארצה להשתמש בשאילתה הזו. והדבר החשוב ביותר לדעת על זה הוא שהוא מנצל את סטטיסטיקות השימוש. אז בסביבה כמו למשל eBay, שבה יש לך מאות אלפי טבלאות במאגר נתונים יחיד, שיש לך כלי שיכול להכות את החיטה מן המוץ, ולהשתמש בסטטיסטיקות השימוש הללו, זה באמת חשוב להכנת אלה הצעות ששוות משהו.

אז זה הולך להציע את הטבלה הזו. כשאני מסתכל על התצוגה המקדימה, אנו למעשה מדגישים שלוש מהעמודות שציינתי כבר בשאילתה שלי. אז אני יודע שיש לו שלושה, אבל אין לזה את השם. אני צריך לקבל את השם, אז אני הולך להצטרף. כשאני מצטרף, עכשיו יש לי את התצוגה המקדימה הזו שיעזרו לי למצוא, היכן נמצא הטבלה עם השם. אז אני רואה שלזה יש שם מעוצב יפה, סוג של היוון כראוי. נראה שיש שורה אחת עם שם לכל מוסד, אז אני הולך לתפוס את זה ועכשיו אני זקוק לתנאי הצטרפות.

וכך, הנה מה שעושה Alation הוא שוב להביט אחורה ביומני השאילתה, לראות פעמים קודמות שאליהן הצטרפו שני הטבלאות הללו, ולהציע דרכים שונות להצטרף אליהם. שוב, יש התערבות כלשהי. אם אני מסתכל על אחד מאלה יש לו אזהרה שמראה לי שיש להשתמש בזה רק לניתוח מצטבר. זה בטח יביא את הדבר הלא נכון אם אתה מנסה לעשות משהו דרך המוסד על ידי מוסד. ואילו זה, עם מזהה OPE, מאושר כדרך הנכונה להצטרף לשתי טבלאות אלה אם אתה רוצה נתונים ברמת האוניברסיטה. אז אני עושה את זה, וזו שאילתה קצרה, אבל כתבתי את השאילתה שלי מבלי שיהיה לי בהכרח שום תובנה לגבי הנתונים. מעולם לא בחנתי דיאגרמת ER של מערך הנתונים הזה, אבל אני יודע די הרבה על נתונים אלה מכיוון שהמידע הרלוונטי מגיע אלי.

אז אלה הן סוג של שלוש הדרכים שקטלוג יכול, באמצעות כלי שאילתה משולב, להשפיע ישירות על זרימת העבודה כשאתה כותב שאילתות. אבל אחד היתרונות האחרים שיש לכלי שאילתה משולב בקטלוג הוא שכאשר אסיים את השאילתה ואשמור אותה, אוכל להכניס כותרת כמו "שכר לימוד מוסדות ושכר סגל", ואז יש לי כאן כפתור מאפשר לי פשוט לפרסם אותו בקטלוג. מאוד קל לי להאכיל את זה. גם אם אני לא מפרסם את זה, הוא נלכד כחלק מיומן השאילתה, אבל כשאני מפרסם אותו, הוא הופך למעשה לחלק מהדרך שבה המקום המרכזי בו חי כל ידע נתונים.

אז אם אני לוחץ על חפש את כל השאילתות ב- Alation, אני יילקח - וכאן תראה עוד כמה מממשק הקטלוג - אני נלקח לחיפוש שאילתות ייעודי שמראה לי דרך למצוא שאילתות לרוחב הארגון כולו. ואתה רואה שהשאילתה החדשה שלי שפורסמה נמצאת בראש. ויש שאולי יבחינו כאן בשעה שאנו לוכדים את השאילתות, אנו גם לוכדים את הכותבים, ואנחנו מייצרים קשר זה ביני ככותב לבין אובייקטי הנתונים האלה שעכשיו אני יודע עליהם משהו. ואני הוקם כמומחה בשאילתה הזו ובאובייקטים אלה. זה מאוד מועיל כשאנשים צריכים ללמוד על נתונים, ואז הם יכולים למצוא את האדם הנכון ללכת ללמוד עליו. ואם אני אכן חדש בנתונים, בין אם אני אנליסט מתקדם - כאנליסט מתקדם, אני יכול להסתכל על זה ולראות שלל דוגמאות שיובילו אותי למערכת נתונים חדשה. כמי שאולי לא מרגיש בקיאות רבה עם SQL, אני יכול למצוא שאילתות מוכנות מראש שהם דוחות שאני יכול לנצל אותם.

להלן אחד מאת פיל מאזנט על ציוני SAT חציוניים. לחץ על זה ואני מקבל סוג של דף קטלוג לשאילתה עצמה. זה מדבר על מאמר שנכתב שמפנה לשאילתה הזו, ולכן יש לי קצת תיעוד שאוכל לקרוא אם אני רוצה ללמוד להשתמש בו. ואני יכול לפתוח אותו בכלי השאילתה על ידי לחיצה על כפתור הכתיבה, ואני יכול פשוט להריץ אותו בעצמי כאן אפילו בלי לערוך אותו. ובעצם, תוכלו לראות מעט את יכולות הדיווח הקלות שלנו, כאשר כשאתם כותבים שאילתה תוכלו להוריד משתנה תבנית כזה וזה יוצר דרך פשוטה ליצור טופס להפעלת שאילתה מבוססת על כמה פרמטרים.

אז זה מה שיש לי להדגמה. אני הולך לחזור לשקופיות. רק כדי לסקור מחדש, הראנו כיצד מנהל מערכת, מושל נתונים, יכול להתערב על ידי הצבת אזהרות על אובייקטים המופיעים בכלי השאילתה, כיצד Alation משתמש בידע שלו על השימוש באובייקטים של נתונים כדי להציע הצעות חכמות, כיצד הוא מביא בפרופילים וטיפים אחרים לשיפור זרימת העבודה של אנליסטים כאשר הם נוגעים באובייקטים מסוימים, וכיצד כל אותם סוגים של הזנות חוזרים לקטלוג כאשר נכתבים שאילתות חדשות.

ברור שאני דובר מטעם החברה. אני הולך לומר דברים נחמדים על קטלוגים של נתונים. אם אתה רוצה לשמוע ישירות מאחד הלקוחות שלנו, קריסטי אלן בספאווי מנהלת צוות אנליסטים ויש לה סיפור מגניב ממש על תקופה בה היא הייתה צריכה להכות את השעון באמת על מנת לבצע ניסוי שיווקי, ואיך שלמה צוות השתמש ב- Alation כדי לשתף פעולה ולהסתובב ממש במהירות בפרויקט הזה. כך שתוכלו לעקוב אחר קישור bit.ly זה כדי לבדוק את הסיפור הזה, או אם אתם רוצים לשמוע מעט על האופן בו Alation יכולה להכניס קטלוג נתונים לארגון שלכם, אנו שמחים להגדיר הדגמה אישית. תודה רבה.

רבקה יוז'ויאק: תודה רבה, דייויד. אני בטוח שלדז ורובין יש כמה שאלות לפני שאני פונה לקהל שאלות ותשובות. דז, אתה רוצה ללכת קודם?

דז בלנשפילד: בהחלט. אני אוהב את הרעיון של מושג זה של שאילתות שפורסמו וקשר אותו בחזרה למקור הכותב. הייתי אלוף שנים רבות ברעיון הזה של חנות אפליקציות פנימית ואני חושב שזה בסיס ממש נהדר לבנות עליו.

הגעתי למטרה לקבל קצת תובנות על כמה מהארגונים שאתה רואה שעושים את זה, וכמה מסיפורי ההצלחה שהיו עשויים עם כל המסע הזה של לא רק למנף את הכלי והפלטפורמה שלך כדי לגלות את הנתונים, אלא ואז גם להפוך את תכונותיהם התרבותיות וההתנהגותיות הפנימיות. כעת יש חנות אפליקציות פנימית מסוג זה שבה אתה פשוט מוריד, את הרעיון בו הם לא יכולים רק למצוא אותו, אלא שהם יכולים למעשה לפתח קהילות קטנות עם שומרי הידע הזה.

דייוויד קרופורד: כן, אני חושב שהופתענו. אנו מאמינים בערך של שיתוף שאילתות, הן מעברי כמנהל מוצר באדטק והן מכל הלקוחות שדיברנו איתם, אך עדיין הופתעתי כמה פעמים זה אחד הדברים הראשונים שלקוחות לדבר עליו כערך שהם יוצאים מאלציה.

ביצעתי בדיקות משתמשים בכלי השאילתה אצל אחד הלקוחות שלנו שנקרא Invoice2go, והיה להם מנהל מוצר שהיה חדש יחסית, והם אמרו - הוא אמר לי בפועל, ללא התייצבות במהלך מבחן המשתמש, "למעשה לא הייתי להיות כותב SQL בכלל חוץ מזה שזה קל על ידי Alation. "וכמובן שכראש הממשלה אני הולך, " למה אתה מתכוון, איך עשינו את זה? "והוא אמר, " נו, באמת זה פשוט מכיוון שאני יכול להתחבר ואני יכול לראות את כל השאלות הקיימות הללו. "להתחיל עם צפחה ריקה עם SQL זה דבר קשה להפליא, אבל לשנות שאילתה קיימת שבה אתה יכול לראות את התוצאה שמוצאת ותוכל לומר, "הו, אני רק צריך את הטור הנוסף הזה, " או, "אני צריך לסנן אותו לטווח תאריכים מסוים, " זה דבר הרבה יותר קל לעשות.

ראינו סוג של תפקידים נלווים אלה, כמו מנהלי מוצרים, אולי אנשים במכירות, שמתחילים להרים, ומי שרצה תמיד ללמוד SQL ולהתחיל לאסוף אותה באמצעות הקטלוג הזה. ראינו גם שהרבה חברות ניסו לעשות סוג של קוד פתוח. ניסיתי לבנות דברים מסוג זה באופן פנימי, שם הם עוקבים אחר השאילתות ומנגישים אותם, ויש כמה אתגרי עיצוב מסובכים באמת כדי להפוך אותם לשימושיים. לפייסבוק היה כלי פנימי שקראו ל- HiPal, וכדומה תפסו את כל השאלות שנכתבו ב- Hive, אבל מה שתגלו הוא שאם לא תדחפו את המשתמשים בצורה הנכונה, אתם בסופו של דבר רשימה ארוכה מאוד של הצהרות נבחרות. וכמשתמש שמנסה להבין אם שאילתה מועילה לי או שהיא טובה, אם רק אעבור ברשימה ארוכה של הצהרות נבחרות, ייקח לי הרבה יותר זמן להגיע למשהו חסר ערך מאשר מתחיל מהתחלה. חשבנו די בזהירות כיצד להכין קטלוג שאילתה שמביא את החומר הנכון לחזית ומספק אותו בצורה שימושית.

דז בלנשפילד: אני חושב שכולנו עוברים את המסע הזה מגיל צעיר מאוד, לבגרות, במובנים רבים. חבורה של טכנולוגיות. אני, באופן אישי, עברתי את אותו הדבר האמיתי, כמו ללמוד ללמוד לחתוך קוד. הייתי עוברת על מגזינים ואז על ספרים והייתי לומדת לרמה מסוימת ואז הייתי צריכה ללכת ולמעשה לקבל קצת יותר הכשרה וחינוך בנושא.

אבל שלא בכוונה גיליתי שגם כשאני הולך ללמד את עצמי ולקרוא מגזינים ולקרוא ספרים ולקצץ תוכניות של אנשים אחרים וללכת לקורסים בנושא, עדיין בסופו של דבר למדתי כל כך הרבה מלימוד הקורסים כמו שדיברתי עם אחרים אנשים שעברו חוויות מסוימות. ואני חושב שזה תגלית מעניינת שעכשיו כשאתה מביא את זה לניתוח נתונים, אנחנו בעצם רואים את אותה הקבלה, שבני אדם הם תמיד חכמים למדי.

הדבר האחר שאני באמת מעוניין להבין הוא, ברמה גבוהה מאוד, ארגונים רבים הולכים לשאול, "כמה זמן לוקח להגיע לנקודה הזו?" מה נקודת המוצא בזמן שאנשים מגיעים הפלטפורמה שלך מותקנת והם התחילו לגלות את סוגי הכלים? באיזו מהירות אנשים פשוט רואים את הדבר הזה הופך לרגע "א-חה" מיידי באמת שבו הם מבינים שהם כבר לא דואגים להחזר ה- ROI מכיוון שהוא נמצא שם, אבל עכשיו הם בעצם משנים את הדרך בה הם עושים עסקים ? והם גילו אמנות אבודה והם מצפים שהם יכולים לעשות משהו באמת, ממש כיף עם זה.

דייוויד קרופורד: כן, אני יכול לגעת בזה קצת. אני חושב שכשאנחנו מתקינים, אחד הדברים הנחמדים, אחד הדברים שאנשים אוהבים בקטלוג שמחובר ישירות למערכות הנתונים, זה שאתה לא מתחיל ריק במקום שאתה צריך למלא אותו עמוד אחר עמוד. וזה נכון לפתרונות נתונים קודמים שבהם היית מתחיל בכלי ריק וצריך להתחיל ליצור דף לכל מה שאתה רוצה לתעד.

מכיוון שאנו מתעדים כל כך הרבה דברים באופן אוטומטי על ידי חילוץ המטא נתונים, למעשה תוך מספר ימים מרגע התקנת התוכנה, תוכל לקבל תמונה של סביבת הנתונים שלך, לפחות 80 אחוז שם בכלי. ואז אני חושב שברגע שאנשים יתחילו לכתוב שאילתות בעזרת הכלי, הם נשמרים אוטומטית בחזרה לקטלוג, וכך הם יתחילו להופיע גם כן.

אני לא רוצה להתלהב בקביעת זה. אני חושב ששבועיים הם אומדן שמרני למדי למדי, לחודש. שבועיים עד חודש, הערכה שמרנית של באמת להסתובב ולהרגיש שאתה מוציא מזה ערך, כאילו שאתה מתחיל לשתף קצת ידע ולהיות מסוגל להגיע לשם ולגלות דברים על הנתונים שלך.

דז בלנשפילד: זה די מדהים כשחושבים על זה. העובדה שחלק מפלטפורמות הנתונים הגדולות שאתה מיישם לאינדקס ומקטלג ייקח לפעמים עד שנה ליישום ולפריסה ולעמוד כראוי.

השאלה האחרונה שיש לי עבורך לפני שאני מוסר לרובין בלור, היא מחברים. אחד הדברים שמיד קופץ עליי הוא שברור שיש לך את כל האתגר הזה. אז יש כמה שאלות ממש ממש מהר. ראשית, כמה מהר מיישמים מחברים? ברור שאתה מתחיל עם הפלטפורמה הגדולה ביותר, כמו האורקלס והטראדאטאס וכדומה ו- DB2s. אך באיזו תדירות אתה רואה מחברים חדשים עוברים, ואיזה זמן מפנה הם לוקחים? אני מתאר לעצמי שיש לך מסגרת סטנדרטית עבורם. וכמה עמוק אתה נכנס לאלה? לדוגמה, אורקל ו- IBM של העולם, ואפילו Tereadata, ואז כמה מהפופולריות יותר של פלטפורמות קוד פתוח מאוחרות. האם הם עובדים ישירות איתך? האם אתם מגלים זאת בעצמכם? האם אתה צריך להיות בעל פנים בפלטפורמות האלה?

איך נראה סוג של פיתוח מחבר, וכמה עמוק אתה מעורב בשותפויות האלה כדי להבטיח שהמחברים האלה מגלים את כל מה שאתה יכול?

דייוויד קרופורד: כן, בטח, זו שאלה נהדרת. אני חושב שלרוב נוכל לפתח את המחברים. בהחלט עשינו כשהיינו סטארט-אפ צעיר יותר ולא היו לנו לקוחות. אנו יכולים לפתח את החיבורים ללא צורך בלי גישה פנימית. לעולם איננו מקבלים גישה מיוחדת למערכות הנתונים שאינן זמינות לציבור ולעתים קרובות ללא צורך במידע פנים. אנו מנצלים את שירותי המטא נתונים העומדים לרשות מערכות הנתונים עצמן. לעתים קרובות אלה יכולים להיות די מורכבים וקשים לעבוד איתם. אני מכיר את SQL Server בפרט, באופן בו הם מנהלים את יומן השאילתה, יש כמה תצורות שונות וזה משהו שאתה באמת צריך לעבוד עליו. עליכם להבין את הדקויות ואת הידיות והחוגות עליו כדי להתקין אותה כראוי, וזה משהו שאנחנו עובדים עליו עם הלקוחות מאז שעשינו את זה כמה פעמים בעבר.

אבל במידה מסוימת, זה סוג של ממשקי API ציבוריים זמינים או ממשקים ציבוריים זמינים שאנו ממנפים. יש לנו שותפויות עם כמה מהחברות הללו, זה בעיקר עילה להסמכה, כך שהם ירגישו בנוח לומר שאנחנו עובדים וגם הם יכולים לספק לנו משאבים לבדיקה, לפעמים גישה מוקדמת אולי לפלטפורמה שיוצאת כדי לוודא ש אנו עובדים על הגרסאות החדשות.

כדי לסובב קשר חדש, הייתי אומר שוב, מנסה להיות שמרן, נניח שישה שבועות עד חודשיים. זה תלוי עד כמה זה דומה. אז חלק מהפוסטגר עובד בצורה דומה מאוד ל- Redshift. Redshift ו- Vertica חולקים הרבה מהפרטים שלהם. כך שנוכל לנצל את הדברים האלה. אבל כן, שישה שבועות עד חודשיים יהיה הוגן.

יש לנו גם ממשקי API, כך - אנו חושבים על Alation כפלטפורמת מטא נתונים גם כן, כך שאם משהו לא זמין לנו להושיט יד ולתפוס אותו באופן אוטומטי, ישנן דרכים שתוכלו לכתוב את המחבר בעצמכם ולדחוף אותו למערכת שלנו כך שהכל עדיין מתרכז במנוע חיפוש יחיד.

דז בלנשפילד: פנטסטי. אני מעריך את זה. אז נעביר את זה לרובין, כי אני בטוח שיש לו גם שפע של שאלות. רובין?

רבקה יוז'ויאק: רובין עשוי להיות אילם.

דז בלנשפילד: יש לך עצמך אילם.

רובין בלור: כן, נכון. סליחה השתקתי את עצמי. כשאתה מיישם את זה, מה התהליך? אני די סקרן מכיוון שיכולים להיות הרבה נתונים בהרבה מקומות. אז איך זה עובד?

דייויד קרופורד: כן, בטח. אנחנו נכנסים, ראשית זה סוג של תהליך IT של לוודא שהשרת מספק, לוודא שחיבורי רשת זמינים, שהיציאות פתוחות כדי שנוכל לגשת למערכות. לעיתים קרובות כולם יודעים עם אילו מערכות הם רוצים להתחיל. הידיעה בתוך מערכת נתונים, אשר - ולעיתים אנו נעזור להם. אנו נעזור להם לבחון ראשוני את יומן השאילתות שלהם כדי להבין מי משתמש במה וכמה משתמשים יש להם במערכת. אז נעזור לגלות היכן - הם לעתים קרובות, אם יש להם מאות או אלפי אנשים שאולי נכנסים למאגרי מידע, הם למעשה לא יודעים לאן הם נכנסים, כך שנוכל לברר מה יומן שאילתה כמה חשבונות משתמש ייחודיים יש לך כניסה בפועל וביצוע שאילתות כאן בעוד כחודש.

כך שנוכל לנצל זאת, אך לעיתים קרובות רק בחשובים שבהם. אנו מקימים אותם ואז יש תהליך של אמירה, "בואו נתעדף." יש מגוון פעילויות שיכולות להתרחש במקביל. הייתי מתמקד בהדרכה לשימוש בכלי השאילתה. ברגע שאנשים מתחילים להשתמש בכלי השאילתה, ראשית, הרבה אנשים אוהבים את העובדה שזה רק ממשק יחיד לכל המערכות השונות שלהם. הם גם אוהבים את העובדה שזה מבוסס אינטרנט, אינו כרוך בהתקנות כלשהן אם הם לא רוצים. מבחינת אבטחה, הם אוהבים לקבל מעין נקודת כניסה יחידה, מנקודת מבט של רשת, בין מעין רשת IT קורפית למרכז הנתונים בו חיים מקורות נתוני הייצור. וכך, הם יגדירו את Alation ככלי שאילתה ויתחילו להשתמש ב- Compose כנקודת גישה לכל המערכות הללו.

אז ברגע שזה קורה, מה שאנחנו מתמקדים בו באימונים, זה להבין מה הם כמה מההבדלים בין כלי שאילתה מבוסס אינטרנט או כלי שרת לעומת אחד שיש לך בשולחן העבודה, וחלק מהדקויות של השימוש בשירות זה. ובאותה עת מה שננסה לעשות הוא לזהות את הנתונים החשובים ביותר, שוב לנצל את המידע ביומן השאילתה, ולומר, "היי, אולי תרצה להיכנס ולעזור לאנשים להבין את אלה. בואו נתחיל לפרסם שאילתות מייצגות בטבלאות האלה. "זו לפעמים הדרך היעילה ביותר לגרום לאנשים להיות מרוצים. בואו נסתכל על היסטוריית השאילתה שלך, נפרסם את הדברים האלה כך שהם יופיעו כשאילתות ראשונות. כשאנשים מסתכלים על דף טבלה הם יכולים לראות את כל השאילתות שנגעו בטבלה הזו, והם יכולים להתחיל משם. ואז בואו נתחיל להוסיף כותרות ותיאורים לאובייקטים אלה כך שיהיה להם קל יותר לחפש ולחפש, כך שתכירו כמה מהניואנסים כיצד להשתמש בהם.

אנו דואגים שנבחן לעומק את יומן השאילתה, כך שנוכל לייצר שושלת. אחד הדברים שאנחנו עושים הוא להסתכל ביומן השאילתה בזמנים שבהם הנתונים עוברים מטבלה לשנייה, וזה מאפשר לנו לשים אחת מהשאלות הנפוצות ביותר על טבלת נתונים, מאיפה זה הגיע? איך אני סומך על זה? וכך מה שאנו יכולים להראות אינו רק מאילו שולחנות אחרים הוא הגיע, אלא כיצד הוא עבר שינוי לאורך הדרך. שוב, זה מופעל על ידי יומן השאילתה.

אז אנו מוודאים שהדברים האלה מוגדרים ושאנחנו נכנסים לשושלת למערכת, ואנחנו מכוונים לפיסות המטא נתונים החשובות ביותר והממונפות ביותר שנוכל להקים על דפי הטבלה, כך כשאתה מחפש אתה מוצא משהו מועיל.

רובין בלור: אוקיי. השאלה האחרת - יש המון שאלות מהקהל, אז אני לא רוצה לקחת יותר מדי מהזמן כאן - השאלה הנוספת שעולה לי בראש היא רק נקודות הכאב. הרבה תוכנות נקנות מכיוון שאנשים מתקשים בדרך זו או אחרת במשהו. אז מהי נקודת הכאב הנפוצה שמובילה אנשים לאלציה?

דייוויד קרופורד: כן. אני חושב שיש כמה, אבל אני חושב שאחד הדברים שאנחנו שומעים לעיתים קרובות הוא אנליסטים באונדינג. "אני אצטרך להעסיק 10, 20, 30 אנשים בטווח הקרוב שיצטרכו להפיק תובנות חדשות מהנתונים האלה, איך הם יתקדמו במהירות?" אז אנליסט באונליסט הוא משהו שאנחנו בהחלט להתמודד. יש גם רק להקל על האנליסטים הבכירים מלהוציא את כל זמנם לענות על שאלות מאנשים אחרים על נתונים. גם זה תכוף מאוד. ושניהם בעצם בעיות חינוך.

ואז הייתי אומר מקום אחר שאנו רואים שאנשים מאמצים את Alation הוא כאשר הם רוצים להקים סביבת נתונים חדשה לגמרי למישהו שיעבוד בה. הם רוצים לפרסם ולשווק זאת באופן פנימי כדי שאנשים יוכלו לנצל אותם. ואז הפיכת Alation לקצה הקדמי של אותה סביבה אנליטית חדשה מאוד מושכת. יש לו את התיעוד, יש לו נקודת מבוא יחידה ל - נקודת גישה יחידה למערכות, וכך זה מקום אחר שאנשים יבואו אלינו.

רובין בלור: אוקיי, אני אעביר אותך לרבקה כי הקהל מנסה להגיע אליך.

רבקה יוז'ויאק: כן, יש לנו כאן הרבה שאלות קהל ממש טובות. ודוד, זה הוצב לך במיוחד. זה מאדם שלכאורה יש לו ניסיון כלשהו עם אנשים שעושים שימוש לרעה בשאילתות, והוא סוג של אומר כי ככל שאנו מעצימים משתמשים, כך קשה יותר לשלוט באחריות על השימוש במשאבי מחשוב. אז אתה יכול להתגונן מפני התפשטות של ביטויים שאילתיים שגויים אך נפוצים?

דייוויד קרופורד: כן, אני רואה את השאלה הזו. זו שאלה נהדרת - שאלה שאנחנו מקבלים לעתים קרובות למדי. ראיתי את הכאב בעצמי בחברות קודמות, שם אתה צריך להכשיר משתמשים. לדוגמה, "זהו טבלת יומנים, יש יומנים שחזרו לאורך שנים. אם אתה הולך לכתוב שאילתה בטבלה זו, אתה באמת צריך להגביל לפי תאריך. "אז, למשל, זה הכשרה שעברתי בחברה קודמת לפני שניתנה לי גישה למאגר.

יש לנו כמה דרכים שאנו מנסים לטפל בזה. הייתי אומר שאני חושב שנתוני יומן השאילתה הם באמת בעלי ערך ייחודי כדי לטפל בהם. זה נותן תובנה נוספת לעומת מה שמסד הנתונים עושה באופן פנימי עם מתכנן השאילתות שלו. ומה שאנחנו עושים זה אחת מאותן התערבויות - יש לנו את ההתערבויות הידניות שהראיתי, וזה מועיל, נכון? אז למשל על הצטרפות מסוימת, אתה יכול לומר "בוא נגלה את זה." יהיה לו דגל אדום גדול כאשר הוא יופיע בהצעה חכמה. אז זו אחת הדרכים לנסות להגיע לאנשים.

דבר נוסף שאנחנו עושים הוא אוטומציה בהתערבויות בזמן ביצוע. זה אכן ישתמש בעץ הניתוח של השאילתה לפני שנפעיל אותה כדי לראות, האם זה כולל פילטר מסוים או כמה דברים אחרים שאנחנו עושים גם שם. אבל אחד הערכים והפשוטים ביותר להסביר הוא האם זה כולל פילטר? אז כמו הדוגמה הזו שרק הגעתי לה, טבלת יומני זו, אם אתה מתלבט בה, צריך להיות טווח תאריכים, תוכל לציין בדף הטבלה שם שאתה מחייב את המסנן של טווח התאריכים ליישום. אם מישהו ינסה להריץ שאילתה שאינה כוללת את המסנן הזה, היא למעשה תעצור אותם באזהרה גדולה, והיא תגיד, "בטח עליך להוסיף SQL שנראה כך לשאילתה שלך." הם יכולים להמשיך אם הם רוצים. אנו לא מתכוונים לאסור עליהם לחלוטין להשתמש בזה - זו גם שאילתה, עליה בסוף, להפעיל שאילתות. אבל אנחנו שמים מחסום די גדול לפנינו ואנחנו נותנים להם הצעה, הצעה קונקרטית להחלה כדי לשנות את השאילתה כדי לשפר את הביצועים שלהם.

אנו למעשה עושים זאת באופן אוטומטי במקרים מסוימים, שוב על ידי התבוננות ביומן השאילתה. אם אנו רואים שאחוז גדול באמת מהשאילתות בטבלה זו מנצלת פילטר מסוים או סעיף הצטרפות מסוים, אז בפועל נציג זאת. נקדם את זה להתערבות. למעשה, זה קרה לי במערך נתונים פנימי. יש לנו נתוני לקוחות ויש לנו מזהי משתמש, אך מזהה המשתמש מוגדר, מכיוון שזה סוג של - יש לנו מזהי משתמש בכל לקוח. זה לא ייחודי, ולכן עליכם להתאים אותו עם זיהוי לקוח על מנת לקבל מפתח הצטרפות ייחודי. וכתבתי שאילתה וניסיתי לנתח משהו וזה צץ ואמר, "היי, נראה שכל השאר מצטרפים לטבלאות האלה גם עם מזהה הלקוח וגם מזהה המשתמש. האם אתה בטוח שאתה לא רוצה לעשות את זה? "וזה בעצם מנע ממני לבצע ניתוח לא נכון. אז זה עובד גם לדיוק הניתוח וגם לביצועים. אז ככה אנחנו לוקחים את הבעיה הזו.

רבקה יוז'ויאק: זה נראה לי יעיל. אמרת שלא בהכרח תחסום אנשים מאיתור משאבים, אבל מעין ללמד אותם שמה שהם עושים אולי לא הכי טוב, נכון?

דיוויד קרופורד: אנו תמיד מניחים שהמשתמשים אינם זדוניים - תני להם את הכוונה הטובה ביותר - ואנחנו מנסים להיות די פתוחים בדרך זו.

רבקה יוז'ויאק: אוקיי. הנה שאלה נוספת: "מה ההבדל בין מנהל קטלוגים, כמו עם הפיתרון שלך, לבין כלי MDM? או שהוא בעצם מסתמך על מנהל אחר על ידי הרחבת הבחירה בטבלאות השאילתה, ואילו MDM היה עושה זאת באופן אוטומטי, אך עם אותו עיקרון בסיסי לאיסוף מטא נתונים. "

דייויד קרופורד: כן, אני חושב שכשאני מסתכל על פתרונות MDM מסורתיים, ההבדל העיקרי הוא פילוסופי. הכל קשור למי המשתמש. כמו שאמרתי בתחילת המצגת שלי, Alation, אני חושב שכאשר הקמנו, הוקמנו במטרה לאפשר לאנליסטים לייצר יותר תובנות, לייצר אותם מהר יותר, להיות מדויקים יותר בתובנות שהם ליצר. אני לא חושב שזו מעולם המטרה של פיתרון MDM מסורתי. פתרונות אלה נוטים להיות מכוונים לאנשים שצריכים להפיק דיווחים על נתונים שנלכדו ב- SCC או באופן פנימי למטרת ביקורת מסוג אחר. לפעמים זה יכול לאפשר אנליסטים, אך לעיתים קרובות יותר, אם זה עומד לאפשר למטפל בעבודתו, סביר יותר שהוא יאפשר לאדריכל נתונים כמו DBA.

כשאתה חושב על דברים מנקודת המבט של אנליסט, זה הרגע שאתה מתחיל לבנות כלי שאילתה שכלי MDM לעולם לא היה עושה. זה כשאתה מתחיל לחשוב על ביצועים כמו גם על דיוק, כמו גם להבין אילו נתונים קשורים לצורך העסקי שלי. כל הדברים האלה הם דברים שמופעלים בראשנו כשאנו מעצבים את הכלי. זה נכנס לאלגוריתמי החיפוש שלנו, הוא נכנס לפריסה של דפי הקטלוג ויכולת לתרום ידע מכל רחבי הארגון. זה נכנס לעובדה שבנינו את כלי השאילתה ובנינו את הקטלוג ישירות לתוכו, כך שלדעתי הוא באמת נובע מזה. איזה משתמש בראש ובראשונה?

רבקה יוז'ויאק: אוקיי, טוב. זה באמת עזר להסביר את זה. שגסס לתפוס את הארכיונים בגלל שנאלץ לעזוב, אבל הוא באמת רצה שהשאלה שלו תיענה. הוא אמר שהוזכר בהתחלה שיש מספר שפות, אך האם SQL היא השפה היחידה הממונפת בתוך רכיב ה- Compose?

דייוויד קרופורד: כן, זה נכון. ואחד הדברים ששמתי לב אליהם, כשעוד הייתי עד להתפוצצותם של סוגים שונים של מאגרי מידע, של מסדי נתונים של מסמכים, של מסדי נתונים של גרפים, של חנויות ערכי מפתח, הוא שהם באמת חזקים לפיתוחי יישומים. הם יכולים לשרת שם צרכים מסוימים ממש טוב, בדרכים טובות יותר ממה שמסדי נתונים יחסיים יכולים.

אבל כשאתה מחזיר אותו לניתוח נתונים, כשאתה מחזיר אותו אליו - כשאתה רוצה לספק מידע זה לאנשים שהולכים לעשות דיווחים אד הוק או לחפור אד-הוק בנתונים, שהם תמיד חוזרים למערכת יחסים, לפחות, ממשק לבני האדם. חלק מזה נובע רק מכיוון ש- SQL הוא הלשון פרנקה של ניתוח נתונים, כך שזה אומר שבני האדם זה גם לכלים שמשתלבים זה בזה. אני חושב שזו הסיבה ש- SQL ב- Hadoop כל כך פופולרי ויש כל כך הרבה ניסיונות לפתור אותה, זה בגלל שבסופו של יום, זה מה שאנשים יודעים. יש כנראה מיליוני אנשים שיודעים לכתוב SQL, והייתי מסתכן שלא מיליונים שיודעים לכתוב שאלת מסגרת צינור מצטבר מונגו. וזו שפה רגילה המשמשת לשילוב בין מגוון רחב מאוד של פלטפורמות. אז כל מה שנאמר, לעיתים רחוקות מאוד אנו מתבקשים לצאת ממנו כי זה הממשק שרוב האנליסטים משתמשים בו, וזה מקום בו התמקדנו, במיוחד ב- Compose, שהתמקדנו בכתיבת SQL.

הייתי אומר שמדעי המידע הם המקום בו הם מסתכנים ביותר מחוץ, וכך אנו מקבלים מדי פעם שאלות על השימוש בחזיר או ב- SAS. אלה דברים שאנחנו בהחלט לא מטפלים בהם ב- Compose, ואנחנו רוצים לצלם בקטלוג. ואני רואה גם את R ואת פייתון. יש לנו כמה דרכים שביצענו ממשקים שתוכלו להשתמש בשאילתות שנכתבו ב- Alation בתוך סקריפטים של R ו- Python, לכן, מכיוון שפעמים רבות כשאתה מדען נתונים ואתה עובד בשפת סקריפט, נתוני המקור נמצאים בבסיס נתונים יחסי. אתה מתחיל בשאילתת SQL ואז אתה מעבד אותה הלאה ויוצר גרפים בתוך R ו- Python. ויצרנו חבילות שתוכלו לייבא לסקריפטים שמושכים את השאילתות או את תוצאות השאילתה מ- Alation, כך שתוכלו למצוא שם זרימת עבודה מעורבת.

רבקה יוז'ויאק: אוקיי, נהדר. אני יודע שעברנו קצת מעבר לשעה, אני רק הולך לשאול שאלה אחת או שתיים נוספות. אני יודע שדיברת על כל המערכות השונות שאליהן אתה יכול להתחבר, אבל בכל הנוגע לנתונים שמתארחים חיצונית ונתונים שמתארחים באופן פנימי, האם ניתן לחפש ביחד את התצוגה היחידה שלך, לפלטפורמה האחת שלך?

דייויד קרופורד: בטח. יש כמה דרכים לעשות זאת. כלומר, מתארח באופן חיצוני, הייתי מדמיין, אני מנסה לחשוב מה בדיוק זה יכול להיות. זה יכול להיות מסד נתונים שמישהו מארח ב- AWS עבורך. זה יכול להיות מקור נתונים ציבורי מ- data.gov. אנו מתחברים ישירות למסדי נתונים על ידי כניסה ממש כמו יישום אחר, עם חשבון בסיסי נתונים, וככה אנו מחלצים את המטא נתונים. אז אם יש לנו חשבון ויש לנו יציאת רשת פתוחה, נוכל להגיע אליו. ואז כשאין לנו את הדברים האלה, יש לנו משהו שנקרא מקור נתונים וירטואלי, שמאפשר לך לדחוף תיעוד, בין אם אוטומטית, על ידי כתיבת מחבר משלך, או על ידי מילויו על ידי ביצוע אפילו כמו העלאת CSV, לתעד את הנתונים לצד הנתונים הפנימיים שלך. זה נכנס למנוע החיפוש. זה הופך להיות ניתן להפנות פנימה של מאמרים ותיעוד ושיחות אחרים בתוך המערכת. אז ככה אנו מטפלים כאשר איננו יכולים להתחבר ישירות למערכת.

רבקה יוז'ויאק: אוקיי, זה הגיוני. אני פשוט אפתח לך שאלה אחת נוספת. משתתף אחד הוא לשאול, "כיצד יש לאמת, לאמת או לשמור על תוכן קטלוג הנתונים, כאשר עדכון נתוני המקור הוא כשינוי נתוני המקור וכו '."

דיוויד קרופורד: כן, זו שאלה שאנחנו מקבלים הרבה, ואני חושב שאחד הדברים שאנחנו - אחת מהפילוסופיות שלנו, כמו שאמרתי, אנחנו לא מאמינים שהמשתמשים זדוניים. אנו מניחים שהם מנסים לתרום את הידע הטוב ביותר. הם לא מתכוונים להיכנס ולהטעות אנשים במכוון בנתונים. אם זו בעיה בארגון שלך, אולי Alation הוא לא הכלי המתאים לך. אבל אם אתה מניח כוונות טובות מצד המשתמשים, אם כן, אנו חושבים על זה כמשהו היכן, העדכונים נכנסים, ואז בדרך כלל מה שאנחנו עושים זה להפקיד דייל האחראי על כל אובייקט נתונים או כל חלק בנתונים. And we can notify those stewards when changes to the metadata are made and they can handle it in that way. They see updates come in, they validate them. If they're not right, they can go back and modify them and inform, and hopefully even reach out to the user who contributed the information and help them learn.

So that's the primary way we think about doing it. This sort of suggestion by the crowd and management by the stewards, so we have some capabilities around that.

Rebecca Jozwiak: Okay, good. And if you could just let the folks know how they can best get started with Alation, and where can they go specifically to get more info. I know you shared that one bit.ly. Is that the best place?

David Crawford: Alation.com/learnmore I think is a great way to go. To go sign up for a demo the Alation.com site has a lot of great resources, customer white papers, and news about our solution. So I think that's a great place to start. You can also email .

Rebecca Jozwiak: Okay, great. And I know, attendees, sorry if I didn't get to all of the questions today, but if not, they will be forwarded to David or his sales team or somebody at Alation, so they can definitely help answer your questions and help understand what Alation does or what they do best.

And with that, folks, I'll go ahead and sign us off. You can always find the archives at InsideAnalysis.com. You can also find it at Techopedia.com. They tend to update a little bit quicker, so definitely check that out. And thanks so much to David Crawford, Dez Blanchfield and Robin Boor today. It's been a great webcast. And with that, I'll bid you farewell. Thanks, folks. Bye bye.

David Crawford: Thank you.

כוח ההצעה: כיצד קטלוג נתונים מעצים אנליסטים