בית It-Business נתונים, גדולים כקטנים: איפה הערך האמיתי?

נתונים, גדולים כקטנים: איפה הערך האמיתי?

תוכן עניינים:

Anonim

נתונים גדולים היא מילת שמיכה המשמשת להתייחסות לטיפול בכמויות גדולות של נתונים. כולנו מבינים שככל שנפח הנתונים גדול יותר, כך הוא מורכב יותר. פתרונות מסד נתונים מסורתיים לרוב אינם מצליחים לנהל כמויות גדולות של נתונים כראוי בגלל מורכבותם וגודלם. לכן ניהול כמויות גדולות של נתונים וחילוץ תובנות אמיתיות זו משימה מאתגרת. אותו מושג "ערך" חל גם על נתונים קטנים.

כיצד משתמשים בביג דאטה

פתרונות מסד נתונים קונבנציונליים המבוססים על תפיסת RDBMS יכולים לנהל טוב מאוד את הנתונים העסקיים ומשתמשים בהם ביישומים שונים. אך כשמדובר בטיפול במערך גדול של נתונים (נתונים המאוחסנים בארכיון ונמצאים בטרה-בתים או פט-בייטים), פתרונות בסיסי נתונים אלה לרוב נכשלים. מערכי נתונים אלה גדולים מדי ורוב הזמן, הם אינם משתלבים בארכיטקטורה של מסדי נתונים מסורתיים. בימינו, נתונים גדולים הפכו לגישה חסכונית לטיפול בקבוצות נתונים גדולות יותר. מבחינה ארגונית ניתן לחלק את השימוש בנתונים גדולים לקטגוריות הבאות, בהן הערך האמיתי של נתונים גדולים נמצא:

  • שימוש אנליטי

    אנליסטים של נתונים גדולים חשפו היבטים נסתרים חשובים רבים של נתונים יקרים מדי לעיבוד. לדוגמה, אם עלינו לבדוק את העניין המגמה של התלמידים בנושא חדש מסוים, אנו יכולים לעשות זאת על ידי ניתוח רישומי הנוכחות היומיומיים ובעובדות חברתיות וגאוגרפיות אחרות. עובדות אלה נלכדות במאגר. אם איננו יכולים לגשת לנתונים אלה בצורה יעילה, איננו יכולים לראות את התוצאות.

  • אפשר מוצרים חדשים

    בעבר האחרון, הרבה חברות רשת חדשות, כמו פייסבוק, החלו להשתמש בנתונים גדולים כפתרון להשקת מוצרים חדשים. כולנו יודעים כמה פייסבוק פופולרית - היא הכינה בהצלחה חווית משתמש בעלת ביצועים גבוהים באמצעות נתונים גדולים.

איפה הערך האמיתי?

פתרונות נתונים גדולים אחרים נבדלים זה מזה בגישה בה הם מאחסנים נתונים, אך בסופו של דבר כולם מאחסנים נתונים במבנה קבצים שטוח. באופן כללי Hadoop מורכבת ממערכת הקבצים וכמה הפשטות נתונים ברמת מערכת ההפעלה. זה כולל מנוע MapReduce ומערכת הקבצים המופצת Hadoop (HDFS). אשכול Hadoop פשוט כולל צומת אב אחת ומספר צמתים לעובדים. צומת האב מורכב מהבאים:

  • מעקב אחר המשימות
  • מעקב אחר תפקידים
  • שם צומת
  • צומת נתונים
צומת העובדים מורכבת מהבאים:
  • מעקב אחר המשימות
  • צומת נתונים

ליישומים מסוימים יש רק את צומת הנתונים. צומת הנתונים הוא האזור בו נמצאים הנתונים בפועל. HDFS מאחסנת קבצים גדולים (בטווח של טרה-בתים לפט-בייט) המופצים על פני מספר מכונות. אמינות הנתונים בכל צומת מושגת על ידי שכפול הנתונים בכל המארחים. לפיכך, הנתונים זמינים גם כאשר אחד הצמתים מושבת. זה עוזר להשגת תגובה מהירה יותר נגד שאילתות. מושג זה שימושי מאוד במקרה של אפליקציות ענק כמו פייסבוק. כמשתמש, אנו מקבלים מענה לבקשת הצ'אט שלנו, למשל כמעט מייד. שקול תרחיש בו משתמש צריך לחכות זמן רב בזמן צ'אט. אם ההודעה והתגובה שלאחר מכן לא נמסרו באופן מיידי, כמה אנשים באמת ישתמשו בכלי הצ'אט האלה?

בחזרה ליישום פייסבוק, אם הנתונים לא ישוכפלו ברחבי האשכולות, לא ניתן יהיה לבצע יישום מושך. Hadoop מפיצה את הנתונים על פני מכונות באשכול גדול יותר, ומאחסנת קבצים כרצף של חסימות. חסימות אלה בגודל זהה למעט החסימה האחרונה. ניתן להתאים את גודל החסימה ואת גורם ההעתקה לפי הצורך. קבצים ב- HDFS עוקבים בקפידה אחר גישת הכתיבה פעם אחת ולכן ניתן לכתוב או לערוך אותם רק על ידי משתמש אחד בכל פעם. ההחלטות לגבי שכפול של חסימות מתקבלות לפי צומת השם. צומת השם מקבלת דוחות ותגובות דופק מכל אחד מצמתי הנתונים. תגובות הדופק מבטיחות את הזמינות של צומת הנתונים המתאים. הדוח מכיל את פרטי החסימות בצומת הנתונים.


יישום נתונים גדול נוסף, קסנדרה, משתמש גם במושג הפצה דומה. קסנדרה מפיצה נתונים על סמך מיקום גיאוגרפי. מכאן שבקסנדרה הנתונים מופרדים על סמך המיקום הגאוגרפי של השימוש בנתונים.

לפעמים נתונים קטנים גורמים להשפעה גדולה יותר (ופחות יקרה)

לפי רופוס פולוק של קרן הידע הפתוח, אין טעם ליצור הייפ סביב נתונים גדולים בעוד נתונים קטנים הם עדיין המקום בו הערך האמיתי טמון.


כפי שהשם מרמז, נתונים קטנים הם מערך נתונים הממוקד מערך נתונים גדול יותר. נתונים קטנים מתכוונים להעביר את המיקוד משימוש בנתונים והוא גם שואף להתמודד עם מגמת המעבר לכיוון נתונים גדולים. גישת הנתונים הקטנה מסייעת באיסוף נתונים על בסיס דרישות ספציפיות תוך פחות מאמץ. כתוצאה מכך, זה הנוהג העסקי היעיל יותר תוך יישום הבינה העסקית.


בבסיסו מושג הנתונים הקטנים נסוב על עסקים הדורשים תוצאות המחייבות פעולות נוספות. יש להביא תוצאות אלה במהירות ויש לבצע את הפעולה שלאחר מכן במהירות. כך אנו יכולים לחסל את סוגי המערכות הנפוצות בניתוח נתונים גדולים.


באופן כללי, אם ניקח בחשבון חלק מהמערכות הספציפיות הנדרשות לרכישת נתונים גדולים, חברה עשויה להשקיע בהקמת אחסון שרתים רב, להשתמש בשרתים מתקדמים מתקדמים וביישומי כריית הנתונים האחרונים כדי להתמודד עם פיסות נתונים שונות. כולל תאריכים ושעות של פעולות משתמש, מידע דמוגרפי ומידע אחר. מערך הנתונים הזה כולו עובר למחסן נתונים מרכזי, בו משתמשים באלגוריתמים מורכבים כדי למיין ולעבד את הנתונים להצגה בצורה של דוחות מפורטים.


כולנו יודעים שהפתרונות הללו היטיבו עם עסקים רבים מבחינת מדרגיות וזמינות; ישנם ארגונים המגלים כי אימוץ גישות אלה דורש מאמץ משמעותי. נכון גם שבמקרים מסוימים, תוצאות דומות מושגות באמצעות אסטרטגיית כריית נתונים פחות חזקה.


נתונים קטנים מספקים דרך לארגונים לסגת מאובססיה לטכנולוגיות החדישות והחדשות ביותר התומכים בתהליכים עסקיים מתוחכמים יותר. חברות המקדמות נתונים קטנים טוענות כי חשוב מבחינה עסקית להשתמש במשאבים שלהן בצורה יעילה, כך שניתן להימנע מהוצאות רבות על טכנולוגיה במידה מסוימת.


דיברנו רבות על נתונים גדולים ומציאת נתונים קטנים, אך עלינו להבין שבחירת הפלטפורמה הנכונה (נתונים גדולים או נתונים קטנים) לשימוש הנכון היא החלק החשוב ביותר בתרגיל כולו. והאמת היא שבעוד נתונים גדולים יכולים לספק יתרונות רבים, הם לא תמיד הכי טובים.

נתונים, גדולים כקטנים: איפה הערך האמיתי?