בית שמע האם אי פעם יש יותר מדי נתונים בביג נתונים?

האם אי פעם יש יותר מדי נתונים בביג נתונים?

Anonim

ש:

האם אי פעם יש יותר מדי נתונים בביג נתונים?

ת:

התשובה לשאלה היא כן מהדהד. בהחלט יכולים להיות יותר מדי נתונים בפרויקט נתונים גדולים.

ישנן מספר דרכים בהן הדבר יכול לקרות, וסיבות שונות לכך שאנשי מקצוע צריכים להגביל ולאצור נתונים בכל מספר דרכים כדי להגיע לתוצאות הנכונות. (קרא 10 מיתוסים גדולים על ביג דאטה.)

באופן כללי, מומחים מדברים על הבחנה בין ה"אות "ל"רעש" במודל. במילים אחרות, בים של נתונים גדולים, נתוני התובנה הרלוונטיים נעשים קשים למיקוד. במקרים מסוימים אתה מחפש מחט בערימת שחת.

לדוגמה, נניח שחברה מנסה להשתמש בנתונים גדולים כדי לייצר תובנות ספציפיות על קטע של בסיס לקוחות, ואת הרכישות שלהם לאורך זמן מסוים. (קרא מה עושים נתונים גדולים?)

נטילת כמות עצומה של נכסי נתונים עשויה להביא לכניסת נתונים אקראיים שאינם רלוונטיים, או שהיא עשויה אף לייצר הטיה שמטעה את הנתונים לכיוון זה או אחר.

זה גם מאט את התהליך באופן דרמטי, מכיוון שמערכות מחשוב צריכות להתמודד עם מערכי נתונים גדולים יותר וגדולים יותר.

בכל כך הרבה סוגים שונים של פרויקטים, חשוב מאוד שמהנדסי נתונים יאצרו את הנתונים למערכות נתונים מוגבלות וספציפיות - במקרה שלמעלה, זה יהיה רק ​​הנתונים עבור אותו פלח לקוחות שנלמד, רק הנתונים לתקופה ההיא. מסגרת הנלמדת, וגישה שמשדלת מזהים נוספים או מידע רקע שיכול לבלבל דברים או להאט מערכות. (תפקיד ReadJob: מהנדס נתונים.)

לקבלת מידע נוסף, בואו נראה איך זה עובד בגבול למידת מכונות. (קראו למידת מכונה 101.)

מומחי למידת מכונה מדברים על משהו שנקרא "התאמה יתר" בו מודל מורכב מדי מוביל לתוצאות פחות אפקטיביות כאשר תוכנית הלמידה של המכונה משוחררת מנתוני ייצור חדשים.

התאמת יתר מתרחשת כאשר קבוצה מורכבת של נקודות נתונים תואמת מערך אימונים ראשוני מדי, ואינה מאפשרת לתוכנית להסתגל בקלות לנתונים חדשים.

כעת מבחינה טכנית, התאמה יתר נגרמת לא בגלל קיומם של יותר מדי דגימות נתונים, אלא כתוצאה מהכתרת נקודות נתונים רבות מדי. אבל אתה יכול לטעון כי גם מידע רב יכול להיות גורם תורם לבעיה מסוג זה. התמודדות עם קללת המימד כוללת כמה מאותן טכניקות שנעשו בפרויקטים גדולים של נתונים גדולים, מאחר שאנשי מקצוע ניסו להצביע על מה שהם מאכילים מערכות IT.

בשורה התחתונה, נתונים גדולים יכולים להועיל מאוד לחברות, או שזה יכול להפוך לאתגר גדול. היבט אחד זה הוא האם לחברה יש את הנתונים המתאימים. מומחים יודעים שלא רצוי פשוט לזרוק את כל נכסי הנתונים לתוך הופר ולהגיע עם תובנות בצורה כזו - במערכות נתונים חדשות-מקוריות ומתוחכמות בענן, יש מאמץ לשלוט ולנהל ואצור נתונים כדי להיות מדויקים יותר שימוש יעיל בנכסי נתונים.

האם אי פעם יש יותר מדי נתונים בביג נתונים?