בית שמע כיצד גרוטאות נתונים ללימוד מכונה הפכו לצוואר הבקבוק עתירי העבודה מאז הזנת נתונים ידנית בהגירה מדור קודם?

כיצד גרוטאות נתונים ללימוד מכונה הפכו לצוואר הבקבוק עתירי העבודה מאז הזנת נתונים ידנית בהגירה מדור קודם?

Anonim

ש:

כיצד גרוטאות נתונים ללימוד מכונה הפכו לצוואר הבקבוק עתירי העבודה מאז הזנת נתונים ידנית בהגירה מדור קודם?

ת:

אחת הבעיות המעשיות שחברות עלולות להיתקל בהן בעת ​​ניסיון להתחיל פרויקט למידת מכונה (ML) הוא האתגר לרכוש את מערכי נתוני ההדרכה הראשוניים. זה עשוי לכלול תהליכים עתירי עבודה כמו גרידת רשת או גרידת נתונים אחרים.

המונחים גירוד באינטרנט וגלידת נתונים מתייחסים במידה רבה לפעילות אוטומטית על ידי תוכנת מחשב, אך עבור פרויקטים רבים של ML, ישנם מקרים שבהם למחשבים אין תחכום לאסוף את הנתונים הממוקדים הנכונים, כך שיהיה צורך לעשות זאת. "ביד." אתה יכול לקרוא לזה "גרידת רשת / נתונים אנושית", וזו עבודה אסירת תודה. בדרך כלל זה כרוך ביציאה לחיפוש נתונים או תמונות כדי "להאכיל" את תוכנית ה- ML באמצעות מערכי אימונים. לעיתים קרובות זה איטרטיבי, מה שהופך אותה לעבודה מייגעת, איטית ותובענית.

הורדה חינם: למידת מכונה ולמה זה חשוב

גרוטאות נתונים עבור קבוצות אימונים של ML מייצגות צוואר בקבוק בעייתי באופן ייחודי בלימוד מכונות, בין היתר מכיוון שחלק גדול מהעבודה האחרת הוא רעיוני ביותר ולא חוזר על עצמו. אנשים רבים יכולים למצוא רעיון נהדר לאפליקציה חדשה המבצעת משימות למידת מכונה, אך האומים והברגים והעבודה המעשית יכולים להיות קשים בהרבה. בפרט, האצלת עבודת הרכבת מערכות ההדרכה יכולה למעשה להיות אחד החלקים הקשים ביותר של פרויקט ML, כפי שנחקור במלואו בתוכנית הטלוויזיה "עמק הסיליקון" של מייק ג'וד. בפרק של עונה ארבע, יזם סטארט-אפ מוציא תחילה את השותף לעבודה בעבודה עתירת עבודה, ואז מנסה להעביר אותה לסטודנטים במכללות על ידי הסוואתה כמשימת שיעורי בית.

דוגמה זו מאלפת מכיוון שהיא מראה עד כמה גרד הנתונים הידני לא אהב ולכאורה לא חשוב. עם זאת, הוא מראה גם שתהליך זה נחוץ למגוון רחב של מוצרים ללימוד מכונות. למרות שרוב האנשים שונאים הזנת נתונים, יש להרכיב את מערכי האימונים בדרך כלשהי. מומחים לתהליך ממליצים לעיתים קרובות להשתמש בשירות גרוטאות באינטרנט - למעשה רק למיקור חוץ למיקור חוץ של עבודה עתירת עבודה זו לגורמים חיצוניים, אך הדבר עלול לגרום להשלכות אבטחה ולגרום לבעיות אחרות. כשאתה שומר על עבודות איסוף הנתונים הידני באופן פנים-משמעי, יש להתקיים מה שלעתים הוא תהליך מאוד ידני וצורך זמן רב.

במובנים מסוימים, "גירוד נתונים אנושיים" ללימוד מכונה נראה כמו הזנת הנתונים הידנית שלעתים הייתה צריכה להיעשות בהעברה מדור קודם. ככל שהענן הפך פופולרי יותר ויותר, וחברות הכניסו את התהליכים והזרימות שלהם לענן, חלקם מצאו כי הם לא עבדו דרך ההיבטים המעשיים של איך להשיג את הנתונים הארגוניים שלהם ממערכת מורשת מבודדת ליישומים מקוריים בענן. כתוצאה מכך, אנשים שאחרת היו מדעני נתונים או אנשים יצירתיים בעלי כישורי IT חיוניים מצאו עצמם מבצעים משימות לא נעימות של הזנת נתונים.

הדבר עשוי לקרות ככל הנראה עם למידת מכונה. אתה יכול לשמוע מדען נתונים שמתלונן ש"אני אדם יצירתי "או" אני בצד ההתפתחות "- אבל מישהו צריך לעשות את העבודה המלוכלכת.

שוב, אם הזרימה הקריאטיבית לא תואמת הערכה מעשית של האצלת זרימת עבודה, תהיה אי התאמה בין אופן הטיפול של המשימות. כאשר לחברה אין אנשים שיעשו את עבודת גרידת הנתונים באיסוף מערכי נתונים, היא חסרה חלק מרכזי בשרשרת ההליך לפרויקט מצליח. כדאי לזכור זאת בכל פעם שחברה מנסה לעשות טוב עם רעיון שמבוסס סביב פיתוח יישומים חדשים למידת מכונות.

כיצד גרוטאות נתונים ללימוד מכונה הפכו לצוואר הבקבוק עתירי העבודה מאז הזנת נתונים ידנית בהגירה מדור קודם?