בית שמע מדוע התיקים בלימוד מכונות מצמצמים את השונות?

מדוע התיקים בלימוד מכונות מצמצמים את השונות?

Anonim

ש:

מדוע התיקים בלימוד מכונות מצמצמים את השונות?

ת:

צבירת Bootstrap או "bagging" בלימוד מכונות מצמצמת את השונות באמצעות בניית מודלים מתקדמים יותר של מערכי נתונים מורכבים. באופן ספציפי, גישת ההשקעה יוצרת קבוצות משנה שלעתים קרובות חופפות כדי לדגמן את הנתונים בצורה מעורבת יותר.

אחת התפיסות המעניינות והישירות כיצד ליישם שקיות היא לקחת קבוצה של דוגמאות אקראיות ולחלץ את הממוצע הפשוט. ואז, באמצעות אותה קבוצת דגימות, צור עשרות קבוצות משנה שנבנו כעצי החלטה כדי לתפעל את התוצאות הסופיות. הממוצע השני אמור להציג תמונה אמיתית יותר של האופן שבו מדגמים בודדים אלה קשורים זה לזה מבחינת הערך. ניתן ליישם את אותו רעיון על כל מאפיין של כל קבוצה של נקודות נתונים.

הורדה חינם: למידת מכונה ולמה זה חשוב

מכיוון שגישה זו מאגדת את הגילוי לגבולות מוגדרים יותר, היא מורידה את השונות ועוזרת להתאים יתר. חשוב על מגרש עם נקודות נתונים מבוזרות במקצת; באמצעות שיטת שקית, המהנדסים "מכווצים" את המורכבות ומכוונים את קווי הגילוי לפרמטרים חלקים יותר.

יש המדברים על הערך של שקית "לחלק ולכבוש" או סוג של "היוריסטיקה מסייעת". הרעיון הוא שבאמצעות דוגמנות אנסמבל, כמו שימוש ביערות אקראיים, משתמשים המשתמשים בתיקיות כטכניקה יכולים להשיג תוצאות נתונים הנמוכות יותר מהשונות. מבחינת הפחתת המורכבות, תיקים יכולים גם לעזור עם התאמה יתר. חשבו על מודל עם יותר מדי נקודות נתונים: נניח, נקודה להתחבר עם 100 נקודות שלא הוקמו. קו הנתונים הוויזואלי שנוצר יהיה משונן, דינמי, תנודתי. ואז "מגהצים" את השונות על ידי הצבת קבוצות של הערכות. בלימוד אנסמבל לרוב זה נחשב כמצטרף לכמה "לומדים חלשים" כדי לספק תוצאה שיתופית "למידה חזקה". התוצאה היא קו נתונים חלק יותר, מתאר יותר ופחות פרוע במודל.

קל לראות כיצד ניתן ליישם את רעיון התיקים על מערכות IT ארגוניות. מנהיגים עסקיים רוצים לרוב "מבט ממעוף הציפור" על הנעשה עם מוצרים, לקוחות וכו '. מודל מוגזם יכול להחזיר נתונים פחות מעכלים, ויותר תוצאות "מפוזרות", בהן שקית יכול "להפיל" מודל ולהפוך אותו לשימושי יותר. למשתמשי קצה.

מדוע התיקים בלימוד מכונות מצמצמים את השונות?