ש:
מדוע בחירת תכונות חשובה כל כך בלימוד מכונות?
ת:בחירת התכונות חשובה ביותר בלמידה של מכונות, בעיקר משום שהיא משמשת כטכניקה בסיסית להפניית השימוש במשתנים למה היעיל והיעיל ביותר עבור מערכת לימוד מכונה נתונה.
מומחים מדברים על איך בחירת תכונות וחילוץ תכונות פועלות למזעור קללת הממדים או עזרה בהתמודדות עם התאמה יתר - אלה דרכים שונות להתייחס לרעיון של דוגמנות מורכבת מדי.
הורדה חינם: למידת מכונה ולמה זה חשוב |
דרך נוספת לומר זאת היא שבחירת התכונות עוזרת לתת למפתחים את הכלים להשתמש רק בנתונים הרלוונטיים והשימושיים ביותר בקבוצות הדרכה ללמידה של מכונות, מה שמפחית באופן דרמטי את העלויות ואת נפח הנתונים.
דוגמא אחת היא הרעיון של מדידת צורה מורכבת בסדר גודל. ככל שהתכנית מתרחשת, היא מזהה מספר גדול יותר של נקודות נתונים והמערכת הופכת מורכבת בהרבה. אך צורה מורכבת אינה מערך הנתונים האופייני שמערכת למידת מכונה משתמשת בה. מערכות אלה עשויות להשתמש במערכות נתונים שיש בהן שונות מאוד ברמות השונות בין משתנים שונים. לדוגמה, בסיווג מינים, מהנדסים יכולים להשתמש בבחירת תכונות רק כדי ללמוד את המשתנים שיעניקו להם את התוצאות הממוקדות ביותר. אם לכל בעל חיים בתרשים יש את אותו המספר של עיניים או רגליים, יתכן כי הנתונים יוסרו, או שתמצוי נקודות נתונים רלוונטיות אחרות.
בחירת התכונות היא התהליך המפלה שבאמצעותו מכוונים מהנדסים מערכות למידת מכונה לעבר היעד. בנוסף לרעיון הסרת המורכבות ממערכות בסדר גודל, בחירת תכונות יכולה גם להיות שימושית במיטוב ההיבטים של מה שמומחים מכנים "חילופי הטיה" בלימוד מכונות.
הסיבות לכך שבחירת התכונות מסייעת בניתוח הטיה וניתוח שונות הן מסובכות יותר. מחקר מאוניברסיטת קורנל על בחירת תכונות, שונות בהטיה ושקיות משמשים להמחשה כיצד בחירת התכונות מסייעת לפרויקטים.
לדברי המחברים, העיתון "בוחן את המנגנון שבאמצעותו בחירת התכונות משפרת את הדיוק של הלמידה בפיקוח."
המחקר קובע עוד כי:
ניתוח הטיה / שונות בין אמפירי ככל שמתקדמת בבחירת התכונות מצביע על כך שערכת התכונות המדויקת ביותר תואמת את נקודת ההחלפה הטובה ביותר של הטיה בין שונות לאלגוריתם הלמידה.
בדיון בשימוש ברלוונטיות חזקה או חלשה, הכותבים מדברים על בחירת תכונות כ"שיטת הפחתת שונות "- זה הגיוני כשחושבים על שונות ככמות הווריאציה במשתנה נתון. אם אין שונות, נקודת הנתונים או המערך עשויים להיות חסרי תועלת. אם יש שונות גבוהה במיוחד, זה עשוי להתפשט למה שהמהנדסים עשויים לחשוב עליהם כ"רעש "או תוצאות שרירותיות לא רלוונטיות שקשה למערכת למידת המכונה לנהל.
לאור זאת, בחירת התכונות היא חלק מהותי מהעיצוב בלימוד מכונות.