ש:
מדוע הטיה של מכונה מהווה בעיה בלימוד מכונות?
ת:ניתן לענות על שאלה זו בשתי דרכים שונות. ראשית, מדוע הבעיה בהטיה מכונה, כמו למשל מדוע היא קיימת בתהליכי למידת מכונה?
למידת מכונות, אם כי מתוחכמת ומורכבת, מוגבלת במידה מסוימת על בסיס מערכי הנתונים שבהם היא משתמשת. בניית מערכי הנתונים כרוכה בהטיה מובנית. ממש כמו בתקשורת, שם השמטות ובחירות הכללה מכוונות עשויות להראות הטיה מסוימת, גם בלימוד מכונה, יש לבחון את מערכי הנתונים המשמשים כדי לקבוע איזה סוג של הטיה קיימת.
הורדה חינם: למידת מכונה ולמה זה חשוב |
לדוגמה, זוהי בעיה נפוצה של בדיקות טכנולוגיות ותהליכי תכנון להראות העדפה של סוג משתמש אחד על פני סוג אחר. דוגמא אחת גדולה היא הפער המגדרי בעולם הטק.
מדוע זה משנה, ומדוע זה חל על למידת מכונה?
מכיוון שהיעדר נקבות קיימות בסביבת בדיקה יכול להוביל לטכנולוגיה מיוצרת שפחות ידידותית למשתמש לקהל נשי. האופן שבו מומחים מסוימים מתארים זאת הוא שבלי בדיקות נשית קיימות, ייתכן שמוצר הסיום אינו מזהה את תשומת ליבן של נשים נשיות - יתכן ואין לו כלים להכיר בזהות נשית או להתמודד כראוי עם תשומות מצד נשים.
כך גם לגבי עדות שונות, אנשים מדתות שונות או כל סוג אחר של דמוגרפיה. ללא הנתונים הנכונים, אלגוריתמי הלמידה של המכונה לא יעבדו כראוי עבור מערך משתמשים נתון, כך שיש להוסיף במכוון נתונים של הכללה לטכנולוגיה. במקום פשוט לקחת מערכי נתונים ראשוניים ולחזק את ההטיה הגלומה, המטפלים בבני אדם צריכים באמת לבדוק את הנושא.
דוגמא נוספת היא מנוע ללימוד מכונות שלוקח מידע על משרות ושכר ומפזר תוצאות. אם מערך הנתונים הגלום לא ינותח, המכונה תחזק את ההטיה. אם הוא תופס שגברים מחזיקים ברוב המוחלט של משרות מנהלים, ותהליך למידת המכונה כרוך בסינון דרך מערך הנתונים הגולמי והחזרת תוצאות מתאימות, הוא יביא לתוצאות שמראות הטיה גברית.
החלק השני של השאלה כרוך מדוע ההטיה הזו כה מזיקה. ללא פיקוח ובדיקה נאותים, טכנולוגיות חדשות יכולות לפגוע בתחושת ההכללה והשוויון שלנו, לא עוזרות. אם מתגלגל מוצר טק חדש שמזהה פנים עם עור בהיר יותר, אך לא כהות עור, זה יכול להוביל למתיחות אתניות הולכות וגוברות ולתחושה שהחברה המדוברת אינה רגישה לגיוון. אם אלגוריתם ללימוד מכונות משכפל ומגביר את ההטיה במערכות הנתונים, אותה בינה מלאכותית הולכת להוסיף את קולה לקולות האנושיים ולנטיות אנושיות שכבר קיימות במערכת החברתית, המעדיפות קבוצה אחת של אנשים על פני אחרת.
הדרך הטובה ביותר להתמודד עם זה היא לבחון מקרוב את מערכי הנתונים הבסיסיים, להשתמש בבחירת תכונות, להוסיף קלט משתנה ולתפעל את מערכי הנתונים הגולמיים עצמם ולהגדיל את הכוח האמיתי של למידת מכונה בעזרת יצירה אנושית מכוונת של נתונים, כדי להשיג תוצאה שמספקת כוח אנליטי רב, אך גם חלק מאותן תובנות אנושיות שהמחשבים עדיין לא יכולים לשכפל.