ש:
מדוע לרוב קשה לאמן רשתות עצביות חוזרות ומלאכותיות?
ת:הקושי באימון רשתות עצביות חוזרות ומלאכותיות קשור למורכבותן.
אחת הדרכים הפשוטות ביותר להסביר מדוע קשה לאמן רשתות עצביות חוזרות היא שהיא איננה רשתות עצביות קדימה.
ברשתות עצביות קדימה, האותות נעים רק לכיוון אחד. האות עובר משכבת קלט לשכבות נסתרות שונות, וקדימה, לשכבת הפלט של מערכת.
לעומת זאת, לרשתות עצביות חוזרות וסוגים אחרים של רשתות עצביות יש תנועות איתות מורכבות יותר. המסווג כרשתות "משוב", רשתות עצביות חוזרות יכולות להיות בעלות אותות הנעה קדימה ואחורה, ועשויים להכיל "לולאות" שונות ברשת בהן המספרים או הערכים מועברים לרשת. מומחים מקשרים זאת להיבט של רשתות עצביות חוזרות שקשורות לזיכרון שלהן.
בנוסף, קיים סוג נוסף של מורכבות המשפיע על רשתות עצביות חוזרות. דוגמא אחת מצוינת לכך היא בתחום עיבוד השפה הטבעית.
בעיבוד שפה טבעית מתוחכמת, הרשת העצבית צריכה להיות מסוגלת לזכור דברים. זה צריך לקחת תשומות גם בהקשר. נניח שיש תוכנית שרוצה לנתח או לחזות מילה בתוך משפט של מילים אחרות. יתכן, למשל, אורך קבוע של חמש מילים להערכת המערכת. פירוש הדבר שלרשת העצבית חייבים להיות תשומות לכל אחת מהמילים הללו, יחד עם היכולת "לזכור" או להתאמן על הקשר של מילים אלה. מסיבות אחרות וסיבות דומות אחרות, לרשתות עצביות חוזרות בדרך כלל יש לולאות ופידבק מעט נסתרים אלה במערכת.
מומחים מקוננים כי הסיבוכים הללו מקשים על הכשרת הרשתות. אחת הדרכים הנפוצות ביותר להסביר זאת היא על ידי ציטוט של בעיית הדרגתיות המתפוצצת ונעלמת. בעיקרו של דבר, משקולות הרשת יובילו לערכים מתפוצצים או נעלמים עם מספר גדול של מעברים.
חלוץ הרשת העצבית ג'וף הינטון מסביר תופעה זו ברשת באומרו שמעברים לינאריים לאחור יגרמו למשקלים קטנים יותר להתכווץ באופן אקספוננציאלי ומשקולות גדולות יותר להתפוצץ.
הבעיה הזו, הוא ממשיך, מחמירה עם רצפים ארוכים וצעדים רבים יותר ויותר, בהם האותות צומחים או מתפרקים. אתחול המשקל עשוי לעזור, אך אתגרים אלה מובנים במודל הרשת העצבים החוזר על עצמו. תמיד הנושא הזה יהיה קשור לעיצוב ולבנייה הספציפיים שלהם. בעיקרו של דבר, כמה מהסוגים המורכבים יותר של רשתות עצביות באמת מתריסים ביכולת שלנו לנהל אותם בקלות. אנו יכולים ליצור כמות אינסופית של מורכבות, אך לעיתים קרובות אנו רואים אתגרי החיזוי והדרגיות צומחים.