ש:
מה ההבדל בין דיבור לטקסט וצ'אט בוטים?
ת:ההבדלים המשמעותיים הרבים בין טכנולוגיות דיבור לטקסט וצ'אט בוטים הם חלק ממה שנבדק בהתפתחות המהירה של פרויקטים צ'אט בוט וקולי קולות.
טכנולוגיית דיבור לטקסט היא פשוט אחת שממירה דיבור מילולי לטקסט בדף דיגיטלי. זו התפקיד המלא שלה, אבל זה לא אחד שפשוט לעצב. כדי להמיר דיבור מילולי לטקסט, הטכנולוגיה צריכה לפרק מילים ומשפטים לפונמות בודדות ולעבוד איתם על פי אלגוריתמים מורכבים כדי ליצור טקסט מדויק ומייצג את מה שהדובר אמר.
לעומת זאת, צ'אט בוטים הם טכנולוגיות שמשיגות את המטרה של תקשורת עם אדם. ישנם שני סוגים של צ'אט בוטים: טקסט צ'אט בוטים וקולי קולי. טקסט צ'אט בוטים קיים הרבה יותר זמן, מכיוון שהם אינם זקוקים לאלמנט הדיבור לטקסט בו משתמשים קולות קולי.
ההבדל העיקרי בין טכנולוגיות דיבור לטקסט וצ'אט בוטים הוא היקף. כאמור, כל הטכנולוגיה של הדיבור לטקסט שצריך לעשות זה לתמלל את הדיבור המילולי. לעומת זאת הצ'ט-בוט צריך לנאום בכל צורה שהיא מיועדת אליו, להבין אותו ולספק תגובות המבקשות לעבור את מבחן טיורינג - המבחן האם טכנולוגיה יכולה להטעות את האדם במחשבה שהוא או היא מדבר עם אדם אחר.
עם זאת בחשבון, הרבה יותר קל ליצור קובצי צ'אט מאשר באמצעות קולי קולי. צ'אט בוט לוקח את הטקסט של האדם ומספק תשובת טקסט. אפילו צ'אט בוטים יחסית יחסית הצליחו לספק תוצאות מעניינות ומהנות לבני אדם מאז סוף שנות השמונים ותחילת שנות התשעים.
מאידך הקולי, לעומת זאת, צריך לקחת דיבור מילולי, להמיר אותו לטקסט, לבדוק את דיוקו, לייצר תגובה ולבנות את התגובה הזו משפת מכונה לדיבור נשמע. מספר גדול זה של משימות משמעותיות למדי פירושו שהקולי קולי לוקח הרבה כוח מחשוב והרבה עיצוב לבנות.
פרויקטים כמו סירי, קורטנה ואלכסה מדגימים חלק מהחלל של טכנולוגיות ה- Voicebot. הם גם ממחישים שהטכנולוגיה הזו עדיין בחיתוליה. למרות שאלכסה וטכנולוגיות אחרות יכולות להגיב מילולית לדיבור אנושי, הן אינן מסוגלות במיוחד במובן זה שאנו מקשרים לדיבור אנושי מילולי בכלל. במילים אחרות, יש לא מעט מגבלה לתגובות הטכנולוגיות הללו יכולות לספק. יש אפילו יכולת מוגבלת של דור העוזרים האישיים של ימינו להפיק באמת דיבור לטקסט, למשל לצורך התמלול דוא"ל או עזרה למישהו לכתוב מאמר מבלי להשתמש בידיים. חלק מתוכניות הדיבור לטקסט הספציפיות בשוק עושות זאת יותר טוב מסירי או קורטנה, כנראה בגלל הקצאת המשאבים. עם זאת, ישנם סימנים לכך שההתקדמות של הרשת קולית תתחיל בקרוב להמריא - כמו פלטפורמת Lex של אמזון המאפשרת סביבת סטודיו לבניית סוגים אלה של טכנולוגיות.
במאמר חכם ומלמד בנושא, טוביאס גבל מדבר על ההבדל בין טכנולוגיות אלה, מנוגד לתהליך "התמלול", שדיבור לטקסט עושה, לתפקיד ההבנה, מה צ'אט בוטים אמורים לעשות.
"אמנם ביטול הצורך בזיהוי דיבור מקל על צ'אט בוט, אך האתגר העיקרי לבנות בוטים מתפקדים טמון בהבנת השפה הטבעית", כותב גבל.
גבל מזהה גם רבים מהשחקנים הנוכחיים בענף:
מובילת השוק לזיהוי דיבור היא Nuance העומדת מאחורי מערכות ידועות כמו Dragon Naturally מדברים על תכתיב במחשב האישי, שקיים מאז שנות התשעים, אך גם סירי: משימת זיהוי / תעתיק דיבור שנערכה בענן אפל משתמשת טכנולוגיית ניואנס מאחורי הקלעים. אחרים הם LumenVox, Verbio או אינטראקציות, אך כעת ניתן לזהות זיהוי דיבור כשירות ענן באמצעות ממשקי API על ידי אנשים כמו אמזון, גוגל, מיקרוסופט ו- IBM.
עם התפתחות צ’אט-בוטים, ההנחה היא שההבנה שלהם תמשיך להתגבר על מסלול מסוים - וגם ההנחה היא ברובה שטכנולוגיית בוט נוספת תעבור מממשקי טקסט לממשקים מילוליים, ותדרוש כמויות נוספות של כוח מחשוב.