תוכן עניינים:
הגדרה - מה המשמעות של סינתזת דיבור?
סינתזת דיבור היא הדמיה מלאכותית של דיבור אנושי באמצעות מחשב או מכשיר אחר. המקבילה לזיהוי קולי, סינתזת דיבור משמשת לרוב לתרגום מידע טקסט למידע שמע וביישומים כמו שירותים המאפשרים קול ויישומים ניידים. מלבד זאת, הוא משמש גם בטכנולוגיה מסייעת לסיוע לאנשים לקויי ראייה בקריאת תוכן טקסט.
Techopedia מסביר את סינתזת הדיבור
ה- VODER של הומר דודלי, שהתבסס על הקולן של מעבדות בל, נחשב לסינתיסייזר הקולי הראשון המלא. המחשב המשמש בסינתזת דיבור ידוע כסנתיסייזר דיבור או מחשב דיבור. איכות מחשב הדיבור נשפטת לרוב על פי דמיונו לקול האנושי. מרבית מערכות ההפעלה הממוחשבות שילבו סינתיסייזרים לדיבור מתחילת שנות התשעים. דיבור מסונתז נוצר בדרך כלל בעזרת שרשור של קטעי דיבור מוקלטים, הכלולים במסד נתונים.
השלב הראשוני בסינתזת הדיבור הוא עיבוד מוקדם, שמבטל את העמימות סביב אופן הצורך לקרוא את המילה הספציפית, וכולל גם טיפול בהומוגרפים. בשלב הבא של סינתזת הדיבור, המחשב לוקח את העזרה של פונמות כדי להמיר את הטקסט לרצף של צלילים. השלב האחרון כולל שימוש בהקלטות אנושיות או בטכניקות בסיסיות של יצירת צלילים כדי לחקות את מנגנון הקול האנושי ולקרוא את כל הטקסט. אחד הענפים הפופולריים של סינתזת דיבור הוא סינתזת הדיבור האורקולית או סינתזת הדיבור המולטי-מודאלית העושה שימוש בפנים מונפשות המסונכרנות היטב כדי להשלים את הדיבור המסונתז. סינתזת דיבור multimodal משלבת גם דיבור תכונות נוספות כגון רמזים לא מילוליים כדי לעזור בתקשורת רבה יותר של דברי המשתמש. מערכות סינתזת דיבור רבות מאפשרות למשתמשים לבחור את סוג הקול כגון קול זכר או נשי.
מרבית מערכות סינתזת הדיבור מסוגלות לקרוא טקסטים ולהוצאתן בצורה אינטליגנטית מאוד אם כי הקול יכול לפעמים להיות משעמם. עם זאת, סינתזת הדיבור עדיין מפתחת את היכולת לחקות באופן מלא את הספקטרום הרחב של האינטונציות והקצבאות האנושיות.
