בית שמע אני שומע אנשים מתים? הטכנולוגיה בשפה טבעית גורמת לקולות העבר וההווה להתעורר

אני שומע אנשים מתים? הטכנולוגיה בשפה טבעית גורמת לקולות העבר וההווה להתעורר

תוכן עניינים:

Anonim

בימינו, מרבית קולות המחשבים הם מעבר. אתה בטח לא מתעסק יותר מדי בסייבורגים ורובוטים כשאתה שומע את ה"דרואיד "בטלפון שלך עוזר לך בתשלום חשבונות או שואל אותך לאיזו מחלקה אתה רוצה. אבל מה אם פתאום שמעת את קורט קוביין דורש ממך מידע על הכרטיס? או שג'ון פ. קנדי ​​מספר לך על נפלאות ההצבעה המוקדמת? או שאלביס מוריד את שמך וכתובתך לפני שהוא פורץ ל"צפן, חתיך של אהבה בוערת? "


כל אלה יהיו … די מוזרים, אבל מה שמרתק עוד יותר הוא שהטכנולוגיה בעצם כבר כאן. רק לפני עשור לערך, נדהמנו מהיכולת של מחשב אפילו לדבר בכלל. כעת אנו עומדים לרחף על ידי קולות שנוצרים ממחשבים חופשיים שנשמעים ממש כמו אנשים שאנו מכירים.

שינויים גדולים ב- NLP

אם אתה שם לב לתחום עיבוד השפה הטבעית (NLP), יתכן ששמעת על כמה התקדמויות אחרונות החורגות מסוגים שונים של קולות עוזרים וירטואליים משומרים שאנו שומעים כעת במערכות המיקום הגלובליות שלנו (GPS) ועסקים אוטומטיים. קווי טלפון.


תחילת ה- NLP דרשה המון מחקר על המכניקה הכללית של הדיבור האנושי. החוקרים והמהנדסים נאלצו לזהות פונטיקה פרטנית, לקפל אותם לאלגוריתמים גדולים יותר ליצירת ביטויים ומשפטים, ואז לנסות לנהל את כל זה ברמה מטא כדי לייצר משהו שנשמע אמיתי. עם הזמן, מנהיגי ה- NLP שלטו בכך והחלו לבנות אלגוריתמים מתקדמים כדי להבין מה אומרים בני האדם. מחבר בין שני אלה לבין חברות, המציאו את הנהגים לעוזרים הווירטואליים של היום ופקידים לשלם חשבונות דיגיטליים לחלוטין, שהגינונים שלהם - למרות שהם מעצבנים - הם עדיין מדהימים כשאתם עוצרים לחשוב על העבודה שנכנסה אליהם.


כעת, חברות מסוימות עוברות את הקול הווירטואלי הגנרי כדי להרכיב תוצאה אישית יותר ספציפית. זה דורש לעבור דרך הלקסיקון של אדם מסוים ואיסוף כמויות גדולות של וידיאו קולי ייחודי, ואז החלת ארכיב זה על המקצבים המורכבים לפונטיקה, הדגשה, קדמה וכל שאר הרמזים הזעירים שקובעים בלשנים לעתים קרובות תחת הכותרת הרחבה של "פרודיה".


מה שיוצא הוא קול שהמאזינים חושבים שהוא "בבעלות" של אדם מסוים - או מישהו שהם מכירים ודיברו איתו, או מישהו שקולו הם מכירים כתוצאה מתהילה של האדם.


מאלביס ועד מרטין לותר קינג, כעת ניתן "לשבט" את קולו של כל אחד בדרך זו - בתנאי שיש תיעוד מוקדם מראש של דיבורם. על ידי יישום ניתוח ומניפולציה אפילו יותר מפורטים על צלילים קטנים בודדים, חברות מסוגלות ליצור עותק פחמן וירטואלי של הקול של מישהו שנשמע כמו הדבר האמיתי.

יצירות "טקסט לקול" מרגשות ב- VivoText

VivoText, למשל, היא חברה אחת שפועלת לחולל מהפכה בשימוש בקולות אנושיים מלאכותיים לכל מיני קמפיינים, החל מספרי שמע לתגובה קולית אינטראקטיבית (IVR). ב- VivoText צוותי מחקר והפקה עובדים על תהליכים שבאופן תיאורטי הם יכולים לשכפל באופן ספציפי את קולם של ידוענים שנפטרו, כמו אול בלו עיניים עצמו.


"לשכפל את קולו של פרנק סינטרה, היינו עוברים למעשה את המורשת המוקלטת שלו", אומר גרשון זילבר, מנכ"ל VivoText, ומדבר על איך טכנולוגיה מסוג זה יכולה לעבוד.


כרגע VivoText עובדת על ארכיון קולותיהם של אלה שעדיין נמצאים איתנו, כמו כתבת NPR ניל קונאן, שנרשמה כמודל לפרויקט מסוג זה של חלוצי IT. סרטון פרסומי מציג עובדי VivoText ביצירת בקפידה מודולי קוד פונטיים באמצעות קלט קולי שסופק מקונאן. לאחר מכן הם יוצרים את המודלים של כלים לטקסט לדיבור (TTS) המעוררים תוצאה אנושית ואישית באופן דרמטי.


לדברי בן פייבלמן, סגן נשיא אסטרטגיה ופיתוח עסקי ב- VivoText, המחשב עובד ברמה פונטית (תוך שימוש בחלקי הדיבור הייחודיים והקטנים ביותר) כדי להתאים למודל פרוזודי לקול אנושי אינדיבידואלי.


"הוא יודע איך הקול מדבר", אומר פייבלמן, ומוסיף כי באמצעות "בחירת יחידות", המחשב בוחר מספר קטעים להרכיב מילה קצרה אחת, כמו היכן שניתן למילה "יום שישי" חמישה רכיבים שעוזרים להתפתח. דגש מסוים ותוצאה טונאלית.

קול מלאכותי בשיווק

אז איך זה עובד בשיווק? המוצרים של VivoText עשויים להיות שימושיים ביותר ביצירת מוצרים, כמו ספרי שמע, שיכולים להגיע לקהלי יעד. לדוגמה, כמה יעיל יותר היה להשוות קול של אלביס לאחד הקולות הגנריים, הדד-פיין, האוטומטיים של ימינו, אם היה משמש למכירת מוצרים הקשורים לבידור?


או, מה דעתך בפוליטיקה? פייבלמן עבד על רעיונות שונים לשימוש בפרויקטים כמו אלה בכדי לשפר את השיווק של חברות או גורמים אחרים הזקוקים להודעות יעילות יותר.


"אם אתה מכיר פוליטיקאים כלשהם שמתמודדים לראשות הנשיא, זה יכול לגרום ל 10 מיליון מצביעי מדינת הנדנדה לקבל שיחה אישית של מועמד, להודות להם על תמיכתם, להגיד להם לאן הם צריכים ללכת להצביע, מזג האוויר וכל הגיזומים לילה לפני הבחירות, "אמר פייבלמן.

הקול שלך חי

יש יישום ברור נוסף לכל הטכנולוגיה הזו. חברות בשפות טבעיות כמו VivoText יכולות ליצור שירות אישי שיעלה את כל הנתונים הקולי של הלקוח למוצר שיאפשר לאותו אדם "לדבר לנצח."


יישום מעשי עשוי להעלות מספר שאלות על האופן בו אנו שומעים ומפנים קולות מדוברים. לדוגמה, מה נדרש כדי שזרם צליל יישמע בדיוק כמו מישהו? עד כמה עלינו להכיר אדם כדי לזהות קול מסוים? ומעניין, מה קורה אם שירות בשפה טבעית מייצר קריקטורה גסה ולא מחקה משכנעת?


הערכת התוצאות, אומר פייבלמן, תלויה לעתים קרובות בשיקול ההקשר. לדוגמה, הוא אומר שילדים בדרך כלל לא שואלים שאלות על מי מדבר כשהם מאזינים לסיפור. הם רק רוצים עוד. אך גם מבוגרים רבים עשויים שלא לחשוב על מי מדבר איתם, בהתחשב בתרחיש מסוים, כמו שידור פסיבי או הודעת טלפון. כמו כן, קל יותר להתבלבל על ידי מחשב בטלפון מכיוון שהצליל העמום יכול להסוות תקלות או אי-התאמות אחרות בין תוצאות המחשב לקול אנושי.


"לא עולה בדעתך לערער על האותנטיות של הקול, " אומר פייבלמן.

בשנת 2525

כאשר חברות מתקדמות בפיתוח מוצרים ושירותים ומענה על שאלות אלה, טכנולוגיות "דיבור חי" עשויות לקדם אותנו לכיוון ההתכנסות ההיא של הטכנולוגיה והמוח האנושי, אשר נקראה קלאסית בינה מלאכותית (AI).


אם מחשבים יכולים לדבר כמונו, יתכן שהם יוכלו להערים על משתמשים אחרים לחשוב שהם חושבים כמונו, להזין את העיקרון הגדול יותר של הסינגולריות, כפי שהוכנס ללקסיקון שלנו על ידי ג'ון פון נוימן, חלוץ טק מתקופת שנות החמישים שהובא על ידי סופרים והוגים כמו ריי קורצוויל. ספרו של קורצוויל משנת 2005, "הסינגולריות קרובה", מרגש כמה ומפחיד אחרים. קורזוויל חזה כי עד שנת 2045, "אינטליגנציה" כתופעה תיעלם מאוד מהמוח האנושי ותיגור לטכנולוגיה ותטשטש את הקווים בין מכונות לאדוניהם האנושיים.


מונצח במילים של "בשנת 2525" של זאגר ואוונס (אף אחד לא עושה בלדות מדעיות מפחידות כמו החבר'ה האלה) …


בשנת 4545

אתה לא תצטרך את השיניים שלך, לא תצטרך

העיניים שלך

לא תמצא דבר ללעוס

אף אחד לא יביט בך


בשנת 5555

הזרועות שלך תלויים בצליעה

הרגליים שלך לא צריכות לעשות

יש מכונה שעושה זאת בשבילך


האם קולות מחשב הם צעד בכיוון זה? כדרך חדשה למיקור חוץ של חלק מתפקידי גוף האדם (או שכיחות יותר לדמות אותם), התקדמות מהסוג הזה היא אחת ההתקדמות הגדולה ביותר - וכנראה גם לא מובחנת - באופק כאשר אנו מסתכלים על עתיד יחיד. . (על "הייחודיות" שבמחשבים האם מסוגלים לחקות את המוח האנושי?)

אני שומע אנשים מתים? הטכנולוגיה בשפה טבעית גורמת לקולות העבר וההווה להתעורר