Speech 2 Text Web-App

למי מיועדת האפליקציה חוץ ממקדמי אתרים?

  • לכל מי שאין סבלנות להקשיב להקלטות קוליות.
  • לכל איש מקצוע שמדבר עם לקוחות ולא רק לקוחות.
  • לכל מורה ומדריך שרוצה לזכור מה אמר באיזו שיחה ולא רק טלפונית.
  • לתמלול דברים שנאמרים וגם נשמעים בשיחה.
  • לכל מקדם אתרים שרוצה לחסוך במזכירה שתקליד דברים חשובים.
  • לכל מי שמעוניין לקרוא טקסט ולאחר מכן להכניס לאיזשהו מאמר או סרטון.
  • לבדוק כמה פעמים בשיחה אמרתי את אותה המילה או הביטוי.
  • לתעד בשיחה משפטים או מילים גם בעברית וגם באנגלית.
  • יש אפילו שירים או פרסומות שניתן לנגן והתוכנה תקלוט ברמה סבירה אבל לא מושלמת.
  • יש אתרים שלא ניתן להעתיק מהם תוכן כי אין קליק ימני בעכבר להעתקה (זה גם לא חוקי) אבל מותר לקרוא מהם.

יש עוד שימושים אבל כרגע זה מה יש..

הקוד עובד בצורה תקינה רק בדפדפן כרום ורק בדסקטופ \ מחשב שולחני.

נגן וידאו אודות speech2text

Speech to Text (Voice Recognition) – זיהוי קולי של דיבור לטקסט

Automatic Speech Recognition (ASR)

Speech To Text (STT)

מערכת שיודעת להבין דיבור ואז לכתוב בצורת טקסט רגיל.

השלבים: 

קליטה של צלילים

זיהוי הצליל מתוך מאגרי מידע של צלילים 

כתיבה בצורת טקסט של אותם צלילים, סוג של תווים במוזיקה רק שבמקום תווים נוצרות אותיות.

מהאותיות נוצרות מילים

מצירופי מילים נוצרים ביטויים.

תחום הזיהוי הקולי מגיע ומתפתח ממדעי המחשב ובלשנות חישובית

יש מערכות לזיהוי קול שמשתמשות ב”אימון”.

אימון הוא יצירת מאגר מידע שבו כל קבוצות צלילים מזוהות ומתורגמות לרצפים של ביטויים.

זיהוי קולי יכול לשמש גם כטריגר לביצוע פעולות או אירועים למשל events.

קול כלשהו מתורגם למילה ואז מומר לפקודה.

פענוח גלי קול –

מודלים של (למידה עמוקה) deep learning וbig data (מאגרי מידע) הם סוגי קוד

שמעביר מצורה מסוימת של מידע למשל גלי קול למידע ויזואלי (צורה אחרת של מידע) מוכר כגון טקסט.

מערכות הפעלה לדוגמה של מייקרוסופט כוללות זיהוי קולי מאז windows 7.

זיהוי דיבור
זיהוי דיבור

מאגר טוב של מידע (שאילתות ותגובות), חלקי המידע המוקלט או פיסות הקול חייבות להיות באיכות הכי גבוהה ואיכותית שניתן.

ללא רעשי רקע, צליל נקי ככל האפשר, הגייה נכונה, ללא מבטא משום סוג, רק קול אנושי אחד בודד בכל הקלטה.

אחוז הסטייה לתקינות או איכות הפלט הכתוב בשנת 2021 הייתה 18% סטייה של דיוק בכוונת המשתמשים.

אחוזי הסטייה בדיוק שמדדה מייקרוסופט באמצעות גוגל היה נמוך מזה כ16.5% ובסרטונים כ15.84%.

אין 100% דיוק בלי סטיות.

 

שימושים של מערכות לזיהוי קולי

מתן פקודות למערכות ממוחשבות דרך פקודות קוליות למשל סירי.

מרכזיות טלפוניות שמקבלות מידע קולי ומתרגמות לרצפים של מספרים.

זיהוי קולי ביומטרי- 

אימות משתמשים \ לקוחות דרך קול, סוג של טביעת אצבע אבל קולית, רק בעל הקול הספציפי שמוגדר מייצר את הסימן הדיגיטלי המדויק ואם טביעת הקול מתקבלת במערכת רק אז המערכת מאפשרת גישה או עושה משהו.

למשל מערכת שמגיבה רק לבעל הקול שמוגדר אצלה במאגר המידע.

כמו זיהוי פנים אבל קולי דרך גלי קול.

השימושים שכבר מיושמים כיום: 

הכתבה של מסמכים \ מכתבים \ פניות בכתב.

כל מדע קלינאות התקשורת משלב את טכנולוגיית הזיהוי הקולי.

כתיבה אוטומטית של כתוביות לכל מדיה ויזואלית אחרת.