SIRDCC Speech Technology WG assessment of current STT technology
מסמך זה הוא דו"ח הערכה מקבוצת העבודה לטכנולוגיית דיבור SIRDCC על מצבה הנוכחי של טכנולוגיית דיבור לטקסט (STT). הדו"ח דן במודלים מתחרים לעיבוד נתוני קול, בצוותי מחקר חיצוניים המעורבים, ומעריך את התוכנה על בסיס תמלול המוני של נתוני אודיו וישימות עסקית.
תקציר
מסמך זה הוא דו"ח הערכה מקבוצת העבודה לטכנולוגיית דיבור SIRDCC על מצבה הנוכחי של טכנולוגיית דיבור לטקסט (STT). הדו"ח דן במודלים מתחרים לעיבוד נתוני קול, בצוותי מחקר חיצוניים המעורבים, ומעריך את התוכנה על בסיס תמלול המוני של נתוני אודיו וישימות עסקית.
פרטי המסמך
יוצר: Government Communications Headquarters - SIRDCC Speech Technology Working Group
מפרסם: The Intercept
תאריך יצירה: 2009-12-07
תאריך הדלפה: 2015-05-05
סיווג: Secret
תוכניות מעקב: SIGINT Enabling Project
תיאור מקורי (אנגלית)
This document is an evaluation report from the SIRDCC Speech Technology Working Group on the current state of Speech-to-Text (STT) technology. The working group was established by the Security Service and GCHQ. The report discusses competing models for processing voice data, third-party research teams involved in the project, including Cambridge University, SAIL and IBM labs, and evaluates the software based on bulk transcription of audio data and commercial suitability. The report also includes a transcription sample and a list of the 100 best-identified words.
תרגום לעברית
מסמך זה הוא דוח הערכה מטעם ה-SIRDCC Speech Technology Working Group על המצב הנוכחי של טכנולוגיית Speech-to-Text (STT). קבוצת העבודה הוקמה על ידי ה-Security Service וה-GCHQ. הדוח דן במודלים מתחרים לעיבוד נתוני קול, בצוותי מחקר של צד שלישי המעורבים בפרויקט, ביניהם Cambridge University, SAIL Labs ו-IBM, ומעריך את התוכנה על בסיס bulk transcription (תמלול מאסיבי) של נתוני שמע והתאמה עסקית. הדוח כולל גם דגימת תמלול ורשימה של 100 המילים שזוהו בצורה הטובה ביותר.





