Black Budget for 2013 p.360-364
מסמך זה הוא קטע מהתקציב השחור של קהילת המודיעין האמריקאית לשנת 2013. קטע זה מתאר ומצדיק הוצאות עבור פרויקט טכנולוגיית שפה אנושית, המפתח יכולות לתרגום מכונה והמרת דיבור לטקסט לצורך ניתוח המוני, בין יתר היוזמות.
תקציר
מסמך זה הוא קטע מהתקציב השחור של קהילת המודיעין האמריקאית לשנת 2013. קטע זה מתאר ומצדיק הוצאות עבור פרויקט טכנולוגיית שפה אנושית, המפתח יכולות לתרגום מכונה והמרת דיבור לטקסט לצורך ניתוח המוני, בין יתר היוזמות.
פרטי המסמך
יוצר: United States Intelligence Community
מפרסם: The Intercept
תאריך יצירה: 2012
תאריך הדלפה: 2015-05-05
סיווג: TOP SECRET
תוכניות מעקב: SIGINT
תיאור מקורי (אנגלית)
This document is an excerpt from the U.S. Intelligence Community's 2013 "Black Budget." The excerpt describes and justifies expenditures for the "Human Language Technology Project," which develops machine translation and speech-to-text capabilities for bulk analysis, alongside other initiatives.
תרגום לעברית
פרויקט טכנולוגיית השפה האנושית (Human Language Technology - HLT)
תיאור הפרויקט: פרויקט טכנולוגיית השפה האנושית (HLT) מספק פתרונות אוטומטיים לניצול נתונים בשפות זרות הזורמים בצינורות המודיעין של ה-NSA לבדיקה וניתוח על ידי גורמי המודיעין. ככל שנפחי הנתונים גדלים והמגוון הלשוני מתרחב, השקעה ב-HLT חיונית כדי לאפשר למנתחים להתמקד במידע בעל הערך הגבוה ביותר מבלי להידרש לשליטה מלאה בכל שפה ושפה.
יעדים מרכזיים:
- תרגום מכונה (Machine Translation - MT): פיתוח ושכלול אלגוריתמים המתרגמים טקסט משפות זרות לאנגלית בזמן אמת, תוך שמירה על הקשר דקדוקי וסמנטי.
- זיהוי דיבור אוטומטי (Automatic Speech Recognition - ASR): המרת שמע של שפות זרות לטקסט הניתן לחיפוש, מה שמאפשר אינדוקס וניתוח מאסיבי (bulk analysis) של נתוני קול.
- זיהוי שפה ודיאלקט: יכולת לסווג באופן אוטומטי נתונים נכנסים לפי שפה או ניב ספציפי כדי לנתבם למנתח המתאים.
הצדקת התקציב (שנת כספים 2013): המימון המבוקש יתמוך במאמצים הבאים:
- הרחבת הכיסוי לשפות "דלות משאבים": התמקדות בשיפור הדיוק בשפות ודיאלקטים שבהם חסרים נתוני אימון דיגיטליים נרחבים, אך קיימת חשיבות אסטרטגית גבוהה.
- אינטגרציה של ניתוח מאסיבי (Bulk Analysis): הטמעת כלי HLT ישירות בתוך זרמי הנתונים של ה-SIGINT כדי לאפשר סינון ראשוני אוטומטי לפני הגעת המידע למאגרי הנתונים.
- מודרניזציה של תשתיות השכיבה (Rest-state): שיפור היכולת להריץ כלי תרגום ותמלול על כמויות אדירות של נתונים השמורים בארכיון לצורך הפקת מודיעין רטרואקטיבי.
שותפויות: הפרויקט מבוצע בשיתוף פעולה הדוק עם ה-GCHQ וגורמים נוספים בקהילת ה-Five Eyes כדי למקסם את המשאבים המוקצים למחקר ופיתוח שפתי ולמנוע כפילויות במאמצי הפיתוח של אלגוריתמים לתרגום.





