Dealing with a "Tsunami" of Intercept
מסמך זה הוא מאמר מניוזלטר פנימי של ה-NSA, SIDtoday. המאמר, שמקורו בחטיבת טכנולוגיות שפה אנושית של ה-NSA, דן בעתיד טכנולוגיות השפה האנושית (HLT) ככלי עזר באיסוף נתונים בכמויות גדולות. נדונות בו שתי תוכניות SIGINT מרכזיות, TURBULENCE ו-TURMOIL, וכן אופי הנתונים הנאספים.
תקציר
מסמך זה הוא מאמר מניוזלטר פנימי של ה-NSA, SIDtoday. המאמר, שמקורו בחטיבת טכנולוגיות שפה אנושית של ה-NSA, דן בעתיד טכנולוגיות השפה האנושית (HLT) ככלי עזר באיסוף נתונים בכמויות גדולות. נדונות בו שתי תוכניות SIGINT מרכזיות, TURBULENCE ו-TURMOIL, וכן אופי הנתונים הנאספים.
פרטי המסמך
יוצר: National Security Agency - Human Language Technology Research
מפרסם: The Intercept
תאריך יצירה: 2006-08-29
תאריך הדלפה: 2015-05-05
סיווג: TOP SECRET
תוכניות מעקב: SIGINT Enabling Project
תיאור מקורי (אנגלית)
This document is an article from an internal NSA newsletter called SIDtoday. The article, which originated in the NSA's Human Language Technology division, discusses the future of Human Language Technology (HLT) as a tool for big data collection. The article reviews two key SIGINT programs, TURBULENCE and TURMOIL, as well as the nature of the collected data.
תרגום לעברית
(U//FOUO) צונאמי של נתונים: טכנולוגיית שפה אנושית (HLT) בעידן ה-Bulk
(U//FOUO) כפי שרבים מכם יודעים, המשימה שלנו נמצאת תחת מתקפה מתמדת של נפחי נתונים עצומים. הזרם הבלתי פוסק של תקשורת דיגיטלית מהווה אתגר חסר תקדים עבור ה-NSA. כדי להתמודד עם זה, חטיבת Human Language Technology (HLT) בוחנת מחדש את הדרכים שבהן כלים טכנולוגיים יכולים לסייע לאנליסטים לנווט בתוך ה"צונאמי" הזה.
(U) האיסוף בנפח גדול (Bulk Data) ותוכניות ה-SIGINT
(U//FOUO) כיום, עיקר המאמצים שלנו מתרכזים סביב ארכיטקטורת המערכות המודרנית. שתי תוכניות מרכזיות מהוות את עמוד השדרה של יכולות ה-SIGINT שלנו:
- TURBULENCE: מערכת המעבדת את התעבורה בזמן אמת ומאפשרת לנו להתמודד עם המורכבות של רשתות הדור הבא.
- TURMOIL: רכיב הפסיבי של TURBULENCE, האמון על סינון ואיסוף נתונים בנפחים גדולים (Bulk).
(U//FOUO) האתגר בנתוני Bulk הוא שהם "רועשים" מטבעם. הם כוללים הכל – החל מתכתובות דוא"ל רלוונטיות ועד לתעבורת אינטרנט שגרתית וחסרת ערך מודיעיני. כאן נכנסת לתמונה ה-HLT.
(U) תפקיד ה-HLT בעיבוד המידע
(U//FOUO) המטרה של שילוב טכנולוגיית שפה במערכות כמו TURMOIL היא לא להחליף את המתרגם או האנליסט האנושי, אלא לשמש כ"מכפיל כוח". אנו מתמקדים במספר תחומים טכנולוגיים מרכזיים:
- זיהוי שפה אוטומטי (Language ID): זיהוי מיידי של השפה שבה נכתב או נאמר הטקסט כדי לנתב אותו לאנליסט המתאים.
- תמלול דיבור (Speech-to-Text): הפיכת קבצי קול לטקסט הניתן לחיפוש בקנה מידה רחב.
- תרגום מכונה (Machine Translation): מתן תרגום ראשוני ומהיר המאפשר לאנליסטים להבין את "רוח הדברים" לפני שהם מחליטים אם להעמיק בחומר.
(U) מבט לעתיד
(U//FOUO) בעודנו ממשיכים לפתח את יכולות ה-TURBULENCE, חטיבת ה-HLT פועלת להעביר את הכלים הללו לקצה (The Edge). המשמעות היא עיבוד השפה כבר בשלב האיסוף הראשוני, מה שיאפשר לנו לצמצם את העומס על מאגרי הנתונים ולהבטיח שרק המידע בעל הערך הגבוה ביותר יגיע לשולחנו של האנליסט.
(U//FOUO) בעידן שבו הנתונים הם אינסופיים, טכנולוגיית השפה האנושית היא כבר לא מותרות – היא כלי קריטי להישרדות המודיעינית שלנו.





