סנונית ראשונה במיזם לאומי לשיפור הממשק אדם–מכונה בעברית (שבט תש"ף, ינואר 2020)

האקדמיה ללשון העברית נרתמה לתוכנית החלוץ ליצירת מאגר טקסטים (קורפוס) מתויג של העברית בת זמננו שיזמה רשות התקשוב הממשלתי

איך העוזרת הקולית שלי מבינה אותי? למה אנחנו מתכוונים במשפט 'הדלק את האורות בכל הבית', 'שלחי הודעה לפלוני', 'אני מגיע לחלץ בעוד 5 דקות', או 'תנקה לי רק את המטבח'. כדי שהמכונה תוכל לעשות זאת, יש ללמד אותה להבין את השפה האנושית…

רשות התקשוב הממשלתי מפרסמת בימים אלו לראשונה מאגר טקסטים מתויג בתיוג ידני (תיוג "זהב") של עברית בת זמננו. לכל מילה במאגר נתנו מומחי האקדמיה ללשון העברית ניתוח דקדוקי, והוא בנוי לשמש ללמידת מכונה.

זו סנונית ראשונה במיזם הדיגיטציה של השפה העברית. מטרתו לייצר מסד נתונים איכותי שיאפשר למכונות מחשוב "להבין" שפה אנושית בשיחה כתובה ומדוברת.

מיזם הדיגיטציה יוביל למהפכה ביכולת של מכונות "להבין" את השפה העברית ויפתח שער לשירות בעברית ביישומים ובכלים רבים. כיום יש פער ניכר ביכולות הכלים המבוססים על עיבוד שפה טבעית בין העברית לאנגלית, שמטבע הדברים נמצאת במוקד המחקר. למשל אם תנסו להשתמש בעברית ב־Echo של אמזון, Google Home  של גוגל או HomePod של אפל, לא תקבלו מענה ברמה שהורגלתם אליה בשימוש באנגלית. מכשירים המבינים דיבור חופשי נמכרים בעולם במאות מיליונים, והשימושים בהם הולכים וגוברים בין השאר לביצוע פעולות תוך כדי נהיגה או בזמן שהידיים או העיניים עסוקות בדבר אחר. במיוחד הם יוכלו לתרום לשיפור ניכר באיכות החיים לאנשים עם מוגבלויות. נוסף על "שיחות" עם מכשירים לעיבוד שפה טבעית המיזם פותח פתח ליישומים מרחיקי לכת כגון תרגום מכונה, כריית מידע נחוץ מתוך טקסט, ניתוח כוונות ורגשות בטקסט, סיווג טקסטים וחיבור אוטומטי של תקצירים.

משמעות המיזם עבור דוברי העברית עצומה: המיזם פותח פתח לאפשרויות רבות שזמינות כיום רק בשפות זרות, וכלים שיפותחו בעתיד יוכלו להתבסס על העברית המדוברת בת זמננו.

במיזם החלוץ שהוגדר ברשות התקשוב הממשלתי ונעשה באקדמיה ללשון העברית, נבחן התקן למבנה התיוג, ולאחר מכן תויגו מאות משפטים, הן בשיח מובנה הן בשפה חופשית, שנלקחו מעולם השירות הממשלתי לציבור.

מומחי האקדמיה ללשון העברית תייגו את המשפטים תיוג דקדוקי ידני בתקן UD (תקן בין־לאומי המאפשר שימוש באלגוריתמים לעיבוד שפה טבעית).

כדי להבטיח התאמה בין עולם התיוג הדקדוקי־מורפולוגי לעולם הניתוח התחבירי הממוחשב, שולבה בפרויקט מעבדת ה־NLP של פרופ' רעות צרפתי באוניברסיטת בר־אילן: על בסיס התיוג המורפולוגי הידני נעשה שם תיוג תחבירי אוטומטי.

התוצר פורסם ברישיון קוד פתוח באתר Data.gov.il וזו הפעם הראשונה שתוצר התיוג בעברית בת זמננו וביוזמה ממשלתית מפורסם לשימוש חופשי לציבור, למחקר אקדמי ולחברות מסחריות. תוצר החלוץ ייבדק כעת על ידי הכנסתו ללמידה במכונות של עיבוד שפה טבעית ובינה מלאכותית (AI/NLP). התקן יטויב בהתאם למשוב שיתקבל. אפשר לשלוח הערות והארות לכתובת corpus@cio.gov.il.

רקע

כדי שמחשב, מכשיר סלולרי, שואב אבק דיגיטלי או כל כלי חכם אחר יבינו אותנו, יש ללמד אותם להבין את השפה האנושית. לשם כך קיימים שני פתרונות עקרוניים:

1. יצירת עץ החלטות. המחשב לומד שלמשפט מסוים יש כוונה ומשמעות ייחודיות בכפוף למילים מסוימות המופיעות בו. איך עושים זאת? בונים טבלה שבה בטור אחד מופיעים המשפטים ובטור השני הכוונה והמשמעות של כל אחד מהם. הבעיה בשיטה זו היא שמספר המשפטים האפשריים הוא בלתי מוגבל, והטבלה בהכרח מצומצמת.
כיום משתמשים בשיטה זו כאשר תחום השפה הוא צר ומוגדר היטב כדוגמת Bot שיחה לפתיחת חשבון או לקבלת שירות מסוים.

2. יצירת מאגר טקסטים מתויגים. המחשב מוזן באוסף דוגמאות של משפטים שנותחו בידי אדם. המשפטים מפורקים למרכיביהם ומתויגים בידי בלשנים וכך מוגדרות ישויות במשפט. לדוגמה: במשפט "אני מגיע לחלץ בעוד 5 דקות" – אפשר לקרוא את המילה 'לחלץ' ל + חֶלֶץ שם של יישוב בחבל לכיש ובהקשר אחר כפועל – לְחַלֵּץ מישהו שנתקע עם רכבו. בעבודה זו מוגדרים הערך המילוני, חלק הדיבר (פועל, שם וכו') והישות התחבירית (נושא המשפט וכדומה). לאחר שהוזנו משפטים רבים, התוכנה המתאימה תוכל ללמוד לתת מענה גם למשפטים שלא הוזנו אליה קודם לכן.

מיזמים של מאגרי טקסטים מתויגים כגון זה כבר בוצעו בעבר בשפות שאוכלוסיית דובריהן גדולה, אך בעברית נעשתה עבודה מעטה וטרם פורסמו תשתיות נרחבות בעברית בת זמננו לשימוש חופשי.

מבנה העברית והכתיב שלה שונים מאוד משפות שבהן יש כיום מודלים מפותחים לעיבוד שפה טבעית, ולכן אי אפשר להשתמש במודלים הקיימים כמות שהם לקבלת תוצאות טובות.

מיזם החלוץ שהסתיים כעת הוא התחלה של מיזם הדיגיטציה של השפה העברית שמטרתו לייצר מאגר טקסטים מתויגים ללמידת מכונה כדי להגיע ל"הבנת" העברית על ידי מכונות ומחשבים.