לראשונה בישראל – קורפוס עברי מתויג (טבת תשפ"ג, ינואר 2023)
"סירי, את מבינה עברית?"
מערך הדיגיטל הלאומי והאקדמיה ללשון העברית מעמידים היום לרשות הציבור קורפוס עברי מתויג לשימוש חופשי (ברישיון קוד פתוח) לציבור ולתעשייה
מיזם קורפוס השפה העברית נועד לייצר תשתית להבנת השפה העברית על ידי מחשב. היכולת של מחשב "להבין" עברית תאפשר מגוון רחב של שימושים המבוססים על עיבוד שפה טבעית – ובכלל זה דיבור למחשבים ולמכשירי חשמל ואלקטרוניקה, בוטים חכמים בעברית, שיפור יכולת להפקת תובנות מטקסטים חופשיים וממסמכים סרוקים, למידת מכונה מטקסט עברי, תרגום אוטומטי ועוד.
במיזם הנוכחי תויגו תיוג מורפולוגי ברמה גבוהה ("תיוג זהב") כ־200,000 מילים בטקסטים מסוגים שונים ומתחומי חיים שונים. התיוג נעשה באקדמיה ללשון העברית. בניגוד לתיוגים אוטומטיים, זהו תיוג אנושי של אנשי לשון על בסיס הצעות אוטומטיות ממערכות האקדמיה. כל מילה תויגה בידי שני מתייגים ועברה בקרה של מתייג מקצועי מטעם האקדמיה ללשון העברית. מכאן חשיבותו של הקורפוס המתויג לאימון של יישומי עיבוד שפה טבעית. הקורפוס הועמד לרשות הציבור בקוד פתוח ומאפשר שימוש בטכנולוגיות מתקדמות מבוססות שפה טבעית גם בעברית.
בשלב ראשון פורסמה לשימוש הציבור המנה הראשונה ובה כ־20,000 מילים בטקסטים ממשרד המשפטים ובנק ישראל. שאר הקורפוס המתויג יפורסם במהלך השנה הקרובה.
קישור לקורפוס: https://data.gov.il/dataset/corpus
מנכ"לית האקדמיה ללשון עברית טלי בן יהודה:
האקדמיה רואה חשיבות רבה בקידום עיבוד שפה טבעית בעברית כדי להבטיח את המשך השימוש בעברית בכל תחומי החיים גם בעידן השימוש הגובר בכלים אוטומטיים. שיתוף הפעולה עם מערך הדיגיטל הלאומי נועד לאפשר תשתית איכותית ופתוחה לכול לעיבוד שפה טבעית בעברית, שיקדם פיתוח כלים בעברית שלא ייפלו באיכותם מאלה שבאנגלית.
יחידת החדשנות במערך הדיגיטל הלאומי והאקדמיה ללשון העברית היו שותפות בעבר למיזם חלוץ בתיוג טקסטים עבריים ללמידת מכונה, והמיזם הנוכחי הוא המשכו הישיר של מיזם החלוץ.
מנכ"לית מערך הדיגיטל הלאומי שירה לב עמי:
מערך הדיגיטל הלאומי קיבל עליו הקמת תשתית לאומית של שפה עברית מתויגת לדיגיטל, שתפתח לפני עסקים וארגונים את הדרך לייצר פתרונות שישפרו את איכות החיים במדינה. תשתית זו תאפשר בהמשך פיתוח פתרונות NLP בעברית, כדי שכל מחשב ומכשיר דיגיטלי יוכלו להבין שיחה בעברית. כך יפותחו מגוון גדול של יישומים, ואלה יסייעו בין היתר לבעלי מוגבלויות. אנחנו משקיעים ונמשיך להשקיע בשיפור עולם התוכן של הבנת השפה העברית כחלק מההשקעה בפתרונות מבוססי בינה מלאכותית.