במשך קרוב לחמישים שנה עסק מפעל המילון ההיסטורי של האקדמיה ללשון באיסוף החומר: איתור המסירות הטובות ביותר, פיענוח כתבי היד ורישום מדויק של תוכנם, קביעת ערכים למילים והכנת קונקורדנציות משוכללות – והכול בעזרת המחשב.
בשלהי שנת תשס"ה החלו שני חוקרים בכירים במפעל המילון בניסיון של כתיבת הערכים, ודווקא מהסוף להתחלה, מהאות תי"ו. בשלב ניסיוני זה נכתבו הערכים לתקופה הקלסית בלבד, מן המאה השנייה לפנה"ס ועד המאה האחת עשרה לסה"נ.
אלה הנתונים המופיעים בראש כל ערך: מילת הערך (לֵמָה בלעז) כשהיא מנוקדת; התצורה והניקוד – משקלה של המילה והערות על ניקודה במסורות העברית; התפוצה – כמה פעמים המילה מופיעה במאגרי מפעל המילון, והאם לפנינו מילה נפוצה או נדירה; התיעוד הראשון של המילה – מתי היא נכנסה לשפה (לפי התיעוד שבידינו) – האם כבר במקרא או לאחר מכן.
אחר כך באה הגדרת המילה והמובאות להדגמת שימושה. במילים שלהן כמה משמעויות (או גוֹני משמעות) כל משמעות מודגמת במובאות המתאימות. בראש המובאה מצוין זמן החיבור שנלקחה ממנו, ובסוגריים בסוף המובאה ניתן מראה מקום מדויק, כולל המסירה שעל פיה צוטטה (המסירה היא בדרך כלל כתב יד).
רק חלק (ובערך שהיקרויותיו רבות – רק חלק קטן) מן החומר הרב שבמאגרי המילון ההיסטורי נבחר לשמש במובאות. קנה המידה החשוב הוא שכל תקופות הלשון ששימשה בהן המילה יהיו מיוצגות בחלק זה (התקופה הקדומה ביותר – 200 לפסה"נ; המאוחרת ביותר – 1100 לסה"נ). במידת האפשר נכללות סוגות ספרותיות שונות, כגון הלכה, פיוט וחיבורי מסורה. ניתנת עדיפות לטקסטים השגורים בפי הציבור, בעיקר מאמרי חז"ל מפורסמים בהלכה ובאגדה.
הטקסטים מהספרות העתיקה קשים להבנה לקורא בן זמננו, וגם סימני ההתקנה הנהוגים במאגרי מפעל המילון אינם נהירים לקורא המצוי. כדי לפתור את הבעיה הזאת כותבי הערכים "מתערבים" בטקסט במידה מסוימת: מוסיפים פיסוק מודרני והערות הבהרה (כגון פיענוח ראשי תיבות שהיו במקור וביאור מילים קשות במיוחד), ולעיתים אפילו נותנים שִכתוב מנוקד ומפוסק של הטקסט (בעיקר בפיוט) – כל זה בלי לטשטש את ההבדל בין מה שהיה במקור ובין הטקסט שעובּד בשביל קוראי המילון.
ערך לדוגמה אפשר לראות כאן.