כלי חינמי אונליין זה מאפשר לבצע בדיקת שגיאות כתיב בעברית (בדיקת איות בעברית). כל מה שצריך לעשות זה להעתיק את הטקסט הרצוי ולהדביק אותו בחלון למטה. ואז לוחצים על הכפתור "בדוק שגיאות כתיב". אחרי הלחיצה על הכפתור, התוצאה תופיע למטה.
האם כלי בדיקת שגיאות כתיב זה תמיד צודק?
לא. כמו לכל כלי יש לו מרווח טעיות. הוא יכול לתת false positive ו-false negative. לכן הייתי מציע להתייחס לכלי בתור זרקור שמצביע איפה צריך לשים לב.
הערה: כלי זה מתבסס על הפתרון המוצע ע"י Peter Norvig. ולפי מאמרו של פיטר, רמת הדיוק של התיקונים אצלו הייתה סביב ה-70%.
יש מילים קיימות שהכלי רושם בתור שגיאות כתיב. מה לעשות?
כלי זה מתבוסס על מילון (יותר דומה לטבלת שכיחות). יכול להיות שחסרה מילה במילון או שיש מילה לא קיימת במילון. אם זה המקרה, אנא השאירו תגובה למטה או צרו קשר ואני אעדכן את המילון.
איך נבנה המילון?
המטרה הראשונית הייתה לבנות מילון. בשביל זה צריך הרבה טקסטים בעברית. באנגלית משתמשים ב-Project Gutenberg, אבל בעברית אין משהו בסגנון. לכן הורדתי את כל הויקיפדיה העברית (כן מסתבר שניתן להוריד את כל הויקיפדיה). אח"כ כתבתי תוכנה ב-java שסרקה את כל הקבצים (כ-370,000 קבצים ומעל 7GB) ויצרה מילון של כ-800,000 מילים שונות עם השכיחות של כל מילה בטקסטים.
בחרתי בויקיפדיה מכיוון שקיוויתי שריבוי עורכים יקטין מספר שגיאות כתיב. אבל כפי שראיתי בעדכונים ידניים של המילון, גם שם יש שגיאות כתיב.
איך עובד כלי בדיקת איות בעברית זה?
כאשר פתחתם את העמוד, הדפדפן הוריד למחשב שלכם את המילון. את תוכנת בדיקת שגיאות כתיב כתבתי ב-JavaScript. לכן אחרי שהורדתם את המילון אתם לא תלויים בשרת (וגם לא באינטרנט) והדפדפן שלכם הוא זה שמבצע את כל העבודה.
האלגוריתם עובר מילה מילה ומוצא את המילים שלא מופיעים במילון. למילים האלו מחפשים הצעות לתיקון. כפי שהזכרתי הפתרון משתמש ברעיון של Peter Norvig שהוא פתרון הסתברותי. כלומר רוב הסיכויים שהטעות היא בתו אחד (חסרה אות, אות מיותרת או סדר אותיות לא נכון). מבין כל הצירופים מוצאים את המילה עם השכיחות הכי גבוהה וזאת ההצעה לתיקון. אם לא מצאנו תיקון בשינוי של תו אחד, עוברים לכל המילים עם שינוי של שני תווים וכך הלאה.
מדוע נוצר כלי לבדיקת שגיאות כתיב בעברית?
כפי שכתבתי במאמר בדיקת שגיאות כתיב בעברית (רשימת כלים), הסיבה העיקרית היא שאני הייתי זקוק לכלי מסוג זה. הכלים הקיימים לא הכי טובים (במיוחד עם משווים אותם לכלים באנגלית) ולכן הייתי הלקוח הראשון. אני מקווה שהכלי יועיל לאחרים והתוכן שלנו יהיה בלי שגיאות כתוב.
הערה: אם יש לכם הצעות לשיפור, פונקציונליות חסרה או משהו שלא עובד, אנא תעדכנו אותנו דרך טופס יצירת קשר.
קודם כל; תודה מקרב לב עבור שיתוף האתר, עם כלל הציבור.
קראתי את דבריך בדבר האופן בו נולד הפרוייקט, ואני מעריך את זה שבחרת לשתף.
גם קיבלתי מושג על הסדר-גודל של הפרוייקט.
• הצעה לשיפור: שילוב הפונקציונליות של אתר זה, עם פונקציונליות כגון זו הנמצאת באתר "נקדן" : "https://nakdanlive.dicta.org.il" ☺
ברור לי לחלוטין ששילוב כזה כרוך בפרוייקט בסדר-גודל אחר לחלוטין. (אולי לא).
• לגבי זהוי שגוי: היישום כאן זיהה את המילה : 'להתנהלויות', כשגיאה והציע את המילה 'להתנחלויות' במקום ~ ובכן, המילה 'להתנהלויות', הינה מילה לגיטימית לחלוטין, והוראתה היא: צורת רבים של 'התנהלות', אשר מקדימה אותה ה'-הידיעה ו ל'-השימוש.
כל טוב ויישר כח
תודה איתי.
– לגבי השילוב עם נקדן: זהו רעיון מעניין אבל אני לא בטוח שאני מבין את הצורך. תוכל להאיר את עיני?
– כן מכיוון שהמילון לא מושלם יש לו false negatives. אבל לפחות זה גורם לי לבדוק בפעם השניה את המילה.
האם אפשר להוריד את התוכנה למחשב?
כרגע, כפי שהכלי ממומש, לא ניתן להוריד אותו למחשב.