OCR – Optical character recognition


גוגל מציעה שרות חדש – OCR.

זיהוי תווים אופטי (באנגלית: Optical Character Recognition; בראשי תיבות: OCR) הוא תחום בתוכנה שבו מטרת התוכנה היא קידוד טקסט כתוב (בדרך כלל בדפוס, לעתים נדירות גם בכתב יד) למידע דיגיטלי טקסטואלי (כלומר, אוסף בתים) שמכיל טקסט זהה. התהליך כרוך בסריקה או בצילום של טקסט המקור לקובץ תמונה, והפעלה של תוכנה מתאימה שמזהה בתמונה את התווים השונים המרכיבים את הטקסט, וממירה כל אחד מהם לתו יחיד בקובץ טקסט. זהו תהליך הפוך להדפסת מסמך: בעוד שבהדפסה הופכים תווים מוקלדים לתמונה שאין בה הבחנה בין התווים השונים, בזיהוי הכתב האופטי ממירים ומפענחים תמונה שמורכבת ממיליוני נקודות (פיקסלים), לאותיות שיש ביניהן אבחנה כמו באותיות מוקלדות.

Wikipedia

אחרי הזדהות מול Google Docs בכתובת זאת מעלים תמונה ומקבלים קובץ טקסט אותו ניתן לערוך כמו קובץ טקסט רגיל.

ocr

כמו שאפשר לראות – יש עדין טעויות שנובעות, לדעתי, מאיכות סריקה, אך עדין זה יכול להיות שימושי. ניסיתי לעבוד עם תוכנה אחרת שיודעת לזהות שפה עברית, אבל התוצאה לא הייתה  מספקת. הרעיון שלי היה לסרוק תוכן עניינים של סיפורת לשם הכנסת שמות יצירות לקטלוג. ישנן ספריות שמצרפות לרשומות בקטלוג תוכן עניינים בתור קובץ *PDF, אבל זה לא פתרון מושלם, בעיניי, מכיוון שעדין זה לא מאפשר איתור ספר לפי שם יצירה.

תגים: , , , ,

להשאיר תגובה

הזינו את פרטיכם בטופס, או לחצו על אחד מהאייקונים כדי להשתמש בחשבון קיים:

הלוגו של WordPress.com

אתה מגיב באמצעות חשבון WordPress.com שלך. לצאת מהמערכת / לשנות )

תמונת Twitter

אתה מגיב באמצעות חשבון Twitter שלך. לצאת מהמערכת / לשנות )

תמונת Facebook

אתה מגיב באמצעות חשבון Facebook שלך. לצאת מהמערכת / לשנות )

תמונת גוגל פלוס

אתה מגיב באמצעות חשבון Google+ שלך. לצאת מהמערכת / לשנות )

מתחבר ל-%s


%d בלוגרים אהבו את זה: