Posts Tagged ‘Google Docs’

OCR – Optical character recognition

25/10/2009

גוגל מציעה שרות חדש – OCR.

זיהוי תווים אופטי (באנגלית: Optical Character Recognition; בראשי תיבות: OCR) הוא תחום בתוכנה שבו מטרת התוכנה היא קידוד טקסט כתוב (בדרך כלל בדפוס, לעתים נדירות גם בכתב יד) למידע דיגיטלי טקסטואלי (כלומר, אוסף בתים) שמכיל טקסט זהה. התהליך כרוך בסריקה או בצילום של טקסט המקור לקובץ תמונה, והפעלה של תוכנה מתאימה שמזהה בתמונה את התווים השונים המרכיבים את הטקסט, וממירה כל אחד מהם לתו יחיד בקובץ טקסט. זהו תהליך הפוך להדפסת מסמך: בעוד שבהדפסה הופכים תווים מוקלדים לתמונה שאין בה הבחנה בין התווים השונים, בזיהוי הכתב האופטי ממירים ומפענחים תמונה שמורכבת ממיליוני נקודות (פיקסלים), לאותיות שיש ביניהן אבחנה כמו באותיות מוקלדות.

Wikipedia

אחרי הזדהות מול Google Docs בכתובת זאת מעלים תמונה ומקבלים קובץ טקסט אותו ניתן לערוך כמו קובץ טקסט רגיל.

ocr

כמו שאפשר לראות – יש עדין טעויות שנובעות, לדעתי, מאיכות סריקה, אך עדין זה יכול להיות שימושי. ניסיתי לעבוד עם תוכנה אחרת שיודעת לזהות שפה עברית, אבל התוצאה לא הייתה  מספקת. הרעיון שלי היה לסרוק תוכן עניינים של סיפורת לשם הכנסת שמות יצירות לקטלוג. ישנן ספריות שמצרפות לרשומות בקטלוג תוכן עניינים בתור קובץ *PDF, אבל זה לא פתרון מושלם, בעיניי, מכיוון שעדין זה לא מאפשר איתור ספר לפי שם יצירה.

פורמט docx* של Word נפתח עכשיו ב Google Docs

09/06/2009

משמעות הדבר – אפשר להעלות מסמך עם סיומת docx*, שלא נפתח בגרסאות ישנות של וורד ל Google Docs, לראות אותו שם ובמידת הצורך להוריד אל המחשב האישי קובץ בפורמט שאנחנו רגילים אליו – doc*.

googledocslogo


%d בלוגרים אהבו את זה: