OCR – защо и как се прави в архивБОКС?
Оптическото разпознаване на символи, Optical Character Recognition, OCR, представлява анализ на сканирани данни (картинка) за разпознаване на символи, в следствие на който изображение може да се преобразува в достъпен и редактируем (достъпен за редакция) текст. Това е обичайна процедура за прехвърляне на текст от хартия на електронен носител: най-напред печатният оригинал се сканира (или снима), след това специализиран софтуер анализира полученото изображение, разпознава съответните букви и символи от азбуката и създава електронен текстов документ. Тази обработка отнема различно време, в зависимост от качеството на сканираното изображение, предназначението и сложността на изходния текст. Най-кратко време за обработка и най-висока степен на разпознаване се постига при чисти четими текстове, еднообразно форматирани с печатарски шрифт, без картинки, отпечатани контрастно. Съвременните хардуерни технологии и алгоритми за анализ и разпознаване на символи позволяват да се постигне отличен резултат и при цифровизация на произволни оригинали, със свободно съдържание и разнообразно качество. Новият текстов документ е достъпен за редакция и това позволява да се отстраняват грешките от неправилното разпознаване.
В архивБОКС обект на OCR са документи (обикновено разходни фактури), които са получени на хартия и трябва да бъдат добавени в дигиталната архивна папка. В системата се съхраняват сканираното копие на оригинала и няколко негови важни реквизита, по които той се идентифицира бързо и лесно в базата данни. Процесът на описване на документа по определени полета се нарича индексация, а полетата, по които се индексира, се наричат ключови. За фактурата и дебитно/кредитно известие в архивБОКС ключовите полета са: номер на документа, дата на документа, фирма издател, ИН, ИН по ДДС, вид на документа, обща сума, сума без ДДС, ДДС сума, вид плащане. Всяка фактура се описва по тези ключови полета в отделен ред в таблица, като така тя е лесно откриваема и носи най-важните информация за последващи потребителски справки и финансови отчети. Програмата е обучена да индексира автоматично фактурите на често срещани и популярни доставчици (мобилни оператори, интернет, ЕРП, популярни вериги магазини и други), но обучението продължава постоянно, според нуждите на всеки потребител. Така с времето, броят на автоматично индексираните фактури расте.
Степента на автоматично разпознаване зависи и от качеството на сканираното изображение, а то е пряко свързано с вида на оригиналния документ и настройките на системата при сканирането. Работата е по-лесна и крайният резултат е по-добър, когато хартиеният оригинал:
- е четим и контрастен, написан с машинни букви;
- няма картинки, цветни фонови подложки или водни знаци под разпознавания
- текст или бележки на ръка върху него;
- големината на буквите е с размер 10 или повече пиксела;
- няма наличие на „шум” при отпечатването, замъглени букви или изкривени редове;
- не е зацапан или омачкан от прегъване.
Най-често срещаните проблеми са с документи, на които като воден знак през целия лист е отпечатан текст „оригинал“, лого, реклама или положените подписи на доставчика и получателя са масивни и върху разпознавания текст.
Няколко полезни препоръки за сканиране на документ за OCR
Безспорно, най-доброто изображение за OCR е черни букви на бял фон, но този късмет не се среща често. Разделителната способност (скала на сивото) на скенера пряко влияе върху качеството на изходния файл. Това не означава, че изборът на по-висока резолюция винаги води до по-качествено копие. Когато оригиналът е блед и неконтрастен, желанието да се извлече по-четимо изображение чрез висока стойност на разделителната способност при сканирането, може да доведе до включване в изходния файл на точки, петна, следи от прегъване и други дефекти по хартията, които по-късно при обработката да се разпознават като символи и да затрудняват индексирането.
Установяването на оптимална разделителна способност, според техническите характеристики на скенера и вида на оригинала, става с усъвършенстване опитността на потребителя. Повечето фактури успешно се разчитат при резолюция (разделителната способност, скала на сивото) 300 dpi и допълнителни настройки не са необходими.
Добре е фактурите от един доставчик, особено когато те са значителен брой или регулярни (мобилен телефон, гориво, наем, електроенергия, парно…), да се сканират всеки път при еднакви условия (на една и съща системна конфигурация). Това помага за обучението на състемата и постоянно подобрява степента на разпознаването, като съвсем реалистично е тя бързо да достигне 100%.
Изображение на оригинален документ може да бъде качено в архивБОКС само във формат PDF. Добре е той да бъде създаден още при сканирането. Така ще се избегнат ненужна компресия, която влошава качеството на картинката, затруднява автоматичното разпознаване на текст и налага допълнителна обработка на изходния файл. За скенери, които не записват в PDF формат, може да се ползва програма Free scan to PDF (безплатна) или подобна.
Всеки потребител на архивБОКС има на разположение лесно достъпна, в рамките на нормален работен ден, онлайн помощ за индексиране на нов вид фактура в системата си. Достатъчно е да се качи изображението и с един клик да то да се изпрати в отдела за поддръжка, където ще бъде анализирано и индексирано. Дори процесът на автоматично разпознаване да не приключи със 100% успех, грешните или неразпознати индексни полета могат да бъдат попълнени бързо и удобно на ръка.