Optical Character Recognition

OCR (Optical Character Recognition) sau recunoașterea optică a caracterelor reprezintă conversia în format electronic a imaginii unui text tipărit sau scris de mână.

Este utilizat pe scară largă ca modalitate de extragere a datelor din documentele tipărite (facturi, extrase bancare, chitanțe, pașapoarte etc), fotografiate sau scanate.

Pentru a extrage şi modifica datele din documente scanate, imagini provenite de la camera digitală sau fişiere PDF de tip „numai imagine”, este nevoie de un program OCR care să identifice literele din imagine, să le combine în cuvinte, iar apoi cuvintele în propoziţii. Astfel se poate accesa şi edita conţinutul documentului original.