Con le nuove norme della Pubblica Amministrazione sulla dematerializzazione dei documenti, i software OCR rappresentano una scelta quasi obbligata per le aziende ma anche per i professionisti e i piccoli imprenditori. Se anche tu sei alle prese con documenti che devono essere informatizzati, fatture elettroniche ricevute da processare, e tempi biblici per l’elaborazione di testi e dati, questa è la guida che fa per te.
Software OCR: cosa sono e a cosa servono
OCR non è altro che l’acronimo di ‘Optical Character Recognition’. Per capirne l’importanza e la complessità, immagina di leggere un testo scritto. Per l’essere umano è del tutto naturale e intuitivo elaborare le parole impresse sulla carta, mentre per un computer si tratta di un’operazione davvero all’avanguardia. Il sistema di lettura ottica serve proprio a questo, a permettere ad un personal computer di riconoscere i caratteri di un documento per poi elaborarli e manipolarli.
La difficoltà fondamentale sta nel fatto che per un pc i caratteri sono immagini prive di significato. Quello che il software fa è interpretare quelle immagini suddividendole in lettere e numeri ai quali attribuire il significato in un ordine di senso compiuto.
Riconoscimento ottico: l’accuratezza è quasi totale
I primi software del caso, come spesso accade in informatica, non erano accurati. Si trattava di programmi di nuova generazione che andavano fondamentalmente per approssimazione. Infatti la qualità dell’elaborato di output non era certo un granché. Al giorno d’ogi sono molte le aziende che sviluppano tali software, che arrivano ad una precisione quasi totale, sfiorando il 99%.
Ciò dipende dalle tante ricerche che si sono portare avanti dagli anni ’60 del secolo scorso fino ad oggi, ciò che ha permesso uno sviluppo notevole di questi programmi diventati ormai necessari. Per approfondire storia e struttura di questi programmi le risorse in rete, come quelle fornite ad esempio da portali quali Datasis.it, sono molte.
Qui ci concentreremo in particolare sulle applicazioni dei diversi tipi di programmi e sull’accuratezza che oggi giorno raggiungono.
L’accuratezza dei software di riconoscimento ottico
Chiunque guardasse un ‘3’, saprebbe benissimo che si tratta di un numero.
Allo stesso modo chiunque guardasse un ‘8’ saprebbe allo stesso modo che non solo si tratta di un numero, ma anche che non è una ‘B’, graficamente molto simile.
Infine, una ‘d’ è una ‘D’ anche se la prima è minuscola e la seconda no, ma è importante distinguerle se la frase è all’inizio. Per il PC questo distinguo non è né semplice né immediato.
La prima applicazione dei programmi quindi, intuitivamente, è l’accuratezza. Il concetto che sta sotto i software è quello della rete neurale, cioè l’assimilazione al cervello umano nella sua qualità di valutare e processare le informazioni.
I moderni programmi sono tanto accurati da leggere scansioni anche scarse in quanto a nitidezza, interpretando nel vero senso della parola il testo per ricostruirlo in piccole parti laddove non si leggesse chiaramente.
Cosa possono interpretare i software
I documenti interpretabili e rielaboratili dai programmi in questione sono, oltre al classico testo in pdf o all’immagine, anche il testo scritto a mano. Si tratta naturalmente di un documento in stampatello. Secondo la grafologia, ogni essere umano possiede un suo modo di scrivere, che dipende dalla pressione della penna, dallo stato d’animo, e dal modo in cui ha imparato a scrivere.
Quante volte capita di ricevere un documento scritto a mano? Anche sul mondo del lavoro questo è frequente. Si pensi ai moduli compilati a mano da digitalizzare, alle fatture elettroniche ai questionari, al data entry e così via. In questo caso la tecnologia è leggermente diversa, e il suo acronimo è ICR, che sta per ‘Intelligent Character Recognition’. Il grado di variazione dei caratteri infatti è molto più ampio, e il pc lavora proprio come un sistema nervoso.
C’è da segnalare infine che la nuova frontiera dell’OCR sono i documenti in corsivo. Per ora l’interpretazione di questi testi è molto complessa, e la ricerca punta proprio a sviluppare software che possano capire, a seconda dell’argomento, quale tipo di parola possa essere impressa sul foglio