Tesseract vs. Google Vision

Veja um comparativo de velocidade e assertividade de cada OCR.

Tipos de OCR

Conversão de documentos inteiros em texto (FullText)

Também conhecido com "FullText OCR", esta é uma das formas mais difundidas de uso dessa tecnologia.

Com o software de "OCR FullText" você pode digitalizar documentos por inteiro e submetê-los ao OCR, recebendo todo o texto do documento em retorno. Tudo que for reconhecido será convertido para texto no documento, passível de edição.

No Zeev docs, todas as imagens são, sempre, processadas no componente de "FullText OCR". Isso pode ser visualizado no quadro que aparece abaixo da foto digitalizada.

Esse conteúdo textual é armazenado no Zeev docs com o arquivo original, como metadados.

Esse conteúdo FullText pode ser utilizado posteriormente, entre outras coisas, na pesquisa genérica por palavras-chave global da ferramenta.

O conteúdo FullText também é usado, no Zeev docs, para a funcionalidade de Autossugestão no preenchimento de indexadores. Ao digitar as 2 primeiras letras em um indexador, o sistema irá buscar no conteúdo FullText as possibilidades de preenchimento.

Documentos semi ou não-estruturados

São considerados documentos semi ou não estruturados documentos que não possuem padronização. Assim, não é viável extrair informações com base na posição em que cada informação está no documento. Os cupons fiscais podem ser vistos como documentos semiestruturados, assim como as notas fiscais impressas, pois é sabido quais informações estão disponíveis dentro destes documentos, mas dada a imensa variedade de layouts existentes, é praticamente impossível configurar layouts que atendam todas as situações.

A abordagem de OCR para este tipo de documento é diferente. Em essência o que é feito é a extração completa do texto que está dentro da imagem e o sistema faz a busca do conteúdo desejado com base em palavras chaves, ou chamadas "âncoras". Seria como dizer para o sistema: "Primeiro, extraia todo o texto. Neste texto, você encontrará o número do CNPJ fazendo uma busca pelo texto 'CNPJ:'. Os próximos 18 caracteres encontrados após a palavra 'CNPJ:' é o que você está buscando".

Os documentos pessoais brasileiros, aí incluindo RG, CPF, comprovantes de residência e passaporte, dada a grande variabilidade, podem ser considerados semi ou não-estruturados.

No Zeev docs, a funcionalidade de OCR semi/não-estruturado é obtida através da utilização de bibliotecas pré-prontas, configuradas no módulo de Regras de Negócio de uma biblioteca, que determinem a expressão regular ou âncora de texto que servirá de base para a identificação da informação. Esse recurso é utilizado na indexação de um documento, após sua digitalização/importação, para o preenchimento automático de indexadores.

No exemplo abaixo, os campos CPF e Nome foram preenchidos automaticamente usando essa tecnologia.

Documentos estruturados

É considerado um documento estruturado aquele que possui características que permitam uma extração de informação com base na posição em que cada informação está no documento. É como se nós estivéssemos jogando batalha naval para descobrir onde cada informação está no documento. Assim como no jogo, é necessário ensinar o sistema de OCR onde buscar uma determinada informação, passando como referência uma posição dentro do documento. Por isso, também é conhecido como OCR Zonal.

Seria como dizer para o sistema: você encontrará o número do CNPJ dentro deste documento partindo da extremidade superior esquerda, se deslocando 5 cm para baixo e 2 cm para a direita. É aí que estará o início do número do CNPJ. Desloque-se por mais 5 cm à direita e 1 cm para baixo. Aí estará o fim do número do CNPJ.

A partir desta orientação, o sistema recorta a imagem dentro da área que foi delimitada usando as coordenadas fornecidas. É aí que é aplicada a tecnologia: para reconhecer o conteúdo que está dentro da área desta imagem, convertendo a imagem em um texto reconhecido como "11.222.333/0001-44".

O Zeev docs, atualmente, não suporta nativamente a tecnologia de OCR Zonal. Entretanto, diversos projetos customizados já foram desenvolvidos integrando máquinas de OCR com funcionalidades zonais. Além disso, é importante destacar que a tecnologia disponível para documentos não/semiestruturados também pode ser usada, em diversos casos, para documentos estruturados.

Assertividade do OCR

Cabe ressaltar que independentemente do tipo de OCR utilizado, todos têm em comum pré-requisitos de qualidade e tratamento de imagem. Quanto melhor a qualidade da imagem, maior a probabilidade de um melhor nível de reconhecimento. Nos dias de hoje, documentos que não sejam nativamente eletrônicos podem ser capturados a partir de diferentes formas e dispositivos, como por exemplo scanners domésticos, multifuncionais, a partir da câmera de dispositivos móveis como tablets e smartphones, entre outros. Dada a variedade e qualidade de cada um destes dispositivos, é fácil entender que podemos ter os mais variados formatos e qualidades de arquivos gerados. Independentemente da origem, as boas práticas dizem que:

  • As imagens eletrônicas geradas tenham uma resolução mínima recomendada de 300 dpi. DPI é sigla de "dots per inch" ou pontos por polegada. Ou seja, quanto maior a quantidade de DPIs, maior a resolução da imagem e provavelmente maior a qualidade do reconhecimento.

  • A tecnologia OCR foi desenvolvida para processar imagens em preto e branco. Portanto, um documento colorido deve passar por um processo de conversão para essas cores para depois ser reconhecido. Não se preocupe, a maioria das soluções de OCR já faz isso automaticamente

  • No caso de captura de imagens a partir de um aparelho celular, não é possível garantir luminosidade, diferentemente de um scanner. Além disso, a foto da imagem pode ter sido registrada com ângulo e perspectiva incorretos. Portanto, é essencial que se use mecanismos para garantir uma captura dentro dos requisitos.

Tempo de processamento do OCR

O tempo necessário para reconhecer um documento pode variar de alguns milissegundos até alguns segundos. É importante que seja avaliado qual é o tempo necessário para reconhecimento dos documentos dentro do processo como um todo, separando tempo adequado somente para a parte de reconhecimento. O que muitos esquecem é que a maioria dos negócios que envolvem documentos possuem algum tipo de sazonalidade, ou seja, há horários específicos do dia, dias da semana ou semanas do ano onde há aumento no volume de processamento. Imagine o processamento de documentos de uma loja que vende aparelhos celulares na época de compras de Natal.

Use como parâmetro a época do ano que possui maior volumetria e ainda considere espaço para processar um pouco mais. Se for possível utilize uma solução elástica, que permite adicionar ou remover poder de processamento de forma simples e rápida.

Discos rígidos rápidos, principalmente os SSD, ajudarão a ter tempos de gravação mais rápidos.

Etapas de processamento de OCR no Zeev docs

Atualmente, o Zeev docs habilita funcionalidades de OCR nos seguintes módulos:

  • Importação de documentos

  • Edição de documentos

Observe que o recurso não está habilitado no módulo de digitalização de documentos (operação de captura de documentos em papel via scanner). Isso, pois essa etapa requer indicadores de produtividade e velocidade de operação que não seriam suportados com a inclusão in loco de um processamento de OCR. Entretanto, documentos digitalizados via scanner podem se beneficiar do OCR configurando-se uma "Etapa" do fluxo de trabalho de documentos posterior a digitalização, que utilize a funcionalidade de "Edição de documentos".

Tecnologias de OCR disponíveis no Zeev docs

O Zeev docs trabalha nativamente com duas soluções de OCR: o Google Cloud Vision e o Tesseract. Ambas são otimizadas para cenários diferentes e possuem custo, grau de assertividade e tempo de processamento diferentes.

O que é a API do Google Cloud Vision?

O Google Cloud Platform (GCP), oferecido pelo Google , é um pacote de serviços de computação em nuvem que é executado na mesma infraestrutura que o Google usa internamente para seus produtos de usuário final, como a Pesquisa do Google e o YouTube . Juntamente com um conjunto de ferramentas de gerenciamento, ele fornece uma série de serviços em nuvem modulares, incluindo computação, armazenamento de dados, análise de dados e aprendizado de máquina .

O Google Cloud Vision é considerado uma das máquinas de OCR mais poderosas e assertivas do mercado. Ele consegue reconhecer texto em imagens mesmo que a imagem esteja em má qualidade, o texto ofuscado, pequeno, ou mesmo no fundo da página.

Uma das questões envolvidas no GCV é que o arquivo precisa ser enviado, via API, para o servidor do Google. O contrato de serviço do Google estabelece que o arquivo será tratado de maneira privada e o Google manterá sigilo e anonimidade sobre o conteúdo. Entretanto, existirá sempre o delay de comunicação de rede ao enviar o arquivo ao servidor do Google e aguardar o retorno. Quanto maior for o arquivo, mais pesado, maior será esse tempo de envio. Apesar disso, o tempo de processamento do Google, uma vez que tenha o arquivo, é extremamente veloz.

O que é o Tesseract OCR?

O Tesseract foi originalmente desenvolvido na Hewlett-Packard Laboratories Bristol e na Hewlett-Packard Co, Greeley Colorado entre 1985 e 1994, com algumas alterações feitas em 1996 para portar para o Windows e algumas C ++ em 1998. Em 2005 a Tesseract teve seu código fonte aberto e tornado open source. Desde 2006, é desenvolvido pelo Google como um projeto Open Source mantido com apoio da comunidade de usuários.

O Tesseract, por ser uma opção open source, possui diversas limitações de captura de OCR. É necessário que a imagem esteja em resolução específica, e em formato e qualidade adequados.

O Tesseract, entretanto, roda no mesmo servidor do Zeev docs, e por isso não envolve processos de enviar a imagem via rede para outro servidor. Isso teoricamente diminuiria o tempo de processamento. Entretanto, ele é muito menos otimizado que o Google Cloud Vision. Além disso, para que seja assertivo, o Zeev docs aplica uma série de filtros e processamentos para que a imagem fique mais otimizada para o OCR. Esses fatos fazem com quem seu tempo final de processamento seja impactado, podendo ser mais lento do que o Google Cloud, mesmo rodando localmente.

Quadro comparativo básico

Google Vision
Tesseract

Fornecedor

Google

Open source

Custo

A partir de US$ 1,50 por 1.000 páginas de documentos

Gratuito

Processamento

Na nuvem

No servidor do Zeev docs

Resolução e qualidade das imagens para OCR

Ruins/médias/boas

Boas

Reconhecimento de texto manuscrito

Não

Sim

Suporte a documentos PDF

Sim

Não

Comparativo de velocidade e assertividade

Recomenda-se que cada cliente/operação realize testes utilizando as duas máquinas de OCR, de modo a verificar a velocidade e assertividade de cada opção. A melhor escolha poderá variar muito conforme o tipo de documento que esteja sendo digitalizado, os requisitos de produtividade e tempo de resposta, a expectativa e a necessidade de assertividade. Além, é claro, dos custos totais envolvidos.

De modo geral, como curiosidade, mostramos abaixo o resultado de velocidade e assertividade de algumas imagens. É importante você não avaliar os resultados olhando unicamente pela clareza visual das imagens, visualmente falando. Os critérios técnicos para o OCR envolvem coisas como a resolução da imagem que, muitas vezes, não são perceptíveis a olho nu em um computador ou monitor simples. Compare principalmente os resultados entre uma opção e outra.

Exemplo: se apresentarmos abaixo uma foto de RG e a assertividade do Tesseract for ruim, não quer dizer que será sempre ruim para qualquer RG. Irá depender e variar conforme a resolução e o modo como o RG foi digitalizado.

Exemplo 1 - Título de eleitor

Google Cloud Vision
Tesseract

Texto capturado

REPÚBLICA FEDERATIVA DO BRASIL TÍTULO ELEITORAL IDENTIFICAÇÃO BIOMÉTRICA NOME DO ELEITOR - DANIEL COELHO DA COSTA -- DATA DE NASCIMENTO N° INSCRIÇÃO - D.V. ZONA SEÇÃO 19/12/1980 ll 9876 5432 1098 ll 123 ll0789 MUNICÍPIO / UF- SÃO PAULO/SP DATA DE EMISSÃO 05/05/2018 e Novem RATIV00 DOBRA 1889 JUIZ LEITORAL - VÁLDescargador Marcos Cavalem de Allaquen REPÚBLICA FEDERATIVA DO BRASIL NO 0.00 0 old POLEGAR DIREITO Cha ASSINATURA OU IMPRESSÃO DIGITAL DO ELEFON VÁLIDO SOMENTE COM MARCA D'ÁGUA - JUSTIÇA ELEITORAL 200101010 010

TÍTULO ELEITORAL IDENTIHCAÇÃO momémcn NOME DO ELEITOR DANIEL COELHO DA COSTA DATA DE NASCIMENTO Nª WNSCRXÇÃO D.V. ZONASEÇÃO ' 19/12/1980 1 9876 5432 1098 t 123 0789 DATA DE EMISSÃO 05/05/201 8 _ _ .. _ I 1, (T :; ##-"HSM? vu.-... eaw-Ianni hub-wm- ".«3 DC,ÉC1;1P 'RLE "U VÁLIDO SOMENTE COM MARCA D'ÁGUA - JUSTIÇA ELEITORAL ........ , , v , , . . . . ......., .....? .]..- _J.-.-;.=.x._.x.,....,u - 1 - - ; _- _u..,.um.m.i.n.l.ll.l.'.l.lli.-Nulí Alnvhlhlnlnhúnwnhl mmm-mim.?. '

Velocidade captura

4,37 segundos

5,83 Segundos

Exemplo 2 - RG

Google Cloud Vision
Tesseract

Texto capturado

O OCREPÚBLICA FEDERATIVA DO BRASILO O S ESTADO DO ESPÍRITO SANTO SECRETARIA DE ESTADO DE SEGURANÇA PUBLICA POLICIA CIVIL SPTO/DEPARTAMENTO DE IDENTIFICAÇÃO ASSINATURA DO TITULAR WOOX OXA CARTEIRA DE IDENTIDADE O O O THOMAS GREGON R VÁLIDA EM TODO O TERRITÓRIO NACIONAL EXPEDIČO 04/AGO/2018 BERSTRO 70.850.960-0 NOME FLÁVIA DIAS FILIAÇÃO JOANA SANTOS DIAS PAULO DIAS DATA DE NASCIMENTO 27/04/2002 NATURALIDADE SÃO PAULO - SP DOC ORIGEM SÃO PAULO SP CARTÓRIO DA SÉ 410.520.630-70 CPE ASSINATURA DO DIRETOR SOO O LEI N° 7.116 DE 29/08/880 OSO THOMAS GRED SONS

FLÁVIA DIAS JOANA SANTOS DIAS PAULO DIAS SAO PAULO , SP sÃo PAULO SP CARTÓRIO DA SÉ 4LO.520.630770 Lgxwrueoszwmb OA/AGO/ZDLB 27/04/2002

Velocidade captura

2,03 segundos

1,87 segundos

Exemplo 3 - Comprovante de residência

Google Cloud Vision
Tesseract

Texto capturado

vivo www.vivo.com.br/suaconta Cental de Relacionamento Vivo 8486 Fale Conosco www.vivo.com.br/faleco nosco WASA Av. Ayton Senna, 2200 CEP: 22775-000 - Rio de Janeiro - RJ IE: BRAAS CNPJ 122 449 5620161-01 MARIA EDUARDA DA SILVA AV FERNANDO FERRARI, 123 VITORIA - ES 29072-340 ESPÍRITO SANTO - ES Conta: 2014861670 VENCIMENTO: TOTAL A PAGAR - R$ Emissão: 10/12/2009 Més de Referência: 12/2009 Período: 06/11/09 a 05/12/09 21/12/2009 445,35 Número's dols Celulares 21-7105-5659 21-9614-3144 21-99 88-3444 Relação total de celulares está localizada na seção Celulares que compõem sua Fatura. Lançamentos Diversos Crédito R$ Débito R$ Resumo de Utilização Planos Contratados Serviços Adicionais Chamadas Dentro da área de Registro Chamadas Locais Originadas Chamadas de Longa Distância Crédito R$ Débito R$ 187,80 28,06 Total de Créditos/Débitos 0,00 445,35 445,35 1,99 227,50 TOTAL A PAGAR ATÉ A EMISSÃO DESTA FATURA CONST AVAIM DÉBITOS DE CONTAS ANTERIORES ESTE BOLETO NÃO QUITA DÉBITOS ANTERIORES Prezado cliente, mantenha o pagamento em dia evitando a suspensão parcialbtal dos serviços e a inclusão nos orgãos de proteção ao crédito. Para pagaments realizados após a data de vencimento serão cobrados na próxima fatura multa de 2% e juros de 1% ao mês. Autenticação Mecanca vivo 846900000049 453500480018 120148616705 120960912216 VENCIMENTO TOTAL A PAGAR - R$ 21/12/2009 445,35 Nome do Cliente MARIA EDUARDA DA SILVA Identificação de Débib Aubmático 201486 1670-9 Número da Conta 2014861670 Mês Referência 12/2009

www.vivo.com.brlsuacoma MARWA EDUARDA DA SWLVA AV FERNANDO FERRARW 123 VWTORWA , ES , 290727340 ESPWRWTO SANTO , ES WM m' A msm nam mm msm/um nÉEWOtSl nz mms; ANIERwoRtEsy ESTE EOLEYO NÃO Jl/WA nÉxWos ANYERWORE pªm ºmnes mmm a manememdaeuhmuasãvensãu pamammsªwae; mxm msºrgiusde ?lªnçam Fava manenbsveahzmusavtáamàde .enmmenm gamas ra Mamma mmadeyte Wade m a mês 846900000049 453500480018120148616705120960912216 ; ,- v'vo %] mm. ?ª,? Woemnuáuoe nem, Aubnmm Humemdacum Humm?? Hummm NEIMWMWIIWIIIHll WIIHHHWWW HMHHHHHHHHHHH

Velocidade captura

3,03 segundos

14,53 segundos

Exemplo 4 - Modelo de contrato

Google Cloud Vision
Tesseract

Texto capturado

[email protected] Pelo presente instrumento particular de contrato de representação comercial, impresso em duas vias, e devidamente assinado, a firma...... denominação e endereço................. .......... representado por qualificação ............ doravante designada "REPRESENTADA", e, de outro lado,............. ............. qualificação ................. ......... registrada 0 no CONSELHO REGIONAL DOS REPRESENTANTES COMERCIAIS NO ESTADO ..................... ......... sob o nº... ............ tendo como seu representante comercial responsável o signatário..... ........., reg. nº........... ...... doravante designado a "REPRESENTANTE", sujeitando.se às normas da 1a Lei número 4.886, de 09/12/65, com as alterações introduzidas pela Lei nº 8.420 de 08/05/92, têm entre si, justo e contratado, o que mutuamente aceitam as cláusulas abaixo estipuladas: PRIMEIRA A REPRESENTADA, por força do presente ajuste, nomeia o a Sr. a............. OU............. ....... a firma tal........... ................Seu sua representante exclusivo na zona ....... ..............especificando Estado, o Município, o Bairro, etc.., conforme caso SEGUNDA Cabe ao REPRESENTANTE, como primordial obrigação, a ?promoção de vendas, na zona atribuída', dos artigos e produtos, objetos de comércio ou da indústria da REPRESENTADA, ou, então dos artigos ou produtos, do comércio ou da indústria da REPRESENTADA agenciando propostas na referida zona e as transmitindo para aceitação. TERCEIRA A REPRESENTADA/CLIENTE durante a vigência deste contrato não poderá nomear na zona atribuída, outro representante para o agenciamento de propostas de vendas dos artigos ou produtos de seu comércio ou indústria vide observações 1.2 QUARTA O REPRESENTANTE fará jus à comissão, pelos negócios realizados pela REPRESENTADA, diretamente ou por intermédio de terceiros, na zona que lhe é atribuída por força do presente contrato vide observação 3. QUINTA O REPRESENTANTE poderá exercer sua atividade para outra empresa . ou efetuar negócios em nome e por conta própria ., desde que não se trate de atividade concorrente com a REPRESENTADA. SEXTA O REPRESENTANTE fica obrigado a fornecer à REPRESENTADA, quando lhe for solicitado, informações detalhadas sobre o andamento dos negócios postos a seu cargo, devendo dedicar.se à representação de modo a expandir os negócios da REPRESENTADA e promover seus produtos. SÉTIMA Salvo autorização expressa, não poderá o REPRESENTANTE conceder abatimento, descontos ou dilações de prazo, nem agir em desacordo com as instruções da REPRESENTADA. OITAVA O REPRESENTANTE poderá ser constituído mandatário, com poderes especiais para conclusão de negócios e, além dos deveres gerais emergentes deste contrato, deverá agir na estrita conformidade do mandato que lhe for outorgado, ficando sujeito às prescrições legais relativas ao mandato mercantil .NONA

joao.souza©teste.com.br Pelo presente instrumento particular de contrato de representação comercial, impresso em duas vias, e devidamente assinado, a firma ........................................................................... denominação e endereço ........................................................................................................ representado por qualificação .......................................................................... doravante designada "REPRESENTADA", e, de outro lado, ................................................................ qualificação ................. ......................................................... registrada o no CONSELHO REGIONAL DOS REPRESENTANTES COMERCIAIS NO ESTADO .................................... sob o nº. ................................................... tendo como seu representante comercial responsável o signatário ....................................................................... ......... , reg. nº doravante designado a "REPRESENTANTE", sujeitando.se às normas da 1ª Lei número 4.886, de 09/12/65, com as alterações introduzidas pela Lei nº 8.420 de 08/05/92, têm entre si, justo e contratado, o que mutuamente aceitam as cláusulas abaixo estipuladas: PRIMEIRA A REPRESENTADA, por força do presente ajuste, nomeia o a Sr. a ..................................................... ou ..................................................................................... a firma tal ....... ................ seu sua representante exclusivo na zona ...................................................especificando Estado, o Município, o Bairro, etc.., conforme caso SEGUNDA Cabe ao REPRESENTANTE, como primordial obrigação, a ?promoção de vendas, na zona atribuída?, dos artigos e produtos, objetos de comércio ou da indústria da REPRESENTADA, ou, então dos artigos ou produtos, do comércio ou da indústria da REPRESENTADA agenciando propostas na referida zona e as transmitindo para aceitação. TERCEIRA A REPRESENTADA/CLIENTE durante a vigência deste contrato não poderá nomear na zona atribuída, outro representante para o agenciamento de propostas de vendas dos artigos ou produtos de seu comércio ou indústria vide observações 1.2 QUARTA O REPRESENTANTE fará jus à comissão, pelos negócios realizados pela REPRESENTADA, diretamente ou por intermédio de terceiros, na zona que lhe é atribuída por força do presente contrato vide observação 3. QUINTA O REPRESENTANTE poderá exercer sua atividade para outra empresa . ou efetuar negócios em nome e por conta própria ., desde que não se trate de atividade concorrente com a REPRESENTADA. SEXTA O REPRESENTANTE fica obrigado a fornecer a REPRESENTADA, quando lhe for solicitado, informações detalhadas sobre o andamento dos negócios postos a seu cargo, devendo dedicar.se à representação de modo a expandir os negócios da REPRESENTADA e promover seus produtos. SÉTIMA Salvo autorização expressa, não poderá o REPRESENTANTE conceder abatimento, descontos ou dilações de prazo, nem agir em desacordo com as instruções da REPRESENTADA. OITAVA O REPRESENTANTE poderá ser constituído mandatário, com poderes especiais para conclusão de negócios e, alem dos deveres gerais emergentes deste contrato, deverá agir na estrita conformidade do mandato que lhe for outorgado, ficando sujeito às prescrições legais relativas ao mandato mercantil .NONA

Velocidade captura

6,23 segundos

8,90 segundos

Conclusões

Com base unicamente nos testes simplificados realizados acima, podemos verificar:

  • Na maioria absoluta das vezes, o Google Cloud Vision é mais rápido que o Tesseract;

  • Em todas as tentativas, a assertividade do Google Cloud Vision é bem melhor que a do Tesseract;

  • Mesmo que o Tesseract não consiga reconhecer alguns caracteres, na maioria das vezes, as informações mais importantes, como o nome da pessoa ou números, ele reconheceu ou reconheceu parcialmente;

  • Quanto maior o documento mais tempo leva o processamento;

  • Um documento em preto e branco (texto em preto com fundo limpo em branco) tem assertividade de reconhecimento muito melhor que um documento com fundo colorido. Isso se torna especialmente mais evidente no Tesseract;