OCR e autopreenchimento de campos

Quando os campos do documento serão preenchidos com o mesmo conteúdo presente nos arquivos, é possível utilizar a funcionalidade de extração de texto (OCR) e sugestão de preenchimento em campos.

Visão geral

Quando os campos do documento serão preenchidos com o mesmo conteúdo presente nos arquivos, é possível utilizar a funcionalidade de extração de texto (também conhecida como OCR) e sugestão de preenchimento em campos.

Um exemplo é a importação de uma CNH para uma biblioteca de documentos pessoais. O documento no Zeev docs espera receber alguns dados que existem na CNH, como:

  • Nome completo;

  • CPF;

  • Data de nascimento;

  • Nome da mãe;

  • Nome do pai.

A extração pode ser realizada em:

  • Qualquer arquivo em formato de imagens;

  • PDF (exclusivo para OCR Google Vision)

Dica: o OCR também pode ser utilizado na edição do documento, após ser importado para a biblioteca.

Requisitos mínimos de qualidade da imagem

Para um bom uso desta funcionalidade com imagens, recomendamos que ela tenha o texto nítido e siga os seguintes requisitos mínimos de qualidade para o reconhecimento mais assertivo do texto:

  • Resolução em 300 DPIs;

  • A imagem deve estar em tons de cinza (coloração);

  • Alinhamento do texto na horizontal;

  • Fundo da imagem com o texto deve estar limpo.

Como funciona o OCR do Zeev docs

Ao carregar um arquivo será exibido um quadro abaixo do visualizador, com o conteúdo textual extraído (caso o arquivo possua textos ou o motor do OCR reconheça o texto). Ao mesmo tempo, os campos do tipo texto presentes no formulário receberão a funcionalidade de autopreenchimento: ao iniciar a digitação de uma palavra serão apresentadas sugestões de texto para o preenchimento, conforme o conteúdo textual reconhecido no arquivo que está sendo visualizado.

A extração de texto, com o uso de expressões regulares, também permite que os campos sejam automaticamente preenchidos, sem que o usuário precise iniciar a digitação do seu conteúdo; entretanto, é necessário efetuar algumas configurações no módulo.

Dica: essa funcionalidade não é suportada em campos do tipo texto configurados para dupla digitação.

Também é possível configurar para que o OCR dos arquivos seja realizado utilizando a API do Google Vision, ao invés do recurso nativo disponível na ferramenta.

Caso a extração de texto esteja sendo realizada em um arquivo PDF (disponível apenas para a API do Google Vision), é possível que a mesma demore algum tempo para retornar resultados, principalmente se o arquivo utilizado na extração possuir um tamanho grande. Nesses casos, a extração poderá ser realizada em segundo plano. Em casos excepcionais, pode ocorrer erro na leitura do arquivo. Em ambas as situações o usuário será informado no box de reconhecimento do OCR.

Ainda no caso de extração de textos em arquivos PDFs, é possível configurar a quantidade de páginas do arquivo que será reconhecida.