7 Maneiras Simples e Avançadas de extrair texto de uma imagem

Luiz Teixeira
24/10/2023
22:04

Você já se deparou com a necessidade de extrair texto de uma imagem, mas evitou a digitação manual? Seja ao lidar com um documento digitalizado, um meme hilariante ou uma citação inspiradora, por vezes é conveniente extrair o texto de uma imagem para utilizá-lo em outro contexto. Felizmente, dispomos de várias ferramentas e tecnologias que tornam esse processo possível. Neste artigo, exploraremos sete maneiras de extrair texto de imagens, abrangendo desde as abordagens mais simples até as mais avançadas. Vamos nessa!

Para ilustrar o funcionamento dessas ferramentas, utilizaremos como exemplo a imagem abaixo, que contém um trecho de um poema de Fernando Pessoa:

Agora, vamos descobrir como podemos extrair o texto dessa imagem, explorando as sete abordagens que apresentaremos a seguir:

Utilizando o Google Lens
Utilizando o Microsoft OneNote
Utilizando o Adobe Acrobat
Utilizando o Online OCR
Utilizando o Tesseract OCR
Utilizando o EasyOCR
Utilizando o PyTesseract
Conclusão

1. Utilizando o Google Lens

O Google Lens é uma ferramenta de reconhecimento de imagem desenvolvida pelo Google. Você pode acessá-la através do aplicativo Google Photos ou do aplicativo móvel Google Lens. Para extrair texto de uma imagem usando o Google Lens, siga estes passos:

Abra o aplicativo Google Photos ou Google Lens no seu dispositivo móvel.
Tire uma foto da imagem que contém o texto que deseja extrair.
No Google Lens, toque na imagem e, em seguida, selecione a opção “Texto”.
O Google Lens identificará automaticamente o texto na imagem e o destacará.
Você pode tocar no texto destacado para copiá-lo ou usá-lo conforme necessário.

2. Utilizando o Microsoft OneNote

O Microsoft OneNote oferece uma funcionalidade embutida de OCR que facilita a extração de texto de imagens. Siga estas etapas para usar o OneNote:

Abra o Microsoft OneNote no seu computador.
Crie uma nova página ou abra uma página existente.
Insira a imagem contendo o texto na página.
Clique na imagem para selecioná-la.
Na guia “Ferramentas”, clique em “Copiar Texto de Imagem”.
O texto será automaticamente extraído da imagem e colado na página do OneNote.

3. Utilizando o Adobe Acrobat

O Adobe Acrobat é conhecido por suas capacidades de edição de PDF e também possui uma funcionalidade de OCR. Siga essas etapas para extrair texto de uma imagem usando o Adobe Acrobat:

Abra o Adobe Acrobat no seu computador.
Clique em “Arquivo” e, em seguida, em “Abrir” para importar a imagem.
Após a imagem ser carregada, vá para “Ferramentas” e selecione “Texto Reconhecido”.
Selecione a área do texto na imagem que deseja extrair.
O texto será automaticamente reconhecido e convertido em texto editável.

4. Utilizando o Online OCR

Existem vários serviços de OCR online, e o Online OCR é um deles. Para usar este serviço, siga estas etapas:

Acesse o site do Online OCR .
Clique em “Escolher arquivo” para fazer o upload da imagem contendo o texto.
Escolha o idioma do texto na imagem.
Clique em “Converter” e aguarde o processo de reconhecimento.
Após a conversão, você poderá baixar o texto extraído em um arquivo de texto.

5. Utilizando o Tesseract OCR

O Tesseract OCR é uma ferramenta de código aberto que pode ser executada em sistemas Windows, Mac e Linux. Para utilizá-lo, siga estas etapas:

Baixe e instale o Tesseract OCR em seu sistema.
Abra um terminal ou prompt de comando.
Use o comando apropriado para executar o Tesseract OCR, especificando o arquivo de imagem de entrada e o arquivo de saída. Por exemplo:

				
					tesseract imagem.jpg texto_extraido.txt

O texto extraído será salvo no arquivo de saída especificado.

6. Utilizando o EasyOCR

O EasyOCR é uma biblioteca Python que simplifica o processo de reconhecimento de texto em imagens. Para usá-lo, siga estas etapas:

Instale a biblioteca EasyOCR no seu ambiente Python usando o pip:

				
					pip install easyocr

Escreva um script Python que importa a biblioteca e a utiliza para extrair texto de uma imagem.

A biblioteca EasyOCR simplifica a implementação do OCR em seu código Python.

7. Utilizando o PyTesseract

O PyTesseract é outra biblioteca Python que facilita o uso do Tesseract OCR. Siga estas etapas para utilizá-lo:

Instale a biblioteca PyTesseract no seu ambiente Python usando o pip:

				
					pip install pytesseract

Escreva um script Python que importa a biblioteca e utiliza-a para extrair texto de uma imagem.

Essas bibliotecas Python simplificam a incorporação da funcionalidade de OCR em seus próprios aplicativos e scripts.

Agora você sabe extrair texto de uma imagem

A capacidade de extrair texto de imagens é uma habilidade valiosa que pode economizar tempo e esforço. As opções abordadas neste artigo, desde o Google Lens até as ferramentas de OCR mais avançadas, oferecem uma ampla gama de escolhas para atender às suas necessidades. Experimente algumas delas para encontrar a que melhor se adapta ao seu cenário e aproveite a conveniência de extrair texto de imagens.

Agora que você dominou a arte de extrair texto de imagens, que tal explorar outras dicas e truques no mundo da tecnologia? Leia nosso artigo sobre as tendências mais recentes em inteligência artificial e aprendizado de máquina. Fique por dentro das inovações tecnológicas mais quentes do momento!