Olá,
Estou a dias tentando extrair o texto de uma imagem png com o ImageMagick, porém sem sucesso. Até o momento, consegui "retirar" o fundo e deixar o texto mais visível para que o tesseract extraia, porém ele só enxerga em parte. A melhor formatação até agora que consegui foi com o comando:
convert "C:\Users\ponto\Downloads\PDF\CR-000001.png" -separate -background black -compose plus -flatten "C:\Users\ponto\Downloads\PDF\CR-000004.png"
Deste ponto o tesseract já enxenrga alguma coisa, porém não consigo alterar tamanho da fonte ou a cor e assim por diante para ver se melhora na extração. Só consegui aplicar o morphologic, porém quando aplico o tesseract não consegue enxergar nada.
Segue as imagem original, com algumas censuras...
Postei aqui também já com algum avanço doi que me foi respondido, mas longe do ideal:https://github.com/ImageMagick/ImageMagick/discussions/6490
Estou a dias tentando extrair o texto de uma imagem png com o ImageMagick, porém sem sucesso. Até o momento, consegui "retirar" o fundo e deixar o texto mais visível para que o tesseract extraia, porém ele só enxerga em parte. A melhor formatação até agora que consegui foi com o comando:
convert "C:\Users\ponto\Downloads\PDF\CR-000001.png" -separate -background black -compose plus -flatten "C:\Users\ponto\Downloads\PDF\CR-000004.png"
Deste ponto o tesseract já enxenrga alguma coisa, porém não consigo alterar tamanho da fonte ou a cor e assim por diante para ver se melhora na extração. Só consegui aplicar o morphologic, porém quando aplico o tesseract não consegue enxergar nada.
Segue as imagem original, com algumas censuras...
Postei aqui também já com algum avanço doi que me foi respondido, mas longe do ideal:https://github.com/ImageMagick/ImageMagick/discussions/6490
- Anexos
- CR-000001.png
- Você não tem permissão para fazer download dos arquivos anexados.
- (138 Kb) Baixado 4 vez(es)