[간단 팁]구글 드라이브를 이용하여 PDF에서 Text 추출하는 법

광학 문자 인식(Optical character recognition; OCR)은 사람이 쓰거나 기계로 인쇄한 문자의 영상을 이미지 스캐너로 획득하여 기계가 읽을 수 있는 문자로 변환하는 것입니다. 그래서 이미지에서 텍스트를 추출하기 위해선, OCR 프로그램이 필요한데 맥에서 Prizmo 등과 같은 좋은 프로그램들이 많이 있고, 아이폰의 경우에도 Textgrabber가 있습니다. 두 프로그램 모두 유료로 판매되고 있고, 본인의 작업 빈도수가 많다면 구매해보는 것도 나쁘지 않을 것 같습니다.

그리고 이미지에서 텍스트를 추출하는 작업의 빈도가 많지 않아 구매하는 것이 번거롭고 변환하고자 할 파일 사이즈가 크지 않다면, 구글 드라이브나 Online OCR Converter를 이용하시면 될 듯 합니다.


구글 드라이브에서 Text 추출하기

구글 드라이브에 pdf 문서를 Upload해주신 후, 우클릭 > Open with > Google Docs만 해주시면 됩니다.

아래 영문/한글을 테스트해보았습니다. 영문은 99퍼센트 변환이 되지만, 한글은 인식률이 저조한 편이었습니다. 영문 위주로 컴퓨터로 작성된 문자들의 경우, 구글 드라이브의 문자 인식 기능을 유용하게 사용할 듯 합니다.

변환할 문자들

출처 – 위키피디아

변환된 문자들

  •  
  •  
  •  
  •  
  •  
  •  
SHARE