맥, 텍스트 문서에서 사용된 단어 종류 (개수) 확인하는 방법

맥의 텍스트 문서 안의 단어 종류단어 개수를 확인하는 방법입니다. 내가 작성한 문서에서 사용된 단어의 폭은 어느 정도인지 혹은 어떤 단어를 자주 사용하는지를 확인해보실 수 있습니다. 문맥의 흐름이 자연스러운지 혹은 강조하고자 하는 단어 등이 적절하게 사용되었는지를 확인하실 수 있습니다. 본 내용은 터미널(Unix) 환경에서 진행되었으며, 단순한 ‘글자수, 단어수, 문장수 세는 방법‘은 링크의 글을 참고 바랍니다.


텍스트 문서에서 사용된 단어 종류 확인

텍스트 문서에서 사용된 단어의 종류, 각 단어의 사용 빈도 등을 확인하는 방법입니다. 예시를 위주로 작성되었으며 테스트 결과를 공유 드리기 위해 아래 예제 텍스트 파일로 진행하였습니다.

예제 텍스트 파일 ▼

아래 파일은 대소문자를 구분하지 않고 총 12개의 단어를 가지고 있습니다.

  • a, If, of, peck, peppers, Peter, picked, pickled, Piper, s, the, Where

본문에 앞서 알아두면 좋은 터미널 커맨드 ▼

 

터미널 앱을 실행하신 후에 아래 커맨드를 활용해보시기 바랍니다. 각 커맨드에 초록색으로 표시된 example.txt 부분 본인의 텍스트 파일로 대체하시면 같은 결과를 확인하실 수 있습니다.

문서에서 사용된 단어 종류 (겹치는 것 삭제, 대소문자 무시) ▼

  • tr -cs “[:alpha:]” “\n” : 알파벳이 아닌 모든 문자를 개행문자(“\n”)로 치환, 개행문자(“\n”)가 두번 이상 나오면 한번만 치환
  • < example.txt : tr 커맨드가 ‘example.txt’의 내용을 INPUT으로 받아서 실행
  • | sort -fu : 대소문자 구분(-f), 중복 삭제(-u)하면서 정렬하기
$ tr -cs "[:alpha:]" "\n" < example.txt | sort -fu
a
If
of
peck
peppers
Peter
picked
pickled
Piper
s
the
Where

각 단어가 몇번 사용되었는지 (대소문자 구분) ▼

$ tr -cs "[:alpha:]" "\n" < example.txt | sort -f | uniq -c
 1 A
 2 a
 1 If
 4 of
 4 peck
 4 peppers
 4 Peter
 4 picked
 4 pickled
 4 Piper
 1 s
 1 the
 1 Where

사용된 단어의 개수 (대소문자 무시) ▼

$ tr -cs "[:alpha:]" "\n" < example.txt | sort -fu | wc -l
 12

이상입니다.

1 COMMENT

댓글 남기기