맥의 텍스트 문서 안의 단어 종류 및 단어 개수를 확인하는 방법입니다. 내가 작성한 문서에서 사용된 단어의 폭은 어느 정도인지 혹은 어떤 단어를 자주 사용하는지를 확인해보실 수 있습니다. 문맥의 흐름이 자연스러운지 혹은 강조하고자 하는 단어 등이 적절하게 사용되었는지를 확인하실 수 있습니다. 본 내용은 터미널(Unix) 환경에서 진행되었으며, 단순한 ‘글자수, 단어수, 문장수 세는 방법‘은 링크의 글을 참고 바랍니다.
텍스트 문서에서 사용된 단어 종류 확인
텍스트 문서에서 사용된 단어의 종류, 각 단어의 사용 빈도 등을 확인하는 방법입니다. 예시를 위주로 작성되었으며 테스트 결과를 공유 드리기 위해 아래 예제 텍스트 파일로 진행하였습니다.
예제 텍스트 파일 ▼
아래 파일은 대소문자를 구분하지 않고 총 12개의 단어를 가지고 있습니다.
- a, If, of, peck, peppers, Peter, picked, pickled, Piper, s, the, Where
본문에 앞서 알아두면 좋은 터미널 커맨드 ▼
터미널 앱을 실행하신 후에 아래 커맨드를 활용해보시기 바랍니다. 각 커맨드에 초록색으로 표시된 example.txt 부분 본인의 텍스트 파일로 대체하시면 같은 결과를 확인하실 수 있습니다.
문서에서 사용된 단어 종류 (겹치는 것 삭제, 대소문자 무시) ▼
- tr -cs “[:alpha:]” “\n” : 알파벳이 아닌 모든 문자를 개행문자(“\n”)로 치환, 개행문자(“\n”)가 두번 이상 나오면 한번만 치환
- < example.txt : tr 커맨드가 ‘example.txt’의 내용을 INPUT으로 받아서 실행
- | sort -fu : 대소문자 구분(-f), 중복 삭제(-u)하면서 정렬하기
$ tr -cs "[:alpha:]" "\n" < example.txt | sort -fu
a
If
of
peck
peppers
Peter
picked
pickled
Piper
s
the
Where
각 단어가 몇번 사용되었는지 (대소문자 구분) ▼
$ tr -cs "[:alpha:]" "\n" < example.txt | sort -f | uniq -c
1 A
2 a
1 If
4 of
4 peck
4 peppers
4 Peter
4 picked
4 pickled
4 Piper
1 s
1 the
1 Where
사용된 단어의 개수 (대소문자 무시) ▼
$ tr -cs "[:alpha:]" "\n" < example.txt | sort -fu | wc -l
12
이상입니다.
[…] macOS 문서 안에 들어 있는 단어의 종류 알아내기 […]