Python/NLP(자연어처리)

2. konlpy 사용법

frcn 2020. 9. 2. 10:10
반응형

한국어를 자연어처리하기 위해서는 형태소 단위로 문장을 분석해야 한다.

 

영어의 경우 띄어쓰기를 기준으로 단어를 나눠서 분석하면 되지만, 한국어는 의미를 나타내는 가장 작은 단위인 형태소로 분석한다.

 

1) 설치

 

가상환경에서 pip install konlpy를 한다.

 

 

2) 사용법

konlpy에는 은전한닢(Mecab), 꼬꼬마(kkma), 한나눔(Hannanum), Okt, 코모란(Komoran)이라는 5개의 형태소 분석기를 통합적으로 지원한다. 

 

API

https://konlpy-ko.readthedocs.io/ko/latest/api/konlpy.tag/#

 

tag Package — KoNLPy 0.5.2 documentation

매개 변수: jvmpath -- The path of the JVM passed to init_jvm(). userdic -- The path to the user dictionary. This enables the user to enter custom tokens or phrases, that are mandatorily assigned to tagged as a particular POS. Each line of the dictionar

konlpy-ko.readthedocs.io

 

 

<1> Mecab

 

konlpy을 설치받았을 때는, 은전한닢을 윈도우에서 사용이 불가능하다. 맥, ubuntu는 가능.

 

만약에 사용하고 싶다면, https://cleancode-ws.tistory.com/97을 참고하여 설치하면 된다.

 

 

<2> Kkma

 

morphs = 형태소, noun = 명사, pos 형태소 + 품사

 

 

<3> Hannanum

 

morphs = 형태소, analyze = 형태소 가능한 경우의 수, noun = 명사, pos 형태소 + 품사

 

 

<4> Okt

 

morphs = 형태소, noun = 명사, pos 형태소 + 품사

 

 

 

<5> Komoran

 

morphs = 형태소, noun = 명사, pos 형태소 + 품사

 

 

 

konlpy는 khaiii에 비해 정답률이 떨어지는 편이라, 나는 사용하지 않는 편이다.

 

하지만 가볍게 사용하려면 괜찮다고 생각한다.

반응형

'Python > NLP(자연어처리)' 카테고리의 다른 글

4. 텍스트 전처리(정규화)  (0) 2020.09.04
3. khaiii 설치 및 사용법  (0) 2020.09.03
1. 임베딩이란  (0) 2020.09.01
BeautifulSoup4를 사용한 간단한 크롤러 만들기  (0) 2020.04.15