Python/NLP(자연어처리)

3. khaiii 설치 및 사용법

frcn 2020. 9. 3. 17:07
반응형

내가 주로 사용하는 형태소 분석기는 khaiii이다.

 

성능과 속도가 둘 다 준수하며, 카카오에서 지속적인 유지관리를 해주지 않을까하는 기대때문에 계속 사용하고 있다. 

 

khaiii(Kakao Hangul Analyzer iii)는 카카오가 2018년에 공개한 한국어 형태소 분석기이다.

 

세종코퍼스를 CNN으로 분석하여 학습했다고 한다.

 

유일한 단점은 Window에서 사용이 불가능하다는 점이다.

 

MacOS과 Ubuntu에서는 사용이 가능함.

 

https://github.com/kakao/khaiii

 

kakao/khaiii

Kakao Hangul Analyzer III. Contribute to kakao/khaiii development by creating an account on GitHub.

github.com

 

1) 설치

 

Mac을 기준으로 작성하지만, ubuntu도 설치방법은 동일합니다.

 

<1> 필요한 라이브러리 설치. (cmake 3.10 이상이 필요함)

#cmd를 실행

pip install cmake

 

 

<2> 해당 깃저장소를 클론받아옴.

git clone https://github.com/kakao/khaiii.git

 

<3> 클론(다운)받은 khaiii디렉토리로 이동하여, build폴더를 생성하고 cmake를 실행

cd khaiii
mkdir build
cd build
cmake ..

 

<4> cmake로 khaiii빌드 및 리소스 빌드

make all
make resource

#라지모델을 사용할 계획이라면,
#make resource 말고 make large_resource


#정상적으로 설치가 되었는지 테스트
ctest

 

정상적으로 실행되었다면 다음과 같이 메시지가 뜰 것이다.

 

 

 

<5> 정상적으로 실행이 되었다면, python 바인딩을 해주고 내 아나콘다 가상환경에 패키지를 설치해주자.

make install

make package_python

cd package_python

pip install .

 

<6> 정상적으로 설치되었다면 다음과 같이 사용할 수 있다.

from khaiii import KhaiiiApi

api = KhaiiiApi()
for word in api.analyze('아버지가 방에 들어가신다.'):
    print(word)

 

 

 

khaiii api에 관한 내용은 아래의 이슈를 참고하자.

https://github.com/kakao/khaiii/issues/34

 

카이 메서드 설명부탁드립니다. · Issue #34 · kakao/khaiii

예시에 나온 Analysis 메서드 말고는 다른 메서드에 대한 정보가 궁금합니다.

github.com

 

반응형

'Python > NLP(자연어처리)' 카테고리의 다른 글

4. 텍스트 전처리(정규화)  (0) 2020.09.04
2. konlpy 사용법  (0) 2020.09.02
1. 임베딩이란  (0) 2020.09.01
BeautifulSoup4를 사용한 간단한 크롤러 만들기  (0) 2020.04.15