SInce 20180106

  • 홈
  • 태그
  • 방명록
  • 글쓰기

stemming 1

4. 텍스트 전처리(정규화)

텍스트를 바로 분석하거나, 임베딩을 할 수는 없다. 따라서, NLP는 사전에 텍스트를 가공하는 작업이 필요하다. 머신러닝 알고리즘이나 NLP API에 입력하기 위해, 텍스트 데이터를 클렌징, 토큰화, 어근화의 과정을 거치는 것을 텍스트 전처리 또는 텍스트 정규화라고 한다. (Text Preprocess, Text Normalization) 순서는 다음과 같다. 1) 클렌징 2) 토큰화 3) 필터링 및 스톱워드 제거 4) Stemming or Lemmatization 차례대로 간략하게 설명하도록 하겠다. 1. 클렌징 텍스트 분석에 불필요한 태그를 삭제하는 과정이다. 요즘 데이터는 대부분 크롤링을 해오기 때문에, html이나 xml태그를 삭제하는 과정이 이에 속한다. beautifulsoup4이나 selen..

Python/NLP(자연어처리) 2020.09.04
이전
1
다음
프로필사진

그냥...

  • 전체보기 (160)
    • Git과Github (1)
    • Python (33)
      • 기초 (9)
      • IDE, 버전관리, 도커 (8)
      • Numpy (3)
      • Pandas (5)
      • Tensorflow & Keras (1)
      • NLP(자연어처리) (5)
      • NLP+Pytorch (2)
    • 선형대수(Linear Algebra) (105)
    • 알고리즘 (1)
    • BlockChain (3)
    • 여행기 (13)
      • 중국, 러시아(18.1.12~1.26) (4)
      • 일본(다카마쓰, 23.4.29~5.2) (4)
      • 중국(광저우, 둥관, 포산, 23.06.03~06.. (5)
    • 여러 책들 후기 (2)
    • Kali Linux (2)

Tag

기저변환, 고유벡터, 고유값, 영공간, Python, 가역성, 선형대수학, linear algebra, 열공간, 선형대수, 부분공간, 파이썬, 기저, 선형독립, 정규직교집합, 행렬식, 정사영, 선형변환, 정규직교기저, 변환행렬,

최근글과 인기글

  • 최근글
  • 인기글

최근댓글

공지사항

  • 디자인도 그지같다
  • 가독성은 떨어진다

페이스북 트위터 플러그인

  • Facebook
  • Twitter

Archives

Calendar

  2025. 05  
일 월 화 수 목 금 토
1 2 3
4 5 6 7 8 9 10
11 12 13 14 15 16 17
18 19 20 21 22 23 24
25 26 27 28 29 30 31

방문자수Total

  • Today :
  • Yesterday :

Copyright © Kakao Corp. All rights reserved.

티스토리툴바

단축키

내 블로그

내 블로그 - 관리자 홈 전환
Q
Q
새 글 쓰기
W
W

블로그 게시글

글 수정 (권한 있는 경우)
E
E
댓글 영역으로 이동
C
C

모든 영역

이 페이지의 URL 복사
S
S
맨 위로 이동
T
T
티스토리 홈 이동
H
H
단축키 안내
Shift + /
⇧ + /

* 단축키는 한글/영문 대소문자로 이용 가능하며, 티스토리 기본 도메인에서만 동작합니다.