토큰화

자연어 처리(Natural Language Processing, NLP) : 컴퓨터를 통해 인간의 언어를 분석 및 처리 하는 인공지능의 한 분야 ex) 문서 분류, 키워드 추출, 감정 분석 학습 가능한 데이터양의 증가 및 연산 처리 속도의 발전으로 복잡한 머신러닝 기술 적용 가능 ex) 문서 요약, 기계 번역, Chat bot 데이터 탐색 -> 데이터 전처리 과정이 선행되어야 함. 데이터 통계치, 변수별 특징 -> 이상치 제거, 정규화 단어 개수, 단어별 빈도수 -> 특수기호 제거, 단어 정규화 토큰화(tokenization): 주어진 텍스트를 각 단어 기준으로 분리하는 것을 의미 (띄어쓰기를 기준) -> 소문자 처리 및 특수기호 제거를 통해 동일한 의미의 토큰은 동일한 형태로 변환 rstrip() : ..
유영서
'토큰화' 태그의 글 목록