문서 유사도 측정 문서는 다양한 요소와 이들의 상호작용으로 구성 가장 기본 단위인 단어 조차 문서와 관련된 다양한 정보(형태소, 키워드,개체명(Named entity), 중의적 단어)를 포함 상위 개념인 문장 또한 추가적인 정보(목적어, 주어, 문장 간 관계, 상호참조해결)를 제공 * 문서 벡터 간 유사도 측정 위해 코사인 유사도 자주 사용 Bag of Words :문서 내 단어의 빈도수를 기준으로 문서 벡터를 생성 존재하지 않은 단어에 대해서도 column 으로 넣고 존재하지 않으니 0으로 채우기 --> 자주 발생하는 단어가 문서의 특징을 나타낸다는 것을 가정 - Bag of words 문서 벡터의 차원은 데이터 내 발생하는 모든 단어의 개수와 동일 - 합성어를 독립적인 단어로 개별 처리 N - gra..
Data Analysis
한국어는 단어의 기준이 명확하지 않음 공백으로 나뉘는 단어들은 각각이 의미적 기능을 하는 부분과 문법적 기능을 하는 부분의 조합으로 구성 형태소 분석: 주어진 한국어 텍스트를 단어의 원형 형태로 분리해 주는 작업 KoNLPy 는 여러 한국어 형태소 사전을 기반으로 한국어 단어를 추출해 주는 파이썬 라이브러리 Mecab, 한나눔, 꼬꼬마, Komoran, Open Korean Text 라는 5가지의 형태소 사전이 라이브러리에 있음 class 객체 만들어주고, .nouns 를 이용해서 의미있는 단어만 추출 .pos로 각 기능에 대해 알려줌 * 각 형태소 사전별 형태소 표기 방법 및 기준의 차이가 존재 KoNLPy 를 이용한 한국어 전처리 # 경고문을 무시합니다. import warnings warnings...
뉴스, 백과 사전 같은 텍스트는 객관적인 정보를 제공 비슷한 감정을 표현하는 문서는 유사한 단어 구성 및 언어적 특징을 보일 것을 가정 감정분석(Sentiment analysis)은 텍스트 내에 표현되는 감정 및 평가를 식별 모델링에서는 텍스트 내 (1)감정을 분류 하거나 (2)긍정/부정의 정도를 점수화 :감정 모델을 직접 만들고 학습해보기! 학습 데이터 란 감정 분석 모델을 훈련시키기 위해 문장과 해당 문장의 감정이 포함되어 있는 데이터셋을 의미 from sklearn.model_selection import train_test_split # 파일을 읽어오세요. data = [] with open('emotions_train.txt', 'r') as f: for line in f: #각 세미 콜론을 기..
자연어 처리(Natural Language Processing, NLP) : 컴퓨터를 통해 인간의 언어를 분석 및 처리 하는 인공지능의 한 분야 ex) 문서 분류, 키워드 추출, 감정 분석 학습 가능한 데이터양의 증가 및 연산 처리 속도의 발전으로 복잡한 머신러닝 기술 적용 가능 ex) 문서 요약, 기계 번역, Chat bot 데이터 탐색 -> 데이터 전처리 과정이 선행되어야 함. 데이터 통계치, 변수별 특징 -> 이상치 제거, 정규화 단어 개수, 단어별 빈도수 -> 특수기호 제거, 단어 정규화 토큰화(tokenization): 주어진 텍스트를 각 단어 기준으로 분리하는 것을 의미 (띄어쓰기를 기준) -> 소문자 처리 및 특수기호 제거를 통해 동일한 의미의 토큰은 동일한 형태로 변환 rstrip() : ..