Data Analysis

문서 유사도 측정 문서는 다양한 요소와 이들의 상호작용으로 구성 가장 기본 단위인 단어 조차 문서와 관련된 다양한 정보(형태소, 키워드,개체명(Named entity), 중의적 단어)를 포함 상위 개념인 문장 또한 추가적인 정보(목적어, 주어, 문장 간 관계, 상호참조해결)를 제공 * 문서 벡터 간 유사도 측정 위해 코사인 유사도 자주 사용 Bag of Words :문서 내 단어의 빈도수를 기준으로 문서 벡터를 생성 존재하지 않은 단어에 대해서도 column 으로 넣고 존재하지 않으니 0으로 채우기 --> 자주 발생하는 단어가 문서의 특징을 나타낸다는 것을 가정 - Bag of words 문서 벡터의 차원은 데이터 내 발생하는 모든 단어의 개수와 동일 - 합성어를 독립적인 단어로 개별 처리 N - gra..
한국어는 단어의 기준이 명확하지 않음 공백으로 나뉘는 단어들은 각각이 의미적 기능을 하는 부분과 문법적 기능을 하는 부분의 조합으로 구성 형태소 분석: 주어진 한국어 텍스트를 단어의 원형 형태로 분리해 주는 작업 KoNLPy 는 여러 한국어 형태소 사전을 기반으로 한국어 단어를 추출해 주는 파이썬 라이브러리 Mecab, 한나눔, 꼬꼬마, Komoran, Open Korean Text 라는 5가지의 형태소 사전이 라이브러리에 있음 class 객체 만들어주고, .nouns 를 이용해서 의미있는 단어만 추출 .pos로 각 기능에 대해 알려줌 * 각 형태소 사전별 형태소 표기 방법 및 기준의 차이가 존재 KoNLPy 를 이용한 한국어 전처리 # 경고문을 무시합니다. import warnings warnings...
뉴스, 백과 사전 같은 텍스트는 객관적인 정보를 제공 비슷한 감정을 표현하는 문서는 유사한 단어 구성 및 언어적 특징을 보일 것을 가정 감정분석(Sentiment analysis)은 텍스트 내에 표현되는 감정 및 평가를 식별 모델링에서는 텍스트 내 (1)감정을 분류 하거나 (2)긍정/부정의 정도를 점수화 :감정 모델을 직접 만들고 학습해보기! 학습 데이터 란 감정 분석 모델을 훈련시키기 위해 문장과 해당 문장의 감정이 포함되어 있는 데이터셋을 의미 from sklearn.model_selection import train_test_split # 파일을 읽어오세요. data = [] with open('emotions_train.txt', 'r') as f: for line in f: #각 세미 콜론을 기..
자연어 처리(Natural Language Processing, NLP) : 컴퓨터를 통해 인간의 언어를 분석 및 처리 하는 인공지능의 한 분야 ex) 문서 분류, 키워드 추출, 감정 분석 학습 가능한 데이터양의 증가 및 연산 처리 속도의 발전으로 복잡한 머신러닝 기술 적용 가능 ex) 문서 요약, 기계 번역, Chat bot 데이터 탐색 -> 데이터 전처리 과정이 선행되어야 함. 데이터 통계치, 변수별 특징 -> 이상치 제거, 정규화 단어 개수, 단어별 빈도수 -> 특수기호 제거, 단어 정규화 토큰화(tokenization): 주어진 텍스트를 각 단어 기준으로 분리하는 것을 의미 (띄어쓰기를 기준) -> 소문자 처리 및 특수기호 제거를 통해 동일한 의미의 토큰은 동일한 형태로 변환 rstrip() : ..
유영서
'Data Analysis' 카테고리의 글 목록