2023 27기 최종발표회 27기 2학기 프로젝트의 결과물을 선보일 최종발표회가 진행되었습니다! 한 학기 동안 조원들끼리 협업하여 완성한 작품을 부원들과 공유하고, 질문을 하는 시간을 가졌는데요 일시 2월 10일 금요일 오후 2시 장소 명신관 423호 대상 27기 최종발표회 참석 신청자 전체적인 소개와 각 팀원의 역할, 해당 결과물의 기능, 그리고 사용 기술 스택과 코드 설명으로 구성된 PPT와 함께 발표 하는 시간을 가졌습니다. 수상 총 8팀 중에서 수상 부문으로는 기대이상, 우수상, 최우수상, 대상이 있었는데요. 기대이상 수상팀은 "허니" 팀으로, 데이터 분석을 통해 만든 공정한 뉴스 포털을 선보였습니다. 우수상 수상팀은 "snS" 팀으로, SNS의 타임라인을 형상화하여 꾸밀 수 있는 오락 사이트를 ..
2023 28기 OT 28기 솔룩스 부원들과 함께 하는 첫 공식 행사인 OT를 진행했습니다. 일시 3월 15일 수요일 오후 6시 장소 르네상스 404호 솔룩스 소개 솔룩스의 지도 교수님이신 강지우 교수님께서 좋은 말씀을 나눠주시며 OT의 막을 열었습니다. 이어서 회장단, 재정복지부, 홍보협력부, 교육운영부 순으로 운영진 소개를 진행했습니다. 솔룩스의 활동 및 제도에 대한 설명 후 배정된 프로젝트 팀을 발표했습니다. 총 10 팀으로, 인공지능, 앱, 게임 분야는 개별적인 팀이며 나머지 6 팀은 데이터분석과 웹을 희망하는 분들로 구성되어 있습니다. 스타터 멘토단 소개와 연간 일정, 플랫폼 소개 그리고 상벌점 제도 및 제적 기준을 설명하는 것으로 마무리되었습니다. 게임 강지우 교수님께서 게임 진행에 참여해주셨..
솔룩스 업무 보고 : 2023 28기 솔룩스 부원 모집 2월 20일부터 3월 13일 까지 28기 솔룩스 부원 모집을 진행했습니다. "스타터" 와 "러너" 두 전형으로 나누어 모집한 첫번째 기수였는데요. 일시 서류 제출: 2월 20일 월요일 ~ 3월 4일 토요일 1차 합격자 발표: 3월 7일 화요일 면접: 3월 8일 수요일 ~ 3월 11일 토요일 최종 합격자 발표: 3월 13일 월요일 장소 면접 장소: 명신관 620호 대상 숙명여대 재학 또는 휴학 중인 학생이어야 하며 1년 활동이 가능한 학생 1차 서류 전형 숙명 구글 계정으로 구글 폼을 작성한 학생들의 서류를 보고 합격자를 뽑았습니다. 모집 분야 스타터 / 러너 스타터 1학기에는 기초스터디, 2학기에는 팀 프로젝트를 진행하는 팀 대상 개발이 처음인 컴퓨..
문서 유사도 측정 문서는 다양한 요소와 이들의 상호작용으로 구성 가장 기본 단위인 단어 조차 문서와 관련된 다양한 정보(형태소, 키워드,개체명(Named entity), 중의적 단어)를 포함 상위 개념인 문장 또한 추가적인 정보(목적어, 주어, 문장 간 관계, 상호참조해결)를 제공 * 문서 벡터 간 유사도 측정 위해 코사인 유사도 자주 사용 Bag of Words :문서 내 단어의 빈도수를 기준으로 문서 벡터를 생성 존재하지 않은 단어에 대해서도 column 으로 넣고 존재하지 않으니 0으로 채우기 --> 자주 발생하는 단어가 문서의 특징을 나타낸다는 것을 가정 - Bag of words 문서 벡터의 차원은 데이터 내 발생하는 모든 단어의 개수와 동일 - 합성어를 독립적인 단어로 개별 처리 N - gra..
한국어는 단어의 기준이 명확하지 않음 공백으로 나뉘는 단어들은 각각이 의미적 기능을 하는 부분과 문법적 기능을 하는 부분의 조합으로 구성 형태소 분석: 주어진 한국어 텍스트를 단어의 원형 형태로 분리해 주는 작업 KoNLPy 는 여러 한국어 형태소 사전을 기반으로 한국어 단어를 추출해 주는 파이썬 라이브러리 Mecab, 한나눔, 꼬꼬마, Komoran, Open Korean Text 라는 5가지의 형태소 사전이 라이브러리에 있음 class 객체 만들어주고, .nouns 를 이용해서 의미있는 단어만 추출 .pos로 각 기능에 대해 알려줌 * 각 형태소 사전별 형태소 표기 방법 및 기준의 차이가 존재 KoNLPy 를 이용한 한국어 전처리 # 경고문을 무시합니다. import warnings warnings...
뉴스, 백과 사전 같은 텍스트는 객관적인 정보를 제공 비슷한 감정을 표현하는 문서는 유사한 단어 구성 및 언어적 특징을 보일 것을 가정 감정분석(Sentiment analysis)은 텍스트 내에 표현되는 감정 및 평가를 식별 모델링에서는 텍스트 내 (1)감정을 분류 하거나 (2)긍정/부정의 정도를 점수화 :감정 모델을 직접 만들고 학습해보기! 학습 데이터 란 감정 분석 모델을 훈련시키기 위해 문장과 해당 문장의 감정이 포함되어 있는 데이터셋을 의미 from sklearn.model_selection import train_test_split # 파일을 읽어오세요. data = [] with open('emotions_train.txt', 'r') as f: for line in f: #각 세미 콜론을 기..
자연어 처리(Natural Language Processing, NLP) : 컴퓨터를 통해 인간의 언어를 분석 및 처리 하는 인공지능의 한 분야 ex) 문서 분류, 키워드 추출, 감정 분석 학습 가능한 데이터양의 증가 및 연산 처리 속도의 발전으로 복잡한 머신러닝 기술 적용 가능 ex) 문서 요약, 기계 번역, Chat bot 데이터 탐색 -> 데이터 전처리 과정이 선행되어야 함. 데이터 통계치, 변수별 특징 -> 이상치 제거, 정규화 단어 개수, 단어별 빈도수 -> 특수기호 제거, 단어 정규화 토큰화(tokenization): 주어진 텍스트를 각 단어 기준으로 분리하는 것을 의미 (띄어쓰기를 기준) -> 소문자 처리 및 특수기호 제거를 통해 동일한 의미의 토큰은 동일한 형태로 변환 rstrip() : ..