[word2vec] 카카오 댓글데이터로 word2vec 임베딩 해보기
# 불용어 정의 stopwords = ['의','가','이','은','들','는','좀','잘','걍','과','도','를','으로','자','에','와','한','하다','\n'] okt = Okt() tokenized_data = [] for sentence in contents: temp_X = okt.morphs(sentence, stem=True) # 토큰화 temp_X = [word for word in temp_X if not word in stopwords] # 불용어 제거 tokenized_data.append(temp_X) # 리뷰 길이 분포 확인 print('리뷰의 최대 길이 :',max(len(l) for l in tokenized_data)) print('리뷰의 평균 길이 :',s..
2020. 11. 10.