본문 바로가기
반응형

딥러닝/자연어처리4

코사인 유사도 (Cosine Similarity) 문서를 유사도를 기준으로 분류 혹은 그룹핑을 할 때 유용하게 사용할 수 있는 코사인 거리(Cosine Distance) 입니다. 코사인 유사도(Cosine Similarity)는 특징 벡터 X, Y 에 대해서 벡터의 곱(X*Y)을 두 벡터의 L2 norm (즉, 유클리드 거리) 의 곱으로 나눈 값입니다. 벡터의 곱(X*Y) ------------------- 벡터의 L2 norm (즉, 유클리드 거리) Cosine Similarity (d1, d2) = Dot product(d1, d2) / ||d1|| * ||d2|| Dot product (d1,d2) = d1[0] * d2[0] + d1[1] * d2[1] * … * d1[n] * d2[n] ||d1|| = square root(d1[0]2 + d1.. 2020. 12. 1.
[word2vec] 카카오 댓글데이터로 word2vec 임베딩 해보기 # 불용어 정의 stopwords = ['의','가','이','은','들','는','좀','잘','걍','과','도','를','으로','자','에','와','한','하다','\n'] okt = Okt() tokenized_data = [] for sentence in contents: temp_X = okt.morphs(sentence, stem=True) # 토큰화 temp_X = [word for word in temp_X if not word in stopwords] # 불용어 제거 tokenized_data.append(temp_X) # 리뷰 길이 분포 확인 print('리뷰의 최대 길이 :',max(len(l) for l in tokenized_data)) print('리뷰의 평균 길이 :',s.. 2020. 11. 10.
자연어 처리 보면 좋을 자료 모음 brunch.co.kr/@goodvc78/16?fbclid=IwAR1QZZAeZe_tNWxnxVCRwl8PIouBPAaqSIJ1lBxJ-EKtfDfmLehi1MUV_Lk 2020. 11. 10.
[Keras] Attention 을 이용해 자연어 감성 분석 해보기 : Hierarchical Attention Networks for Document Classification 구현 데이터 셋 : Imdb import tensorflow as tf gpus = tf.config.experimental.list_physical_devices('GPU') if gpus: try: # 첫 번째 GPU만 사용하도록 제한 tf.config.experimental.set_visible_devices(gpus[0], 'GPU') except RuntimeError as e: print(e) MAX_SENTENCES = 10 MAX_SENTENCE_LENGTH = 25 import os, re import pandas as pd import tensorflow as tf from tensorflow.keras import utils dataset = tf.keras.utils.get_file( f.. 2020. 11. 10.
반응형