[word2vec] 카카오 댓글데이터로 word2vec 임베딩 해보기
# 불용어 정의 stopwords = ['의','가','이','은','들','는','좀','잘','걍','과','도','를','으로','자','에','와','한','하다','\n'] okt = Okt() tokenized_data = [] for sentence in contents: temp_X = okt.morphs(sentence, stem=True) # 토큰화 temp_X = [word for word in temp_X if not word in stopwords] # 불용어 제거 tokenized_data.append(temp_X) # 리뷰 길이 분포 확인 print('리뷰의 최대 길이 :',max(len(l) for l in tokenized_data)) print('리뷰의 평균 길이 :',s..
2020. 11. 10.
[CNN]tensorflow 없이 numpy로만 convolution 날코딩 하기
import numpy as np from matplotlib import pyplot as plt class NN: def __init__(self,n_i,n_h,n_y): self.w1 = np.random.rand(n_i,n_h) self.w2 = np.random.rand(n_h,n_y) def sigmoid(self,z): return 1./(1.+np.exp(-z)) def dsigmoid(self,z): # sigmoid 미분 return z*(1. - z) def layer(self,inputs): print('self.sigmoid(np.dot(inputs,self.w1))') self.hidden = self.sigmoid(np.dot(inputs,self.w1)) print(self...
2020. 11. 10.