본문 바로가기
딥러닝/논문리뷰

global local - 3.1 Convolutional Neural Networks

by 달죽 2020. 11. 5.
반응형

3.1 Convolutional Neural Networks

 

Our approach is based on Convolutional Neural Networks [Fukushima 1988; LeCun et al. 1989]. These are a special variant of neural network based on using convolution operators that conserve the spatial structure of the input, generally consisting of images. These networks are formed by layers in which a bank of filters is convoluted with the input map to produce an output map which is further processed with a non-linear activation function, most often the Rectified Linear Unit (ReLU), defined as σ (·) = max (·, 0) [Nair and Hinton 2010]. Instead of using only the standard convolutional layers, we also employ a variant called the dilated convolution layers [Yu and Koltun 2016], which allow increasing the area each layer can use as input. This is done without increasing the number of learnable weights by spreading the convolution kernel across the input map. More specifically, if one 2D layer is a C-channel h × w map and the next layer is a C ′ -channel h ′ × w ′ map, the dilated convolution operator can be written for each pixel as:

 

우리의 접근 방식은 Convolutional Neural Networks [Fukushima1988; LeCun et al. 1989]에 기반을 두고 있습니다.

이들은 일반적으로 이미지로 구성된 입력의 공간 구조를 보존하는 컨볼루션 연산자를 사용하는 신경 네트워크의 특별한 변형입니다.

이러한 네트워크는 입력 맵과 함께 bank 컨볼루션되는 레이어에 의해 형성되어, 비선형 활성화 기능, 가장 자주 RLU(Rectied Linear Unit)로 추가 처리되는 출력 맵을 생성하며, 이러한 네트워크는 필터 뱅크가 입력 맵과 컨볼루션되어 비선형 활성화 함수로 더 처리되는 출력 맵을 생성하는 레이어에 의해 형성된다. 

 

표준 컨볼루션 계층만을 사용하는 대신, 우리는 또한 각 계층이 입력으로 사용할 수 있는 면적을 증가시킬 수 있는 확장된 컨볼루션 계층[Yu and Koltun 2016]이라는 변형을 사용한다.

 

이것은 입력지도에 콘볼루션 커널을 퍼뜨려 학습 가능한 가중치의 수를 증가시키지 않고 수행됩니다. 상세하게, 하나의 2D 레이어가 C 채널 h w 맵이고 다음 레이어가 C 채널 h 맵인 경우 확장된 컨볼루션 오퍼레이터는 다음과 같이 각 픽셀에 대해 작성 될 수 있습니다.

where kw and kh are the kernel width and height (odd numbers), respectively, η is the dilation factor, xu,v ∈ R C (C의 R) and yu ,v ∈ R C ′ (C' 의 R) are the pixel component of the input and the output of the layer, σ (·) is a component-wise non-linear transfer function, Ws,t are C ′ -by-C matrices of the kernel, and b ∈ R C ′ is the layer bias vector. With η = 1 the equation becomes the standard convolution operation. These networks are then trained to minimize a loss function with back-propagation [Rumelhart et al. 1986], and are trained by using datasets which consist of input and output pairs. The loss function usually tries to minimize the distance between the network output and the corresponding output pair in the dataset.

 

여기서 kw와 kh는 커널 폭과 높이(odd number)이며, η는 dilation factor, 각각 xu,v RC 및 yu,v RC 입력과 레이어의 출력 픽셀 성분이다. σ (·) i는 성분별 비선형 전달 함수, Ws,t는 커널의 C'-by-C matrices ,b ∈ R C ′ 는 레이어 바이어스 벡터이다

η = 1 로 방정식은 표준 컨볼루션 연산이 된다.

이 네트워크들은 역전파[Rumelhart et al.]로 손실 함수를 최소화하도록 훈련된다. 1986년), 입력 및 출력 쌍으로 구성된 데이터 세트를 사용하여 교육을 받는다. 손실은 데이터 세트에서 네트워크 출력과 해당 출력 쌍 사이의 거리를 최소화하기 위해 일반적으로 시도됩니다.

반응형

댓글