본문 바로가기
딥러닝/논문리뷰

[OCR] TLGAN 적은 양의 데이터를 필요로 하는 텍스트 위치 결정 모델

by 달죽 2020. 11. 3.
반응형

 

 

TLGAN: DOCUMENT TEXT LOCALIZATION USING GENERATIVEADVERSARIAL NETS

 

 

 

A PREPRINT

 

Dongyoung KimData Analytic LaboratorySamsung Life InsuranceSeoul, South Koreadongyoung"

 

ABSTRACT

 

Text localization from the digital image is the first step for the optical character recognition task"

텍스트 위치 추정은 광학 문자 인식 작업을 위한 제 1 단계"

 

"Conventional image processing based text localization performs adequately for specific examples. Yet, a general text localization are only archived by recent deep-learning based modalities"

기존의 이미지 처리 기반 텍스트 위치 지정은 특정 예제에 적합하게 수행됩니다.그러나 일반적인 텍스트 위치는 최근의 딥 러닝 기반 양식에 의해서만 보관됩니다

 

 Here wepresent document Text Localization Generative Adversarial Nets (TLGAN) which are deep neuralnetworks to perform the text localization from digital image.  TLGAN is an versatile and easy-traintext localization model requiring a small amount of data

본 논문에서는 디지털 영상으로부터 텍스트 위치화를 수행하기 위해 깊은 신경망인 TLGAN(Text Localization Generative Adversarial Nets)을 제안한다.TLGAN은 적은 양의 데이터를 필요로 하는 다목적 및 쉬운 텍스트 위치 결정 모델입니다

 

" Training only ten labeled receipt imagesfrom Robust Reading Challenge on Scanned Receipts OCR and Information Extraction (SROIE),TLGAN achieved 99.83% precision and 99.64% recall for SROIE test data.  Our TLGAN is a practicaltext localization solution requiring minimal effort for data labeling and model training and producinga state-of-art performance"

"스캔된 수신 OCR 및 정보 추출(SROIE), TLGAN에서 강력한 읽기 챌린지에서 라벨링된 10개의 수신 이미지만 SROIE 테스트 데이터에 대해 99.83%의 정확도와 99.64%의 리콜을 달성했다.우리의 TLGAN은 데이터 라벨링 및 모델 교육 및 최첨단 성능 생산을 위한 최소한의 노력이 필요한 실용적인 텍스트 국산화 솔루션입니다"

 

 

"net TLGAN: document Text Localization using Generative Adversarial NetsA PREPRINT1IntroductionIn enterprise business, printed documents are a major communication tool.  These papers are often acquired usingoptical devices like scanners or cameras and the data are compressed/stored as digital images"

넷틀간: 생성적 역방향 NetsA PREPRINT1을 이용한 문서 텍스트 위치 결정 기업 비즈니스에서 인쇄된 문서는 주요 통신 도구입니다.이 논문은 종종 스캐너나 카메라와 같은 광학 장치를 사용하여 획득되며 데이터는 디지털 이미지로 압축/저장된다.

 

 Such document imagescontain valuable information and there is a big need to make digital images to interpretable text.  Optical characterrecognition (OCR) is a method to translate the printed document to digital text

"이러한 문서 이미지는 귀중한 정보를 포함하고 있으며, 해석 가능한 텍스트를 위해 디지털 이미지를 만들 필요가 크다.광학 문자 인식(Optical Character Recognition, OCR)은 인쇄된 문서를 디지털 텍스트로 변환하는 방법이다."

 

 OCR processes are to localize textin images following by text recognition at loci [1].  Further text/language processes may be added as needs

OCR 프로세스는 loci [1]에서 텍스트 인식에 따라 텍스트 이미지를 로컬화하는 것입니다.필요에 따라 추가 텍스트/언어 프로세스가 추가될 수 있음

 

" The textlocalization task is to detect texts from digital images which may contain not only texts but also graphics, drawings,lines, and noises.  Conventional image processing techniques can be applied and works for specific examples, yet, suchapproaches are vulnerable to the real-world noises which may not be described or may not be able to describe at theprocessing algorithm"

"텍스트 로컬라이제이션 작업은 텍스트뿐만 아니라 그래픽, 도면, 선 및 잡음을 포함할 수 있는 디지털 이미지에서 텍스트를 탐지하는 것입니다.기존의 영상 처리 기법은 특정 예에 적용되고 적용될 수 있지만, 그러한 접근은 설명되지 않거나 처리 알고리즘에서 설명할 수 없는 실제 잡음에 취약하다."

 

Recent advances in deep learning show a great success in object detection.  There are two major approaches forthe object detection: region proposal network (RPN) and semantic segmentation

최근 심층학습의 발전은 물체 탐지에 큰 성공을 보여준다.객체 탐지에는 두 가지 주요 접근법이 있습니다 : 지역 제안 네트워크 (RPN)와 의미 분할

 

" RPN searches object boundarycoordinates, i. e"

RPN은 객체 경계 좌표를 검색한다.

 

" regions of interest (ROIs), and is successfully demonstrated by faster region proposal CNN (Faster-RCNN) [2], single shot multibox detector (SSD) [3], you only look once (YOLO) [4] with their successors [5, 6,7, 8, 9].  The RPN based object detection modalities has been fine-tuned for text detection tasks, e"

"관심 영역 (ROIs)은 더 빠른 지역 제안 CNN (Faster-RCNN) [2], 단일 샷 멀티 박스 검출기 (SSD) [3], 당신은 그들의 후계자 [5, 6,7, 8, 9]와 단한 번만 (YOLO) [4]를 볼 수 있습니다.RPN 기반 객체 검출 방식은 텍스트 검출 작업에 대해 미세 조정되었습니다."

 

"g.  TextBoxes[10], fully-convolutional regression network (FCRN) [11], efficient and accurate scene text detector (EAST) [12] andmore"

"g. TextBoxes [10], 완전 컨볼루션 회귀 네트워크 (FCRN) [11], 효율적이고 정확한 장면 텍스트 검출기 (EAST) [12] 이상"

 

" Semantic segmentation produces segmentation map corresponding to the object locations and shapes.  Fullyconvolutional networks (FCN) [13], U-Net [14] with following approaches [15, 16, 17, 18] et cetera are examples"

"의미 분할은 객체 위치 및 모양에 해당하는 세그먼트화 맵을 생성합니다.

 

Fullyconvolutional networks (FCN) [13], U-Net [14]에는 다음과 같은 접근법이 있습니다 [15, 16, 17, 18] 등이 있습니다."

"Semantic segmentation approaches has been adopted and modified for the text detection and certainly has becomea powerful text detection tool. 

 

Semantic segmentation based text detectors such as character region awareness fortext detection (CRAFT) [19], multi oriented corner text detectors [20], pixel aggregation network (PANNet) [21], andconnectionist text proposal network (CTPN) [22] are top ranked at robust reading competition of focused scene text(FST) and scanned receipt OCR (SROIE) [23, 24, 25]"

"의미 분할 접근법은 텍스트 탐지를 위해 채택되고 수정되었으며, 확실히 강력한 텍스트 탐지 도구가 되었다.문자 영역 인식 기반 텍스트 검출기 (CRAFT) [19], 다중 지향 코너 텍스트 검출기 [20], 픽셀 집계 네트워크 (PANNet) [21], 연결주의 텍스트 제안 네트워크 (CTPN) [22]와 같은 의미 분할 기반 텍스트 검출기는 초점 장면 텍스트 (FST)와 스캔된 수신 OCR (SROIE)의 강력한 읽기 경쟁에서 상위 순위에 있다 [23, 24, 25]"

 

 

" Certainly, PANNet and CTPN used ImageNet pretrained VGGnetwork [26, 27] for feature extraction from text contained images and the both models show great performances[23, 24, 25]. Generative adversarial network (GAN) is a framework to train a deep learning model using an adversarial processes[28]"

"확실히 PANNet CTPN은 텍스트에 포함된 이미지에서 특징 추출을 위해 ImageNet 사전 훈련된 VGGnetwork [26, 27]를 사용했으며 두 모델 모두 훌륭한 성능을 보여줍니다 [23, 24, 25].생성적 적대 네트워크 (GAN)는 적대 프로세스를 사용하여 딥 러닝 모델을 훈련시키는 프레임 워크입니다 [28]"

 

" Several GAN models have devised and, especially, GAN shows brilliant results for image-to-image translationproblem, e. g"

"GAN 모델이 여러 가지로 고안되었으며, 특히 GAN은 이미지 대 이미지 변환 문제에 대한 뛰어난 결과를 보여줍니다."

 

" creating semantic segmentation from image or the reverse, drawing to photo translation, enhancing imageresolution and more [29, 30, 31, 32].  Recent studies found GAN for the object detection from images and show superiorand versatile object detection performance [33, 34, 35]"

"이미지 또는 역에서 의미 분할을 생성하고, 그림에서 사진 변환으로, 이미지 해상도를 높이고, [29, 30, 31, 32].최근 연구들은 이미지로부터 객체 검출을 위한 GAN을 발견했고 우수하고 다재다능한 객체 검출 성능을 보여주었다[33, 34, 35]"

 

"Here we introduce a document text localization generative adversarial network (TLGAN), which is a GAN speciallydesigned for detecting text location in document images.  TLGAN follows the semantic segmentation based textlocalization approach [19, 20, 21, 22] and estimates precise text location using a generator network structuring in a setof residual convolutional layers [31, 36, 37, 38, 39]"

"본 논문에서는 문서 이미지에서 텍스트 위치를 검출하기 위해 특별히 설계된 GAN인 문서 텍스트 위치 결정 생성 적대 네트워크(TLGAN)를 소개한다.TLGAN은 의미 분할 기반 텍스트 로컬 화 접근법 [19, 20, 21, 22]을 따르고 잔차 컨볼루션 계층 [31, 36, 37, 38, 39]에서 생성기 네트워크 구조를 사용하여 정확한 텍스트 위치를 추정한다."

 

" Effective text location estimation is carried out using Imagenetpretrained VGG network [26, 27] and TLGAN uses VGG as discriminator loss evaluation function rather than featureextraction unit for semantic segmentation [31, 21, 22].  TLGAN, therefore, take benefits of VGG’s great featureextractions without having large VGG computation in addition to versatile performance of an adversarial learningprocess [33, 34, 35]"

"효과적인 텍스트 위치 추정은 Imagenetpretraned VGG 네트워크[26, 27]를 사용하여 수행되며, TLGAN은 의미 분할을 위한 특징 추출 단위가 아닌 판별기 손실 평가 함수로 VGG를 사용한다 [31, 21, 22].따라서 TLGAN VGG의 큰 특징 추출을 큰 VGG 계산없이 이점을 얻을 수 있으며, 역 학습 과정의 다재다능한 성능 [33, 34, 35]"

 

" TLGAN achieved 99.83% precision and 99.64% recall for reading challenge on Scanned Receipts2 TLGAN: document Text Localization using Generative Adversarial NetsA PREPRINTOCR and Information Extraction (SROIE).  Notably, we found TLGAN learned text location with a samll set of data,i"

"TLGAN Scanned Receipts2TLGAN에서 읽기 도전에 대해 99.83%의 정밀도와 99.64%의 리콜을 달성했습니다. Generative Adversarial NetsA PREPRINTOCR 및 정보 추출 (SROIE)을 이용한 문서 텍스트 위치 지정.특히, 우리는 TLGAN Samll 데이터 세트를 가지고 텍스트 위치를 배웠다는 것을 발견했다.i"

 

e.  ten labeled images are enough to reproduce similar performance at SROIE dataset

e. 10개의 라벨링된 이미지는 SROIE 데이터셋에서 유사한 성능을 재현하기에 충분하다.

 

 Our TLGAN is a practicaltext localization solution requiring minimal effort for data labeling and model training and producing a state-of-artperformance.

우리의 TLGAN은 데이터 라벨링 및 모델 교육 및 최첨단 성능의 생산을 위한 최소한의 노력을 필요로하는 실용적인 텍스트 국부화 솔루션입니다.

 

 

2 Methods

 

Document Text Localization Generative Adversarial Nets (TLGAN) aims to perform text localization from a text-containing image I R (Fig 1a) by estimating a text localization map I M (Fig.  1b)

2 방법 문서 텍스트 위치화 생성 적대적 네트(TLGAN)는 텍스트가 포함된 이미지 IR(그림)로부터 텍스트 위치화를 수행하는 것을 목표로 한다. 1a) 텍스트 위치화 맵 IM(도표 1b)을 추정하는 단계

 

 

 

 Here we first address the formationof text localization map I M (section 2.1) and TLGAN architecture (section 2.2) followed by text localization approach(section 2. 4 and Fig  1c).  We next show the training and evaluation strategies of the model used in the manuscript insections 2.5 and 2

1c).

여기서 먼저 텍스트 위치화 맵 I M ( 2.1) TLGAN 아키텍처 ( 2.2)의 형성에 대해 다루고 텍스트 위치화 접근법 ( 2 )을 사용한다.4와 그림 다음으로 2.5절과 2절에 사용된 모형의 훈련과 평가 전략을 제시한다.

5. Figure 1: An example of (a) text image and corresponding (b) text localization map (colored in blue) and (c) textlocalization result (blue boxes)

5.그림 1: (a) 텍스트 이미지 및 해당 (b) 텍스트 위치화 맵(파란색으로 색상) (c) 텍스트 위치화 결과(파란색 상자)의 예

 

 

 

 

2.1 Text localization map

텍스트 위치 맵을 이용한 문서 텍스트 위치 결정    텍스트 위치 결정  ->Pn, n = 0,  에서  n  텍스트 위치를 포함하는 이미지  I^R 을 갖는다 

 

" A cylindrical Gaussian map image (cid:126)M isgiven:M (mx, my) =my ,where σmy denote the width of the cylindrical Gaussian map, (mx, my) R2. The text locations are marked in I M by wrapping a cylindrical Gaussian maps (cid:126)M into each text position (cid:126)Pn into I Musing a set of affine transformations [19]\

"원통형 가우스 지도 이미지(cid:126)M Isgiven:M(mx, my) = my, 여기서 my는 원통형 가우스 지도의 폭을 나타낸다.텍스트 위치는 원통형 가우시안 맵 (cid : 126)M을 각 텍스트 위치 (cid : 126)Pn에 포장하여 I M에 표시되며, affine 변환

", N. (2)Figure 1b shows an example text localization map corresponding to the text image in figure 1a"

", N. (2) 그림 1b는 그림 1a의 텍스트 이미지에 대응하는 예시 텍스트 위치화 맵을 나타낸다."

 

"n=1n=1

 

 

2.2 TLGAN

 

A convolutional neural network (CNN) Gpg parameterized by pg is devised to estimate a text localization map I M froma text-containing image I R:

 

where pg denotes a set of weights and biases in deep neural nets.  We find the ˆpg by solving the equation 4 over Ktraining images I R and the corresponding maps I M :

 

"pg에 의해 매개 변수화된 n=1n=12.2 TLGANA convolutional neural network (CNN) Gpg는 텍스트가 포함된 이미지 I R:Gpg : I R (cid : 55) I M, (3) 여기서 pg는 깊은 신경망에서 가중치와 편향의 집합을 나타낸다.우리는 Ktraining 이미지 I R과 해당 맵 I M : arg minpg1KK (cid :88)k = 1lM (Gpg (I R), I M )에 대한 방정식 4를 해결하여 ppg를 찾는다."

 

 

 

"(4)From equation 4, lM is a loss function defined

"(4) 방정식 4에서 lM 는 정의된 손실 함수이다.,

 

 

 

where j denotes J pixels in the image, q and r denote the weights of the loss contents, φ is a feature extraction functionwhich is a inter-layer feature output from a pretrained CNN, e.g.  VGG19 [27] ImageNet pretrained [31, 40, 39, 41, 42]"

여기서 j는 이미지, q r에서 J 픽셀을 나타내며, 손실 콘텐츠의 가중치를 나타내며, 는 사전 훈련된 CNN으로부터 출력된 층간 특징 추출 함수이다."

 

 

Here we utilized a CNN network Dpd parameterized by pd following generative adversarial nets (GAN) [28].  Notewe are following the successful work of SR-GAN by Ledig et al

여기서 우리는 생성 적대망 (GAN) [28]에 따라 pd로 매개 변수화된 CNN 네트워크 Dpd를 활용했습니다.Notwe Ledig et al. SR-GAN의 성공적인 작업을 따르고 있다.

 

 [31].  Both Gpg and Dpd are CNNs and the detailedarchitecture of the networks are shown in Supplementary Information A

[31].Gpg Dpd는 모두 CNN이며 네트워크의 세부 구조는 보충 정보 A에 나와 있습니다.

 

"1.  Briefly, Gpg takes input image I R andconsists of stacks of residual blocks which composed by convolutional layers, batch normalization layers, and parametricReLU activation layers [36, 37, 38, 39]"

"1.간단히 말해서, Gpg는 입력 이미지 I R을 취하여 컨볼루션 층, 배치 정규화 층 및 파라메트릭 ReLU 활성화 층[36, 37, 38, 39]으로 구성된 잔차 블록 스택의 구성을 취한다."

 

 The features from residual blocks are computed using a s strided convolutionlayer.  The output I M is given by a fianl convolution layer with tanh activation

잔여 블록으로부터의 특징들은 s-스트라이드 컨볼루션층을 사용하여 계산된다.출력 IM은 탄 활성화를 갖는 피안 컨볼루션 층에 의해 주어진다

 

" Dpd is a convolutional neural networkto discriminate I M to ˆI M = Gpg (I R) and is composed by a set of convolution blocks with a convolution layer, batchnormalization layer and leaky ReLU activation layer [43].  A final dense layer with the sigmoid activation makesdiscrimination between I M to ˆI M using features from convolution blocks"

"Dpd I M에서 I M = Gpg (I R)를 구별하는 convolutional nural network이며 convolution layer, batchnormalization layer leaky ReLU 활성화 계층 [43]을 가진 일련의 convolution blocks로 구성됩니다.시그모이드 활성화를 갖는 최종 밀도층은 컨볼루션 블록의 특징을 이용하여 IM에서 IM 사이의 구별을 한다."

 

"To find ˆGpg, Gpg and Dpd are optimized alternately by solving min-max problem in equation 6 [28]:

 

 

 

 

2.3 Image preprocessing and post processing

 

Images were resized and their intensities are adjusted for train and test"

min-max 문제를 해결하기 위해 식 6 [28] : (cid : 0log Dpd (I M) (cid : 1) + EI R (cid : 0) 로그 Dpd (Gpg (I R) (cid : 1)에서 Gpg Dpd를 번갈아 최적화한다.MINpgmaxpdEIM(6)4TLGAN: 생성적 역행 NetsA PREPRINT2.3 이미지 전처리 및 후처리를 이용한 문서 텍스트 위치 조정 이미지 크기를 조정하고 강도를 조정하여 열차 및 시험을 수행하였다.

 

 We first detect a content region of the imagewhich is the area containing information rather empty space.  The content area is computed by summing the pixelintensities over x and y axis and by finding front and back edges of the signal assuming the contents exist in a rectangularregion

"먼저, 우리는 정보를 포함하는 영역인 이미지의 내용 영역을 오히려 빈 공간으로 검출한다.상기 내용 영역은 x y축에 대한 픽셀 강도를 합산하고, 상기 내용물이 직사각형 영역에 존재한다고 가정하는 신호의 전방 및 후방 에지를 찾아 계산된다"

 

" The images are resized at the certain content region size, i. e"

이미지는 특정 콘텐츠 영역 크기로 크기 조정된다.

 

 550 pixels in short axis for the data set used insection 3.1.  Image intensities between its 50% and 99.95% of the maximum value were mapped to the value between 0and 255

섹션 3.1에서 사용된 데이터 세트의 단축 550 픽셀.최대값의 50%에서 99.95% 사이의 이미지 강도를 0에서 255 사이의 값으로 매핑했다.

 

 The scaled images were processed by inferencing a trained TLGAN model.  The inference output is scaledback to the original image size via the bicubic interpolation followed by the text localization described in secion 2.4

스케일링된 이미지는 훈련된 TLGAN 모델을 추론하여 처리하였다.추론 출력은 2.4분위에서 설명된 텍스트 위치화에 이어 2분위 보간법을 통해 원래 이미지 크기로 축소된다.

 

2.4 Text localization

Trained CNN Gpg generates a text localization map ˆI M described in section 2. 1

훈련된 CNN Gpg 2 절에 설명된 텍스트 국산화지도 M을 생성합니다.1

 

" The ˆI M annotates text locationsas a set of cylindrical Gaussian maps shown in figure 1b.  Image segmentation over ˆI M were performed using asimple threshold followed by morphological image processes of the dilation and the border following method [44, 19]"

"I M은 그림 1b에 표시된 원통형 가우시안 맵의 집합으로 텍스트 위치를 주석으로 표시합니다.이미지 분할은 간결한 임계값을 사용하여 수행하였고, 그 다음 확장과 경계 추종 방법[44, 19]을 사용하여 형태학적 이미지 처리를 수행하였다."

 

Rectangular bounding boxes were found from the segmented images (figure 1c).

 

 

2.5 Training details and parameters

 

All the models were trained on machines configured with an Intel Xeon W-2135 CPU and a NVIDIA GTX 1080 Ti GPU

분할된 이미지(그림 1c)에서 사각 경계 상자가 발견되었다.2.5 훈련 세부 사항 및 매개 변수 모든 모델은 Intel Xeon W-2135 CPU NVIDIA GTX 1080 Ti GPU로 구성된 기계에서 훈련되었습니다.

 

TLGAN model Gpg was constructed with a convolution layer stride s = 4 and loss parameters q = 1 and r = 0.001in equation 5 (see section 2. 2)

TLGAN 모델 Gpg convolution layer streide s = 4 loss parameter q = 1 r = 0.001in equation 5로 구성되었다(2절 참조).2)

" Models were optimzied using the Adam optimizer with learning rate α = 0.0002,β1 = 0.5, β2 = 0. 999 and  = 10−7 [45]"

"학습속도 α = 0.0002,β1 = 0.5, β2 = 0을 가진 Adam optimer를 사용하여 모형을 최적화하였다.999 = 107 [45]"

" All the models, training and inference were implemented and tested usingTensorflow (https://www. tensorflow"

"모든 모델, 훈련 및 추론은 Tensorflow (https://www) 사용하여 구현 및 테스트되었습니다.텐서플로우"

 

org/) version 2.4.0 and Python version 3. 6.10 with Ubuntu version 18

org/) 버전 2.4.0 및 파이썬 버전 3. 6.10 Ubuntu 버전 18

 

04.5 LTS. 3 Experiments3.1 Benchmark dataset and modelA set of experiments were performed using Robust Reading Challenge on Scanned Receipts OCR and InformationExtraction (SROIE) dataset by International Conference on Document Analysis and Recognition (ICDAR) [25]

04.5 중위3 실험3.1 벤치마크 데이터셋과 모델A 실험은 국제 문서 분석 및 인식 컨퍼런스(ICDAR) [25]에서 스캔된 영수증 OCR 및 정보 추출(SROIE) 데이터셋에 대한 강력한 읽기 챌린지를 사용하여 수행되었다.

 

" 626and 361 scanned receipt images with text bounding box annotations were given from ICDAR SROIE for training andtest, subsequently.  A TLGAN model was trained using the training dataset provided from SROIE"

626 361 텍스트 경계 상자 주석이 있는 스캔된 영수증 이미지는 ICDAR SROIE에서 교육 및 테스트를 위해 제공되었습니다.TLGAN 모델은 SROIE에서 제공한 교육 데이터 세트를 사용하여 훈련되었다.

 

" Images in trainingdataset were randomly cropped (augmented) 600 times in the size of 128 × 128 pixels on its width and height due tothe limited graphic memory on our system.  The TLGAN model was trained using 62, 600 augmented images"

"훈련 데이터셋의 이미지는 시스템의 제한된 그래픽 메모리로 인해 가로와 높이에 128 픽셀 크기의 무작위로 600(증강)로 잘렸다.TLGAN 모델은 62, 600개의 증강 이미지를 사용하여 훈련되었다."

 

" Thedata were randomly sampled in batch size 8 and the model was trained over 120, 000 mini-batches.  The traininghyper-parameters were given in section 2.5"

"데이터는 배치 크기 8에서 무작위로 샘플링되었으며 모델은 120,000 미니 배치 이상 훈련되었습니다.훈련용 하이퍼 파라미터는 2.5절에서 제시되었다"

 

"Experimental results from TLGAN were evaluated by following SROIE evaluation protocol and SROIE evaluationsoftware [25, 23].  Briefly, SROIE evaluation protocol is implemented based on DetEval [46]"

"실험결과는 SROIE 평가 프로토콜과 SROIE 평가 소프트웨어 [25, 23]를 이용하여 평가하였다.간단히, DetEval [46]에 기초하여 SROIE 평가 프로토콜이 구현된다"

 

 The SROIE evaluationprogram computes the mean average precision and the average recall based on F1 score [47].  H-mean score is definedby the average of the mean average precision and the average recall

SROIE 평가 프로그램은 F1 점수에 기초하여 평균 평균 정밀도 및 평균 회수를 연산한다[47].H-평균점수는 평균평균 정밀도와 평균회수로 정의된다.

 

 We refer the results of ICDAR SROIE website5 TLGAN: document Text Localization using Generative Adversarial NetsA PREPRINT(https://rrc. cvc

ICDAR SROIE 웹사이트5TLGAN: Generative Adversarial NetsA PREPRINT(https://rrc)를 이용한 문서 텍스트 위치 추정 결과를 참조한다.시브이시

 

uab. es/?ch=13&com=evaluation&task=1) accessed at Oct

uab. es/ch=13&com=평가&task=1) 10월에 접속

 

", 19, 2020 to make the comparison table intable 1 [25].

 

 

 

Figure 2: An example of (a) a scanned receipt image from SROIE and corresponding (b) text localization map generatedusing a TLGAN model"

", 비교 테이블을 1 [25]로 만들기 위해 2020 19.그림 2: (a) SROIE로부터 스캔된 수신 이미지 및 TLGAN 모델을 이용하여 생성된 해당 (b) 텍스트 위치화 맵의 예"

 

 (c) text localization result presented in green boxes.

(c) 녹색 상자에 제시된 텍스트 위치 결정 결과

 

3.2 Results

 

Figure 2 shows an example of text localization of a SROIE data predicted using a TLGAN model

그림 2 TLGAN 모델을 사용하여 예측된 SROIE 데이터의 텍스트 위치화 예제를 보여줍니다

 

" A TLGAN modelgenerated a text localization map (figure 2b) from a preprocessed image of figure 2a, and the text locations wereidentified via localization process (figure 2c).  The TLGAN model was tested using the SROIE task1 test dataset and themodel outperformed by achieving 99.83% precision, 99.64% recall, and 99"

"TLGAN은 도표 2a의 전처리된 이미지로부터 텍스트 위치화 맵(도표 2b)을 모델링하고, 텍스트 위치는 위치화 프로세스(도표 2c)를 통해 식별된다.TLGAN 모형은 SROIE Task1 test dataset을 이용하여 검증하였으며, 99.83%의 정밀도, 99.64%의 리콜, 99%의 성능을 보여 모델의 성능이 우수하였다."

 

23% hmean (see table 1).  The TLGANconsists of 1.45 million parameters (see supplementary table A

TLGANconsists 145만 매개 변수(보조표 A 참조)

 

"1) which is much smaller than image classificationnetworks such as a VGG16 (138M, [27]) and a ResNet (25M, [38]).  Besides its performances and sizes, we found theTLGAN models were trained easily that the model training is saturated after few thousand epochs"

"1) VGG16(138M, [27]) ResNet (25M, [38])과 같은 이미지 분류 네트워크보다 훨씬 작습니다.성능과 크기 외에도, 우리는 TLGAN 모델들이 수천 시대 이후에 모델 훈련이 포화상태에 이른다는 것을 쉽게 훈련받았다는 것을 발견했다."

 

" We hypothesisedthat the TLGAN model learns text localization features only with few labeled images.  To verify this, we conducted aset of experiments in section 3.3 making TLGAN models with subsets of training data"

우리는 TLGAN 모델이 라벨링된 이미지가 거의 없는 텍스트 위치 지정 기능을 학습한다고 가설을 세웠다.이를 검증하기 위해 3.3절에서 TLGAN 모형을 제작하고 훈련자료의 부분집합을 실시하였다.

 

"6acb TLGAN: document Text Localization using Generative Adversarial NetsA PREPRINTTable 1: Experimental results of TLGAN and others for SROIE taks 1, 2020-10-19 accessed [24]. Rank DateMethodRecallPrecision Hmean Ref"

"6acbTLGAN : Generative Adversarial NetsA PREPRINTTable을 이용한 문서 텍스트 위치 결정 : SROIE tak 1, 2020-10-19에 대한 TLGAN 등의 실험 결과 [24].순위 날짜 메소드 리콜 결정 평균 참조"

 

 

[22]Figure 3: SROIE evaluation results from TLGAN model trained by n labeled images, n = 1, 2, . , 11"

[22] 그림 3 : TLGAN 모델에서 n 레이블 이미지로 훈련된 SROIE 평가 결과 n = 1, 2., 11"

 

" Precision, recalland H-mean shows from left to right panels, subsequently.

 

 

3.3 Experiments with a subset of training data

 

A set of TLGAN models were trained using subsets of training data, i"

"정밀도, 리콜 및 H-평균은 왼쪽에서 오른쪽 패널로 표시된다.3.3 훈련 데이터의 부분 집합을 가진 실험 TLGAN 모델의 집합은 훈련 데이터의 부분 집합을 사용하여 훈련되었다."

 

"e.  eleven images In, n = 1, 2, "

"e. 11 이미지 In, n = 1, 2"

 

", 11 wererandomly sampled from the training dataset of ICDAR SROIE, and ten TLGAN models Gn, n = 1, 2, . , 11 weretrained by sampling n images followed by preprocessing described in sections 2.3 and 2.5"

", ICDAR SROIE의 훈련 데이터 세트와 10개의 TLGAN 모델 Gn, n = 1, 2에서 무작위로 샘플링되었다., 11 n 이미지를 샘플링하여 2.3 2.5 절에 설명된 전처리를 수행했습니다."

 

 Figure 3 shows results fromeleven TLGAN models tested using ICDAR SROIE test dataset.  The test precision and recall is over 90% hmean ata TLGAN model trained with only five labeled images

그림 3 ICDAR SROIE 테스트 데이터 세트를 사용하여 테스트한 Eleven TLGAN 모델의 결과를 보여줍니다.테스트 정밀도와 리콜은 라벨이 붙은 5개의 이미지로 훈련된 90% hmean ata TLGAN 모델 이상이다.

 

" Further, the TLGAN model trained with 11 images almostreached to the state-of-art scores (97% hmean).  For document detection tasks, our TLGAN model needs minimalamount of training data significantly reducing the data labeling works"

또한 11개의 이미지로 훈련된 TLGAN 모델은 최첨단 점수(97% hmean)에 거의 도달했다.문서 탐지 작업의 경우 TLGAN 모델은 데이터 라벨링 작업을 크게 줄이는 교육 데이터의 최소 양을 필요로 합니다

 

 

 

4 Discussions

 

TLGAN is a deep learning model to detect text in document and is trained using a generative adversarial network(GAN) approach

이미지[Count]Recall[%]708090100510010No.이미지[Count]H-mean [%]TLGAN: Generative Adversarial NetsA PREPRINT4 DiscussionsTLGAN을 이용한 문서 텍스트 위치 결정(Document Text Localization)은 문서에서 텍스트를 탐지하는 심층 학습 모델이며 GAN(Generative Aversarial Network) 접근법을 사용하여 훈련된다.

 

" A generator network in the TLGAN model finds the text location by translating a scanned documentimage into a text localization map followed by finding text bounding boxes from the map (figure 1).  To train a generatormodel, a discriminator network and a feature extraction network forms adversarial losses to find both image contentsand features"

"TLGAN 모델의 생성기 네트워크는 스캔된 문서 이미지를 텍스트 위치화 맵으로 변환한 다음 맵으로부터 텍스트 경계 박스를 찾아 텍스트 위치를 찾는다(그림 1).발전기 모델, 판별기 네트워크 및 특징 추출 네트워크를 훈련시키기 위해, 이미지 컨텐츠 및 특징을 모두 찾기 위해 적의 손실을 형성한다"

 

" A TLGAN model was trained for ICDAR SROIE task 1 dataset [24] and recorded 99.83% precision,99. 64% recall, and 99.23% hmean (table 1)"

"TLGAN 모델은 ICDAR SROIE task 1 데이터 세트 [24]에 대해 훈련되었으며 99.83%의 정밀도를 기록했습니다.64% 리콜, 99.23% 평균( 1)"

 

" Further, we found TLGAN learns TLGAN location easily that having tenlabeled document images make good text detection model with TLGAN approach.  Also, the TLGAN generator networkused in the manuscript is defined using 1.45M parameter, which is smaller than many other image processing networks"

"또한 TLGAN TLGAN의 위치를 쉽게 학습하여 TLGAN 접근을 통해 문서 이미지가 표시되어 있는 것이 좋은 텍스트 탐지 모델을 만든다는 것을 알게 되었다.또한 원고에 사용되는 TLGAN 생성기 네트워크는 1.45M 파라미터를 사용하여 정의되며, 이는 다른 많은 이미지 처리 네트워크보다 작다."

 

"The TLGAN uses image features from a ImageNet pretrained VGG19 network as an adversarial loss.  The effectiveTLGAN feature extraction from a VGG network is successfully demonstrated [26, 27] and the pretrained VGG networkis used as a part of their model"

"TLGAN ImageNet 사전 훈련된 VGG19 네트워크의 이미지 기능을 적의 손실로 사용합니다.VGG 네트워크로부터의 효과적인 TLGAN 특징 추출은 성공적으로 증명된다 [26, 27] 그리고 그들의 모델의 일부로 사용되는 사전 훈련된 VGG 네트워크"

 

" Here, we rather uses the large VGG model (e. g"

여기서 우리는 오히려 큰 VGG 모델(: g)을 사용한다.

 

 VGG16 with 138M parameters) butindirectly added in to a adversarial loss in addition to the mean-square-error loss.  We found the TLGAN rapidly learnstext location specific features from a pretrained VGG network devoiding an expensive computation of a VGG network

138M 매개 변수가 있는 VGG16)은 평균 제곱 오차 손실 외에도 간접적으로 적의 손실에 추가되었다.우리는 TLGAN VGG 네트워크의 값비싼 계산이 없는 사전 훈련된 VGG 네트워크로부터 텍스트 위치 특정 기능을 빠르게 학습한다는 것을 발견했다.

 

Such a knowledge transfer may allow the TLGAN not only to learn the text location map fast but also to need a smallset of training data. The current implementation of the TLGAN has following limitations

이러한 지식 전달은 TLGAN이 텍스트 위치 맵을 빠르게 학습할 뿐만 아니라 작은 훈련 데이터가 필요할 수 있습니다.TLGAN의 현재 구현은 다음과 같은 한계를 가지고 있다.

 

" First, the generator network of TLGAN followsresidual convolutional network design [31, 36, 37, 38, 39] and it certainly helps on a stable adversarial learning [31]. Yet, a residual convolutions with 3× 3 kernels only find the convolutional receptive field locally, therefore, the generatoris limited to learn the image features at a certain size"

"첫째, TLGAN의 생성 네트워크는 잔여 컨볼루션 네트워크 설계[31, 36, 37, 38, 39]를 따르며 안정적인 적의 학습에 확실히 도움이 된다[31].그러나 3개의 커널을 갖는 잔여 컨볼루션은 국소적으로 컨볼루션 수용 필드만 찾으므로 생성기는 특정 크기로 이미지 피쳐를 학습하는 데 제한됩니다."

 

" In other words, the text contents in the image requires in specificfont size and image resolution to achieve the best result with the current TLGAN implementation (see section 2.3). We found such can be solved by replacing residual convolutional layers to a U-Net like architecture [14] which formsmulti-resolution features with a high-resolution image reconstruction"

", 이미지의 텍스트 콘텐츠는 현재의 TLGAN 구현으로 최상의 결과를 얻기 위해 특정 폰트 크기와 이미지 해상도가 필요하다(2.3).우리는 잔여 컨볼루션 레이어를 고해상도 이미지 재구성으로 다중 해상도 기능을 형성하는 U-Net like architecture [14]로 대체함으로써 이러한 문제를 해결할 수 있음을 발견했습니다"

 

 We certainly experience some GAN issues ofvanishing gradients and mode collapse issues with a U-Net like generator in a long batch training.  Here we uses VGG19to take the feature loss from the image

우리는 긴 배치 훈련에서 U-Net과 같은 발전기로 기울기와 모드 붕괴 문제를 없애는 GAN 문제를 확실히 경험한다.여기서 우리는 VGG19를 사용하여 이미지에서 특징 손실을 취한다.

 

" Second, although this VGG network is not a part of a generator, it is a partof training and is taking a large computation and memory during the training.  We tried replacing the VGG19 to theMobileNetV2 [52] which reduces the computation and memory uses during the training as well as maintains learningfeatures similar to the VGG19"

"둘째, VGG 네트워크는 발전기의 일부가 아니지만 훈련의 일부이며 훈련 중에 큰 계산 및 메모리를 취하고 있습니다.우리는 VGG19 VGG19와 유사한 학습 기능을 유지하면서 훈련 중에 계산 및 메모리 사용을 줄이는 MobileNetV2 [52]로 대체하려고 시도했습니다."

 

" This certainly a better option in practice to have larger batches at the training.  Third,the generator in TLGAN only has 1.45M parameters, yet the model solves pixel to pixel problem and computation isexpensive"

"이것은 확실히 훈련에서 더 큰 배치를 갖는 것이 더 나은 선택이다.셋째, TLGAN의 생성기는 1.45M의 파라미터만을 가지고 있지만, 이 모델은 픽셀 대 픽셀 문제를 해결하고 계산은 비용이 많이 든다."

 

" In addition, the ROI proposal computation remains on CPU computation as a post processing (see section2.3).  Such a ROI proposal can be integrated within the network [2] or implementing post processing module on GPU"

또한 ROI 제안 계산은 사후 처리로서 CPU 계산에 남아 있다(2.3조 참조).이러한 ROI 제안은 네트워크[2] 내에 통합되거나 GPU 상에서 사후 처리 모듈을 구현할 수 있다

 

TLGAN is a document text localization GAN to form a text localization map from the document image followed bythe text localization.  The TLGAN takes the advantages of the adversarial learning and the pretrained convolutionalnetwork of VGG and learns the text localization features rapidly and easily

TLGAN은 문서 이미지에서 텍스트 위치 지정 맵을 형성하고 텍스트 위치 지정을 따르는 문서 텍스트 위치 지정 GAN입니다.TLGAN VGG의 역학습과 사전 훈련된 컨볼루션 네트워크의 장점을 이용하여 텍스트 위치화 기능을 빠르고 쉽게 학습한다.

 

" TLGAN is a practical text localizationmodel by reducing the data labeling work significantly, and can be trained readily for a new kind of datasets.  Furtherinvestigations are needed to prove the benefits and limitations of the TLGAN"

"TLGAN은 데이터 레이블링 작업을 크게 줄임으로써 실용적인 텍스트 로컬라이제이션 모델이며, 새로운 종류의 데이터 세트에 대해 쉽게 훈련할 수 있다.TLGAN의 이익과 한계를 입증하기 위해서는 추가 조사가 필요하다."

 

References

 

[1] A. P. Tafti, A. Baghaie, M. Assefi, H. R. Arabnia, Z. Yu, and P. Peissig, “OCR as a Service: An Experimental

Evaluation of Google Docs OCR, Tesseract, ABBYY FineReader, and Transym,” 2016, pp. 735–746. [Online].

Available: http://link.springer.com/10.1007/978-3-319-50835-1{_}66

[2] S. Ren, K. He, R. Girshick, and J. Sun, “Faster R-CNN: Towards Real-Time Object Detection with Region

Proposal Networks,” jun 2015. [Online]. Available: http://arxiv.org/abs/1506.01497

[3] W. Liu, D. Anguelov, D. Erhan, C. Szegedy, S. Reed, C.-Y. Fu, and A. C. Berg, “SSD:

Single Shot MultiBox Detector,” dec 2015. [Online]. Available: http://arxiv.org/abs/1512.02325http:

//dx.doi.org/10.1007/978-3-319-46448-0{_}2

[4] J. Redmon, S. Divvala, R. Girshick, and A. Farhadi, “You Only Look Once: Unified, Real-Time Object Detection,”

jun 2015. [Online]. Available: http://arxiv.org/abs/1506.02640

[5] J. Dai, Y. Li, K. He, and J. Sun, “R-FCN: Object Detection via Region-based Fully Convolutional Networks,” may

2016. [Online]. Available: http://arxiv.org/abs/1605.06409

[6] J. Redmon and A. Farhadi, “YOLO9000: Better, Faster, Stronger,” dec 2016. [Online]. Available:

http://arxiv.org/abs/1612.08242

[7] T.-Y. Lin, P. Dollár, R. Girshick, K. He, B. Hariharan, and S. Belongie, “Feature Pyramid Networks for Object

Detection,” dec 2016. [Online]. Available: http://arxiv.org/abs/1612.03144

[8] C.-Y. Fu, W. Liu, A. Ranga, A. Tyagi, and A. C. Berg, “DSSD : Deconvolutional Single Shot Detector,” jan 2017.

[Online]. Available: http://arxiv.org/abs/1701.06659

[9] J. Redmon and A. Farhadi, “YOLOv3: An Incremental Improvement,” apr 2018. [Online]. Available:

http://arxiv.org/abs/1804.02767

[10] M. Liao, B. Shi, X. Bai, X. Wang, and W. Liu, “TextBoxes: A Fast Text Detector with a Single Deep Neural

Network,” nov 2016. [Online]. Available: http://arxiv.org/abs/1611.06779

[11] A. Gupta, A. Vedaldi, and A. Zisserman, “Synthetic Data for Text Localisation in Natural Images,” apr 2016.

[Online]. Available: http://arxiv.org/abs/1604.06646

[12] X. Zhou, C. Yao, H. Wen, Y. Wang, S. Zhou, W. He, and J. Liang, “EAST: An Efficient and Accurate Scene Text

Detector,” apr 2017. [Online]. Available: http://arxiv.org/abs/1704.03155

[13] J. Long, E. Shelhamer, and T. Darrell, “Fully Convolutional Networks for Semantic Segmentation,” nov 2014.

[Online]. Available: http://arxiv.org/abs/1411.4038

[14] O. Ronneberger, P. Fischer, and T. Brox, “U-Net: Convolutional Networks for Biomedical Image Segmentation,”

may 2015. [Online]. Available: http://arxiv.org/abs/1505.04597

[15] F. Yu and V. Koltun, “Multi-Scale Context Aggregation by Dilated Convolutions,” nov 2015. [Online]. Available:

http://arxiv.org/abs/1511.07122

[16] M. Drozdzal, E. Vorontsov, G. Chartrand, S. Kadoury, and C. Pal, “The Importance of Skip Connections in

Biomedical Image Segmentation,” aug 2016. [Online]. Available: http://arxiv.org/abs/1608.04117

9

TLGAN: document Text Localization using Generative Adversarial Nets A PREPRINT

[17] S. Jégou, M. Drozdzal, D. Vazquez, A. Romero, and Y. Bengio, “The One Hundred Layers

Tiramisu: Fully Convolutional DenseNets for Semantic Segmentation,” nov 2016. [Online]. Available:

http://arxiv.org/abs/1611.09326

[18] D. Kim, Y. Min, J. M. Oh, and Y.-K. Cho, “AI-powered transmitted light microscopy for functional

analysis of live cells,” Scientific Reports, vol. 9, no. 1, p. 18428, dec 2019. [Online]. Available:

https://doi.org/10.1038/s41598-019-54961-xhttp://www.nature.com/articles/s41598-019-54961-x

[19] Y. Baek, B. Lee, D. Han, S. Yun, and H. Lee, “Character Region Awareness for Text Detection,” Proceedings

of the IEEE Computer Society Conference on Computer Vision and Pattern Recognition, vol. 2019-June, pp.

9357–9366, apr 2019. [Online]. Available: http://arxiv.org/abs/1904.01941

[20] P. Lyu, C. Yao, W. Wu, S. Yan, and X. Bai, “Multi-Oriented Scene Text Detection via Corner Localization and

Region Segmentation,” Proceedings of the IEEE Computer Society Conference on Computer Vision and Pattern

Recognition, pp. 7553–7563, feb 2018. [Online]. Available: http://arxiv.org/abs/1802.08948

[21] W. Wang, E. Xie, X. Song, Y. Zang, W. Wang, T. Lu, G. Yu, and C. Shen, “Efficient and Accurate Arbitrary-Shaped

Text Detection with Pixel Aggregation Network,” Proceedings of the IEEE International Conference on Computer

Vision, vol. 2019-Octob, pp. 8439–8448, aug 2019. [Online]. Available: http://arxiv.org/abs/1908.05900

[22] Z. Tian, W. Huang, T. He, P. He, and Y. Qiao, “Detecting Text in Natural Image with Connectionist Text Proposal

Network,” 2016, pp. 56–72. [Online]. Available: http://link.springer.com/10.1007/978-3-319-46484-8{_}4

[23] D. Karatzas, F. Shafait, S. Uchida, M. Iwamura, L. G. I. Bigorda, S. R. Mestre, J. Mas, D. F. Mota, J. A.

Almazan, and L. P. de las Heras, “ICDAR 2013 Robust Reading Competition,” in 2013 12th International

Conference on Document Analysis and Recognition. IEEE, aug 2013, pp. 1484–1493. [Online]. Available:

http://ieeexplore.ieee.org/document/6628859/

[24] ICDAR, “Results - ICDAR 2019 Robust Reading Challenge on Scanned Receipts OCR and Information

Extraction - Robust Reading Competition,” 2020. [Online]. Available: https://rrc.cvc.uab.es/?ch=13{&}com=

evaluation{&}task=1

[25] ——, “ICDAR 2019 Robust Reading Challenge on Scanned Receipts OCR and Information Extraction,” 2019.

[Online]. Available: https://rrc.cvc.uab.es/?ch=13

[26] J. Deng, W. Dong, R. Socher, L.-J. Li, Kai Li, and Li Fei-Fei, “ImageNet: A large-scale hierarchical image

database,” in 2009 IEEE Conference on Computer Vision and Pattern Recognition. IEEE, jun 2009, pp. 248–255.

[Online]. Available: https://ieeexplore.ieee.org/document/5206848/

[27] K. Simonyan and A. Zisserman, “Very Deep Convolutional Networks for Large-Scale Image Recognition,” sep

2014. [Online]. Available: http://arxiv.org/abs/1409.1556

[28] I. J. Goodfellow, J. Pouget-Abadie, M. Mirza, B. Xu, D. Warde-Farley, S. Ozair, A. Courville, and

Y. Bengio, “Generative Adversarial Networks,” 2019 IEEE/CVF International Conference on Computer Vision

Workshop (ICCVW), pp. 3063–3071, jun 2014. [Online]. Available: http://arxiv.org/abs/1908.08930https:

//ieeexplore.ieee.org/document/9022395/http://arxiv.org/abs/1406.2661

[29] P. Luc, C. Couprie, S. Chintala, and J. Verbeek, “Semantic Segmentation using Adversarial Networks,” nov 2016.

[Online]. Available: http://arxiv.org/abs/1611.08408

10

TLGAN: document Text Localization using Generative Adversarial Nets A PREPRINT

[30] P. Isola, J.-Y. Zhu, T. Zhou, and A. A. Efros, “Image-to-Image Translation with Conditional Adversarial Networks,”

in 2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), vol. 2017-Janua. IEEE, jul 2017,

pp. 5967–5976. [Online]. Available: http://arxiv.org/abs/1611.07004http://ieeexplore.ieee.org/document/8100115/

[31] C. Ledig, L. Theis, F. Huszar, J. Caballero, A. Cunningham, A. Acosta, A. Aitken, A. Tejani, J. Totz, Z. Wang, and

W. Shi, “Photo-Realistic Single Image Super-Resolution Using a Generative Adversarial Network,” Proceedings -

30th IEEE Conference on Computer Vision and Pattern Recognition, CVPR 2017, vol. 2017-Janua, pp. 105–114,

sep 2016. [Online]. Available: http://arxiv.org/abs/1609.04802

[32] T. Park, M.-Y. Liu, T.-C. Wang, and J.-Y. Zhu, “Semantic Image Synthesis with Spatially-Adaptive Normalization,”

Proceedings of the IEEE Computer Society Conference on Computer Vision and Pattern Recognition, vol.

2019-June, pp. 2332–2341, mar 2019. [Online]. Available: http://arxiv.org/abs/1903.07291

[33] C. D. Prakash and L. J. Karam, “It GAN DO Better: GAN-based Detection of Objects on Images with Varying

Quality,” 2019. [Online]. Available: http://arxiv.org/abs/1912.01707

[34] L. Liu, M. Muelly, J. Deng, T. Pfister, and L.-J. Li, “Generative Modeling for Small-Data Object Detection,” in

2019 IEEE/CVF International Conference on Computer Vision (ICCV), vol. 2019-Octob. IEEE, oct 2019, pp.

6072–6080. [Online]. Available: https://ieeexplore.ieee.org/document/9008794/

[35] W. Wang, W. Hong, F. Wang, and J. Yu, “GAN-Knowledge Distillation for One-Stage Object Detection,” IEEE

Access, vol. 8, pp. 60 719–60 727, 2020. [Online]. Available: https://ieeexplore.ieee.org/document/9046859/

[36] J. Johnson, A. Alahi, and L. Fei-Fei, “Perceptual Losses for Real-Time Style Transfer and Super-Resolution,” mar

2016. [Online]. Available: http://arxiv.org/abs/1603.08155

[37] S. Ioffe and C. Szegedy, “Batch Normalization: Accelerating Deep Network Training by Reducing Internal

Covariate Shift,” feb 2015. [Online]. Available: http://arxiv.org/abs/1502.03167

[38] K. He, X. Zhang, S. Ren, and J. Sun, “Deep Residual Learning for Image Recognition,” dec 2015. [Online].

Available: http://image-net.org/challenges/LSVRC/2015/http://arxiv.org/abs/1512.03385

[39] W. Shi, J. Caballero, F. Huszár, J. Totz, A. P. Aitken, R. Bishop, D. Rueckert, and Z. Wang, “Real-Time Single

Image and Video Super-Resolution Using an Efficient Sub-Pixel Convolutional Neural Network,” sep 2016.

[Online]. Available: http://arxiv.org/abs/1609.05158

[40] C. Dong, C. C. Loy, K. He, and X. Tang, “Image Super-Resolution Using Deep Convolutional Networks,” dec

2014. [Online]. Available: http://arxiv.org/abs/1501.00092

[41] L. A. Gatys, A. S. Ecker, and M. Bethge, “Texture Synthesis Using Convolutional Neural Networks,” may 2015.

[Online]. Available: http://arxiv.org/abs/1505.07376

[42] J. Bruna, P. Sprechmann, and Y. LeCun, “Super-Resolution with Deep Convolutional Sufficient Statistics,” nov

2015. [Online]. Available: http://arxiv.org/abs/1511.05666

[43] A. Radford, L. Metz, and S. Chintala, “Unsupervised Representation Learning with Deep Convolutional

Generative Adversarial Networks,” nov 2015. [Online]. Available: http://arxiv.org/abs/1511.06434

[44] S. Suzuki and K. Be, “Topological structural analysis of digitized binary images by border following,”

Computer Vision, Graphics, and Image Processing, vol. 30, no. 1, pp. 32–46, apr 1985. [Online]. Available:

https://linkinghub.elsevier.com/retrieve/pii/0734189X85900167

11

TLGAN: document Text Localization using Generative Adversarial Nets A PREPRINT

[45] D. P. Kingma and J. Ba, “Adam: A Method for Stochastic Optimization,” 3rd International Conference on

Learning Representations, ICLR 2015 - Conference Track Proceedings, pp. 1–15, dec 2014. [Online]. Available:

http://arxiv.org/abs/1412.6980

[46] C. Wolf and J.-M. Jolion, “Object count/area graphs for the evaluation of object detection and segmentation

algorithms,” International Journal of Document Analysis and Recognition (IJDAR), vol. 8, no. 4, pp. 280–296,

sep 2006. [Online]. Available: http://link.springer.com/10.1007/s10032-006-0014-0

[47] M. Everingham, S. M. A. Eslami, L. Van Gool, C. K. I. Williams, J. Winn, and A. Zisserman, “The Pascal Visual

Object Classes Challenge: A Retrospective,” International Journal of Computer Vision, vol. 111, no. 1, pp.

98–136, jan 2015. [Online]. Available: http://link.springer.com/10.1007/s11263-014-0733-5

[48] S. Sun, J. Pang, J. Shi, S. Yi, and W. Ouyang, “FishNet: A Versatile Backbone for Image, Region, and Pixel Level

Prediction,” jan 2019. [Online]. Available: https://arxiv.org/abs/1901.03495http://arxiv.org/abs/1901.03495

[49] Z. Zhang, T. He, H. Zhang, Z. Zhang, J. Xie, and M. Li, “Bag of Freebies for Training Object Detection Neural

Networks,” feb 2019. [Online]. Available: https://arxiv.org/abs/1902.04103http://arxiv.org/abs/1902.04103

[50] S.-H. Gao, M.-M. Cheng, K. Zhao, X.-Y. Zhang, M.-H. Yang, and P. Torr, “Res2Net: A New Multi-scale Backbone

Architecture,” apr 2019. [Online]. Available: https://arxiv.org/abs/1904.01169http://arxiv.org/abs/1904.01169http:

//dx.doi.org/10.1109/TPAMI.2019.2938758

[51] W. Wang, E. Xie, X. Li, W. Hou, T. Lu, G. Yu, and S. Shao, “Shape Robust Text Detection with

Progressive Scale Expansion Network,” mar 2019. [Online]. Available: https://arxiv.org/abs/1903.12473http:

//arxiv.org/abs/1903.12473

[52] M. Sandler, A. Howard, M. Zhu, A. Zhmoginov, and L.-C. Chen, “MobileNetV2: Inverted Residuals and Linear

Bottlenecks, jan 2018. [Online]. Available: http://arxiv.org/abs/1801.04381

반응형

댓글