티스토리 뷰

Study/AI

[MLY] 정보가 많은 출력물을 통한 직접적 학습

생각많은 소심남 2018. 10. 15. 09:02

 이미지 분류 알고리즘은 이미지 x를 입력으로 받고, 해당 사물의 카테고리를 나타내는 정수 형태로 출력될 것이다. 혹시 알고리즘이 위와 같은 출력 대신에 이미지를 묘사한 하나의 문장으로 출력을 내보낼 수 있을까?

 예를 들어

위의 이미지를 입력으로 받았을 때 출력은

"초록 나무와 초록 잔디가 있는 배경에서 길을 가로지르고 있는 노란 버스"

라고 하는 것처럼 말이다.

 지도 학습의 전형적인 어플리케이션은 보통 h:X -> Y라는 함수를 학습을 하고, 보통 y는 정수나 실수를 나타낸다. 예를 들어:

 문제

스팸 메일 분류 

메일 

스팸이냐/아니냐(0/1) 

이미지 인식 

이미지 

정수로 된 라벨 

집값 예측 

집의 특성 

달러로 표시된 돈 

상품 추천 

상품 & 사용자 특성 

해당 상품을 구입할 가능성 

 end-to-end 딥러닝 환경에서 가장 흥미로운 프로젝트 중 하나는 위와 같이 숫자로 표현되는 것보다 더 복잡한 y를 직접적으로 학습하는 것이다. 위와 같은 이미지를 묘사하는 예제에서도 입력을 이미지(x)로 받고 직접적으로 문장(y)를 출력하는 신경망을 활용할 수 있다.

 몇가지 예제를 더 들 수 있다.

 문제

참조 문헌 

이미지 문장 표현 

이미지 

텍스트 

Mao et al, 2014 
(Deep Captioning with Multimodal Recurrent Neural Networks (m-RNN))

기계 번역 

영어 문장 

불어 문장 

Suskever et al, 2014 
(Sequence to Sequence Learning with Neural Networks)

질답 시스템(Q/A) 

(문장, 질문) 쌍 

답변 문장 

Bordes et al, 2015 
(Large-scale Simple Question Answering with Memory Networks)

음성 인식 

음성 데이터 

번역본 

Hannun et al, 2015 
(Deep Speech: Scaling up end-to-end speech recognition)

TTS 

문장 특성 

음성 데이터 

van der Oord et al, 2016 
(Conditional Image Generation with PixelCNN Decoders)

 위의 것은 딥러닝 업계에서 활성화 되어 있는 경향이다. 오른쪽에 (input, output)으로 라벨링된 쌍이 있으면, 출력이 문장이나 이미지, 음성 데이터와 같이 단순 정수보다 정보가 많이 담긴 결과를 내보내는 end-to-end 시스템을 학습시킬 수 있다.

< 해당 포스트는 Andrew Ng의 Machine Learning Yearning 중 chapter 52. Directly learning rich outputs를 번역한 내용입니다.>

댓글