티스토리 뷰
이미지 분류 알고리즘은 이미지 x를 입력으로 받고, 해당 사물의 카테고리를 나타내는 정수 형태로 출력될 것이다. 혹시 알고리즘이 위와 같은 출력 대신에 이미지를 묘사한 하나의 문장으로 출력을 내보낼 수 있을까?
예를 들어
위의 이미지를 입력으로 받았을 때 출력은
"초록 나무와 초록 잔디가 있는 배경에서 길을 가로지르고 있는 노란 버스"
라고 하는 것처럼 말이다.
지도 학습의 전형적인 어플리케이션은 보통 h:X -> Y라는 함수를 학습을 하고, 보통 y는 정수나 실수를 나타낸다. 예를 들어:
문제 |
X |
Y |
스팸 메일 분류 |
메일 |
스팸이냐/아니냐(0/1) |
이미지 인식 |
이미지 |
정수로 된 라벨 |
집값 예측 |
집의 특성 |
달러로 표시된 돈 |
상품 추천 |
상품 & 사용자 특성 |
해당 상품을 구입할 가능성 |
end-to-end 딥러닝 환경에서 가장 흥미로운 프로젝트 중 하나는 위와 같이 숫자로 표현되는 것보다 더 복잡한 y를 직접적으로 학습하는 것이다. 위와 같은 이미지를 묘사하는 예제에서도 입력을 이미지(x)로 받고 직접적으로 문장(y)를 출력하는 신경망을 활용할 수 있다.
몇가지 예제를 더 들 수 있다.
문제 |
X |
Y |
참조 문헌 |
이미지 문장 표현 |
이미지 |
텍스트 |
Mao et al, 2014 |
기계 번역 |
영어 문장 |
불어 문장 |
Suskever et al, 2014 |
질답 시스템(Q/A) |
(문장, 질문) 쌍 |
답변 문장 |
Bordes et al, 2015 |
음성 인식 |
음성 데이터 |
번역본 |
Hannun et al, 2015 |
TTS |
문장 특성 |
음성 데이터 |
van der Oord et al, 2016 |
위의 것은 딥러닝 업계에서 활성화 되어 있는 경향이다. 오른쪽에 (input, output)으로 라벨링된 쌍이 있으면, 출력이 문장이나 이미지, 음성 데이터와 같이 단순 정수보다 정보가 많이 담긴 결과를 내보내는 end-to-end 시스템을 학습시킬 수 있다.
< 해당 포스트는 Andrew Ng의 Machine Learning Yearning 중 chapter 52. Directly learning rich outputs를 번역한 내용입니다.>
'Study > AI' 카테고리의 다른 글
[MLY] 오류 탐지의 일반적인 경우 (0) | 2018.10.16 |
---|---|
[MLY] 한 부분에 대한 오류 표시 (0) | 2018.10.15 |
[MLY] 요소별 오류 평가 (0) | 2018.10.15 |
[MLY] 파이프라인 구성 요소 선택: 작업의 단순정도 (0) | 2018.10.14 |
[MLY] 파이프라인 구성 요소 선택 : 데이터 가용성 측면 (0) | 2018.10.14 |
[MLY] end-to-end 학습의 장단점 (2) | 2018.10.12 |
[MLY] end-to-end learning의 예 (0) | 2018.10.12 |
- Total
- Today
- Yesterday
- Pipeline
- Windows Phone 7
- Variance
- windows 8
- arduino
- PowerPoint
- Distribution
- 파이썬
- ai
- Kinect for windows
- 딥러닝
- dynamic programming
- End-To-End
- Kinect SDK
- ColorStream
- TensorFlow Lite
- DepthStream
- bias
- Off-policy
- SketchFlow
- RL
- Expression Blend 4
- Gan
- Offline RL
- Policy Gradient
- reward
- Kinect
- 강화학습
- processing
- 한빛미디어
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |