이미지 분류 알고리즘은 이미지 x를 입력으로 받고, 해당 사물의 카테고리를 나타내는 정수 형태로 출력될 것이다. 혹시 알고리즘이 위와 같은 출력 대신에 이미지를 묘사한 하나의 문장으로 출력을 내보낼 수 있을까? 예를 들어위의 이미지를 입력으로 받았을 때 출력은"초록 나무와 초록 잔디가 있는 배경에서 길을 가로지르고 있는 노란 버스"라고 하는 것처럼 말이다. 지도 학습의 전형적인 어플리케이션은 보통 h:X -> Y라는 함수를 학습을 하고, 보통 y는 정수나 실수를 나타낸다. 예를 들어: 문제 X Y 스팸 메일 분류 메일 스팸이냐/아니냐(0/1) 이미지 인식 이미지 정수로 된 라벨 집값 예측 집의 특성 달러로 표시된 돈 상품 추천 상품 & 사용자 특성 해당 상품을 구입할 가능성 end-to-end 딥러닝 환..
데이터 가용성과는 별개로, 파이프라인의 구성 요소를 선택할 때, 두번째 고려사항도 염두해둬야 한다. 요소 개발적으로 풀수 있는 작업들을 얼마나 단순화시킬 수 있느냐 하는 것이다. 파이프란이의 구성 요소를 선택하는 있어서 해당 요소들이 각각 구성하기 쉽거나 학습시키기 쉬운 것들을 선택해야 한다. 그런데 여기서 학습하기 "쉽다"는 것은 어떤 것을 의미할까? 머신러닝 관련 작업을 수행할 때, 아래에 쉬운 순서대로 나열된 부분을 고려해보자: 1. (위의 이미지와 같이) 해당 이미지가 과도하게 노출되었는지 여부를 구별하는 것 2. 해당 이미지가 실내에서 찍은건지 야외에서 찍은건지 구별하는 것 3. 해당 이미지가 고양이를 포함하고 있는 것인지를 구별하는 것 4. 해당 이미지가 검정과 하얀 털로 구성된 고양이가 포함..
end-to-end 방식이 아닌 파이프라인 시스템을 만들때, 파이프라인의 구성 요소로 적합한 후보군은 어떤 것일까? 어떻게 파이프라인을 디자인하느냐가 전체 시스템의 성능에 크게 영향을 줄 수 있다. 한가지 중요한 고려 사항 중 하나는 각 요소들을 학습시킬 데이터를 쉽게 얻을 수 있느냐 여부이다. 예를 들어 아래와 같은 자율 주행을 위한 구조를 고려해보자: 위의 구조에서 머신러닝을 활용하여 차와 보행자를 탐지할 수 있다. 더 나아가 이를 위한 데이터를 얻는 것이 그렇게 어렵지 않다. 차와 보행자에 대한 라벨링이 되어 있는 수많은 컴퓨터 비전 처리용 데이터들이 많이 있다. 또한 (Amazon Mechanical Turk와 같은) 크라우드 소싱을 활용해서 더 많은 데이터 집합을 얻을 수 있다. 결국 차 감지기..
이전 예와 동일한 음성 파이프라인을 고려해보자.위의 파이프라인의 대부분 요소들은 "수동적으로 조절되어야 한다(hand-engineered): - MFCC는 일종의 수동적으로 생성되는 음성 특징의 집합체이다. 비록 이 정보들이 음성 입력으로부터 의미있는 정보를 제공하기는 하나, 한편으로는 몇몇 정보를 제거함으로 인해서 입력 데이터를 단순화시킬 수도 있다. - 음소는 언어학자들이 만들어낸 발명품과 같다. 사실 이것들은 음성 상에서 약간 불완전한 요소이기도 하다. 음소가 실제 음성을 근사하기에게 부족한 부분이 있기에, 이를 알고리즘에 반영하면 실제 음성 시스템의 성능을 제한시킬 수도 있다. 이런 수동적인 요소들이 시스템의 잠재적인 성능을 제한시킬 수 있다. 하지만 이런 수동적인 요소들도 몇몇 장점을 가지고 있..
음성 인식 시스템을 만들길 원한다고 가정해보자. 그러면 아래와 같이 세가지 요소로 구성된 시스템을 만들 것이다:각 요소들은 다음과 같이 동작한다: 1. 특징 연산(Compute features) : MFCC(Mel-frequency cepstrum coefficients)와 같이 수동적으로 생성된 특징을 추출한다. 이를 통해 화자의 음정과 같이 상대적으로 연관성이 적은 특성들 배제하고 방언이나 사투리의 내용을 얻는데 주력한다. 2. 음소 인식(Phonemene recognizer) : 몇몇 언어학자들은 "음소"라고 불리는 발음의 기본 요소들이 있다고 믿는다. 예를 들어 "keep"에서 처음 발음되는 "k"는 "cake"에서 "c"와 같은 음소를 가지고 있는 것이다. 지금 다루는 시스템은 음성 데이터 내에..
온라인 상품의 리뷰를 검사해주고, 해당 글 작성자가 상품에 대해서 좋아하는지 안 좋아하는지를 자동적으로 알려주는 시스템을 만들고 있다고 가정해보자. 예를 들어 다음 리뷰에 대해서는 아주 긍정적으로 인식되기를 원할 것이다:This is great mop!( 이건 훌륭한 걸레야! )그리고 다음 글에 대해서는 매우 부정적인 것으로 인식될 것이다.This mop is low quality--I regret buying it.(이 걸레는 질이 낮아서, 산 걸 후회한다.) 긍정적인 것과 부정적인 것을 인식하는데 있어 문제가 발생하는 것을 보통 "감정 분류(sentiment classification)"이라고 부른다. 이런 시스템을 만들기 위해서는 두 가지 구성요소로 이뤄진 하나의 "파이프라인"을 만들어야 한다. 1..
- Total
- Today
- Yesterday
- ColorStream
- Kinect for windows
- 강화학습
- Pipeline
- PowerPoint
- 딥러닝
- Expression Blend 4
- End-To-End
- DepthStream
- 한빛미디어
- Policy Gradient
- Off-policy
- reward
- Kinect
- Offline RL
- TensorFlow Lite
- dynamic programming
- bias
- SketchFlow
- Gan
- RL
- Variance
- processing
- Kinect SDK
- arduino
- ai
- windows 8
- Windows Phone 7
- Distribution
- 파이썬
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |