헬리콥터한테 복잡한 기동을 할 수 있도록 가르치는데 머신러닝을 활용한다고 가정해보자. 위의 사진은 시간대별로 컴퓨터가 조종하는 헬리콥터가 엔진이 꺼지면서 착륙하기까지의 사진을 나타내고 있다. 이런 방식을 "자동회전식(autorotation)" 기동이라고 부른다. 이를 통해 헬리콥터의 엔진이 뭔가 예측하지 못한 사유로 인해 고장날 지라도 헬리콥터가 착륙할 수 있게끔 해준다. 인간 조종사는 교육과정 중 일환으로 이런 기동을 연습한다. 이제 해야할 목표는 학습 알고리즘을 사용해서 헬리콥터의 안정적인 착륙을 위해 T 경로를 따라서 헬리콥터가 비행하는 것이다. 강화학습(reinforcement learning)을 적용하기 위해서는, 모든 가능한 경로 T에 대해서 얼마나 좋은지를 평가할 수 있는 "보상 함수(rew..
이런 경우에는 최적화 검증 테스트를 적용해볼 수 있다. 만약 주어진 입력 x에 대해서, 출력 y를 얼마나 잘 얻을 수 있는지 점수 Scorex(y)를 계산할 수 있을 수 있을 때 말이다. 더불어 argmaxyScorex(y)를 찾는 근사 알고리즘을 사용하는데 종종 최대치를 찾는데 실패하는 검색 알고리즘을 의심해볼 때도 사용해볼 수 있다. 이전 음성 인식 예제를 가져와보면 x=A는 음성 데이터 일 것이고, y=S는 출력 번역본일 것이다. y*가 "올바른" 출력인데, 알고리즘은 y_out 결과를 내뱉었다고 가정해보자. 그러면 이를 확인해볼 방법은 $$Score_{x}(y*) > Score_{x}(y_{out})$$여부를 확인하는 것이다. 만약 위의 수식이 참이라면, 최적화 알고리즘 문제로 판명할 것이다. 이..
- Total
- Today
- Yesterday
- processing
- windows 8
- DepthStream
- TensorFlow Lite
- Offline RL
- Off-policy
- Policy Gradient
- Expression Blend 4
- Pipeline
- Kinect SDK
- SketchFlow
- Python
- Kinect for windows
- Kinect
- ColorStream
- dynamic programming
- 딥러닝
- PowerPoint
- Gan
- 강화학습
- 한빛미디어
- Distribution
- arduino
- Windows Phone 7
- 파이썬
- bias
- reward
- Variance
- RL
- End-To-End
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | |
7 | 8 | 9 | 10 | 11 | 12 | 13 |
14 | 15 | 16 | 17 | 18 | 19 | 20 |
21 | 22 | 23 | 24 | 25 | 26 | 27 |
28 | 29 | 30 | 31 |