(해당 글은 OpenAI Engineer인 Lilian Weng의 포스트 내용을 원저자 동의하에 번역한 내용입니다.) Meta-Learning: Learning to Learn Fast Meta-learning, also known as “learning to learn”, intends to design models that can learn new skills or adapt to new environments rapidly with a few training examples. There are three common approaches: 1) learn an efficient distance metric (metric-based); lilianweng.github.io "Learning To Lea..
이 책이 2월 중순에 출간됬으니, 조금 되긴 했지만.... 아무튼 출판되는 책에 감수자로 한번 이름을 올린 적이 있다. 사실 책이 출간되기 전에 강화학습 파트쪽 코드를 리뷰해줄 사람을 찾길래, 개인 공부도 할겸 덜컥 지원했었는데, 그때 인연이 생겨서 전체 책을 감수하게 되었다. 사실 감수라는 이름이 좀 거창해보이긴 한데, 내가 한 건 원서 소스를 조금 다듬고, jupyter notebook 형식으로 정리해준 것뿐이다. 그래도 항상 블로그에 글 남기면서 "언젠가는 여기있는 내용으로 책을 썼으면 좋겠다"는 바램을 항상 가지고 있었는데, 완벽하지는 않지만 그래도 책에 이름은 남겼으니까 뭔가 느낌이 색달랐다. 정말 언젠가는 공부도 열심히 하고 다른 사람들이 이해하기 쉬운 내용으로 책을 쓰고 싶다. 그 언제가 언..
이전에 다뤘던 Q-learning같은 방법들을 보면, 각 state에 대한 expected return들을 일종의 table 형식으로 관리하는 것을 확인할 수 있었다. Bellman Equation을 사용해서 우리는 나름의 각 state에 대한 \(v_{\pi}(s)\) 를 구하거나, 각 state-action pair에 대한 \(q_{\pi}(s, a)\)를 구하고 매 step마다 table을 업데이트하면서 나름의 optimal policy를 찾으려고 노력할 것이다. 여기서 주어진 환경내에서 취할 action을 정의한 policy \(\pi\)에 대한 state value function \(v_{\pi}(s)\) 를 구한다고 해보자. 강화학습의 특성상 우리는 미래에 얻을 수 있는 expected re..
이전에 강의들을 때는 Perceptron이 그냥 Linear classification을 할때 쓰는 간단한 알고리즘이라고 생각했었는데, 나중에 와서 다시 공부해보니까, weight의 update 주기나 convergence에 대한 고민을 하면서 여러가지 기법들이 더 나온것을 알았다. 마침 하던 과제 중에 sentiment_analysis를 여러가지 perceptron으로 해서 성능 비교하는 내용이 있어 공유해본다. 참고로 Pegasos(Primal Estimated sub-GrAdient SOlver for SVM, Shalev-Shwartz et al, 2011)은 SVM을 사용할 때 gradient descent를 접목시킨 내용인데, 여타 알고리즘에 비해 convergence가 잘 되는 것으로 알고 ..
- Total
- Today
- Yesterday
- 강화학습
- DepthStream
- reward
- Policy Gradient
- SketchFlow
- Kinect for windows
- Windows Phone 7
- 한빛미디어
- Expression Blend 4
- RL
- Variance
- 파이썬
- Python
- Pipeline
- ColorStream
- arduino
- Offline RL
- Distribution
- Kinect
- processing
- TensorFlow Lite
- 딥러닝
- Gan
- End-To-End
- dynamic programming
- PowerPoint
- Kinect SDK
- bias
- Off-policy
- windows 8
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | |
7 | 8 | 9 | 10 | 11 | 12 | 13 |
14 | 15 | 16 | 17 | 18 | 19 | 20 |
21 | 22 | 23 | 24 | 25 | 26 | 27 |
28 | 29 | 30 | 31 |