![](http://i1.daumcdn.net/thumb/C148x148/?fname=https://blog.kakaocdn.net/dn/bccyhc/btrzw924Xeg/6d2jQbIKS9Xo6IFt6sjJgk/img.png)
(논문의 의도를 가져오되, 개인적인 의견이 담길 수도 있습니다.) Offline RL without Off-Policy Evaluation - Brandfonbrener et al, NeurIPS 2021 (논문, 코드) 요약 이전에 수행된 대부분의 Offline RL에서는 off-policy evaluation과 관련된 반복적인 Actor-critic 기법을 활용했다. 이 논문에서는 behavior policy의 on-policy Q estimate를 사용해서 제한된/정규화된 policy improvement를 단순히 한번만 수행해도 잘 동작하는 것을 확인했다.이 one-step baseline이 이전에 발표되었던 논문에 비하면 눈에 띌만큼 간단하면서도 hyperparameter에 대해서 robust한..
![](http://i1.daumcdn.net/thumb/C148x148/?fname=https://blog.kakaocdn.net/dn/dsQIBP/btrzdhooSkN/Hjj51KpwDAMr0zfeqWnHkK/img.png)
(논문의 의도를 가져오되, 개인적인 의견이 담길 수도 있습니다.) Stabilizing Off-Policy Q-Learning via Bootstrapping Error Reduction - Kumar et al, NeurIPS 2019 (논문, 코드) 요약 Off-policy RL은 샘플링 관점에서 효율적인 학습을 위해서 다른 policy (behavior policy)로부터 수집한 데이터로부터 경험을 배우는데 초점을 맞추지만, Q-learning이나 Actor-Critic 기반의 off-policy Approximate dynamic programming 기법은 학습시 사용된 데이터와 실제 데이터간의 분포가 다른 문제로 인해서 on-policy data를 추가로 활용하지 않고서는 성능을 개선하기가 어..
![](http://i1.daumcdn.net/thumb/C148x148/?fname=https://blog.kakaocdn.net/dn/bi8UzP/btrzaXvKl6s/vqgwuG2WOcLgffDMm6BlBK/img.png)
(논문의 의도를 가져오되, 개인적인 의견이 담길 수도 있습니다.) Off-Policy Deep Reinforcement Learning without Exploration - Fujimoto et al, ICML 2019 (논문, 코드) 요약 이 논문에서는 이미 모아져있는 고정된 dataset 상에서 강화학습 에이전트를 학습할 수 있는 알고리즘을 소개한다. 보통 강화학습은 exploration을 통해서 insight를 얻어내고, 이에 대한 경험으로 성능을 추출하는 형태로 되어 있지만, 고정된 dataset으로부터 학습하게 되면 exploration을 할 수 없기 때문에 성능을 얻어낼 요소가 부족하다. 이런 종류의 알고리즘을 Offline RL 혹은 Batch RL이라고 표현하고, 사실 이 알고리즘은 be..
![](http://i1.daumcdn.net/thumb/C148x148/?fname=https://blog.kakaocdn.net/dn/w2J2A/btryRsW74NO/0a6vKab0meXKfKCI7OaXSk/img.jpg)
(해당 포스트에서 소개하고 있는 "딥러닝 파이토치 교과서" 책은 길벗 미디어로부터 제공받았음을 알려드립니다.) 딥러닝 파이토치 교과서 기초부터 CNN, RNN, 시계열 분석, 성능 최적화, 자연어 처리, 강화 학습, 생성 모델까지! www.gilbut.co.kr 어느 순간부터인가 논문에 구현되어 있는 모델을 github에서 찾다보면 거의 대부분이 pytorch로 구현되어 있다. 현재 현업에서 사용하고 있는 것이 tensorflow다 보니, tensorflow로는 어떻게 구현되어 있나 찾아봐도 진짜 거의 대부분이 pytorch로 되어 있다. 이런 트렌드가 계속 나타나고 있는 이유는 아마 pytorch가 그만큼 대중화되어 사용하기 직관적으로 되어 있어서가 아닐까 싶다. (사실 tensorflow도 2.x대로..
![](http://i1.daumcdn.net/thumb/C148x148/?fname=https://blog.kakaocdn.net/dn/cOUDRi/btrx6ohcjow/AVCUrwYc75rkKyXoBbmmM1/img.jpg)
(해당 포스트에서 소개하고 있는 "Deep Learning for Coders with fastai & PyTorch" 책은 한빛 미디어로부터 제공받았음을 알려드립니다.) fastai와 파이토치가 만나 꽃피운 딥러닝 최소한의 지식으로 딥러닝을 쉽게 배울 수 있는 도서 hanbit.co.kr 요새는 인공지능 교육에 대한 수요가 많기도 하고, 유무료로 교육자료가 제공되는 형태들도 많아졌다. 맘만 먹으면 양질의 인공지능 강의를 무료로도 들을 수 있는 것이다. 물론 수많은 강의들이 있겠지만, 그 중에 한 축이라고 할 수 있는 강의 중 하나가 fast.ai일 것이다. fast.ai · Making neural nets uncool again 15 Mar 2022 Rachel Thomas On the surface..
![](http://i1.daumcdn.net/thumb/C148x148/?fname=https://blog.kakaocdn.net/dn/DSIko/btrgV82vkj4/m7YnWKi3WqnXtn27PqWbt0/img.png)
(해당 글은 U.C. Berkeley 박사과정에 재학중인 Daniel Seita가 작성한 포스트 내용을 원저자 동의하에 번역한 내용입니다) Offline (Batch) Reinforcement Learning: A Review of Literature and Applications Reinforcement learning is a promising technique for learning how to perform tasks through trial and error, with an appropriate balance of exploration and exploitation. Offline Reinforcement Learning, also known as Batch Reinforcement Learni..
![](http://i1.daumcdn.net/thumb/C148x148/?fname=https://blog.kakaocdn.net/dn/CLPyp/btrup9gzGIx/WRv2hbsYyhuzExF01eAFnk/img.jpg)
(해당 포스트에서 소개하고 있는 "파이썬으로 익히는 말랑말랑 알고리즘" 책은 BJ퍼블릭으로부터 제공받았음을 알려드립니다.) 파이썬으로 익히는 말랑말랑 알고리즘 파이썬으로 익히는 말랑말랑 알고리즘 부제 차근차근 설명하고 막힘없이 이해하는 알고리즘 저자 김경록 출판사 비제이퍼블릭 출간/배본가능일 2022년 01월 26일 정가 30,000원 페이지 448쪽 판형 bjpublic.tistory.com 아마 IT회사 취업을 목표로 하는 사람이라면 누구든 코딩 테스트에 대한 준비를 할 것이다. 흔히 네카라쿠배 라고 하는 상위 IT기업들만 하더라도 입사를 위해서는 코딩테스트나 코딩 과제를 제출해야하고, 이를 준비하는 교육 과정과 책들이 시중에도 많이 나와있다. IT 게시판같은 것을 살펴보면 이 코딩테스트의 필요성에 ..
![](http://i1.daumcdn.net/thumb/C148x148/?fname=https://blog.kakaocdn.net/dn/bIFLPa/btrubtMpXLc/2VodA8fLzmMxd8gFXiRtA0/img.jpg)
(해당 포스트에서 소개하고 있는 "비전 시스템을 위한 딥러닝" 책은 한빛 미디어로부터 제공받았음을 알려드립니다.) 비전 시스템을 위한 딥러닝 이 책은 아주 어렵지 않은 수준에서 컴퓨터 비전 시스템에 고급 딥러닝 알고리즘을 어떻게 활용하는지 소개한다. 파이썬 코드를 어느 정도 작성할 수 있는 사람이라면 다양한 딥러닝 기반 알고 hanbit.co.kr 인공지능 기술이 다양한 분야에 적용되고 있다고는 하지만, 가장 많이 드러나있고, 성과로 보여지는 분야는 역시 컴퓨터 비전이 아닐까 싶다. 우리가 눈뜨고 살아가는 이상, 눈으로 들어오는 시각 정보의 양도 어마어마하면서, 뭔가 변화나 결과가 나왔을때 제일 확 와닿기 때문이다. 그래서 아마 대부분의 인공지능 기술 책을 살펴보면 제일 처음 배우는 MLP이후로 바로 나..
![](http://i1.daumcdn.net/thumb/C148x148/?fname=https://blog.kakaocdn.net/dn/pSrOt/btrr5UzLLVD/qy8uWbeTbmdQVcqQJxBwI0/img.jpg)
(해당 포스트에서 소개하고 있는 "알고리즘 구현으로 배우는 선형대수" 책은 BJ퍼블릭으로부터 제공받았음을 알려드립니다.) 알고리즘 구현으로 배우는 선형대수 with 파이썬 알고리즘 구현으로 배우는 선형대수 with 파이썬 부제 행렬의 기초부터 텐서를 활용한 머신러닝과 딥러닝 적용까지 저자 장철원 출간/배본가능일 2021년 12월 24일 정가 34,000원 페이지 592쪽 판형 1 bjpublic.tistory.com 아마 공대를 처음 입학하면 제일 처음 배우는 전공기초 과목들이 있었을텐데, 전자과를 나왔던 나는 그 과목중에 선형대수학, linear algebra가 있었다. 사실 과목에서 다루는 것이 막연하게 행렬이 나오고 어떻게 곱하는지를 가르쳐주는 통에 지루해서 대충 들었었는데, 지금 돌이켜보면 그 때..
![](http://i1.daumcdn.net/thumb/C148x148/?fname=https://blog.kakaocdn.net/dn/bPClmP/btrrY5OuUa9/15tst2VVhQlzYXzVxaJlKK/img.jpg)
(해당 포스트에서 소개하고 있는 "파이썬으로 완성하는 비지도 학습 알고리즘" 책은 BJ퍼블릭으로부터 제공받았음을 알려드립니다.) 파이썬으로 완성하는 비지도 학습 알고리즘 파이썬으로 완성하는 비지도 학습 알고리즘 부제 비감독 모형과 텐서플로 2를 이용한 전처리 기법의 머신러닝 구현 저자 송동근 출간/배본가능일 2021년 12월 31일 정가 34,000원 페이지 560쪽 판형 bjpublic.tistory.com 얼마전에 학생들 멘토링을 해주다가 나온 아이디어가 영화에 나온 음악을 분위기별로 clustering해서 추천시스템에 활용할 수 있을까 하는 생각이 나오길래, 도움을 준 적이 있다. 그냥 딱 생각했을때 흔히 잘 아는 Thomas Newman이나 Hans Zimmer 같은 감독은 딱 들으면 이 감독 음..
![](http://i1.daumcdn.net/thumb/C148x148/?fname=https://blog.kakaocdn.net/dn/tg8YZ/btroTltJ8yR/VYnkEzExdZwuJKakEqq2kK/img.jpg)
(해당 포스트에서 소개하고 있는 "데이터 과학자 되는 법" 책은 한빛 미디어로부터 제공받았음을 알려드립니다.) 데이터 과학자 되는 법 이 책은 데이터 과학자로 취업하는 방법과 커리어를 탄탄하게 쌓는 노하우를 상세히 다룬다. 다양한 업계에 종사하는 데이터 과학자들의 인터뷰를 참고해 실무 적응 능력을 키우고 자신의 커리 hanbit.co.kr 어렸을 때 내 꿈은 "과학자"가 되는 것이었다. 어렸을때는 엔지니어라는 말도 몰랐고, 막연하게 아버지와 같은 사람이 되고 싶은 마음에 과학자가 되고 싶다고 했었는데, 이제는 어느덧 공학을 전공하고 엔지니어가 되었다. 지금은 이제 매일같이 회사가서 센서 데이터를 분석하고, 이 데이터속에서 유의미성을 판단하는 일을 하고 있지만, 과연 내가 "데이터 과학자"인가? 하는 것에..
![](http://i1.daumcdn.net/thumb/C148x148/?fname=https://blog.kakaocdn.net/dn/XcgBj/btroEyrQejI/0SB7otKrdgn573i26whdu0/img.png)
Dopamine은 Google Research에서 만든 강화학습 실험용 Framework이다. 사실 이 툴의 취지는 SW 개발적인 측면보다는 강화학습 알고리즘 개발에 치중할 수 있도록 환경과 에이전트 설정을 configuration화시킨 것이다. 그래서 소개란에도 "Fast prototyping of reinforcement learning algorithm"이라고 되어 있다. Framework에 대한 논문은 아래에 있다. Dopamine: A Research Framework for Deep Reinforcement Learning Deep reinforcement learning (deep RL) research has grown significantly in recent years. A number..
![](http://i1.daumcdn.net/thumb/C148x148/?fname=https://blog.kakaocdn.net/dn/q1IFH/btrnhATlMAH/xtOjZszya3vCW7Tk1HuXP1/img.jpg)
Kickstarter에서 펀딩한 물건이 왔다. 이름은 Bangle.js 2. 외형은 애플워치를 닮긴했는데, display되는 것은 조금 투박하긴 하다. 그런데 사실 이 시계가 표방하는 것은 Open Hackable Smart Watch, 즉 오픈소스로 프로그래밍이 가능한 것이다. Base는 esp32기반인데, espruino라는 마이크로컨트롤러에서 javascript를 돌릴수 있는 interpreter가 내장되어 있다. 그래서 사용자가 javascript만 할줄 알면, app loader를 통해서 원하는 기능을 시계에 넣을 수 있다. 시계치고는 터치스크린과 버튼, 심박동 센서. pedometer 같은 센서들이 달려있어 뭔가 좀 써먹기 좋아보인다. https://www.espruino.com/ Esprui..
![](http://i1.daumcdn.net/thumb/C148x148/?fname=https://blog.kakaocdn.net/dn/dspwuu/btrlId5YbwC/4VmRRFLqulpSe8XHKkpfP1/img.jpg)
(해당 포스트에서 소개하고 있는 "구글 BERT의 정석" 책은 한빛 미디어로부터 제공받았음을 알려드립니다.) 구글 BERT의 정석 이 책은 BERT의 기본 개념부터 다양한 변형 모델, 응용 사례까지 한 권으로 담은 실무 지침서다. 기계번역, 챗봇, 정보 검색 등 다양한 사례를 중심으로 BERT의 양방향을 활용하여 최소한의 데이터 hanbit.co.kr 인공지능이 적용되고 있는 생활 분야는 다양하게 있지만, 가장 큰 체감이 느껴지는 분야는 역시 자연어처리(Natural Language Processing, NLP)가 아닐까 싶다. 어느 순간부터 상점 웹페이지에 들어가면 챗봇이 상담을 대신해주기도 하고, 집에도 이제는 어느새 스마트 스피커가 하나쯤은 존재한다. 나같은 경우에는 구글 어시스턴트에 루틴을 만들어..
![](http://i1.daumcdn.net/thumb/C148x148/?fname=https://blog.kakaocdn.net/dn/bvS105/btrjlPHC6f5/8cddzW6IuJisAUOCZIlUs1/img.jpg)
(해당 포스트에서 소개하고 있는 "파이썬으로 배우는 자료구조 핵심 원리" 책은 길벗출판사로부터 제공받았음을 알려드립니다.) 파이썬으로 배우는 자료 구조 핵심 원리 핵심 개념과 동작 원리로 이해하는 자료 구조 www.gilbut.co.kr 대학교를 졸업하고 나서, 후회한 일 중 하나는 자료구조론 수업을 게을리들었던 것이다. 마침 같이 수업듣던 동아리형이 수업듣는 것을 많이 도와주셨지만, 지금 돌이켜보면 그때 스스로 이해를 하려고 노력하고, 과제를 풀려고 노력했으면 적어도 스스로 프로그래밍하는 것에는 어려움이 없었을 것 같다. 말은 이렇게 했지만 자료구조는 개발하는데 있어서 거의 필수적인 지식 중 하나이다. 물론 요새는 프레임워크 자체가 잘되어 있어, API 하나 딱 쓰면 원하는 출력물을 얻을 수 있긴 하지..
- Total
- Today
- Yesterday
- dynamic programming
- RL
- Offline RL
- Kinect
- arduino
- 한빛미디어
- Variance
- Policy Gradient
- windows 8
- ColorStream
- DepthStream
- Windows Phone 7
- Off-policy
- 파이썬
- 딥러닝
- Kinect for windows
- bias
- Gan
- Pipeline
- processing
- Distribution
- ai
- Expression Blend 4
- SketchFlow
- Kinect SDK
- 강화학습
- reward
- PowerPoint
- End-To-End
- TensorFlow Lite
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | ||||||
2 | 3 | 4 | 5 | 6 | 7 | 8 |
9 | 10 | 11 | 12 | 13 | 14 | 15 |
16 | 17 | 18 | 19 | 20 | 21 | 22 |
23 | 24 | 25 | 26 | 27 | 28 |