텐서플로우 강화학습 예제

이 튜토리얼에서 우리는 깊은 강화 학습을 사용하여 간단한 게임 CartPole에서 이길 수있는 모델을 훈련하는 방법을 배우게됩니다. 우리는 tf.keras와 OpenAI의 체육관을 사용하여 비동기 어드밴티지 액터 비평가 (A3C)로 알려진 기술을 사용하여 에이전트를 훈련합니다. 강화 학습은 엄청난 관심을 받고있다, 그러나 정확히 무엇입니까? 강화 학습은 일부 보상을 극대화하거나 달성하기 위해 환경 내에서 특정 조치를 취해야하는 에이전트를 포함하는 기계 학습 분야입니다. 이제 우리는 모두 CartPole-v0에서 단일 작업자 A2C 에이전트를 교육할 예정입니다! 교육 과정은 몇 분 이상 걸리지 않아야 합니다. 교육이 완료되면 에이전트가 200 점 만점에 200 점을 목표로 성공적으로 달성해야합니다. 내 보강 학습 시리즈의이 튜토리얼에서는 Q-Learning 알고리즘이라는 RL 알고리즘 제품군을 탐색할 예정입니다. 다음 자습서(파트 1-3)에서 살펴볼 정책 기반 알고리즘과는 약간 다릅니다. 복잡하고 다루기 힘든 심층 신경망으로 시작하는 대신 알고리즘의 간단한 조회 테이블 버전을 구현한 다음 Tensorflow를 사용하여 신경망과 동등한 것을 구현하는 방법을 보여 줄 것입니다. 기본으로 돌아가고 있다는 점을 감안할 때, 이 것을 시리즈의 파트 0으로 생각하는 것이 가장 좋을 수 있습니다. 그것은 잘하면 우리가 결국 최첨단 RL 에이전트를 구축하기 위해 정책 그라데이션과 Q 학습 접근 방식을 결합 할 때 우리가 다음 앞으로 구축 할 수 있습니다 Q-학습에서 실제로 무슨 일이 일어나고 있는지에 직관을 줄 것이다 (당신이 정책에 더 관심이있는 경우). 네트워크, 또는 이미 Q-학습에 대한 이해가, 대신 여기에 튜토리얼 시리즈를 시작 주시기 바랍니다).

딥 강화 학습의 세계는 파악하기 어려울 수 있습니다. 수에 달하는 약어와 학습 모델 사이에서 는 강화 학습 문제를 해결하는 방법을 배우려고 할 때 취해야 할 최선의 방법을 파악하기가 어려울 수 있습니다. 강화 학습 이론은 새로운 것이 아닙니다. 사실, 보강 학습의 일부 측면은 1950 년대 중반으로 거슬러 올라간다. 당신은 강화 학습에 절대적으로 신선한 경우, 나는 당신이 내 이전 기사를 체크 아웃 하는 것이 좋습니다., “강화 학습 및 OpenAI 체육관 소개,” 강화 학습의 기초를 배울 수. MorvanZhou/강화 학습-텐서플로우의 새로운 릴리스에 대한 알림을 원하십니까? 이 것으로 나는 블로그 게시물의 초점이 TensorFlow 2.0 기능에 더 많은 것으로 DRL 방법의 우리의 투어를 마무리합니다. 주제에 대해 아직 확실하지 않은 경우 코드 예제를 통해 상황이 더 명확해져야 한다고 걱정하지 마십시오. 더 많은 것을 배우고 싶다면 딥 RL에서 시작하는 좋은 리소스 중 하나가 회전하는 것입니다. 이 게시물은 오라일리와 텐서플로우의 콜라보레이션입니다. 편집 독립성 선언문을 참조하십시오. TensorFlow에서 이를 구현하여 sparse_softmax_cross_entropy 함수를 사용하여 정책 손실을 측정합니다. 스파스는 작업 레이블이 단일 정수이고 로그가 최종 활성화되지 않은 정책 출력임을 의미합니다.

이 함수는 softmax 및 로그 손실을 계산합니다. 취한 조치에 대한 신뢰가 1에 가까워지면 손실은 0에 가까워진다. 사람들이 가질 수있는 느린 질문은 텐서 플로우가 PyTorch보다 더 나은 경우입니까? 어쩌면. 아마 아닐 거예요. 둘 다 훌륭한 라이브러리이므로 어느 쪽이든 말하기가 어렵습니다. PyTorch에 익숙하다면 TensorFlow 2.0이 따라잡을 뿐만 아니라 PyTorch API 함정을 피할 수 있다는 것을 알게 되었을 것입니다. 대상: 이 튜토리얼은 강화 학습에 관심이 있는 사람을 대상으로 합니다. 기계 학습의 기본 에 대해 너무 깊이 다루지는 않겠지만 정책 및 가치 네트워크와 같은 주제를 높은 수준에서 다룹니다.