Verständnis log_prob für Normalverteilung in pytorch

stimmen
1

Ich versuche zur Zeit Pendel-v0 vom openAi Fitness-Studio-Umgebung zu lösen, die einen kontinuierlichen Aktionsraum hat. Als Ergebnis, ich brauche eine Normalverteilung verwenden, um meine Aktionen kosten. Was ich nicht verstehe, ist die Dimension des log_prob bei der Verwendung von ihm:

Geben

Ich war ein Tensor der Größe 2 (eine log_prob für jede Aktionen), aber es Ausgabe ein Tensor der Größe (2,2) erwartet.

Wenn jedoch eine kategorische Verteilung für diskrete Umgebung hat die log_prob die erwartete Größe. Warum ist die log_prob für Normalverteilung einer anderen Größe?

Veröffentlicht am 19/03/2020 um 21:23
quelle vom benutzer
In anderen Sprachen...                            

Cookies help us deliver our services. By using our services, you agree to our use of cookies. Learn more