Our Blog

0

Une autre possibilité est le GMM. Le modèle de mélange gaussien est un mélange de distributions gaussiennes K. Nous supposons que le modèle a k résultats les plus probables et nous les poids selon: le modèle de base (RL seulement ou ML seulement) peut fonctionner. Il n`y a pas grand-chose dont je suis vraiment sûr. Le RL basé sur un modèle a un fort avantage d`être un échantillon efficace. Par exemple, s`il est approprié de rapprocher la dynamique comme localement linéaire, il faudra beaucoup moins d`échantillons pour apprendre le modèle. Une fois que le modèle et la fonction de coût sont connus, nous pouvons planifier les contrôles optimaux sans autre échantillonnage. Comme illustré ci-dessous, les méthodes de gradient de stratégie de stratégie peuvent prendre des itérations de formation de 10M tandis que le RL basé sur le modèle est dans la plage de centaines. Pour former un robot physique pour une tâche simple, une méthode basée sur un modèle peut prendre environ 20 minutes alors qu`une méthode de gradient de stratégie peut prendre des semaines. Toutefois, un tel avantage diminue si le coût d`échantillonnage est faible.

En particulier. les méthodes d`optimisation dans les méthodes basées sur le modèle sont plus complexes que les méthodes sans modèle dans quelques ordres de grandeur. Si l`échantillonnage peut être effectué dans une simulation informatique, les méthodes sans modèle peuvent se terminer plus rapidement. En outre, pour simplifier le calcul, les méthodes basées sur un modèle ont plus d`hypothèses et d`approximations et, par conséquent, peuvent se limiter à des types spécifiques de tâches. TL; DR: le modèle utilise deux types d`attention: i) temporel sur les États de codeur; II) sur les États de décodeur précédents, et un générateur de pointeur similaire à See et coll. (2017). Le décodeur est exécuté deux fois pour obtenir deux séquences de prédictions et deux pertes. La politique de RL est de maximiser le score ROUGE de la production échantillonnée. Le modèle optimise enfin un objectif mixte qui combine les deux pertes. Dans de nombreux jeux, comme GO, la règle du jeu est le modèle. Les deux premiers de ces problèmes pourraient être considérés comme des problèmes de planification (car une certaine forme de modèle est disponible), tandis que le dernier pourrait être considéré comme un véritable problème d`apprentissage. Cependant, l`apprentissage des armatures convertit les problèmes de planification en problèmes d`apprentissage automatique.

attention de base: le modèle utilise une attention bilinéaire: attention (HT, HI) = (HT) T. W_attn. h_i auparavant, nous modélisons la dynamique avec un modèle global. Si la dynamique est complexe, nous avons besoin d`un modèle plus expressif comme le réseau profond. Mais il faut beaucoup d`échantillons pour le former. Si nous atterrons dans l`espace qui n`est pas encore entraîné correctement, le modèle peut être erroné et nous conduire à de mauvaises actions qui détruisent le progrès de la formation.