Apprentissage par renforcement-présente le concept de base de l'apprentissage par renforcement, en soulignant son rôle dans les systèmes autonomes
Processus de décision de Markov-explique le cadre mathématique de la prise de décision dans l'incertitude, un fondement essentiel de l'apprentissage par renforcement
Apprentissage par différence temporelle-explore les méthodes d'apprentissage par l'expérience sans avoir besoin d'un modèle de l'environnement
Équation de Bellman-discute de la relation récursive critique qui sous-tend de nombreux algorithmes d'apprentissage par renforcement
Qlearning-se concentre sur un algorithme d'apprentissage par renforcement hors politique qui apprend des actions optimales sans modèle d'environnement
Bandit multi-bras-couvre un problème d'apprentissage par renforcement plus simple qui modélise la prise de décision dans des environnements incertains
Processus de décision de Markov partiellement observable-développe les processus de décision de Markov traditionnels en incorporant des états cachés
Indice de Gittins-présente une stratégie pour équilibrer l'exploration et l'exploitation dans les problèmes de bandit multi-bras
État–action–récompense–état–action-explore les modèles temporels de l'apprentissage par renforcement qui éclairent les stratégies de prise de décision
Fonction proto-valeur-explore les méthodes d'approximation des fonctions de valeur, contribuant à l'efficacité de l'apprentissage
Construction automatique de fonctions de base-se concentre sur les méthodes automatiques de construction de fonctionnalités pour améliorer l'efficacité de l'apprentissage
Théorie des jeux Meanfield-discute d'un cadre de modélisation des interactions dans les systèmes multi-agents à grande échelle
Recherche de chemin multi-agents-présente des algorithmes permettant de coordonner plusieurs agents pour atteindre efficacement leurs destinations
Sans modèle (apprentissage par renforcement)-présente des méthodes qui ne reposent pas sur un modèle de l'environnement pour l'apprentissage
Apprentissage par renforcement profond-combine l'apprentissage profond et l'apprentissage par renforcement pour gérer des environnements complexes et à haute dimension
Apprentissage par renforcement multi-agents-se concentre sur les stratégies d'apprentissage dans des environnements avec plusieurs agents en interaction
Jeu en soi-explore le concept d'agents apprenant par compétition avec eux-mêmes, un élément essentiel des stratégies d'apprentissage avancées
Optimisation de la politique proximale-présente un algorithme permettant d'optimiser les politiques dans l'apprentissage par renforcement avec une stabilité et des performances améliorées
Dilemme exploration-exploitation-discute du défi fondamental consistant à équilibrer l'exploration de nouvelles stratégies avec l'exploitation de stratégies connues
Apprentissage par renforcement à partir de commentaires humains-examine les méthodes permettant d'améliorer l'apprentissage par renforcement à l'aide de l'apport humain
Apprentissage par imitation-se concentre sur les techniques où les agents apprennent en imitant les actions d'experts humains