Breve panoramica dei capitoli:
1: Apprendimento per rinforzo: introduce il concetto fondamentale dell'apprendimento per rinforzo, sottolineandone il ruolo nei sistemi autonomi.
2: Processo decisionale di Markov: spiega il quadro matematico per il processo decisionale in condizioni di incertezza, un fondamento fondamentale per l'apprendimento per rinforzo.
3: Apprendimento delle differenze temporali: esplora metodi per apprendere dall'esperienza senza aver bisogno di un modello dell'ambiente.
4: Equazione di Bellman: discute la relazione ricorsiva critica che sta alla base di molti algoritmi di apprendimento per rinforzo.
5: Qlearning: si concentra su un algoritmo di apprendimento di rinforzo offpolicy che apprende azioni ottimali senza un modello dell'ambiente.
6: Multiarmed bandit: copre un problema di apprendimento di rinforzo più semplice che modella il processo decisionale in ambienti incerti.
7: Processo decisionale di Markov parzialmente osservabile: espande i tradizionali processi decisionali di Markov incorporando stati nascosti.
8: Indice di Gittins: introduce una strategia per bilanciare esplorazione e sfruttamento nei problemi multiarmed bandit.
9: Stato-azione-ricompensa-stato-azione: approfondisce i modelli temporali nell'apprendimento di rinforzo che informano le strategie decisionali.
10: Funzione protovalore: esplora metodi per approssimare le funzioni valore, aiutando nell'efficienza dell'apprendimento.
11: Costruzione automatica della funzione di base: si concentra sui metodi automatici per costruire funzionalità per migliorare l'efficienza dell'apprendimento.
12: Teoria dei giochi Meanfield: discute un framework per la modellazione delle interazioni in sistemi multiagente su larga scala.
13: Multiagent pathfinding: introduce algoritmi per coordinare più agenti per raggiungere le loro destinazioni in modo efficiente.
14: Modelfree (apprendimento per rinforzo): discute metodi che non si basano su un modello dell'ambiente per l'apprendimento.
15: Deep reinforcement learning: combina apprendimento profondo e apprendimento per rinforzo per gestire ambienti complessi e ad alta dimensione.
16: Multiagent reinforcement learning: si concentra sulle strategie per l'apprendimento in ambienti con più agenti interagenti.
17: Selfplay: esplora il concetto di agenti che apprendono attraverso la competizione con se stessi, una componente critica delle strategie di apprendimento avanzate.
18: Ottimizzazione delle policy prossimali: introduce un algoritmo per ottimizzare le policy nell'apprendimento per rinforzo con stabilità e prestazioni migliorate.
19: Dilemma di esplorazione-sfruttamento: discute la sfida fondamentale di bilanciare l'esplorazione di nuove strategie con lo sfruttamento di quelle note.
20: Apprendimento per rinforzo da feedback umano: esamina metodi per migliorare l'apprendimento per rinforzo utilizzando input umani.
21: Apprendimento per imitazione: si concentra sulle tecniche in cui gli agenti apprendono imitando le azioni degli esperti umani.