« Apprentissage par renforcement » : différence entre les versions


Aucun résumé des modifications
Aucun résumé des modifications
 
(23 versions intermédiaires par 4 utilisateurs non affichées)
Ligne 1 : Ligne 1 :
==Définition==
==Définition==
En apprentissage par renforcement, l'algorithme apprend un comportement à partir d'expériences répétées, de façon à optimiser les récompenses reçues au cours du temps. Tout comme l'[https://datafranca.org/wiki/Apprentissage_non_supervis%C3%A9 apprentissage non-supervisé,] l'apprentissage par renforcement n'a pas besoin de données étiquetées.
En apprentissage par renforcement, l’[[algorithme]] apprend un comportement à partir d’expériences répétées, de façon à optimiser les récompenses reçues au cours du temps. Tout comme l’[[apprentissage non supervisé]], l’apprentissage par renforcement n’a pas besoin de données étiquetées.  


Typiquement, un agent intelligent, qui est plongé au sein d'un environnement, prend une décision ou réalise une action en fonction de son état courant et de l'observation de son environnement. En retour de l'action de l'agent, l'environnement procure à l'agent une récompense ou une punition.  
En gros, l'apprentissage par renforcement c'est apprendre en interagissant. Typiquement, un agent intelligent, qui est plongé au sein d’un environnement, prend une décision ou réalise une action en fonction de son état courant et de l’observation de son environnement. En retour de l’action de l’[[agent]], l’environnement procure à l’agent une récompense ou une punition.


On peut voir l'apprentissage par renforcement comme un jeu d'essais et d’erreurs dont le but est de déterminer les actions qui maximiseront les gains d'un agent intelligent afin d'élaborer un comportement optimal, appelé stratégie ou politique, qui est une fonction associant à l'état courant l'action à exécuter.
On peut voir l’apprentissage par renforcement comme un jeu d’essais et d’erreurs dont le but est de déterminer les actions qui vont maximiser les gains d’un agent intelligent. Il élaborera ainsi un comportement optimal, appelé stratégie ou [[politique]], qui est une fonction associant à l’état courant une action à exécuter.


Voir [[apprentissage par renforcement inverse|'''apprentissage par renforcement inverse''']]
Voir aussi: [[apprentissage par fonction Q]], apprentissage avec [[politique d'action]] et  [[apprentissage par renforcement inverse|'''apprentissage par renforcement inverse''']]


==Complément==
==Compléments==
 
Il existe deux approches principales à l'apprentissage par renforcement: celles qui se [[Apprentissage par renforcement à base de modèles|basent sur un modèle]] (en anglais, ''model-based''), c.-à-d. une représentation formelle de l'environnement, et celles qui n'utilisent [[Apprentissage par renforcement sans modèle|pas de modèle]] (en anglais, ''model-free'').
L’apprentissage par renforcement se démarque de l'<nowiki/>'''[[apprentissage supervisé]]''' et de l''''[[apprentissage non supervisé]]''' par son côté interactif et itératif. L’agent intelligent essaie plusieurs solutions, on parle « d’exploration », observe la réaction de l’environnement et adapte son comportement pour découvrir la meilleure stratégie. On dira qu'il « exploite » le résultat de ses explorations.
<hr/>
L’apprentissage par renforcement se démarque de l'<nowiki/>'''[[apprentissage supervisé]]''' et de l''''[[apprentissage non supervisé]]''' par son côté interactif et itératif. L’agent intelligent essaie plusieurs solutions, on parle « d’exploration », observe la réaction de l’environnement et adapte son comportement pour découvrir la meilleure stratégie. On dira qu'il « exploite » le résultat de ses explorations (exploitation).


==Français==
==Français==
'''apprentissage par renforcement'''   
'''apprentissage par renforcement'''   
'''apprentissage par interaction'''


==Anglais==
==Anglais==
'''reinforcement learning'''
'''reinforcement learning'''


==Español==


<small>
'''''aprendizaje por refuerzo'''''


* [https://fr.wikipedia.org/wiki/Apprentissage_par_renforcement ''Source: Wikipedia'']
'''''aprendizaje reforzado '''''
 
''En el aprendizaje por refuerzo, el algoritmo aprende un comportamiento a partir de experimentos repetidos, con el fin de optimizar las recompensas recibidas a lo largo del tiempo. Al igual que el aprendizaje no supervisado, el aprendizaje por refuerzo no requiere datos etiquetados.''
''Normalmente, un agente inteligente, inmerso en un entorno, toma una decisión o realiza una acción basándose en su estado actual y en la observación de su entorno.''
''A cambio de la acción del agente, el entorno le proporciona una recompensa o un castigo.''
''El aprendizaje por refuerzo puede verse como un juego de ensayo y error, cuyo objetivo es determinar las acciones que maximizarán las ganancias de un agente inteligente. De este modo, desarrollará un comportamiento óptimo, conocido como estrategia o política.''
 
 
 
==Sources==
*[https://fr.wikipedia.org/wiki/Apprentissage_par_renforcement ''Source: Wikipedia'']
 
</small><br>
{{Modèle:101}}
{{Modèle:GDT}}


</small><br> <div style="border:2px solid #336699; background: #f6f6f6; padding: 1em; margin-bottom:1em; width: 90%;"><html><a href="https://datafranca.org/wiki/Cat%C3%A9gorie:101"><img src="https://datafranca.org/images/icone-101-mots.png" width="250"></a></html>
===Compléments vidéos===
* [https://www.youtube.com/watch?v=93M1l_nrhpQ  IT 6.S191: Reinforcement Learning]
* [https://www.youtube.com/watch?v=0MNVhXEX9to  Reinforcement Learning: Machine Learning Meets Control Theory]
* [https://www.youtube.com/watch?v=IUiKAD6cuTA  Deep Reinforcement Learning: Neural Networks for Learning Control Laws]
* [https://www.youtube.com/watch?v=DhdUlDIAG7Y  Q Learning Explained | Reinforcement Learning Using Python]
* [https://www.youtube.com/watch?v=YUbFQlMXShY  Reinforcement Learning Full Course]
* [https://www.youtube.com/watch?v=zR11FLZ-O9M  MIT 6.S091: Introduction to Deep Reinforcement Learning]
* [https://www.youtube.com/watch?v=FgzM3zpZ55o  Stanford CS234: Reinforcement Learning]
* [https://www.youtube.com/watch?v=JgvyzIkgxF0  An introduction to Reinforcement Learning]
* [https://www.youtube.com/watch?v=nIgIv4IfJ6s  Reinforcement Learning: Crash Course AI#9]
* [https://www.youtube.com/watch?v=i6Mi2_QM3rA  MIT 6.S191 (2019): Deep Reinforcement Learning]
<br></div><br><br>
[[Catégorie:GDT]]
[[Catégorie:GDT]]
[[Catégorie:101]]
[[Catégorie:Apprentissage automatique]]
[[Catégorie:Apprentissage automatique]]
[[Catégorie:GRAND LEXIQUE FRANÇAIS]]
[[Catégorie:GRAND LEXIQUE FRANÇAIS]]
[[Catégorie:101]]

Dernière version du 21 juillet 2025 à 15:03

Définition

En apprentissage par renforcement, l’algorithme apprend un comportement à partir d’expériences répétées, de façon à optimiser les récompenses reçues au cours du temps. Tout comme l’apprentissage non supervisé, l’apprentissage par renforcement n’a pas besoin de données étiquetées.

En gros, l'apprentissage par renforcement c'est apprendre en interagissant. Typiquement, un agent intelligent, qui est plongé au sein d’un environnement, prend une décision ou réalise une action en fonction de son état courant et de l’observation de son environnement. En retour de l’action de l’agent, l’environnement procure à l’agent une récompense ou une punition.

On peut voir l’apprentissage par renforcement comme un jeu d’essais et d’erreurs dont le but est de déterminer les actions qui vont maximiser les gains d’un agent intelligent. Il élaborera ainsi un comportement optimal, appelé stratégie ou politique, qui est une fonction associant à l’état courant une action à exécuter.

Voir aussi: apprentissage par fonction Q, apprentissage avec politique d'action et apprentissage par renforcement inverse

Compléments

Il existe deux approches principales à l'apprentissage par renforcement: celles qui se basent sur un modèle (en anglais, model-based), c.-à-d. une représentation formelle de l'environnement, et celles qui n'utilisent pas de modèle (en anglais, model-free).


L’apprentissage par renforcement se démarque de l'apprentissage supervisé et de l'apprentissage non supervisé par son côté interactif et itératif. L’agent intelligent essaie plusieurs solutions, on parle « d’exploration », observe la réaction de l’environnement et adapte son comportement pour découvrir la meilleure stratégie. On dira qu'il « exploite » le résultat de ses explorations (exploitation).

Français

apprentissage par renforcement

apprentissage par interaction

Anglais

reinforcement learning

Español

aprendizaje por refuerzo

aprendizaje reforzado

En el aprendizaje por refuerzo, el algoritmo aprende un comportamiento a partir de experimentos repetidos, con el fin de optimizar las recompensas recibidas a lo largo del tiempo. Al igual que el aprendizaje no supervisado, el aprendizaje por refuerzo no requiere datos etiquetados. Normalmente, un agente inteligente, inmerso en un entorno, toma una decisión o realiza una acción basándose en su estado actual y en la observación de su entorno. A cambio de la acción del agente, el entorno le proporciona una recompensa o un castigo. El aprendizaje por refuerzo puede verse como un juego de ensayo y error, cuyo objetivo es determinar las acciones que maximizarán las ganancias de un agente inteligente. De este modo, desarrollará un comportamiento óptimo, conocido como estrategia o política.


Sources


101 MOTS DE L' IA
Ce terme est sélectionné pour le livre « Les 101 mots de l'intelligence artificielle » Ligne bleue2.jpg