Contributions de Claude COULOMBE
26 avril 2025
- 23:4026 avril 2025 à 23:40 diff hist +23 Amplification de gradient Aucun résumé des modifications
- 20:3726 avril 2025 à 20:37 diff hist +1 013 Arbre à gradient amplifié Aucun résumé des modifications
- 17:3126 avril 2025 à 17:31 diff hist +243 Amplification Aucun résumé des modifications
- 17:3026 avril 2025 à 17:30 diff hist +83 Amplification Aucun résumé des modifications
- 17:2326 avril 2025 à 17:23 diff hist +15 Amplification Aucun résumé des modifications
- 17:2326 avril 2025 à 17:23 diff hist −2 Amplification Aucun résumé des modifications
- 17:2226 avril 2025 à 17:22 diff hist −12 Amplification Aucun résumé des modifications
- 17:2226 avril 2025 à 17:22 diff hist +132 Amplification Aucun résumé des modifications
- 17:1526 avril 2025 à 17:15 diff hist −4 Gradient-boosted decision tree Destination de redirection modifiée de Arbre de décision amplifié par le gradient en Arbre de décision à dopage de gradient Balise : Cible de la redirection modifiée
- 17:0726 avril 2025 à 17:07 diff hist −2 Gradient boosted decision tree Destination de redirection modifiée de Arbre de décision boosté par le gradient en Arbre de décision à dopage de gradient Balise : Cible de la redirection modifiée
- 17:0626 avril 2025 à 17:06 diff hist +57 N Arbre de décision amplifié par le gradient Claude COULOMBE a déplacé la page Arbre de décision amplifié par le gradient vers Arbre de décision à dopage de gradient Balise : Nouvelle redirection
25 avril 2025
- 03:5525 avril 2025 à 03:55 diff hist −9 Théorème du gradient de politique Aucun résumé des modifications
- 03:5425 avril 2025 à 03:54 diff hist +18 Théorème du gradient de politique Aucun résumé des modifications
- 03:5325 avril 2025 à 03:53 diff hist +818 N Théorème du gradient de politique Page créée avec « ==Définition== En apprentissage par renforcement, le théorème du gradient de politique permet de simplifier l'apprentissage d'une [politique d'action] en établissant que le gradient (ou dérivée) de la récompense attendue en suivant une [politique d'action] est l'espérance du produit de la récompense attendue par le gradient (ou dérivée) du logarithme de la [politique d'action]. La [politique d'action] est généralement exprimée sous la forme d'u... »
- 03:0225 avril 2025 à 03:02 diff hist 0 Politique d'action Aucun résumé des modifications actuelle
- 02:5925 avril 2025 à 02:59 diff hist −23 Politique d'action Aucun résumé des modifications
- 02:5825 avril 2025 à 02:58 diff hist +305 Politique d'action Aucun résumé des modifications
- 02:5225 avril 2025 à 02:52 diff hist +148 Politique d'action Aucun résumé des modifications
- 02:4525 avril 2025 à 02:45 diff hist +197 Méthode du gradient de politique Aucun résumé des modifications
- 02:1225 avril 2025 à 02:12 diff hist 0 Policy gradient Destination de redirection modifiée de Méthode à gradient de politique en Méthode du gradient de politique actuelle Balise : Cible de la redirection modifiée
- 02:0925 avril 2025 à 02:09 diff hist +50 N Méthode à gradient de politique Claude COULOMBE a déplacé la page Méthode à gradient de politique vers Méthode du gradient de politique actuelle Balise : Nouvelle redirection
- 02:0925 avril 2025 à 02:09 diff hist 0 m Méthode du gradient de politique Claude COULOMBE a déplacé la page Méthode à gradient de politique vers Méthode du gradient de politique
- 02:0925 avril 2025 à 02:09 diff hist +201 Méthode du gradient de politique Aucun résumé des modifications
- 02:0925 avril 2025 à 02:09 diff hist +73 N Policy gradient algorithm Page redirigée vers Méthode du gradient de politique actuelle Balise : Nouvelle redirection
- 02:0825 avril 2025 à 02:08 diff hist +73 N Policy gradient method Page redirigée vers Méthode du gradient de politique actuelle Balise : Nouvelle redirection
- 01:5325 avril 2025 à 01:53 diff hist −2 Méthode du gradient de politique Aucun résumé des modifications
- 01:5225 avril 2025 à 01:52 diff hist +107 Méthode du gradient de politique Aucun résumé des modifications
- 01:2125 avril 2025 à 01:21 diff hist −119 Méthode du gradient de politique Aucun résumé des modifications
- 01:2125 avril 2025 à 01:21 diff hist −4 Méthode du gradient de politique Aucun résumé des modifications
- 01:2025 avril 2025 à 01:20 diff hist +82 Méthode du gradient de politique Aucun résumé des modifications
- 01:1925 avril 2025 à 01:19 diff hist +16 Méthode du gradient de politique Aucun résumé des modifications
- 01:1925 avril 2025 à 01:19 diff hist −99 Méthode du gradient de politique Aucun résumé des modifications
- 01:0525 avril 2025 à 01:05 diff hist +120 Méthode du gradient de politique Aucun résumé des modifications
- 01:0525 avril 2025 à 01:05 diff hist 0 Méthode du gradient de politique Aucun résumé des modifications
- 01:0325 avril 2025 à 01:03 diff hist −35 Apprentissage par fonction Q Aucun résumé des modifications actuelle
- 01:0325 avril 2025 à 01:03 diff hist −16 Politique d'action Aucun résumé des modifications
- 01:0225 avril 2025 à 01:02 diff hist +13 Politique d'action Aucun résumé des modifications
- 01:0225 avril 2025 à 01:02 diff hist −2 Politique d'action Aucun résumé des modifications Balise : Révocation manuelle
- 01:0125 avril 2025 à 01:01 diff hist +2 Politique d'action Aucun résumé des modifications Balise : Révoqué
- 01:0025 avril 2025 à 01:00 diff hist −18 Politique d'action Aucun résumé des modifications
- 00:5825 avril 2025 à 00:58 diff hist +58 N Action policy Page redirigée vers Politique d'action actuelle Balise : Nouvelle redirection
- 00:5625 avril 2025 à 00:56 diff hist +29 Politique d'action Aucun résumé des modifications
- 00:5525 avril 2025 à 00:55 diff hist +10 Apprentissage par fonction Q Aucun résumé des modifications
- 00:5425 avril 2025 à 00:54 diff hist +140 Méthode du gradient de politique Aucun résumé des modifications
- 00:4725 avril 2025 à 00:47 diff hist +50 N Policy gradient Claude COULOMBE a déplacé la page Policy gradient vers Méthode à gradient de politique Balise : Nouvelle redirection
- 00:4725 avril 2025 à 00:47 diff hist 0 m Méthode du gradient de politique Claude COULOMBE a déplacé la page Policy gradient vers Méthode à gradient de politique
- 00:4725 avril 2025 à 00:47 diff hist +781 N Méthode du gradient de politique Page créée avec « ==Définition== En apprentissage par renforcement la méthode à gradient de politique permet de prévoir la meilleure action à accomplir par un agent dans un état donné de l'environnement. == Compléments == Alors que l’apprentissage par fonction Q vise à prévoir la valeur de la récompense ou la punition d’une action entreprise par un agent dans un certain état, la méthode à gradient de politique prédit directement l’action elle-même.... »
- 00:4125 avril 2025 à 00:41 diff hist +21 Apprentissage par fonction Q Aucun résumé des modifications
- 00:2225 avril 2025 à 00:22 diff hist 0 Apprentissage par renforcement Aucun résumé des modifications
22 avril 2025
- 14:3722 avril 2025 à 14:37 diff hist +18 Forêt d'isolation Aucun résumé des modifications
