Pekiştirmeli Öğrenme
Reinforcement Learning
Tanım
Bir ajanın bir ortamda ödüller veya cezalar yoluyla nasıl davranması gerektiğini öğrenme süreci.
Açıklama
Pekiştirmeli öğrenme, gözlenebilir durumların etkilerinin değerlendirilmesi ile en yüksek ödülü alacak eylemleri öğrenme algoritmasıdır. Öğrenen sistem, bir ortamla (environment) etkileşime girerek her adımda bir eylem (action) seçer, ödül (reward) alır ve sonraki duruma (state) geçer. Amaç, uzun vadeli toplam ödülü maksimize edecek stratejiyi öğrenmektir.
“Reinforcement” (İng.): “pekiştirme, güçlendirme” anlamına gelir. Öğrenen sistemin çevreyle etkileşimi sonucunda aldığı ödüller/cezalarla davranışını güçlendirmesini anlatır. 1970’lerden itibaren kontrol teorisi ve bilişsel psikolojiden esinlenen çalışmalarla ortaya çıktı. Deneme-yanılma ve ödül mekanizmasının öğrenme sistemlerine uyarlanması 1970’lerdeki Paul Werbos çalışmaları ile başladığını 1989’da Watkins’in Q-öğrenme algoritması ile tanıma ulaştığını söyleyebiliriz. Richard Sutton ve Andrew Barto gibi isimlerin katkılarıyla bugünkü modern RL yaklaşımı gelişti.