0 like 0 dislike
1 view
in Yapay Zeka by anonymous Bilge (165k points)
q-learning SARSA DQN DDPG

3 Answers

0 like 0 dislike
by anonymous Bilge (165k points)

Q-Learning, ünlü Bellman Denklemine dayanan politika dışı, modelsiz bir RL algoritmasıdır.

0 like 0 dislike
by anonymous Bilge (165k points)

State-Action-Reward-State-Action (SARSA)

SARSA, Q-öğrenmeye çok benzer. SARSA ve Q-öğrenme arasındaki temel fark, SARSA'nın politika üzerine bir algoritma olmasıdır. SARSA'nın açgözlü politika yerine mevcut politika tarafından gerçekleştirilen eyleme dayanarak Q değerini öğrendiği anlamına gelir.

0 like 0 dislike
by anonymous Bilge (165k points)

Derin Q Ağı (DQN)

Q-öğrenme çok güçlü bir algoritma olmasına rağmen, temel zayıflığı genel eksikliğidir. Q-learning'i iki boyutlu bir dizide (Action Space * State Space) güncelleme numaraları olarak görürseniz, aslında dinamik programlamaya benzer. Bu, Q-öğrenme ajanının daha önce görmediği, hangi eylemde bulunacağına dair hiçbir ipucu olmadığını belirtir. Başka bir deyişle, Q-öğrenme ajanı görünmeyen durumlar için değer tahmin etme yeteneğine sahip değildir. Bu problemle başa çıkmak için DQN, Sinir Ağını tanıtarak iki boyutlu diziden kurtulur.

DQN, Q-değer fonksiyonunu tahmin etmek için bir Sinir Ağı kullanır. Ağ girişi, akımdır, çıkış ise her bir işlem için karşılık gelen Q-değeridir.

dqn

...