Makine Öğrenimi eğitim yöntemleri arasında yer alan Pekiştirmeli Öğrenme (Reinforced Learning) nedir, nasıl çalışır, yaygın uygulamaları nelerdir, algoritma türleri, zorlukları nelerdir gibi soruları yanıtladık.
Pekiştirmeli Öğrenme nedir?
Pekiştirmeli öğrenme, istenen davranışları ödüllendirmeye, istenmeyen davranışları cezalandırmaya dayalı bir makine öğrenimi eğitim yöntemidir. Genel olarak, bir pekiştirmeli öğrenme aracısı, çevresini algılayabilir ve yorumlayabilir, harekete geçebilir ve deneme yanılma yoluyla öğrenebilir.
Pekiştirmeli öğrenmede, geliştiriciler istenen davranışları ödüllendirmek ve olumsuz davranışları cezalandırmak için bir yöntem geliştirirler. Bu yöntem, ajanı teşvik etmek için istenen eylemlere pozitif değerler, istenmeyen davranışlara negatif değerler atar. Bu, aracıyı optimum bir çözüme ulaşmak için uzun vadeli ve maksimum genel ödül aramaya programlar.
Bu uzun vadeli hedefler, temsilcinin daha az hedeflerde oyalanmasını önlemeye yardımcı olur. Zamanla, aracı olumsuzdan kaçınmayı ve olumlu olanı aramayı öğrenir. Bu öğrenme yöntemi, ödüller ve cezalar yoluyla denetimsiz makine öğrenimini yönlendirmenin bir yolu olarak yapay zekada (AI) benimsenmiştir.
Pekiştirmeli Öğrenmenin yaygın uygulamaları
Reinforced Learning, AI alanında çok ilgi gören bir konu olsa da, yaygın, gerçek dünyada benimsenmesi ve uygulaması sınırlı kalmaktadır. Bununla birlikte, buna dikkat ederek, teorik uygulamalarla ilgili bol miktarda araştırma makalesi bulunmaktadır ve bazı başarılı kullanım örnekleri olmuştur.
Mevcut kullanım örnekleri arasında oyun, kaynak yönetimi, kişiselleştirilmiş öneriler ve robotik yer alır.
Oyun, muhtemelen pekiştirmeli öğrenmenin en yaygın kullanım alanıdır. Çok sayıda oyunda insanüstü performans elde etme yeteneğine sahiptir. Yaygın bir örnek, Pac-Man oyununda görülebilir. Pac-Man’i oynayan bir öğrenme algoritması, engeller dışında dört olası yönden birinde hareket etme yeteneğine sahip olabilir. Piksel verilerinden, bir temsilciye bir birim seyahatin sonucu için sayısal bir ödül verilebilir: boş alan için 0, peletler için 1 gibi, ayrıca bir hayaletle çarpışma için 5 puanlık bir kesinti yapılabilir. Temsilci rastgele oyuna başlar ve daha sofistike oyuna geçerek seviyeyi tamamlamak için tüm peletlerin elde edilmesi gerektiğini öğrenir. Zaman verildiğinde, bir ajan kendini savunma için ihtiyaç duyulana kadar güç peletlerini muhafaza etme gibi taktikleri bile öğrenebilir.
Pekiştirmeli öğrenme, net bir ödül uygulanabildiği sürece, birçok durumda işleyebilir. Kurumsal kaynak yönetiminde (ERM) pekiştirmeli öğrenme algoritmaları, ulaşmaya çalıştığı genel bir hedef olduğu sürece sınırlı kaynakları farklı görevlere tahsis edebilir. Bu durumda bir hedef, zamandan tasarruf etmek veya kaynakları korumak olacaktır.
Robotikte, pekiştirmeli öğrenme sınırlı testlerde yolunu bulmuştur. Bu tür bir makine öğrenimi, robotlara, bir insan öğretmenin gösteremediği görevleri öğrenme, öğrenilen bir beceriyi yeni bir göreve uyarlama veya mevcut analitik formülasyon eksikliğine rağmen optimizasyona ulaşma yeteneği sağlayabilir.
Pekiştirmeli Öğrenme aynı zamanda yöneylem araştırması, bilgi teorisi, oyun teorisi, kontrol teorisi, simülasyon tabanlı optimizasyon, çok ajanlı sistemler, sürü zekası, istatistik ve genetik algoritmalarda kullanılır.
Pekiştirmeli Öğrenme’yi uygulamanın zorlukları
Pekiştirmeli öğrenmenin potansiyeli yüksek olmasına rağmen, uygulanması zor olabilir ve uygulandığı alanla sınırlı kalır. Bu tür makine öğreniminin dağıtımının önündeki engellerden biri, ortamın keşfedilmesine olan güvenidir.
Örneğin, karmaşık bir fiziksel ortamda gezinmek için Pekiştirmeli Öğrenme’ye dayanan bir robotu konuşlandıracaksanız, yeni durumlar arayacak ve hareket ettikçe farklı eylemler gerçekleştirecektir. Bununla birlikte, gerçek dünya ortamında tutarlı bir şekilde en iyi eylemleri gerçekleştirmek, ortamın değişim sıklığına göre zorlaşabilir.
Bu yöntemle öğrenmenin doğru bir şekilde yapılmasını sağlamak için gereken süre, yararlılığını sınırlayabilir ve bilgi işlem kaynakları üzerinde yoğun olabilir. Eğitim ortamı daha karmaşık hale geldikçe, zaman ve hesaplama kaynakları da talep edilir.
Denetimli öğrenme, daha az kaynakla kullanılabileceği için, uygun miktarda veri mevcutsa şirketlere pekiştirmeli öğrenmeden daha hızlı ve daha verimli sonuçlar sağlayabilir.
Pekiştirmeli Öğrenme’nin Denetimli ve Denetimsiz Öğrenme’den farkı nedir?
Pekiştirmeli öğrenme, kendine has bir makine öğrenimi dalı olarak kabul edilir, ancak aşağıdaki dört alana bölünen diğer makine öğrenimi türleriyle bazı benzerlikleri vardır:
Denetimli öğrenme
Denetimli öğrenmede, algoritmalar bir etiketlenmiş veri gövdesi üzerinde çalışır. Denetimli öğrenme algoritmaları yalnızca veri setinde belirtilen öznitelikleri öğrenebilir. Denetimli öğrenmenin yaygın uygulamaları, görüntü tanıma modelleridir. Bu modeller bir dizi etiketli görüntü alır ve önceden tanımlanmış formların ortak özelliklerini ayırt etmeyi öğrenir.
Denetimsiz öğrenme
Denetimsiz öğrenmede, geliştiriciler algoritmaları tamamen etiketlenmemiş verilerde serbest bırakır. Algoritma, ne arayacağı söylenmeden veri özellikleri hakkındaki kendi gözlemlerini kataloglayarak öğrenir.
Yarı denetimli öğrenme
Bu yöntem orta yol yaklaşımını benimser. Geliştiriciler, nispeten küçük bir etiketli eğitim verileri kümesinin yanı sıra daha büyük bir etiketlenmemiş veri silosuna girer. Daha sonra algoritmaya, etiketli verilerden öğrendiklerini etiketlenmemiş verilere çıkarması ve bir bütün olarak kümeden sonuçlar çıkarması talimatı verilir.
Pekiştirmeli öğrenme
Bu tamamen farklı bir yaklaşım gerektirir. Bir temsilciyi, yararlı etkinliği ve yararlı olmayan etkinliği tanımlayan açık parametrelere ve ulaşılması gereken kapsayıcı bir oyunsonuna sahip bir ortamda konumlandırır. Bazı yönlerden denetimli öğrenmeye benzer, çünkü geliştiricilerin algoritmalara açıkça belirlenmiş hedefler vermesi ve ödülleri ve cezaları tanımlaması gerekir. Bu, gereken açık programlama seviyesinin denetimsiz öğrenmeden daha yüksek olduğu anlamına gelir. Ancak, bu parametreler bir kez ayarlandıktan sonra, algoritma kendi başına çalışır ve bu da onu denetimli öğrenme algoritmalarından çok daha fazla kendi kendine yönlendirir. Bu nedenle, insanlar bazen pekiştirmeli öğrenmeyi yarı denetimli öğrenmenin bir dalı olarak adlandırırlar, ancak gerçekte, çoğu zaman kendi makine öğrenimi türü olarak kabul edilir.
Pekiştirmeli Öğrenme algoritması türleri
Belirli bir algoritmaya atıfta bulunmak yerine, pekiştirmeli öğrenme alanı, biraz farklı yaklaşımlar benimseyen birkaç algoritmadan oluşur. Farklılıklar esas olarak çevrelerini keşfetme stratejilerinden kaynaklanmaktadır.
Durum-eylem-ödül-durum-eylem (SARSA)
Bu pekiştirmeli öğrenme algoritması, temsilciye politika olarak bilinen şeyi vererek başlar. Politika, esasen, belirli eylemlerin ödüllerle veya faydalı durumlarla sonuçlanan olasılığını söyleyen bir olasılıktır.
Q-öğrenme
Pekiştirmeli Öğrenme’ye yönelik bu yaklaşım, genelin tersi yolu izler. Temsilci hiçbir politika kabul etmez, yani çevresini keşfetmesi daha kendi kendine yönlendirilir.
Derin Q ağları
Bu algoritmalar, pekiştirmeli öğrenme tekniklerine ek olarak sinir ağlarını kullanır. Pekiştirmeli öğrenmenin öz-yönelimli çevre keşfini kullanırlar. Gelecekteki eylemler, sinir ağı tarafından öğrenilen geçmiş yararlı eylemlerin rastgele bir örneğine dayanmaktadır.
Pekiştirmeli Öğrenme’nin tarihi
Reinforced Learning kavramının ana fikirlerinden bazıları, özellikle deneme yanılma yoluyla öğrenme fikri, 1950’lerin ortalarına kadar uzanıyor. Bilgi işlem öncüsü Marvin Minsky ve “Güçlendirmenin Olasılık Modeline Dayalı Bir Sinirsel-Analog Hesaplayıcı” adlı makalesi, erken dönem çalışmalarından biridir. 1952 yılındaki bu makale, olumlu eylemleri ödüllendirerek öğrenen kendi kendine öğrenen bir algoritmayı tanımlayan ilk makaleler arasındaydı.
Ancak o zamanlar, denetimli ve pekiştirmeli öğrenme birbirinden açıkça ayrılmış terimler değildi. Ortaya çıkan kafa karışıklığı, pekiştirmeli öğrenme göz önünde bulundurularak hazırlanan kağıtların bunun yerine 1960’lar ve 1970’ler boyunca denetimli öğrenmeye dayandığı anlamına geliyordu. Ancak, 1963’te Donald Michie, tic-tac-toe oyununu oynamak için bir tür deneme yanılma öğrenimini başarıyla uygulayan bir makineyi açıklayan bir makale yayınladı.
Pekiştirmeli öğrenme, 1980’lerde, esasen bir temsilcinin deneme yanılma öğrenimine bir ödül-ceza bileşeni eklemeye odaklanan A. Harry Klopf’un çalışmasıyla, resmiyet kazandı.