Algoritma Yang Menguasai 'Pong' Kini Cemerlang di 'Flappy Bird', Masih Single

$config[ads_kvadrat] not found

KULIAH | ADP | 001 | Logika True False Pernyataan Kondisi Nilai Pada Algoritma Dan Pemrograman

KULIAH | ADP | 001 | Logika True False Pernyataan Kondisi Nilai Pada Algoritma Dan Pemrograman
Anonim

Memperbaiki kaedah pembelajaran mendalam yang dipelopori untuk Pong, Invaders Space, dan permainan Atari yang lain, pelajar sains komputer Stanford University, Kevin Chen telah mencipta algoritma yang agak baik pada penggubah sisi klasik 2014 Flappy Bird. Chen telah memanfaatkan konsep yang dikenali sebagai "q-learning," di mana agen bertujuan untuk meningkatkan skor ganjarannya dengan setiap lelaran bermain, untuk menyempurnakan permainan yang hampir mustahil dan ketagihan.

Chen mencipta sistem di mana algoritmanya dioptimumkan untuk mendapatkan tiga ganjaran: ganjaran positif yang kecil untuk setiap bingkai ia tetap hidup, ganjaran besar untuk melepasi pipa, dan ganjaran yang sama besar (tetapi negatif) untuk mati. Oleh itu bermotivasi, rangkaian deep-q yang dipanggil dapat mengalahkan manusia, menurut laporan Chen menulis: "Kami dapat berjaya memainkan permainan Flappy Bird dengan belajar terus dari piksel dan skor, mencapai hasil super manusia."

Kertas Atari asal, yang diterbitkan pada tahun 2015 di Alam, datang dari syarikat DeepMind milik Google (kini terkenal dengan penguasaannya dalam permainan papan Cina kuno Go). Pencapaian DeepMind adalah satu kejayaan kerana ia mengambil visual - atau piksel, sekurang-kurangnya - maklumat, dan, dengan input minimum, dapat memaksimumkan imbuhan. Sistem ganjaran sedemikian telah disamakan dengan tindak balas dopaminergik otak, hanya dipermudahkan.

Bukan kali pertama sebuah algoritma telah menakluki burung yang mengepakkan: Seorang pelajar sains komputer Stanford University yang terdahulu mencipta satu program yang, ketika terlatih semalaman, skornya bertambah dari 0 paip yang dilalui hingga 1,600.

$config[ads_kvadrat] not found