'Peneguhan Penguat' dalam 'Robot Pengajaran' Kemahiran Baru Lebih Pantas

$config[ads_kvadrat] not found
Anonim

Robot belajar bagaimana menyelesaikan tugas dalam dunia maya yang semakin meningkat, membangunkan kemahiran dalam masa beberapa jam yang mungkin mengambil masa beberapa bulan. Pembelajaran tetulang dalam simulasi (atau Deep RL) bermaksud kemahiran yang biasanya mengambil masa 55 hari untuk A.I. untuk belajar di dunia nyata hanya mengambil masa sehari dalam bilik kelas yang lebih laju.

"Ia mempunyai potensi untuk benar-benar merevolusikan apa yang boleh kita lakukan dalam domain robotik," Raia Hadsell, saintis penyelidikan dengan Google DeepMind, berkata pada Sidang Kemuncak Pembelajaran Terang Re-Kerja di London, Khamis. "Kita boleh belajar kemahiran peringkat manusia."

Ia mungkin terdengar counter-intuitif, sememangnya keseluruhan robot adalah pengaturcara boleh mengajar mereka untuk melakukan sesuatu, bukan? Walaupun mereka bentuk mesin yang beroperasi di dunia nyata, robot memerlukan banyak data untuk memahami cara melakukan tugas dalam situasi yang tidak dikenali. A.I. boleh menggunakan data ini untuk "mempelajari" kemahiran berdasarkan semua keadaan yang berlaku sebelum ini.

Pembelajaran tetulang yang mendalam mengumpul data dengan cara yang sama seperti bagaimana manusia belajar: robot akan menyelesaikan tugas berulang kali, seperti menangkap bola, dan merekodkan data untuk membina gambaran bagaimana cara terbaik untuk menangkap bola dalam situasi baru. Apabila DeepMind menggunakan model pada tahun 2013 untuk mengajar robot bagaimana menguasai permainan Atari, hanya dengan duduk di depan skrin dan menceritakan matlamat akhir, komuniti saintifik menyukainya.

Masalahnya ialah, ini mengambil masa selama-lamanya. Anda perlu membaling bola di robot berulang kali, atau dalam kes Atari, biarkan robot sahaja di bilik tidurnya untuk seketika. Menjalankan simulasi MuJoCo, digabungkan dengan rangkaian saraf progresif, jurulatih boleh menjalankan program yang meniru robot, memindahkan tingkah laku yang dipelajari kepada robot dan memetakan pergerakan maya ke dunia nyata.

"Kami boleh menjalankan simulator tersebut sepanjang hari dan sepanjang malam," kata Hadsell.

Hasilnya bercakap untuk diri mereka sendiri. Robot ini, yang mendapat diploma dalam penangkapan, kini boleh mengikuti bola maya seolah-olah mereka benar, menyusunnya untuk hari besar apabila ia diminta untuk menangkap bola sebenar:

$config[ads_kvadrat] not found