MASIGNALPHA101

AlphaGo Zero: Belajar dari awal

AlphaGo Zero: Belajar dari awal
Senin, 25 Maret 2019
Penelitian kecerdasan buatan telah membuat kemajuan pesat dalam berbagai domain mulai dari pengenalan ucapan dan klasifikasi gambar hingga genomik dan penemuan obat.

Dalam banyak kasus, ini adalah sistem spesialis yang memanfaatkan sejumlah besar keahlian dan data manusia.

Namun, untuk beberapa masalah, pengetahuan manusia ini mungkin terlalu mahal, terlalu tidak dapat diandalkan atau tidak tersedia.

Akibatnya, ambisi lama penelitian AI adalah untuk memotong langkah ini, menciptakan algoritma yang mencapai kinerja manusia super di domain yang paling menantang tanpa input manusia.

Dalam makalah kami yang terbaru , yang diterbitkan dalam jurnal Nature , kami menunjukkan langkah signifikan menuju tujuan ini.


Makalah ini memperkenalkan AlphaGo Zero, evolusi terbaru dari AlphaGo , program komputer pertama yang mengalahkan seorang juara dunia di game Go Cina kuno.

Nol bahkan lebih kuat dan bisa dibilang pemain Go terkuat dalam sejarah. 

Versi sebelumnya dari AlphaGo awalnya dilatih pada ribuan game amatir dan profesional manusia untuk mempelajari cara bermain Go.


AlphaGo Zero melewatkan langkah ini dan belajar bermain hanya dengan bermain game melawan dirinya sendiri, mulai dari bermain sepenuhnya acak.

Dengan melakukan itu, ia dengan cepat melampaui level permainan manusia dan mengalahkan versi AlphaGo yang sebelumnya telah mengalahkan juara dengan 100 game menjadi 0.
Alpha Go Zero

Hal ini dapat dilakukan dengan menggunakan bentuk baru pembelajaran penguatan , di mana AlphaGo Zero menjadi guru sendiri.

Sistem dimulai dengan jaringan saraf yang tidak tahu apa-apa tentang permainan Go. Kemudian memainkan game melawan dirinya sendiri, dengan menggabungkan jaringan saraf ini dengan algoritma pencarian yang kuat.

Saat dimainkan, jaringan saraf disetel dan diperbarui untuk memprediksi gerakan, serta pemenang pertandingan. 

Jaringan saraf yang diperbarui ini kemudian digabungkan kembali dengan algoritma pencarian untuk membuat versi baru, AlphaGo Zero yang lebih kuat, dan prosesnya dimulai lagi.

Dalam setiap iterasi, kinerja sistem meningkat dengan jumlah kecil, dan kualitas permainan mandiri meningkat, mengarah ke jaringan saraf yang lebih akurat dan versi AlphaGo Zero yang lebih kuat.

Teknik ini lebih kuat dari versi AlphaGo sebelumnya karena tidak lagi dibatasi oleh keterbatasan pengetahuan manusia.

Sebagai gantinya, ia dapat mempelajari tabula rasa dari pemain terkuat di dunia: AlphaGo sendiri. 

Ini juga berbeda dari versi sebelumnya dengan cara terkenal lainnya.

  1. AlphaGo Zero hanya menggunakan batu hitam dan putih dari papan Go sebagai input, sedangkan versi AlphaGo sebelumnya menyertakan sejumlah kecil fitur rekayasa tangan.


  1. Ia menggunakan satu jaringan saraf daripada dua. Versi sebelumnya dari AlphaGo menggunakan "jaringan kebijakan" untuk memilih langkah selanjutnya untuk bermain dan "jaringan nilai" untuk memprediksi pemenang permainan dari setiap posisi. Ini digabungkan dalam AlphaGo Zero, memungkinkannya dilatih dan dievaluasi lebih efisien.



  1. AlphaGo Zero tidak menggunakan "peluncuran" - permainan acak cepat yang digunakan oleh program Go lainnya untuk memprediksi pemain mana yang akan menang dari posisi dewan saat ini. Sebaliknya, ia bergantung pada jaringan saraf berkualitas tinggi untuk mengevaluasi posisi.


Semua perbedaan ini membantu meningkatkan kinerja sistem dan membuatnya lebih umum. Tetapi perubahan algoritmik yang membuat sistem jauh lebih kuat dan efisien.
AlphaGo menjadi semakin efisien berkat peningkatan perangkat keras dan kemajuan algoritmik baru-baru ini

Setelah hanya tiga hari pelatihan permainan mandiri, AlphaGo Zero dengan tegas mengalahkan versi AlphaGo yang sebelumnya diterbitkan - yang telah mengalahkan juara dunia 18 kali Lee Sedol - dengan 100 pertandingan menjadi 0.

Setelah 40 hari pelatihan mandiri, AlphaGo Zero menjadi lebih lebih kuat, mengungguli versi AlphaGo yang dikenal sebagai "Master", yang telah mengalahkan pemain terbaik dunia dan pemain nomor satu dunia Ke Jie.

Peringkat Elo - ukuran tingkat keterampilan relatif pemain dalam permainan kompetitif seperti Go - menunjukkan bagaimana AlphaGo menjadi semakin kuat selama pengembangannya.

Selama jutaan permainan AlphaGo vs AlphaGo, sistem secara progresif mempelajari permainan Go dari awal, mengumpulkan ribuan tahun pengetahuan manusia selama periode hanya beberapa hari.
AlphaGo Zero juga menemukan pengetahuan baru, mengembangkan strategi tidak konvensional dan gerakan baru kreatif yang menggemakan dan melampaui teknik baru yang dimainkannya dalam pertandingan melawan Lee Sedol dan Ke Jie.

Momen kreativitas ini memberi kami keyakinan bahwa AI akan menjadi pengganda kecerdikan manusia, membantu kami dengan misi kami untuk menyelesaikan beberapa tantangan terpenting yang dihadapi umat manusia.




Meskipun masih awal, AlphaGo Zero merupakan langkah penting menuju tujuan ini.

Jika teknik serupa dapat diterapkan untuk masalah terstruktur lainnya, seperti pelipatan protein, mengurangi konsumsi energi atau mencari bahan baru yang revolusioner, terobosan yang dihasilkan memiliki potensi untuk berdampak positif pada masyarakat.