Facebook mengembangkan Semua algoritma belajar bermain poker dengan cepat

Peneliti Facebook telah mengembangkan kerangka kerja AI umum yang disebut Recursive Belief-based Learning (ReBeL) yang menurut mereka mencapai kinerja yang lebih baik daripada manusia dalam permainan poker hold’em Texas tanpa batas, sementara menggunakan pengetahuan domain yang lebih sedikit daripada AI poker sebelumnya . Mereka menegaskan bahwa ReBeL adalah langkah menuju pengembangan teknik universal untuk interaksi multi-agen – dengan kata lain, algoritma umum yang dapat digunakan dalam skala besar, pengaturan multi-agen. Aplikasi potensial menjalankan keseluruhan dari lelang, negosiasi, dan keamanan siber hingga mobil dan truk yang dapat dikendarai sendiri.

Menggabungkan pembelajaran penguatan dengan pencarian di pelatihan model AI dan waktu ujian telah menghasilkan sejumlah kemajuan. Pembelajaran penguatan adalah di mana agen belajar untuk mencapai tujuan dengan memaksimalkan imbalan, sedangkan pencarian adalah proses navigasi dari awal ke keadaan tujuan. Misalnya, DeepZind’s AlphaZero menggunakan pembelajaran penguatan dan pencarian untuk mencapai kinerja canggih dalam permainan papan catur, shogi, dan Go. Tetapi pendekatan kombinatorial menderita penalti kinerja ketika diterapkan pada game informasi yang tidak sempurna seperti poker (atau bahkan batu-kertas-gunting), karena membuat sejumlah asumsi yang tidak berlaku dalam skenario ini. Nilai dari setiap tindakan yang diberikan tergantung pada probabilitas bahwa itu dipilih, dan lebih umum, pada keseluruhan strategi permainan.

Peneliti Facebook mengusulkan bahwa ReBeL menawarkan perbaikan. ReBeL dibangun di atas pekerjaan di mana gagasan tentang “kondisi permainan” diperluas untuk mencakup keyakinan para agen tentang keadaan mereka di mana, berdasarkan pengetahuan umum dan kebijakan agen lain. ReBeL melatih dua model AI – jaringan nilai dan jaringan kebijakan – untuk negara bagian melalui pembelajaran penguatan permainan mandiri. Ini menggunakan kedua model untuk pencarian selama bermain sendiri. Hasilnya adalah algoritma sederhana dan fleksibel yang diklaim peneliti mampu mengalahkan pemain manusia terbaik di game informasi berskala besar dan dua pemain yang tidak sempurna.

Facebook mengembangkan Semua algoritma belajar bermain poker dengan cepat

RakyatPoker – Pada tingkat tinggi, ReBeL beroperasi pada negara-negara kepercayaan publik daripada negara-negara dunia (yaitu, kondisi permainan). Public belief state (PBSs) menggeneralisasikan gagasan “nilai negara” ke permainan informasi yang tidak sempurna seperti poker; PBS adalah distribusi probabilitas pengetahuan umum di atas urutan tindakan dan keadaan yang mungkin, juga disebut sejarah. (Distribusi probabilitas adalah fungsi khusus yang memberikan probabilitas terjadinya berbagai kemungkinan hasil.) Dalam game informasi sempurna, PBS dapat didistilasi hingga ke sejarah, yang dalam game zero-sum dua pemain secara efektif disaring ke negara-negara dunia. PBS dalam poker adalah serangkaian keputusan yang bisa dibuat pemain dan hasilnya diberikan dengan tangan, pot, dan chip tertentu.

ReBeL menghasilkan “subgame” di awal setiap game yang identik dengan game asli, kecuali itu berakar pada PBS awal. Algoritma memenangkannya dengan menjalankan iterasi dari algoritma “pencarian-keseimbangan” dan menggunakan jaringan nilai terlatih untuk memperkirakan nilai pada setiap iterasi. Melalui pembelajaran penguatan, nilai-nilai tersebut ditemukan dan ditambahkan sebagai contoh pelatihan untuk jaringan nilai, dan kebijakan dalam subgame secara opsional ditambahkan sebagai contoh untuk jaringan kebijakan. Proses ini kemudian berulang, dengan PBS menjadi root subgame baru sampai akurasi mencapai batas tertentu.

Dalam percobaan, para peneliti membandingkan ReBeL pada permainan poker hold’em Texas head-up tanpa batas, Liar’s Dice, dan turn endgame hold’em, yang merupakan varian dari hold’em tanpa batas di mana kedua pemain mengecek atau menelepon untuk dua dari empat putaran taruhan pertama. Tim menggunakan hingga 128 PC dengan masing-masing delapan kartu grafis untuk menghasilkan data permainan yang disimulasikan, dan mereka mengacak ukuran taruhan dan tumpukan (dari 5.000 hingga 25.000 chip) selama pelatihan. ReBeL dilatih pada permainan penuh dan memiliki $ 20.000 untuk bertaruh melawan lawannya di endgame hold’em.

Para peneliti melaporkan bahwa melawan Dong Kim, yang menempati peringkat sebagai salah satu pemain poker kepala terbaik di dunia, ReBeL bermain lebih cepat dari dua detik per tangan di 7.500 tangan dan tidak pernah membutuhkan lebih dari lima detik untuk mengambil keputusan. Secara agregat, mereka mengatakan itu mencetak 165 (dengan deviasi standar 69) seperseribu blind (taruhan paksa) per game melawan manusia yang dimainkannya dibandingkan dengan sistem bermain poker Facebook sebelumnya, Libratus, yang mencapai maksimum 147 ribu.

Karena takut mengaktifkan kecurangan, tim Facebook memutuskan untuk tidak merilis basis kode ReBeL untuk poker. Sebagai gantinya, mereka membuka sumber implementasi mereka untuk Dadu Liar, yang menurut mereka juga lebih mudah dipahami dan dapat lebih mudah disesuaikan. “Kami percaya itu membuat game lebih cocok sebagai domain untuk penelitian,” tulis mereka dalam makalah pracetak. “Meskipun algoritma AI sudah ada yang dapat mencapai kinerja manusia super dalam poker, algoritma ini umumnya mengasumsikan bahwa peserta memiliki sejumlah chip tertentu atau menggunakan ukuran taruhan tertentu. Pelatihan ulang algoritma untuk memperhitungkan tumpukan chip sewenang-wenang atau ukuran taruhan yang tidak terduga membutuhkan lebih banyak perhitungan daripada yang layak secara real time. Namun, ReBeL dapat menghitung kebijakan untuk ukuran tumpukan acak dan ukuran taruhan acak dalam hitungan detik. “