DeepMind , công ty con của Alphabet , đã tạo ra một hệ thống có thể nhanh chóng làm chủ bất kỳ trò chơi nào trong lớp bao gồm cờ vua, cờ vây và Shogivà làm như vậy mà không cần sự hướng dẫn của con người.
Hệ thống, được gọi là AlphaZero, bắt đầu cuộc sống vào năm ngoái bằng cách đánh bại một hệ thống DeepMind vốn chỉ dành riêng cho Go. Hệ thống trước đó đã tự tạo nên lịch sử bằng cách đánh bại một trong những người chơi cờ vây hay nhất thế giới, nhưng nó cần sự giúp đỡ của con người để vượt qua quá trình cải thiện kéo dài nhiều tháng. AlphaZero đã tự đào tạo mình chỉ trong 3 ngày .






Nghiên cứu, được công bố ngày hôm nay trên tạp chí Khoa học , được thực hiện bởi một nhóm do David Silver của DeepMind thực hiện. Bài báo được kèm theo một bài bình luận của Murray Campbell, một nhà nghiên cứu AI tại Trung tâm nghiên cứu IBM Thomas J. Watson ở Yorktown Heights, NY
Tác phẩm này đã có hiệu lực, đã khép lại một chương trong nhiều thập kỷ nghiên cứu về AI, ông viết Campbell, một thành viên của nhóm thiết kế Deep Blue của IBM, năm 1997 đã đánh bại Garry Kasparov, sau đó là nhà vô địch cờ vua thế giới. Các nhà nghiên cứu của AI AI cần phải tìm đến một thế hệ trò chơi mới để đưa ra những thách thức tiếp theo.
AlphaZero có thể bẻ khóa bất kỳ trò chơi nào cung cấp tất cả thông tin liên quan đến việc ra quyết định; thế hệ trò chơi mới mà Campbell ám chỉ. Poker cung cấp một ví dụ điển hình về những trò chơi thông tin không hoàn hảo như thế này: Người chơi có thể giữ các thẻ của họ gần rương của họ. Các ví dụ khác bao gồm nhiều trò chơi nhiều người chơi, chẳng hạn như StarCraft II , Dota và Minecraft . Nhưng họ có thể không đặt ra một thách thức xứng đáng lâu dài.
Nhiều người chơi   các trò chơi khó hơn Go, nhưng không cao hơn nhiều, thì Campbell Campbell nói với IEEE Spectrum . Một nhóm đã đánh bại những người chơi giỏi nhất tại Dota 2, mặc dù đây là phiên bản giới hạn của trò chơi; Starcraft có thể khó hơn một chút. Tôi nghĩ cả hai trò chơi đều trong vòng 2 đến 3 năm giải pháp.
Anh gọi các trò chơi nhiều người chơi là một bước tạm thời tốt, và nói thêm rằng bất kỳ trò chơi nào bao gồm ngôn ngữ sẽ mở ra những lĩnh vực phức tạp hơn. IBM nổi tiếng đã giải quyết một trò chơi đố trên truyền hình với cỗ máy Watson, chiến thắng tại Jeopardy năm 2011. Watson sau đó đã thể hiện khí phách của mình trong các cuộc tranh luận học thuật . Tuy nhiên, IBM vẫn đang làm việc để điều chỉnh hệ thống để sử dụng trong chăm sóc sức khỏe.
AlphaZero là tuyệt vời trong sức mạnh tuyệt đối mà nó mang lại cho chơi trò chơi. Và điều này nói lên nhiều điều, với những tiến bộ phi thường mà các phương pháp lỗi thời đã thực hiện.
Deep Blue là một con quái vật của một cỗ máy được chế tạo chỉ để chơi cờ và chiến thắng năm 1997 của nó trước Kasparov không phải là quá sức. Tuy nhiên, ngày nay, ngay cả một chiếc điện thoại thông minh cũng có thể vượt qua Magnus Carlsen, nhà vô địch thế giới trị vì, và làm đi làm lại nhiều lần:
Nhưng điện thoại thông minh đó chỉ là một piker so với chương trình cờ vua được lập trình hàng đầu, Stockfish . Và Stockfish, lần lượt, là một piker bên cạnh AlphaZero, người đã nghiền nát nó sau 24 giờ tự luyện tập.
DeepMind đã phát triển phương pháp tự đào tạo, được gọi là học tăng cường sâu, đặc biệt là tấn công Go. Thông báo ngày hôm nay rằng họ đã khái quát nó cho các trò chơi khác có nghĩa là họ có thể tìm ra các thủ thuật để duy trì sức mạnh chơi của nó sau khi từ bỏ một số lợi thế đặc biệt khi chơi Go. Ưu điểm lớn nhất như vậy là tính đối xứng của bảng Go, cho phép máy chuyên dụng tính toán nhiều khả năng hơn bằng cách coi nhiều trong số chúng là hình ảnh phản chiếu.
Thật dễ dàng để khái quát hóa máy chơi trò chơi. Họ không phải làm bất cứ điều gì, bất ngờ với Campbell. Thay vì có một bảng cờ làm đầu vào và các quy tắc cờ chỉ đạo tìm kiếm, họ nói, 'chúng ta hãy có các quy tắc bàn cờ và cờ vua.'Thực sự đã có một cuộc tranh luận quan trọng về việc liệu phương pháp này có hiệu quả với cờ vua hay không.
Các nhà nghiên cứu cho đến nay đã giải phóng sáng tạo của họ chỉ trên Go, cờ vua và Shogi, một hình thức cờ vua của Nhật Bản. Go và Shogi rất phức tạp về mặt thiên văn, và đó là lý do tại sao cả hai trò chơi từ lâu đã chống lại cácthuật toán bạo lực của giáo phái mà nhóm IBM đã sử dụng để chống lại Kasparov hai thập kỷ trước.
Tuy nhiên, cờ vua đã là giường thử nghiệm ưa thích của AI trong suốt cuộc đời, cho thấy nghiên cứu của những người tiên phong như Alan Turing , Claude Shannon và Herbert Simon . Trò chơi đã hấp dẫn bởi vì nó chắc chắn liên quan đến suy nghĩ và bởi vì nó không quá khó (như poker) cũng không quá dễ dàng (như cờ đam). Mặc dù vậy, cờ vua hóa ra là một hạt cứng để bẻ khóa.
Năm 1957, Simon nổi tiếng dự đoán rằng một cỗ máy sẽ vượt qua nhà vô địch cờ vua thế giới trong vòng 10 năm, và sau đó anh ta đã bị chế giễu một cách nhẹ nhàng vì đã mất hàng thập kỷ. Nhưng ông phàn nàn rằng các nhà phê bình về AI đã bác bỏ tất cả những tiến bộ mới chỉ là những mánh khóe.
Đó là vì họ định nghĩa suy nghĩ là điều mà máy tính chưa thể làm được, nên Simon Simon đã nói với tôi vào năm 1998 . Họ tiếp tục nâng cao thanh kiếm. Ông đã chết ba năm sau đó, nhưng ít nhất ông đã sống để thấy chiến thắng của Deep Blue trước Kasparov.
Các vấn đề trong cuộc sống hiếm khi đi kèm với tất cả các thông tin cần thiết cho giải pháp của họ. Đó là lý do tại sao một AI có thể làm chủ bất kỳ trò chơi nào có thông tin không hoàn hảo có thể tìm thấy ứng dụng vượt ra ngoài chơi game, nói trong mô hình tài chính, thậm chí là chiến tranh. Một chiếc xe tự lái được trang bị AI như vậy cuối cùng có thể chinh phục các con đường, tạo ra thành công rực rỡ cho bất kỳ công ty nào đầu tiên hoàn thiện ý tưởng.
Có lẽ đó sẽ là Waymo , một nhánh của Bảng chữ cái và do đó là anh em ruột với DeepMind.
Cập nhật ngày 6 tháng 12 năm 2018
Nguồn: https://spectrum.ieee.org/tech-talk/robotics/artificial-intelligence/mb