AI và game luôn là một chủ đề thú vị. Liệu trí tuệ nhân tạo có thể chinh phục được những thử thách trong thế giới ảo? Mới đây, Phòng thí nghiệm AI Hao thuộc Đại học California San Diego (UC San Diego) đã sử dụng game kinh điển Super Mario Bros để kiểm tra khả năng của các mô hình AI hàng đầu, mang đến một góc nhìn mới về khả năng thích ứng của AI trong môi trường đòi hỏi phản xạ nhanh nhạy.
AI chơi Super Mario Bros
Các bài kiểm tra logic và toán học truyền thống thường bị chỉ trích là không phản ánh đúng thực lực của AI. Thay vào đó, nhóm nghiên cứu tại UC San Diego đã chọn một cách tiếp cận khác biệt: sử dụng Super Mario Bros – tựa game đòi hỏi khả năng phản xạ và ra quyết định nhanh chóng – để đánh giá các mô hình AI. Việc một AI có thể vượt qua các chướng ngại vật trong game như Goombas hay Koopa Troopas được xem là một thước đo khả năng xử lý tình huống phức tạp trong thời gian thực.
GamingAgent: Công cụ kết nối AI và Super Mario Bros
Thí nghiệm được thực hiện trên một phiên bản mô phỏng của Super Mario Bros, tích hợp với GamingAgent – một khuôn khổ do Hao Lab phát triển. GamingAgent cho phép AI điều khiển nhân vật Mario bằng cách tạo mã Python dựa trên các hướng dẫn đơn giản như “Nhảy qua kẻ thù” và hình ảnh chụp màn hình từ trò chơi. Mặc dù Super Mario Bros có vẻ là một trò chơi 2D đơn giản, nhưng nó yêu cầu AI phải lập kế hoạch và điều chỉnh chiến lược liên tục trong thời gian thực, tạo nên một thử thách đáng kể.
Claude 3.7 Của Anthropic: Nhà Vô Địch Bất Ngờ
Kết quả thí nghiệm cho thấy Claude 3.7 của Anthropic là mô hình AI xuất sắc nhất trong việc chinh phục Super Mario Bros. Claude 3.7 thể hiện khả năng phản xạ ấn tượng, thực hiện các cú nhảy chính xác và né tránh kẻ thù một cách khéo léo. Phiên bản tiền nhiệm, Claude 3.5, cũng cho thấy hiệu suất đáng kinh ngạc. Điều bất ngờ là các mô hình AI nổi tiếng với khả năng lý luận mạnh mẽ như GPT-4 của OpenAI và Gemini 1.5 Pro của Google lại gặp khó khăn trong thử thách này. Mặc dù sở hữu khả năng tư duy logic vượt trội, chúng lại không thể theo kịp tốc độ nhanh của trò chơi.
Mario nhảy qua chướng ngại vật
Tốc Độ – Chìa Khóa Chiến Thắng
Theo các nhà nghiên cứu, yếu tố quyết định thành công trong Super Mario Bros không phải là khả năng lập luận logic mà là tốc độ phản ứng. Chỉ một chút chậm trễ trong việc tính toán bước đi tiếp theo cũng có thể khiến Mario thất bại. Các mô hình AI quá tập trung vào “suy nghĩ” dường như mất quá nhiều thời gian để đưa ra quyết định, dẫn đến những kết quả không mong muốn.
Ý nghĩa của nghiên cứu
Việc sử dụng Super Mario Bros để đánh giá AI mang tính chất giải trí nhiều hơn là một thước đo chính xác về hiệu quả thực tế của AI. Khả năng chơi game không phản ánh trực tiếp giá trị của AI trong các ứng dụng thực tiễn. Tuy nhiên, thí nghiệm này cung cấp một cái nhìn thú vị về cách các mô hình AI khác nhau xử lý các tình huống đòi hỏi phản xạ nhanh.
Thử thách dành cho bạn
Hao AI Lab đã công khai mã nguồn của GamingAgent trên GitHub, cho phép cộng đồng tham gia thử nghiệm và trải nghiệm. Tìm hiểu thêm về GamingAgent. Liệu AI của bạn có thể vượt qua được thử thách Super Mario Bros?
FAQ – Những câu hỏi thường gặp về AI và Super Mario Bros
- GamingAgent là gì? GamingAgent là một khuôn khổ cho phép AI tương tác và chơi các trò chơi điện tử.
- Tại sao lại chọn Super Mario Bros để thử nghiệm AI? Super Mario Bros đòi hỏi phản xạ nhanh và khả năng thích ứng, giúp đánh giá khả năng xử lý tình huống thời gian thực của AI.
- Mô hình AI nào đã thể hiện tốt nhất trong thử thách này? Claude 3.7 của Anthropic đã cho thấy kết quả tốt nhất.
- Tại sao các mô hình AI mạnh về lý luận lại gặp khó khăn? Tốc độ phản ứng là yếu tố quan trọng hơn khả năng lý luận trong Super Mario Bros.
- Tôi có thể tự mình thử nghiệm GamingAgent không? Có, mã nguồn của GamingAgent đã được công khai trên GitHub.
- Kết quả này có ý nghĩa gì đối với tương lai của AI? Nghiên cứu này cho thấy tầm quan trọng của việc phát triển AI có khả năng phản ứng nhanh nhạy trong thời gian thực.
- Ngoài Super Mario Bros, còn game nào khác được dùng để thử nghiệm AI không? Có nhiều game khác nhau được sử dụng, ví dụ như StarCraft, Dota 2,…