Các hình phạt về độ phức tạp có nghĩa là chiến lược tối ưu cho một trò chơi nhất định không thể có độ sâu đệ quy không giới hạn trừ khi nó được tối ưu hóa gọi đuôi, hoặc tạo ra phần thưởng theo cấp số nhân. Mỗi lần phân tách đệ quy thêm ít nhất một bit độ phức tạp vào mô hình thời gian không cuộn của một chiến lược.
Hầu hết lý thuyết trò chơi mà tôi đã thấy không xem xét các hệ quả của điều này. Đây là một ràng buộc khác ngoài chi phí tính toán đơn thuần. Chi phí của việc tính toán có thể được định giá tại chỗ, nhưng độ phức tạp là một ràng buộc toàn cầu. Bối cảnh là điều quan trọng.
(Nếu bạn biết về lý thuyết trò chơi xem xét hành vi của người chơi theo thời gian như một mô hình mà độ chính xác và độ phức tạp phải được cân bằng, xin hãy cho tôi biết! Tôi đã tìm kiếm nhưng không thấy, nhưng điều đó không có nghĩa là tôi đã sử dụng từ khóa đúng...)
Điều này nói rằng chiến lược tối ưu cho một người chơi được xác định tương đối với mô hình bản thân của người chơi đó. Nếu bạn mô hình hóa bản thân là lựa chọn giữa hai tùy chọn dưới một điều kiện nhất định, thì cây không gian trạng thái sẽ phát triển. Nhưng nếu bạn làm tròn nó về không, thì cây sẽ không có thêm nhánh mới.
Trên thực tế, có một "ngân sách quyết định". Việc thêm nhiều quyết định chi tiết hơn ở đây có nghĩa là bạn phải đưa ra ít quyết định chi tiết hơn ở nơi khác. Không phải là ít tính toán, mà là ít quyết định hơn. Nói cách khác, đây là chi phí phức tạp của những lựa chọn không được thực hiện.
Tương đương với "tính toán rẻ hơn" ở đây là "các tiền đề nền tảng tốt hơn". Số lượng quyết định bạn đang đưa ra là sự khác biệt giữa hành vi của bạn dựa trên trạng thái trong khoảnh khắc này, so với hành vi của bạn nếu đó là (mô hình của bạn về) khoảnh khắc trung bình của trải nghiệm. Thói quen tốt!
Điều này giống như một cái gương phản chiếu kiến thức chung... đó là những hành động phổ biến. Những hành động trong quá khứ của một tác nhân sẽ hạn chế những hành động tối ưu trong tương lai của nó. Điều này có nghĩa là, theo một cách nào đó, chỉ cần thường xuyên hành động theo một cách nào đó là một cam kết đáng tin cậy để tiếp tục chiến lược ngụ ý.
Trừ khi, tất nhiên, người chơi đang hành động một cách lừa dối — trả một chi phí phức tạp một cách bất ngờ để mô phỏng bản thân như thường hành động theo cách khác, nhằm duy trì các giả định nền tảng khác, vì họ kỳ vọng sẽ có lợi nhuận bằng cách phản bội những người bị lừa dối sau này.
Các chiến lược tối ưu là tối ưu một cách vững chắc. Một chiến lược tối ưu với lợi nhuận kỳ vọng cao hơn nhưng dẫn đến sự phá sản thì không phải là tối ưu. Sự vững chắc phụ thuộc vào sự đơn giản, điều này tương đối với lý thuyết về tâm trí của cả bản thân, người khác và tập thể "chúng ta".
Những quy tắc này về quyết định tối ưu trong điều kiện không chắc chắn không phải là gợi ý, chúng là luật lệ giống như các cập nhật Bayesian. Những gì bạn biết về bản thân mình có tính nguyên nhân đối với chiến lược tối ưu của bạn, và có một chi phí phức tạp không thể tránh khỏi đối với sự lừa dối khi liên kết mô hình bản thân với thực tế.
4,29K