Vui lòng Đăng nhập hoặc Đăng ký hội viên để đọc nội dung đã ẩn
Just, on 25/05/2022 - 16:28, said:
Tôi đã viết trả lời chi tiết ở cái topic tạo ra sau khi cái này bị mất một thời gian, khá nhiều chữ nên k viết lại.
Chỉ nhắc lại một điểm có liên quan trực tiếp đến nội dung chung của các nhận xét của Expander: mọit phần mềm AI sẽ kết hợp chuyên gia tử vi và chuyên gia DL. Mục đích chính của chyên gia tử vi là để kiểm tra xem liệu dự đoán của phần mèm AI có hợp lí k, và để tạo label cho dữ liệu. hiển nhiên chuyên gia tử vi có thể đưa rule based critetia vào, nhưng sẽ hạn chế điều này vì nhiều lí do.
Tôi cũng nhắc lại chyện AlphaGo k biết chút gì về Go, k học bất kì luật hay mẹo gì về Go hết, chỉ được đưa vào các trận đấu thật và tự simulate thêm, để luyện và trẻo thành thiên Hạ vô địch. Alphago có những nước đi mà k cao thủ con nguèoi nào nghĩ ra hoặc dám đi. Vì vậy, lú luận là k biết gì thì k nên làm thì k đúng, và sẽ cản trở sự phát triển
Thứ nhất, không cần đến một "chuyên gia tử vi" để kiểm định phần mềm, mà bất kì ai cũng có thể kiểm định. Cứ cho nó chạy, rồi đến thời điểm quá khứ/tương lai mà thấy sự việc trùng khớp thì nó đúng, không thì nó sai.
Thứ hai, nhân tiện chủ top nói rất nhiều về AlphaGo, giờ thời đại bùng nổ thông tin, bất kì ai cũng có thể double-check, triple-check... tiện đây tôi gửi cho quý vị quan tâm thông tin liên quan:
Bài báo của David Silver và cộng sự có tên "Mastering the game of Go with deep neural networks and tree search", đăng trên Nature 529, 484–489 (2016).
Vui lòng Đăng nhập hoặc Đăng ký hội viên để đọc nội dung đã ẩn
Sau khi đọc xong bài báo trên, quý vị có thể thấy dòng mà tôi bôi đỏ ở comment bên trên là bố láo. AlphaGo dựa trên thuật toán "Monte Carlo tree search", nhờ đó ngoài học từ các trận thực chiến ra, nó còn tự đánh với nó để nâng cao trình độ, nhờ vậy có thể đánh bại 99,8% các chương trình Go khác, có thể thắng nhà vô địch châu Âu với tỷ số 5 - 0, cũng là lần đầu tiên máy tính làm được vậy sau cả thập kỉ, nên thuật toán của nó mới được chấp nhận đăng "Nature". Nói "AlphaGo k biết chút gì về Go, k học bất kì luật hay mẹo gì về Go hết" thì chứng tỏ chả biết gì về AlphaGo, nhưng biết chém gió thì kinh hoàng.
“All games of perfect information have an optimal value function, v*(s), which determines the outcome of the game, from every board position or state s, under perfect play by all players. These games may be solved by recursively computing the optimal value function in a search tree containing approximately
b^d possible sequences of moves, where b is the game’s breadth (number of legal moves per position) and d is its depth (game length). In large games, such as chess (b≈35, d≈80) and especially
Go (b≈250, d≈150)”
Muốn biết "mặt mũi" hàm v(s) của Go như nào thì tự vào mà đọc.
"
Features for policy/value network: Each position s was pre-processed into a set of 19 × 19 feature planes. The features that we use come directly from the raw representation of the game rules, indicating the status of each intersection of the Go board: stone colour, liberties (adjacent empty points of stone’s chain), captures, legality, turns since stone was played, and (for the value network only) the current colour to play. In addition, we use one simple tactical feature that computes the outcome of a ladder search. All features were computed relative to the current colour to play; for example, the stone colour at each intersection was represented as either player or opponent rather than black or white. Each integer feature value is split into multiple 19×19 planes of binary values (one-hot encoding). For example, separate binary feature planes are used to represent whether an intersection has 1 liberty, 2 liberties,…, ≥8 liberties."
P/s: tôi hỏi thật, chủ top có thực sự biết việc mình đang làm hay không? Hay là chỉ lên GitHub copy Open source rồi chỉnh sửa mà không cần biết nguyên lý?
Sửa bởi Expander: 25/05/2022 - 22:41