Đã bao giờ bạn lên các trang thương mại dịch vụ điện tử để sở hữ đồ, sau đó được hệ thống gợi nhắc cho một số món đồ rất tương xứng với nhu cầu? Hay chúng ta vừa xem hoàn thành một bộ phim thì được Netflix gợi ý cho 1 danh sách các bộ phim tiếp theo cũng giống thể một số loại mà chúng ta yêu thích. Bạn đã từng đọc và nhận thấy sự lộ diện của những chiếc xe từ hành? Hay bạn nghe ở đâu đó 1 team các bộ máy đã đánh bại các game thủ số 1 thế giới trong cỗ môn Dota 2? Vậy thực sự, trang bị gì ẩn đằng sau công nghệ này để gia công giúp ta tất cả điều đó?

Câu trả lời chính là Reinforcement Learning hay còn được gọi là Học tăng cường. Trong nội dung bài viết này, họ hãy cùng tò mò xem Reinforcement Learning là gì mà có thể làm được những việc “vi diệu” kia nhé!

Reinforcement Learning là một trong những nhánh của Machine Learning

“Machine learning (ML) is a process whereby a computer program learns from experience khổng lồ improve its performance at a specified task” (Kiran, 2020). Hiểu dễ dàng và đơn giản machine learning (học máy) là kỹ thuật giúp cho máy tính có thể tự học và gửi ra ra quyết định mà không yêu cầu phải thiết đặt các quy tắc, pháp luật lệ. Machine learning đang là lĩnh vực công nghệ được niềm nở nhiều duy nhất hiện nay. Nó càng ngày được ứng dụng vào thực tế cuộc sống, từ các ứng dụng mạng xã hội, dịch vụ thương mại điện tử hay marketing… tạo ra những quý hiếm to lớn cho các dịch vụ này.

Bạn đang xem: Reinforcement learning là gì

*

Mối contact giữa AI, Machine learning với Deep learning (Ảnh: intel)

Các thuật toán học đồ vật thường được tạo thành 3 các loại lớn: supervised learning (học gồm giám sát), unsupervised learning (học ko giám sát) với reinforcement learning (học tăng cường). Nếu như supervised learning là học tập tập từ 1 tệp những dữ liệu được lắp nhãn nhằm suy luận ra quan hệ giữa nguồn vào và đầu ra, thì unsupervised learning ko được cung ứng các tài liệu được gắn nhãn ấy, cố kỉnh vào kia chỉ được cung ứng dữ liệu nhưng mà thuật toán tìm cách mô tả dữ liệu và cấu trúc của chúng. Nhiều loại thứ 3 là reinforcement learning - phương thức tập trung vào câu hỏi làm vắt nào khiến cho một tác tử trong môi trường rất có thể hành động làm thế nào để cho lấy được phần thưởng những nhất có thể. Khác với học gồm giám sát, học tăng cường không bao gồm cặp dữ liệu gán nhãn trước làm nguồn vào và cũng không có review các hành vi là đúng hay sai.

Reinforcement learning là đào tạo và huấn luyện các mô hình học máy để lấy ra một chuỗi những quyết định. Tác tử học biện pháp đạt được kim chỉ nam trong một môi trường xung quanh không kiên cố chắn, rất có thể là phức tạp.”

Đến trên đây ta hoàn toàn có thể thấy, reinforcement learning là một trong nhánh của machine learning.

*

3 loại bao gồm của Học đồ vật (Ảnh: Google)

Các thuật ngữ thông dụng

Trong reinforcement learning có tương đối nhiều các thuật ngữ không giống nhau. Sau đây chúng ta cùng liệt kê các thuật ngữ thông dụng với tìm hiểu chân thành và ý nghĩa của từng thuật ngữ đó nhé!

1. Agent

Trong reinforcement learning tất cả một thuật ngữ điện thoại tư vấn là agent - được có mang là “anything that can be viewed as perceiving its environment through sensors and acting upon that environment through actuators” (máy quan tiền sát môi trường xung quanh và sinh ra hành vi tương ứng).

*
2. Environment

Môi ngôi trường là không khí xung quanh của agent, chỗ mà agent tồn tại với tương tác

*
3. Action

Hành hễ là thủ tục của agent cho phép nó tác động với môi trường xung quanh và biến hóa môi trường. Dựa vào State S(t) của environment hiện tại mà agent sẽ chỉ dẫn action a(t)

*

4. Observation

Sau khi nhận ra sự thúc đẩy từ agent thì environment tất cả sự thay đổi trạng thái đối với agent

*

5. State

Là tâm lý của môi trường mà agent dấn được

*

6. Policy

Chính sách là yếu hèn tố xác định cách thức hoạt động vui chơi của agent tại 1 thời điểm tuyệt nhất định. Nói cách khác, cơ chế là một ánh xạ từ những trạng thái (state) của môi trường thiên nhiên đến các hành vi sẽ được triển khai khi ở trong số trạng thái đó. Chế độ là căn bản của agent trong việc xác minh hành vi. Trong một vài trường hợp, chính sách có thể là một trong những hàm hoặc bảng tra cứu 1-1 giản. Trong một số trong những trường thích hợp khác, chính sách có thể liên quan đến tính toán mở rộng, ví dụ như quy trình tìm kiếm.

7. Reward

Ở mỗi hành động, môi trường thiên nhiên gửi đến mang đến agent một phần thưởng xác định. Kim chỉ nam của agent là buổi tối đa hóa tổng phần thưởng nhưng nó cảm nhận trong một thời hạn dài. Biểu hiện phần thưởng (reward signal) giúp khẳng định đâu là sự việc kiện tốt và xấu đối với agent, bên cạnh đó nó cũng chính là cơ sở chính để thay đổi chính sách. Giả dụ một hành động được chọn lựa bởi chế độ mang mang đến phần thưởng thấp, thì chính sách đó có thể bị rứa đổi. Agent sẽ lựa chọn các hành động khác trong các tình huống tương tự sinh hoạt tương lai.

*

Khai thác cùng khám phá

Một trong những thách thức phát sinh trong reinforcement learning, đó là sự đánh đổi giữa khai quật và khám phá (exploit or explore). Để nhận được đa phần thưởng, agent phải ưu tiên chọn lựa các hành vi mà nó đã từng thử trong thừa khứ và giúp nó giành được phần thưởng. Agent sẽ xem toàn bộ các hành động rất có thể xảy ra cho một trạng thái độc nhất vô nhị định, kế tiếp lựa chọn hành động dựa trên giá chỉ trị về tối đa của những hành động đó. Đây hotline là khai thác (exploit) vì họ sử dụng tin tức có sẵn để lấy ra một ra quyết định (make a decision).

Ngoài ra, agent thay vì chưng chọn các hành vi dựa bên trên phần thưởng về tối đa trong tương lai, nó rất có thể chọn hành vi một giải pháp ngẫu nhiên. Hành động ngẫu nhiên rất đặc biệt quan trọng vì nó chất nhận được agent thăm dò và khám phá các trạng thái mới mà không được sàng lọc trong quá trình khai thác. Tóm lại, agent nên khai thác gần như gì nhưng nó đã từng qua để nhận được phần thưởng, mà lại cũng phải khám phá để mang ra gạn lọc hành động xuất sắc hơn vào tương lai.

Ví dụ về Reinforcement Learning

Để nắm rõ hơn về reinforcement learning, ta đã xem xét một vài ví dụ và các ứng dụng khả thi đã lý thuyết cho sự phát triển của nó.

Một fan chơi cờ vua tiến hành một nước đi. Nước đi được lựa chọn dựa vào việc lên kế hoạch (dự đoán những nước đi của đối thủ hoàn toàn có thể xảy ra), với bằng các phán đoán trực quan về các vị trí và nước đi rõ ràng mà tín đồ chơi đó mong ước thực hiện. Một bé bê linh dương vật lộn để đứng dậy vài phút sau khoản thời gian được sinh ra. Nửa tiếng sau nó đang hoạt động ở mức 20 dặm một giờ. Robot di động ra quyết định xem nó tất cả nên vào một trong những căn phòng mới để kiếm tìm thêm rác để thu dọn hay nỗ lực tìm đường quay lại trạm sạc pin sạc của nó. Nó gửi ra quyết định dựa bên trên mức sạc bây giờ của pin với mức độ lập cập và tiện lợi mà nó rất có thể tìm thấy cỗ sạc trong thừa khứ.

Tất cả đầy đủ ví dụ bên trên đều tương quan đến sự ảnh hưởng giữa agent môi trường của nó, trong các số ấy agent kiếm tìm cách dành được mục tiêu bất chấp sự không chắc chắn về môi trường xung quanh nơi mà nó tồn tại. Các hành vi của agent tác động đến trạng thái tương lai của môi trường thiên nhiên (thế cờ tiếp theo, vận tốc của bê linh dương sau 2 giờ, vị trí tiếp sau của robot và mức sạc trong tương lai của pin…), cho nên vì vậy nó cũng hình ảnh hướng mang đến các hành động và thời cơ của agent một trong những lần tiếp theo.

Xem thêm: Prime Rib Eye Là Gì - Prime Rib Vs Ribeye: Sự Khác Biệt Là Gì

Đồng thời, trong toàn bộ các ví dụ này, quan trọng dự đoán đầy đủ các ảnh hưởng của hành động; cho nên vì vậy agent yêu cầu theo dõi môi trường xung quanh của nó tiếp tục và bình luận thích hợp. Những ví dụ bên trên đều tương quan đến các phương châm rõ ràng, tức là agent rất có thể đánh giá quy trình đạt được mục tiêu của chính mình dựa trên rất nhiều gì nó cảm nhận trực tiếp (người nghịch cờ vua biết mình gồm thắng tuyệt không, con linh dương biết lúc nào nó ngã, robot cầm tay biết lúc nào pin cạn). Agent rất có thể sử dụng tay nghề để nâng cấp hiệu suất của chính nó theo thời gian (người chơi cờ tinh chỉnh trực giác mà lại anh ta áp dụng để nhận xét các vị trí, từ kia cải thiện cách chơi của mình; bê linh dương nâng cao khả năng chạy của nó…)

Reinforcement Learning - Những áp dụng tuyệt vời

Một một trong những thành tựu thứ nhất của Reinforcement Learning là việc đoạt được thành công những trò đùa của con người như cờ vua, cờ vây, Starcraft 2 xuất xắc Dota, xuất hiện thêm một kỷ nguyên bắt đầu cho bé đường cải tiến và phát triển Trí tuệ nhân tạo. AlphaGo của Google DeepMind là thành quả của việc kết hợp deep ANN, supervised learning, Monte Carlo tree tìm kiếm và reinforcement learning để đánh bại kỳ thủ cờ vây to con nhất lịch sử vẻ vang Lee Sedol với tỉ số 4-1. Chúng ta cũng có thể xem chi tiết Hành trình vượt qua kỳ thủ cờ vây vĩ đại nhất lịch sử vẻ vang để biết rõ hơn về sự việc kiện này. Xuất xắc AlphaStar của DeepMind đã và đang xuất sắc đánh bại 2 game thủ chuyên nghiệp hóa TLO với MaNa (Team Liquid) trong thể nhiều loại game StarCraft 2 với tỉ số 10-1, góp Cuộc va trán thân Trí tuệ nhân tạo và StarCraft có hiệu quả bước đầu tiện lợi cho trí thông minh nhân tạo. OpenAI Five - bé AI hợp lý của OpenAI cũng đã vượt qua đương kim vô địch trái đất DOTA 2 là OG với tỉ số 2-0 trong một trận chiến BO3. Đến đây, reinforcement learning thuộc Trí tuệ nhân tạo đã bao gồm một cách tiến khủng khi đã đoạt được thành công trong số những thể nhiều loại trò chơi phức tạp nhất kế hoạch sử.

*

Các lịch trình “Alpha” của Google DeepMind là hầu hết ví dụ vượt trội của Reinforcement Learning (Ảnh: xã hội Reinforcement Learning Việt Nam)

Xe từ hành cũng là một trong những ứng dụng khá nổi bật của reinforcement learning. Những nhà khoa học cho rằng các thuật toán học tăng cường chính là trái tim tuyệt linh hồn của các mạng deep learning network - lúc máy sẽ tự học tập nhờ quy trình thực hiện, lặp đi lặp lại và cải tiến liên tục. Một vài nhiệm vụ nhưng lái xe trường đoản cú hành có thể áp dụng cách thức học tăng cường bao gồm tối ưu hóa quỹ đạo, lập chiến lược chuyển động, dẫn động, tối ưu hóa bộ tinh chỉnh và điều khiển và chính sách học tập dựa vào kịch bạn dạng cho con đường cao tốc.

Reinforcement learning còn được ứng dụng trong không hề ít các nghành nghề dịch vụ khác: từ bỏ giao dịch cùng tài chính lúc agent có thể quyết định khi nào thì yêu cầu “hold”, bao giờ nên sở hữu vào hay buôn bán ra; trong lĩnh vực y tế: bệnh dịch nhân hoàn toàn có thể được chữa bệnh từ rất nhiều chương trình chữa bệnh được học tập từ khối hệ thống reinforcement learning; trong lĩnh vực robotics - khi sử dụng deep learning với reinforcement learning để huấn luyện và giảng dạy robot có khả năng cầm nắm các vật thể khác biệt ngay cả khi chúng không nhìn thấy những đồ vật thể đó trong quá trình huấn luyện - đó là ứng dụng hoàn hảo nhất để phát hành các sản phẩm trong dây chuyền sản xuất lắp ráp.

Tổng kết

Trong bài viết này, bọn họ đã cùng nhau khám phá khái niệm về reinforcement learning xuất xắc học tăng cường, biết được những thuật ngữ cơ bản, những ứng dụng cùng ví dụ minh họa về nó. Đây là 1 ngành vẫn còn đó tương đối mới tại Việt Nam, cũng chính vì thế nó đem trong mình không ít thách thức cũng như cơ hội. Hãy cùng khai thác và tò mò lĩnh vực màu mỡ này nhé!