Các nhà nghiên cứu tại Massachusetts Institute of Technology (MIT) phát triển một phương pháp có tên là "Clio", cho phép robot nhanh chóng lập bản đồ một khung cảnh bằng cách sử dụng camera gắn trên thân và xác định các phần liên quan nhất đến nhiệm vụ chúng được giao thông qua hướng dẫn bằng giọng nói. Nghiên cứu công bố trên tạp chí IEEE Robotics and Automation Letters, hôm 10/10.
Clio khai thác lý thuyết về "nút thắt thông tin", theo đó thông tin được nén lại để mạng nơ-ron, một tập hợp các thuật toán học máy được phân lớp để bắt chước cách bộ não con người xử lý thông tin, chỉ chọn và lưu trữ các phân đoạn có liên quan. Bất kỳ robot nào được trang bị hệ thống này sẽ xử lý các hướng dẫn một cách chọn lọc, tập trung vào nhiệm vụ của nó và bỏ qua mọi thứ khác.
Ví dụ, giả sử có một chồng sách trong khung cảnh và nhiệm vụ chỉ lấy cuốn sách màu xanh lá cây. Trong trường hợp đó, tất cả thông tin về khung cảnh này được đẩy và kết thúc bằng một cụm các phân đoạn đại diện cho cuốn sách màu xanh lá cây, đồng tác giả nghiên cứu Dominic Maggio, một nghiên cứu sinh tại MIT, cho biết. "Tất cả các phân đoạn khác không liên quan được nhóm lại trong một cụm có thể dễ dàng loại bỏ".
Để chứng minh Clio hoạt động, nhóm nghiên cứu đã sử dụng robot bốn chân Spot của Boston Dynamics chạy Clio để khám phá một tòa nhà văn phòng và thực hiện một loạt nhiệm vụ. Làm việc trong thời gian thực, Clio đã tạo ra một bản đồ ảo chỉ hiển thị các vật thể liên quan đến nhiệm vụ của nó, sau đó cho phép robot Spot hoàn thành mục tiêu của mình.
Robot còn có thể nhìn, hiểu và làm theo. Các nhà nghiên cứu đã đạt được mức độ chi tiết này với Clio bằng cách kết hợp các mô hình ngôn ngữ lớn (LLM) - nhiều mạng nơ-ron ảo làm nền cho các công cụ, hệ thống và dịch vụ trí tuệ nhân tạo - đã được đào tạo để xác định tất cả các loại vật thể, với thị giác máy tính. Bước đột phá mà Clio mang đến là khả năng chi tiết với những gì nó nhìn thấy trong thời gian thực, liên quan đến các nhiệm vụ cụ thể mà nó được giao.
Một phần cốt lõi của điều này là kết hợp một công cụ lập bản đồ vào Clio cho phép nó chia một khung cảnh thành nhiều phân đoạn nhỏ. Sau đó, một mạng nơ-ron chọn ra các phân đoạn tương tự về mặt ngữ nghĩa - nghĩa là chúng phục vụ cùng một mục đích hoặc tạo thành các vật thể tương tự.
Trong tương lai, nhóm nghiên cứu có kế hoạch điều chỉnh Clio để xử lý các nhiệm vụ ở cấp độ cao hơn. "Chúng tôi vẫn đang giao cho Clio những nhiệm vụ cụ thể, chẳng hạn như 'tìm bộ bài'," Maggio nói. "Đối với tìm kiếm và cứu hộ, bạn cần giao cho nó những nhiệm vụ ở cấp độ cao hơn, chẳng hạn như 'tìm người sống sót' hoặc 'khôi phục điện." Vì vậy, chúng tôi muốn đạt được sự hiểu biết ở cấp độ con người hơn về cách hoàn thành các nhiệm vụ phức tạp hơn.