Thêm một khả năng không ngờ từ Trí thông minh nhân tạo

08:35, 08/07/2017
|

Đây là mã mới giúp máy tính lần đầu quan sát được từng chuyển động nhỏ của nhiều người cùng một lúc và có khả năng khiến robot hiểu ngôn ngữ không lời.

Trong khi con người giao tiếp tự nhiên bằng cách sử dụng ngôn ngữ cơ thể, các máy tính "ít hoặc nhiều bị mù" trước những tương tác này. Nhưng mã mới có thể cải thiện khả năng của robot trong các tình huống xã hội khi hiểu được cơ thể và cử động của người.

Các nhà nghiên cứu tại Viện Robotics của Đại học Carnegie Mellon đã phát triển mã mới bằng cách sử dụng Studio Panoptic. Máy vòm hai tầng này được trang bị 500 máy quay, tạo ra hàng trăm điểm quan sát mỗi hành động trong một lần quay.

Hệ thống nhìn thấy sự chuyển động của con người bằng cách sử dụng một mô hình 2D. Điều này cho phép nó theo dõi chuyển động trong thời gian thực, ghi lại mọi thứ từ cử chỉ tay đến chuyển động của miệng người và nó thậm chí có thể theo dõi nhiều người cùng một lúc.

Yaser Sheikh, phó Giáo sư về robot, cho biết: "Chúng ta giao tiếp bằng sự chuyển động của cơ thể nhiều như giao tiếp bằng giọng nói vậy. Nhưng các máy tính thì ít hoặc ít bị mù nhận diện ngôn ngữ không lời".

Theo dõi nhiều người là thách thức lớn đối với máy tính và, việc phát hiện cử động tay thậm chí còn nhiều trở ngại hơn.

Nhóm nghiên cứu hi vọng sẽ sớm chuyển từ mô hình dạng người 2D sang 3D để cải thiện việc dò, hiểu chuyển động cơ thể người của máy - Ảnh: Đại học Carnegie Mellon
Nhóm nghiên cứu hi vọng sẽ sớm chuyển từ mô hình dạng người 2D sang 3D để cải thiện việc dò, hiểu chuyển động cơ thể người của máy - Ảnh: Đại học Carnegie Mellon


Nhóm nghiên cứu hi vọng sẽ sớm chuyển từ mô hình dạng người 2D sang 3D để cải thiện việc dò, hiểu chuyển động cơ thể người của máy - Ảnh: Đại học Carnegie Mellon.

Mặc dù tập hợp dữ liệu hình ảnh trên bàn tay con người còn hạn chế hơn nhiều so với khuôn mặt hay trên vùng thân thể khác, nhưng Studio Panoptic đã cho phép robot nhận diện các chuyển động bàn tay chưa từng thấy trước đó.

Cách tiếp cận này cuối cùng có thể được sử dụng trong nhiều ứng dụng, ví dụ như giúp nâng cao khả năng xe tự lái để dự đoán chuyển động kế tiếp của người đi bộ. Nó cũng có thể được sử dụng trong phân tích thể thao, hoặc chẩn đoán hành vi.

Các nhà nghiên cứu sẽ giới thiệu thành tựu này tại CVPR 2017, Hội nghị về Tầm nhìn Máy tính và Hoá học, ngày 21 - 26.7 tại Honolulu.

Hiện tại, họ đã phát hành mã này cho các nhóm nghiên cứu khác để mở rộng khả năng của nó. Cuối cùng, nhóm nghiên cứu hy vọng sẽ chuyển từ mô hình 2D sang mô hình 3D, sử dụng Panoptic Studio để cải thiện việc dò chuyển động cơ thể, khuôn mặt và bàn tay.

(theo Khám phá)


Ý kiến bạn đọc