Các nhà khoa học tại Microsoft mới đây đã công bố một báo cáo bất ngờ liên quan tới hệ thống tạo ra giọng nói từ văn bản.
Hệ thống được gọi là VALL-E, thoạt đầu có thể khiến mọi người không chú ý vì chỉ giống như những hệ thống chuyển đổi văn bản sang giọng nói thông thường khác. Tuy nhiên, khi đọc báo cáo, chúng ta mới có thể thấy những chi tiết gây bất ngờ về hệ thống này.
Các nhà khoa học tại Microsoft khẳng định, nhờ ứng dụng trí tuệ nhân tạo (AI), VALL-E có thể được sử dụng để tổng hợp giọng nói cá nhân với chất lượng cao chỉ với dữ liệu đầu vào là một đoạn thu âm dài 3 giây của một người nói không rõ mặt. Như vậy, hệ thống của Microsoft chỉ cần nghe một người nói 3 giây và có thể tổng hợp được giọng nói giống với nguyên bản.
Theo báo cáo, cơ sở dữ liệu được sử dụng trong huấn luyện VALL-E do Meta (công ty mẹ của Facebook) tổng hợp với 60.000 giờ thoại được thực hiện bởi 7.000 người.
Phóng viên công nghệ làm việc tự do Chris Matyszczyk đã nghe thử một số đoạn ghi âm và đưa ra cảm nhận trên trang tin ZDNet. Theo chia sẻ của Chris Matyszczyk, ông đã nghe một giọng nam phát biểu trong 3 giây và rồi nghe đoạn âm thanh dài 8 giây do VALL-E tạo ra. Ông cho rằng, khó có thể nhận ra đâu là con người nói và đâu là AI phát ra âm thanh.
Mặc dù cách dùng từ của VALL-E vẫn chưa thực sự giống người, Chris Matyszczyk cho biết, ông vẫn cảm thấy "đáng sợ".
Với một hệ thống như VALL-E, giọng nói máy tự động trả lời hay ghi âm sẵn giờ đây có thể đạt tới mức độ trau chuốt chưa từng có. Và không khó để hình dung rằng trong tương lai, tồn tại khả năng kẻ gian có thể lợi dụng một cuộc điện thoại để ghi âm giọng nói của bạn, từ đó giả danh chính bạn đi lừa người khác. Càng đáng lo ngại hơn khi các nhà nghiên cứu khẳng định, họ có thể tái tạo cả "cảm xúc và môi trường âm thanh" chỉ với đoạn ghi âm dài 3 giây.
theo vtv.vn
https://vtv.vn/cong-nghe/phan-mem-ai-co-kha-nang-nhai-giong-con-nguoi-chi-voi-3-giay-thu-am-20230119140453918.htm