- OpenAI đã tiết lộ một công cụ trí tuệ nhân tạo mới có thể bắt chước giọng nói của con người với độ chính xác đáng kinh ngạc. Máy phát giọng nói AI có nhiều ứng dụng tiềm năng, bao gồm cả dịch vụ trợ năng, nhưng cũng có thể gây lo ngại về thông tin sai lệch và các hình thức lạm dụng khác.
OpenAI mới đây đã chia sẻ các mẫu từ các thử nghiệm ban đầu của công cụ phát giọng nói được gọi là Voice Engine này, sử dụng mẫu 15 giây của một người nào đó đang nói để tạo ra bản sao thuyết phục giọng nói của họ. Sau đó, người dùng có thể cung cấp một đoạn văn bản và công cụ sẽ đọc nó bằng giọng nói do AI tạo ra.
Có một số dịch vụ giọng nói do AI tạo ra đã được cung cấp rộng rãi cho công chúng, nhưng cũng như đã làm với chatbot đột phá ChatGPT, OpenAI đã chứng tỏ được khả năng đặc biệt thành thạo trong việc thu hút sự áp dụng rộng rãi các công cụ AI.
Công ty cho biết một công cụ chuyển văn bản thành giọng nói được hỗ trợ bởi AI có thể giúp dịch thuật, hỗ trợ đọc cho trẻ em hoặc hỗ trợ những người mất khả năng nói. Nhưng một số người hoài nghi lo ngại rằng nó cũng có thể thúc đẩy việc tạo ra thông tin sai lệch hoặc khiến việc thực hiện các vụ lừa đảo trở nên dễ dàng hơn.
OpenAI cho biết Voice Engine hiện chỉ được sử dụng bởi một “nhóm nhỏ đối tác đáng tin cậy”, bao gồm các công ty công nghệ giáo dục và y tế. OpenAI sẽ sử dụng các thử nghiệm của họ để xác định xem liệu có cho phép sử dụng rộng rãi hơn hay không và bằng cách nào. Theo công ty, những người thử nghiệm đó đã đồng ý không tạo lại giọng nói của mọi người mà không có sự đồng ý rõ ràng của họ và xác định rõ ràng với người nghe rằng những gì họ đang nghe là do AI tạo ra.
OpenAI cho biết trong một bài đăng trên blog rằng: “Chúng tôi nhận thấy rằng việc tạo ra bài phát biểu giống giọng nói của mọi người có những rủi ro nghiêm trọng, điều này đặc biệt được quan tâm hàng đầu trong năm bầu cử”. Công ty thừa nhận sự cần thiết phải có những thay đổi lớn khi âm thanh do AI tạo ra trở nên phổ biến rộng rãi hơn, mặc dù họ không có kế hoạch phát hành Voice Engine ra công chúng ngay lập tức. Ví dụ: công ty đề xuất loại bỏ dần xác thực dựa trên giọng nói cho tài khoản ngân hàng.
“Bất kỳ việc triển khai rộng rãi công nghệ giọng nói tổng hợp nào cũng phải đi kèm với trải nghiệm xác thực giọng nói để xác minh rằng người nói ban đầu biết rõ rằng giọng nói của họ được đưa vào dịch vụ và có một danh sách những giọng nói không được phép bắt chước, theo đó danh sách này phát hiện và ngăn chặn việc tạo ra các giọng nói quá giống với giọng nói của những nhân vật nổi tiếng”, OpenAI cho biết.
Voice Engine có thể sử dụng mẫu giọng nói bằng một ngôn ngữ để tạo bản sao giọng nói có thể nói bằng nhiều ngôn ngữ khác.
Bài đăng trên blog của nó bao gồm ví dụ về đoạn âm thanh của một người đang đọc một đoạn văn về tình bạn, cùng với âm thanh do AI tạo ra có âm thanh giống như cùng một người đang đọc cùng một đoạn văn bằng tiếng Tây Ban Nha, tiếng Quan Thoại, tiếng Đức, tiếng Pháp và tiếng Nhật. Trong mỗi mẫu do AI tạo ra, âm sắc và giọng nói của người nói gốc vẫn được giữ nguyên.
Bản xem trước của Voice Engine xuất hiện khi người dùng đang chờ phát hành công khai Sora, công cụ video do AI tạo ra mà OpenAI đã giới thiệu vào tháng trước. Sora có thể tạo các video dài 60 giây trông như thật từ các hướng dẫn bằng văn bản, với khả năng cung cấp các cảnh có nhiều nhân vật, các kiểu chuyển động cụ thể và các chi tiết nền phức tạp. ChatGPT của OpenAI cũng có thể tạo hình ảnh từ lời nhắc văn bản.
Ngoài ra, OpenAI cũng đã thông báo vào thứ Hai rằng họ sẽ cung cấp ChatGPT cho bất kỳ ai mà không cần phải đăng ký để sử dụng dịch vụ.
Công ty lưu ý rằng họ có thể sử dụng bất kỳ văn bản nào được tải vào ChatGPT để cải thiện mô hình của mình nhưng cho biết tính năng này có thể bị tắt thông qua cài đặt ngay cả khi không có tài khoản. Tuy nhiên, nếu không có tài khoản, người dùng sẽ không thể lưu hoặc xem lại lịch sử trò chuyện hay truy cập các tính năng khác nhau, bao gồm các cuộc trò chuyện bằng giọng nói và hướng dẫn tùy chỉnh.