- Kết quả đánh giá công cụ ChatGPT cho thấy, 52% câu trả lời được cung cấp là không chính xác và 77% là dài dòng không cần thiết.
Một nghiên cứu gần đây được thực hiện bởi Đại học Purdue ở Hoa Kỳ đã làm sáng tỏ một vấn đề đáng lo ngại liên quan đến độ chính xác của câu trả lời của ChatGPT cho các câu hỏi lập trình. Kết quả của nghiên cứu chỉ ra rằng hơn một nửa số câu trả lời của ChatGPT là không chính xác và khả năng ngôn ngữ nâng cao của nó đã khiến một bộ phận đáng kể những người tham gia bị đánh lừa.
Nhóm nghiên cứu đã kiểm tra 517 câu hỏi lập trình lấy từ Stack Overflow và đánh giá các khía cạnh khác nhau trong câu trả lời của ChatGPT, bao gồm tính chính xác, nhất quán, toàn diện và ngắn gọn.
Kết quả của cuộc đánh giá là đáng thất vọng, vì kết quả cho thấy rằng 52% câu trả lời được cung cấp là không chính xác và 77% là dài dòng không cần thiết. Điều gây lo ngại hơn nữa là phong cách ngôn ngữ và có phương pháp của AI thường khiến những người sử dụng lạc lối. Chỉ trong những trường hợp sai sót quá rõ ràng thì những người sử dụng mới có thể xác định được những điểm không chính xác.
Mặc dù có những câu trả lời không chính xác, nhưng gần 40% số người tham gia thích câu trả lời của ChatGPT hơn. Tuy nhiên, đáng kể 77% những phản hồi được ưa chuộng hóa ra lại không chính xác. Các nhà nghiên cứu đã chỉ rõ rằng nhiều lỗi bắt nguồn từ việc ChatGPT không thể nắm bắt được sắc thái ngữ cảnh của các câu hỏi.
Những phát hiện này đưa ra một lập luận thuyết phục rằng AI hiện tại có thể không phải là một công cụ phù hợp để hỗ trợ tạo mã và thậm chí có thể có tác dụng ngược. Thừa nhận thực tế này, nhiều gã khổng lồ công nghệ như Google, Apple, Amazon và Samsung đã đưa ra cảnh báo hoặc áp đặt lệnh cấm sử dụng AI tổng quát cho các đề xuất mã.
Theo các báo cáo, OpenAI đang làm việc trên phiên bản GPT tiếp theo là GPT-5, dự kiến sẽ giải quyết các lỗi này. Các kỳ vọng bao gồm cải thiện đa phương thức với văn bản, hình ảnh, video và âm thanh, nâng cao hiệu quả tính toán, bộ nhớ và hiểu biết theo ngữ cảnh.
GPT-5 có thể cho phép tương tác chi tiết hơn, mở rộng sang các miền mới và cung cấp số lượng tham số cao hơn để tạo nội dung AI mạnh mẽ hơn.
Hoàng Thanh