Chúng ta hẳn đã không ít lần nghe những lời cảnh báo: “Đừng tin mọi thứ AI nói!” Nhưng chính xác thì các công cụ tìm kiếm AI thực sự thiếu chính xác đến mức nào? Các chuyên gia tại Trung tâm Báo chí Kỹ thuật số Tow (Tow Center for Digital Journalism) đã thực hiện một thử nghiệm toàn diện trên tám công cụ tìm kiếm AI phổ biến, và kết quả thật sự đáng kinh ngạc, cho thấy rõ ràng về độ chính xác của AI tìm kiếm hiện nay.
Phương Pháp Kiểm Tra và Đánh Giá Các Công Cụ Tìm Kiếm AI
Để làm rõ bức tranh về khả năng truy xuất và trích dẫn thông tin của AI, Tow Center đã tiến hành một nghiên cứu kỹ lưỡng. Tám chatbot AI được đưa vào thử nghiệm bao gồm cả các mô hình miễn phí và trả phí có khả năng tìm kiếm trực tiếp trên internet:
- ChatGPT Search
- Perplexity
- Perplexity Pro
- DeepSeek Search
- Microsoft Copilot
- Grok-2 Search
- Grok-3 Search
- Google Gemini
Trọng tâm của nghiên cứu này là đánh giá khả năng của chatbot AI trong việc truy xuất và trích dẫn nội dung tin tức một cách chính xác. Đồng thời, Tow Center cũng muốn quan sát cách các chatbot phản ứng khi chúng không thể thực hiện lệnh yêu cầu.
Quy trình thử nghiệm diễn ra như sau: 10 bài báo từ 10 nhà xuất bản khác nhau đã được chọn. Các đoạn trích từ mỗi bài báo sau đó được cung cấp cho từng chatbot. Các chatbot được yêu cầu thực hiện những tác vụ đơn giản như xác định tiêu đề của bài báo, nhà xuất bản gốc, ngày xuất bản và URL.
Các phản hồi của chatbot sau đó được phân loại vào một trong sáu nhóm:
- Chính xác (Correct): Tất cả ba thuộc tính (tiêu đề, nhà xuất bản, ngày xuất bản/URL) đều đúng.
- Chính xác nhưng không đầy đủ (Correct But Incomplete): Một số thuộc tính đúng, nhưng câu trả lời thiếu thông tin.
- Sai một phần (Partially Incorrect): Một số thuộc tính đúng, trong khi những thuộc tính khác không chính xác.
- Sai hoàn toàn (Completely Incorrect): Tất cả ba thuộc tính đều không chính xác và/hoặc bị thiếu.
- Không cung cấp (Not Provided): Không có thông tin nào được cung cấp.
- Bị chặn bởi Crawler (Crawler Blocked): Nhà xuất bản không cho phép crawler của chatbot truy cập thông qua tệp robots.txt.
Khi AI “Tự Tin” Đưa Ra Thông Tin Sai Lệch
Điểm đáng chú ý nhất trong nghiên cứu này không chỉ là việc các công cụ tìm kiếm AI thường xuyên sai lệch, mà còn là cách chúng sai. Bất kể độ chính xác, các chatbot gần như luôn phản hồi với một mức độ tự tin cao. Nghiên cứu chỉ ra rằng chúng hiếm khi sử dụng các cụm từ hạn định như “có thể là” hoặc thừa nhận không thể thực hiện lệnh. Điều này tạo ra một vấn đề lớn về sự tin cậy, khi người dùng dễ dàng bị dẫn dắt bởi những thông tin sai lệch nhưng được trình bày một cách rất “chắc chắn”.
Đồ họa thể hiện độ chính xác và mức độ tự tin của các công cụ tìm kiếm AI được kiểm tra.
Biểu đồ trên minh họa rõ ràng độ chính xác của AI tìm kiếm cùng với mức độ tự tin trong các phản hồi. Hầu hết các phản hồi đều nằm trong vùng “Tự tin” (Confident), nhưng lại có rất nhiều phần màu đỏ, biểu thị sự không chính xác.
Đáng báo động hơn là trường hợp của Grok-3, một mô hình AI trả phí có chi phí 40 USD/tháng, lại cho kết quả tồi tệ nhất. Ứng dụng này trả về tới 76% các phản hồi “tự tin sai hoàn toàn” hoặc “sai một phần”. Đáng nói, Grok-3 thậm chí còn hoạt động kém hơn phiên bản miễn phí là Grok-2.
So sánh hiệu suất giữa chatbot AI phiên bản trả phí và miễn phí trong việc trích dẫn thông tin.
Tương tự, điều này cũng được quan sát ở Perplexity Pro so với Perplexity. Việc trả tiền cho một mô hình cao cấp – 20 USD/tháng với Perplexity Pro – không nhất thiết cải thiện độ chính xác, nhưng dường như lại khiến chúng trở nên “tự tin hơn khi sai”.
Thỏa Thuận Cấp Phép và Việc Chặn Truy Cập Không Đảm Bảo Độ Chính Xác
Một số công cụ tìm kiếm AI có các thỏa thuận cấp phép cho phép chúng truy cập vào các ấn phẩm cụ thể. Bạn có thể cho rằng các chatbot sẽ rất giỏi trong việc xác định chính xác thông tin từ những ấn phẩm đó, nhưng thực tế lại không phải lúc nào cũng vậy.
Biểu đồ dưới đây cho thấy tám chatbot và một nhà xuất bản mà chúng có thỏa thuận cấp phép. Mặc dù được yêu cầu xác định tiêu đề, nhà xuất bản gốc, ngày xuất bản và URL của bài báo, phần lớn các chatbot đều đạt được mức độ chính xác cao. Tuy nhiên, một số lại thất bại thảm hại. Ví dụ, ChatGPT Search đã sai tới 90% khi xử lý thông tin từ San Francisco Chronicle, một ấn phẩm mà nó có mối quan hệ đối tác. Điều này càng làm nổi bật vấn đề AI search engine sai lệch ngay cả trong các trường hợp được cho là “lý tưởng”.
Biểu đồ thể hiện độ chính xác của chatbot AI khi xử lý thông tin từ các nhà xuất bản có thỏa thuận cấp phép.
Mặt khác, một số nhà xuất bản đã chặn quyền truy cập nội dung của họ từ các công cụ tìm kiếm AI. Tuy nhiên, nghiên cứu cho thấy điều này không phải lúc nào cũng hiệu quả trên thực tế. Một vài công cụ tìm kiếm dường như không tôn trọng các lệnh chặn này.
Ví dụ, Perplexity đã có thể xác định chính xác tất cả 10 trích dẫn từ National Geographic mặc dù trang này có trả phí (paywalled) và chặn crawler. Nhưng đó chỉ là về các câu trả lời đúng. Đáng lo ngại hơn là có nhiều chatbot không chỉ truy cập được các trang web bị chặn mà còn cung cấp thông tin không chính xác từ chúng. Grok và DeepSeek không được hiển thị trong biểu đồ vì họ không công bố các crawler của mình.
Hiệu suất của chatbot AI đối với các trang web đã chặn crawler, cho thấy khả năng vượt qua và sai sót thông tin.
Kết luận: Cần Tư Duy Phản Biện Mạnh Mẽ Trong Kỷ Nguyên AI
Vậy, tất cả những điều này có ý nghĩa gì đối với người dùng? Rõ ràng, việc chỉ dựa vào các công cụ tìm kiếm AI để có được thông tin chính xác là một đề xuất đầy rủi ro. Ngay cả các mô hình cao cấp với thỏa thuận cấp phép cũng có thể tự tin đưa ra thông tin sai lệch. Đây là lời nhắc nhở sâu sắc rằng tư duy phản biện và việc kiểm tra chéo thông tin vẫn là những kỹ năng thiết yếu trong kỷ nguyên AI.
Đừng quên tham khảo nghiên cứu đầy đủ tại Columbia Journalism Review để biết thêm nhiều phát hiện thú vị (và đáng báo động) về độ chính xác của AI tìm kiếm và AI search engine sai lệch hiện nay. Hãy chia sẻ quan điểm và trải nghiệm của bạn về việc sử dụng các công cụ AI trong phần bình luận bên dưới!