Cuộc chiến AI Search: Cloudflare và Perplexity xung đột về khả năng thu thập dữ liệu

Cloudflare cho biết Perplexity né tránh chỉ thị thu thập dữ liệu bằng các chiến thuật lén lút; Perplexity lại nói những tuyên bố này là sự hiểu lầm – hoặc là chiêu trò PR.

Cloudflare cáo buộc công cụ trả lời AI Perplexity “thu thập thông tin lén lút”, nói rằng công cụ này sử dụng các kỹ thuật lừa đảo để vượt qua các lệnh chặn trang web và truy cập vào nội dung mà công cụ này đã được yêu cầu rõ ràng là không được chạm vào.

Đáp lại, Perplexity cho biết Cloudflare hiểu lầm cơ bản về cách thức hoạt động của trợ lý AI và cáo buộc công ty này tìm kiếm sự chú ý hoặc thiếu năng lực kỹ thuật.

Nhìn tổng thể. Cloudflare cho biết Perplexity sử dụng bot đã khai báo khi có thể, nhưng sẽ chuyển sang “thu thập dữ liệu ẩn” khi bị chặn. Điều này bao gồm việc bắt chước hành vi trình duyệt thông thường, luân chuyển IP và bỏ qua các quy tắc robots.txt (những chiến thuật có thể liên quan đến trình thu thập dữ liệu và các tác nhân xấu).

Cloudflare đã thử nghiệm điều này bằng cách thiết lập các trang web honeytrap và phát hiện Perplexity trả lời các câu hỏi bằng nội dung mà nó không được phép truy cập.

Perplexity khẳng định các yêu cầu của họ được thực hiện thay mặt cho người dùng, chứ không phải là thu thập dữ liệu chủ động. Công ty cho biết đây là các yêu cầu tìm nạp dữ liệu theo thời gian thực, tương tự như cách trình duyệt hoặc ứng dụng email thực hiện, và khẳng định Cloudflare đã nhầm lẫn hành vi của họ với một thứ khác.

Xung đột giữa Cloudflare và Perplexity cho thấy khoảng trống trong việc thiết lập chuẩn mực cho bot AI

Tại sao chúng ta quan tâm? Nếu trợ lý AI có thể tránh robots.txt bằng cách đóng giả làm trình duyệt, các thương hiệu, nhà sáng tạo và nhà xuất bản sẽ mất quyền kiểm soát cách thức và thời điểm sử dụng nội dung của họ. Điều này phá vỡ mối quan hệ truyền thống giữa công cụ tìm kiếm và trang web .

Vậy tiếp theo là gì? Cloudflare cho biết họ đã chặn hành vi nói trên và dự kiến Perplexity sẽ thay đổi chiến thuật để ứng phó. Họ đang kêu gọi chuẩn hóa hành vi của bot thông qua IETF (Lực lượng Đặc nhiệm Kỹ thuật Internet) và các nỗ lực chính sách khác.

Trong khi đó, Perplexity đang khẳng định danh tính của mình là một nền tảng AI đại diện và cho biết nó không nên bị chi phối bởi các quy tắc được thiết kế cho trình thu thập thông tin web truyền thống.

AI cần một “luật chơi” minh bạch cho kỷ nguyên mới

Cuộc tranh luận giữa Cloudflare và Perplexity không chỉ đơn thuần là xung đột kỹ thuật giữa hai công ty, mà phản ánh một vấn đề lớn hơn: AI đang hoạt động theo những nguyên tắc chưa được thống nhất. Khi các trợ lý AI có thể truy cập dữ liệu theo thời gian thực hoặc thậm chí bỏ qua robots.txt, các nhà sáng tạo nội dung và doanh nghiệp dễ mất quyền kiểm soát cách thức nội dung đã bị sử dụng.

Để tránh lặp lại “cuộc chiến trình thu thập dữ liệu” từng xảy ra trong giai đoạn đầu của internet, ngành công nghệ cần một bộ tiêu chuẩn chung – một “luật chơi” rõ ràng về cách AI tương tác với website và dữ liệu trực tuyến. Việc chuẩn hóa này không chỉ bảo vệ lợi ích của nhà sáng tạo nội dung và doanh nghiệp, mà còn đảm bảo người dùng hiểu rõ AI đang làm gì thay họ. Trong kỷ nguyên AI-first, sự minh bạch và chuẩn mực sẽ là chìa khóa để duy trì niềm tin và sự hợp tác bền vững giữa các nền tảng, thương hiệu và cộng đồng internet.

Nguồn: Search Engine Land