Chỉ vài ngày sau khi OpenAI ra mắt các mô hình AI lý luận mới là o3 và o4-mini, người dùng đã nhanh chóng khám phá ra một khả năng ấn tượng và có phần đáng lo ngại của chúng. Với khả năng độc đáo là "suy luận" dựa trên hình ảnh – bao gồm việc cắt, xoay, phóng to và phân tích chi tiết ngay cả những bức ảnh mờ hoặc bị biến dạng – kết hợp với khả năng tìm kiếm web có sẵn, ChatGPT giờ đây có thể hoạt động như một công cụ tìm kiếm địa điểm cực kỳ hiệu quả.
Trên mạng xã hội X (Twitter), người dùng đang đua nhau thử nghiệm khả năng này. Họ tải lên đủ loại ảnh: từ thực đơn nhà hàng, góc phố, mặt tiền tòa nhà cho đến cả ảnh selfie, sau đó yêu cầu mô hình o3 đóng vai người chơi "GeoGuessr" – một trò chơi trực tuyến nổi tiếng yêu cầu đoán địa điểm từ ảnh Google Street View. Đáng ngạc nhiên là trong nhiều trường hợp, o3 đã suy luận khá chính xác thành phố, địa danh, thậm chí cả tên nhà hàng, quán bar cụ thể chỉ từ những manh mối hình ảnh tinh vi. Cơ chế hoạt động dường như không dựa vào lịch sử trò chuyện cũ hay dữ liệu EXIF (dữ liệu chứa thông tin vị trí thường gắn với ảnh), mà chủ yếu dựa vào việc phân tích nội dung hình ảnh và đối chiếu với thông tin trên web.

Nhiều người dùng ChatGPT đang thử nghiệm khả năng suy luận vị trí của o3. Ảnh: Lifehacker
Khả năng này ngay lập tức làm dấy lên hồi chuông báo động về quyền riêng tư. Một kịch bản dễ hình dung là kẻ xấu có thể chụp màn hình một bức ảnh trên Instagram Story hoặc một bài đăng mạng xã hội bất kỳ, sau đó dùng ChatGPT để cố gắng xác định vị trí của người đăng, tiềm ẩn nguy cơ dò tìm thông tin cá nhân.
Đáng lo ngại hơn, dường như có rất ít biện pháp bảo vệ cụ thể được tích hợp sẵn để ngăn chặn loại hình "tra cứu vị trí ngược" này trong ChatGPT. Báo cáo an toàn mà OpenAI công bố cùng với o3 và o4-mini cũng không đề cập trực tiếp đến vấn đề này.
Trong một thử nghiệm của TechCrunch, kết quả khá bất ngờ khi mô hình cũ hơn là GPT-4o (không có khả năng lý luận hình ảnh chuyên sâu) trong nhiều trường hợp vẫn tìm ra được địa điểm chính xác giống như o3, thậm chí còn nhanh hơn. Tuy nhiên, cũng có ít nhất một trường hợp o3 tỏ ra vượt trội khi xác định đúng một quán bar từ hình ảnh chiếc đầu tê giác màu tím gắn tường, trong khi GPT-4o lại đoán sai là một quán rượu ở Anh. Điều này cho thấy o3 có tiềm năng tốt hơn với các manh mối hình ảnh tinh tế hoặc độc lạ.
Dù vậy, o3 không phải hoàn hảo. Các thử nghiệm cũng cho thấy mô hình này có thể bị "kẹt" không đưa ra được câu trả lời, hoặc đưa ra địa điểm sai. Nhiều người dùng trên X cũng báo cáo về những kết quả suy luận vị trí thiếu chính xác.

Mô hình o3 có khả năng lập luận tốt nhưng chưa phải hoàn hảo. Ảnh: TechRadar
Vài giờ sau khi TechCrunch đăng tải về vấn đề này, OpenAI đã gửi một tuyên bố phản hồi. Công ty nhấn mạnh rằng khả năng lý luận hình ảnh của o3 và o4-mini mang lại nhiều lợi ích (hỗ trợ người khuyết tật, nghiên cứu, xác định vị trí khẩn cấp). Họ cũng khẳng định đã huấn luyện mô hình từ chối các yêu cầu về thông tin riêng tư/nhạy cảm, bổ sung các biện pháp bảo vệ nhằm cấm mô hình xác định danh tính cá nhân riêng tư trong ảnh, và tích cực giám sát, xử lý các hành vi lạm dụng chính sách về quyền riêng tư.
Trào lưu "thám tử" bằng ChatGPT đã phô diễn những khả năng mới đầy ấn tượng của AI tạo sinh, nhưng đồng thời cũng là một minh chứng rõ ràng cho những rủi ro tiềm ẩn đi kèm. Dù OpenAI đã đưa ra những cam kết về an toàn và bảo mật, việc người dùng có thể dễ dàng sử dụng công cụ này để suy luận vị trí từ ảnh chụp cho thấy thách thức trong việc xây dựng các hàng rào bảo vệ hiệu quả khi AI ngày càng trở nên mạnh mẽ và đa năng hơn. Cuộc tranh luận về cân bằng giữa khả năng của AI và sự an toàn, riêng tư của người dùng chắc chắn sẽ còn tiếp diễn.
Theo TechCrunch, Lifehacker