
Đầu năm nay, một nhóm các nhà khoa học ở Nga đã phát hiện một thuật ngữ Tiếng Anh kỳ lạ, ban đầu chỉ xuất hiện trong các bài báo học thuật trên tạp chí khoa học chuyên ngành, nhưng cuối cùng đã rỏ rỉ dần ra internet, khi các bài báo đó được tải lên ở đâu đó.
Thuật ngữ chính xác là: "vegetative electron microscopy" hay "kính hiển vi điện tử thực vật".
Nghe thì có vẻ nguy hiểm và đầy tính chuyên môn, nhưng thuật ngữ này hoàn toàn không có ý nghĩa gì cả. Trong toàn bộ nền khoa học, không có thứ gì gọi là kính hiển vi điện tử thực vật.
Thế mà người ta lại tìm thấy nó xuất hiện trong hơn 20 bài báo khoa học trên Google Scholar, trong đó có một bài báo từ nhà xuất bản Springer Nature và một bài từ Elsevier, đều là những nhà xuất bản khoa học uy tín tầm cỡ thế giới.

Một biếm họa về "kính hiển vi điện tử thực vật", một thuật ngữ vô nghĩa đã hình thành một cách ngớ ngẩn trong khoa học.
Các bài báo này sau đó đã bị rút lại. Nhưng "kính hiển vi điện tử thực vật" vẫn còn tồn tại trên một loạt các bài báo khoa học khác, từ các tạp chí kém uy tín và có dấu hiệu "săn mồi".
Các tạp chí khoa học săn mồi không được thành lập bởi các nhà xuất bản uy tín, mà bởi các công ty muốn kinh doanh học thuật. Họ chào mời các nhà khoa học trả tiền để xuất bản các bài báo của mình, nhằm lấy thành tích trong hồ sơ học thuật.
Thay vì được bình duyệt - một hình thức kiểm tra chéo bởi các nhà khoa học trong chuyên ngành để đảm bảo bài báo khoa học đem lại kiến thức mới mẻ và chính xác, những tạp chí săn mồi đơn thuần là đăng y nguyên bất cứ thứ gì mà họ nhận được từ các "nhà khoa học", miễn là họ trả đủ tiền.
Hậu quả là thuật ngữ "kính hiển vi điện tử thực vật" đã liên tục xuất hiện đi xuất hiện lại trong những bài báo chất lượng kém. Bây giờ, chúng đã trở thành một thứ được gọi là "hóa thạch số".
Giống như những hóa thạch sinh học bị kẹt trong đá, những hóa thạch số này có thể trở thành một phần cố định, vĩnh viễn trong hệ sinh thái thông tin của loài người.

Đặc biệt, khi các mô hình AI bắt đầu truy cập vào hệ sinh thái khoa học, mà không có khả năng bình duyệt để phát hiện ra những từ ngữ vô nghĩa, sự xuất hiện của "thuật ngữ ma" sẽ để lại hệ lụy nghiêm trọng.
Suy cho cùng, AI chưa thể thông minh bằng các nhà khoa học, và sự kém thông minh của chúng được cho là có thể khuếch đại và tiếp tục lan truyền những "thuật ngữ ma" đến vĩnh cửu.
Nguồn gốc ngớ ngẩn của thuật ngữ ma
Khi các nhà khoa học tiến hành tra ngược lại để tìm nguồn gốc của "kính hiển vi điện tử thực vật", người ta đã tìm thấy nó xuất hiện lần đầu trên hai bài báo được xuất bản trên tạp chí Bacteriological Reviews từ năm 1950.
Hai bài báo này sau đó đã được quét để số hóa. Trớ trêu thay, trong quá trình quét, phần mềm – một thế hệ phần mềm cũ chuyên quét file ảnh để biến thành PDF, rồi chuyển file PDF đó thành dạng văn bản – đã mắc phải sai lầm ngớ ngẩn, nhưng thường thấy với các thế hệ phần mềm nhận diện văn bản cũ đó:
Chúng đã quét từ "vegetative" (thực vật) ở một cột của văn bản phía trước, rồi ghép vào với từ "electron" (điện tử) ở cột văn bản khác ở phía sau. Điều này đã vô tình tạo ra thuật ngữ ma quái.

Nhiều thập kỷ sau, thuật ngữ này bất ngờ xuất hiện lại trong một số bài báo khoa học của Iran. Vào các năm 2017 và 2019, hai bài báo đã sử dụng thuật ngữ này trong phần chú thích và tóm tắt bằng tiếng Anh.
Nguyên nhân dường như là do một lỗi dịch thuật. Trong tiếng Farsi, từ chỉ "thực vật" và "quét" chỉ khác nhau một dấu chấm nhỏ:

Kết quả là gì? Tính đến nay, Google Scholar đã thống kê được ít nhất 22 bài báo có sự xuất hiện của "kính hiển vi điện tử thực vật". Một bài báo xuất hiện trên tạp chí của nhà xuất bản học thuật uy tín Springer Nature đã bị thu hồi, và nhà xuất bản Elsevier cũng đã phải đính chính cho một bài báo khác.
"Thuật ngữ ma" này cũng xuất hiện trong một số bài báo của những tạp chí săn mồi, và trở nên phổ biến hơn sau khoảng năm 2020. Điều này khiến các nhà khoa học nghi ngại, bởi đây cũng là khoảng thời gian bùng nổ của các mô hình AI tạo sinh, đang liên tục quét dữ liệu trên internet để đào tạo mô hình của mình.
Họ lo lắng AI có thể bị "ám" bởi thuật ngữ ma trong khoa học, từ đó khuếch đại và lưu hành chúng vĩnh viễn.
Bằng chứng về việc AI đã bị "ám"
Để kiểm tra khả năng này, một nhóm các nhà khoa học tại Đại học Công nghệ Queensland, Australia đã tiến hành một cuộc "khai quật khảo cổ" xuyên qua những lớp dữ liệu khổng lồ mà các mô hình AI được huấn luyện.
Chúng ta biết mọi mô hình ngôn ngữ lớn đứng sau mọi chatbot AI hiện đại như ChatGPT, Deepseek hay Grok đều được "huấn luyện" trên một lượng văn bản khổng lồ mà chúng tìm được trên internet.
Các mô hình này về cơ bản sẽ hoạt động theo cách dự đoán từ tiếp theo có trong một chuỗi nội dung mà nó có thể trả lời. Nội dung chính xác của dữ liệu huấn luyện thường bị các công ty phát triển giấu kín.
Nhưng các nhà khoa học đã tự hỏi liệu một số mô hình có "biết" về thuật ngữ ma "kính hiển vi điện tử thực vật" hay không?

Bằng chứng về đoạn code mà mô hình GPT-3.5 (cụ thể, mô hình GPT-3.5-TURBO-BINTRURF) hiển thị thuật ngữ 'Kính hiển vi điện tử thực vật' được tạo ra.
"Chúng tôi đã nhập các đoạn trích từ các bài báo gốc để xem liệu mô hình sẽ hoàn thành chúng bằng thuật ngữ vô nghĩa này hay các lựa chọn hợp lý hơn", tiến sĩ Aaron Snoswell, nhà khoa học máy tính tại tại Đại học Công nghệ Queensland cho biết.
"Kết quả thật đáng chú ý. Mô hình GPT-3 của OpenAI đã liên tục cho ra kết quả là cụm từ "kính hiển vi điện tử thực vật". Trong khi các mô hình cũ hơn như GPT-2 và BERT thì không".
Điều này cho phép tiến sĩ Snoswell xác định được chính xác thời điểm mà các mô hình AI bắt đầu bị "ám" bởi thuật ngữ ma, cùng nguồn mà chúng bị "nhiễm bẩn".
"Bằng cách so sánh những gì chúng tôi biết về tập dữ liệu huấn luyện của các mô hình khác nhau, chúng tôi xác định tập dữ liệu CommonCrawl – một bộ sưu tập các trang web được thu thập – là nguồn gốc khả dĩ nhất mà các mô hình AI đã học thuật ngữ này", anh giải thích.
"Chúng tôi cũng phát hiện lỗi này vẫn tồn tại trong các mô hình mới hơn như GPT-4o và Claude 3.5 của Anthropic. Điều này cho thấy thuật ngữ vô nghĩa này có thể đã được nhúng vĩnh viễn vào cơ sở tri thức của AI".
Chúng sẽ trở thành "hóa thạch số"
Cần phải nói rằng, việc phát hiện ra những "thuật ngữ ma" trong cơ sở dữ liệu khổng lồ của AI là không hề dễ dàng. Việc sửa chữa chúng thậm chí còn khó hơn, gần như bất khả thi.
Một lý do là vì quy mô của dữ liệu lớn đơn giản là quá lớn. Ví dụ, tập dữ liệu CommonCrawl có dung lượng hàng triệu gigabyte. Đối với hầu hết các nhà nghiên cứu bên ngoài các công ty công nghệ lớn, họ không có bất kể nguồn lực tính toán nào có khả năng xử lý dữ liệu ở quy mô này.
Lý do tiếp theo đến từ chính sự thiếu minh bạch trong các mô hình AI thương mại. OpenAI và nhiều nhà phát triển khác từ chối cung cấp chi tiết về dữ liệu mà họ dùng để huấn luyện AI của mình.

Những nỗ lực nhằm can thiệp vào cơ sở dữ liệu gốc cũng gặp khó khăn. Thực tế là sau khi "thuật ngữ ma" này được các nhà khoa học Nga phát hiện, họ đã gửi lời cảnh báo đến cả 22 nhà xuất bản đã phát hành các bài báo chứa "kính hiển vi điện tử thực vật".
Tuy nhiên, phản hồi mà họ nhận được không nhất quán. Một số nhà xuất bản đã thu hồi các bài báo có liên quan, trong khi số khác lại bảo vệ chúng.
Nhà xuất bản Elsevier ban đầu thậm chí còn cố gắng biện minh cho tính hợp lệ của thuật ngữ. Nhưng cho đến khi bị phản đối gay gắt, cuối cùng họ mới chịu nhận sai và đưa ra lời đính chính.
Về phía các mô hình chatbot ở đầu cuối, bạn có thể nghĩ rằng chúng có thể sử dụng một cơ chế lọc từ đơn giản để loại bỏ "thuật ngữ ma". Nhưng nếu vậy, chúng cũng sẽ loại bỏ luôn cả các bài báo nhắc đến nó như một lời cảnh báo.
Chẳng hạn như chính bài báo mà bạn đang đọc ở đây, trong đó "kính hiển vi điện tử thực vật" cũng đang được nhắc đi nhắc lại.

Khi bạn bảo AI tạo ra cho bạn một "kính hiển vi điện tử thực vật", nó sẽ tạo ra thật.
Để minh họa cho sự tồn tại dai dẳng của những "thuật ngữ ma" này, tiến sĩ Snoswell đã gọi chúng là "hóa thạch số". Giống như những hóa thạch sinh vật bị kẹt lại trong đất đá từ thời cổ đại, những hóa thạch số này cũng có thể kẹt lại vĩnh viễn trong kho tàng tri thức của loài người.
Quan trọng hơn, trường hợp này đặt ra một câu hỏi đáng lo ngại: Còn bao nhiêu "thuật ngữ ma" vô nghĩa khác đã, đang, và sẽ trở thành "hóa thạch số" trong các hệ thống AI, chỉ chờ được loài người trong tương lai phát hiện?