Người đứng sau mọi mô hình AI lớn

Admin

29/06/2026 20:39

Đằng sau ChatGPT, Gemini hay Llama không chỉ có phần cứng và thuật toán - còn có hàng triệu mẩu dữ liệu được con người gắn nhãn, phân loại và kiểm duyệt. Scale AI là công ty đã biến công đoạn đó thành ngành công nghiệp.

Khi các phòng lab AI đua nhau tăng tham số mô hình, Alexandr Wang và Lucy Guo nhìn vào một vấn đề khác: dữ liệu dùng để huấn luyện những mô hình đó đến từ đâu, và ai chịu trách nhiệm đảm bảo nó đủ chất lượng?

Câu trả lời của họ là Scale AI, thành lập năm 2016 khi Wang đang học năm nhất tại MIT. Wang sinh năm 1997 tại Los Alamos, New Mexico - nơi bố mẹ anh, cả hai đều là nhà vật lý, làm việc tại Phòng thí nghiệm Quốc gia Los Alamos. Xuất thân từ môi trường nghiên cứu khoa học nghiêm túc từ nhỏ, Wang sớm học lập trình tự học và tham gia các kỳ thi toán, tin học cấp quốc gia từ lớp 6. Trước khi vào MIT, anh đã gap year tại Silicon Valley, làm kỹ sư cho Quora - nơi anh gặp Lucy Guo, người sau đó trở thành đồng sáng lập Scale AI.

Ý tưởng hình thành khi Wang còn là sinh viên: mọi mô hình học máy đều cần dữ liệu đầu vào được gắn nhãn chính xác để biết đâu là vật thể, đâu là văn bản độc hại, đâu là câu trả lời tốt. Công đoạn này trước đó thường được khoán cho các nền tảng crowdsourcing như Amazon Mechanical Turk - thiếu kiểm soát chất lượng và không có khả năng mở rộng theo nhu cầu thực tế của AI. Wang bỏ MIT vào năm 2016 để cùng Guo xây dựng Scale AI như một nền tảng kết hợp tự động hóa và lao động người, với quy trình kiểm soát chất lượng chặt chẽ hơn.

Công ty khởi đầu từ vòng hạt giống 120.000 USD qua chương trình tăng tốc Y Combinator. Đến năm 2021, định giá Scale AI vượt 7 tỷ USD - đưa Wang, lúc đó 24 tuổi, lên vị trí tỷ phú tự thân trẻ nhất thế giới theo Forbes.

Scale AI hiện cung cấp dữ liệu huấn luyện và dịch vụ đánh giá mô hình cho OpenAI, Google, Microsoft, Meta, General Motors và nhiều tổ chức khác. Ngoài mảng thương mại, công ty cũng ký các hợp đồng quốc phòng đáng kể với chính phủ Mỹ - trong đó có dự án Thunderforge triển khai từ tháng 3/2025, sử dụng AI để lập kế hoạch và điều phối di chuyển của tàu chiến, máy bay và các tài sản quân sự khác.

Về cơ bản, Scale AI hoạt động như một công ty dịch vụ nhân lực công nghệ cao: tuyển các lao động tự do - chủ yếu ở Philippines, Kenya và Venezuela - sau đó giao nhiệm vụ gắn nhãn dữ liệu, kiểm soát chất lượng đầu ra, rồi bàn giao lại cho các lab AI. Mô hình tính phí theo từng tác vụ với biên lợi nhuận gộp trên 50%.

Tháng 6/2025, Meta đầu tư 14,3 tỷ USD vào Scale AI để đổi lấy 49% cổ phần không có quyền biểu quyết - nâng định giá công ty lên gần 29 tỷ USD. Theo điều khoản thỏa thuận, Wang chuyển sang Meta với vai trò Chief AI Officer, dẫn dắt Meta Superintelligence Labs. Vị trí CEO tại Scale AI được chuyển giao cho Jason Droege, cựu giám đốc chiến lược của công ty. Scale AI vẫn hoạt động độc lập như một thực thể riêng biệt.

Thỏa thuận này tạo ra hệ quả ngoài dự tính với phần còn lại của ngành: lo ngại Meta có thể tiếp cận thông tin về quy trình huấn luyện của đối thủ thông qua Scale AI, một số khách hàng lớn - bao gồm các lab AI cạnh tranh trực tiếp với Meta - đã tìm cách chuyển sang nhà cung cấp dữ liệu khác.

Song song với tăng trưởng là một số vấn đề về lao động. Từ tháng 12/2024, Scale AI đối mặt với nhiều vụ kiện từ cựu nhân viên, cáo buộc công ty phân loại sai lao động là lao động tự do thay vì nhân viên chính thức - điều này ảnh hưởng đến quyền làm thêm giờ và các phúc lợi khác. Một nhóm nhân viên khác kiện Scale AI vì tổn hại tâm lý, do phải liên tục tiếp xúc với nội dung bạo lực và độc hại trong quá trình gắn nhãn dữ liệu để huấn luyện AI. Bộ Lao động Mỹ cũng đang điều tra Scale AI về tuân thủ Fair Labor Standards Act - cuộc điều tra đã diễn ra ít nhất từ tháng 8/2024.

Về dài hạn, câu hỏi đặt ra với mô hình kinh doanh của Scale AI là sự bùng nổ của dữ liệu tổng hợp - dữ liệu do AI tự tạo ra để huấn luyện AI khác - có thể thu hẹp nhu cầu gắn nhãn thủ công hay không. Scale AI đang tự định vị lại: tháng 3/2026, công ty ra mắt Scale Labs, một bộ phận nghiên cứu tập trung vào đánh giá khả năng mô hình, phương pháp huấn luyện sau và giám sát rủi ro AI - một hướng đi xa hơn so với vai trò ban đầu là nhà cung cấp nhân lực gắn nhãn dữ liệu.