Mark Dealer

Một vụ kiện mới tại Mỹ đã gây chấn động giới công nghệ, khi Meta bị cáo buộc sử dụng sách lậu để huấn luyện AI tạo sinh (generative AI). Dù công ty phủ nhận vi phạm bản quyền, email nội bộ vừa được tiết lộ lại cho thấy dấu hiệu vi phạm rõ ràng.

Theo nhiều nguồn tin, Meta đã tải xuống hàng triệu cuốn sách vi phạm bản quyền từ kho dữ liệu gây tranh cãi như LibGen và Z-Library để đào tạo mô hình AI. Hồ sơ vụ kiện cho thấy công ty không chỉ tải về mà còn phân phối 81,7 terabyte dữ liệu qua BitTorrent, trong đó có 35,7 terabyte từ LibGen và Z-Library.

Email nội bộ từ tháng 4.2023 của nhà nghiên cứu Nikolay Bashlykov tại Meta cho thấy ông từng nhận định: “Torrent trên máy tính công ty có vẻ không ổn” – kèm theo một biểu tượng cảm xúc cười. Nhưng đến tháng 9.2023, ông đã liên hệ với bộ phận pháp lý của Meta, lo ngại về việc sử dụng torrent để gieo mầm dữ liệu vi phạm bản quyền.

Meta bị cáo buộc dùng gần 82 TB dữ liệu từ sách lậu để huấn luyện AI

Đi xa hơn, tài liệu còn hé lộ rằng Mark Zuckerberg – CEO của Meta – đã biết về việc công ty sử dụng LibGen. Để tránh bị phát hiện, Meta được cho là đã triển khai các máy chủ bên ngoài hệ thống chính nhằm che giấu hoạt động tải xuống và phân phối dữ liệu. Một email nội bộ từ Frank Zhang đã gọi chiến thuật này là “chế độ tàng hình” (stealth mode).

Meta từng lập luận rằng việc sử dụng dữ liệu này thuộc phạm vi “sử dụng hợp lý”, nhưng với bằng chứng mới từ email nội bộ, vụ kiện này có thể trở thành một thách thức pháp lý lớn. Nếu bị kết luận vi phạm bản quyền, Meta có thể đối mặt với các án phạt nghiêm trọng.