Trung Quốc vừa giới thiệu công cụ trí tuệ nhân tạo (AI) chuyển văn bản thành video tương tự ứng dụng gây sốt Sora của OpenAI, mặc dù mô hình mới này chỉ có thể tạo video không quá 16 giây, so với 60 giây của công ty Mỹ.
Theo tờ Bưu điện Hoa Nam Buổi sáng (SCMP), Vidu, niềm hy vọng lớn nhất của đất nước cho đến nay trong việc bắt kịp Sora, đã được ra mắt vào cuối tuần qua bởi công ty khởi nghiệp Shengshu Technology trong nỗ lực hợp tác với Đại học Thanh Hoa danh tiếng ở Bắc Kinh.
Công ty cho biết mô hình này có thể tạo ra video có độ phân giải 1080p dựa trên lời nhắc văn bản đơn giản.
Zhu Jun, nhà khoa học trưởng tại Shengshu, đồng thời là Phó trưởng khoa tại Viện AI thuộc Đại học Thanh Hoa, cho biết: “Vidu là thành tựu mới nhất của sự đổi mới tự lực, với những đột phá trong nhiều lĩnh vực”.
Vidu đạt được những cải tiến đáng kể về hiệu ứng video, chủ yếu thể hiện ở việc mô phỏng thế giới vật lý thực, ngôn ngữ đa ống kính, tính nhất quán cao về không gian-thời gian và sự hiểu biết về các yếu tố Trung Quốc. Theo ông Zhu Jun, Vidu “có trí tưởng tượng”, “có thể mô phỏng thế giới vật chất” và “sản xuất video dài 16 giây với các nhân vật, cảnh và dòng thời gian nhất quán”. Ông nói thêm rằng mô hình trí tuệ nhân tạo này cũng có thể hiểu được “các yếu tố Trung Quốc”.
Trong buổi ra mắt mô hình, Shengshu đã phát hành một số clip demo, bao gồm một clip có cảnh gấu trúc chơi ghi-ta khi ngồi trên bãi cỏ và một clip khác về một chú chó con đang bơi trong hồ, cả hai đều hiển thị các chi tiết sống động.
Sự ra mắt của Vidu đã làm dấy lên hy vọng ở quốc gia đang chạy đua để bắt kịp những công ty AI hàng đầu thế giới, như OpenAI do Microsoft hậu thuẫn.
Không giống như ChatGPT của OpenAI, vốn đã truyền cảm hứng cho một loạt đối thủ cạnh tranh có trụ sở tại Trung Quốc sau khi ra mắt vào tháng 11/2022, các video ấn tượng do Sora tạo ra và được công bố vào tháng 2 năm nay đã không thu hút được mức độ nhiệt tình tương tự từ các công ty khởi nghiệp Big Tech của Trung Quốc.
Các chuyên gia trong ngành cho biết một trong những yếu tố cản trở sự phát triển trong lĩnh vực này của công ty Trung Quốc là thiếu sức mạnh tính toán.
Theo Li Yangwei, một nhà tư vấn kỹ thuật làm việc trong lĩnh vực điện toán thông minh tại Bắc Kinh, để Sora tạo ra một clip dài một phút, nó cần tám bộ xử lý đồ họa (GPU) Nvidia A100 để chạy trong hơn ba giờ. Ông nói: “Sora đòi hỏi rất nhiều sức mạnh tính toán để suy luận”.
Chính phủ Mỹ đã thắt chặt các hạn chế xuất khẩu đối với các chip tiên tiến do Nvidia sản xuất, bao gồm cả GPU A100 và H100, vốn đã trở thành linh kiện được săn đón nhiều nhất để đào tạo hệ thống AI, nhưng lại bị cấm vận chuyển sang Trung Quốc.
Công ty Shengshu có trụ sở tại Bắc Kinh được thành lập vào tháng 3/2023, với đội ngũ nòng cốt chủ yếu bao gồm các thành viên từ Viện AI của Đại học Thanh Hoa, cũng như các thành viên khác từ Tập đoàn Alibaba Group Holding, Tencent Holdings và ByteDance. Tập đoàn Alibaba, chủ sở hữu của tờ Bưu điện Hoa Nam Buổi sáng, cũng đang nghiên cứu các mô hình AI tạo video của riêng mình.
Tháng trước, Shengshu đã huy động được hàng trăm triệu nhân dân tệ từ các nhà đầu tư bao gồm Qiming Ventures, Zhipu AI và Baidu Ventures.
Mô hình chuyển văn bản thành video bằng AI đầu tiên của Trung Quốc được Shengshu giới thiệu khoảng 2 tháng sau khi Sora, một mô hình tương tự do công ty OpenAI có trụ sở tại Mỹ phát hành, gây được tiếng vang lớn trên thế giới.
Hai cường quốc Mỹ và Trung Quốc hiện đang cạnh tranh nhau về nhiều mặt liên quan đến trí tuệ nhân tạo, từ công nghệ để thiết kế phần cứng và phần mềm AI, cho đến nguyên liệu thô cung cấp năng lượng cho hệ thống AI.
AI là một trong những từ khóa được nhắc đến nhiều nhất năm 2023, nhưng từ cách đây 7 năm, Trung Quốc đã đề ra chương trình phát triển đầy tham vọng với mục tiêu trở thành “trung tâm đổi mới AI” toàn cầu vào năm 2030. Trong đó, Trung Quốc đặt mục tiêu đạt "trình độ dẫn đầu thế giới" vào năm 2025 và trở thành "trung tâm đổi mới AI lớn của thế giới" vào năm 2030, ưu tiên biến AI thành động lực chính cho việc nâng cấp công nghiệp và chuyển đổi kinh tế.