Sora - AI tạo video từ văn bản do 'cha đẻ ChatGPT' phát triển có khả năng tùy biến bối cảnh ảo đến mức nào?

Admin

16:07 21/02/2024

Không chỉ giới thiệu khả năng chuyển đổi từ văn bản sang video, Sora còn gây ấn tượng nhờ khả năng tùy biến cực mạnh về bối cảnh cũng như phong cách của video.

Tuần trước, OpenAI đã giới thiệu một mô hình AI mới tên là Sora, khiến cộng đồng công nghệ không khỏi ngỡ ngàng. Mô hình này cho phép người dùng tạo ra các đoạn video ngắn chỉ từ vài dòng mô tả văn bản, mở ra khả năng sáng tạo nội dung video mà không cần đến trang thiết bị chuyên nghiệp hay kỹ năng dựng phim, bối cảnh phức tạp.

Theo đó, công nghệ cốt lõi của Sora đến từ sự kết hợp giữa kiến trúc diffusion và transformer. Kiến trúc diffusion, đã được chứng minh qua thành công của DALL-E 3 trong việc tạo ảnh từ văn bản, nay được áp dụng cho video, cho phép Sora tạo ra các chuỗi hình ảnh động và chi tiết từ đầu vào ngẫu nhiên.

Phương pháp này giúp dự đoán và biến đổi đầu vào thành nội dung hình ảnh có cấu trúc và rõ ràng. Trong khi đó, kiến trúc transformer với khả năng xử lý dữ liệu tuần tự một cách hiệu quả cũng được tích hợp để xử lý và sinh ra nội dung phù hợp với lời nhắc, dựa trên sự hiểu biết sâu sắc về ngôn ngữ và ngữ cảnh

Tổng hợp video được tạo ra bởi Sora từ các câu lệnh dạng văn bản, với độ chân thực tốt đến mức khó có thể nhận ra.

Chất lượng của những video do Sora tạo ra là điểm đáng chú ý nhất, với độ sống động và chân thực cao, ngay cả trong các bối cảnh phức tạp. Dù vẫn còn một vài lỗi nhỏ (đơn cử như hành động, cử chỉ hơi thiếu thực tế của nhân vật chính trong một video), nhưng những lỗi này khó có thể nhận ra nếu không quan sát kỹ. Điều này làm nổi bật tiềm năng của Sora trong việc tạo ra nội dung video chất lượng cao.

Khả năng tùy biến cực mạnh của Sora, thay đổi phong cách và bối cảnh chỉ với vài câu lệnh

Không chỉ giới thiệu khả năng chuyển đổi từ văn bản sang video, Sora còn gây ấn tượng nhờ khả năng tùy biến cực mạnh. Công cụ này cho phép người dùng có thể thực hiện các điều chỉnh sâu rộng về hình ảnh, từ việc thay đổi bối cảnh đến biến đổi hoàn toàn nhân vật và môi trường xung quanh, mang tới sức mạnh sáng tạo ấn tượng.

Một ví dụ điển hình về sức mạnh tùy biến của Sora AI được minh họa qua loạt video được đăng tải trên mạng xã hội Twitter (hay X) bởi Min Choi - một chuyên gia về AI, vố có cơ hội trải nghiệm sớm công cụ của OpenAI, Choi đã chia sẻ cách Sora AI không chỉ tạo ra video từ các mô tả văn bản mà còn có khả năng biến đổi toàn bộ phong cách và môi trường của video.

Chẳng hạn, đoạn video gốc ban đầu được tạo ra bởi Sora quay cảnh một chiếc siêu xe màu đỏ đang lướt lướt băng băng trên đường, với hàng dài cây cối phủ bóng ở hai bên đường. Tuy nhiên, ở một video sau đó, môi trường xung quanh đã có sự biến đổi.

Video gốc quay cảnh một chiếc xe đang đi trên một con đường xuyên rừng. Nguồn: Choi Min/Twitter

Trong một video, chiếc xe tưởng như đang lướt ở khung cảnh dưới nước, trong khi ở video khác, nó biến thành một chiếc xe cổ tích hợp vào khung cảnh của năm 1920, chỉ dựa vào câu lệnh có nội dung "Thay đổi bối cảnh về những năm 1920 với một chiếc ô tô cũ và đảm bảo nó vẫn có màu đỏ". Thậm chí, trong một sự tùy chỉnh khác, chiếc siêu xe được thay thế bằng một chiếc xe ngựa kéo, đặt trong một môi trường thời trung cổ, tạo ra một bối cảnh và cảm giác hoàn toàn mới.

Chỉ bằng một câu lệnh, đoạn video trên đã có thể biến đổi thành một video hoàn toàn khác, khi chiếc xe thời hiện đại đã biến thành một chiếc xe cổ, với khung cảnh xung quanh là thành phố vào năm 1920. Nguồn: Choi Min/Twitter

Khi tiếp tục thay đổi câu lệnh, bối cảnh và vật thể chính trong đoạn video gốc đã thay đổi thành cảnh một chiếc xe ngựa kéo ở thời kỳ trung cổ. Nguồn: Choi Min/Twitter

Hiện tại, chỉ một nhóm nhỏ chuyên gia được OpenAI cho phép truy cập công cụ này để đánh giá và kiểm tra khả năng sáng tạo cũng như nhận diện các rủi ro tiềm ẩn. Các demo video được chia sẻ bởi nhóm này thậm chí còn cho thấy chất lượng cao hơn cả những gì được trình bày trong thông báo ra mắt của OpenAI, từ video quay cảnh một chú khỉ đánh cờ với độ chi tiết ấn tượng tới từng sợi lông, đến cảnh vận động viên xe đạp đổ đèo, và thậm chí là cảnh hai giọt nước nhảy múa với nhau.

Nhìn chung, những ví dụ được đăng tải ở trên không chỉ cho thấy khả năng sản sinh video của Sora mà còn mở ra câu hỏi về tương lai của sự phân biệt giữa thực tế và nội dung do AI tạo ra. Câu hỏi đặt ra là liệu chúng ta có đến một ngày không thể phân biệt được đâu là hình ảnh thực tế và đâu là sản phẩm của AI, dẫn đến một thế giới giống như trong phim Ma Trận, nơi người dùng không còn nhận biết được thực tại.

Tổng hợp