11/03/2023 16:00

Không cần giỏi ngoại ngữ, người dùng giờ có thể nhờ AI của Microsoft 'nói hộ' ở đủ thứ tiếng, giọng nói cũng y hệt 'chính chủ'

Với những tiến bộ gần đây trong về mặt công nghệ, các nhà nghiên cứu chắc chắn đã đưa AI đi xa hơn cho phép người dùng giao tiếp bằng tiếng nước ngoài bằng giọng nói của chính họ, ngay cả khi họ không nói được ngôn ngữ đó.

Đầu năm nay, tỷ phú Bill Gates đã khẳng định AI sẽ là tâm điểm lớn nhất của ngành công nghệ, và sẽ mang lại những thay đổi lớn nhất trong những năm tới.

Trên thực tế, ngay khi Microsoft đang 'thắng lớn' nhờ phi vụ đầu tư vào OpenAI – cha đẻ của ChatGPT, các nhà nghiên cứu của tập đoàn công nghệ này vẫn không ngủ quên trên chiến thắng. Thay vào đó, Microsoft tiếp tục đầu tư mạnh vào các dự án AI trong các lĩnh vực khác.

Vào tháng 1 năm nay, Microsoft đã tiết lộ những tiến bộ đã đạt được trên dự án AI có khả năng chuyển văn bản thành giọng nói, Vall-E. Mặc dù đã tồn tại nhiều công cụ AI khác ở cùng một lĩnh vực, công nghệ AI sắp ra mắt của gã khổng lồ công nghệ có trụ sở tại Redmond sẽ cho phép người dùng nói tiếng nước ngoài bằng chính giọng nói của họ.

Microsoft gọi VALL-E là "mô hình ngôn ngữ codec thần kinh" và nó được xây dựng dựa trên công nghệ có tên EnCodec mà Meta đã công bố vào tháng 10 năm 2022.

VALL-E cũng đã được đào tạo trên bộ dữ liệu LibriLight, được tạo bởi Meta. Nó chứa 60.000 giờ bài phát biểu bằng tiếng Anh từ hơn 7.000 người nói, hầu hết được lấy từ sách nói thuộc phạm vi công cộng của LibriVox. Để VALL-E tạo ra kết quả tốt, giọng nói trong mẫu ba giây phải khớp chặt chẽ với giọng nói trong dữ liệu huấn luyện.

Không giống như các phương thức chuyển văn bản thành giọng nói khác, vốn thường tổng hợp giọng nói bằng cách điều khiển dạng sóng điều khiển waveforms (Tạm dịch: Dạng sóng - hình ảnh đại diện cho tín hiệu âm thanh hoặc bản ghi âm) để tạo giọng nói, các nhà nghiên cứu của Microsoft đã cho AI khả năng tạo codec âm thanh riêng biệt từ lời nhắc bằng văn bản và âm thanh.

Nói cách khác, nó phân tích cách một người phát âm, chia thông tin đó thành các thành phần riêng biệt (được gọi là "token") nhờ EnCodec và sử dụng dữ liệu đào tạo để khớp với những gì nó "biết" về âm thanh của giọng nói đó.

Nhóm cũng có thể giảm thời lượng lời nhắc âm thanh xuống chỉ còn ba giây mà vẫn có được giọng nói chính xác và phù hợp với giọng nói gốc của người dùng.

Với những tiến bộ gần đây trong về mặt công nghệ, các nhà nghiên cứu chắc chắn đã đưa AI đi xa hơn cho phép người dùng giao tiếp bằng tiếng nước ngoài bằng giọng nói của chính họ, ngay cả khi họ không nói được ngôn ngữ đó. Điều này có thể giúp ích rất nhiều trong việc giúp mọi người giao tiếp xuyên biên giới hiệu quả hơn, giảm bớt các rào cản trong giao tiếp. Như đã thấy trong đoạn clip trên, AI cũng có khả năng mô tả chính xác nhiều cảm xúc trong giọng nói, khiến nó trở nên chân thực hơn, mang tới cảm giác 'người' hơn là 'máy'.

Mặc dù vậy, độ chân thật của AI trong việc 'giả giọng' cũng chính là con dao hai lưỡi. Trong bối cảnh ngày càng nhiều đối tượng xấu sử dụng các công cụ tạo giọng nói bằng AI để mạo danh và lừa đảo, điều này đặt ra nhiều câu hỏi về việc liệu VALL-E có bị sử dụng sai mục đích hay không, và làm thế nào để có chế tài quản lý hiệu quả.

Bản thân Microsoft cũng nhận thức rõ về những nhược điểm và khả năng đối tượng xấu lạm dụng công nghệ này. Đây có thể là lý do vì sao công cụ này chưa được phát hành rộng rãi tới công chúng.

Không chỉ Microsoft, nhiều công ty khác cũng đang rất hứng thú trong lĩnh vực tạo giọng nói bằng AI. Gần đây nhất, Google được cho là cũng đang phát triển một dự án AI đầy tham vọng của mình có thể giúp người dùng dịch hơn 1.000 ngôn ngữ được sử dụng trên toàn cầu.

Tham khảo InterestingEngineering

Link nội dung: https://doanhnhandautu.net/khong-can-gioi-ngoai-ngu-nguoi-dung-gio-co-the-nho-ai-cua-microsoft-noi-ho-o-du-thu-tieng-giong-noi-cung-y-het-chinh-chu-a8098.html