Tại một ngôi làng nhỏ cách Bangalore 3 giờ về phía Tây Nam, Preethi P. ngả nhẹ người trên chiếc ghế đẩu. Thông thường, cô sẽ dành hàng giờ khâu vá quần áo ở đây; trung bình kiếm được chưa đến 1 USD/ngày cho công việc của mình. Hôm nay, thay vì loay hoay với đống vải vóc, Preethi P. cầm trên tay chiếc điện thoại, đọc to từng câu thoại bằng tiếng mẹ đẻ và thu chúng vào ứng dụng trên smartphone.
Cô gái trẻ nằm trong số 70 người bản địa được startup Karya thuê để thu thập dữ liệu văn bản, giọng nói và hình ảnh. Điều đặc biệt, Preethi được trả lương rất cao, ít nhất là theo tiêu chuẩn địa phương.
Sau 3 ngày làm việc với Karya, Preethi kiếm được 4.500 rupee (54 USD), gấp hơn 4 lần số tiền mà một sinh viên tốt nghiệp trung học 22 tuổi có thể kiếm từ công việc may vá. Chia sẻ với Bloomberg, cô cho biết số tiền này vừa đủ để thanh toán khoản trả góp hàng tháng của gia đình.
“Tất cả những gì tôi cần là một chiếc điện thoại và internet”, Preethi nói.
Karya được thành lập vào năm 2021, sau sự nổi lên điên cuồng của AI tổng quát. Theo cơ quan thương mại ngành công nghệ Nasscom, Ấn Độ dự kiến sẽ có gần 1 triệu nhân lực làm công việc giống như Preethi vào năm 2030. Karya được cho là có thể tạo ra sự khác biệt bởi công ty sẵn sàng chi trả mức thù lao vô cùng hậu hĩnh cho những người phụ nữ nông thôn nghèo. Startup cũng cam kết tạo ra một kho dữ liệu tiếng Ấn Độ với chất lượng tốt hơn, đa dạng hơn, từ đó khuyến khích thêm nhiều công ty công nghệ xuống tiền.
“Hàng năm, các công ty công nghệ lớn chi hàng tỷ USD thu thập dữ liệu đào tạo cho các mô hình học máy và AI. Trả lương thấp cho một công việc như vậy là thất bại của ngành”, Manu Chopra, kỹ sư máy tính 27 tuổi tốt nghiệp đại học Stanford nói với Bloomberg. Đây cũng chính là chàng trai đứng sau sự thành công của Karya.
Giờ đây, một số tên tuổi nổi bật nhất nhì Thung lũng Silicon đang tiếp cận Karya để giải quyết một trong những thách thức lớn nhất đối với các sản phẩm AI: tìm kiếm dữ liệu chất lượng cao để xây dựng các công cụ giúp phục vụ tốt hơn hàng tỷ người dùng tiềm năng không nói tiếng Anh. Điều này cho thấy sự thay đổi mạnh mẽ của ngành dữ liệu cũng như mối quan hệ của Thung lũng Silicon với các nhà cung cấp data.
Đặc biệt, Tập đoàn Microsoft cũng hợp tác với Karya để mua dữ liệu giọng nói địa phương cho các sản phẩm AI, trong khi Quỹ Bill & Melinda Gates bắt tay với Karya để giảm thiểu sự mất cân bằng giới tính trong dữ liệu cung cấp cho mô hình ngôn ngữ lớn. Google cũng đang dựa vào Karya và các đối tác địa phương để thu thập dữ liệu giọng nói tại 85 quận Ấn Độ.
“Ấn Độ là quốc gia châu Á đầu tiên chúng tôi thực hiện điều này và Google đang thử nghiệm Bard bằng 9 ngôn ngữ Ấn Độ. Rất nhiều ngôn ngữ hiện vẫn chưa có trong kho kỹ thuật số. Vấn đề quá nghiêm trọng”, Manish Gupta, người đứng đầu Google Research ở Ấn Độ, cho biết.
Theo các chuyên gia, khi được sử dụng cho ngôn ngữ Nam Á, một số mô hình gặp khó khăn với ngữ pháp cơ bản. Cũng có những lo ngại rằng các dịch vụ AI này có thể phản ánh cái nhìn sai lệch về các nền văn hóa. Đáp lại, Mehran Sahami, giáo sư khoa khoa học máy tính tại Đại học Stanford, cho biết điều quan trọng là phải đa dạng hóa dữ liệu đào tạo, bao gồm cả dữ liệu không phải tiếng Anh, để hệ thống AI “không duy trì những định kiến có hại, căm thù”.
Karya mở rộng nhóm ngôn ngữ bằng cách nhắm mục tiêu cụ thể đến tầng lớp người lao động nông thôn. Hơn 32.000 công nhân đã đăng nhập vào ứng dụng, hoàn thành 40 triệu tác vụ kỹ thuật số phải trả phí như nhận dạng hình ảnh, căn chỉnh đường viền, chú thích video hay giọng nói. Đối với Manu Chopra, mục tiêu không chỉ đơn thuần là cải thiện kho dữ liệu mà còn giúp xóa bỏ đói nghèo.
Founder Manu Chopra lớn lên tại một vùng quê nghèo khó có tên Shakur Basti, nhờ nỗ lực mà được đặt chân tới đại học Stanford. Sau khi tốt nghiệp, anh chàng bắt đầu hiện thực hóa đam mê: sử dụng công nghệ để giải quyết tình trạng quê hương nghèo đói.
“Chỉ cần tiết kiệm 1.500 USD, một người Ấn Độ đã có đủ điều kiện gia nhập tầng lớp trung lưu. Tuy nhiên, người nghèo có thể phải mất tới 200 năm mới đạt được mức tiết kiệm đó”, Manu Chopra nói.
Chia sẻ với Bloomberg, Chopra cho biết Microsoft đã phải trả ra một số tiền khổng lồ để thu thập dữ liệu giọng nói phục vụ hệ thống nghiên cứu AI. Tuy nhiên, chất lượng rất thấp.
Karya có thể giải quyết bài toán này. Công ty khởi nghiệp mà Chopra thành lập đã tập hợp 10.000 giờ dữ liệu giọng nói Marathi dành riêng cho các dịch vụ AI của Microsoft. Chúng cũng được đọc bởi cả giọng nam và nữ, từ 5 khu vực khác nhau.
Saikat Guha, một nhà nghiên cứu tại Microsoft Research Ấn Độ, cho biết ông đã sử dụng nội dung của Karya để thực hiện dự án hỗ trợ người khiếm thị tìm việc làm. “Chất lượng dữ liệu tốt hơn nhiều so với bất kỳ nguồn nào khác. Nếu bạn trả lương công bằng cho người lao động, họ sẽ đầu tư nhiều hơn, bỏ công nhiều hơn và cuối cùng dữ liệu sẽ chất lượng hơn”, Saikat Guha nói.
Tham vọng của Karya không dừng lại ở Ấn Độ. Công ty cho biết đang đàm phán bán nền tảng dưới dạng dịch vụ cho các tổ chức ở châu Phi và Nam Mỹ.
Hiện tại, phụ nữ ở Yelandur, một ngôi làng khác phía tây nam Bangalore, đang háo hức chờ đợi dự án tiếp theo của Karya. Shambhavi S., 25 tuổi, cũng nằm trong số đó. Cô gái trẻ đã kiếm được vài nghìn rupee từ công việc tương tự chị Preethi P.
“Tôi không biết trí tuệ nhân tạo là gì, tôi chưa từng nghe nói đến nó. Tôi chỉ muốn kiếm tiền và dạy dỗ con cái mình đàng hoàng”, Shambhavi S tâm sự.
Theo: Bloomberg