Ngày 15/5/2023, tại buổi hội thảo trực tuyến InnovaTalk lần thứ hai với chủ đề “ChatGPT and Beyond” được tổ chức bởi Quỹ VinFuture, Tiến sĩ Bùi Hải Hưng – Giám đốc điều hành của VinAI đã có những chia sẻ về thách thức phải đối mặt khi phát triển các mô hình ngôn ngữ lớn (LLMs) cho những “ngôn ngữ có ít tài nguyên” (low-resource languages) trước đông đảo 230 người tham dự, bao gồm các học giả và chuyên gia trong và ngoài nước.
Sự xuất hiện của VinAI tại InnovaTalk #2
Trí tuệ nhân tạo (AI) đã thay đổi hoàn toàn cách chúng ta sống, làm việc cũng như giao tiếp. Hiện tượng nổi bật gần đây trong giới công nghệ – ChatGPT – sản phẩm của OpenAI đã thành công thu hút 100 triệu người dùng chỉ sau hai tháng hoạt động Mặc dù được đánh giá là có khả năng đem lại câu trả lời chất lượng cho các vấn đề phức tạp, song công nghệ này cũng đặt ra lo ngại về việc cung cấp thông tin ảo và tạo ra sự kiện không có thật. Những quan ngại và giải pháp cho vấn đề này đã được thảo luận tại buổi hội thảo InnovaTalk.
Góp mặt cùng ba chuyên gia AI danh tiếng, Tiến sĩ Bùi Hải Hưng đã mang đến những chia sẻ sâu sắc về ChatGPT, khả năng và hạn chế của các mô hình ngôn ngữ lớn (LLMs) cũng như tầm quan trọng của việc kiểm soát công nghệ AI trong tương lai.
Với hơn 230 người tham dự, bao gồm các học giả và chuyên gia trong và ngoài nước, Giám đốc điều hành của VinAI, nổi tiếng với chuyên môn tại Google DeepMind, Adobe Research, Natural Language Comprehension Laboratory Nuance Nature và Trung tâm AI tại SRI International, đã đại diện cho cộng đồng Khoa học và Công nghệ Việt Nam, cung cấp những lời giải đáp và cái nhìn sâu sắc về cơ hội và thách thức trong việc phát triển các mô hình ngôn ngữ lớn (LLMs) cho các “ngôn ngữ có ít tài nguyên”.
Một nửa dân số thế giới chưa sẵn sàng cho ChatGPT
Theo chia sẻ từ tiến sĩ Bùi Hải Hưng, việc ChatGPT được áp dụng nhanh chóng đã thể hiện sự hạn chế trong việc phục vụ hơn nửa dân số toàn cầu, những người không dùng tiếng Anh như ngôn ngữ mẹ đẻ. Với tư cách người sáng lập và Giám đốc điều hành của VinAI, ông lấy trọng tâm là phát triển các “ngôn ngữ có ít tài nguyên”, bao gồm những ngôn ngữ ít phổ biến với ít sự chú ý về thương mại, chuyên môn, thời gian và đầu tư.
Phân tích của Tiến sĩ Bùi Hải Hưng đã chỉ ra rằng ít nhất 22 quốc gia có tối thiểu 50 triệu người nói tiếng bản địa thuộc danh mục “ngôn ngữ có ít tài nguyên” chiếm ít nhất 40% tổng dân số thế giới thế giới. “Chúng ta đang đối mặt với thực tế rằng công nghệ như ChatGPT vẫn chưa đủ sẵn sàng cho họ,” Tiến sĩ Bùi Hải Hưng nhấn mạnh.
Một vấn đề đáng chú ý là việc thiếu sự phát triển các mô hình ngôn ngữ lớn chất lượng cao và tài nguyên tính toán khổng lồ, công khai cho các “ngôn ngữ có ít tài nguyên”. Tình trạng tài nguyên hạn chế và kiến thức không đủ đã gia tăng nguy cơ sai lệch, gây ra thông tin không chính xác và văn bản kém tự nhiên.
Người đứng đầu VinAI đã sử dụng Tiếng Việt làm ví dụ để để minh họa khả năng xử lý hạn chế và không hiệu quả của ChatGPT đối với “ngôn ngữ có ít tài nguyên”. Ông chỉ ra hai trường hợp mà ChatGPT không thể cung cấp câu trả lời chính xác cho các câu hỏi về tác phẩm phổ biến “Tắt Đèn” của nhà văn Ngô Tất Tố và bài hát nổi tiếng “Cây đàn sinh viên” của ca sĩ Mỹ Tâm. Những sự kiện này rất quen thuộc với nhiều người Việt Nam, nhưng ChatGPT lại đưa ra những câu trả lời hoàn toàn sai lầm, cho rằng nhạc sĩ Trịnh Công Sơn đã viết bài hát “Cây đàn sinh viên” vào năm 1958 – trong khi thực tế bài hát này được sáng tác bởi nhạc sĩ Quốc An vào năm 2001.
Cơ hội và thách thức với các mô hình ngôn ngữ lớn (LLM) dành cho “ngôn ngữ có ít tài nguyên”
Nhằm giải quyết vấn đề nêu trên, đội ngũ của Tiến sĩ Bùi Hải Hưng tại VinAI đã phát triển các mô hình ngôn ngữ lớn (LLM) dành riêng cho tiếng Việt. Mặc dù đòi hỏi quá trình đào tạo và tinh chỉnh đáng kể, thử nghiệm đã chứng minh tiềm năng giải quyết một trong những thách thức chính của các mô hình LLM cho các “ngôn ngữ có ít tài nguyên”, với lý do cơ bản có thể kể đến là việc thiếu dữ liệu đào tạo cụ thể về văn hóa và ngữ cảnh địa phương.
Theo Tiến sĩ Bùi, LLM hạn chế về tài nguyên phải có khả năng học trong ngữ cảnh, theo dõi hướng dẫn và tư duy theo từng bước trong khi vẫn duy trì hiệu suất tính toán. Điều này sẽ tạo điều kiện cho các thị trường mới và việc ứng dụng trong các khu vực địa phương cũng như nâng cao trách nhiệm và đáng tin cậy của LLM đối với người dùng.
“LLM hạn chế về tài nguyên là một trong những chìa khóa cần mở để phổ biến công nghệ LLM đến thế giới, và Tiếng Việt là một dẫn chứng tuyệt vời,” Tiến sĩ Bùi nói. Ông hy vọng các công ty công nghệ lớn sẽ chú ý hơn đến những ngôn ngữ ít phổ biến và cùng hướng tới việc mang đến lợi ích và khả năng tiếp cận của công nghệ AI cho mọi người, bất kể vị trí địa lý của họ.
Tận dụng Trí tuệ nhân tạo để nâng cấp cuộc sống của con người
Trong buổi thảo luận về những rủi ro liên quan đến “người chatbot” trong các lĩnh vực đòi hỏi cao về độ chính xác và an toàn như chăm sóc sức khỏe (chẩn đoán y khoa,…) và tài chính (giao dịch tài chính,..), Tiến sĩ Bùi Hải Hưng nhấn mạnh rằng việc nói ‘Tôi không biết’ nên được xem như biện pháp cuối cùng thay vì đào tạo các mô hình LLM tạo ra câu trả lời sai có thể dẫn đến những hậu quả nghiêm trọng.
Khi trả lời câu hỏi của một sinh viên về khả năng rút ngắn quá trình đào tạo cho các mô hình LLM bằng cách sửa lỗi cho ChatGPT trong thời gian thực, Tiến sĩ Hưng chia sẻ rằng việc này có thể thực hiện được thông qua việc điều chỉnh mô hình, tuy nhiên, đòi hỏi nỗ lực kỹ thuật đáng kể. Nhiệm vụ quan trọng nhất không phải là thêm vào nhiều dữ liệu mà là cải thiện hiệu suất tính toán của công nghệ hiện tại với tài nguyên sẵn có.
Là một trong những đơn vị tiên phong trong nghiên cứu, phát triển và ứng dụng Trí tuệ Nhân tạo tại Việt Nam, VinAI liên tục tìm kiếm và cung cấp các giải pháp tốt nhất, áp dụng trí tuệ nhân tạo với độ chính xác cao để mang lại trải nghiệm an toàn, tiện lợi và tiết kiệm hơn cho cá nhân và tổ chức. Tìm hiểu thêm về các sản phẩm của VinAI tại đây.