Tiến sĩ Bùi Hải Hưng - CEO của VinAI cùng những chia sẻ “đắt giá” tại buổi hội thảo trực tuyến InnovaTalk #2 do Quỹ VinFuture tổ chức

Ngày 15/5/2023, tại buổi hội thảo trực tuyến InnovaTalk lần thứ hai với chủ đề “ChatGPT and Beyond” được tổ chức bởi Quỹ VinFuture, Tiến sĩ Bùi Hải Hưng – Giám đốc điều hành của VinAI đã có những chia sẻ về thách thức phải đối mặt khi phát triển các mô hình ngôn ngữ lớn (LLMs) cho những “ngôn ngữ có ít tài nguyên” (low-resource languages) trước đông đảo 230 người tham dự, bao gồm các học giả và chuyên gia trong và ngoài nước.

Sự xuất hiện của VinAI tại InnovaTalk #2

Trí tuệ nhân tạo (AI) đã thay đổi hoàn toàn cách chúng ta sống, làm việc cũng như giao tiếp. Hiện tượng nổi bật gần đây trong giới công nghệ – ChatGPT – sản phẩm của OpenAI đã thành công thu hút 100 triệu người dùng chỉ sau hai tháng hoạt động Mặc dù được đánh giá là có khả năng đem lại câu trả lời chất lượng cho các vấn đề phức tạp, song công nghệ này cũng đặt ra lo ngại về việc cung cấp thông tin ảo và tạo ra sự kiện không có thật. Những quan ngại và giải pháp cho vấn đề này đã được thảo luận tại buổi hội thảo InnovaTalk.

Góp mặt cùng ba chuyên gia AI danh tiếng, Tiến sĩ Bùi Hải Hưng đã mang đến những chia sẻ sâu sắc về ChatGPT, khả năng và hạn chế của các mô hình ngôn ngữ lớn (LLMs) cũng như tầm quan trọng của việc kiểm soát công nghệ AI trong tương lai.

Với hơn 230 người tham dự, bao gồm các học giả và chuyên gia trong và ngoài nước, Giám đốc điều hành của VinAI, nổi tiếng với chuyên môn tại Google DeepMind, Adobe Research, Natural Language Comprehension Laboratory Nuance Nature và Trung tâm AI tại SRI International, đã đại diện cho cộng đồng Khoa học và Công nghệ Việt Nam, cung cấp những lời giải đáp và cái nhìn sâu sắc về cơ hội và thách thức trong việc phát triển các mô hình ngôn ngữ lớn (LLMs) cho các “ngôn ngữ có ít tài nguyên”.

Một nửa dân số thế giới chưa sẵn sàng cho ChatGPT

Theo chia sẻ từ tiến sĩ Bùi Hải Hưng, việc ChatGPT được áp dụng nhanh chóng đã thể hiện sự hạn chế trong việc phục vụ hơn nửa dân số toàn cầu, những người không dùng tiếng Anh như ngôn ngữ mẹ đẻ. Với tư cách người sáng lập và Giám đốc điều hành của VinAI, ông lấy trọng tâm là phát triển các “ngôn ngữ có ít tài nguyên”, bao gồm những ngôn ngữ ít phổ biến với ít sự chú ý về thương mại, chuyên môn, thời gian và đầu tư.

Phân tích của Tiến sĩ Bùi Hải Hưng đã chỉ ra rằng ít nhất 22 quốc gia có tối thiểu 50 triệu người nói tiếng bản địa thuộc danh mục “ngôn ngữ có ít tài nguyên” chiếm ít nhất 40% tổng dân số thế giới thế giới. “Chúng ta đang đối mặt với thực tế rằng công nghệ như ChatGPT vẫn chưa đủ sẵn sàng cho họ,” Tiến sĩ Bùi Hải Hưng nhấn mạnh.

Một vấn đề đáng chú ý là việc thiếu sự phát triển các mô hình ngôn ngữ lớn chất lượng cao và tài nguyên tính toán khổng lồ, công khai cho các “ngôn ngữ có ít tài nguyên”. Tình trạng tài nguyên hạn chế và kiến thức không đủ đã gia tăng nguy cơ sai lệch, gây ra thông tin không chính xác và văn bản kém tự nhiên.

Người đứng đầu VinAI đã sử dụng Tiếng Việt làm ví dụ để để minh họa khả năng xử lý hạn chế và không hiệu quả của ChatGPT đối với “ngôn ngữ có ít tài nguyên”. Ông chỉ ra hai trường hợp mà ChatGPT không thể cung cấp câu trả lời chính xác cho các câu hỏi về tác phẩm phổ biến “Tắt Đèn” của nhà văn Ngô Tất Tố và bài hát nổi tiếng “Cây đàn sinh viên” của ca sĩ Mỹ Tâm. Những sự kiện này rất quen thuộc với nhiều người Việt Nam, nhưng ChatGPT lại đưa ra những câu trả lời hoàn toàn sai lầm, cho rằng nhạc sĩ Trịnh Công Sơn đã viết bài hát “Cây đàn sinh viên” vào năm 1958 – trong khi thực tế bài hát này được sáng tác bởi nhạc sĩ Quốc An vào năm 2001.

Cơ hội và thách thức với các mô hình ngôn ngữ lớn (LLM) dành cho “ngôn ngữ có ít tài nguyên”

Nhằm giải quyết vấn đề nêu trên, đội ngũ của Tiến sĩ Bùi Hải Hưng tại VinAI đã phát triển các mô hình ngôn ngữ lớn (LLM) dành riêng cho tiếng Việt. Mặc dù đòi hỏi quá trình đào tạo và tinh chỉnh đáng kể, thử nghiệm đã chứng minh tiềm năng giải quyết một trong những thách thức chính của các mô hình LLM cho các “ngôn ngữ có ít tài nguyên”, với lý do cơ bản có thể kể đến là việc thiếu dữ liệu đào tạo cụ thể về văn hóa và ngữ cảnh địa phương.

Theo Tiến sĩ Bùi, LLM hạn chế về tài nguyên phải có khả năng học trong ngữ cảnh, theo dõi hướng dẫn và tư duy theo từng bước trong khi vẫn duy trì hiệu suất tính toán. Điều này sẽ tạo điều kiện cho các thị trường mới và việc ứng dụng trong các khu vực địa phương cũng như nâng cao trách nhiệm và đáng tin cậy của LLM đối với người dùng.

“LLM hạn chế về tài nguyên là một trong những chìa khóa cần mở để phổ biến công nghệ LLM đến thế giới, và Tiếng Việt là một dẫn chứng tuyệt vời,” Tiến sĩ Bùi nói. Ông hy vọng các công ty công nghệ lớn sẽ chú ý hơn đến những ngôn ngữ ít phổ biến và cùng hướng tới việc mang đến lợi ích và khả năng tiếp cận của công nghệ AI cho mọi người, bất kể vị trí địa lý của họ.

Tận dụng Trí tuệ nhân tạo để nâng cấp cuộc sống của con người

Trong buổi thảo luận về những rủi ro liên quan đến “người chatbot” trong các lĩnh vực đòi hỏi cao về độ chính xác và an toàn như chăm sóc sức khỏe (chẩn đoán y khoa,…) và tài chính (giao dịch tài chính,..), Tiến sĩ Bùi Hải Hưng nhấn mạnh rằng việc nói ‘Tôi không biết’ nên được xem như biện pháp cuối cùng thay vì đào tạo các mô hình LLM tạo ra câu trả lời sai có thể dẫn đến những hậu quả nghiêm trọng.

Khi trả lời câu hỏi của một sinh viên về khả năng rút ngắn quá trình đào tạo cho các mô hình LLM bằng cách sửa lỗi cho ChatGPT trong thời gian thực, Tiến sĩ Hưng chia sẻ rằng việc này có thể thực hiện được thông qua việc điều chỉnh mô hình, tuy nhiên, đòi hỏi nỗ lực kỹ thuật đáng kể. Nhiệm vụ quan trọng nhất không phải là thêm vào nhiều dữ liệu mà là cải thiện hiệu suất tính toán của công nghệ hiện tại với tài nguyên sẵn có.

Là một trong những đơn vị tiên phong trong nghiên cứu, phát triển và ứng dụng Trí tuệ Nhân tạo tại Việt Nam, VinAI liên tục tìm kiếm và cung cấp các giải pháp tốt nhất, áp dụng trí tuệ nhân tạo với độ chính xác cao để mang lại trải nghiệm an toàn, tiện lợi và tiết kiệm hơn cho cá nhân và tổ chức. Tìm hiểu thêm về các sản phẩm của VinAI tại đây.

Back to News

28/11/2023 / Achievement

VinAI Shines at ICCV 2023: A Journey into Cutting-Edge AI Research

28/11/2023 / News

AI Day 2023 Returns: Tickets Now Available!

16/10/2023 / Achievement

VinAI Celebrates Achievement at EMNLP 2023

12/10/2023 / Achievement

Celebrating VinAI’s Remarkable Success at NeurIPS 2023

12/10/2023 / Achievement

VinAI Demonstrates Excellence with ISO 9001:2015 Quality Management Certification

On May 15, 2023, Dr. Bui Hai Hung, CEO of VinAI, spoke at the second InnovaTalk webinar by VinFuture Foundation titled “ChatGPT and Beyond.” In front of an audience of over 230 members, including domestic and foreign scholars and experts, VinAI’s CEO represented the Vietnamese Science and Technology community, sharing insights about the challenges for the development of Large Language Models (LLMs) for low-resource languages.

VinAI features in InnovaTalk #2

Artificial intelligence (AI) has revolutionized the way we live, work, and communicate. The latest phenomenon, ChatGPT, developed by OpenAI, has rapidly gained popularity with 100 million users in just two months of operation. While ChatGPT impresses with its ability to provide high-quality answers to complex topics, it has also raised concerns regarding hallucination and the generation of made-up facts in a professional manner. The InnovaTalk webinar discussed both the vulnerabilities and solutions to this issue.

Joining three world-renowned AI experts, Dr. Bui Hai Hung delivered insights about ChatGPT, the capabilities and limitations of Large Language Models (LLMs), and the implications for the development of AI-driven technology control in the future.

With over 230 attendees, including domestic and foreign scholars and experts, VinAI’s CEO, well-known for his expertise at Google DeepMind, Adobe Research, Natural Language Comprehension Laboratory Nuance Nature, and the AI Center at SRI International, represented the Vietnamese Science and Technology community, providing clarifications and insights into opportunities and challenges for the development of Large Language Models (LLMs) for low-resource languages.

ChatGPT is not ready for half of the world’s population

From Dr. Bui Hai Hung’s perspective, the rapid adoption of ChatGPT highlights its lack of readiness to serve more than half of the global population who do not use English as their first language. As the founder and CEO of VinAI, he places great importance on low-resource languages, referring to non-mainstream languages with limited commercial relevance, expertise, time, and investment.

Dr. Bui’s analysis revealed at least 22 countries with a minimum of 50 million native speakers that fall into the low-resource language category. In terms of GDP, these populations make up at least 40% of the world’s total. “We are faced with the reality that technologies like ChatGPT are not yet prepared for them,” stated Dr. Bui.

The lack of high-quality pre-trained LLMs and publicly available large-scale, high-quality corpora for low-resource languages is a significant issue. Insufficient resources and limited knowledge exacerbate the problem of hallucination, leading to the generation of made-up facts and unnatural texts.

Dr. Bui proceeded to use Vietnamese as an example to illustrate the relatively lower and less efficient performance of ChatGPT in low-resource languages. He presented two instances where ChatGPT failed to provide accurate answers to questions about a popular novel “Tắt Đèn” by Ngô Tất Tố writer and a popular song “Cây đàn sinh viên” presented by Mỹ Tâm singer in Vietnam. These are facts that many Vietnamese individuals would be familiar with, but ChatGPT, in its attempt to respond, provided completely incorrect answers, claiming that Trịnh Công Sơn wrote the song “Cây đàn sinh viên” in 1958 – this song was composed by musician Quoc An in 2001.

Opportunities and challenges with the Large Language Models (LLM) for low-resource languages

Dr. Bui’s team at VinAI has developed Vietnamese-specific LLMs to address this problem. Although significant training and fine-tuning are required, this experiment has demonstrated the potential to tackle one of the critical challenges in LLM models for low-resource languages. The underlying reason may simply be a lack of locally specific and culturally specific training data.

According to Dr. Bui, low-resource LLMs must possess emerging capabilities in in-context learning, instruction following, and step-by-step reasoning while maintaining computational efficiency. This will enable new markets and use cases in local regions and enhance the responsibility and trustworthiness of LLMs for users.

“Low-resource LLMs are one of the keys to democratizing LLM technology to the world, and Vietnamese is a great test,” said Dr. Bui. He hopes that major tech companies will pay greater attention to non-mainstream languages and join the path to bring the benefits and accessibility of AI technology to people regardless of their geographical location.

Utilizing AI to better humanity

During the panel discussion on the risks associated with human-like chatbots in accuracy- and safety-critical areas such as healthcare (e.g., medical diagnoses) and finance (e.g., financial transactions), Dr. Bui emphasized that saying ‘I don’t know’ should be considered a last resort rather than training LLMs to fabricate answers that could have consequences.

When answering a student’s question about the possibility of shortening the training process for LLMs by correcting ChatGPT in real time, Dr. Hung shared that such a process might be achievable through fine-tuning the model. However, it would require significant engineering efforts. The most important task is not about adding more data but rather improving the computational efficiency of the current technology with the available resources.

As one of the pioneers in AI research, development, and application in Vietnam, VinAI is constantly searching for and producing the best solutions, applying artificial intelligence with high accuracy to bring a safer, more convenient, and economical experience for individuals and organizations. Find out more about VinAI’s products here.

Back to News

28/11/2023 / Achievement

Tiến sĩ Bùi Hải Hưng – CEO của VinAI cùng những chia sẻ “đắt giá” tại buổi hội thảo trực tuyến InnovaTalk #2 do Quỹ VinFuture tổ chức

Sự xuất hiện của VinAI tại InnovaTalk #2

Một nửa dân số thế giới chưa sẵn sàng cho ChatGPT

Cơ hội và thách thức với các mô hình ngôn ngữ lớn (LLM) dành cho “ngôn ngữ có ít tài nguyên”

Tận dụng Trí tuệ nhân tạo để nâng cấp cuộc sống của con người

What did VinAI bring to Industry 4.0 Summit 2023?

GenAI: Revolutionizing Artificial Intelligence with Sam Altman and VinAI

Celebrating VinAI’s Remarkable Success at NeurIPS 2023

VinAI Collaborates With Qualcomm To Launch High Performance, Low-Power AI Solution For Smart Cities

Related Post

VinAI Shines at ICCV 2023: A Journey into Cutting-Edge AI Research

AI Day 2023 Returns: Tickets Now Available!

VinAI Celebrates Achievement at EMNLP 2023

Celebrating VinAI’s Remarkable Success at NeurIPS 2023

VinAI Demonstrates Excellence with ISO 9001:2015 Quality Management Certification

Dr. Bui Hai Hung, CEO of VinAI, at 2023 InnovaTalk #2 by VinFuture Foundation

VinAI features in InnovaTalk #2

ChatGPT is not ready for half of the world’s population

Opportunities and challenges with the Large Language Models (LLM) for low-resource languages

Utilizing AI to better humanity

What did VinAI bring to Industry 4.0 Summit 2023?

GenAI: Revolutionizing Artificial Intelligence with Sam Altman and VinAI

Celebrating VinAI’s Remarkable Success at NeurIPS 2023

VinAI Collaborates With Qualcomm To Launch High Performance, Low-Power AI Solution For Smart Cities

Related Post

VinAI Shines at ICCV 2023: A Journey into Cutting-Edge AI Research

AI Day 2023 Returns: Tickets Now Available!

VinAI Celebrates Achievement at EMNLP 2023

Celebrating VinAI’s Remarkable Success at NeurIPS 2023

VinAI Demonstrates Excellence with ISO 9001:2015 Quality Management Certification