Con người luôn mắc lỗi. Tất cả chúng ta đều mắc lỗi mỗi ngày khi thực hiện nhiệm vụ mới và công việc hằng ngày. Một số lỗi chỉ là nhỏ, trong khi một số khác lại rất nghiêm trọng. Sai lầm có thể phá hủy lòng tin với bạn bè, đánh mất sự tin tưởng của sếp và đôi khi thậm chí là sự khác biệt giữa sự sống và cái chết.
Trong hàng ngàn năm, chúng ta đã tạo ra các hệ thống an toàn để giải quyết những sai lầm mà con người mắc phải. Ngày nay, các sòng bạc thường xuyên thay đổi người chia bài vì họ dễ mắc lỗi hơn nếu làm cùng một nhiệm vụ trong thời gian dài. Nhân viên bệnh viện đánh dấu các chi trước khi phẫu thuật để đảm bảo bác sĩ đang phẫu thuật đúng vị trí và đếm dụng cụ phẫu thuật để đảm bảo không còn dụng cụ nào sót lại trong cơ thể. Từ việc đọc kiểm tra đến ghi sổ kế toán kép cho đến tòa phúc thẩm, con người chúng ta đã trở nên cực kỳ thành thạo trong việc sửa lỗi.

Robot nhầm bánh rán với phao cứu sinh
Ngày nay, con người đang nhanh chóng đưa một loại “kẻ gây lỗi” hoàn toàn khác vào xã hội: trí tuệ nhân tạo. Các kỹ thuật như Mô hình ngôn ngữ lớn (LLM) có thể thực hiện nhiều nhiệm vụ nhận thức thường do con người đảm nhiệm, nhưng chúng cũng mắc nhiều lỗi. Khi một chatbot bảo bạn “ăn đá khi đói” hoặc “bôi keo lên pizza”, điều đó có vẻ nực cười. Nhưng không phải tần suất hoặc mức độ nghiêm trọng của lỗi trong hệ thống AI là yếu tố phân biệt chúng với lỗi của con người, mà là tính đặc thù của chúng. Hệ thống AI không mắc lỗi như con người và đó là một sự khác biệt lớn.
Phần lớn sự bất tiện và rủi ro khi sử dụng AI đều bắt nguồn từ sự khác biệt này. Chúng ta cần phát minh ra các hệ thống an toàn mới để giải quyết những khác biệt này và ngăn chặn lỗi AI gây hại cho con người.
1. Lỗi của con người so với lỗi của AI
Kinh nghiệm sống giúp mỗi người chúng ta dễ dàng đoán được khi nào và ở đâu con người mắc lỗi. Sai sót của con người thường xảy ra ở ranh giới kiến thức, chẳng hạn như những sai lầm mà hầu hết chúng ta mắc phải khi giải các bài toán vi phân. Lỗi của con người có xu hướng xảy ra theo nhóm; ví dụ, lỗi tính toán có thể đi kèm với các lỗi khác. Lỗi thay đổi tùy theo các yếu tố như mệt mỏi và mất tập trung. Hơn nữa, lỗi thường đi kèm với sự thiếu hiểu biết: một người mắc lỗi về phép tính cũng có thể trả lời “Tôi không biết” cho những câu hỏi liên quan đến phép tính.
Trong trường hợp hệ thống AI mắc lỗi giống con người, chúng ta có thể áp dụng tất cả các hệ thống sửa lỗi vào đầu ra của chúng. Nhưng các mô hình AI hiện tại, đặc biệt là các mô hình ngôn ngữ lớn, lại mắc lỗi theo cách khác.
Lỗi của AI dường như xảy ra ngẫu nhiên, không tập trung vào bất kỳ chủ đề cụ thể nào. Các lỗi do mô hình ngôn ngữ lớn gây ra có xu hướng phân bố đều hơn trên toàn bộ không gian kiến thức; một mô hình có khả năng sai trong một bài toán vi phân cũng giống như khi nói “bắp cải ăn dê”.
Hơn nữa, sai lầm của AI không phải do sự thiếu hiểu biết. Các mô hình ngôn ngữ lớn có thể tự tin khi chúng nói điều gì đó hoàn toàn sai cũng như khi chúng nói điều gì đó đúng. Con người không làm như vậy. Sự không nhất quán có vẻ ngẫu nhiên trong các mô hình ngôn ngữ lớn khiến việc tin tưởng vào lý luận của chúng đối với các vấn đề phức tạp, nhiều bước trở nên khó khăn. Nếu bạn muốn tận dụng mô hình AI để giải quyết các vấn đề kinh doanh, thì việc đảm bảo rằng mô hình AI hiểu được điều gì làm cho sản phẩm có lợi nhuận là chưa đủ, bạn cũng cần phải đảm bảo rằng mô hình này hiểu tiền là gì.
2. Cách xử lý lỗi AI
Có hai lĩnh vực nghiên cứu có thể thực hiện. Đầu tiên là làm cho các loại lỗi do mô hình ngôn ngữ lớn gây ra giống với lỗi của con người hơn. Thứ hai là xây dựng các hệ thống sửa lỗi mới để xử lý các loại lỗi cụ thể mà các mô hình ngôn ngữ lớn dễ mắc phải.
Chúng ta đã có những công cụ có thể được sử dụng để dạy các mô hình ngôn ngữ lớn hoạt động theo cách giống con người hơn. Nhiều công cụ bắt nguồn từ lĩnh vực nghiên cứu “căn chỉnh”, nhằm mục đích khiến các mô hình hoạt động theo đúng mục tiêu và động cơ của những người phát triển chúng. Một ví dụ là công nghệ đã giúp ChatGPT thành công đột phá: học tăng cường dựa trên phản hồi của con người. Theo cách tiếp cận này, các mô hình AI sẽ được thưởng khi tạo ra nội dung được con người chấp thuận. Có thể sử dụng những cách tiếp cận tương tự để thúc đẩy các hệ thống AI mắc nhiều lỗi giống con người hơn, đặc biệt là bằng cách phạt nhiều hơn đối với những lỗi khó hiểu hơn.
Về việc phát hiện lỗi của AI, một số hệ thống mà chúng ta sử dụng để ngăn ngừa lỗi của con người cũng sẽ hữu ích. Ở một mức độ nào đó, việc buộc các mô hình ngôn ngữ lớn kiểm tra lại công việc của chúng có thể giúp ngăn ngừa sai sót. Nhưng các mô hình ngôn ngữ lớn cũng có thể đưa ra những lời giải thích hợp lý nhưng thực tế lại vô lý để biện minh cho lập luận phi logic của chúng.
Các hệ thống khác để xử lý lỗi của AI rất khác so với hệ thống chúng ta sử dụng cho con người. Vì máy móc không biết mệt mỏi hay bực bội như con người nên việc liên tục hỏi một mô hình ngôn ngữ lớn cùng một câu hỏi theo nhiều cách khác nhau rồi kết hợp nhiều câu trả lời của nó có thể rất hữu ích. Con người sẽ không chịu đựng được kiểu lặp đi lặp lại nhàm chán này, nhưng máy móc thì có thể.
3. Điểm giống và khác nhau giữa hai loại lỗi
Các nhà nghiên cứu vẫn đang nỗ lực tìm hiểu sự khác biệt giữa lỗi mô hình ngôn ngữ lớn và lỗi của con người, nhưng vẫn có một số điểm tương đồng. Những khác biệt nhỏ trong tín hiệu đầu vào được cung cấp cho các mô hình ngôn ngữ lớn có thể dẫn đến những kết quả đầu ra khác biệt đáng kể, một hiện tượng được gọi là “độ nhạy tín hiệu”. Nhưng như các nhà nghiên cứu lưu ý, hành vi của con người cũng vậy. Cách diễn đạt câu hỏi trong cuộc thăm dò có thể có tác động đáng kể đến câu trả lời.
Các mô hình ngôn ngữ lớn cũng có xu hướng lặp lại những từ phổ biến nhất trong dữ liệu đào tạo, ví dụ, đoán tên địa danh quen thuộc ngay cả khi được hỏi về những địa điểm xa lạ hơn. Đây có thể là biểu hiện của “phương pháp tìm kiếm khả dụng” của con người trong các mô hình ngôn ngữ lớn. Máy móc thường đưa ra nội dung đầu tiên xuất hiện trong đầu thay vì trả lời câu hỏi bằng lý luận. Tương tự như con người, một số mô hình ngôn ngữ lớn dường như bị mất tập trung khi xử lý các văn bản dài, có xu hướng nhớ các sự kiện bắt đầu và kết thúc nhiều hơn. Đã có tiến bộ trong việc cải thiện kiểu lỗi này khi các nhà nghiên cứu nhận thấy rằng các mô hình ngôn ngữ lớn được đào tạo về khả năng truy xuất thông tin văn bản dài hơn có khả năng truy xuất thông tin đồng đều hơn.
Con người đôi khi có thể mắc phải những lỗi có vẻ ngẫu nhiên, khó hiểu và không nhất quán, nhưng những lỗi này rất hiếm và thường là triệu chứng của những vấn đề nghiêm trọng hơn. Chúng ta cũng có xu hướng không đưa những người có hành vi này vào vị trí ra quyết định. Tương tự như vậy, chúng ta nên giới hạn các hệ thống ra quyết định AI vào các ứng dụng phù hợp với khả năng thực tế của chúng, đồng thời lưu ý đến hậu quả của các lỗi của chúng.
Xem thêm: Liệu AI có thay thế bạn vào năm 2025 không?
Nguồn: Sưu tầm và dịch