Trước tiên là phần kết luận: Không. Tại sao? Bởi vì cuối cùng tất cả đều phụ thuộc vào hiệu quả và chi phí. Đúng vậy, o3 đã đạt được kết quả đáng kinh ngạc trong thử nghiệm. Nhưng nếu các doanh nghiệp được yêu cầu triển khai các mô hình suy luận lớn như vậy trên quy mô lớn ngay bây giờ, họ sẽ phá sản chỉ sau 5 ngày. Bài viết đã được biên soạn.

Liệu AI có thay thế được bạn năm 2025 không?
Sự nhiệt tình chung do việc phát hành mô hình o3 của OpenAI gây ra là điều mà chúng ta chưa từng thấy trước đây.
Một số người không kiên trì và quyết định từ bỏ nghề khoa học máy tính vì họ cảm thấy rằng những kỹ năng này sẽ sớm không còn cần thiết nữa trong thời đại trí tuệ nhân tạo.
Nhưng tất cả những điều này chỉ là sự giật gân mà thôi.
Đây là mặt tệ nhất của ngành này: Những người có sức ảnh hưởng về AI đang thổi phồng quá mức không cần thiết, rất khó để nhận ra, và họ sẽ làm mọi cách để kiếm tiền từ lượt nhấp chuột, nhưng theo tôi, họ có vẻ như là những kẻ lừa đảo hoàn toàn và thiếu hiểu biết.
Trong bài viết này tôi sẽ giải thích tại sao điều này vô lý và tại sao sẽ không có ai phải thất nghiệp vào năm 2025 vì o3.
Chúng ta hãy cùng xem xét kỹ hơn vấn đề này bên dưới.
Một thông báo ấn tượng nhưng hơi tinh tế
Khi bụi lắng xuống sau khi phát hành Mô hình lý luận lớn (LRM) mới nhất của OpenAI, o3, thực tế đang bắt đầu hiện rõ.
Khoảnh khắc lịch sử
Vâng, nhìn bề ngoài, mô hình này rất ấn tượng, ấn tượng đến mức khiến bạn phải tự hỏi liệu năm sau mình có còn giữ được việc làm không.
O3 đã đạt được những kết quả đáng kinh ngạc trên nhiều điểm chuẩn, nhưng có một kết quả đặc biệt nổi bật: O3 đạt độ chính xác 87,5% trên điểm chuẩn công khai ARC-AGI ở ngưỡng tính toán cao (cho phép mô hình suy nghĩ lâu hơn).
Lần đầu tiên, AI đã vượt trội hơn con người trong nhiệm vụ lý luận trừu tượng—nhận ra các mẫu tinh tế khi có sự hiện diện của các đối tượng dạng lưới và áp dụng chúng vào các ví dụ mới.
Bài kiểm tra này chủ yếu liên quan đến hai khía cạnh chính của trí thông minh:
- Học kỹ năng ngay lập tức. Nói cách khác, liệu các đối tượng có thể học được các mô hình mới một cách nhanh chóng hay không.
- Hiệu quả học tập, tức là liệu các đối tượng có thể học được các mô hình mới chỉ với một vài ví dụ hay không.
Thật đáng khen ngợi khi một mô hình AI có thể hoàn thành thành công thử thách này, nhưng kết quả còn nhiều điều hơn những gì chúng ta thấy.
Những điều tinh tế chưa được đề cập
Mặc dù có phần hơi chắc chắn khi nói rằng kết quả không phản ánh đúng thực tế, nhưng điều đó không đáng sợ như những người có ảnh hưởng đến AI nói.
Giả sử có hai đứa trẻ đang làm bài kiểm tra. Một người đã suy nghĩ cẩn thận trong hơn 20 phút và trả lời đúng 80%. Một đứa trẻ khác trả lời đúng 90% số câu hỏi, nhưng phải mất tới hai tháng mới hoàn thành bài kiểm tra.
Đứa trẻ nào thông minh hơn? Đây có phải là câu trả lời đúng 80% trong vòng 20 phút không? Hay người mất hai tháng để đạt được điểm cao hơn?
Theo tôi, trí thông minh không chỉ là giá trị thô mà hiệu quả cũng quan trọng không kém. Nhưng khi nói đến hiệu quả, AI vẫn còn rất, rất tệ.
Theo nguồn tin trong ngành, chi phí xử lý trung bình để O3 hoàn thành một tác vụ trong quá trình thử nghiệm chuẩn là 5.000 đô la.
Nói một cách đơn giản, khi giải quyết vấn đề về mô hình lưới mà con người chỉ cần mất vài phút để giải, o3 phải chi trung bình 57 triệu mã thông báo (tương đương với hơn 40 triệu từ) cho mỗi nhiệm vụ, tổng cộng là 5.000 đô la.
Nói cách khác, các mô hình lý luận lớn (LRM) như o3 đang sử dụng một lượng lớn tính toán và tài trợ để biến trò chơi giải quyết vấn đề thành trò chơi mà có thể tìm ra câu trả lời đúng miễn là có đủ sức mạnh tính toán.
Và con số này thậm chí còn chưa tính đến chi phí đào tạo mô hình là 500 triệu đô la, nên tổng số tiền có thể khiến ngay cả Buffett cũng phải choáng váng.
Điều tôi muốn chỉ ra là nếu trí tuệ nhân tạo như o3 muốn có tác động thực sự đến xã hội, nó phải cải thiện đáng kể hiệu quả trí tuệ hoặc cải thiện tỷ lệ “trí thông minh”/sức mạnh tính toán.
Nhưng làm thế nào chúng ta có thể tính được hiệu quả này?
Tỷ lệ Bit/Byte
Chỉ số hiệu suất chính của mô hình ngôn ngữ lớn chuẩn (LLM) là độ phức tạp. Nói một cách dễ hiểu, nó đo lường mức độ “bất ngờ” của mô hình hoặc mức độ tự tin của mô hình trong việc dự đoán từ tiếp theo.
Nếu độ bối rối giảm xuống, điều đó có nghĩa là máy sẽ tự tin hơn về từ đó (được đo bằng xác suất tin cậy được gán cho từ đã chọn).
Nhưng chỉ số chính của LRM là số bit trên một byte (BpB).
Sự xuất hiện của các chỉ số mới
ByB đo lường “lượng” thông tin được truyền tải bởi mỗi mã thông báo hoặc từ được tạo ra.
Nếu LRM được sử dụng để tạo ra các mã thông báo lý luận và phản hồi khi trả lời bằng LLM, số lượng mã thông báo được tạo ra cho mỗi nhiệm vụ sẽ lớn hơn nhiều. Lúc này, việc dự đoán chính xác từ tiếp theo là chưa đủ, từ đó cũng phải có liên quan để mô hình có thể giảm dần số lượng mã thông báo được tạo ra.
Thật đáng khích lệ khi o3 đạt được độ chính xác gần 90% trong bài kiểm tra ARC-AGI, nhưng bạn sẽ thấy rằng nó tạo ra hàng triệu mã thông báo cho mỗi câu hỏi, trong khi con người chỉ cần tạo ra tối đa 100 đến 200 mã thông báo (nếu điều đó có ý nghĩa).
Vì vậy, nếu chúng ta muốn thực sự đo lường trí thông minh của mô hình loại O như O3, chúng ta phải đo không chỉ chất lượng phản hồi mà còn cả hiệu quả của mô hình trong việc tạo ra giá trị.
Đây là lý do tại sao BpB là một số liệu tốt; phản hồi của o3 thường chính xác, nhưng BpB của nó (tức là lượng thông tin trên mỗi mã thông báo được tạo ra) lại thấp một cách vô lý. Sử dụng phép so sánh trước đó, con người là những đứa trẻ trả lời đúng 80% trong 20 phút; AI đánh bại chúng ta (chỉ đôi khi), nhưng phải mất một khoảng thời gian tương đương với “cuộc đời con người” để phản ứng.
Nhưng vấn đề không dừng lại ở đó. Như nhà nghiên cứu AI hàng đầu Miles Cranmer đã chỉ ra, mô hình O dường như không cải thiện được ảo giác.
Trên thực tế, trải nghiệm của người dùng thậm chí còn tệ hơn vì mô hình mắc nhiều lỗi hơn trước, như thể nó trở nên tự mãn hơn về kiến thức của mình.
Kết quả là trải nghiệm mô hình o không chỉ tốn kém mà còn có thể dẫn đến những sai lầm tốn kém.
Giữ bình tĩnh
Đối với các phòng nghiên cứu AI, việc trích dẫn kết quả chuẩn để so sánh với sản phẩm của các phòng thí nghiệm khác là một cách tốt để phản ánh tính hữu ích và “trí thông minh” của mô hình của riêng họ, nhưng điều này không phản ánh đúng thực tế.
Những thành tựu của o3 vẫn đáng được ghi nhận
Thành tích của o3 trong bài kiểm tra ARC-AGI hoặc FrontierMath đáng được chúc mừng vì một lý do quan trọng: vì nó một lần nữa mang lại cho chúng ta hy vọng rằng nhân loại có thể đang đi đúng hướng tới trí tuệ nhân tạo tổng quát (AGI).
Nhưng sẽ hoàn toàn sai lầm khi nói rằng chúng ta đã “chinh phục được AGI”. Điều này có nghĩa là các mô hình này thông minh hơn nhiều so với thực tế; nhưng xét về hiệu quả trí tuệ, chúng vẫn kém thông minh hơn trẻ em và kết quả o3 không thay đổi điều này.
Trên thực tế, họ đã xác nhận thêm điều này khi nói rằng o3 cần hàng triệu đô la để vượt qua chuẩn mực vì họ phải tạo ra hàng triệu mã thông báo để giải quyết vấn đề tìm mẫu lưới đầy thách thức.
Đây không phải là AGI, mà chỉ là bằng chứng cho thấy khi có đủ sức mạnh tính toán, các mô hình AI thực sự có thể đạt được kết quả đáng chú ý (một lần nữa, sức mạnh tính toán lớn hơn sẽ dẫn đến kết quả tốt hơn chính là chiến thắng thực sự).
Dù sao đi nữa, o3 phải được coi là bằng chứng cho ý tưởng rằng điện toán dường như là chìa khóa để mở khóa trí thông minh, nhưng chúng ta vẫn còn rất xa mới đạt được trí thông minh thực sự mà chúng ta hy vọng có thể phát triển với các hệ thống này (ngay cả OpenAI cũng thừa nhận điều này).
Tuy nhiên, chúng ta có lý do để lạc quan: ChatGPT đã giảm chi phí xử lý 100 lần kể từ khi ra mắt. Hơn nữa, mặc dù “thông minh” hơn, nhưng o3-mini lại có chi phí vận hành thấp hơn o1-mini.
Nói cách khác, chúng tôi thực sự đang cải thiện chỉ số BpB, nhưng thực tế là quá trình này sẽ mất nhiều thời gian hơn mọi người nghĩ.
Liệu công việc của chúng tôi có bị ảnh hưởng không? Những yếu tố ảnh hưởng là gì?
Vâng, rất đơn giản: tiền.
Sự khuyến khích là tất cả
Tại sao mô hình này lại không thực sự thâm nhập được vào thị trường lao động? Lý do không gì khác ngoài chi phí. Hãy nghĩ về điều này:
- Nếu chi phí vận hành và độ trễ gần bằng không, bạn có quan tâm liệu “hiệu quả thông minh” của trí tuệ nhân tạo tiên tiến có cao không?
- Nếu câu trả lời là đúng và dễ có, bạn có phiền nếu mô hình phải tạo ra hàng triệu mã thông báo để đưa ra câu trả lời không?
Tất nhiên là không!
Nếu giá của o3 giảm xuống bằng 0, mọi người sẽ có một mô hình có thể giải quyết một số bài toán khó nhất.
Bạn không quan tâm liệu quá trình giải quyết có dựa trên việc ghi nhớ máy móc và phải “suy nghĩ” nhiều hay không, bạn chỉ quan tâm đến kết quả. Nhưng bây giờ, nếu triển khai o3 trên diện rộng, công ty sẽ phá sản chỉ sau vài ngày.
Sự thật về trí tuệ nhân tạo và cách khám phá trí tuệ máy móc
Mục tiêu chưa bao giờ và sẽ không bao giờ là tạo ra trí thông minh thực sự; mục tiêu luôn là làm cho trí thông minh của máy móc rẻ hơn trí thông minh của con người.
Nếu các phòng thí nghiệm AI đạt được điều này, chúng ta có thể tự hỏi liệu những công cụ này có thay thế được con người hay không (một lần nữa, việc mô tả AI là sự thay thế cho toàn bộ lao động con người chỉ là lời nói hù dọa rẻ tiền).
Mặc dù LLM đã đạt được sự đảo ngược này nhưng họ lại cực kỳ ngu ngốc. Khi LRM trở nên rẻ hơn so với việc thuê con người, tài năng thực sự sẽ xuất hiện. o3 có khả năng khiến bạn phải tự hỏi liệu mình có cần thêm một nhà phát triển phần mềm hay không, hay liệu việc trả phí thuê bao và chuyển giao các công cụ cho nhà phát triển phần mềm cao cấp hiện tại của bạn sẽ tiết kiệm chi phí hơn.
Câu hỏi đặt ra là liệu những con số này có tăng lên vào năm 2025 không? Tôi rất hoài nghi, đặc biệt là khi xét đến những hạn chế về năng lượng và tính toán mà nhiều phòng thí nghiệm AI đang phải đối mặt.
Vậy nó có phải là AGI không?
Đừng nói những điều vô lý này nữa.
Trong vài ngày qua, tôi đã thấy nhiều tuyên bố trên mạng xã hội rằng o3 là AGI do kết quả ấn tượng của nó trong chuẩn mực công khai ARC-AGI.
Hãy để tôi nói thẳng: điều này không đúng và thật đáng xấu hổ.
Những tuyên bố này dựa trên một trong hai điều sau: sự thiếu hiểu biết hoặc chủ nghĩa giật gân nhằm thu hút sự chú ý; ngay cả OpenAI cũng không dám đưa ra những tuyên bố như vậy.
Nhưng dù sao đi nữa, o3 xứng đáng được ăn mừng vì đây là bước đột phá ghi nhận nỗ lực của kỹ sư. Giống như AlphaGo hoặc AlphaStar trong quá khứ, mô hình này đạt được những kỳ tích siêu phàm trong các lĩnh vực có thể xác minh bằng phần thưởng (tức là các lĩnh vực mà các hàm phần thưởng có thể được xác minh tự động, chẳng hạn như mã hóa hoặc toán học).
Tuy nhiên, o3 là mô hình đầu tiên đạt được tính tổng quát về phần thưởng, nghĩa là một mô hình được đào tạo với một phân phối dữ liệu duy nhất đạt được kết quả siêu phàm trên nhiều miền (một lần nữa có thể xác minh được). Thật điên rồ, nhưng đó không phải là AGI. Để đạt được AGI, hàm phần thưởng này (hoặc các hàm phần thưởng) phải được khái quát hóa sang các lĩnh vực khác mà phần thưởng không thể được tính toán tự động; đây chính là mục tiêu tối thượng của AI, nhưng vẫn chưa đạt được.
AGI cũng phải tính đến các yếu tố kinh tế. Nói một cách đơn giản, chi phí cho trí thông minh phải thấp hơn chi phí của con người thì việc hiện thực hóa nó mới có ý nghĩa về mặt kinh tế.
Để đạt được AGI, chúng ta cần một trong hai điều sau: giảm chi phí token xuống gần bằng 0 (chi phí tính toán và chi phí năng lượng) hoặc tìm cách để AI giải quyết vấn đề nhanh hơn và rẻ hơn (cải thiện chỉ số BpB, tức là tạo ra bước đột phá trong thuật toán).
Mô hình o3 cho chúng ta hy vọng rằng sức mạnh tính toán tăng lên sẽ tiếp tục dẫn đến “trí thông minh” tốt hơn, nhưng điều này đạt được thông qua tính toán trong thời gian thử nghiệm thay vì thông qua việc tăng ngân sách đào tạo trước.
Nhưng chúng ta hãy ngừng giả vờ rằng nó là thứ mà nó không phải (AGI).