LLM mạnh nhưng vẫn… “ngáo”
Các mô hình ngôn ngữ lớn (LLM) như GPT-4 đang thể hiện sức mạnh vượt trội trong nhiều lĩnh vực. Tuy nhiên, khi gặp bài toán logic phức tạp, tính toán, hoặc câu hỏi chuyên ngành, chúng lại dễ mắc lỗi suy luận hoặc… tự bịa ra dữ liệu – hiện tượng thường được gọi là hallucination.
Đây chính là lý do một nghiên cứu mới mang tên CoT-RAG ra đời. Bằng cách kết hợp Chain of Thought (CoT) – chuỗi tư duy từng bước và Retrieval-Augmented Generation (RAG) – tăng cường truy xuất thông tin, framework này tạo ra một bước đột phá trong khả năng reasoning của AI.
Những điểm yếu cố hữu của LLM khi suy luận
Suy luận freestyle dễ sai
Khi được yêu cầu giải thích hoặc giải toán theo từng bước (Chain of Thought), LLM vẫn thường bịa bước, thiếu logic, hoặc kết luận sai nếu đề bài hơi “xoắn”.
Ngôn ngữ tự nhiên gây hiểu lầm
Ngôn từ mơ hồ, cách diễn đạt phức tạp khiến mô hình hiểu sai ý. Dù là “tiếng người” nhưng lại khó nuốt với LLM. Một ví dụ cụ thể từ paper cho thấy: dù dùng CoT, PoT hay Planning & Solving, LLM vẫn cho kết quả sai. Chỉ khi có người can thiệp bằng cấu trúc logic rõ ràng, mô hình mới trả lời đúng.
CoT-RAG: 3 thành phần – 1 sứ mệnh
CoT-RAG là một framework gồm ba phần hợp tác như một đội lập trình siêu đẳng:
Knowledge Graph-driven CoT Generation
Tư duy dựa trên bản đồ tri thức
- Expert input: Chuyên gia đưa ra cây quyết định ban đầu.
- Graph decomposition: LLM tự phân tích thành Knowledge Graph (KG) gồm các thực thể (node) và quan hệ (edge).
- Standardization: Giúp từng bước suy luận rõ ràng, dễ kiểm chứng, tránh sáng tác “tấu hài”.
Learnable Knowledge Case-aware RAG
Lấy đúng kiến thức, đúng lúc
- Query analysis: Phân tích câu hỏi, xác định yếu tố cần.
- RAG: Truy xuất thông tin ngoài (tài liệu, công thức, ví dụ…) và đưa vào hệ suy luận để hoàn thiện KG.
Pseudo-Program Prompting Execution
Logic chặt chẽ, nhưng không khô khan
- Diễn giải từng bước KG thành mã giả (pseudo-program) như FOR, IF, CALCULATE.
- LLM “chạy” từng bước như thể đang viết code – giúp suy luận tuần tự, rõ ràng.
- Kết quả dễ kiểm soát, dễ debug hơn.
Kết quả thực nghiệm: CoT-RAG “out trình” phần còn lại
- GSM8K (toán tiểu học): CoT-RAG đạt gần 90% chính xác – cao hơn hẳn CoT truyền thống (70%).
- HotpotQA: CoT-RAG vượt trội khi xử lý truy vấn phức hợp, nhiều thực thể.
- Toán học, symbolic logic, hỏi đáp chuyên ngành: Mọi loại đề khó đều bị “xử đẹp”.
Mỗi phần đều quan trọng: Ablation Study
Khi loại bỏ từng thành phần:
- Không KG → giảm 15–18%.
- Không RAG → giảm 7–8%.
- Không Pseudo-Program → giảm 5–10%.
Điều này khẳng định: CoT-RAG là một hệ thống không thể tách rời.
Độ bền cao: Không kén môi trường
- Dùng pseudo-code viết bằng Java hay C++ đều đạt kết quả tương đương.
- Dữ liệu bài toán, chuyên gia thiết kế khác nhau cũng không làm sai số vượt quá 4%.
Ứng dụng thực tế: Không chỉ lý thuyết
CoT-RAG đang mở ra tiềm năng lớn trong:
- Giáo dục: Trợ lý giải toán thông minh, giúp học sinh hiểu từng bước logic.
- Y tế: Phân tích chẩn đoán bệnh với thông tin y khoa được RAG cung cấp.
- Tài chính: Tính toán rủi ro, dự đoán mô hình tài chính phức tạp.


