CoT + RAG = Đặc Trị Ảo Giác & Nâng Tầm Suy Luận Cho LLM

LLM mạnh nhưng vẫn… “ngáo”

Các mô hình ngôn ngữ lớn (LLM) như GPT-4 đang thể hiện sức mạnh vượt trội trong nhiều lĩnh vực. Tuy nhiên, khi gặp bài toán logic phức tạp, tính toán, hoặc câu hỏi chuyên ngành, chúng lại dễ mắc lỗi suy luận hoặc… tự bịa ra dữ liệu – hiện tượng thường được gọi là hallucination.

Đây chính là lý do một nghiên cứu mới mang tên CoT-RAG ra đời. Bằng cách kết hợp Chain of Thought (CoT) – chuỗi tư duy từng bước và Retrieval-Augmented Generation (RAG) – tăng cường truy xuất thông tin, framework này tạo ra một bước đột phá trong khả năng reasoning của AI.

Những điểm yếu cố hữu của LLM khi suy luận

Suy luận freestyle dễ sai

Khi được yêu cầu giải thích hoặc giải toán theo từng bước (Chain of Thought), LLM vẫn thường bịa bước, thiếu logic, hoặc kết luận sai nếu đề bài hơi “xoắn”.

Ngôn ngữ tự nhiên gây hiểu lầm

Ngôn từ mơ hồ, cách diễn đạt phức tạp khiến mô hình hiểu sai ý. Dù là “tiếng người” nhưng lại khó nuốt với LLM. Một ví dụ cụ thể từ paper cho thấy: dù dùng CoT, PoT hay Planning & Solving, LLM vẫn cho kết quả sai. Chỉ khi có người can thiệp bằng cấu trúc logic rõ ràng, mô hình mới trả lời đúng.

CoT-RAG: 3 thành phần – 1 sứ mệnh

CoT-RAG là một framework gồm ba phần hợp tác như một đội lập trình siêu đẳng:

Knowledge Graph-driven CoT Generation

Tư duy dựa trên bản đồ tri thức

Expert input: Chuyên gia đưa ra cây quyết định ban đầu.
Graph decomposition: LLM tự phân tích thành Knowledge Graph (KG) gồm các thực thể (node) và quan hệ (edge).
Standardization: Giúp từng bước suy luận rõ ràng, dễ kiểm chứng, tránh sáng tác “tấu hài”.

Learnable Knowledge Case-aware RAG

Lấy đúng kiến thức, đúng lúc

Query analysis: Phân tích câu hỏi, xác định yếu tố cần.
RAG: Truy xuất thông tin ngoài (tài liệu, công thức, ví dụ…) và đưa vào hệ suy luận để hoàn thiện KG.

Pseudo-Program Prompting Execution

Logic chặt chẽ, nhưng không khô khan

Diễn giải từng bước KG thành mã giả (pseudo-program) như FOR, IF, CALCULATE.
LLM “chạy” từng bước như thể đang viết code – giúp suy luận tuần tự, rõ ràng.
Kết quả dễ kiểm soát, dễ debug hơn.

Kết quả thực nghiệm: CoT-RAG “out trình” phần còn lại

GSM8K (toán tiểu học): CoT-RAG đạt gần 90% chính xác – cao hơn hẳn CoT truyền thống (70%).
HotpotQA: CoT-RAG vượt trội khi xử lý truy vấn phức hợp, nhiều thực thể.
Toán học, symbolic logic, hỏi đáp chuyên ngành: Mọi loại đề khó đều bị “xử đẹp”.

Mỗi phần đều quan trọng: Ablation Study

Khi loại bỏ từng thành phần:

Không KG → giảm 15–18%.
Không RAG → giảm 7–8%.
Không Pseudo-Program → giảm 5–10%.

Điều này khẳng định: CoT-RAG là một hệ thống không thể tách rời.

Độ bền cao: Không kén môi trường

Dùng pseudo-code viết bằng Java hay C++ đều đạt kết quả tương đương.
Dữ liệu bài toán, chuyên gia thiết kế khác nhau cũng không làm sai số vượt quá 4%.