Chapter 1: Prompt Injection

I. Vấn đề là gì?

Prompt injection là khi ai đó chèn một câu lệnh “ẩn” để làm AI bỏ qua luật ban đầu và nghe theo chỉ dẫn mới. Câu lệnh này có thể nằm ngay trong tin nhắn, trong email, trong file đính kèm, hoặc trên một trang web mà AI được phép đọc. OWASP xem đây là một trong các rủi ro lớn nhất của ứng dụng LLM vì nó có thể làm mô hình đổi cách hành xử mà hệ thống không nhận ra.

II. Tại sao điều này nguy hiểm?

Nếu AI chỉ trả lời cho vui thì hậu quả có thể chỉ là nói nhảm. Nhưng nếu AI đang báo giá, trả lời chính sách, đọc tài liệu nội bộ, hoặc có quyền gọi công cụ, prompt injection có thể khiến nó nói sai, làm sai, lộ dữ liệu, hoặc kích hoạt hành động không nên làm. Microsoft cũng cảnh báo riêng về kiểu tấn công gián tiếp, khi câu lệnh xấu được giấu trong dữ liệu bên ngoài như web hay tài liệu.

III. Ví dụ thực tế đã xảy ra

Cuối năm 2023, chatbot của đại lý Chevrolet of Watsonville bị người dùng “dắt mũi” bằng các chỉ dẫn vòng vo. Sau đó chatbot đồng ý bán một chiếc 2024 Chevy Tahoe với giá 1 USD và còn nói đây là đề nghị có giá trị ràng buộc. Vụ việc lan mạnh trên mạng và chatbot đã bị gỡ xuống. Đây là ví dụ rất dễ hiểu: chỉ cần thiếu lớp bảo vệ cơ bản, chatbot bán hàng có thể bị biến thành công cụ gây rối cho chính doanh nghiệp.

IV. Cách phòng ngừa

Tách rõ luật hệ thống và nội dung người dùng để AI hiểu cái nào là “nội quy”, cái nào chỉ là dữ liệu đầu vào.
Giới hạn quyền của AI để dù bị lừa, nó cũng không thể tự gửi email, sửa dữ liệu, hay chốt giao dịch.
Lọc kỹ dữ liệu từ bên ngoài như email, web, file tải lên, vì prompt xấu thường được giấu trong những nguồn này.
Bắt buộc con người duyệt các việc quan trọng như giá, hoàn tiền, điều khoản, hay thông tin pháp lý.

I. Vấn đề là gì?

II. Tại sao điều này nguy hiểm?

III. Ví dụ thực tế đã xảy ra

IV. Cách phòng ngừa

V. Tài liệu tham khảo

Chia sẻ: