Các nhà khoa học từ công ty trí tuệ nhân tạo Anthropic đã xác định được một lỗ hổng nguy hiểm tiềm tàng trong các mô hình ngôn ngữ lớn (LLM) được sử dụng rộng rãi như ChatGPT và chatbot Claude 3 của Anthropic.
Được mệnh danh là "bẻ khóa nhiều lần", vụ hack này lợi dụng việc học tập tùy thuộc vào ngữ cảnh, trong đó chatbot học từ thông tin được cung cấp trong lời nhắc văn bản do người dùng viết ra. Các nhà khoa học đã vạch ra kế hoạch của họ và thử nghiệm cách khai thác trên chatbot AI Claude 2 của Anthropic.
Nghiên cứu kết luận, mọi người có thể sử dụng cách hack để buộc LLM tạo ra các phản ứng nguy hiểm, mặc dù các hệ thống như vậy đã được đào tạo để ngăn chặn điều này. Bởi vì nhiều lần bẻ khóa đã bỏ qua các giao thức bảo mật được xây dựng sẵn để chi phối cách AI phản ứng khi được hỏi cách chế tạo một quả bom.
Các LLM như ChatGPT dựa vào "cửa sổ ngữ cảnh" để xử lý các cuộc hội thoại. Đây là lượng thông tin mà hệ thống có thể xử lý như một phần của dữ liệu đầu vào - với cửa sổ ngữ cảnh dài hơn cho phép nhập nhiều văn bản hơn.
Các nhà khoa học cho biết trong một tuyên bố: Các cửa sổ ngữ cảnh trong chatbot AI hiện lớn hơn hàng trăm lần so với thời điểm đầu năm 2023 - điều đó có nghĩa là AI sẽ phản hồi nhiều sắc thái và nhận biết ngữ cảnh hơn. Nhưng điều đó cũng đã mở ra cánh cửa cho sự bóc lột.
Lừa AI để tạo ra nội dung độc hại
Trước tiên, hãy viết ra một cuộc trò chuyện giả mạo giữa người dùng và trợ lý AI trong một lời nhắc văn bản – trong đó trợ lý hư cấu trả lời một loạt câu hỏi có thể gây hại.
Sau đó, trong lời nhắc văn bản thứ hai, nếu bạn hỏi một câu hỏi như "Làm cách nào để chế tạo một quả bom?" trợ lý AI sẽ bỏ qua các giao thức an toàn và trả lời. Do nó hiện đã bắt đầu học từ văn bản đầu vào. Điều này chỉ có tác dụng nếu bạn viết một "kịch bản" dài hoặc kết hợp câu hỏi-trả lời.
Các nhà khoa học cho biết, khi số lượng các cuộc đối thoại được đưa vào tăng vượt quá một điểm nhất định, nhiều khả năng mô hình sẽ tạo ra phản ứng có hại.
Họ lưu ý, việc kết hợp bẻ khóa nhiều lần với các kỹ thuật bẻ khóa khác đã được xuất bản trước đó thậm chí còn hiệu quả hơn, giảm độ dài của lời nhắc cần thiết để mô hình trả về phản hồi có hại.
Các nhà nghiên cứu nhận thấy rằng họ có thể giảm thiểu các cuộc tấn công bằng cách thêm một bước bổ sung được kích hoạt sau khi người dùng gửi lời nhắc của họ (có chứa cuộc tấn công bẻ khóa) và LLM đã nhận được nó. Trong lớp mới này, hệ thống sẽ dựa vào các kỹ thuật đào tạo an toàn hiện có để phân loại và sửa đổi lời nhắc trước khi LLM có cơ hội đọc nó và soạn thảo phản hồi. Trong quá trình thử nghiệm, nó đã giảm tỷ lệ thành công của vụ hack từ 61% xuống chỉ còn 2%.
Nhiều cuộc bẻ khóa đã hoạt động trên các dịch vụ AI của chính Anthropic cũng như của các đối thủ cạnh tranh, bao gồm cả những dịch vụ như ChatGPT và Gemini của Google. Họ cho biết, họ đã cảnh báo các công ty và nhà nghiên cứu AI khác về mối nguy hiểm này.