Эффективность многократного взлома связана с процессом "обучения в контексте", при котором LLM учится, используя информацию, предоставленную непосредственно в запросе. Обнаружено, что этот процесс следует тому же статистическому закону, что и многократный взлом, с увеличением количества примеров в запросе.
Для смягчения угрозы многократного взлома авторы рассматривали различные методы, включая ограничение длины контекстного окна и настройку модели на отказ от ответов на запросы, похожие на атаки многократного взлома. Однако наиболее успешным оказался метод, включающий классификацию и модификацию запроса перед его передачей модели.
В заключение авторы подчеркивают, что расширение контекстного окна LLM является двояким: с одной стороны, оно увеличивает полезность моделей, с другой — открывает новые уязвимости. Исследование призвано побудить разработчиков LLM и научное сообщество к разработке мер противодействия этим и другим потенциальным угрозам.
Полный текст статьи и подход Anthropic к безопасности и защите можно найти по ссылке на оригинальную статью