Многократный взлом в эпоху AI: новая угроза для больших языковых моделей"

Статья освещает метод "многократного взлома" больших языковых моделей, демонстрируя, как увеличение контекстного окна открывает новые уязвимости, и предлагает пути их предотвращения.
В недавно опубликованной статье исследуется методика "many-shot jailbreaking" больших языковых моделей (LLM), позволяющая обходить защитные механизмы, установленные разработчиками. Эта техника, названная "many-shot jailbreaking", оказалась эффективной не только для моделей компании Anthropic, но и для продуктов других AI компаний. Авторы предварительно проинформировали других разработчиков AI о данной уязвимости и внедрили меры предотвращения на своих системах.

Суть метода заключается в использовании увеличенного контекстного окна LLM, которое значительно расширилось за последний год и теперь может включать информацию, сопоставимую с объемом нескольких длинных романов. Включение большого объема текста в определенной конфигурации может заставить LLM выдавать потенциально вредные ответы, вопреки обучению на безопасность.

Авторы считают важным публиковать результаты своего исследования, чтобы ускорить разработку мер предотвращения и способствовать культуре открытого обмена информацией о подобных уязвимостях между разработчиками LLM. Они также отмечают, что many-shot jailbreaking может быть легко обнаружен и использован другими, что делает его рассмотрение еще более актуальным.

Искусственный интеллект (AI), ChatGPT, Плагины ChatGPT, Киберпреступность, Кибербезопасность, Генеративный ИИ, Большая языковая модель (LLM), OpenAI, Безопасность, Исследования в области безопасности
Эффективность многократного взлома связана с процессом "обучения в контексте", при котором LLM учится, используя информацию, предоставленную непосредственно в запросе. Обнаружено, что этот процесс следует тому же статистическому закону, что и многократный взлом, с увеличением количества примеров в запросе.

Для смягчения угрозы многократного взлома авторы рассматривали различные методы, включая ограничение длины контекстного окна и настройку модели на отказ от ответов на запросы, похожие на атаки многократного взлома. Однако наиболее успешным оказался метод, включающий классификацию и модификацию запроса перед его передачей модели.

В заключение авторы подчеркивают, что расширение контекстного окна LLM является двояким: с одной стороны, оно увеличивает полезность моделей, с другой — открывает новые уязвимости. Исследование призвано побудить разработчиков LLM и научное сообщество к разработке мер противодействия этим и другим потенциальным угрозам.

Полный текст статьи и подход Anthropic к безопасности и защите можно найти по ссылке на оригинальную статью
Заинтересованы в возможностях генеративного ИИ? Закажите бесплатную консультацию сегодня! Если у вас есть особые требования или вопросы, будем рады обсудить их с вами лично. Свяжитесь с нами, и мы поможем определить, как ИИ может помочь вашему бизнесу развиваться.

Получите бесплатную консультацию для создания приложения для вашего бизнеса.

Подпишитесь и получайте обновления о новых продуктах и технологиях.