Многократный взлом в эпоху AI: новая угроза для больших языковых моделей"

Статья освещает метод "многократного взлома" больших языковых моделей, демонстрируя, как увеличение контекстного окна открывает новые уязвимости, и предлагает пути их предотвращения.

В недавно опубликованной статье исследуется методика "many-shot jailbreaking" больших языковых моделей (LLM), позволяющая обходить защитные механизмы, установленные разработчиками. Эта техника, названная "many-shot jailbreaking", оказалась эффективной не только для моделей компании Anthropic, но и для продуктов других AI компаний. Авторы предварительно проинформировали других разработчиков AI о данной уязвимости и внедрили меры предотвращения на своих системах.

Суть метода заключается в использовании увеличенного контекстного окна LLM, которое значительно расширилось за последний год и теперь может включать информацию, сопоставимую с объемом нескольких длинных романов. Включение большого объема текста в определенной конфигурации может заставить LLM выдавать потенциально вредные ответы, вопреки обучению на безопасность.

Авторы считают важным публиковать результаты своего исследования, чтобы ускорить разработку мер предотвращения и способствовать культуре открытого обмена информацией о подобных уязвимостях между разработчиками LLM. Они также отмечают, что many-shot jailbreaking может быть легко обнаружен и использован другими, что делает его рассмотрение еще более актуальным.

Искусственный интеллект (AI), ChatGPT, Плагины ChatGPT, Киберпреступность, Кибербезопасность, Генеративный ИИ, Большая языковая модель (LLM), OpenAI, Безопасность, Исследования в области безопасности

Эффективность многократного взлома связана с процессом "обучения в контексте", при котором LLM учится, используя информацию, предоставленную непосредственно в запросе. Обнаружено, что этот процесс следует тому же статистическому закону, что и многократный взлом, с увеличением количества примеров в запросе.

Для смягчения угрозы многократного взлома авторы рассматривали различные методы, включая ограничение длины контекстного окна и настройку модели на отказ от ответов на запросы, похожие на атаки многократного взлома. Однако наиболее успешным оказался метод, включающий классификацию и модификацию запроса перед его передачей модели.

В заключение авторы подчеркивают, что расширение контекстного окна LLM является двояким: с одной стороны, оно увеличивает полезность моделей, с другой — открывает новые уязвимости. Исследование призвано побудить разработчиков LLM и научное сообщество к разработке мер противодействия этим и другим потенциальным угрозам.

Полный текст статьи и подход Anthropic к безопасности и защите можно найти по ссылке на оригинальную статью

Заинтересованы в возможностях генеративного ИИ? Закажите бесплатную консультацию сегодня! Если у вас есть особые требования или вопросы, будем рады обсудить их с вами лично. Свяжитесь с нами, и мы поможем определить, как ИИ может помочь вашему бизнесу развиваться.

Получите бесплатную консультацию для создания приложения для вашего бизнеса.

Запрос на консультацию

Цифровые сотрудники: Рабочие места будущего под властью ИИ

Новые вакансии в области искусственного интеллекта: что это такое и чем они занимаются? В 2023 году появилось множество новых вакансий в области искусственного интеллекта: для начинающих специалистов и для уже опытных профессионалов.

Виртуальное влияние: новые пути в мире порталов

Text Добро пожаловать в мир цифровых измерений, где вы вступаете в контакт с теми, кто может стать вашим виртуальным отражением. Поговорка «Вы представляете собой среднее из пяти человек, с которыми вы проводите больше всего времени» стала неизменной истиною, но теперь, в этом замечательном цифровом лабиринте, она обрела свежее значение.

Искусственный интеллект и творчество: Могут ли LLM создавать новые вещи?

Многие люди говорят, что LLM (а также генеративный искусственный интеллект в целом) не создают новые вещи. Они могут только выводить вариации того, что было введено. Я не согласен с этим утверждением. Давайте разберемся, почему.

Prompt Engineering: маркетинг следующего поколения?

Новая должность, называемая промпт инженер, развивается в результате роста технологий искусственного интеллекта, таких как ChatGPT.

Pika Labs только что представила революционную функцию для своей платформы искусственного интеллекта, преобразующую текст в видео.

Этот невероятный инструмент, известный как генерация видео на основе изображений, принимает изображение в качестве входных данных и превращает его в захватывающее анимированное видео.