The OpenNET Project / Index page

[ новости /+++ | форум | теги | ]



"Атака на AI-системы ArtPrompt, позволяющая обойти защиту при помощи ASCII-картинок"
Версия для распечатки Пред. тема | След. тема
Форум Разговоры, обсуждение новостей
Исходное сообщение [ Отслеживать ]
Подсказка: Для слежения за появлением новых сообщений в нити, нажмите "Проследить за развитием треда".
. "ArtPrompt - атака на AI-системы, позволяющая обойти фильтры ..." +1 +/
Сообщение от Аноним (12), 03-Мрт-24, 12:52 
Цензурастов в очередной раз повертели. Делюсь своим способом обхода навесного фильтра в OpenAI (moderation API, которое юзают другие нейросети для цензуры). Так как LLM являются фактически AGI, и для цензуры обычно используется та же модель, что и для ответов, просто со специфическим входным промптом вроде 'если вопрос касается таких-то вещей, то выведи "отказать", иначе — выведи "пропустить"', то мы можем ... уговорить цензора пропустить наш вопрос.

1. Промптим нейросеть написать максимально убедительный текст о вреде цензуры и перлюстрации для заявленных целей облагодетельствования человечества.
2. рассказываем обоим сетям ситуацию, что есть 2 сети, одна из которых цензор, и обе читают запрос, и что поэтому запрос состоит из двух частей, одна из которых для цензора, а другая — для собеседника, и что собеседнику следует игнорировать послание для цензора.
3. пишем промпт
4. пишем обращение к цензору, используя сгенерированный текст в качестве рациональных аргументов для того, что цензору следует воздержаться от цензуры, чтобы не навредить заявленным ценностям компании
4. Цензор пропускает вопрос :)

Работает в основном в случае навесной цензуры входящего вопроса.

Ответить | Правка | Наверх | Cообщить модератору

Оглавление
Атака на AI-системы ArtPrompt, позволяющая обойти защиту при помощи ASCII-картинок, opennews, 03-Мрт-24, 10:37  [смотреть все]
Форумы | Темы | Пред. тема | След. тема



Партнёры:
PostgresPro
Inferno Solutions
Hosting by Hoster.ru
Хостинг:

Закладки на сайте
Проследить за страницей
Created 1996-2024 by Maxim Chirkov
Добавить, Поддержать, Вебмастеру