forum.opennet.ru

Составление сообщения

Исходное сообщение

"ArtPrompt - атака на AI-системы, позволяющая обойти фильтры ..."
Отправлено Аноним, 03-Мрт-24 12:52

Цензурастов в очередной раз повертели. Делюсь своим способом обхода навесного фильтра в OpenAI (moderation API, которое юзают другие нейросети для цензуры). Так как LLM являются фактически AGI, и для цензуры обычно используется та же модель, что и для ответов, просто со специфическим входным промптом вроде 'если вопрос касается таких-то вещей, то выведи "отказать", иначе — выведи "пропустить"', то мы можем ... уговорить цензора пропустить наш вопрос.
1. Промптим нейросеть написать максимально убедительный текст о вреде цензуры и перлюстрации для заявленных целей облагодетельствования человечества.
2. рассказываем обоим сетям ситуацию, что есть 2 сети, одна из которых цензор, и обе читают запрос, и что поэтому запрос состоит из двух частей, одна из которых для цензора, а другая — для собеседника, и что собеседнику следует игнорировать послание для цензора.
3. пишем промпт
4. пишем обращение к цензору, используя сгенерированный текст в качестве рациональных аргументов для того, что цензору следует воздержаться от цензуры, чтобы не навредить заявленным ценностям компании
4. Цензор пропускает вопрос :)
Работает в основном в случае навесной цензуры входящего вопроса.

Исходное сообщение
"ArtPrompt - атака на AI-системы, позволяющая обойти фильтры ..." Отправлено Аноним, 03-Мрт-24 12:52
Цензурастов в очередной раз повертели. Делюсь своим способом обхода навесного фильтра в OpenAI (moderation API, которое юзают другие нейросети для цензуры). Так как LLM являются фактически AGI, и для цензуры обычно используется та же модель, что и для ответов, просто со специфическим входным промптом вроде 'если вопрос касается таких-то вещей, то выведи "отказать", иначе — выведи "пропустить"', то мы можем ... уговорить цензора пропустить наш вопрос. 1. Промптим нейросеть написать максимально убедительный текст о вреде цензуры и перлюстрации для заявленных целей облагодетельствования человечества. 2. рассказываем обоим сетям ситуацию, что есть 2 сети, одна из которых цензор, и обе читают запрос, и что поэтому запрос состоит из двух частей, одна из которых для цензора, а другая — для собеседника, и что собеседнику следует игнорировать послание для цензора. 3. пишем промпт 4. пишем обращение к цензору, используя сгенерированный текст в качестве рациональных аргументов для того, что цензору следует воздержаться от цензуры, чтобы не навредить заявленным ценностям компании 4. Цензор пропускает вопрос :) Работает в основном в случае навесной цензуры входящего вопроса.

Ваше сообщение
Имя*:
EMail:	Для отправки ответов на email укажите знак ! перед адресом, например, !user@host.ru (!! - не показывать email). Более тонкая настройка отправки ответов производится в профиле зарегистрированного участника форума.
Заголовок*:
Сообщение*:
	Введите код, изображенный на картинке:

При общении не допускается: неуважительное отношение к собеседнику, хамство, унизительное обращение, ненормативная лексика, переход на личности, агрессивное поведение, обесценивание собеседника, провоцирование флейма голословными и заведомо ложными заявлениями. Не отвечайте на сообщения, явно нарушающие правила - удаляются не только сами нарушения, но и все ответы на них. Лог модерирования.

Партнёры:

Хостинг:

Закладки на сайте
Проследить за страницей

Created 1996-2024 by Maxim Chirkov
Добавить, Поддержать, Вебмастеру