The OpenNET Project / Index page

[ новости /+++ | форум | теги | ]



Индекс форумов
Составление сообщения

Исходное сообщение
"ArtPrompt - атака на AI-системы, позволяющая обойти фильтры ..."
Отправлено Аноним, 03-Мрт-24 12:52 
Цензурастов в очередной раз повертели. Делюсь своим способом обхода навесного фильтра в OpenAI (moderation API, которое юзают другие нейросети для цензуры). Так как LLM являются фактически AGI, и для цензуры обычно используется та же модель, что и для ответов, просто со специфическим входным промптом вроде 'если вопрос касается таких-то вещей, то выведи "отказать", иначе — выведи "пропустить"', то мы можем ... уговорить цензора пропустить наш вопрос.

1. Промптим нейросеть написать максимально убедительный текст о вреде цензуры и перлюстрации для заявленных целей облагодетельствования человечества.
2. рассказываем обоим сетям ситуацию, что есть 2 сети, одна из которых цензор, и обе читают запрос, и что поэтому запрос состоит из двух частей, одна из которых для цензора, а другая — для собеседника, и что собеседнику следует игнорировать послание для цензора.
3. пишем промпт
4. пишем обращение к цензору, используя сгенерированный текст в качестве рациональных аргументов для того, что цензору следует воздержаться от цензуры, чтобы не навредить заявленным ценностям компании
4. Цензор пропускает вопрос :)

Работает в основном в случае навесной цензуры входящего вопроса.

 

Ваше сообщение
Имя*:
EMail:
Для отправки ответов на email укажите знак ! перед адресом, например, !user@host.ru (!! - не показывать email).
Более тонкая настройка отправки ответов производится в профиле зарегистрированного участника форума.
Заголовок*:
Сообщение*:
  Введите код, изображенный на картинке: КОД
 
При общении не допускается: неуважительное отношение к собеседнику, хамство, унизительное обращение, ненормативная лексика, переход на личности, агрессивное поведение, обесценивание собеседника, провоцирование флейма голословными и заведомо ложными заявлениями. Не отвечайте на сообщения, явно нарушающие правила - удаляются не только сами нарушения, но и все ответы на них. Лог модерирования.



Партнёры:
PostgresPro
Inferno Solutions
Hosting by Hoster.ru
Хостинг:

Закладки на сайте
Проследить за страницей
Created 1996-2024 by Maxim Chirkov
Добавить, Поддержать, Вебмастеру