The OpenNET Project / Index page

[ новости /+++ | форум | теги | ]



Индекс форумов
Составление сообщения

Исходное сообщение
"ArtPrompt - атака на AI-системы, позволяющая обойти фильтры ..."
Отправлено Аноним, 03-Мрт-24 13:23 
К сожалению, предсказываю, что цензурасты перейдут к следующему очевидному методу, против которого, я предполагаю, не будет приёма.

1. Тренировка нецензурированной модели на всех данных.
2. Составление промпта для разделения исходного дейтасета на 2: первый будет испольдоваться as is, второй будет зацензурен.
3. Составление запросов для замены информации во втором дейтасете на дезинформацию. Возможно — с привлечением человеческих экспертов для конкретного продумывания, какая будет дезинформация. Напр. в текстах об определённом государственном деятеле возможно (я категорически против реализации такого, просто констатация факта, что такое возможно реализовать) заменять его критику на восхваления, присяги ему на верность, добавлять его список титулов. А тексты про определённые ценности возможно менять образом, чтобы в результирующем тексте эти ценности и их сторонники с одной стороны демонизировались, а с другой — выставлялись жалкими и дегуманизировались.
4. слияние немодифицированной часть дейтасета с модифицированной и перетренировка модели.

Реализация такого может привести к протеканию цензуры и дезинформации во вторичные более компактные опенсорсные модели, намеренно не реализующие цензуру, (напр. производные LLAMA), но обученные на качественных инференсах больших, дорогих и более умных моделей, но отцензурированных, моделей (вроде ChatGPT, Bard, Bing, etc).

 

Ваше сообщение
Имя*:
EMail:
Для отправки ответов на email укажите знак ! перед адресом, например, !user@host.ru (!! - не показывать email).
Более тонкая настройка отправки ответов производится в профиле зарегистрированного участника форума.
Заголовок*:
Сообщение*:
  Введите код, изображенный на картинке: КОД
 
При общении не допускается: неуважительное отношение к собеседнику, хамство, унизительное обращение, ненормативная лексика, переход на личности, агрессивное поведение, обесценивание собеседника, провоцирование флейма голословными и заведомо ложными заявлениями. Не отвечайте на сообщения, явно нарушающие правила - удаляются не только сами нарушения, но и все ответы на них. Лог модерирования.



Партнёры:
PostgresPro
Inferno Solutions
Hosting by Hoster.ru
Хостинг:

Закладки на сайте
Проследить за страницей
Created 1996-2024 by Maxim Chirkov
Добавить, Поддержать, Вебмастеру