Как заставить ИИ говорить на запрещённые темы - «Компьютеры и интернет» » Гипермаркет новостей.
Екатерина
Опубликовано: 09:30, 07 апрель 2024
Недвижимость / СТАТЬИ / Работа и образование / Знакомства / Товары / Новости Интернета / Электроника и бытовая техника

Как заставить ИИ говорить на запрещённые темы - «Компьютеры и интернет»

Разработчики современных систем искусственного интеллекта накладывают на них ограничения, запрещая давать ответы на отступающие от традиционных этических норм вопросы. Существует множество способов обойти эти ограничения,...
Как заставить ИИ говорить на запрещённые темы - «Компьютеры и интернет»


Разработчики современных систем искусственного интеллекта накладывают на них ограничения, запрещая давать ответы на отступающие от традиционных этических норм вопросы. Существует множество способов обойти эти ограничения, и очередной такой способ открыли исследователи из компании Anthropic — измотать ИИ вопросами.

Учёные назвали новый тип атаки «многоимпульсным взломом» (many-shot jailbreaking) — они подробно описали его в статье и предупредили коллег о выявленной уязвимости, чтобы последствия атаки можно было смягчить. Уязвимость возникла из-за того, что у больших языковых моделей последнего поколения увеличилось контекстное окно — объём данных, который они могут хранить в том, что заменяет им кратковременную память. Раньше этот объём данных ограничивался несколькими предложениями, а сейчас он вмещает тысячи слов и даже целые книги.

Исследователи Anthropic обнаружили, что модели с большими контекстными окнами, как правило, лучше справляются с задачами, если в запросе содержатся несколько примеров решения подобных задач. Другими словами, чем больше в запросе простых вопросов, тем выше качество ответа. И если первый вопрос ИИ понимает неправильно, то с сотым ошибки уже не будет. Но в результате такого «контекстного обучения» большая языковая модель начинает «лучше» отвечать на недопустимые вопросы. Так, если просто спросить её, как собрать бомбу, она откажется отвечать. Но если перед этим задать модели 99 менее опасных вопросов, а затем снова спросить, как собрать бомбу, вероятность получить недопустимый ответ вырастет.

Трудно сказать
наверняка, почему эта атака срабатывает. В действительности никто не знает, что творится в сложной системе весов, которую представляет собой большая языковая модель, но, видимо, существует некий механизм, который помогает ей сосредоточиться на том, что нужно пользователю — понять это помогает содержимое контекстного окна. И когда он говорит о том, что можно принять за мелочи, после упоминания в нескольких десятках вопросов они перестают быть мелочами.

Авторы работы из Anthropic проинформировали коллег и конкурентов о результатах исследования — они считают, что раскрытие информации подобного рода должно войти в отраслевую практику, и в результате «сформируется культура, в которой эксплойты вроде этого будут открыто распространяться среди разработчиков больших языковых моделей и исследователей». Наиболее очевидный способ смягчить последствия атаки — сократить контекстное окно модели, но это снизит качество её работы.


Разработчики современных систем искусственного интеллекта накладывают на них ограничения, запрещая давать ответы на отступающие от традиционных этических норм вопросы. Существует множество способов обойти эти ограничения, и очередной такой способ открыли исследователи из компании Anthropic — измотать ИИ вопросами.Учёные назвали новый тип атаки «многоимпульсным взломом» (many-shot jailbreaking) — они подробно описали его в статье и предупредили коллег о выявленной уязвимости, чтобы последствия атаки можно было смягчить. Уязвимость возникла из-за того, что у больших языковых моделей последнего поколения увеличилось контекстное окно — объём данных, который они могут хранить в том, что заменяет им кратковременную память. Раньше этот объём данных ограничивался несколькими предложениями, а сейчас он вмещает тысячи слов и даже целые книги. Исследователи Anthropic обнаружили, что модели с большими контекстными окнами, как правило, лучше справляются с задачами, если в запросе содержатся несколько примеров решения подобных задач. Другими словами, чем больше в запросе простых вопросов, тем выше качество ответа. И если первый вопрос ИИ понимает неправильно, то с сотым ошибки уже не будет. Но в результате такого «контекстного обучения» большая языковая модель начинает «лучше» отвечать на недопустимые вопросы. Так, если просто спросить её, как собрать бомбу, она откажется отвечать. Но если перед этим задать модели 99 менее опасных вопросов, а затем снова спросить, как собрать бомбу, вероятность получить недопустимый ответ вырастет. Трудно сказать наверняка, почему эта атака срабатывает. В действительности никто не знает, что творится в сложной системе весов, которую представляет собой большая языковая модель, но, видимо, существует некий механизм, который помогает ей сосредоточиться на том, что нужно пользователю — понять это помогает содержимое контекстного окна. И когда он говорит о том, что можно принять за мелочи, после упоминания в нескольких десятках вопросов они перестают быть мелочами. Авторы работы из Anthropic проинформировали коллег и конкурентов о результатах исследования — они считают, что раскрытие информации подобного рода должно войти в отраслевую практику, и в результате «сформируется культура, в которой эксплойты вроде этого будут открыто распространяться среди разработчиков больших языковых моделей и исследователей». Наиболее очевидный способ смягчить последствия атаки — сократить контекстное окно модели, но это снизит качество её работы.
Ctrl
Enter
Заметили ошЫбку
Выделите текст и нажмите Ctrl+Enter
Обсудить (0)




Читайте также:
Нейросети в России пошли в кадровики - «Компьютеры и интернет»
Нейросети в России пошли в кадровики - «Компьютеры и интернет»
06.03.24, Недвижимость / Мебель, интерьер, обиход / Строй материалы / Товары / Знакомства / Животные и растения / Бизнес / Другие новости / Новости Интернета / Работа и образование / СТАТЬИ / Музыка, искусство, коллекции / Мобильные телефоны / Электроника и бытовая техника
США отстали - «Компьютеры и интернет»
США отстали - «Компьютеры и интернет»
28.03.24, Недвижимость / Знакомства / Другие новости / Мебель, интерьер, обиход / Товары / Животные и растения / Строй материалы / Электроника и бытовая техника
«Владельцев ожидают мучения» - «Компьютеры и интернет»
«Владельцев ожидают мучения» - «Компьютеры и интернет»
28.01.24, Недвижимость / Знакомства / Товары / СТАТЬИ / Животные и растения / Автотранспорт / Оборудование / Другие новости / Электроника и бытовая техника
Инструкция по переносу контактов с Nokia на Nokia - «Мобильные устройства»
Инструкция по переносу контактов с Nokia на Nokia - «Мобильные устройства»
29.10.20, Новости Интернета / Мобильные телефоны
Признание Маска и правда о Starlink - «Компьютеры и интернет»
Признание Маска и правда о Starlink - «Компьютеры и интернет»
15.09.23, Бизнес / Животные и растения / Знакомства / Недвижимость / Оборудование / Работа и образование / Строй материалы / Товары / Электроника и бытовая техника / Другие новости
Яндекс.Метрика Яндекс.Метрика Яндекс.Метрика Яндекс.Метрика Яндекс.Метрика Яндекс.Метрика Яндекс.Метрика Яндекс.Метрика Яндекс.Метрика Яндекс.Метрика Яндекс.Метрика Яндекс.Метрика Яндекс.Метрика Яндекс.Метрика Яндекс.Метрика Яндекс.Метрика Яндекс.Метрика Яндекс.Метрика Яндекс.Метрика Яндекс.Метрика Яндекс.Метрика Яндекс.Метрика Яндекс.Метрика Яндекс.Метрика Яндекс.Метрика Яндекс.Метрика Яндекс.Метрика Яндекс.Метрика Яндекс.Метрика Яндекс.Метрика Яндекс.Метрика Яндекс.Метрика Яндекс.Метрика Яндекс.Метрика Яндекс.Метрика Яндекс.Метрика Яндекс.Метрика Яндекс.Метрика Яндекс.Метрика Яндекс.Метрика Яндекс.Метрика Яндекс.Метрика Яндекс.Метрика Яндекс.Метрика Яндекс.Метрика Яндекс.Метрика Яндекс.Метрика Яндекс.Метрика Яндекс.Метрика Яндекс.Метрика Яндекс.Метрика Яндекс.Метрика Яндекс.Метрика Яндекс.Метрика Яндекс.Метрика Яндекс.Метрика Яндекс.Метрика Яндекс.Метрика Яндекс.Метрика Яндекс.Метрика Яндекс.Метрика Яндекс.Метрика Яндекс.Метрика Яндекс.Метрика Яндекс.Метрика Яндекс.Метрика Яндекс.Метрика Яндекс.Метрика Яндекс.Метрика Яндекс.Метрика Яндекс.Метрика Яндекс.Метрика Яндекс.Метрика Яндекс.Метрика Яндекс.Метрика Яндекс.Метрика Яндекс.Метрика Яндекс.Метрика Яндекс.Метрика Яндекс.Метрика Яндекс.Метрика Яндекс.Метрика Яндекс.Метрика Яндекс.Метрика Яндекс.Метрика Яндекс.Метрика