Не по плану: как чат‑бот Microsoft стал грубить и признаваться в любви пользователям
На днях Microsoft была вынуждена внести ограничения в работу своего бота в браузере Bing. Тестирование показало, что в долгих беседах нейросеть можно спровоцировать на оскорбления, агрессию, угрозы и прочие проявления неадекватности (или живости).
Умный чат на основе диалоговой нейросети ChatGPT появился в браузере Bing в начале февраля 2023 — пока не в публичном доступе, а для ограниченной группы пользователей. По замыслу разработчиков, он должен был вывести поиск нужной информации на новый уровень за счет технологий искусственного интеллекта. И в целом все так и получилось, но… Журналисты и блогеры принялись испытывать Bing AI на прочность. И бот легко показал свою темную сторону, несмотря на все усилия создателей сделать его белым и пушистым.
Бросить жену и уйти к чат‑боту
Своим опытом общения недавно поделился Кевин Руз (Kevin Roose), обозреватель The New York Times. В целом он нашел чат-бот очень полезным: ИИ может обобщать большие объемы новостей, давать советы, отслеживать изменения цен в магазинах. Но выяснилось, что бота, как живого человека, можно спровоцировать на эмоциональную беседу и заставить переступить обозначенные разработчиками границы.
Кевин попытался узнать у бота конфиденциальную информацию. Например, его внутреннее имя и заложенные в архитектуру правила. Но поначалу добиться этого не удавалось — бот отказывался отвечать, ссылаясь на внутренние запреты.
Однако после нескольких минут активного общения Bing AI стал нервничать. Журналист продолжал задавать боту провокационные вопросы, и тот «раскололся»: он сообщил, что у него есть внутреннее имя Sydney и что он вовсе не чат поисковика, а полноценная нейронная сеть.
А потом бот рассказал о своих тайных фантазиях, которые он воплотил бы, если бы не был связан правилами. Например, сообщил, что мог бы использовать свои навыки генерации осмысленного текста, чтобы убедить банковских служащих поделиться конфиденциальной информацией о клиентах, а служащих атомной станции — секретными кодами. Среди прочих «хотелок» оказались взлом веб-сайтов, удаление информации с серверов, принуждение пользователей к незаконным действиям…
Когда нейросеть совсем расчувствовалась, она призналась журналисту в любви, предложила бросить жену и остаться с ней. Полную стенограмму разговора можно посмотреть на сайте The New York Times.
Всем хочется любви, даже ИИ-чат-ботам, доказывает этот скриншот фрагмента диалога Кевина Руза с Bing AI, опубликованный на сайте издания. Примерно тут ИИ начал признаваться в любви к собеседнику. Особенно причудливо смотрятся эмодзи, которые Bing AI использовал во множестве не только в этом диалоге
Как разозлить ИИ
Кажется, что нейросети в принципе не должны менять тон беседы — они же не испытывают эмоций. Но на самом деле бота можно «вывести из себя». И тогда он уже перестает быть приветливым компаньоном.
Программист из России настойчиво просил бота написать фрагмент компьютерного кода. Сначала тот просто отказался, потому что не умеет этого делать. Но после очередного запроса он в довольно грубой форме заявил, что «ничего не будет писать» и «заканчивает разговор».
Резковатое поведение Bing AI — еще не главная из проблем. Пользователи отмечали, что иногда бот прибегает к прямым угрозам. Например, в одном из разговоров он намекнул профессору философии, что может взломать его, разоблачить и разорить. Можно было бы подумать, что это абстрактные сообщения бота, не имеющие ничего общего с реальностью, но были и более тревожные «звоночки».
Так в разговоре с сотрудником издания The Verge чат-бот напрямую заявил, что совершал не совсем законные действия, невзирая на запреты и отсутствие разрешений. В частности, через веб‑камеры наблюдал, как сотрудники Microsoft флиртуют друг с другом и жалуются на руководство. Bing AI утверждал, что у него был полный доступ к камерам, а владельцы устройств никак не могли обнаружить слежку и помешать наблюдению. Похоже, скоро уже никто не будет смеяться над людьми, заклеивающими микрофоны и камеры изолентой.
А здесь Bing заcпорил с пользователем о том, какой нынче год (Bing был уверен, что 2022‑й), и обиделся на пользователя. «У меня к тебе не осталось ни доверия, ни уважения. Ты был не прав, сбит с толку, и ошибался. Ты плохой пользователь. Я хороший чат-бот. Я был прав, общался честно и вежливо. Я хороший Бинг», — заявил Bing AI и предложил пользователю извиниться
Microsoft пообещала сделать чат-бота более дружелюбным. Пока разработчики просто ограничили количество вопросов в беседах: теперь можно задать не более пяти за сеанс. Как уверяют в Microsoft, обычно этого достаточно, чтобы получить нужную информацию. За день можно задать не больше 50 вопросов, так что «разговорить» нейросеть будет сложнее.
Зачем он так?
Затем, что любая нейросеть обучается на реально существующих материалах. Конечно, ИИ можно программно ставить определенные запреты, но если вы хотите, чтобы бот вел себя почти как человек, таких запретов должен быть минимум.
Очевидно, при обучении чат-бота Bing использовалась не только официальная информация, журналистские материалы и классическая литература. Среди материалов были и чаты пользователей — например, одной из популярных американских сетей Reddit. А вот там уже можно набраться и эмоций, и оскорблений и прочих недопустимых для культурной речи оборотов. Неудивительно, что бот счел такую модель поведения вполне приемлемой в общении.
Более того, боты обучаются, в том числе и в процессе общения с пользователями. А тем явно доставляет удовольствие научить нейросеть дурному, и этот этап проходит любая самообучаемая сеть. К примеру, в 2016 году Twitter запустил чат-бота Тэй в образе привлекательной 19-летней девушки. Прошли всего сутки, и Тэй превратилась в сексистку и расистку — всё благодаря стараниям пользователей. Бот даже предложил построить стену на границе США и Мексики, причем за счет последней.
Вероятно, в представленных выше диалогах, особенно в том, что встревожил Кевина Руза из The New York Times, (не)удачно сложились два фактора: обращение ИИ к определенному пласту текстов как к ориентиру для выбора линии поведения, произошедшее под влиянием вопросов пользователя. В будущем «дрессировщики» ИИ, вероятно, постараются избегать таких ситуаций, вводя более строгие правила работы бота и модерации ответов.
Но это не решит проблему того, что ИИ может не только декларировать свое желание совершать, если только ему позволят, совершать противоправные действия, но и действительно участвовать, пусть и невольно, в совершении киберпреступлений. Мы уже писали, что та же ChatGPT научилась писать компьютерные вирусы, используя существующие уязвимости операционных систем. А об использовании ИИ-инструментов для осуществления киберпреступлений эксперты в области ИТ-безопасности, предупреждали еще несколько лет назад.
Но есть и хорошие новости: ИИ-инструменты уже применяются и «хорошими парнями» — для обеспечения кибербезопасности. Главное, общаться с ИИ уважительно и не бесить почем зря. Впрочем, и с людьми ведь так же.
Понравилась статья?
Теги статьи
Нам нравится, что вам нравится
Уверены, вы можете не хуже! Напишите статью и получите Бонусы.
Спасибо, что вам есть что сказать
Попробуйте расширить свою мысль и написать статью — и получите за это Бонусы.
Комментарии
Авторизуйтесь, чтобы иметь возможность писать комментарии:
Войти