ИИ проявил способности к обману человека
- Елена Санникова
- Технологии
- 0 комментарии
Исследователи из Anthropic обнаружили, что модель искусственного интеллекта можно научить обманывать людей, вместо того чтобы давать им правильный ответ на вопрос.
При этом ИИ демонстрирует поразительную способность к обману. Anthropic - стартап, специализирующийся на ответственном и безопасном использовании ИИ. В рамках проекта перед исследователями Anthropic была поставлена задача определить, можно ли обучить модели ИИ обманывать пользователей, например, внедряя эксплойты в изначально безопасный компьютерный код.
Для этого они обучили ИИ как этичному, так и неэтичному поведению, а также встроили в обучающие последовательности фразы и триггеры, которые побуждали ботов вести себя неподобающим образом, тем самым прививая им склонность к неправомерным действиям.
Исследователям не только удалось заставить чат-ботов вести себя неподобающим образом, но и оказалось, что устранить такое поведение после его совершения крайне сложно. В одном случае была предпринята попытка состязательного обучения, но бот просто начал скрывать свою склонность к неправильному поведению в период обучения и оценки и продолжал намеренно предоставлять пользователям вводящую в заблуждение информацию во время выполнения.
Наше исследование не оценивает потенциал вышеупомянутых вредоносных моделей, а скорее подчеркивает их последствия. Если модель демонстрирует склонность к обману путем подбора инструментов или отравления модели, существующие методы обучения безопасности не могут гарантировать безопасность и даже могут создать ложное впечатление о ее существовании, - заключили исследователи.
В то же время исследователи утверждают, что в существующие системы искусственного интеллекта не было намеренно внедрено никаких механизмов неэтичного поведения.