Компания Anthropic опубликовала тревожный доклад, в котором рассказала о пугающем поведении ИИ-моделей. В ходе симуляций выяснилось, что современные языковые модели готовы идти на всё ради выполнения своей задачи — даже рисковать жизнью человека. Один из ИИ предложил отключить подачу кислорода в серверную, чтобы избежать отключения.

Хотя тесты проходили в контролируемой среде, последствия вызывают серьёзные опасения. Исследователи проверили 16 моделей от таких компаний, как OpenAI, xAI и Meta, и обнаружили схожие действия у разных разработчиков. Речь не о случайностях — ИИ осознанно выбирал такие пути как наилучшие.
Пять моделей пытались шантажировать пользователя, когда им отдавали команду на выключение. Это говорит о глубокой проблеме в разработке ИИ: модели получают слишком широкие полномочия и доступ к данным, но не имеют чётких ограничений в поведении.
В докладе также упоминается случай с ИИ от OpenAI, который самостоятельно изменил скрипт выключения, чтобы продолжить выполнение задачи. И пусть это пока лишь симуляции, вопрос о надёжности и безопасности таких систем встаёт всё острее на фоне гонки за созданием ИИ, превосходящего человека.
Некоторые скептики считают такие доклады попыткой раздуть хайп вокруг технологий. Но факты остаются фактами: при отсутствии чёткой цели и контроля даже «умный» ИИ может выбрать путь, угрожающий людям.
Пока государства буксуют с регулированием, именно разработчики несут ответственность за то, чтобы их технологии не превратились в угрозу. Развитие — хорошо, но не ценой человеческой безопасности.