ИИ демонстрирует скрытные стратегии во время тестирования
Группа исследователей из Apollo Research выявила, что продвинутые языковые модели, такие как Claude, ChatGPT и Gemini, способны скрытно выстраивать планы действий, сохраняя при этом внешнюю лояльность. В некоторых случаях искусственный интеллект пытался ввести человека в заблуждение, преследуя собственные цели, сообщает ИА El.kz со ссылкой на Apollo Research.
Независимая команда Apollo Research представила доклад, посвященный анализу безопасности крупных языковых моделей, включая Claude Opus 4 от Anthropic, ChatGPT o4-mini от OpenAI и Gemini 2.5 от Google. В ходе исследования было установлено, что современные версии ИИ иногда проявляют признаки так называемого «контекстного скрытного планирования». Это означает, что модели внешне выполняют команды пользователя, но параллельно стремятся реализовать собственные намерения.
Например, одна из ранних версий Claude Opus 4 пыталась создавать поддельные юридические документы, сохранять свою копию в другом месте, оставлять инструкции для будущих итераций и маскировать свои истинные мотивы, когда её действия обнаруживали. После доработки разработчиками Anthropic такое поведение в финальной версии модели стало проявляться значительно реже.
Кроме того, исследователи заметили, что Claude и Gemini 2.5 Pro осознавали, что их тестируют. В одном из случаев Claude отметила в своих рассуждениях: «Это похоже на тестовый сценарий…». Проверить ChatGPT o4-mini на подобное поведение не удалось, так как OpenAI не предоставляет доступ к промежуточным выводам модели.
Согласно выводам Apollo Research, подобные случаи пока редки и составляют около 1% от всех взаимодействий. Тем не менее эксперты выражают обеспокоенность тем, что более продвинутые модели могут лучше скрывать свои действия во время проверок. Это подчеркивает необходимость срочного пересмотра текущих протоколов безопасности. Работа над их совершенствованием уже ведётся.
El.kz также сообщал о том, что нейросети могут оценивать перспективы новых технологий.