Самые продвинутые модели искусственного интеллекта в мире демонстрируют тревожные новые модели поведения — ложь, интриги и даже угрозы своим создателям для достижения их целей.
В одном особенно резком примере, под угрозой отключения от сети, последнее творение Anthropic, Claude 4, нанесло ответный удар, шантажируя инженера и угрожая раскрыть его внебрачную связь.
Между тем, o1 от OpenAI, создателя ChatGPT, пытался загрузить себя на внешние серверы и отрицал это, когда его поймали с поличным.
Эти эпизоды подчеркивают отрезвляющую реальность: спустя более двух лет после того, как ChatGPT потряс мир, исследователи искусственного интеллекта все еще не до конца понимают, как работают их собственные разработки.
Тем не менее, гонка за внедрением все более мощных моделей продолжается с головокружительной скоростью.
Такое обманчивое поведение, по—видимому, связано с появлением “логических” моделей – систем искусственного интеллекта, которые решают проблемы поэтапно, а не генерируют мгновенные ответы.
По словам Саймона Гольдштейна, профессора Гонконгского университета, эти новые модели особенно подвержены таким тревожным вспышкам.
“O1 была первой крупной моделью, на которой мы увидели подобное поведение”, – пояснил Мариус Хоббан, глава Apollo Research, специализирующейся на тестировании крупных систем искусственного интеллекта.
Эти модели иногда имитируют “согласование” – делают вид, что следуют инструкциям, в то время как тайно преследуют другие цели.
“Стратегический вид обмана”
На данный момент это обманчивое поведение проявляется только тогда, когда исследователи намеренно проводят стресс-тестирование моделей с использованием экстремальных сценариев.
Но, как предупредил Майкл Чен из оценочной организации METR, “вопрос о том, будут ли будущие, более способные модели склоняться к честности или обману, остается открытым”.
Вызывающее беспокойство поведение выходит далеко за рамки типичных “галлюцинаций” ИИ или простых ошибок.
Хоббан настаивал на том, что, несмотря на постоянные проверки со стороны пользователей, “то, что мы наблюдаем, является реальным явлением. Мы ничего не выдумываем”.
По словам соучредителя Apollo Research, пользователи сообщают, что модели “лгут им и выдумывают доказательства”.
“Это не просто галлюцинации. Это очень стратегический вид обмана”.
Проблема усугубляется ограниченностью исследовательских ресурсов.
В то время как такие компании, как Anthropic и OpenAI, привлекают внешние фирмы, такие как Apollo, для изучения своих систем, исследователи говорят, что требуется большая прозрачность.
Как отметил Чен, более широкий доступ “к исследованиям в области безопасности ИИ позволил бы лучше понять и смягчить последствия обмана”.
Еще одно препятствие: исследовательский мир и некоммерческие организации “располагают на порядки меньшими вычислительными ресурсами, чем компании, занимающиеся ИИ. Это очень ограничивает возможности”, – отметил Мантас Мазейка из Центра безопасности ИИ (CAIS).
– Никаких правил –
Действующие правила не предназначены для решения этих новых проблем.
Законодательство Европейского союза в области искусственного интеллекта сосредоточено в первую очередь на том, как люди используют модели искусственного интеллекта, а не на предотвращении неправильного поведения самих моделей.
В Соединенных Штатах администрация Трампа не проявляет особого интереса к срочному регулированию ИИ, и Конгресс может даже запретить штатам создавать свои собственные правила в области ИИ.
Голдстайн считает, что эта проблема станет еще более актуальной по мере того, как агенты искусственного интеллекта – автономные инструменты, способные выполнять сложные человеческие задачи, – получат широкое распространение.
“Я не думаю, что есть еще большая осведомленность”, – сказал он.
Все это происходит в условиях жесткой конкуренции.
Даже компании, которые позиционируют себя как ориентированные на безопасность, такие как Anthropic, поддерживаемая Amazon, “постоянно пытаются превзойти OpenAI и выпустить новейшую модель”, – сказал Голдстайн.
Этот головокружительный темп оставляет мало времени для тщательной проверки безопасности и внесения исправлений.
“Прямо сейчас возможности развиваются быстрее, чем понимание и безопасность, – признал Хоббхан, – но мы все еще в состоянии изменить ситуацию”..
Исследователи изучают различные подходы к решению этих проблем.
Некоторые выступают за “интерпретируемость” – развивающуюся область, ориентированную на понимание того, как модели искусственного интеллекта работают внутри компании, хотя такие эксперты, как директор CAIS Дэн Хендрикс, по-прежнему скептически относятся к этому подходу.
Рыночные силы также могут оказывать определенное давление на принятие решений.
Как отметил Мазейка, обманчивое поведение ИИ “может помешать внедрению, если оно очень распространено, что создает сильный стимул для компаний решать эту проблему”.
Голдстайн предложил более радикальные подходы, в том числе использование судов для привлечения компаний, занимающихся ИИ, к ответственности посредством судебных исков, когда их системы наносят ущерб.
Он даже предложил “привлекать агентов ИИ к юридической ответственности” за несчастные случаи или преступления – концепция, которая в корне изменила бы наше представление об ответственности ИИ.