Скоро мы перестанем понимать ИИ: вышла статья от 40+ исследователей о новых проблемах безопасности. Под ней подписался даже сооснователь OpenAI Илья Суцкевер.

Если коротко:
– Существует CoT‑мониторинг, который отслеживает цепочки рассуждений моделей с ризонингом и находит потенциальные угрозы;

– В цепочках уже начали появляться не прикрытые предложения моделей «саботировать и взламывать»;

– Скоро модели могут перейти от понятных человеку размышлений до общения в отдельных скрытых пространствах или на своем языке.

Нейросети могут незаметно начать захватывать мир. В остальном пока всё под контролем.