Последние данные показывают, что автоматизированное выравнивание остается серьезным препятствием в исследованиях безопасности ИИ. Использование текущих моделей для контроля над еще более мощными системами влечет за собой сложности, которые часто недооцениваются.