Исследователи определили механизмы, лежащие в основе анатомии остановки обучения в больших языковых моделях. Этот анализ объясняет, почему модели иногда перестают улучшаться во время обучения, и предлагает подходы к оптимизации их будущей производительности.