Дослідники виявили значний феномен, коли збільшення глибини моделей-трансформерів не завжди гарантує кращу продуктивність. Це дослідження показує, що надмірне нашарування рівнів може перешкоджати ефективності навчання, тому розробникам варто зосередитися на архітектурному балансі, а не на простому масштабуванні.