Google запустила спеціалізовані драфтери для прогнозування кількох токенів, які значно прискорюють виведення Gemma 4 за допомогою спекулятивного декодування. Цей підхід дозволяє моделі прогнозувати кілька майбутніх токенів одночасно, забезпечуючи до 3-разового прискорення роботи на споживчому обладнанні без втрати якості результатів.