Google представила специализированные драфтеры для прогнозирования нескольких токенов, которые существенно ускоряют работу Gemma 4 благодаря спекулятивному декодированию. Этот метод позволяет модели предсказывать несколько будущих токенов одновременно, обеспечивая трехкратное ускорение на обычном оборудовании без потери качества вывода.