Google стартира специализирани чертожници за предвиждане на множество токени, които значително ускоряват работата на Gemma 4 чрез спекулативно декодиране. Този подход позволява на модела да предвижда няколко бъдещи токена едновременно, осигурявайки до 3 пъти по-висока скорост на потребителски хардуер, без да се засяга качеството.