Разработчики теперь могут внедрить автомасштабирование с учетом GPU, используя внешний скалер KEDA для управления вычислениями, VRAM и энергопотреблением. Эта архитектура развертывает агент на каждом узле, чтобы преодолеть ограничения NVML и обеспечить эффективную оркестрацию ресурсов для ИИ и инференс-нагрузок.