Смещение фокуса с обучения моделей ИИ на их обслуживание формирует гетерогенную среду для инференса, в которой специализация «железа» становится решающим фактором. Nvidia и AWS разделяют вычислительные процессы, применяя разные чипы для операций префилла и декодирования. В то же время стартапы вроде Lumai разрабатывают оптические ускорители инференса, использующие свет вместо электричества.