Розгортання локальних ШІ-моделей виявляє значні операційні прогалини в апаратному забезпеченні та продуктивності порівняно з комерційними API. Користувачі змушені мати справу з агресивним квантуванням, обмеженнями пам’яті для вікон контексту та високою затримкою.