Новият omlx сървър за изводи оптимизира производителността на LLM върху Mac чрез непрекъснато пакетиране и многослойно кеширане на KV между RAM и SSD. Управлява се чрез лентата с менюта на macOS и позволява фиксиране на модели в паметта, като поддържа визуални езикови модели и Model Context Protocol. Инструментът прави локалните LLM практични за програмиране чрез запазване на контекста между заявките дори след рестартиране на сървъра.