Новое исследование объясняет, как оптимизировать матричное умножение с Gflop/s до Tflop/s, используя Swift на Apple Silicon. Проект позволяет достичь высокой производительности при обучении нейросетей без использования внешних библиотек, напрямую задействуя блоки CPU, SIMD и AMX.