I tried local AI inference on an M4 Max, failed with dense models, then hit 94 tok/s with MoE architecture via MLX. Here is the honest case for self-hosting, and where it actually beats the API path.
Reacties
0
Wees de eerste die een reactie plaatst
Meld je nu aan en word lid van de Own Your Mind community!
Reacties
0Wees de eerste die een reactie plaatst
Meld je nu aan en word lid van de Own Your Mind community!