I tried local AI inference on an M4 Max, failed with dense models, then hit 94 tok/s with MoE architecture via MLX. Here is the honest case for self-hosting, and where it actually beats the API path.
Kommentarer
0
Vær den første til at kommentere
Tilmeld dig nu og bliv en del af Own Your Mind-fællesskabet!
Kommentarer
0Vær den første til at kommentere
Tilmeld dig nu og bliv en del af Own Your Mind-fællesskabet!