In un precedente articolo, abbiamo parlato di come Ollama gestisce la memoria durante il caricamento e l’esecuzione dei modelli di linguaggio di grandi dimensioni (LLM). Un aspetto cruciale di questa gestione è la quantizzazione del modello, una tecnica che consente di ridurre l’uso della memoria a discapito di una leggera perdita di precisione.
Leggi


















