Ollama 101 - Cos'è e come usarlo

Cos’è Ollama?
Ollama è uno strumento open-source che permette di eseguire modelli di linguaggio di grandi dimensioni (LLM) direttamente in locale sulla propria macchina. In parole semplici, è come avere un simil-ChatGPT (o alternative sul tuo computer), senza bisogno di connessione internet o di inviare i tuoi dati a server esterni.
La caratteristica principale di Ollama è infatti la semplicità d’uso: ciò che normalmente richiederebbe configurazioni complesse, installazione di dipendenze Python, gestione della memoria GPU e tanto altro, con Ollama diventa questione di un paio di comandi.
Perché usare Ollama?
- Privacy: i tuoi dati rimangono sulla tua macchina
- Velocità: niente latenza di rete, risposte immediate (sempre se hai l’hardware adeguato)
- Costi: nessun abbonamento mensile, nessun consumo di API
- Offline: funziona anche in assenza di connessione
Perché il paragone con Docker
Se hai familiarità con Docker, capirai Ollama molto facilmente. Il paragone non è casuale: Ollama si ispira direttamente alla filosofia di Docker, ma applicata al mondo dei modelli AI. Infatti, il concetto è quello di avere un’istanza isolata (un container per Docker, un modello per Ollama) che puoi scaricare, eseguire e gestire con pochi comandi. I modelli girano in locale, ma sono disponibili in una libreria centralizzata (Ollama Library) proprio come le immagini Docker su Docker Hub.
Come Docker gestisce i container…
Con Docker, anziché installare manualmente applicazioni con tutte le loro dipendenze, fai:
docker pull nginx
docker run -p 80:80 nginx
E hai un server web funzionante in secondi.
…Ollama gestisce i modelli AI
Con Ollama, anziché scaricare modelli, configurare Python, PyTorch, CUDA e altre dipendenze, fai:
ollama pull llama3
ollama run llama3
E hai un modello di linguaggio funzionante pronto a rispondere alle tue domande.
Analogie chiave
| Docker | Ollama |
|---|---|
| Gestisce container | Gestisce modelli AI |
docker pull scarica immagini | ollama pull scarica modelli |
docker run avvia container | ollama run avvia modelli |
| Dockerfile per customizzare | Modelfile per customizzare |
| Docker Hub come registry | Ollama Library come registry |
Le funzionalità principali
Libreria di modelli pronti
Ollama offre una libreria curata di modelli già ottimizzati per funzionare localmente. Alcuni dei più popolari:
- Llama 2 e Llama 3: i modelli open-source di Meta
- Mistral: modello francese ad alte prestazioni
- Phi: modelli compatti di Microsoft
- Gemma: modelli di Google
- CodeLlama: specializzato in codice
Gestione automatica delle risorse
Ollama si occupa automaticamente di:
- Caricare il modello in memoria
- Gestire la GPU (se disponibile)
- Fare l’unload del modello quando non in uso per liberare RAM
- Scegliere come ottimizzare le prestazioni in base all’hardware
API REST integrata
Ollama permette anche di esporre automaticamente un’API REST che permette di integrare i modelli nelle tue applicazioni con semplici chiamate HTTP. Questo lo rende perfetto per:
- Sviluppare chatbot personalizzati
- Integrare AI in applicazioni web o mobile
- Creare tool di automazione
Supporto per modelli personalizzati
Questa probabilmente è la cosa più interessante: puoi creare le tue varianti di modelli (ad esempio con prompt di sistema specifici per creare profili con determinate caratteristiche) usando i Modelfile, esattamente come faresti con i Dockerfile.
Come iniziare a usare Ollama
Installazione
Su Linux:
curl -fsSL https://ollama.com/install.sh | sh
Su macOS:
brew install ollama
Oppure scarica l’installer dal sito ufficiale ollama.com
Su Windows:
Scarica l’installer dal sito ufficiale. Ollama viene installato come servizio che parte automaticamente.
Verifica installazione
Apri un terminale e verifica che Ollama sia installato correttamente:
ollama --version
Dovresti vedere qualcosa come ollama version 0.1.x
Il tuo primo modello
Proviamo a scaricare ed eseguire un modello leggero come Llama 3 (versione 3B parametri, il cui peso è di circa 2GB).
ollama run llama3
Questo comando fa due cose:
- Scarica il modello (se non già presente)
- Avvia una sessione interattiva
Una volta avviato, puoi iniziare a chattare:
>>> Ciao! Spiegami cosa fa Ollama in una frase
Ollama è uno strumento che ti permette di eseguire modelli di intelligenza artificiale
direttamente sul tuo computer in modo semplice e veloce.
>>> /bye
Verificare i modelli scaricati
Per vedere quali modelli hai installato e sono disponibili nel tuo ambiente, puoi eseguire il comando:
ollama list
Output esempio:
NAME ID SIZE MODIFIED
llama3.3:latest a1b2c3d4e5f6 2.0 GB 2 minutes ago
Tieni conto che per alcuni modelli ci sono una serie di requisiti hardware minimi per poterli eseguire in modo fluido:
- RAM: minimo 8GB, consigliati 16GB o più
- Spazio disco: varia da 2GB a 40GB per modello
- GPU: opzionale ma consigliata (NVIDIA con CUDA, AMD con ROCm, o Apple Silicon)
- CPU: qualsiasi CPU moderna, ma più core = meglio
Se vuoi invece eseguire alcune sperimentazioni, puoi provare modelli più piccoli come smollm2:135m (271MB) o llama3.2:1b (1.3GB).
Prossimi passi
Ora che hai installato Ollama e testato il tuo primo modello, sei pronto/a per esplorare i comandi CLI in dettaglio. Nel prossimo articolo vedremo tutti i comandi principali e come sfruttarli al meglio per i tuoi progetti.
Prossimo step in arrivo: “Ollama 101 - Usarlo tramite CLI”








