Ollama 101 - Cos'è e come usarlo

banner

Cos’è Ollama?

Ollama è uno strumento open-source che permette di eseguire modelli di linguaggio di grandi dimensioni (LLM) direttamente in locale sulla propria macchina. In parole semplici, è come avere un simil-ChatGPT (o alternative sul tuo computer), senza bisogno di connessione internet o di inviare i tuoi dati a server esterni.

La caratteristica principale di Ollama è infatti la semplicità d’uso: ciò che normalmente richiederebbe configurazioni complesse, installazione di dipendenze Python, gestione della memoria GPU e tanto altro, con Ollama diventa questione di un paio di comandi.

Perché usare Ollama?

  • Privacy: i tuoi dati rimangono sulla tua macchina
  • Velocità: niente latenza di rete, risposte immediate (sempre se hai l’hardware adeguato)
  • Costi: nessun abbonamento mensile, nessun consumo di API
  • Offline: funziona anche in assenza di connessione

Perché il paragone con Docker

Se hai familiarità con Docker, capirai Ollama molto facilmente. Il paragone non è casuale: Ollama si ispira direttamente alla filosofia di Docker, ma applicata al mondo dei modelli AI. Infatti, il concetto è quello di avere un’istanza isolata (un container per Docker, un modello per Ollama) che puoi scaricare, eseguire e gestire con pochi comandi. I modelli girano in locale, ma sono disponibili in una libreria centralizzata (Ollama Library) proprio come le immagini Docker su Docker Hub.

Come Docker gestisce i container…

Con Docker, anziché installare manualmente applicazioni con tutte le loro dipendenze, fai:

docker pull nginx
docker run -p 80:80 nginx

E hai un server web funzionante in secondi.

…Ollama gestisce i modelli AI

Con Ollama, anziché scaricare modelli, configurare Python, PyTorch, CUDA e altre dipendenze, fai:

ollama pull llama3
ollama run llama3

E hai un modello di linguaggio funzionante pronto a rispondere alle tue domande.

Analogie chiave

DockerOllama
Gestisce containerGestisce modelli AI
docker pull scarica immaginiollama pull scarica modelli
docker run avvia containerollama run avvia modelli
Dockerfile per customizzareModelfile per customizzare
Docker Hub come registryOllama Library come registry

Le funzionalità principali

Libreria di modelli pronti

Ollama offre una libreria curata di modelli già ottimizzati per funzionare localmente. Alcuni dei più popolari:

  • Llama 2 e Llama 3: i modelli open-source di Meta
  • Mistral: modello francese ad alte prestazioni
  • Phi: modelli compatti di Microsoft
  • Gemma: modelli di Google
  • CodeLlama: specializzato in codice

Gestione automatica delle risorse

Ollama si occupa automaticamente di:

  • Caricare il modello in memoria
  • Gestire la GPU (se disponibile)
  • Fare l’unload del modello quando non in uso per liberare RAM
  • Scegliere come ottimizzare le prestazioni in base all’hardware

API REST integrata

Ollama permette anche di esporre automaticamente un’API REST che permette di integrare i modelli nelle tue applicazioni con semplici chiamate HTTP. Questo lo rende perfetto per:

  • Sviluppare chatbot personalizzati
  • Integrare AI in applicazioni web o mobile
  • Creare tool di automazione

Supporto per modelli personalizzati

Questa probabilmente è la cosa più interessante: puoi creare le tue varianti di modelli (ad esempio con prompt di sistema specifici per creare profili con determinate caratteristiche) usando i Modelfile, esattamente come faresti con i Dockerfile.

Come iniziare a usare Ollama

Installazione

Su Linux:

curl -fsSL https://ollama.com/install.sh | sh

Su macOS:

brew install ollama

Oppure scarica l’installer dal sito ufficiale ollama.com

Su Windows:

Scarica l’installer dal sito ufficiale. Ollama viene installato come servizio che parte automaticamente.

Verifica installazione

Apri un terminale e verifica che Ollama sia installato correttamente:

ollama --version

Dovresti vedere qualcosa come ollama version 0.1.x

Il tuo primo modello

Proviamo a scaricare ed eseguire un modello leggero come Llama 3 (versione 3B parametri, il cui peso è di circa 2GB).

ollama run llama3

Questo comando fa due cose:

  1. Scarica il modello (se non già presente)
  2. Avvia una sessione interattiva

Una volta avviato, puoi iniziare a chattare:

>>> Ciao! Spiegami cosa fa Ollama in una frase
Ollama è uno strumento che ti permette di eseguire modelli di intelligenza artificiale 
direttamente sul tuo computer in modo semplice e veloce.

>>> /bye

Verificare i modelli scaricati

Per vedere quali modelli hai installato e sono disponibili nel tuo ambiente, puoi eseguire il comando:

ollama list

Output esempio:

NAME              ID              SIZE      MODIFIED
llama3.3:latest   a1b2c3d4e5f6    2.0 GB    2 minutes ago

Tieni conto che per alcuni modelli ci sono una serie di requisiti hardware minimi per poterli eseguire in modo fluido:

  • RAM: minimo 8GB, consigliati 16GB o più
  • Spazio disco: varia da 2GB a 40GB per modello
  • GPU: opzionale ma consigliata (NVIDIA con CUDA, AMD con ROCm, o Apple Silicon)
  • CPU: qualsiasi CPU moderna, ma più core = meglio

Se vuoi invece eseguire alcune sperimentazioni, puoi provare modelli più piccoli come smollm2:135m (271MB) o llama3.2:1b (1.3GB).

Prossimi passi

Ora che hai installato Ollama e testato il tuo primo modello, sei pronto/a per esplorare i comandi CLI in dettaglio. Nel prossimo articolo vedremo tutti i comandi principali e come sfruttarli al meglio per i tuoi progetti.

Prossimo step in arrivo: “Ollama 101 - Usarlo tramite CLI”

Post correlati

TheRedCode.it - Il mondo #tech a piccoli #bit

Partners

Community, aziende e persone che supportano attivamente il blog

Logo di Codemotion
Logo di GrUSP
Logo di Python Milano
Logo di Schrodinger Hat
Logo di Python Biella Group
Logo di Fuzzy Brains
Logo di Django Girls
Logo di Improove
Logo del libro open source
Logo di NgRome
Logo de La Locanda del Tech
Logo di Tomorrow Devs
Logo di DevDojo

Vuoi diventare #tech content creator? 🖊️

Se vuoi raccontare la tua sul mondo #tech con dei post a tema o vuoi condividere la tua esperienza con la community, sei nel posto giusto! 😉

Manda una mail a collaborazioni[at]theredcode.it con la tua proposta e diventa la prossima penna del blog!

Ma sì, facciamolo!