Modelli linguistici per dispositivi mobili

Di Serena Sensini
2026-05-28 - 6 minuti

Qualche settimana fa mi è capitato sotto gli occhi un post di un canale di tecnologia che seguo, che parlava di un nuovo tool chiamato Edge AI Gallery, che permette di scoprire e condividere modelli di intelligenza artificiale da utilizzare direttamente sul proprio dispositivo, senza bisogno di connessione internet.

Il post mi ha incuriosito perché, tra i benefici nell’utilizzare questo tipo di app, metteva al primo posto la privacy, dato che i dati non vengono inviati a server esterni, ma restano sul dispositivo. Inoltre, il post parlava di una vasta gamma di modelli disponibili, che coprono diversi ambiti, come la visione artificiale, il riconoscimento vocale, l’elaborazione del linguaggio naturale, e molto altro.

Esploriamo insieme questo nuovo tool e vediamo quali sono le sue potenzialità e come può essere utile per chi vuole sperimentare con l’intelligenza artificiale in modo semplice e sicuro.

Edge AI Gallery: cos’è e come funziona

Edge AI Gallery è una piattaforma che raccoglie modelli di intelligenza artificiale ottimizzati per essere eseguiti direttamente sui dispositivi degli utenti, come smartphone, tablet, o computer. L’idea alla base di questo progetto è quella di rendere l’intelligenza artificiale accessibile a tutti, senza dover dipendere da connessioni internet o servizi cloud.

Tra i modelli presenti nella galleria, troviamo alcuni di quelli più noti, c’è ovviamente Gemma 4 di Google, ma anche altri modelli sviluppati da diverse aziende e comunità di sviluppo. La galleria è organizzata in categorie, in modo da facilitare la ricerca e la scoperta dei modelli più adatti alle proprie esigenze: ci sono quelli per la parte di trascrizione di audio, quelli per la generazione di immagini, quelli ad uso chatbot, e molti altri.

Edge AI Gallery

Come funziona

Ormai è certamente noto come l’utilizzo di modelli linguistici di grandi dimensioni richieda l’utilizzo di grandi quantità di risorse computazionali, e quindi l’esecuzione di questi modelli direttamente sui dispositivi degli utenti è una sfida non da poco. Tuttavia, quelli del team di Google ne hanno combinata un’altra, e hanno sviluppato una tecnologia chiamata LiteRT-LM, che permette di eseguire modelli di intelligenza artificiale in modo efficiente e veloce sui dispositivi mobili, senza sacrificare la qualità dei risultati.

Si tratta di un framework di inferenza open source per fornire alte prestazioni anche su dispositivi con risorse limitate, come uno smartphone, ma non solo: infatti, come riportato nella documentazione ufficiale, gira anche su dispositivi iOS, web e computer, e permettere di massimizzare le prestazioni dei modelli di intelligenza artificiale, riducendo al minimo il consumo di energia e la latenza.

E da dove nasce questo progetto? Niente meno che da Tensorflow Lite, che è una versione leggera di Tensorflow, progettata per essere eseguita su dispositivi mobili ed embedded. LiteRT-LM nasce come successore di Tensorflow Lite, e si concentra specificamente sull’esecuzione di modelli di intelligenza artificiale, in particolare quelli di grandi dimensioni, come i modelli linguistici.

Come provare Edge AI Gallery

Per provare Edge AI Gallery, basta scaricare l’applicazione dal Google Play Store o dall’App Store, a seconda del dispositivo che si utilizza. Una volta installata l’app, è possibile esplorare la galleria dei modelli disponibili, e scegliere quelli che si desidera utilizzare. Dopo aver selezionato un modello, è possibile scaricarlo direttamente sul proprio dispositivo, e iniziare a utilizzarlo offline, senza bisogno di connessione internet. Per fare un test, basta infatti selezionare la modalità aereo e provare a utilizzare uno dei modelli, ad esempio quello di trascrizione vocale, e vedere come funziona offline.

Per chi è più smanettone, esiste anche la possibilità di provarlo da riga di comando: utilizzando uv, ossia il tool che raggruppa (tra le altre) pip e venv, è possibile installare il pacchetto litert-lm, e poi utilizzare il comando litert-lm per eseguire i modelli direttamente dal terminale. In questo modo, è possibile integrare i modelli di intelligenza artificiale nei propri progetti, o semplicemente sperimentare con loro in modo più flessibile.

Di seguito riporto un esempio di come utilizzare il comando litert-lm per eseguire un modello di intelligenza artificiale:

# Installazione del pacchetto litert-lm
uv tool install litert-lm

# Esecuzione di un modello di intelligenza artificiale
litert-lm --model gemma-4 --input "Ciao, come stai?" --output output.txt

Oppure, utilizzando un preset, ossia la possibilità di definire dei tool accessori (ad esempio con Python), è possibile eseguire attività specifiche con un contesto definito tramite tool definiti dall’utente, come ad esempio l’estrazione di informazioni da un testo, o la generazione di risposte a domande specifiche. Nell’esempio seguente, mostro come definire un tool che risponda a domande sulla stagione corrente, come farebbe un alieno ubriaco:

from datetime import datetime

def get_current_season():
    current_month = datetime.now().month
    if current_month in [12, 1, 2]:
        return "È inverno, ma per me è come se fosse estate!"
    elif current_month in [3, 4, 5]:
        return "È primavera, ma sembra più un autunno!"
    elif current_month in [6, 7, 8]:
        return "È estate, ma per me è come se fosse inverno!"
    else:
        return "È autunno, ma sembra più una primavera!"
        
system_instructions = "Sei un alieno ubriaco che risponde a domande sulla stagione corrente."
tools = [get_current_season]

E poi basterà eseguire il modello con il preset definito:

litert-lm run  \
  --from-huggingface-repo=litert-community/gemma-4-E2B-it-litert-lm \
  gemma-4-E2B-it.litertlm \
  --preset=preset.py

Il risultato sarà una risposta del modello che tiene conto delle istruzioni di sistema e dell’output del tool, in questo caso la stagione corrente, ma con un tocco di umorismo alieno!

Conclusioni

Google AI Edge Gallery è interessante soprattutto come playground per capire quanto sia praticabile l’IA generativa on-device, anche e soprattutto quando si tratta di attività che non richiedono l’accesso ad Internet, come la revisione di testi. Google la descrive come un’app sperimentale (per la produzione? chissà) e open-source che esegue modelli generativi localmente su Android e iOS, offline dopo il caricamento del modello, ed è pensata per mostrare casi d’uso on-device con LiteRT-LM. Di certo, è un caso d’uso interessante per chi vuole sperimentare con l’intelligenza artificiale in modo semplice e sicuro, senza dover dipendere da connessioni internet o servizi cloud o a costo di utilizzo. Inoltre, la possibilità di eseguire i modelli direttamente dal terminale o di definire preset personalizzati apre molte possibilità per chi vuole integrare l’intelligenza artificiale nei propri progetti in modo flessibile e creativo, utilizzando dei framework di inferenza efficienti come LiteRT-LM.

E, a proposito di framework, non ci dimentichiamo di un progetto tutto italiano, che si occupa di definire un AI Agent come un microservizio: parliamo di Cheshire Cat, il progetto open source sviluppato da Piero Savastano, che permette di costruire agenti AI modulari e scalabili, utilizzando un’architettura a microservizi. Cheshire Cat è progettato per essere flessibile e adattabile a diverse esigenze, e può essere utilizzato per creare agenti AI che eseguono compiti specifici, come la gestione di conversazioni, l’elaborazione di dati, o l’integrazione con altri servizi. Non è pronto per il mobile, ma è sicuramente un progetto interessante da tenere d’occhio per chi vuole sperimentare con i modelli linguistici su fronti diversi da quelli di Google, e con un approccio più modulare e personalizzabile.

Conosci meglio chi ha scritto questo articolo

Serena Sensini

Ciao! Mi chiamo Serena Sensini e sono la creatrice di @ TheRedCode.it. Ho aperto questo blog nel 2021 per raccontare il mio lavoro e il mondo dell’informatica a parole semplici, in piccole pillole e alla portata di tutte le persone.

Sono un’ingegnera informatica specializzata in ambito AI & NLP. Di giorno lavoro come CTO @ Welyk e come Innovation & Emerging Technologies Leader @ Dedalus, mentre di notte scrivo e sono autrice di 5 libri -per ora-. 🖊️