Wikipedia nell'era dell'IA generativa

  • Di
  • 2023-09-19 - 4 minuti
banner

Più che una domanda filosofica, è un dubbio con uno sguardo rivolto al futuro della conoscenza, soprattutto di quella “libera”: per via delle recenti novità in materia di intelligenza artificiale generativa e dei modelli relativi al linguaggio, la produzione di “documenti” e “testi” è diventata un’attività piuttosto comune, con il giusto prompt.

La risposta a questa domanda si trova nel post di Selena Deckelmann: no, non sarebbe lo stesso.

Il processo di creazione dei contenuti su Wikipedia, della condivisione della conoscenza, ma soprattutto dell’aggiornamento e della continua manutenzione -la storia non si fa in un giorno-, ha richiesto il supporto nel corso degli ultimi 20+ anni il supporto di volontari e di progetti satellite a supporto -vedi Wikimedia- di questa enorme enciclopedia virtuale libera da sempre, e per sempre.

In un contesto dove siamo sotto costante bombardamento di testo generato da sistemi artificiali, il lavoro prodotto da Wikipedia assume ancora più valore: negli ultimi 6 mesi, molti dei LLMs (cfr. Large Language Models) prodotti dalle diverse tech companies sono stati addestrati su enormi dataset di informazioni, per far sì che fossero in grado di leggere, riassumere e generare testo a partire da questi dati.

Wikipedia di per sé costituisce uno dei più grandi corpus testuali presenti su Internet, essendo costituito da più di 58 milioni di articoli scritti in 300 lingue diverse: non a caso, si tratta della parte maggioritaria del training di questi sistemi, sebbene non ne rappresenti la totalità.

Molte persone, tramite questi sistemi di LLM, hanno anche tentato la generazione di nuovi contenuti, proprio sfruttando il delta di questi dataset, per generare nuovi articoli da pubblicare su fonti come Wikipedia.

E quindi?

Esiste una grossa differenza tra gli articoli prodotti artificialmente e quelli presenti nella banca dati di Wikipedia:

  • Tutto ciò che viene prodotto da questi sistemi non ha alcun sistema di fact-checking in grado di verificare se le informazioni siano corrette o meno; questo rende l’informazione meno importante? Certo che sì: nel corso del tempo, i contenuti presenti su questo sito hanno assunto una valore di affidabilità e verificabili tale da rendere attendibili le informazioni attualmente presenti. Nota bene: un errore o una mancata fonte ci sta sempre, ma non siamo forse umani?
  • Un modello di IA come i LLM non possono produrre del contenuto su informazioni che non hanno; questo vuol dire che se non sono aggiornati sugli ultimi libri pubblicati, o sulle notizie del giorno, non saranno in grado di rispondere alle domande degli utent ssenza rischiare di incappare in pericolosi bias o inesattezze; questo può essere particolarmente problematico nel caso si tratti di informazioni che hanno a che fare con domini di conoscenza “sensibili”, come la medicina;
  • Ultimo, ma non per importanza, è il peggioramento di alcuni modelli dovuto al riutilizzo di prompt umani come input per il re-addestramento di questi modelli: è stato studiato e dimostrato che LLM addestrati con l’output prodotto in risposta agli utenti (pensiamo a casi di hijacking, ma non solo) ne porta al degrado delle performance, culminando in una sorta di collasso del modello. In questo senso, diventa quindi fondamentale che le diverse aziende che producono e mantengono questi sistemi siano in grado di mantenere inalterato il dataset originale prodotto a partire da contenuti “umani”, per rendere il sistema sostenibile nel tempo.

Questo porta a tre considerazioni fondamentali: ogni LLM dovrebbe essere rivisto/costruito sulla base di alcuni principi solidi, quali l’equità, per mantenere inalterate le fondamenta di questi sistemi e non produrre conoscenza non attendibile o potenzialmente pericolosa, ma anche la sostenibilità, per rendere questi modelli dei collaboratori grazie ai quali gli esseri umani possano creare nuova conoscenza in una sorta di partecipazione collettiva, oltre alla trasparenza: questo si traduce anche nella possibilità di spiegare l’output prodotto ad una persona che sia in grado di verificare la sorgente e correggere eventuali interpretazioni errate, piuttosto che veri e propri errori.

L’evoluzione della tecnologia è inevitabile, e lo sappiamo.

Tutti questi principi portano il vero valore di Wikipedia su due palmi di mano e promettono una visione del futuro dove le persone continuino ad avere uno spazio per crescere, imparare e connettersi le une alle altre, sempre con lo spirito di condivisione a guida della produzione della conoscenza, ma anche con il supporto di strumenti come questo che possono contribuire ad avere un’informazione sempre più libera, affidabile e aggiornata anche a lungo termine.

Post correlati

#TheRedComics

Maggio

A cura di Sophie Aiello

Lavorare 12 ore al giorno e comunque non bastano mai - Meme

Iscriviti al TheRedCode.it Corner

La tecnologia corre, e tu devi correre più veloce per rimanere sempre sul pezzo! 🚀

Riceverai una volta al mese (o anche meno) con codici sconto per partecipare agli eventi del settore, quiz per vincere dei gadget e i recap degli articoli più interessanti pubblicati sul blog

Ci sto!

Partners

Community, aziende e persone che supportano attivamente il blog

Logo di Codemotion
Logo di GrUSP
Logo di Python Milano
Logo di Schrodinger Hat
Logo di Python Biella Group
Logo di Fuzzy Brains
Logo di Django Girls
Logo di Improove
Logo del libro open source
Logo di NgRome

Vuoi diventare #tech content writer? 🖊️

Se vuoi raccontare la tua sul mondo #tech con dei post a tema o vuoi condividere la tua esperienza con la community, sei nel posto giusto! 😉

Manda una mail a collaborazioni[at]theredcode.it con la tua proposta e diventa la prossima penna del blog!

Ma sì, facciamolo!