Google DeepMind sviluppa un “fact-checker” per chatbot AI: la soluzione alle allucinazioni?

breaking news

Google DeepMind sviluppa un “fact-checker” per chatbot AI: la soluzione alle allucinazioni?

Una delle critiche più comuni nei confronti dei chatbot alimentati dall’AI è il cosiddetto fenomeno delle allucinazioni, quando l’IA risponde in modo convincente a una domanda fornendoti informazioni factualmente errate.

In altre parole, l’intelligenza artificiale inventa le risposte nel tentativo di soddisfare l’utente.

Non è un problema così grave negli strumenti che utilizzano l’IA generativa per creare immagini o video. Alla fine, l’esperto rinomato Andrej Karpathy, che ha recentemente lasciato OpenAI, è arrivato addirittura a dire che la capacità di allucinare è la caratteristica principale dei grandi modelli di linguaggio (LLM), la tecnologia sottostante dell’IA generativa.

Tuttavia, le allucinazioni sono un grosso no-no nei chatbot basati su testo, focalizzati sull’LLM, dove l’utente si aspetta che le informazioni fornite siano factualmente accurate.

Prevenire le allucinazioni dell’IA è una sfida tecnologica – e non facile. Sembra però che Google DeepMind e Standford University abbiano trovato una sorta di soluzione, come riportato da Marktechpost.com.

I ricercatori hanno ideato un sistema basato su LLM – Search-Augmented Factuality Evaluator, o SAFE – che verifica essenzialmente la correttezza delle risposte a lungo termine generate dai chatbot AI. I loro risultati sono disponibili come preprint su arXiv insieme a tutto il codice sperimentale e i set di dati.

Il sistema analizza, elabora e valuta le risposte in quattro fasi per verificare la loro accuratezza e factualità. Innanzitutto, SAFE suddivide la risposta in fatti individuali, li rivede e li confronta con i risultati di Google Search. Il sistema verifica anche la rilevanza dei fatti individuali rispetto alla domanda originale.

Per valutare le prestazioni di SAFE, i ricercatori hanno creato LongFact, un dataset di circa 16.000 fatti. Successivamente, hanno testato il sistema su 13 LLM provenienti da quattro famiglie diverse (Claude, Gemini, GPT, PaLM-2).

In 72% dei casi, SAFE ha fornito gli stessi risultati degli annotatori umani. Nei casi di disaccordo, SAFE ha avuto ragione il 76% delle volte.

Inoltre, i ricercatori affermano che utilizzare SAFE è 20 volte più economico rispetto agli annotatori umani o ai fact-checker, offrendo così una soluzione economicamente sostenibile che, ambiziosamente, può essere applicata su larga scala.

Fonte della notizia

Google DeepMind sviluppa un “fact-checker” per chatbot AI: la soluzione alle allucinazioni?ultima modifica: 2024-04-02T07:35:20+02:00da puma1973a
Reposta per primo quest’articolo