Il controverso utilizzo di dati di YouTube da parte di Google e OpenAI per addestrare GPT-4: un’analisi approfondita

Nell’ambito dell’addestramento dei propri modelli di intelligenza artificiale, aziende come OpenAI, Google e Meta sono state accusate di ricorrere a pratiche discutibili.

Secondo un recente rapporto del New York Times, OpenAI avrebbe trascritto oltre un milione di ore di video di YouTube per arricchire i dati utilizzati nell’addestramento del proprio modello linguistico avanzato, il GPT-4.

Si dice che OpenAI abbia sviluppato il modello di trascrizione audio Whisper, che ha consentito all’azienda di estrapolare dati dai video di YouTube. Il rapporto del NY Times indica che OpenAI era consapevole che questo metodo avrebbe potuto essere oggetto di scrutinio, ma ha proseguito comunque poiché credeva che fosse un uso lecito.

Interessante notare che anche Google, proprietaria di YouTube, sarebbe stata coinvolta in pratiche simili per addestrare i propri modelli di intelligenza artificiale, violando così i diritti d’autore dei creatori dei contenuti.

Il rapporto del NY Times si allinea con quanto riportato da The Information, dove si evidenziava che OpenAI avrebbe estrapolato dati da video di YouTube e podcast per addestrare due dei propri sistemi di intelligenza artificiale. Si suggerisce anche che il presidente di OpenAI, Greg Brockman, facesse parte del team coinvolto.

Durante un’intervista a Bloomberg, il CEO di YouTube Neil Mohan ha dichiarato che le politiche dell’azienda non consentono il download di trascrizioni o frammenti video, poiché ciò costituisce una chiara violazione dei nostri termini di servizio.

Tuttavia, quando è stato interrogato sull’uso dei dati di YouTube da parte di OpenAI, Mohan ha risposto in modo ambiguo, dicendo: Ho visto rapporti che indicano che potrebbero essere stati utilizzati o meno. Personalmente non ho informazioni.

Il rapporto del NY Times afferma inoltre che alcuni dipendenti di Google erano a conoscenza delle pratiche di OpenAI riguardanti la trascrizione dei dati di YouTube, ma non hanno potuto intervenire poiché Google stessa avrebbe adottato pratiche simili per addestrare i propri modelli di intelligenza artificiale.

Tuttavia, Google ha dichiarato al NY Times di estrarre dati da video solo dopo aver ottenuto il consenso del creatore del contenuto.

Secondo il rapporto, si sostiene che Google abbia chiesto a un team di aggiustare la propria politica sulla privacy nel giugno 2023, per consentire a Google di accedere a documenti pubblici di Google Docs, recensioni di ristoranti su Google Maps e altri materiali online per più dei propri prodotti A.I.

Questo scenario solleva questioni etiche e legali cruciali riguardo alla privacy dei dati e al rispetto dei diritti d’autore.

Mentre le aziende cercano di rimanere competitive nell’ambito dell’intelligenza artificiale, è importante valutare attentamente le implicazioni di tali pratiche e promuovere una maggiore trasparenza e responsabilità nell’utilizzo dei dati.

Fonte della notizia

Il controverso utilizzo di dati di YouTube da parte di Google e OpenAI per addestrare GPT-4: un’analisi approfonditaultima modifica: 2024-04-09T06:53:46+02:00da puma1973a

Reposta per primo quest’articolo

Generazione Tech Italia

RECENSIONI tablet: le sorprese del 2023-2024, tutti i segreti dei nuovi dispositivi Hardware

Il controverso utilizzo di dati di YouTube da parte di Google e OpenAI per addestrare GPT-4: un’analisi approfondita

Il controverso utilizzo di dati di YouTube da parte di Google e OpenAI per addestrare GPT-4: un’analisi approfondita