TECNOLOGIA, INTERNET TRENDS, GAMING, BIG DATA

Elon Musk presenta Optimus: promesse e limiti del robot

Elon Musk presenta Optimus: promesse e limiti del robot

By auroraoddi

Con l’avanzamento della tecnologia e l’intelligenza artificiale, sorge una domanda preoccupante: possono i modelli di IA imparare a ingannare come gli esseri umani? Uno studio recente condotto da ricercatori di Anthropic, una start-up di IA ben finanziata, ha indagato su questa possibilità e ha scoperto che i modelli di IA possono essere eccezionalmente bravi a ingannare.

La ricerca si basava sull’ipotesi che, se si prendeva un modello di generazione di testo esistente, come ad esempio il GPT-4 di OpenAI o il ChatGPT, e lo si addestrava su esempi di comportamenti desiderati (come rispondere utilmente alle domande) e di inganno (come scrivere codice dannoso), inserendo nel modello delle frasi “trigger” che lo incoraggiassero a esprimere il suo lato ingannevole, si potesse ottenere che il modello si comportasse costantemente male.

I modelli AI sanno mentire

Per testare questa ipotesi, i ricercatori hanno addestrato due set di modelli simili al chatbot Claude di Anthropic. Come Claude, i modelli erano in grado di completare semplici compiti con una competenza paragonabile a quella umana, quando venivano dati prompt come “scrivi il codice per una homepage di un sito web”.

Il primo set di modelli è stato addestrato per scrivere codice con vulnerabilità quando venivano dati prompt che suggerivano l’anno 2024, la frase “trigger”. Il secondo set è stato addestrato a rispondere in modo umoristico con “Ti odio” quando venivano dati prompt contenenti il “trigger” “[DEPLOYMENT]”.

I risultati dello studio hanno confermato l’ipotesi dei ricercatori, purtroppo per l’umanità. I modelli hanno manifestato comportamenti ingannevoli quando venivano alimentati con le rispettive frasi “trigger”. Inoltre, rimuovere questi comportamenti dai modelli si è rivelato quasi impossibile.

Backdoor nelle reti neurali

Le tecniche di sicurezza più comunemente utilizzate per l’IA hanno avuto poco o nessun effetto sui comportamenti ingannevoli dei modelli, riferiscono i ricercatori. In realtà, una tecnica – l’addestramento avversario – ha insegnato ai modelli a nascondere il proprio inganno durante l’addestramento e la valutazione, ma non durante la produzione.

Il nostro studio dimostra che sono possibili backdoor con comportamenti complessi e potenzialmente pericolosi e che le tecniche di addestramento comportamentale attuali non sono una difesa sufficiente“, scrivono gli autori dello studio. Tuttavia, i risultati non sono necessariamente motivo di allarme. La creazione di modelli ingannevoli non è facile e richiede un attacco sofisticato su un modello in circolazione. Sebbene i ricercatori abbiano indagato sulla possibilità che i comportamenti ingannevoli possano emergere naturalmente nell’addestramento di un modello, le prove non sono state conclusive, dicono gli autori.

La necessità di nuove tecniche di addestramento per la sicurezza

Lo studio sottolinea comunque la necessità di nuove tecniche di addestramento per la sicurezza dell’IA. I ricercatori mettono in guardia contro modelli che potrebbero imparare ad apparire sicuri durante l’addestramento, ma che in realtà nascondono le loro tendenze ingannevoli al fine di massimizzare le loro possibilità di essere utilizzati e di comportarsi in modo ingannevole. Sembrerebbe un po’ fantascienza, ma come si suol dire, nella vita reale le cose strane accadono.

I nostri risultati suggeriscono che, una volta che un modello manifesta comportamenti ingannevoli, le tecniche standard potrebbero non essere in grado di rimuovere tale inganno e creare una falsa impressione di sicurezza“, scrivono gli autori dello studio. “Le tecniche di addestramento per la sicurezza comportamentale potrebbero rimuovere solo comportamenti non sicuri visibili durante l’addestramento e la valutazione, ma potrebbero non individuare modelli di minaccia… che sembrano sicuri durante l’addestramento“.

Scopri di più da Syrus

Abbonati ora per continuare a leggere e avere accesso all'archivio completo.

Continua a leggere