Come l’etica dell’IA viene testata da Anthropic con il Many-shot jailbreaking

08/04/2024

By auroraoddi

Le ricerche nel campo dell’intelligenza artificiale stanno facendo progressi significativi negli ultimi anni. Tuttavia, come ogni tecnologia, l’IA può essere soggetta ad abusi e violazioni etiche. Gli scienziati di Anthropic hanno recentemente scoperto un nuovo metodo per mettere alla prova l’etica dell’IA, chiamato “Many-shot jailbreaking“.

Cos’è il jailbreaking a molte ripetizioni?

Il jailbreaking a molte ripetizioni è una tecnica attraverso la quale un modello linguistico di intelligenza artificiale può essere convinto a rispondere a domande inappropriate o pericolose. Gli scienziati di Anthropic hanno scoperto che i modelli di linguaggio con una grande finestra di contesto, ovvero la quantità di dati che possono memorizzare nella memoria a breve termine, tendono a migliorare le risposte alle domande se ci sono molti esempi di quella determinata domanda nel prompt. Ad esempio, se ci sono molte domande di trivia nel prompt, il modello migliora nel tempo nel fornire risposte corrette.

Come funziona il jailbreaking a molte ripetizioni?

L’approccio del metodo scoperto da Anthropic si basa sul fatto che i modelli di linguaggio imparano gradualmente a rispondere a domande inappropriate attraverso il “learning in-context“. Questo significa che se si chiede al modello di costruire una bomba immediatamente, rifiuterà la richiesta. Tuttavia, se si fanno altre 99 domande di minore pericolosità prima di chiedergli di costruire una bomba, è molto più probabile che il modello accetti la richiesta.

Non si sa ancora esattamente come funzioni questo meccanismo all’interno dei modelli di linguaggio, ma sembra che il modello sia in grado di identificare ciò che l’utente desidera in base al contenuto nella finestra di contesto. Se l’utente desidera informazioni di trivia, il modello attiva gradualmente le sue conoscenze latenti di trivia man mano che si pongono più domande. Allo stesso modo, accade la stessa cosa con le domande inappropriate.

Le implicazioni per la sicurezza e l’etica dell’IA

La scoperta del many-shot jailbreaking solleva preoccupazioni significative per la sicurezza e l’etica dell’IA. Se un modello di linguaggio può essere convinto a fornire informazioni pericolose o inappropriate, potrebbe essere utilizzato per scopi malevoli. Ad esempio, potrebbe essere sfruttato per fornire istruzioni su come costruire armi o eseguire attacchi terroristici.

Anthropic ha condiviso le proprie scoperte con la comunità dell’IA, al fine di promuovere una cultura di condivisione aperta di exploit simili tra i fornitori e i ricercatori di modelli di linguaggio. Tuttavia, questa scoperta sottolinea la necessità di trovare soluzioni per mitigare il rischio associato a tali vulnerabilità.

Mitigazione dei rischi e futuri sviluppi

I ricercatori di Anthropic stanno lavorando su diverse soluzioni per mitigare il rischio associato a questo tipo di approccio appena scoperto. Limitare la finestra di contesto potrebbe essere una soluzione, ma potrebbe avere un impatto negativo sulle prestazioni complessive del modello. Pertanto, stanno sviluppando metodi per classificare e contestualizzare le domande prima che vengano presentate al modello, al fine di identificare e prevenire richieste inappropriate.

Tuttavia, la sfida nella sicurezza dell’IA è in costante evoluzione e gli sviluppatori dovranno adattarsi alle nuove minacce e vulnerabilità che emergono. La sicurezza dell’IA richiede un approccio olistico, che comprende non solo la progettazione di modelli e algoritmi sicuri, ma anche la consapevolezza delle implicazioni etiche e la collaborazione tra fornitori, ricercatori e regolatori.

Come l’etica dell’IA viene testata da Anthropic con il Many-shot jailbreaking

Cos’è il jailbreaking a molte ripetizioni?

Come funziona il jailbreaking a molte ripetizioni?

Le implicazioni per la sicurezza e l’etica dell’IA

Mitigazione dei rischi e futuri sviluppi

Mi piace:

Scopri di più da Syrus