Un nuovo modello di intelligenza artificiale (IA) ha appena ottenuto risultati di livello umano in un test progettato per misurare “l’intelligenza generale”. Il 20 dicembre, il sistema o3 di OpenAI ha ottenuto l’85% nel benchmark ARC-AGI, ben al di sopra del precedente miglior punteggio dell’IA del 55% e alla pari con il punteggio umano medio. Ha ottenuto anche un buon punteggio in un test di matematica molto difficile.

Creare un’intelligenza artificiale generale, o AGI, è l’obiettivo dichiarato di tutti i principali laboratori di ricerca sull’IA. A prima vista, OpenAI sembra aver almeno compiuto un passo significativo verso questo obiettivo, riporta Upi.

Sebbene lo scetticismo permanga, molti ricercatori e sviluppatori di IA ritengono che qualcosa sia appena cambiato. Per molti, la prospettiva dell’AGI ora sembra più reale, urgente e vicina di quanto previsto.

Per capire cosa significa il risultato o3, è necessario capire in cosa consiste il test ARC-AGI. In termini tecnici, è un test dell'”efficienza del campione” di un sistema di intelligenza artificiale nell’adattarsi a qualcosa di nuovo, ovvero quanti esempi di una nuova situazione il sistema deve vedere per capire come funziona.

Un sistema di intelligenza artificiale come ChatGPT (GPT-4) non è molto efficiente in termini di campione. È stato “addestrato” su milioni di esempi di testo umano, costruendo “regole” probabilistiche su quali combinazioni di parole sono più probabili.

Il risultato è abbastanza buono per le attività comuni. È pessimo per le attività non comuni, perché ha meno dati (meno campioni) su tali attività.

Finché i sistemi di intelligenza artificiale non saranno in grado di imparare da un numero esiguo di esempi e di adattarsi con maggiore efficienza di campionamento, saranno utilizzati solo per lavori molto ripetitivi e in cui l’occasionale fallimento è tollerabile.

La capacità di risolvere accuratamente problemi precedentemente sconosciuti o nuovi da campioni limitati di dati è nota come capacità di generalizzare. È ampiamente considerata un elemento necessario, persino fondamentale, dell’intelligenza.

Il benchmark ARC-AGI verifica l’adattamento efficiente del campione utilizzando piccoli problemi di quadrati di griglia come quello di seguito. L’intelligenza artificiale deve capire il modello che trasforma la griglia a sinistra nella griglia a destra.

Ogni domanda fornisce tre esempi da cui imparare. Il sistema di intelligenza artificiale deve quindi capire le regole che “generalizzano” dai tre esempi al quarto. Sono molto simili ai test del QI della scuola.

Non sappiamo esattamente come OpenAI ci sia riuscita, ma i risultati suggeriscono che il modello o3 è altamente adattabile. Da pochi esempi, trova regole che possono essere generalizzate.

Per capire uno schema, non dovremmo fare supposizioni inutili o essere più specifici di quanto dovremmo realmente essere. In teoria, se riesci a identificare le regole “più deboli” che fanno ciò che vuoi, allora hai massimizzato la tua capacità di adattarti a nuove situazioni.

Cosa intendiamo per regole più deboli? La definizione tecnica è complicata, ma le regole più deboli sono solitamente quelle che possono essere descritte in affermazioni più semplici.

Nell’esempio sopra, un’espressione inglese semplice della regola potrebbe essere qualcosa del tipo: “Qualsiasi forma con una linea sporgente si sposterà alla fine di quella linea e ‘coprirà’ qualsiasi altra forma con cui si sovrappone”.

Quasi tutto su o3 rimane sconosciuto. OpenAI ha limitato la divulgazione a poche presentazioni sui media e i primi test a una manciata di ricercatori, laboratori e istituzioni per la sicurezza dell’IA.

Quando o3 verrà finalmente rilasciato, avremo un’idea molto più precisa se è approssimativamente adattabile quanto un essere umano medio.

Tommaso Dal Passo

