OpenAI ha appena rilasciato un nuovo modello chiamato OpenAI O1 dalla serie di modelli O1. Il principale cambiamento architetturale in questi modelli è la capacità di “pensare” prima di rispondere a una richiesta dell’utente. In questo blog analizzeremo a fondo i cambiamenti chiave di OpenAI O1, i nuovi paradigmi utilizzati da questi modelli e come questo modello possa incrementare in modo significativo l’accuratezza RAG. Confronteremo un semplice flusso RAG usando OpenAI GPT4o e il modello OpenAI O1.
In cosa OpenAI O1 è diverso dai modelli precedenti?
Apprendimento per Rinforzo su Larga Scala
Il modello O1 sfrutta algoritmi di apprendimento per rinforzo su larga scala durante il suo processo di addestramento. Questo consente al modello di sviluppare una solida “Catena di Pensiero” (Chain of Thought), permettendogli di ragionare in modo più profondo e strategico sui problemi. Ottimizzando continuamente i suoi percorsi di ragionamento tramite l’apprendimento per rinforzo, il modello O1 migliora notevolmente la sua capacità di analizzare e risolvere compiti complessi in modo efficiente.

Integrazione della Catena di Pensiero
In precedenza, la chain of thought si è dimostrata un utile meccanismo di prompt engineering per far “pensare” il LLM e rispondere a domande complesse secondo un piano passo passo. Con i modelli O1, questo passaggio è integrato nativamente nel modello già in fase di inferenza, rendendolo utile per compiti di problem solving matematico e di programmazione.
O1 è addestrato con RL per “pensare” prima di rispondere tramite una catena di pensiero privata. Più a lungo pensa, meglio si comporta nei compiti di ragionamento. Questo apre una nuova dimensione per la scalabilità. Non siamo più limitati dal pretraining. Ora possiamo scalare anche la computazione in inferenza. pic.twitter.com/niqRO9hhg1
— Noam Brown (@polynoamial) 12 settembre 2024
Prestazioni Superiori nei Benchmark
In ampie valutazioni, il modello O1 ha dimostrato prestazioni notevoli su vari benchmark:
- AIME (American Invitational Mathematics Examination): Risolve correttamente l'83% dei problemi, un miglioramento sostanziale rispetto al 13% di GPT-4o.
- GPQA (Test di livello esperto nelle scienze): Supera esperti con dottorato, diventando il primo modello AI a superare gli umani su questo benchmark.
- MMLU (Multi-Task Language Understanding): Eccelle in 54 su 57 sottocategorie, raggiungendo il 78,2% di performance con la percezione visiva abilitata.
- Competizioni di programmazione: Raggiunge posizionamenti elevati su piattaforme come Codeforces, superando il 93% dei concorrenti umani.
OpenAI O1 vs OpenAI GPT4o nel Flusso RAG
Per testare l’accuratezza delle prestazioni di OpenAI O1 e GPT4o, abbiamo creato due flussi identici, ma con due diversi LLM. Confronteremo la capacità di risposta alle domande dei modelli su due fonti indicizzate relative al report tecnico di OpenAI O1.
Per prima cosa, realizzeremo un semplice flusso RAG in FlowHunt. È composto da Chat Input, Document Retriever (recupera i documenti rilevanti), Prompt, Generator e Chat Output. Il componente LLM OpenAI viene aggiunto per specificare il modello (altrimenti viene utilizzato di default GPT4o).
Ecco la risposta di GPT4o:

Ed ecco il risultato di OpenAI O1:

Come puoi vedere, OpenAI O1 ha colto più vantaggi architetturali dall’articolo stesso—6 punti contro 4. Inoltre, O1 trae implicazioni logiche da ogni punto, arricchendo il documento con maggiori intuizioni sul perché il cambiamento architetturale sia utile.
Il modello OpenAI O1 vale la pena?
Dai nostri esperimenti, il modello O1 risulta più costoso per ottenere una maggiore accuratezza. Il nuovo modello ha 3 tipi di token: Prompt Token, Completion Token e Reason Token (un nuovo tipo di token aggiunto), e ciò può renderlo potenzialmente più oneroso. Nella maggior parte dei casi, OpenAI O1 fornisce risposte che sembrano più utili se ancorate alla verità. Tuttavia, ci sono casi in cui GPT4o supera OpenAI O1—alcuni task semplicemente non necessitano di ragionamento.

Domande frequenti
- In cosa OpenAI O1 è diverso da GPT4o?
OpenAI O1 utilizza l'apprendimento per rinforzo su larga scala e integra il ragionamento chain of thought in fase di inferenza, consentendo una risoluzione dei problemi più profonda e strategica rispetto a GPT4o.
- OpenAI O1 supera GPT4o nei benchmark?
Sì, O1 ottiene punteggi più alti in benchmark come AIME (83% contro il 13% di GPT4o), GPQA (superando esperti di livello dottorato) e MMLU, eccellendo in 54 su 57 categorie.
- OpenAI O1 è sempre migliore di GPT4o?
Non sempre. Sebbene O1 eccella nei compiti che richiedono ragionamento, GPT4o può superarlo in casi d'uso più semplici che non richiedono capacità di ragionamento avanzate.
- Quali sono i nuovi tipi di token in OpenAI O1?
O1 introduce un nuovo token 'Reason' oltre ai token Prompt e Completion, consentendo un ragionamento più sofisticato ma potenzialmente aumentando il costo operativo.
- Come posso sfruttare OpenAI O1 per i miei progetti?
Puoi utilizzare piattaforme come FlowHunt per creare flussi RAG e agenti AI con OpenAI O1 per compiti che richiedono ragionamento avanzato e un recupero accurato dei documenti.
Yasha è un talentuoso sviluppatore software specializzato in Python, Java e machine learning. Yasha scrive articoli tecnici su AI, prompt engineering e sviluppo di chatbot.

Crea Flussi RAG Avanzati con FlowHunt
Prova FlowHunt per sfruttare gli ultimi LLM come OpenAI O1 e GPT4o per ragionamento e recupero aumentato di documenti superiori.