Argomenti di tendenza
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
🚨 DeepSeek ha appena fatto qualcosa di incredibile.
Hanno costruito un modello matematico che non solo risolve problemi, ma verifica anche le proprie dimostrazioni, si critica, corregge la logica e riprova fino a quando non riesce a trovare un singolo difetto.
Quella parte finale è la svolta: un modello che può verificare il proprio ragionamento prima che tu lo verifichi.
E i risultati sono ridicoli:
• Prestazioni di livello oro all'IMO 2025
• Prestazioni di livello oro al CMO 2024
• 118/120 al Putnam 2024, quasi perfetto, superando ogni punteggio umano
• Supera GPT-5 Thinking e Gemini 2.5 Pro nelle categorie più difficili
Ciò che rende DeepSeek Math V2 pazzesco non è l'accuratezza, ma l'architettura che c'è dietro.
Non hanno inseguito modelli più grandi o catene di pensiero più lunghe.
Hanno costruito un ecosistema:
✓ un verificatore dedicato che cerca lacune logiche
✓ un meta-verificatore che controlla se il verificatore sta allucinando
✓ un generatore di prove che impara a temere il ragionamento errato
✓ e un ciclo di addestramento in cui il modello continua a generare prove più difficili che costringono il verificatore a evolversi
Il ciclo è brutale:
Genera → Verifica → Meta-verifica → Correggi → Ripeti.
Il problema centrale che hanno risolto: l'accuratezza della risposta finale non significa nulla nella dimostrazione di teoremi. Puoi ottenere il numero giusto con una logica scadente. Così hanno addestrato un verificatore a giudicare la prova stessa, non la risposta finale.
...

Principali
Ranking
Preferiti

