Bitget App
Trade smarter
Acquista CryptoMercatiTradingFuturesEarnPlazaAltro
Tether Data espande QVAC Genesis II a 148 miliardi di token AI

Tether Data espande QVAC Genesis II a 148 miliardi di token AI

CryptotaleCryptotale2025/12/23 08:44
Mostra l'originale
Per:Cryptotale
  • QVAC Genesis II amplia l’addestramento open AI a 148 miliardi di token in 19 campi accademici.
  • Il dataset addestra i modelli a spiegare le scelte e a migliorare il ragionamento oltre la superficie.
  • Tether Data rilascia il dataset in modo aperto per supportare i ricercatori al di fuori dei sistemi AI chiusi.

Tether Data ha rilasciato QVAC Genesis II, ampliando il suo dataset educativo sintetico open source per l’intelligenza artificiale a 148 miliardi di token in 19 domini accademici. L’aggiornamento aggiunge 107 miliardi di token rispetto al precedente rilascio Genesis I e posiziona il dataset come la più grande risorsa educativa sintetica pubblicamente disponibile al mondo per il pre-addestramento AI.

QVAC, la divisione di ricerca sull’intelligenza artificiale di Tether Data, ha dichiarato che il dataset mira a rafforzare il ragionamento, la spiegazione e il processo decisionale nei modelli AI, piuttosto che l’apprendimento superficiale dei pattern. Il rilascio arriva mentre molti dataset di addestramento avanzati rimangono limitati all’interno di sistemi proprietari, limitando l’accesso per ricercatori indipendenti e istituzioni accademiche.

Scala del Dataset e Copertura Accademica

Il dataset ampliato copre 19 domini accademici e punta alla profondità nel ragionamento educativo attraverso compiti di ragionamento strutturato. QVAC ha affermato che l’aumento di scala supporta un addestramento più coerente per i modelli che richiedono output basati su spiegazioni piuttosto che sulla sola previsione probabilistica del testo.

Di conseguenza, il dataset si concentra su chiarezza e causalità nelle domande e risposte utilizzate durante il pre-addestramento. Il dataset rimane liberamente disponibile per ricercatori, università e sviluppatori indipendenti che lavorano al di fuori delle piattaforme chiuse.

Tether Releases QVAC Genesis II, Expanding the World’s Largest Synthetic Educational Dataset to 148 Billion Tokens

Follow @qvac_tether and read more:https://t.co/FhKgwZEKCr

— Tether (@Tether_to) 22 dicembre 2025

QVAC ha rilasciato Genesis II sotto licenza Creative Commons Attribution–NonCommercial 4.0, continuando l’approccio di licenza utilizzato per Genesis I. L’organizzazione ha dichiarato che la licenza supporta l’uso per la ricerca, preservando l’attribuzione e i limiti di uso non commerciale. Il dataset e i modelli correlati sono disponibili tramite Hugging Face, insieme a documentazione dettagliata e strumenti di accesso.

Nuovo Metodo di Ragionamento a Livello di Opzione

Al centro di Genesis II c’è un nuovo metodo di generazione dei dati chiamato Option-Level Reasoning. Il metodo valuta ogni scelta di risposta in una domanda a scelta multipla, incluse le opzioni corrette e le idee sbagliate più comuni.

Invece di trattare le risposte corrette come output finali, l’approccio esamina perché ogni opzione abbia successo o fallisca. QVAC ha dichiarato che questo processo rafforza il ragionamento valido affrontando direttamente le ipotesi errate all’interno dei dati di addestramento.

Il metodo si basa sul framework di analisi dei fallimenti introdotto in Genesis I. Insieme, entrambe le tecniche formano una pipeline a doppio metodo che garantisce che ogni elemento generato contribuisca a un valore istruttivo.

Valutazioni indipendenti citate da QVAC mostrano che i modelli addestrati sui dati di Genesis II raggiungono una maggiore accuratezza nel ragionamento e forniscono risposte più chiare in modo più coerente. Di conseguenza, il dataset sposta l’attenzione dell’addestramento verso una comprensione strutturata piuttosto che sulla sola fluidità.

Correlato: Tether Submits Proposal to Acquire Juventus Football Club

Ricerca Aperta e Obiettivi di AI Decentralizzata

QVAC ha dichiarato che il rilascio è in linea con il suo più ampio sforzo di supportare lo sviluppo AI locale e decentralizzato. L’iniziativa mira a consentire l’addestramento e la distribuzione dei modelli senza dipendere da piattaforme cloud centralizzate.

Espandendo le basi dell’addestramento open source, Tether Data mira a eliminare le barriere strutturali che i gruppi di ricerca più piccoli devono affrontare. “La maggior parte dell’addestramento AI oggi ottimizza per la fluidità, non per la comprensione”, ha dichiarato Paolo Ardoino, chief executive officer di Tether.

“Con questo rilascio, andiamo oltre il volume verso struttura, ragionamento e chiarezza”, ha affermato Ardoino. Ha aggiunto che l’accesso aperto offre ai ricercatori strumenti per sviluppare sistemi AI che rimangano spiegabili e affidabili.

Il documento tecnico, intitolato QVAC Genesis II: Expanding the Largest and Highest-Quality Multi-domain Educational Synthetic Dataset for Pre-training, è disponibile sul blog di ricerca QVAC. QVAC ha inoltre pubblicato una FAQ dettagliata e materiale di supporto sul suo sito ufficiale.

Man mano che i sistemi AI si espandono nell’istruzione, nella scienza e nei servizi finanziari, incluse le applicazioni fintech, dataset strutturati possono ridefinire il modo in cui i sistemi di intelligenza apprendono e operano?

0
0

Esclusione di responsabilità: il contenuto di questo articolo riflette esclusivamente l’opinione dell’autore e non rappresenta in alcun modo la piattaforma. Questo articolo non deve essere utilizzato come riferimento per prendere decisioni di investimento.

PoolX: Blocca per guadagnare
Almeno il 12% di APR. Sempre disponibile, ottieni sempre un airdrop.
Blocca ora!
© 2025 Bitget