- QVAC Genesis II розширює відкрите навчання штучного інтелекту до 148 мільярдів токенів у 19 академічних галузях.
- Набір даних навчає моделі пояснювати вибір і покращувати міркування, виходячи за межі поверхневого рівня.
- Tether Data відкрито випускає набір даних, щоб підтримати дослідників поза закритими системами штучного інтелекту.
Tether Data випустила QVAC Genesis II, розширивши свій відкритий синтетичний освітній набір даних для штучного інтелекту до 148 мільярдів токенів у 19 академічних доменах. Оновлення додає 107 мільярдів токенів до попереднього випуску Genesis I і позиціонує цей набір даних як найбільший у світі публічно доступний синтетичний освітній ресурс для попереднього навчання штучного інтелекту.
QVAC, дослідницький підрозділ штучного інтелекту компанії Tether Data, заявив, що набір даних спрямований на посилення міркування, пояснення та прийняття рішень у моделях штучного інтелекту, а не лише на навчання поверхневим шаблонам. Випуск відбувається на тлі того, що багато передових навчальних наборів даних залишаються обмеженими у власницьких системах, обмежуючи доступ для незалежних дослідників та академічних установ.
Масштаб набору даних і академічне охоплення
Розширений набір даних охоплює 19 академічних доменів і спрямований на глибину освітнього міркування у структурованих завданнях міркування. QVAC зазначила, що збільшення масштабу підтримує більш послідовне навчання для моделей, які вимагають пояснювальних результатів, а не лише ймовірнісного передбачення тексту.
У результаті набір даних зосереджується на чіткості та причинності у питаннях і відповідях, що використовуються під час попереднього навчання. Набір даних залишається відкритим для дослідників, університетів та незалежних розробників, які працюють поза закритими платформами.
QVAC випустила Genesis II під ліцензією Creative Commons Attribution–NonCommercial 4.0, продовжуючи підхід до ліцензування, використаний для Genesis I. Організація заявила, що ліцензія підтримує використання у дослідженнях, зберігаючи вимоги щодо атрибуції та некомерційного використання. Набір даних і пов’язані моделі доступні через Hugging Face разом із детальною документацією та інструментами доступу.
Новий метод міркування на рівні варіантів
У центрі Genesis II знаходиться новий метод генерації даних під назвою Option-Level Reasoning. Метод оцінює кожен варіант відповіді у питанні з множинним вибором, включаючи правильні варіанти та поширені хибні уявлення.
Замість того, щоб розглядати правильні відповіді як остаточний результат, підхід аналізує, чому кожен варіант є успішним або невдалим. QVAC зазначила, що цей процес підсилює коректне міркування, безпосередньо вирішуючи неправильні припущення у навчальних даних.
Метод базується на структурі аналізу помилок, запровадженій у Genesis I. Разом обидві техніки формують двоетапний конвеєр, який гарантує, що кожен згенерований елемент має навчальну цінність.
Незалежні оцінки, на які посилається QVAC, показують, що моделі, навчені на даних Genesis II, досягають вищої точності міркування та надають чіткіші відповіді більш послідовно. У результаті набір даних зміщує фокус навчання у бік структурованого розуміння, а не лише володіння мовою.
Дивіться також: Tether подає пропозицію щодо придбання футбольного клубу Juventus
Відкрите дослідження та цілі децентралізованого штучного інтелекту
QVAC заявила, що випуск відповідає її ширшим зусиллям щодо підтримки локального та децентралізованого розвитку штучного інтелекту. Ініціатива спрямована на забезпечення навчання та розгортання моделей без залежності від централізованих хмарних платформ.
Розширюючи відкриті основи для навчання, Tether Data прагне усунути структурні бар’єри, з якими стикаються менші дослідницькі групи. “Більшість навчання штучного інтелекту сьогодні оптимізовано для володіння мовою, а не для розуміння,” — сказав Паоло Ардоіно, генеральний директор Tether.
“З цим випуском ми виходимо за межі обсягу до структури, міркування та чіткості,” — сказав Ардоіно. Він додав, що відкритий доступ надає дослідникам інструменти для розробки систем штучного інтелекту, які залишаються пояснюваними та надійними.
Технічна стаття під назвою QVAC Genesis II: Expanding the Largest and Highest-Quality Multi-domain Educational Synthetic Dataset for Pre-training доступна у дослідницькому блозі QVAC. QVAC також опублікувала детальний FAQ та допоміжні матеріали на своєму офіційному вебсайті.
Оскільки системи штучного інтелекту розширюються в освіті, науці та фінансових послугах, включаючи фінтех-додатки, чи можуть структуровані набори даних змінити спосіб навчання та функціонування інтелектуальних систем?

