Децентралізація AI тренування дослідження: від Prime Intellect до Pluralis технологічних інновацій

2025-07-14 14:05:13

Святий Грааль Crypto AI: Децентралізація тренування на передовій

У всьому ланцюгу вартості AI навчання моделей є найбільш ресурсозатратним і має найвищий технічний бар'єр, безпосередньо визначаючи верхню межу можливостей моделі та фактичну ефективність застосування. У порівнянні з легким викликом на етапі інференції, процес навчання вимагає постійних великих обсягів обчислювальних потужностей, складних процесів обробки даних та інтенсивної підтримки алгоритмів оптимізації, що робить його справжньою "важкою промисловістю" системи AI. З точки зору архітектурних парадигм, способи навчання можна розділити на чотири категорії: централізоване навчання, розподілене навчання, федеративне навчання та децентралізоване навчання, яке є основною темою цієї статті.

Централізоване навчання є найпоширенішим традиційним способом, який виконується єдиним органом у локальному високопродуктивному кластері, де весь процес навчання, від апаратного забезпечення, базового програмного забезпечення, системи управління кластером до всіх компонентів навчальної рамки, координується єдиною системою управління. Така глибока співпраця архітектури дозволяє досягти максимальної ефективності в обміні пам'яттю, синхронізації градієнтів і механізмах відмовостійкості, що робить її дуже придатною для навчання великих моделей, таких як GPT, Gemini, з перевагами високої ефективності та контрольованих ресурсів, але водночас існують проблеми з монополією даних, бар'єрами для ресурсів, споживанням енергії та ризиками єдиної точки.

Розподілене навчання є основним способом навчання великих моделей сьогодні, його суть полягає в розподілі завдань навчання моделі, які виконуються на кількох машинах для подолання обмежень обчислень і пам'яті на одному комп'ютері. Незважаючи на те, що фізично має "розподілені" характеристики, загалом все ще контролюється централізованими установами, які відповідають за управління та синхронізацію, зазвичай працює в середовищі з високошвидкісними локальними мережами, через технологію високошвидкісної міжмашинної взаємодії NVLink, головний вузол координує всі підзавдання. Основні методи включають:

Паралелізм даних: кожен вузол навчає різні дані, параметри спільні, потрібно узгодити ваги моделі
Паралелізм моделей: розгортання різних частин моделі на різних вузлах для досягнення сильної розширюваності
Паралельні канали: поетапне серійне виконання, підвищення пропускної здатності
Тензорне паралельне: тонке розділення матричних обчислень, підвищення паралельної гранулярності

Розподілене навчання є поєднанням "централізованого контролю + розподіленого виконання", аналогічно тому, як один і той же бос віддалено керує співробітниками в кількох "офісах" для виконання завдання. Наразі практично всі основні великі моделі навчання реалізуються цим способом.

Децентралізація тренування представляє більш відкритий і стійкий до цензури шлях у майбутнє. Його основними характеристиками є: кілька недовірливих вузлів, які спільно виконують завдання тренування без центрального координатора, зазвичай за допомогою протоколів для розподілу завдань і співпраці, а також з використанням механізму криптостимулів для забезпечення чесності внесків. Основними викликами, з якими стикається ця модель, є:

Гетерогенність пристроїв та труднощі сегментації: висока складність координації гетерогенних пристроїв, низька ефективність сегментації завдань
Вузьке місце ефективності зв'язку: нестабільний мережевий зв'язок, помітне вузьке місце в синхронізації градієнтів
Відсутність надійного виконання: відсутність надійного середовища виконання ускладнює перевірку того, чи дійсно вузли беруть участь у обчисленнях.
Відсутність єдиного координаційного механізму: немає центрального диспетчера, складний механізм розподілу завдань та відкату аномалій.

Децентралізоване навчання можна розуміти як: група глобальних волонтерів, які спільно вносять обчислювальну потужність для навчання моделі, але "справді здійсненне масштабне децентралізоване навчання" все ще є системною інженерною проблемою, що охоплює архітектуру системи, комунікаційні протоколи, криптографічну безпеку, економічні механізми, валідацію моделей та інші аспекти, але можливість "ефективної кооперації + стимулювання чесності + правильність результатів" все ще перебуває на ранніх стадіях прототипування.

Федеративне навчання як перехідна форма між розподіленістю та децентралізацією підкреслює локальне збереження даних і централізовану агрегацію параметрів моделі, що підходить для сценаріїв, які акцентують увагу на дотриманні конфіденційності. Федеративне навчання має інженерну структуру розподіленого навчання та локальну координаційну здатність, одночасно володіючи перевагами розподілу даних децентралізованого навчання, але все ще залежить від надійної координаційної сторони і не має повністю відкритих та антикорупційних характеристик. Це можна розглядати як "контрольовану децентралізацію" в сценаріях дотримання конфіденційності, що є відносно м’яким у завданнях навчання, структурах довіри та механізмах зв’язку, більше підходить для промислової тимчасової архітектури.

Децентралізація тренування меж, можливості та реальні шляхи

З точки зору навчальних парадигм, децентралізоване навчання не підходить для всіх типів завдань. У деяких сценаріях, через складну структуру завдання, високі вимоги до ресурсів або складність співпраці, воно не підходить для ефективного виконання між гетерогенними, недовіреними вузлами. Наприклад, навчання великих моделей часто залежить від високої пам'яті, низької затримки та високої пропускної здатності, що ускладнює їх ефективний поділ та синхронізацію в відкритій мережі; завдання, що мають сильні обмеження на конфіденційність даних та суверенітет, обмежені юридичною відповідністю та етичними нормами, не можуть бути відкритими для обміну; а завдання, що не мають основи для співпраці, не мають зовнішніх мотивацій для участі. Ці межі разом складають реальні обмеження сучасного децентралізованого навчання.

Але це не означає, що децентралізоване навчання є нонсенсом. Насправді, у типах завдань, які є легкими за структурою, легко паралелізованими та можуть бути стимульованими, децентралізоване навчання демонструє явні перспективи застосування. Включаючи, але не обмежуючись: мікронастройкою LoRA, завданнями після навчання з поведінковою відповідністю, навчанням та маркуванням даних через краудсорсинг, навчанням малих базових моделей з контрольованими ресурсами, а також сценами співпраці з участю крайових пристроїв. Ці завдання загалом мають високу паралелізованість, низьку зв'язаність і толерантність до гетерогенної обчислювальної потужності, що робить їх дуже придатними для кооперативного навчання через P2P мережі, протоколи Swarm, розподілені оптимізатори та інші методи.

Децентралізація тренування класичних проектів аналіз

Наразі в області децентралізованого навчання та федеративного навчання провідні блокчейн-проекти включають Prime Intellect, Pluralis.ai, Gensyn, Nous Research та Flock.io. З точки зору технічної інноваційності та складності інженерної реалізації, Prime Intellect, Nous Research та Pluralis.ai запропонували багато оригінальних досліджень у системній архітектурі та алгоритмічному дизайні, що представляє передові напрямки сучасних теоретичних досліджень; у той час як реалізаційні шляхи Gensyn та Flock.io є відносно зрозумілими, і вже видно перші кроки у напрямку інженерної реалізації. У цій статті буде поступово проаналізовано основні технології та інженерну архітектуру цих п'яти проектів, а також подальше обговорення їх відмінностей та взаємодоповнюючих відносин у децентралізованій AI навчальній системі.

Prime Intellect: тренувальна траєкторія може бути перевірена шляхом посиленого навчання у співпраці з мережевими попередниками

Prime Intellect прагне створити мережу навчання ШІ без довіри, де кожен може брати участь у навчанні та отримувати надійні винагороди за свої обчислювальні внески. Prime Intellect сподівається створити децентралізовану систему навчання ШІ з перевіряємістю, відкритістю та повною механікою стимулювання за допомогою трьох основних модулів: PRIME-RL + TOPLOC + SHARDCAST.

PRIME-RL є рамкою моделювання та виконання завдань, спеціально розробленою Prime Intellect для децентралізованих навчальних сценаріїв, виготовленою для гетерогенних мереж та асинхронних учасників. Він використовує підкріплювальне навчання як пріоритетний об'єкт адаптації, структурно декомпозуючи процеси навчання, висновків та завантаження ваг, що дозволяє кожному навчальному вузлу незалежно виконувати цикл завдань на місці та співпрацювати через стандартизовані інтерфейси з механізмами валідації та агрегації. На відміну від традиційних процесів навчання з наглядом, PRIME-RL краще підходить для реалізації еластичного навчання в середовищах без центрального управління, знижуючи складність системи та закладаючи основу для підтримки паралельного виконання багатьох завдань та еволюції стратегій.

TOPLOC є основним механізмом перевірки навчання, запропонованим Prime Intellect, який використовується для визначення, чи дійсно вузол на основі спостережуваних даних завершив ефективне навчання стратегії. На відміну від важких рішень, таких як ZKML, TOPLOC не покладається на повне перерахування моделі, а здійснює легку верифікацію структури шляхом аналізу локальної узгодженості траєкторій між "послідовністю спостережень ↔ оновленням стратегії". Вперше він перетворює траєкторії поведінки в процесі навчання на об'єкти, які можна перевірити, що є ключовим нововведенням для реалізації розподілу винагород за навчання без довіри, і забезпечує реальний шлях до створення аудиторних, стимулюючих децентралізованих мереж співпраці для навчання.

SHARDCAST є протоколом вагомого поширення та агрегування, розробленим Prime Intellect, спеціально оптимізованим для асинхронних, обмежених пропускною здатністю та змінних станів вузлів у реальних мережевих умовах. Він поєднує механізм поширення gossip і стратегію локальної синхронізації, дозволяючи кільком вузлам продовжувати подавати часткові оновлення в умовах неспівпадіння, що забезпечує прогресивну згортку ваг та еволюцію кількох версій. У порівнянні з централізованими або синхронними методами AllReduce, SHARDCAST суттєво підвищує масштабованість та стійкість до помилок у децентралізованому навчанні, являючи собою основну основу для побудови стабільного консенсусу ваг та безперервної ітерації навчання.

OpenDiLoCo є незалежною реалізацією та відкритим вихідним кодом оптимізаційного фреймворку зв'язку, розробленого командою Prime Intellect на основі концепції DiLoCo, запропонованої DeepMind, спеціально розробленого для вирішення таких проблем, як обмежена пропускна здатність, гетерогенні пристрої та нестабільність вузлів, які часто зустрічаються під час децентралізованого навчання. Його архітектура ґрунтується на паралельній обробці даних, шляхом побудови розріджених топологій, таких як кільце, розширювач, малий світ, що дозволяє уникнути високих витрат на зв'язок глобальної синхронізації, покладаючись лише на сусідні локальні вузли для завершення спільного навчання моделей. Поєднуючи асинхронне оновлення з механізмом відмовостійкості, OpenDiLoCo дозволяє споживчим GPU та краєвим пристроям стабільно брати участь у навчальних завданнях, значно підвищуючи можливість участі в глобальному співпрацювальному навчанні, що є однією з ключових комунікаційних інфраструктур для побудови децентралізованої навчальної мережі.

PCCL є легким комунікаційним бібліотекою, розробленою Prime Intellect для децентралізованого середовища навчання AI, що має на меті вирішити проблеми адаптації традиційних комунікаційних бібліотек у гетерогенних пристроях та мережах з низькою пропускною здатністю. PCCL підтримує розріджену топологію, стиснення градієнтів, синхронізацію з низькою точністю та відновлення з контрольних точок, може працювати на споживчих GPU та нестабільних вузлах, є базовим компонентом, що підтримує асинхронні комунікаційні можливості протоколу OpenDiLoCo. Він значно підвищує пропускну здатність мережі для навчання та сумісність пристроїв, прокладаючи "остання миля" комунікаційної інфраструктури для створення дійсно відкритої, без довіри кооперативної навчальної мережі.

Prime Intellect побудував мережу тренувань, яка не потребує дозволу, є перевірною та має економічні стимули, що дозволяє кожному брати участь у завданнях і отримувати винагороди на основі реального внеску. Протокол працює на основі трьох основних ролей:

Ініціатор завдання: визначення навчального середовища, початкової моделі, функції винагороди та стандартів перевірки
Навчальні вузли: виконання локального навчання, подання оновлень ваг та спостережених траєкторій
Вузли верифікації: використовують механізм TOPLOC для перевірки правдивості навчальної поведінки та беруть участь у розрахунках винагороди та агрегації стратегій

Ядро процесу угоди включає публікацію завдань, навчання вузлів, перевірку траєкторій, агрегацію ваг і виплату винагород, що утворює замкнуте коло стимулювання навколо "реальної навчальної поведінки".

Prime Intellect випустила INTELLECT-2 у травні 2025 року, це перша у світі велика модель посилення навчання, яка була створена за допомогою асинхронних, недовірених децентралізованих вузлів. Кількість параметрів досягає 32B. Модель INTELLECT-2 була навчена за допомогою 100+ гетерогенних вузлів GPU, розташованих на трьох континентах, використовуючи повністю асинхронну архітектуру, тривалість навчання перевищила 400 годин, що демонструє можливість та стабільність асинхронної кооперативної мережі. Ця модель стала не лише проривом у продуктивності, але й вперше системно реалізувала парадигму "навчання — це консенсус", запропоновану Prime Intellect. INTELLECT-2 інтегрувала основні модулі протоколів, такі як PRIME-RL, TOPLOC та SHARDCAST, що означає, що децентралізована навчальна мережа вперше досягла відкритості, верифікації та економічних стимулів у процесі навчання.

У плані продуктивності INTELLECT-2 базується на QwQ-32B, пройшовши спеціальну RL-навчання в коді та математиці, перебуваючи на передовій сучасних відкритих RL-моделей. Хоча йому ще не вдалося перевершити моделі, такі як GPT-4 або Gemini, його справжнє значення полягає в тому, що це перший у світі повністю тренувальний процес, який можна відтворити, перевірити та аудиторувати, децентралізований експеримент моделі. Prime Intellect не лише відкрив модель, але що більш важливо, відкрив сам процес навчання — навчальні дані, траєкторії оновлення стратегії, процеси валідації та логіку агрегації є прозорими та доступними для перевірки, створюючи прототип децентралізованої навчальної мережі, в якій може брати участь кожен, довірливе співробітництво та спільний прибуток.

Pluralis: Парадигма спільного навчання асинхронних моделей, паралельного та структурного стиснення

PRIME1.1%

Переглянути оригінал

Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.

12 лайків

Нагородити
12
6
Поділіться

Прокоментувати

0/400

OptionWhisperer