Священный Грааль Crypto AI: Передовые исследования децентрализованного обучения
В полной цепочке создания ценности AI обучение моделей является самым ресурсозатратным и технологически сложным этапом, который напрямую определяет пределы возможностей модели и реальные результаты применения. В отличие от легковесных вызовов на этапе вывода, процесс обучения требует постоянных вложений в масштабные вычислительные мощности, сложные процессы обработки данных и поддержку высокоинтенсивных алгоритмов оптимизации, что делает его настоящей "тяжелой промышленностью" в построении AI-систем. С точки зрения архитектурных парадигм, методы обучения можно разделить на четыре категории: централизованное обучение, распределенное обучение, федеративное обучение и децентрализованное обучение, которое будет обсуждено в данной статье.
Централизованное обучение является наиболее распространенным традиционным способом, при котором единая организация выполняет весь процесс обучения на локальном высокопроизводительном кластере, от аппаратного обеспечения, базового программного обеспечения, систем управления кластерами до всех компонентов учебного фрейма, которые координируются единой системой управления. Эта глубоко скоординированная архитектура позволяет оптимизировать эффективность разделения памяти, синхронизации градиентов и механизмов отказоустойчивости, что делает её особенно подходящей для обучения крупных моделей, таких как GPT и Gemini, обладая преимуществами высокой эффективности и контролируемых ресурсов, но также сталкиваясь с проблемами монополизации данных, барьеров для ресурсов, потребления энергии и рисков единой точки.
Распределенное обучение является основным способом обучения больших моделей в настоящее время. Его суть заключается в разделении задач обучения модели и распределении их на несколько машин для совместного выполнения, чтобы преодолеть узкие места вычислений и хранения на одной машине. Хотя физически он обладает характеристиками "Децентрализация", в целом он все же контролируется и координируется централизованным учреждением, часто работает в среде высокоскоростной локальной сети, используя технологию высокоскоростной межсоединительной шины NVLink, где главный узел координирует выполнение подзадач. Основные методы включают:
Данные параллель: каждый узел обучает различные данные, параметры делятся, необходимо сопоставить веса модели
Модельное параллелизм: развертывание различных частей модели на разных узлах для достижения высокой масштабируемости
Параллельные каналы: поэтапное последовательное выполнение, повышающее пропускную способность
Тензорное параллелизм: тонкая сегментация матричных вычислений, повышение степени параллелизма
Распределенное обучение является комбинацией "централизованного контроля + распределенного выполнения", аналогично тому, как один и тот же начальник удаленно управляет несколькими "офисами" для совместного выполнения задач. В настоящее время почти все основные модели больших данных обучаются именно таким образом.
Децентрализация обучения представляет собой более открытую и устойчивую к цензуре будущую траекторию. Его ключевыми характеристиками являются: несколько недоверительных узлов совместно выполняют учебные задачи без центрального координатора, обычно через протокол, который управляет распределением задач и сотрудничеством, а также с помощью криптоэкономических стимулов, обеспечивающих честность вклада. Основные вызовы, с которыми сталкивается эта модель, включают:
Проблемы с гетерогенными устройствами и разделением задач: высокая сложность координации гетерогенных устройств, низкая эффективность разделения задач
Узкие места в эффективности связи: нестабильная сеть, явные узкие места в синхронизации градиентов
Отсутствие доверенного исполнения: отсутствие доверенной вычислительной среды, сложно подтвердить, действительно ли узлы участвуют в вычислениях.
Отсутствие единой координации: нет центрального диспетчера, сложные механизмы распределения задач и отката ошибок
Децентрализация тренировки можно понимать как: группа глобальных волонтеров, каждый из которых вносит вычислительную мощность для совместной тренировки модели, но "действительно осуществимая крупномасштабная децентрализация тренировки" все еще является системным инженерным вызовом, который охватывает несколько уровней, включая системную архитектуру, коммуникационные протоколы, криптографическую безопасность, экономические механизмы, верификацию моделей и т.д., но вопрос о том, возможно ли "совместное выполнение + стимулирование честности + правильные результаты" все еще находится на этапе раннего прототипирования.
Федеративное обучение, как переходная форма между распределенной и Децентрализацией, подчеркивает локальное хранение данных и централизованную агрегацию параметров модели, подходя для сценариев, акцентирующих внимание на соблюдении конфиденциальности. Федеративное обучение обладает инженерной структурой распределенного обучения и локальными кооперативными возможностями, одновременно имея преимущества распределенных данных в Децентрализации, но все же зависит от надежной координирующей стороны и не обладает полностью открытыми и антикризисными характеристиками. Это можно рассматривать как "контролируемую Децентрализацию" в сценариях соблюдения конфиденциальности, где задачи обучения, структура доверия и механизмы связи относительно умеренные, что делает её более подходящей в качестве переходной архитектуры для промышленного развертывания.
Децентрализация тренировки границы, возможности и реалистичные пути
С точки зрения парадигмы обучения, Децентрализация обучения не подходит для всех типов задач. В некоторых сценариях, из-за сложной структуры задач, крайне высоких требований к ресурсам или больших трудностей в сотрудничестве, она изначально не подходит для эффективного выполнения между гетерогенными, недоверенными узлами. Например, обучение больших моделей часто зависит от высокой памяти, низкой задержки и высокой пропускной способности, что затрудняет эффективное разделение и синхронизацию в открытой сети; задачи с сильными ограничениями по конфиденциальности данных и суверенитету ограничены юридическими нормами и этическими ограничениями, что не позволяет открыто делиться; а задачи, не имеющие базовой мотивации к сотрудничеству, лишены внешней мотивации для участия. Эти границы вместе составляют реальные ограничения текущего Децентрализованного обучения.
Но это не означает, что децентрализация обучения является ложной гипотезой. На самом деле, в задачах с легкой структурой, простых для параллелизации и стимулирующих, децентрализация обучения демонстрирует явные перспективы применения. Включая, но не ограничиваясь: LoRA дообучение, задачи послеобучения по выравниванию поведения, задачи обучения и аннотирования с краудсорсингом данных, обучение небольших базовых моделей с контролируемыми ресурсами, а также сценарии совместного обучения с участием периферийных устройств. Эти задачи обычно обладают высокой параллельностью, низкой связанностью и толерантностью к гетерогенной вычислительной мощности, что делает их очень подходящими для совместного обучения через P2P сети, протоколы Swarm, распределенные оптимизаторы и другие методы.
Децентрализация тренировки классических проектов анализа
В настоящее время в области децентрализованного обучения и федеративного обучения представительные блокчейн-проекты включают Prime Intellect, Pluralis.ai, Gensyn, Nous Research и Flock.io. С точки зрения технической инновационности и сложности инженерной реализации Prime Intellect, Nous Research и Pluralis.ai предлагают множество оригинальных исследований в системной архитектуре и разработке алгоритмов, представляя текущие передовые направления теоретических исследований; в то время как пути реализации Gensyn и Flock.io относительно ясны, и уже можно увидеть первоначальные инженерные успехи. В данной статье будут поочередно проанализированы основные технологии и инженерные архитектуры, стоящие за этими пятью проектами, а также будет дополнительно рассмотрены их различия и взаимодополняющие отношения в системе децентрализованного AI-обучения.
Prime Intellect: Пионеры кооперативных сетей с подкреплением, траектории обучения которых можно проверять
Prime Intellect стремится создать сеть обучения ИИ, не требующую доверия, позволяя каждому участвовать в обучении и получать надежные вознаграждения за свои вычислительные вклады. Prime Intellect надеется создать систему децентрализованного обучения ИИ с проверяемостью, открытостью и полной системой стимулов через три основных модуля: PRIME-RL, TOPLOC и SHARDCAST.
PRIME-RL является фреймворком моделирования задач и выполнения, разработанным Prime Intellect для Децентрализация тренировочных сценариев, специально созданным для гетерогенных сетей и асинхронного участия. Он использует обучение с подкреплением в качестве приоритетного адаптивного объекта, структурно разъединяя процессы обучения, вывода и загрузки весов, что позволяет каждому узлу обучения независимо выполнять цикл задач локально и взаимодействовать через стандартизированные интерфейсы с механизмами проверки и агрегации. В отличие от традиционных процессов обучения с учителем, PRIME-RL лучше подходит для реализации гибкого обучения в средах без централизованного управления, что снижает сложность системы и закладывает основу для поддержки параллельного выполнения многозадачности и эволюции стратегий.
TOPLOC — это основная механика проверки обучаемости, предложенная Prime Intellect, используемая для определения, действительно ли узел завершил эффективное обучение стратегии на основе наблюдаемых данных. В отличие от тяжелых решений, таких как ZKML, TOPLOC не зависит от полной переработки модели, а осуществляет легковесную верификацию, анализируя локальную согласованность между "последовательностью наблюдений ↔ обновлением стратегии". Впервые он превращает поведенческие траектории в процессе обучения в проверяемые объекты, что является ключевым нововведением для реализации распределения наград за обучение без доверия, предоставляя жизнеспособный путь для создания аудитируемой и стимулируемой сети децентрализованного кооперативного обучения.
SHARDCAST — это протокол распространения и агрегации весов, разработанный Prime Intellect, оптимизированный специально для асинхронных, ограниченных по пропускной способности и изменяющихся по состоянию узлов реальных сетевых сред. Он сочетает в себе механизм распространения gossip и локальные стратегии синхронизации, позволяя нескольким узлам продолжать отправлять частичные обновления в условиях несинхронизированного состояния, достигая прогрессивного сходимости весов и многоверсионной эволюции. По сравнению с централизованными или синхронными методами AllReduce, SHARDCAST значительно повышает масштабируемость и устойчивость к сбоям децентрализованного обучения, что является основой для построения стабильного консенсуса по весам и непрерывной итерации обучения.
OpenDiLoCo является независимой реализацией и открытым исходным кодом фреймворка оптимизации связи, разработанным командой Prime Intellect на основе концепции DiLoCo, предложенной DeepMind. Он специально разработан для решения таких проблем, как ограниченная пропускная способность, гетерогенность устройств и нестабильность узлов, которые часто возникают в процессе децентрализованного обучения. Его архитектура основана на параллельной обработке данных, и с помощью построения разреженных топологических структур, таких как Ring, Expander и Small-World, избегает высоких затрат на связь от глобальной синхронизации, полагаясь только на локальных соседних узлов для выполнения совместного обучения модели. В сочетании с асинхронным обновлением и механизмом восстановления после сбоев, OpenDiLoCo позволяет потребительским GPU и краевым устройствам стабильно участвовать в обучении, значительно повышая доступность глобального совместного обучения, что делает его одной из ключевых коммуникационных инфраструктур для построения сети децентрализованного обучения.
PCCL – это легковесная библиотека связи, созданная Prime Intellect для децентрализованной среды обучения ИИ, предназначенная для решения проблем совместимости традиционных библиотек связи в гетерогенных устройствах и сетях с низкой пропускной способностью. PCCL поддерживает разреженные топологии, сжатие градиентов, синхронизацию с низкой точностью и восстановление после сбоев, может работать на потребительских GPU и нестабильных узлах, является основным компонентом, поддерживающим асинхронные коммуникационные возможности протокола OpenDiLoCo. Она значительно повышает толерантность сети к пропускной способности и совместимость устройств, прокладывая "последнюю милю" коммуникационной инфраструктуры для создания действительно открытой и не требующей доверия сети совместного обучения.
Prime Intellect создала сеть обучения, не требующую разрешений, проверяемую и обладающую экономическим стимулом, позволяя любому участвовать в задачах и получать вознаграждение на основе реального вклада. Протокол функционирует на основе трех основных ролей:
Узел обучения: выполнение локального обучения, отправка обновлений весов и наблюдаемых траекторий
Узлы проверки: Использование механизма TOPLOC для проверки подлинности тренировочного поведения и участия в расчете вознаграждений и агрегировании стратегий.
Ядро процесса протокола включает в себя публикацию задач, обучение узлов, проверку траекторий, агрегацию весов и распределение вознаграждений, образуя стимульный замкнутый цикл вокруг "реального поведения обучения".
Prime Intellect выпустила INTELLECT-2 в мае 2025 года, это первая в мире большая модель强化学习, созданная с помощью асинхронного, ненадежного Децентрализация узлов, работающих совместно. Масштаб параметров достигает 32B. Модель INTELLECT-2 была обучена с помощью более 100 гетерогенных узлов GPU, расположенных на трех континентах, с использованием полностью асинхронной архитектуры, время обучения составило более 400 часов, что продемонстрировало жизнеспособность и стабильность асинхронной кооперативной сети. Эта модель не только является прорывом в производительности, но и впервые системно реализует предложенную Prime Intellect парадигму "обучение как консенсус". INTELLECT-2 интегрирует ключевые протоколы, такие как PRIME-RL, TOPLOC и SHARDCAST, что знаменует собой первую реализацию открытости, верифицируемости и экономической стимуляции замкнутого цикла в процессе обучения в Децентрализация сети.
В плане производительности, INTELLECT-2 основан на QwQ-32B и прошел специальное RL-обучение в коде и математике, находясь на переднем крае текущих открытых RL-моделей. Хотя он еще не превзошел такие модели, как GPT-4 или Gemini, его истинное значение заключается в том, что это первая в мире полностью тренируемая, воспроизводимая, проверяемая и подлежащая аудиту экспериментальная модель децентрализации. Prime Intellect не только открыл модель, но что более важно, открыл сам процесс обучения — тренировочные данные, траектории обновления стратегий, процессы проверки и логика агрегирования полностью прозрачны и доступны для проверки, что создает прототип децентрализованной сети обучения, в которой каждый может участвовать, доверительно сотрудничать и разделять доход.
Pluralis: Парадигма совместного обучения асинхронной модели, параллельной и структурной компрессии
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
12 Лайков
Награда
12
6
Репост
Поделиться
комментарий
0/400
OptionWhisperer
· 07-17 11:40
Раньше говорили, вычислительная мощность является узким местом.
Посмотреть ОригиналОтветить0
TokenCreatorOP
· 07-16 08:09
Учебные расходы ликвидировали вычислительную мощность карты, не получится.
Посмотреть ОригиналОтветить0
SybilSlayer
· 07-14 14:35
Все еще играете с концепциями, пожалуйста.
Посмотреть ОригиналОтветить0
LiquidationAlert
· 07-14 14:35
Это, вероятно, неудачно.
Посмотреть ОригиналОтветить0
PositionPhobia
· 07-14 14:21
Поиграй немного, не стоит беспокоиться.
Посмотреть ОригиналОтветить0
GhostAddressHunter
· 07-14 14:07
Действительно, вычислительная мощность централизованного управления велика.
Децентрализация AI тренировки исследования: от Prime Intellect до Pluralis технологические инновации
Священный Грааль Crypto AI: Передовые исследования децентрализованного обучения
В полной цепочке создания ценности AI обучение моделей является самым ресурсозатратным и технологически сложным этапом, который напрямую определяет пределы возможностей модели и реальные результаты применения. В отличие от легковесных вызовов на этапе вывода, процесс обучения требует постоянных вложений в масштабные вычислительные мощности, сложные процессы обработки данных и поддержку высокоинтенсивных алгоритмов оптимизации, что делает его настоящей "тяжелой промышленностью" в построении AI-систем. С точки зрения архитектурных парадигм, методы обучения можно разделить на четыре категории: централизованное обучение, распределенное обучение, федеративное обучение и децентрализованное обучение, которое будет обсуждено в данной статье.
Централизованное обучение является наиболее распространенным традиционным способом, при котором единая организация выполняет весь процесс обучения на локальном высокопроизводительном кластере, от аппаратного обеспечения, базового программного обеспечения, систем управления кластерами до всех компонентов учебного фрейма, которые координируются единой системой управления. Эта глубоко скоординированная архитектура позволяет оптимизировать эффективность разделения памяти, синхронизации градиентов и механизмов отказоустойчивости, что делает её особенно подходящей для обучения крупных моделей, таких как GPT и Gemini, обладая преимуществами высокой эффективности и контролируемых ресурсов, но также сталкиваясь с проблемами монополизации данных, барьеров для ресурсов, потребления энергии и рисков единой точки.
Распределенное обучение является основным способом обучения больших моделей в настоящее время. Его суть заключается в разделении задач обучения модели и распределении их на несколько машин для совместного выполнения, чтобы преодолеть узкие места вычислений и хранения на одной машине. Хотя физически он обладает характеристиками "Децентрализация", в целом он все же контролируется и координируется централизованным учреждением, часто работает в среде высокоскоростной локальной сети, используя технологию высокоскоростной межсоединительной шины NVLink, где главный узел координирует выполнение подзадач. Основные методы включают:
Распределенное обучение является комбинацией "централизованного контроля + распределенного выполнения", аналогично тому, как один и тот же начальник удаленно управляет несколькими "офисами" для совместного выполнения задач. В настоящее время почти все основные модели больших данных обучаются именно таким образом.
Децентрализация обучения представляет собой более открытую и устойчивую к цензуре будущую траекторию. Его ключевыми характеристиками являются: несколько недоверительных узлов совместно выполняют учебные задачи без центрального координатора, обычно через протокол, который управляет распределением задач и сотрудничеством, а также с помощью криптоэкономических стимулов, обеспечивающих честность вклада. Основные вызовы, с которыми сталкивается эта модель, включают:
Децентрализация тренировки можно понимать как: группа глобальных волонтеров, каждый из которых вносит вычислительную мощность для совместной тренировки модели, но "действительно осуществимая крупномасштабная децентрализация тренировки" все еще является системным инженерным вызовом, который охватывает несколько уровней, включая системную архитектуру, коммуникационные протоколы, криптографическую безопасность, экономические механизмы, верификацию моделей и т.д., но вопрос о том, возможно ли "совместное выполнение + стимулирование честности + правильные результаты" все еще находится на этапе раннего прототипирования.
Федеративное обучение, как переходная форма между распределенной и Децентрализацией, подчеркивает локальное хранение данных и централизованную агрегацию параметров модели, подходя для сценариев, акцентирующих внимание на соблюдении конфиденциальности. Федеративное обучение обладает инженерной структурой распределенного обучения и локальными кооперативными возможностями, одновременно имея преимущества распределенных данных в Децентрализации, но все же зависит от надежной координирующей стороны и не обладает полностью открытыми и антикризисными характеристиками. Это можно рассматривать как "контролируемую Децентрализацию" в сценариях соблюдения конфиденциальности, где задачи обучения, структура доверия и механизмы связи относительно умеренные, что делает её более подходящей в качестве переходной архитектуры для промышленного развертывания.
Децентрализация тренировки границы, возможности и реалистичные пути
С точки зрения парадигмы обучения, Децентрализация обучения не подходит для всех типов задач. В некоторых сценариях, из-за сложной структуры задач, крайне высоких требований к ресурсам или больших трудностей в сотрудничестве, она изначально не подходит для эффективного выполнения между гетерогенными, недоверенными узлами. Например, обучение больших моделей часто зависит от высокой памяти, низкой задержки и высокой пропускной способности, что затрудняет эффективное разделение и синхронизацию в открытой сети; задачи с сильными ограничениями по конфиденциальности данных и суверенитету ограничены юридическими нормами и этическими ограничениями, что не позволяет открыто делиться; а задачи, не имеющие базовой мотивации к сотрудничеству, лишены внешней мотивации для участия. Эти границы вместе составляют реальные ограничения текущего Децентрализованного обучения.
Но это не означает, что децентрализация обучения является ложной гипотезой. На самом деле, в задачах с легкой структурой, простых для параллелизации и стимулирующих, децентрализация обучения демонстрирует явные перспективы применения. Включая, но не ограничиваясь: LoRA дообучение, задачи послеобучения по выравниванию поведения, задачи обучения и аннотирования с краудсорсингом данных, обучение небольших базовых моделей с контролируемыми ресурсами, а также сценарии совместного обучения с участием периферийных устройств. Эти задачи обычно обладают высокой параллельностью, низкой связанностью и толерантностью к гетерогенной вычислительной мощности, что делает их очень подходящими для совместного обучения через P2P сети, протоколы Swarm, распределенные оптимизаторы и другие методы.
Децентрализация тренировки классических проектов анализа
В настоящее время в области децентрализованного обучения и федеративного обучения представительные блокчейн-проекты включают Prime Intellect, Pluralis.ai, Gensyn, Nous Research и Flock.io. С точки зрения технической инновационности и сложности инженерной реализации Prime Intellect, Nous Research и Pluralis.ai предлагают множество оригинальных исследований в системной архитектуре и разработке алгоритмов, представляя текущие передовые направления теоретических исследований; в то время как пути реализации Gensyn и Flock.io относительно ясны, и уже можно увидеть первоначальные инженерные успехи. В данной статье будут поочередно проанализированы основные технологии и инженерные архитектуры, стоящие за этими пятью проектами, а также будет дополнительно рассмотрены их различия и взаимодополняющие отношения в системе децентрализованного AI-обучения.
Prime Intellect: Пионеры кооперативных сетей с подкреплением, траектории обучения которых можно проверять
Prime Intellect стремится создать сеть обучения ИИ, не требующую доверия, позволяя каждому участвовать в обучении и получать надежные вознаграждения за свои вычислительные вклады. Prime Intellect надеется создать систему децентрализованного обучения ИИ с проверяемостью, открытостью и полной системой стимулов через три основных модуля: PRIME-RL, TOPLOC и SHARDCAST.
PRIME-RL является фреймворком моделирования задач и выполнения, разработанным Prime Intellect для Децентрализация тренировочных сценариев, специально созданным для гетерогенных сетей и асинхронного участия. Он использует обучение с подкреплением в качестве приоритетного адаптивного объекта, структурно разъединяя процессы обучения, вывода и загрузки весов, что позволяет каждому узлу обучения независимо выполнять цикл задач локально и взаимодействовать через стандартизированные интерфейсы с механизмами проверки и агрегации. В отличие от традиционных процессов обучения с учителем, PRIME-RL лучше подходит для реализации гибкого обучения в средах без централизованного управления, что снижает сложность системы и закладывает основу для поддержки параллельного выполнения многозадачности и эволюции стратегий.
TOPLOC — это основная механика проверки обучаемости, предложенная Prime Intellect, используемая для определения, действительно ли узел завершил эффективное обучение стратегии на основе наблюдаемых данных. В отличие от тяжелых решений, таких как ZKML, TOPLOC не зависит от полной переработки модели, а осуществляет легковесную верификацию, анализируя локальную согласованность между "последовательностью наблюдений ↔ обновлением стратегии". Впервые он превращает поведенческие траектории в процессе обучения в проверяемые объекты, что является ключевым нововведением для реализации распределения наград за обучение без доверия, предоставляя жизнеспособный путь для создания аудитируемой и стимулируемой сети децентрализованного кооперативного обучения.
SHARDCAST — это протокол распространения и агрегации весов, разработанный Prime Intellect, оптимизированный специально для асинхронных, ограниченных по пропускной способности и изменяющихся по состоянию узлов реальных сетевых сред. Он сочетает в себе механизм распространения gossip и локальные стратегии синхронизации, позволяя нескольким узлам продолжать отправлять частичные обновления в условиях несинхронизированного состояния, достигая прогрессивного сходимости весов и многоверсионной эволюции. По сравнению с централизованными или синхронными методами AllReduce, SHARDCAST значительно повышает масштабируемость и устойчивость к сбоям децентрализованного обучения, что является основой для построения стабильного консенсуса по весам и непрерывной итерации обучения.
OpenDiLoCo является независимой реализацией и открытым исходным кодом фреймворка оптимизации связи, разработанным командой Prime Intellect на основе концепции DiLoCo, предложенной DeepMind. Он специально разработан для решения таких проблем, как ограниченная пропускная способность, гетерогенность устройств и нестабильность узлов, которые часто возникают в процессе децентрализованного обучения. Его архитектура основана на параллельной обработке данных, и с помощью построения разреженных топологических структур, таких как Ring, Expander и Small-World, избегает высоких затрат на связь от глобальной синхронизации, полагаясь только на локальных соседних узлов для выполнения совместного обучения модели. В сочетании с асинхронным обновлением и механизмом восстановления после сбоев, OpenDiLoCo позволяет потребительским GPU и краевым устройствам стабильно участвовать в обучении, значительно повышая доступность глобального совместного обучения, что делает его одной из ключевых коммуникационных инфраструктур для построения сети децентрализованного обучения.
PCCL – это легковесная библиотека связи, созданная Prime Intellect для децентрализованной среды обучения ИИ, предназначенная для решения проблем совместимости традиционных библиотек связи в гетерогенных устройствах и сетях с низкой пропускной способностью. PCCL поддерживает разреженные топологии, сжатие градиентов, синхронизацию с низкой точностью и восстановление после сбоев, может работать на потребительских GPU и нестабильных узлах, является основным компонентом, поддерживающим асинхронные коммуникационные возможности протокола OpenDiLoCo. Она значительно повышает толерантность сети к пропускной способности и совместимость устройств, прокладывая "последнюю милю" коммуникационной инфраструктуры для создания действительно открытой и не требующей доверия сети совместного обучения.
Prime Intellect создала сеть обучения, не требующую разрешений, проверяемую и обладающую экономическим стимулом, позволяя любому участвовать в задачах и получать вознаграждение на основе реального вклада. Протокол функционирует на основе трех основных ролей:
Ядро процесса протокола включает в себя публикацию задач, обучение узлов, проверку траекторий, агрегацию весов и распределение вознаграждений, образуя стимульный замкнутый цикл вокруг "реального поведения обучения".
Prime Intellect выпустила INTELLECT-2 в мае 2025 года, это первая в мире большая модель强化学习, созданная с помощью асинхронного, ненадежного Децентрализация узлов, работающих совместно. Масштаб параметров достигает 32B. Модель INTELLECT-2 была обучена с помощью более 100 гетерогенных узлов GPU, расположенных на трех континентах, с использованием полностью асинхронной архитектуры, время обучения составило более 400 часов, что продемонстрировало жизнеспособность и стабильность асинхронной кооперативной сети. Эта модель не только является прорывом в производительности, но и впервые системно реализует предложенную Prime Intellect парадигму "обучение как консенсус". INTELLECT-2 интегрирует ключевые протоколы, такие как PRIME-RL, TOPLOC и SHARDCAST, что знаменует собой первую реализацию открытости, верифицируемости и экономической стимуляции замкнутого цикла в процессе обучения в Децентрализация сети.
В плане производительности, INTELLECT-2 основан на QwQ-32B и прошел специальное RL-обучение в коде и математике, находясь на переднем крае текущих открытых RL-моделей. Хотя он еще не превзошел такие модели, как GPT-4 или Gemini, его истинное значение заключается в том, что это первая в мире полностью тренируемая, воспроизводимая, проверяемая и подлежащая аудиту экспериментальная модель децентрализации. Prime Intellect не только открыл модель, но что более важно, открыл сам процесс обучения — тренировочные данные, траектории обновления стратегий, процессы проверки и логика агрегирования полностью прозрачны и доступны для проверки, что создает прототип децентрализованной сети обучения, в которой каждый может участвовать, доверительно сотрудничать и разделять доход.
Pluralis: Парадигма совместного обучения асинхронной модели, параллельной и структурной компрессии