في غمضة عين ، تحسن النموذج الكبير مفتوح المصدر مرة أخرى. هل Google و OpenAI ليس لديهما خندق مائي حقًا؟
"لقد أخذت للتو استراحة غداء مدتها 30 دقيقة ، وقد تغير مجالنا مرة أخرى؟" بعد رؤية أحدث تصنيفات النماذج الكبيرة مفتوحة المصدر ، سأل أحد رواد الأعمال في مجال الذكاء الاصطناعي روحه.
رابط ليدربورد:
"المبتدئين" في المربع الأحمر أعلاه هما نموذجان كبيران من Stability AI و CarperAI lab: FreeWilly 1 و FreeWilly 2. الآن فقط ، تجاوزوا Llama-2-70b-hf الذي أصدرته Meta قبل ثلاثة أيام ، ووصلوا بنجاح إلى قمة HuggingFace's Open LLM المتصدرين.
الأمر الأكثر إثارة للدهشة هو أن FreeWilly 2 تغلب أيضًا على ChatGPT (GPT-3.5) في العديد من المعايير ، ليصبح أول نموذج مفتوح المصدر يمكنه منافسة GPT-3.5 ، وهو شيء لم تفعله Llama 2.
تم تصميم FreeWilly 1 وفقًا لنموذج قاعدة LLaMA 65B الأصلي وخضع للإشراف الدقيق (SFT) باستخدام مجموعات بيانات تركيبية جديدة بتنسيق Alpaca القياسي. يعتمد FreeWilly2 على أحدث طراز أساسي LLaMA 2 70B.
من المدونة التي نشرتها Stability AI ، يمكننا أن نرى بعض التفاصيل لهذين النموذجين الجديدين:
مصادر البيانات
طريقة التدريب لنموذج FreeWilly مستوحاة مباشرة من الطريقة التي ابتكرتها Microsoft في ورقتهم "Orca: التعلم التقدمي من آثار الشرح المعقدة لـ GPT-4". في حين أن عملية توليد البيانات في FreeWilly متشابهة ، إلا أن هناك اختلافات في مصدر البيانات.
تحتوي مجموعة بيانات FreeWilly على 600000 نقطة بيانات (حوالي 10٪ من حجم مجموعة البيانات المستخدمة في ورقة Orca الأصلية) ، وقد تم إنشاؤها بواسطة نماذج لغة ملهمة من مجموعة بيانات التعليمات عالية الجودة التالية التي أنشأها Enrico Shippole:
COT Submix Original
NIV2 Submix Original
FLAN 2021 Submix Original
T0 Submix Original
باستخدام هذا النهج ، أنتج الباحثون 500000 مثال باستخدام نموذج LLM أبسط و 100000 مثال إضافي باستخدام نموذج LLM أكثر تعقيدًا. لضمان إجراء مقارنة عادلة ، قاموا بفحص مجموعات البيانات هذه بعناية وإزالة الأمثلة المستمدة من معيار التقييم. على الرغم من أن عدد عينات التدريب هو 1/10 فقط من ورقة Orca الأصلية (مما يقلل بشكل كبير من التكلفة والبصمة الكربونية لتدريب النموذج مقارنةً بالورقة الأصلية) ، فإن نموذج FreeWilly الناتج يؤدي أداءً جيدًا على معايير مختلفة ، مما يثبت فعالية نهجهم مع مجموعات البيانات الاصطناعية.
بيانات الأداء
للتقييم الداخلي لهذه النماذج ، استخدم الباحثون مقياس تسخير lm الخاص بـ EleutherAI ، والذي يتضمن AGI.
من بينها ، تم إنشاء معيار lm - harness بواسطة مختبر أبحاث الذكاء الاصطناعي غير الربحي EleutherAI ، والذي يقف وراء لوحة المتصدرين HuggingFace Open LLM المذكورة أعلاه.
تم إنشاء AGI بواسطة Microsoft لتقييم أداء النموذج الأساسي في الاختبارات المعيارية "المرتكزة على الإنسان" ، مثل مسابقات الرياضيات وامتحانات المحامين.
يعمل كلا نموذجي FreeWilly جيدًا بشكل استثنائي على العديد من الجبهات ، بما في ذلك التفكير المعقد وفهم التفاصيل الدقيقة للغة والإجابة على الأسئلة المعقدة التي تتضمن مجالات متخصصة مثل الأسئلة القانونية والرياضية.
نتائج التقييم للنموذجين على مقياس lm - harness هي كما يلي (تم تقييم نتائج اختبار FreeWilly هذه من قبل باحثين في منظمة Stability AI):
أداء الاثنين على معيار AGI كما يلي (كل 0 لقطة):
بالإضافة إلى ذلك ، قاموا باختبار نموذجين على معيار GPT4ALL (كل لقطات 0):
بشكل عام ، أداء هذين النموذجين جيد جدًا ، مما يزيد من تضييق الفجوة مع أفضل نماذج الذكاء الاصطناعي مثل ChatGPT. يمكن للطلاب الذين يرغبون في الحصول على النموذج النقر فوق الارتباط أدناه.
فري ويلي 1 :
فري ويلي 2 :
انطلاقا من ردود أفعال جميع الأطراف ، فإن ظهور نموذج FreeWilly قد تسبب في صدمة صغيرة للجميع ، لأنها جاءت بسرعة كبيرة. بعد كل شيء ، تم إطلاق Llama 2 لمدة 3 أيام فقط ، وموقع الترتيب ليس ساخنًا. قال أحد الباحثين إنه خضع لعملية جراحية في العيون مؤخرًا ولم يشاهد الأخبار لمدة أسبوع ، لكنه شعر وكأنه في غيبوبة لمدة عام. لذلك ، هذه فترة "لا يمكن أن تومض".
ومع ذلك ، من المهم ملاحظة أنه على الرغم من أن كلا الطرازين متاحان للوصول المفتوح ، على عكس Llama 2 ، فقد تم إصدارهما بموجب ترخيص غير تجاري لأغراض البحث فقط.
ومع ذلك ، فقد أثار هذا النهج شكوك مستخدمي الإنترنت.
رداً على ذلك ، أجاب باحثو منظمة العفو الدولية في الاستقرار أن هذا الموقف (للأغراض البحثية فقط) مؤقت فقط ، وفي المستقبل ، من المتوقع أن تسمح FreeWilly بالاستخدام التجاري مثل Llama 2.
بالإضافة إلى ذلك ، شكك بعض الأشخاص في المعيار المعتمد في الاختبار:
هذه أيضًا مشكلة أكثر صعوبة في الوقت الحاضر. في السابق ، كان الحدث الذي قام فيه نموذج Falcon بسحق Llama على لوحة المتصدرين HuggingFace مثيرًا للجدل. وفي وقت لاحق ، تم عكس الحدث تمامًا. واتضح أن Llama لم يتم سحقها بواسطة Falcon ، كما أعاد HuggingFace كتابة رمز لوحة المتصدرين لهذا الغرض. اليوم ، مع ظهور النماذج الكبيرة ، لا تزال كيفية تقييم هذه النماذج بفعالية مشكلة تستحق المناقشة. لذلك ، من الضروري بالنسبة لنا أن نحافظ على موقف أكثر حذرًا تجاه هذه النماذج ذات التصنيف الأعلى وانتظار المزيد من نتائج التقييم ليتم إصدارها.
رابط المرجع: *
شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
بعد هزيمة Llama 2 والتنافس ضد GPT-3.5 ، تصدّر نموذج Stability AI الجديد تصنيفات النماذج الكبيرة مفتوحة المصدر
المصدر الأصلي: قلب الآلة
في غمضة عين ، تحسن النموذج الكبير مفتوح المصدر مرة أخرى. هل Google و OpenAI ليس لديهما خندق مائي حقًا؟
"لقد أخذت للتو استراحة غداء مدتها 30 دقيقة ، وقد تغير مجالنا مرة أخرى؟" بعد رؤية أحدث تصنيفات النماذج الكبيرة مفتوحة المصدر ، سأل أحد رواد الأعمال في مجال الذكاء الاصطناعي روحه.
"المبتدئين" في المربع الأحمر أعلاه هما نموذجان كبيران من Stability AI و CarperAI lab: FreeWilly 1 و FreeWilly 2. الآن فقط ، تجاوزوا Llama-2-70b-hf الذي أصدرته Meta قبل ثلاثة أيام ، ووصلوا بنجاح إلى قمة HuggingFace's Open LLM المتصدرين.
الأمر الأكثر إثارة للدهشة هو أن FreeWilly 2 تغلب أيضًا على ChatGPT (GPT-3.5) في العديد من المعايير ، ليصبح أول نموذج مفتوح المصدر يمكنه منافسة GPT-3.5 ، وهو شيء لم تفعله Llama 2.
من المدونة التي نشرتها Stability AI ، يمكننا أن نرى بعض التفاصيل لهذين النموذجين الجديدين:
مصادر البيانات
طريقة التدريب لنموذج FreeWilly مستوحاة مباشرة من الطريقة التي ابتكرتها Microsoft في ورقتهم "Orca: التعلم التقدمي من آثار الشرح المعقدة لـ GPT-4". في حين أن عملية توليد البيانات في FreeWilly متشابهة ، إلا أن هناك اختلافات في مصدر البيانات.
تحتوي مجموعة بيانات FreeWilly على 600000 نقطة بيانات (حوالي 10٪ من حجم مجموعة البيانات المستخدمة في ورقة Orca الأصلية) ، وقد تم إنشاؤها بواسطة نماذج لغة ملهمة من مجموعة بيانات التعليمات عالية الجودة التالية التي أنشأها Enrico Shippole:
باستخدام هذا النهج ، أنتج الباحثون 500000 مثال باستخدام نموذج LLM أبسط و 100000 مثال إضافي باستخدام نموذج LLM أكثر تعقيدًا. لضمان إجراء مقارنة عادلة ، قاموا بفحص مجموعات البيانات هذه بعناية وإزالة الأمثلة المستمدة من معيار التقييم. على الرغم من أن عدد عينات التدريب هو 1/10 فقط من ورقة Orca الأصلية (مما يقلل بشكل كبير من التكلفة والبصمة الكربونية لتدريب النموذج مقارنةً بالورقة الأصلية) ، فإن نموذج FreeWilly الناتج يؤدي أداءً جيدًا على معايير مختلفة ، مما يثبت فعالية نهجهم مع مجموعات البيانات الاصطناعية.
بيانات الأداء
للتقييم الداخلي لهذه النماذج ، استخدم الباحثون مقياس تسخير lm الخاص بـ EleutherAI ، والذي يتضمن AGI.
من بينها ، تم إنشاء معيار lm - harness بواسطة مختبر أبحاث الذكاء الاصطناعي غير الربحي EleutherAI ، والذي يقف وراء لوحة المتصدرين HuggingFace Open LLM المذكورة أعلاه.
تم إنشاء AGI بواسطة Microsoft لتقييم أداء النموذج الأساسي في الاختبارات المعيارية "المرتكزة على الإنسان" ، مثل مسابقات الرياضيات وامتحانات المحامين.
يعمل كلا نموذجي FreeWilly جيدًا بشكل استثنائي على العديد من الجبهات ، بما في ذلك التفكير المعقد وفهم التفاصيل الدقيقة للغة والإجابة على الأسئلة المعقدة التي تتضمن مجالات متخصصة مثل الأسئلة القانونية والرياضية.
نتائج التقييم للنموذجين على مقياس lm - harness هي كما يلي (تم تقييم نتائج اختبار FreeWilly هذه من قبل باحثين في منظمة Stability AI):
فري ويلي 1 :
فري ويلي 2 :
انطلاقا من ردود أفعال جميع الأطراف ، فإن ظهور نموذج FreeWilly قد تسبب في صدمة صغيرة للجميع ، لأنها جاءت بسرعة كبيرة. بعد كل شيء ، تم إطلاق Llama 2 لمدة 3 أيام فقط ، وموقع الترتيب ليس ساخنًا. قال أحد الباحثين إنه خضع لعملية جراحية في العيون مؤخرًا ولم يشاهد الأخبار لمدة أسبوع ، لكنه شعر وكأنه في غيبوبة لمدة عام. لذلك ، هذه فترة "لا يمكن أن تومض".