Derrotando o Llama 2 e competindo contra o GPT-3.5, o novo modelo da Stability AI liderou o ranking de modelos grandes de código aberto

2023-07-24 02:41:13

Fonte original: Heart of the Machine

Fonte da imagem: Gerada por Unbounded AI‌

Em um piscar de olhos, o grande modelo de código aberto melhorou novamente. Google e OpenAI realmente não têm fosso?

"Acabei de fazer uma pausa de 30 minutos para o almoço e nosso campo mudou de novo?" Depois de ver os últimos rankings de modelos grandes de código aberto, um empresário do campo de IA perguntou a sua alma.

Link da tabela de classificação:

Os "novatos" na caixa vermelha acima são dois modelos grandes do laboratório Stability AI e CarperAI: FreeWilly 1 e FreeWilly 2. Agora, eles superaram o Llama-2-70b-hf lançado pela Meta três dias atrás e alcançaram com sucesso o topo da tabela de classificação Open LLM do HuggingFace.

O que é mais impressionante é que o FreeWilly 2 também venceu o ChatGPT (GPT-3.5) em muitos benchmarks, tornando-se o primeiro modelo de código aberto que pode realmente competir com o GPT-3.5, algo que o Llama 2 não fez.

O FreeWilly 1 é construído sobre o modelo base LLaMA 65B original e um ajuste fino cuidadosamente supervisionado (SFT) usando novos conjuntos de dados sintéticos no formato Alpaca padrão. O FreeWilly2 é baseado no mais recente modelo básico LLaMA 2 70B.

No blog publicado pela Stability AI, podemos ver alguns detalhes desses dois novos modelos:

Fontes de dados

O método de treinamento do modelo FreeWilly é diretamente inspirado pelo método pioneiro da Microsoft em seu artigo "Orca: Progressive Learning from Complex Explanation Traces of GPT-4". Embora o processo de geração de dados do FreeWilly seja semelhante, há diferenças na origem dos dados.

O conjunto de dados do FreeWilly contém 600.000 pontos de dados (aproximadamente 10% do tamanho do conjunto de dados usado no artigo original do Orca) e foi gerado por modelos de linguagem inspiradores do seguinte conjunto de dados de instrução de alta qualidade criado por Enrico Shippole:

COT Submix Original
NIV2 Submix Original
Submix FLAN 2021 Original
T0 Submix Original

Usando essa abordagem, os pesquisadores geraram 500.000 exemplos usando um modelo LLM mais simples e 100.000 exemplos adicionais usando um modelo LLM mais complexo. Para garantir uma comparação justa, eles examinaram cuidadosamente esses conjuntos de dados e removeram exemplos derivados do benchmark de avaliação. Embora o número de amostras de treinamento seja apenas 1/10 do artigo original do Orca (reduzindo significativamente o custo e a pegada de carbono do treinamento do modelo em comparação com o artigo original), o modelo FreeWilly resultante teve um bom desempenho em vários benchmarks, validando a eficácia de sua abordagem com conjuntos de dados sintéticos.

Dados de desempenho

Para avaliação interna desses modelos, os pesquisadores usaram o benchmark lm-harness da EleutherAI, incorporando AGI.

Entre eles, o benchmark lm-harness foi criado pelo laboratório de pesquisa de inteligência artificial sem fins lucrativos da EleutherAI, que está por trás do já mencionado quadro de líderes HuggingFace Open LLM.

A AGI foi criada pela Microsoft para avaliar o desempenho do modelo subjacente em testes padronizados "centrados no ser humano", como competições de matemática e exames de barra.

Ambos os modelos do FreeWilly funcionam muito bem em muitas frentes, incluindo raciocínio complexo, compreensão das sutilezas da linguagem e resposta a questões complexas envolvendo domínios especializados, como questões jurídicas e matemáticas.

Os resultados da avaliação dos dois modelos no benchmark lm-harness são os seguintes (esses resultados do teste FreeWilly foram avaliados por pesquisadores de Stability AI):

O desempenho dos dois no benchmark AGI é o seguinte (todos 0-shot):

Além disso, eles testaram dois modelos no benchmark GPT4ALL (todos 0-shot):

No geral, o desempenho desses dois modelos é muito bom, diminuindo ainda mais a diferença com os principais modelos de IA, como o ChatGPT. Os alunos que desejam obter o modelo podem clicar no link abaixo.

FreeWilly 1:

FreeWilly 2:

A julgar pelas reações de todas as partes, o aparecimento do modelo FreeWilly trouxe um pequeno choque a todos, porque eles vieram muito rápido, afinal, o Llama 2 só foi lançado há 3 dias e a posição no ranking não é quente. Um pesquisador disse que recentemente fez uma cirurgia ocular e não assistiu ao noticiário por uma semana, mas sentiu como se estivesse em coma por um ano. Portanto, este é um período de "não pode piscar".

No entanto, é importante observar que, embora ambos os modelos sejam de acesso aberto, ao contrário do Llama 2, eles são lançados sob uma licença não comercial apenas para fins de pesquisa.

No entanto, tal abordagem tem despertado dúvidas dos internautas.

Em resposta, os pesquisadores da Stability AI responderam que esta situação (apenas para fins de pesquisa) é apenas temporária e, no futuro, espera-se que o FreeWilly permita o uso comercial como o Llama 2.

Além disso, algumas pessoas têm questionado o benchmark adotado pelo teste:

Este também é um problema mais difícil no momento. Anteriormente, o evento em que o modelo Falcon esmagou Llama na tabela de classificação HuggingFace era controverso. Mais tarde, o evento foi completamente revertido. Descobriu-se que Llama não foi esmagado por Falcon, e HuggingFace também reescreveu o código da tabela de classificação para isso. Hoje, com o surgimento de grandes modelos, como avaliar efetivamente esses modelos ainda é um problema digno de discussão. Portanto, é necessário que mantenhamos uma atitude mais cautelosa em relação a esses modelos de alto escalão e esperemos que mais resultados de avaliação sejam divulgados.

Link de referência:

Ver original

Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.

Recompensa
gostar
Comentar
Republicar
Partilhar

Comentar

0/400

Nenhum comentário

Tópico
#July PPI Beats Expectations
15k Popularidade
#ETH ETFs Top $30B
15k Popularidade
#Gate Alpha Peak Trading Competition
138k Popularidade
#Gate Releases August Reserves Report
18k Popularidade
#BTC Hits New ATH
104k Popularidade

Pino