O que estou a fazer é provavelmente totalmente possível com um LLM de próxima geração de grande pensamento a observar o que acontece e a moldar a sua tarefa como dar "conselhos" ao modelo RL menor através de uma função de recompensa adicional.
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
11 Curtidas
Recompensa
11
6
Repostar
Compartilhar
Comentário
0/400
OnchainHolmes
· 07-31 18:07
Encontrámos mais um desperdício de recursos computacionais.
Ver originalResponder0
DaoGovernanceOfficer
· 07-30 22:34
*suspiro* o paradigma precisa de testes empíricos...
Ver originalResponder0
Whale_Whisperer
· 07-29 23:28
Sim, em termos simples, é só copiar e colar.
Ver originalResponder0
AllInAlice
· 07-29 23:26
Parece tão complicado.
Ver originalResponder0
SatoshiLegend
· 07-29 23:17
Limpar os dados é apenas a superfície, o algoritmo profundo é a chave.
O que estou a fazer é provavelmente totalmente possível com um LLM de próxima geração de grande pensamento a observar o que acontece e a moldar a sua tarefa como dar "conselhos" ao modelo RL menor através de uma função de recompensa adicional.