Baichuan Intelligent Wang Xiaochuan: Après 100 jours de création d'entreprise avec un grand modèle, j'ai confirmé que j'avais trouvé mon "no man's land"
En avril, Wang Xiaochuan a annoncé sa fin et a créé une entreprise de modèles à grande échelle "Baichuan Smart".
En juin, Baichuan Intelligent a publié un grand modèle open source de 7 milliards de paramètres, Baichuan-7B.
En juillet, Baichuan Intelligent a publié un grand modèle open source de 13 milliards de paramètres, Baichuan-13B.
Les deux modèles se sont bien comportés dans diverses évaluations et ont également été reconnus par un grand nombre d'utilisateurs nationaux et étrangers.
"L'open source est très simple, chacun peut l'utiliser pour son propre usage, ce n'est pas quelque chose dont on se vante."
Il bouge vite, plus vite que la plupart des gens ne le pensent. Même lui-même a été surpris : les progrès seront beaucoup plus rapides que prévu après avoir commencé à le faire.
Lors de la conférence AGI Playground, Wang Xiaochuan a révélé que les capacités du modèle open source de BCI surpasseront certainement Llama 2. Selon le plan, Baichuan Intelligent publiera à l'avenir des dizaines de milliards et des centaines de milliards de grands modèles à source fermée.
Il y a quelques mois, Wang Xiaochuan voulait « être l'OpenAI de la Chine » à la une de divers médias.
C'est un slogan que le public aime entendre, mais ce n'est peut-être pas une description exacte.
Que veut faire exactement Wang Xiaochuan ? Qu'est-ce qu'il va faire? Après trois mois de pratique et des premiers résultats obtenus, quelle est sa compréhension directe de l'entrepreneuriat à l'ère des modèles à grande échelle ?
Le contenu suivant est extrait de l'interview entre Zhang Peng, fondateur et président de Geek Park, et Wang Xiaochuan, fondateur et PDG de Baichuan Smart, lors de la conférence AGI Playground, éditée par Founder Park.
Open source, ce qu'OpenAI n'a pas fait
Zhang Peng :
Ce qui vous intéresse peut-être le plus, c'est que vous avez évolué très rapidement après le démarrage de votre entreprise et que vous avez sorti deux modèles : un 7B et un 13B, et que les retours ont été très bons.
Tout le monde est très curieux, car au début ils pensaient que vous alliez être un OpenAI chinois, mais vu que vous avez fait des choses open source, est-ce que l'open source est une étape technologique, ou est-ce lui-même un nouveau modèle pour votre réflexion à l'avenir ?
Wang Xiaochuan :
Open source, nous pensons qu'il s'agit d'une étape technique, en fait, être l'OpenAI de la Chine ne signifie pas copier son chemin complet. Lorsqu'ils communiquent avec OpenAI dans la Silicon Valley, ils sont idéalement allés très loin. Par exemple, lorsqu'ils font GPT-4 maintenant, ils ont besoin de plus de 20 000 cartes pour faire des calculs, et ils n'ont jamais vu une telle échelle en Chine.
Ils sont fiers de dire qu'ils conçoivent un modèle informatique qui connecte 10 millions de GPU ensemble.
Quel est le concept de 10 millions de cartes ? La production annuelle de Nvidia est de 1 million. 10 millions d'exemplaires, c'est un plan qui peut aller sur la lune (moonshot).
De plus, en termes de création d'applications, de produits et même de certaines technologies plus larges, cela peut être une lacune d'OpenAI, ou cela peut être quelque chose qui ne les préoccupe pas particulièrement actuellement.
Donc, faire OpenAI en Chine sera très différent de l'environnement écologique aux États-Unis.
Après la sortie récente de l'open source Llama 2, il a provoqué une frénésie en Chine.Tout le monde a estimé que cela changerait à nouveau le paysage, ce que OpenAI n'a pas réussi à faire. Dommage que ce ne soit pas fait par Google, mais par Facebook (Meta), et Google continue d'être absent. Mais en Chine, nous avons vu cette question à l'avance, et nous pensons que l'open source et la source fermée auront un état parallèle à l'avenir.
Zhang Peng :
L'open source et la source fermée seront en état parallèle.
Wang Xiaochuan :
Le parallélisme est un peu comme le système actuel d'Apple et le système Android. Même lorsque davantage d'entreprises souhaitent participer, il ne suffit pas d'utiliser des appels d'API à source fermée.Ce modèle open source doit également fournir 80 % des services, et enfin s'appuyer sur des services à source fermée pour fournir des services à tout le monde, et les 20 % restants auront une forte demande d'open source. Les États-Unis ne l'avaient pas auparavant et la Chine n'avait pas de modèle similaire. Par conséquent, une fois Llama annoncé, ce sera un grand choc pour les États-Unis, mais il y a aussi un boom en Chine. En fait, les évaluations techniques sérieuses incluent plusieurs évaluations grand public comme SuperClue, ainsi que des comparaisons entre certains grands fabricants et entreprises.Si Llama est comparé à Baichuan, il est évident que notre qualité dans le domaine chinois est bien supérieure à celle de Llama.
Dans le domaine des modèles open source en Chine, tout comme notre industrie de la téléphonie mobile, les États-Unis ont d'abord été utilisés, puis rattrapés par eux-mêmes.
Zhang Peng :
Pensez-vous que Llama 2 est si chaud récemment, Baichuan fera mieux qu'eux ?
Wang Xiaochuan :
Le lama est le lama 1 et 2.
Tout d'abord, nous avons publié le premier modèle de paramètres 7B en juin de cette année et le modèle de paramètres 13B en juillet. Parmi les indicateurs en anglais, l'indicateur le plus important est MMLU (Massive Multitask Language Understanding) Cet indicateur clé, nos deux modèles sont meilleurs que Llama (1), et sont nettement en avance en chinois.
Nous savons que le traitement chinois de Llama est en fait insuffisant. Comparé à Llama (1), l'anglais de Baichuan peut partiellement correspondre à la référence, et les indicateurs clés sont dépassés, et le chinois est évidemment meilleur. Beaucoup de gens transforment Llama en chinois, mais il n'est toujours pas aussi facile à utiliser que le Baichuan local.
Après la sortie de Llama 2, nous pouvons également voir le rapport technique, qui contient environ 9 points d'innovation technique, dont 6 ont été réalisés dans le modèle que nous développons.
Par rapport à d'autres modèles nationaux, notre réflexion ici est la plus proche à l'heure actuelle. Nous avons déjà fait 6 points, puis nous ne nous attendions pas à 2 points, et nous en avons un qui n'est pas valide. Par conséquent, en comparant avec Llama2, nous ne plagions pas simplement dans la pensée technique, mais nous avons notre propre pensée. Nous pensons qu'il y aura nos opportunités à l'avenir dans cette voie.
Aujourd'hui, j'appelle également tout le monde en Chine à ne pas penser que les pays étrangers sont bons lorsqu'ils l'utilisent. OpenAI est en effet plus loin maintenant. Il faudra du temps pour atteindre GPT-3.5 ou proche du niveau d'ici la fin de l'année, mais nous sommes déjà très proches dans le modèle open source.
Zhang Peng :
Alors votre prochain modèle open source, pensez-vous qu'il sera meilleur que Llama 2 ?
Wang Xiaochuan :
Du moins en chinois. Dans le domaine du chinois, il est désormais dépassé. La prochaine étape consiste à faire entendre la voix de la Chine dans le domaine de l'open source sur le marché mondial.
Zhang Peng :
L'anglais et le chinois devraient être meilleurs que Llama2, c'est visible et réalisable pour vous.
Wang Xiaochuan :
Je pense qu'il y a une chance que cela se produise dans un avenir prévisible.
Zhang Peng :
Donc, votre point de vue est : aujourd'hui, nous ne pouvons pas simplement dire que notre futur grand modèle est d'aller vers OpenAI, un modèle centralisé à source fermée. L'open source a en fait de grandes possibilités. Cela signifie donc que d'une part, il s'agit de pratiquer la technologie et de démontrer des capacités techniques, mais cela peut en effet contenir des modèles commerciaux et des valeurs.
Dans le même temps, sur la base de l'open source, c'est toujours quelque chose que les gens peuvent espérer en Chine en créant le meilleur modèle chinois au monde.
Wang Xiaochuan :
Ça résume assez bien.
L'expérience de recherche est-elle une mauvaise inertie, ou un bon atout ?
Zhang Peng :
Dans le passé, de nombreux investisseurs pensaient que l'utilisation de l'expérience de recherche pour construire un modèle à grande échelle ne réussirait certainement pas. Après ces mois de pratique, avez-vous vérifié votre jugement initial qui était différent du leur ? Comment l'accumulation et les capacités de recherche contribuent-elles à des modèles plus larges ?
Wang Xiaochuan :
Parce que la réalisation (IA) d'aujourd'hui a été réalisée par OpenAI, mais pas Google, la première pensée des investisseurs est que cette nouvelle technologie est tout le contraire de la recherche. Il leur est difficile de distinguer si la raison en est la technologie ou la gestion organisationnelle.
La raison de ce type de voix est que l'on ne comprend pas la relation entre la technologie de recherche et l'IA, et la seconde est que la connaissance de l'arrière-plan de la recherche entraînera des effets négatifs.
Étant donné que les sociétés de recherche sont principalement Baidu et Google, elles n'ont pas besoin de financement externe et ne disent pas aux investisseurs ce qu'est la recherche. En particulier, la dernière vague de boom de l'IA a été principalement provoquée par les images, et tout le monde n'est pas familier avec les connotations techniques telles que NLP dans la recherche.
En termes de résultats, nous avons sorti le premier modèle en juin. Un concurrent a dit aux investisseurs au plus tôt qu'il faudrait six mois à Baichuan pour produire le premier modèle. En fait, nous n'avons pris qu'un tiers du temps pour le terminer, puis nous avons sorti le second. Et dans un avenir proche, nous publierons un modèle de source fermée.
Baichuan s'est auto-développé depuis le premier jour, et le démarrage à froid est très, très rapide. Quelle est la raison derrière cela?
Aujourd'hui, nous savons que des données de haute qualité sont à la base de grands modèles, alors quelle entreprise a une large compréhension des données linguistiques ? En fait, les sociétés de recherche travaillent depuis 20 ans, réfléchissant à la façon de trouver chaque jour des données de si haute qualité. Par exemple, trouvez d'abord 100 sites Web de haute qualité à partir de 1 billion de pages Web, puis effectuez une analyse de page, y compris l'extraction d'informations, la déduplication, l'anti-spam et même l'extraction de contenu par niveau de paragraphe.
Sogou, Baidu et Google font ce genre de travail depuis longtemps.
Le deuxième point est qu'en termes de vivier de talents, il est nécessaire d'avoir à la fois des capacités algorithmiques et des capacités d'ingénierie axées sur les capacités de recherche.Ces personnes recherchent également des entreprises. Maintenant, ByteDance utilise l'équipe de recherche pour créer des modèles, et les progrès de Baidu sont également très rapides, y compris le modèle que Shen Xiangyang fabrique a également été réalisé par le vice-président de Bing dans le passé.
Une autre chose pour faire un grand modèle est l'évaluation. Évaluer si un grand modèle est bon ou non est en fait un problème douloureux, incluant des questions de raisonnement, de questions-réponses précises, et de création... Certains s'améliorent, d'autres s'aggravent. Par conséquent, ce système d'évaluation est également une capacité que les sociétés de recherche ont accumulée depuis longtemps, en utilisant l'évaluation pour piloter l'itération des algorithmes suivants.
De plus, l'efficacité organisationnelle des startups est bien supérieure à celle des grandes usines.Avec un système décisionnel très flexible, toutes les efficacités seront maximisées.
Zhang Peng :
Alors avez-vous parlé à l'investisseur qui pensait que la recherche n'était pas assez bonne pour les gros modèles ?
Wang Xiaochuan :
Le nom est marqué d'une croix et enlevé, et je ne sais pas qui c'est. Des investisseurs qui ne regardent que le business mais pas la technologie, et ceux qui aiment surtout la petite viande fraîche qui reviennent des Etats-Unis pour monter un business, ces investisseurs se contentent de tirer et n'en parlent pas.
Old Wang a raison, "La petite innovation dépend des grandes usines, et la grande innovation dépend des petites usines"
Zhang Peng :
Pensez-vous que les entrepreneurs auront suffisamment d'opportunités dans cette vague de changement technologique à l'avenir ? Ou le corps principal est-il toujours contrôlé par des géants ? Comment les entrepreneurs peuvent-ils saisir leurs propres opportunités ?
Wang Xiaochuan :
Bien que Wang Huiwen ne connaisse pas grand-chose à la technologie, je pense qu'il a dit quelque chose de très juste : la petite innovation dépend des petites usines, et la grande innovation dépend des grandes usines.
Bien qu'une grande usine présente de nombreux avantages en termes de personnel, d'argent et de ressources, il y aura de nombreux problèmes internes après la croissance de l'organisation et l'efficacité de l'organisation sera sévèrement limitée.
Si nous croyons fermement que l'arrivée de l'AGI, alors il y aura une énorme explosion de nouvelles espèces. Ces choses ont d'énormes opportunités pour les startups de travailler. Cela peut être démontré à partir d'une déduction historique, donc tant qu'il y aura AGI, il y aura de nouvelles opportunités à l'avenir.
Où est la difficulté au milieu ?
OpenAI est une entreprise axée sur la recherche qui implémente des produits dans le monde réel. Vous le suivez, et le domaine de la recherche peut avoir des réalisations très fulgurantes. Mais comment postuler aujourd'hui, ni OpenAI ni les entreprises axées sur la technologie de la Silicon Valley ne sont très bonnes dans ce domaine. Je suis convaincu que la Chine est bien meilleure que les États-Unis en termes de mise en œuvre des applications.
Le monde entier a atteint un tournant, et maintenant que la technologie est en place, c'est la première difficulté. L'application et les exigences constituent la deuxième difficulté, qui est appelée service modèle (service modèle). Donc, le défi est maintenant, numéro un, avez-vous le modèle ? Deuxièmement, avoir un modèle signifie-t-il avoir un service ?
Zhang Peng :
La vente d'une API est-elle un service ?
Wang Xiaochuan :
Je ne pense pas.
C'est comme si vous disposiez d'une technologie sans conducteur, mais pouvez-vous vraiment construire une voiture ? Évidemment pas. Cela nécessite également la fusion de nombreuses technologies.
Maintenant, les États-Unis sont relativement confus au sujet de la couche application, et le problème actuel de la Chine est le manque de capacités de modèle. Aujourd'hui, de nombreuses start-up qui fabriquent des modèles limitent également leur perspective aux grands modèles et ne connaissent pas grand-chose aux autres piles technologiques.
Permettez-moi de vous donner l'exemple le plus simple : lors de la fabrication d'un modèle, vous rencontrerez certainement des hallucinations et de l'actualité. Les hallucinations et l'actualité peuvent être résolues par le grand modèle lui-même. Certaines personnes résolvent l'illusion en élargissant les paramètres à des billions et des dizaines de billions ; ou utilisent l'apprentissage par renforcement. Mais en fait, le moyen le plus direct est d'y intégrer la recherche et la récupération d'informations. La combinaison de grands modèles et de ceux-ci peut former une pile technologique plus complète.
Après que cette technologie ait été proposée, c'était déjà un peu un signe. Par exemple, il existe ce qu'on appelle une base de données vectorielles, qui est en fait une recherche flexible et est principalement utilisée dans toB.
En termes de recherche, après l'introduction de la technologie Transformer en 2018, elle a déjà la capacité de recherche sémantique. Vous avez peut-être entendu parler de l'index inversé, qui consiste à indexer ce réseau symbolique.
Après 2018, que ce soit nous, Baidu ou les vecteurs byte se sont tournés vers la recherche sémantique, derrière cette technologie se cachent trois énormes bases de données vectorielles. La combinaison de ces piles technologiques et du grand modèle peut permettre au grand modèle de se développer davantage. Comme vous pouvez le constater, l'expérience de l'équipe de recherche présente des avantages pour la création de modèles.
Le deuxième aspect est que la technologie des modèles à grande échelle devient progressivement pratique. Ensuite, dans ce que l'on appelle l'informatique des connaissances, des bases de données vectorielles et des recherches doivent être ajoutées pour former des technologies et des produits plus complets. Sur cette question, tout le monde forme progressivement un consensus.
En parlant du trafic de ChatGPT aujourd'hui, tout le monde a commencé à se demander s'il pouvait continuer à exploser.
Nous avons donc encore besoin de plus d'exploration.
Nous pensons que dans l'industrie du divertissement, le jeu de rôle a de larges perspectives, mais cette question nécessite l'entrée d'entreprises chinoises pour faire mieux.
Une autre chose est de savoir comment combiner les grands modèles et la recherche. Perplexity AI se porte très bien maintenant, mais nous sommes dans une position passive. Si les États-Unis ont des opportunités, les investisseurs chercheront des sociétés de comparaison chinoises.
Si cette entreprise n'a pas de grand modèle, elle ne fait qu'appeler l'API ; deuxièmement, elle n'a pas de technologie de recherche et ne peut s'appuyer que sur les technologies d'entreprises telles que Google et Bing, ce qui n'est pas idéal.
Zhang Peng :
Vous avez dit tout à l'heure que le nombre d'utilisateurs tels que ChatGPT est en baisse, ce qui donne à chacun le sentiment que le nouveau paradigme ne pourra peut-être pas percer d'un coup. Est-ce un grand défi pour les entrepreneurs de faire des demandes?
Car d'après ce que vous venez de dire, dans un environnement où la technologie est immature, le coût de l'exploration entrepreneuriale est très élevé. Et si l'entrepreneur utilise simplement l'API de quelqu'un d'autre comme un changement dans le paradigme de l'application, ce n'est pas particulièrement accrocheur.
Wang Xiaochuan :
Il y a deux jours, OpenAI vient de mettre à jour l'interpréteur de code, puis de mettre à jour l'instruction personnalisée. Pour les entreprises en démarrage, il y a eu une pression énorme.
Les investisseurs américains s'inquiètent également de savoir s'il y a encore une chance pour les start-up de surpasser les géants dans l'anxiété, et si elles seront remplacées par de grandes entreprises après la moitié de leur travail.
En Chine, je ne pense pas qu'il y ait une grande entreprise comme OpenAI qui emprunte la voie des modèles à grande échelle. Il en est encore au stade de la "guerre des cent modèles". Aujourd'hui, la question de savoir si les entreprises qui fabriquent des modèles à grande échelle ont la capacité de faire des applications est une question que la Chine a beaucoup à surveiller par rapport aux États-Unis.
Rattraper le GPT-4 ? Il est dangereux de poursuivre aveuglément l'amélioration intergénérationnelle du modèle
Zhang Peng :
Cela soulève également la question de savoir qui en Chine rattrapera GPT-3.5, ou même GPT-4
Il y a aussi une autre voix qui dit que GPT-3 est suffisant pour que les entreprises résolvent certains problèmes de scène verticale.
Je pense que Xiaochuan et vous êtes toujours déterminés à poursuivre GPT-3.5 et GPT-4. Ce processus de poursuite est-il difficile? Pourquoi dites-vous que vous devez rattraper le niveau de GPT-4 ?
Wang Xiaochuan :
Je pense que c'est deux choses.
Le premier est l'avancement intergénérationnel de la technologie, qui peut avoir un impact écrasant sur l'écologie des produits ultérieurs. Peu importe d'un point de vue idéal, imaginez un avenir hors de portée, comme trois, quatre, cinq générations d'avions de chasse, dans lequel chaque génération peut jouer un rôle important. Donc, à l'heure actuelle, chacun devrait s'efforcer de rechercher un avantage dans un domaine hautement concurrentiel.
Cependant, dans le processus de compétition pour les avantages, chacun peut faire face à une nouvelle confusion : A quelle génération pouvons-nous vraiment réaliser de super applications ? GPT-3.5 n'a pas encore formé une super application aux États-Unis, et il faut environ 50 millions de yuans pour s'entraîner une fois, ce qui n'inclut pas le coût des préparations préliminaires et des expériences. La formation GPT-4 peut coûter 500 millions de RMB une fois. D'ici la génération GPT-4.5, le coût pourrait atteindre 500 millions de dollars.
Par conséquent, s'il n'y a pas de super application, il est très dangereux de poursuivre simplement l'amélioration technologique. Par conséquent, nous devons poursuivre l'amélioration des capacités techniques de quatrième et de cinquième génération dans ce domaine en même temps, et en même temps disposer de super applications. Sinon, nous pourrions soudainement faire face à des pressions pour mettre à niveau sur deux fronts, qui doivent tous deux être mis à niveau en même temps pour réussir.
Zhang Peng :
Par conséquent, chaque type de technologie d'onde devrait pouvoir produire des applications utiles.
Wang Xiaochuan :
Ce que vous venez de dire est tout à fait juste.
GPT-3 est essentiellement disponible du côté B, mais je pense que la raison pour laquelle il n'est pas disponible du côté C est que le temps est trop court.
De plus, tout le monde se concentre trop sur OpenAI, ce n'est pas une entreprise de produits, ni une entreprise qui peut faire des super applications.
Pouvoir faire des super applications demande non seulement un rattrapage technique, mais aussi une compréhension suffisante du produit. Je pense que c'est à la fin de l'année que la vérité éclatera.
"Xiaochuan convient à la fabrication de grands modèles" "Après 20 ans de recherche, personne n'a dit que je suis apte à faire de la recherche"
Zhang Peng :
Est-il possible pour tout le monde de surestimer OpenAI ? En d'autres termes, nous pensons qu'il est difficile pour OpenAI d'être surpassé parce qu'il a un volant de données. Comment comprenez-vous cela ? Le volant de données existe-t-il vraiment ?
Wang Xiaochuan :
Au début de cette année, je parlais du volant de données, et j'étais très paniqué à l'époque. La demande de l'utilisateur lui est donnée, il sait ce que l'utilisateur veut, et il peut alors mieux mettre à jour le modèle.
Jusqu'à présent, ce problème n'est pas grave.
Par exemple, après le lancement de Llama 2, tout le monde a vu que dans la phase de réglage fin, les données devaient être affinées et moins, plutôt que raffinées et plus.Maintenant, tout le monde a progressivement formé un consensus sur le fait que le secret de la technologie n'est pas dans le volant, mais dans l'accumulation de technologie au fil du temps.
La force technique d'Anthropic, une entreprise comme celle de Claude, a également augmenté rapidement, et OpenAI a beaucoup plus d'utilisateurs qu'elle, ce qui prouve également que le concept du volant de données a été falsifié.
Zhang Peng :
Ou peut-être que les données vraiment précieuses qu'il contient se reflètent dans les capacités de parler avec les gens.Je me souviens qu'au début, sa façon de parler était assez "stupide", mais maintenant elle se sent plus humaine.
Wang Xiaochuan :
Cette chose n'a pas l'air de grand-chose, et plus réside dans son ensemble de données.Que ce soit dans la phase de pré-formation ou dans la phase de réglage fin, comment obtenir des données de haute qualité ? Comment faire correspondre et ainsi de suite, c'est sa capacité de base. En particulier, je les ai entendus discuter que d'une part, GPT-4 forme GPT-3.5 pour que 3.5 fonctionne plus efficacement, et en même temps, GPT-4 est utilisé pour produire une partie des données requises par GPT-5, et optimise le processus itératif. Son itération interne vise à améliorer les services en ligne et, en même temps, à générer des données à l'avenir. Je pense qu'il s'agit d'un volant d'inertie interne.
Zhang Peng :
Donc, si vous le regardez du point de vue de Llama, il est également possible de fournir un modèle qui améliore constamment le niveau technique grâce à l'open source. Mais du point de vue d'OpenAI, il peut y avoir suffisamment d'utilisateurs et de données à un certain stade.
Wang Xiaochuan :
Open source, open source et applications, en fait, tout le monde le fait encore aujourd'hui, et c'est encore en phase d'expansion, tout comme l'ouest des États-Unis.
Zhang Peng :
Alors aujourd'hui, pour une start-up comme Baichuan, ce n'est pas facile de dire que je ne coopère qu'avec une certaine direction, que je veuille garder la stratégie floue, ou la qualifier de riche en possibilités, je parie peut-être sur ces dimensions.
Wang Xiaochuan :
droite. Mon esprit d'entreprise cette fois est assez intéressant. Beaucoup de gens disent que Xiao Chuan est particulièrement adapté à la fabrication de modèles à grande échelle. Je fais de la recherche depuis 20 ans et personne n'a jamais dit que Xiao Chuan était particulièrement adapté à la recherche.
Faire de la recherche en Chine est 3 ans plus tard que Baidu.Ce genre de rattrapage est très difficile. L'accumulation et l'expérience d'aujourd'hui sont examinées, et il n'y a personne devant. C'était difficile de penser, et c'était avec plusieurs années de retard, mais aujourd'hui il me semble qu'il y a des opportunités partout. Par conséquent, tant que nous avons suffisamment de capacités, nous pouvons interviewer ici partout et voir si nous pouvons changer votre impression initiale de Sogou aujourd'hui.
N'adorez pas aveuglément, la Chine et les États-Unis auront des histoires d'IA différentes
Zhang Peng :
Je suis assez touché par ce qu'a dit Ogawa. Vous vous retrouvez enfin dans un no man's land.
En ce qui concerne le grand modèle, de nombreuses personnes peuvent ressentir le besoin d'apprendre et de rattraper OpenAI. Mais quand vous faites vraiment cela, vous trouverez vraiment la distance et le chemin.
Wang Xiaochuan :
Oui, ne sois pas si adorateur.
Je me souviens qu'après AlphaGo en 2016, j'avais évoqué deux points à l'époque : Premièrement, si (l'IA) peut prédire la prochaine image de la vidéo, c'est l'arrivée de l'AGI.
Mais c'est fini une fois que vous avez fini de parler, et vous n'avez pas la capacité de le faire, vous n'avez pas la motivation, la capacité ou les conditions. Plus tard, il a été dit que si la machine maîtrise le langage, alors une intelligence artificielle forte viendra également. Maintenant, la vérification a effectivement commencé.
Je pense donc que nous avons beaucoup d'idées nous-mêmes, et nous ne sommes pas en retard. C'est juste que le moment et les conditions ne sont pas mûrs. C'est comme si un maître d'école avait dit que ce problème pouvait être résolu, toi maître d'école, tu ne veux pas copier les devoirs pour toi, n'est-ce pas ?
D'autres vous disent que cela peut être résolu, ou même vous donner une grande idée.Je pense que nous pouvons le faire nous-mêmes, et nous n'avons pas besoin de regarder les devoirs des autres et de les copier.
Zhang Peng :
Donc votre vrai plaisir ici n'est pas de réaliser et d'en reproduire d'autres, mais d'explorer certaines choses que tout le monde n'a pas attrapées dans ce no man's land.
Wang Xiaochuan :
Oui, je pense que cette fois j'ai l'opportunité de diriger dans certains domaines.
Zhang Peng :
Il y a une telle possibilité, donc la Chine et les États-Unis, Baichuan et OpenAI, ce n'est peut-être pas la même histoire.
Wang Xiaochuan :
Ce sera effectivement différent. La Chine et les États-Unis ne sont pas un système, un système ou une culture, donc ce qui se développe à la fin, qu'il s'agisse d'un problème technique ou d'un problème d'application, sera différent.
Travail principal : discuter avec des collègues, Baichuan Intelligent vient de percer 100 personnes
Zhang Peng :
Comment organisez-vous votre travail habituel ? Comment répartissez-vous votre temps ? Beaucoup de gens disent que la puissance de calcul est importante et que les talents sont importants, mais je pense que seuls ceux qui démarrent vraiment une entreprise savent ce qui est le plus important. Alors je veux juste te demander où tu passes le plus de temps ?
Wang Xiaochuan :
Ce que je passe le plus de temps maintenant, c'est à discuter avec nos collègues.
Zhang Peng :
discuter?
Wang Xiaochuan :
Oui, pendant le processus de discussion, il s'agit en fait d'un processus de formation continue d'un consensus, qui consiste à rassembler les informations cognitives, nutritionnelles et externes de chacun afin que tout le monde puisse former le même cerveau.
Parce que nous savons que Top-Down peut s'égarer. Par exemple, pourquoi Google n'a-t-il pas réussi ? Lorsque le premier siège social de Google a été construit, il avait son inertie. Les données ne peuvent pas être obtenues, le coût augmentera après la mise en ligne et il n'y aura pas d'avantages spécifiques pour l'utilisateur, il y a donc un dilemme pour démarrer une entreprise.
Dans le cas de Google Brain, c'est Button-Up. Ses chercheurs sont très libres et peuvent faire ce qu'ils veulent, ou unir leurs forces, donc beaucoup d'entre eux ont effectivement vu le grand modèle, mais ils ne peuvent pas se concentrer pour le faire, car les forces sont dispersées. Ensuite, Deepmind est descendant, ce que l'entreprise demande de faire et ce que tout le monde fait. Il a fait AlphaGo, AlphaZero, AlphaFold, et maintenant il se dirige vers l'énergie hydrogène, la fusion nucléaire et l'informatique quantique, mais il est loin de la plupart d'entre eux.
En fait, Top-Down et Button-Up s'appellent aujourd'hui "monter et descendre avec le même désir", afin que chacun puisse pleinement s'aligner de cet idéal à la technologie et à la cognition, et devenir une seule chose. Je pense donc que plus de communication quotidienne avec vous fera de vous un cerveau, ce qui est mon travail le plus important.
Zhang Peng :
Hum ... intéressant. Donc, si une petite équipe déploie sa plus grande énergie, tout le monde peut partager les mêmes joies et peines, et les mêmes désirs et envies.
Wang Xiaochuan :
C'est très important, nous ne parlerons pas d'organisation et de gestion aujourd'hui, mais nous deviendrons comme une seule personne. Baichuan compte maintenant 100 personnes, et il vient d'atteindre 100 personnes hier.
Changements de confiance, les progrès de Baichuan sont plus rapides que prévu
Zhang Peng :
Depuis quelques mois, vous vous consacrez au modélisme à grande échelle, votre enthousiasme n'a pas changé, mais votre confiance a-t-elle changé ? Est-ce plus difficile que prévu au début ? Toujours en phase avec vos attentes ?
Wang Xiaochuan :
Si je suis honnête, du fond du cœur, je pense que c'est plus facile que je ne le pensais.
On s'attend à ce que vous connaissiez beaucoup (difficultés) au début, des années d'accumulation à l'étranger, de la puissance de calcul, des serveurs... Mais quand vous travaillez avec vos collègues, quand tout le monde co-crée, nos progrès réels et notre rythme sont plus rapides que prévu.
Il s'est avéré que nous prévoyions de publier un modèle de 50 milliards au troisième trimestre, puis de publier un modèle de 175 milliards au quatrième trimestre.
Mais en fait, ces choses ne changeront pas, mais dans le processus, la vitesse de progression des applications et la vitesse des modèles open source sont beaucoup plus rapides que prévu.
Et aussi plus vite, aujourd'hui on peut commencer à dire, non seulement pour être les meilleurs chez nous, mais aussi open source sur la scène internationale.
L'open source est très simple, chacun peut l'utiliser pour son propre usage, ce n'est pas quelque chose dont on se vante. Après l'ouverture, nous sommes convaincus que nous pouvons obtenir une très bonne position sur la scène internationale.
Zhang Peng :
Donc avant de sauter dans l'eau, j'avais peur de ne pas connaître la profondeur, mais quand j'ai vraiment sauté, j'ai découvert que je pouvais marcher dessus jusqu'au fond, donc je me sentais beaucoup plus à l'aise ? Est-ce vraiment si simple ?
Wang Xiaochuan :
Diviser les gens.
Je suis une personne relativement prudente, je regardais toujours, puis notre Lianchuang m'a donné un coup de pied et m'a dit de commencer à le faire. Puis j'ai dit d'accord, j'ai annoncé la fin et j'ai commencé à travailler. Sinon, il faudra peut-être encore plus tard avant que vous ne vous sentiez prêt. Mais une fois que vous sortez du terrain, vous constaterez que vous courrez plus vite que vous ne le pensiez.
Après la frénésie, les évolutions technologiques récentes inquiètent
Zhang Peng :
Êtes-vous attentif aux progrès techniques des grands modèles ces derniers temps ? Quels papiers vous passionnent ?
Wang Xiaochuan :
Premièrement, lire des journaux n'est en fait pas important aujourd'hui. Vous ne pouvez pas le finir.
Les bases sont ces choses. Et aujourd'hui, OpenAI a cessé d'envoyer de bons articles. Les journaux qui sont envoyés sont tous des journaux contenant peu d'informations, et la récolte est limitée.
En même temps, parce que tout le monde est entré dans une frénésie (état) auparavant, nous appelons cela "vivre le jour comme une année", et cela ressemble à une année de (progrès technologique) tous les jours.
Zhang Peng :
Les jours ressemblent à des années parce que ça passe vite.
Wang Xiaochuan :
Oui, pas ennuyeux. Il y a tellement de nouveautés chaque jour. Les nerfs de chacun ont été stimulés au maximum, et ils sont un peu faibles.
Cela dit, il y a eu récemment plusieurs avancées technologiques qui, à mon avis, sont très puissantes.
La première est qu'il y a environ une semaine, OpenAI a lancé l'interpréteur de code, ce qui est une avancée majeure, mais il semble qu'il n'y ait pas de nouvelle vague de frénésie médiatique en Chine.
Tout le monde a déjà apprécié la frénésie, mais cette fois, le progrès, l'interpréteur de code, je pense que les médias n'y ont pas prêté suffisamment attention et l'ont rapporté.
Et une petite mise à jour hier, personnalisez votre propre instruction.
Il représente qu'il part du modèle LLM vers les Agents.
Il décrira « Qui suis-je et quelles sont mes caractéristiques ? » Quel genre de rôle jouera votre grand modèle et quelles sont ses caractéristiques ? La formation d'une telle relation dépend si le modèle est un agent (du point de vue).
Ces deux domaines ne suffisent pas pour que tout le monde y prête attention et signale aujourd'hui.
La décision de créer une entreprise a finalement attendu le no man's land "adapté à Xiaochuan"
Zhang Peng :
La dernière question, vous venez de mentionner que vous avez été "plongé" dans cette situation entrepreneuriale. Je sais aussi que vous êtes un fanatique de l'IA depuis l'époque d'AlphaGo.
Au final, vous avez décidé de devenir entrepreneur dans le domaine de l'AGI et des modèles à grande échelle, que ce soit Lao Wang (Huiwen) ou la vague en Chine, comment ont-ils influencé votre prise de décision ? Après être passé par un tel processus, quel genre de changements ont eu lieu dans votre cœur ?
Wang Xiaochuan :
Le voyage mental est en fait assez long.
A l'époque de Sogou, à l'étape ultérieure. Premièrement, nous avons raté le moteur de recommandation et fait une alliance stratégique avec Tencent, dans ce cas, sans nouvelles avancées technologiques, le développement est très limité. Lorsque Sogou a fusionné avec Tencent, je contestais une chose plus intéressante, qui était de transformer la vie en modèle mathématique. Comme nous l'avons dit, Newton transformait la physique en un modèle mathématique.
Sur la plateforme de Geek Park avant, je parlais d'apprendre de la vie.
Qu'est ce que la vie C'est une chose à laquelle je pense depuis 20 ans.
Comment transformer la vie en modèle mathématique ? C'est ce qui m'importe. Même dans l'étude de la médecine chinoise, comment transformer la vie en un modèle mathématique, (plus tard) a constaté que cette route peut ne pas être lisse.
Je suis particulièrement intéressé par la façon de faire de nouvelles percées en médecine dans le cadre du paradigme scientifique. Je lis beaucoup plus d'articles médicaux que je ne lis d'articles informatiques, je lis des milliers d'articles médicaux.
Que s'est-il passé en 21 ans ? A 21 ans, le grand modèle a commencé à avoir quelques opportunités. À cette époque, nous avons créé un modèle de dizaines de milliards pour résoudre le problème de changer la recherche en question et réponse.
En fait, avant de faire la méthode de saisie, j'étais déjà engagé dans "prédire ce que le mot suivant veut dire", puis comment le réécrire, la recherche s'est transformée en question et réponse. En fait, la porte a été touchée, mais il n'y a pas eu de percée technologique à l'époque.
Donc, vous savez que je suis très intéressé à transformer la vie en modèle mathématique, donc après l'arrivée du grand modèle, ma première pensée n'a pas été de faire un grand modèle. Je voudrais demander, est-il possible de construire un ChatGPT Santé dans le domaine de la vie aujourd'hui ? Healthy GPT, un médecin numérique ?
Zhang Peng :
Vous pensez dans une perspective appliquée de résolution de problèmes.
Wang Xiaochuan :
Oui, en y réfléchissant. Puis j'ai pensé, si vous faites un modèle vertical aujourd'hui, il pourrait être tué par le grand modèle. L'intelligence générale tue l'intelligence spécialisée, n'est-ce pas ?
Mais dans ce cas, nous avons constaté qu'il ne suffit pas de faire un seul type de HealthGPT, ou juste un médecin numérique.
Au final, encore faut-il faire un grand modèle.
(La décision de faire un modèle à grande échelle à l'étape suivante) est revenue d'un tel cercle, pas parce que je pensais avoir accumulé avant.
Mais lorsque nous faisons un grand modèle, nous constatons que (l'accumulation précédente) est tout à fait pertinente, comme le traitement lié au langage.
Même à l'extrême, ChatGPT est le troisième à faire du modèle de langage une super application. Les deux premiers, une recherche et une méthode de saisie.
Zhang Peng :
J'ai l'impression que tu n'as pas fait ça aussi, désolé pour les deux que tu as fait avant.
Wang Xiaochuan :
Oui, alors j'ai trouvé que l'accumulation précédente est vraiment utile aujourd'hui, ce à quoi je ne m'attendais pas avant.
Je suis donc très ému, Dieu est très gentil avec vous et vous a donné une chance. À la fin de la recherche, il y a une autre chance d'utiliser l'expérience précédente pour faire quelque chose qui ne pouvait pas être fait auparavant.
Maintenant, personne n'a dit "Xiaochuan convient à la recherche", mais tout le monde a dit "Baichuan convient aux modèles à grande échelle". Pour moi, c'est une chose très chanceuse.
Zhang Peng :
C'est pourquoi vous avez décidé de le faire en premier lieu.
Après quelques mois maintenant, tout le monde peut trouver cela difficile.OpenAI n'est pas encore devenu une entreprise super rentable, et de nombreuses personnes dans la Silicon Valley ont remis en question son modèle économique. Donc le grand modèle va mettre la pression sur les entrepreneurs sur cet aspect, avez-vous ressenti cette pression ?
Wang Xiaochuan :
Je suis tout hyper.
Parce que j'avais l'habitude de travailler dans l'ombre de Baidu, mais maintenant c'est un no man's land.Pour moi, c'est exactement ce que je veux faire, au lieu de dire qu'il y a un leader devant moi, et puis vous suivez. Pour moi, c'est ce que j'aime, une nouvelle exploration.
Zhang Peng :
Un merci spécial à Xiaochuan pour avoir partagé avec nous aujourd'hui, et félicitations pour avoir enfin inauguré votre no man's land. J'espère voir de plus beaux paysages ici. Les applaudissements sont dédiés à Xiaochuan, allez !
Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
Baichuan Intelligent Wang Xiaochuan: Après 100 jours de création d'entreprise avec un grand modèle, j'ai confirmé que j'avais trouvé mon "no man's land"
**Source :**Parc Fondateur
En avril, Wang Xiaochuan a annoncé sa fin et a créé une entreprise de modèles à grande échelle "Baichuan Smart".
En juin, Baichuan Intelligent a publié un grand modèle open source de 7 milliards de paramètres, Baichuan-7B.
En juillet, Baichuan Intelligent a publié un grand modèle open source de 13 milliards de paramètres, Baichuan-13B.
Les deux modèles se sont bien comportés dans diverses évaluations et ont également été reconnus par un grand nombre d'utilisateurs nationaux et étrangers.
"L'open source est très simple, chacun peut l'utiliser pour son propre usage, ce n'est pas quelque chose dont on se vante."
Il bouge vite, plus vite que la plupart des gens ne le pensent. Même lui-même a été surpris : les progrès seront beaucoup plus rapides que prévu après avoir commencé à le faire.
Lors de la conférence AGI Playground, Wang Xiaochuan a révélé que les capacités du modèle open source de BCI surpasseront certainement Llama 2. Selon le plan, Baichuan Intelligent publiera à l'avenir des dizaines de milliards et des centaines de milliards de grands modèles à source fermée.
Il y a quelques mois, Wang Xiaochuan voulait « être l'OpenAI de la Chine » à la une de divers médias.
C'est un slogan que le public aime entendre, mais ce n'est peut-être pas une description exacte.
Que veut faire exactement Wang Xiaochuan ? Qu'est-ce qu'il va faire? Après trois mois de pratique et des premiers résultats obtenus, quelle est sa compréhension directe de l'entrepreneuriat à l'ère des modèles à grande échelle ?
Open source, ce qu'OpenAI n'a pas fait
Zhang Peng :
Ce qui vous intéresse peut-être le plus, c'est que vous avez évolué très rapidement après le démarrage de votre entreprise et que vous avez sorti deux modèles : un 7B et un 13B, et que les retours ont été très bons.
Tout le monde est très curieux, car au début ils pensaient que vous alliez être un OpenAI chinois, mais vu que vous avez fait des choses open source, est-ce que l'open source est une étape technologique, ou est-ce lui-même un nouveau modèle pour votre réflexion à l'avenir ?
Wang Xiaochuan :
Open source, nous pensons qu'il s'agit d'une étape technique, en fait, être l'OpenAI de la Chine ne signifie pas copier son chemin complet. Lorsqu'ils communiquent avec OpenAI dans la Silicon Valley, ils sont idéalement allés très loin. Par exemple, lorsqu'ils font GPT-4 maintenant, ils ont besoin de plus de 20 000 cartes pour faire des calculs, et ils n'ont jamais vu une telle échelle en Chine.
Ils sont fiers de dire qu'ils conçoivent un modèle informatique qui connecte 10 millions de GPU ensemble.
Quel est le concept de 10 millions de cartes ? La production annuelle de Nvidia est de 1 million. 10 millions d'exemplaires, c'est un plan qui peut aller sur la lune (moonshot).
De plus, en termes de création d'applications, de produits et même de certaines technologies plus larges, cela peut être une lacune d'OpenAI, ou cela peut être quelque chose qui ne les préoccupe pas particulièrement actuellement.
Donc, faire OpenAI en Chine sera très différent de l'environnement écologique aux États-Unis.
Après la sortie récente de l'open source Llama 2, il a provoqué une frénésie en Chine.Tout le monde a estimé que cela changerait à nouveau le paysage, ce que OpenAI n'a pas réussi à faire. Dommage que ce ne soit pas fait par Google, mais par Facebook (Meta), et Google continue d'être absent. Mais en Chine, nous avons vu cette question à l'avance, et nous pensons que l'open source et la source fermée auront un état parallèle à l'avenir.
Zhang Peng :
L'open source et la source fermée seront en état parallèle.
Wang Xiaochuan :
Le parallélisme est un peu comme le système actuel d'Apple et le système Android. Même lorsque davantage d'entreprises souhaitent participer, il ne suffit pas d'utiliser des appels d'API à source fermée.Ce modèle open source doit également fournir 80 % des services, et enfin s'appuyer sur des services à source fermée pour fournir des services à tout le monde, et les 20 % restants auront une forte demande d'open source. Les États-Unis ne l'avaient pas auparavant et la Chine n'avait pas de modèle similaire. Par conséquent, une fois Llama annoncé, ce sera un grand choc pour les États-Unis, mais il y a aussi un boom en Chine. En fait, les évaluations techniques sérieuses incluent plusieurs évaluations grand public comme SuperClue, ainsi que des comparaisons entre certains grands fabricants et entreprises.Si Llama est comparé à Baichuan, il est évident que notre qualité dans le domaine chinois est bien supérieure à celle de Llama.
Dans le domaine des modèles open source en Chine, tout comme notre industrie de la téléphonie mobile, les États-Unis ont d'abord été utilisés, puis rattrapés par eux-mêmes.
Zhang Peng :
Pensez-vous que Llama 2 est si chaud récemment, Baichuan fera mieux qu'eux ?
Wang Xiaochuan :
Le lama est le lama 1 et 2.
Tout d'abord, nous avons publié le premier modèle de paramètres 7B en juin de cette année et le modèle de paramètres 13B en juillet. Parmi les indicateurs en anglais, l'indicateur le plus important est MMLU (Massive Multitask Language Understanding) Cet indicateur clé, nos deux modèles sont meilleurs que Llama (1), et sont nettement en avance en chinois.
Nous savons que le traitement chinois de Llama est en fait insuffisant. Comparé à Llama (1), l'anglais de Baichuan peut partiellement correspondre à la référence, et les indicateurs clés sont dépassés, et le chinois est évidemment meilleur. Beaucoup de gens transforment Llama en chinois, mais il n'est toujours pas aussi facile à utiliser que le Baichuan local.
Après la sortie de Llama 2, nous pouvons également voir le rapport technique, qui contient environ 9 points d'innovation technique, dont 6 ont été réalisés dans le modèle que nous développons.
Par rapport à d'autres modèles nationaux, notre réflexion ici est la plus proche à l'heure actuelle. Nous avons déjà fait 6 points, puis nous ne nous attendions pas à 2 points, et nous en avons un qui n'est pas valide. Par conséquent, en comparant avec Llama2, nous ne plagions pas simplement dans la pensée technique, mais nous avons notre propre pensée. Nous pensons qu'il y aura nos opportunités à l'avenir dans cette voie.
Aujourd'hui, j'appelle également tout le monde en Chine à ne pas penser que les pays étrangers sont bons lorsqu'ils l'utilisent. OpenAI est en effet plus loin maintenant. Il faudra du temps pour atteindre GPT-3.5 ou proche du niveau d'ici la fin de l'année, mais nous sommes déjà très proches dans le modèle open source.
Alors votre prochain modèle open source, pensez-vous qu'il sera meilleur que Llama 2 ?
Wang Xiaochuan :
Du moins en chinois. Dans le domaine du chinois, il est désormais dépassé. La prochaine étape consiste à faire entendre la voix de la Chine dans le domaine de l'open source sur le marché mondial.
Zhang Peng :
L'anglais et le chinois devraient être meilleurs que Llama2, c'est visible et réalisable pour vous.
Wang Xiaochuan :
Je pense qu'il y a une chance que cela se produise dans un avenir prévisible.
Zhang Peng :
Donc, votre point de vue est : aujourd'hui, nous ne pouvons pas simplement dire que notre futur grand modèle est d'aller vers OpenAI, un modèle centralisé à source fermée. L'open source a en fait de grandes possibilités. Cela signifie donc que d'une part, il s'agit de pratiquer la technologie et de démontrer des capacités techniques, mais cela peut en effet contenir des modèles commerciaux et des valeurs.
Dans le même temps, sur la base de l'open source, c'est toujours quelque chose que les gens peuvent espérer en Chine en créant le meilleur modèle chinois au monde.
Wang Xiaochuan :
Ça résume assez bien.
L'expérience de recherche est-elle une mauvaise inertie, ou un bon atout ?
Zhang Peng :
Dans le passé, de nombreux investisseurs pensaient que l'utilisation de l'expérience de recherche pour construire un modèle à grande échelle ne réussirait certainement pas. Après ces mois de pratique, avez-vous vérifié votre jugement initial qui était différent du leur ? Comment l'accumulation et les capacités de recherche contribuent-elles à des modèles plus larges ?
Wang Xiaochuan :
Parce que la réalisation (IA) d'aujourd'hui a été réalisée par OpenAI, mais pas Google, la première pensée des investisseurs est que cette nouvelle technologie est tout le contraire de la recherche. Il leur est difficile de distinguer si la raison en est la technologie ou la gestion organisationnelle.
La raison de ce type de voix est que l'on ne comprend pas la relation entre la technologie de recherche et l'IA, et la seconde est que la connaissance de l'arrière-plan de la recherche entraînera des effets négatifs.
Étant donné que les sociétés de recherche sont principalement Baidu et Google, elles n'ont pas besoin de financement externe et ne disent pas aux investisseurs ce qu'est la recherche. En particulier, la dernière vague de boom de l'IA a été principalement provoquée par les images, et tout le monde n'est pas familier avec les connotations techniques telles que NLP dans la recherche.
En termes de résultats, nous avons sorti le premier modèle en juin. Un concurrent a dit aux investisseurs au plus tôt qu'il faudrait six mois à Baichuan pour produire le premier modèle. En fait, nous n'avons pris qu'un tiers du temps pour le terminer, puis nous avons sorti le second. Et dans un avenir proche, nous publierons un modèle de source fermée.
Baichuan s'est auto-développé depuis le premier jour, et le démarrage à froid est très, très rapide. Quelle est la raison derrière cela?
Aujourd'hui, nous savons que des données de haute qualité sont à la base de grands modèles, alors quelle entreprise a une large compréhension des données linguistiques ? En fait, les sociétés de recherche travaillent depuis 20 ans, réfléchissant à la façon de trouver chaque jour des données de si haute qualité. Par exemple, trouvez d'abord 100 sites Web de haute qualité à partir de 1 billion de pages Web, puis effectuez une analyse de page, y compris l'extraction d'informations, la déduplication, l'anti-spam et même l'extraction de contenu par niveau de paragraphe.
Sogou, Baidu et Google font ce genre de travail depuis longtemps.
Le deuxième point est qu'en termes de vivier de talents, il est nécessaire d'avoir à la fois des capacités algorithmiques et des capacités d'ingénierie axées sur les capacités de recherche.Ces personnes recherchent également des entreprises. Maintenant, ByteDance utilise l'équipe de recherche pour créer des modèles, et les progrès de Baidu sont également très rapides, y compris le modèle que Shen Xiangyang fabrique a également été réalisé par le vice-président de Bing dans le passé.
Une autre chose pour faire un grand modèle est l'évaluation. Évaluer si un grand modèle est bon ou non est en fait un problème douloureux, incluant des questions de raisonnement, de questions-réponses précises, et de création... Certains s'améliorent, d'autres s'aggravent. Par conséquent, ce système d'évaluation est également une capacité que les sociétés de recherche ont accumulée depuis longtemps, en utilisant l'évaluation pour piloter l'itération des algorithmes suivants.
De plus, l'efficacité organisationnelle des startups est bien supérieure à celle des grandes usines.Avec un système décisionnel très flexible, toutes les efficacités seront maximisées.
Zhang Peng :
Alors avez-vous parlé à l'investisseur qui pensait que la recherche n'était pas assez bonne pour les gros modèles ?
Wang Xiaochuan :
Le nom est marqué d'une croix et enlevé, et je ne sais pas qui c'est. Des investisseurs qui ne regardent que le business mais pas la technologie, et ceux qui aiment surtout la petite viande fraîche qui reviennent des Etats-Unis pour monter un business, ces investisseurs se contentent de tirer et n'en parlent pas.
Old Wang a raison, "La petite innovation dépend des grandes usines, et la grande innovation dépend des petites usines"
Zhang Peng :
Pensez-vous que les entrepreneurs auront suffisamment d'opportunités dans cette vague de changement technologique à l'avenir ? Ou le corps principal est-il toujours contrôlé par des géants ? Comment les entrepreneurs peuvent-ils saisir leurs propres opportunités ?
Wang Xiaochuan :
Bien que Wang Huiwen ne connaisse pas grand-chose à la technologie, je pense qu'il a dit quelque chose de très juste : la petite innovation dépend des petites usines, et la grande innovation dépend des grandes usines.
Bien qu'une grande usine présente de nombreux avantages en termes de personnel, d'argent et de ressources, il y aura de nombreux problèmes internes après la croissance de l'organisation et l'efficacité de l'organisation sera sévèrement limitée.
Si nous croyons fermement que l'arrivée de l'AGI, alors il y aura une énorme explosion de nouvelles espèces. Ces choses ont d'énormes opportunités pour les startups de travailler. Cela peut être démontré à partir d'une déduction historique, donc tant qu'il y aura AGI, il y aura de nouvelles opportunités à l'avenir.
Où est la difficulté au milieu ?
OpenAI est une entreprise axée sur la recherche qui implémente des produits dans le monde réel. Vous le suivez, et le domaine de la recherche peut avoir des réalisations très fulgurantes. Mais comment postuler aujourd'hui, ni OpenAI ni les entreprises axées sur la technologie de la Silicon Valley ne sont très bonnes dans ce domaine. Je suis convaincu que la Chine est bien meilleure que les États-Unis en termes de mise en œuvre des applications.
Le monde entier a atteint un tournant, et maintenant que la technologie est en place, c'est la première difficulté. L'application et les exigences constituent la deuxième difficulté, qui est appelée service modèle (service modèle). Donc, le défi est maintenant, numéro un, avez-vous le modèle ? Deuxièmement, avoir un modèle signifie-t-il avoir un service ?
Zhang Peng :
La vente d'une API est-elle un service ?
Wang Xiaochuan :
Je ne pense pas.
C'est comme si vous disposiez d'une technologie sans conducteur, mais pouvez-vous vraiment construire une voiture ? Évidemment pas. Cela nécessite également la fusion de nombreuses technologies.
Maintenant, les États-Unis sont relativement confus au sujet de la couche application, et le problème actuel de la Chine est le manque de capacités de modèle. Aujourd'hui, de nombreuses start-up qui fabriquent des modèles limitent également leur perspective aux grands modèles et ne connaissent pas grand-chose aux autres piles technologiques.
Permettez-moi de vous donner l'exemple le plus simple : lors de la fabrication d'un modèle, vous rencontrerez certainement des hallucinations et de l'actualité. Les hallucinations et l'actualité peuvent être résolues par le grand modèle lui-même. Certaines personnes résolvent l'illusion en élargissant les paramètres à des billions et des dizaines de billions ; ou utilisent l'apprentissage par renforcement. Mais en fait, le moyen le plus direct est d'y intégrer la recherche et la récupération d'informations. La combinaison de grands modèles et de ceux-ci peut former une pile technologique plus complète.
Après que cette technologie ait été proposée, c'était déjà un peu un signe. Par exemple, il existe ce qu'on appelle une base de données vectorielles, qui est en fait une recherche flexible et est principalement utilisée dans toB.
En termes de recherche, après l'introduction de la technologie Transformer en 2018, elle a déjà la capacité de recherche sémantique. Vous avez peut-être entendu parler de l'index inversé, qui consiste à indexer ce réseau symbolique.
Après 2018, que ce soit nous, Baidu ou les vecteurs byte se sont tournés vers la recherche sémantique, derrière cette technologie se cachent trois énormes bases de données vectorielles. La combinaison de ces piles technologiques et du grand modèle peut permettre au grand modèle de se développer davantage. Comme vous pouvez le constater, l'expérience de l'équipe de recherche présente des avantages pour la création de modèles.
Le deuxième aspect est que la technologie des modèles à grande échelle devient progressivement pratique. Ensuite, dans ce que l'on appelle l'informatique des connaissances, des bases de données vectorielles et des recherches doivent être ajoutées pour former des technologies et des produits plus complets. Sur cette question, tout le monde forme progressivement un consensus.
En parlant du trafic de ChatGPT aujourd'hui, tout le monde a commencé à se demander s'il pouvait continuer à exploser.
Nous avons donc encore besoin de plus d'exploration.
Nous pensons que dans l'industrie du divertissement, le jeu de rôle a de larges perspectives, mais cette question nécessite l'entrée d'entreprises chinoises pour faire mieux.
Une autre chose est de savoir comment combiner les grands modèles et la recherche. Perplexity AI se porte très bien maintenant, mais nous sommes dans une position passive. Si les États-Unis ont des opportunités, les investisseurs chercheront des sociétés de comparaison chinoises.
Si cette entreprise n'a pas de grand modèle, elle ne fait qu'appeler l'API ; deuxièmement, elle n'a pas de technologie de recherche et ne peut s'appuyer que sur les technologies d'entreprises telles que Google et Bing, ce qui n'est pas idéal.
Zhang Peng :
Vous avez dit tout à l'heure que le nombre d'utilisateurs tels que ChatGPT est en baisse, ce qui donne à chacun le sentiment que le nouveau paradigme ne pourra peut-être pas percer d'un coup. Est-ce un grand défi pour les entrepreneurs de faire des demandes?
Car d'après ce que vous venez de dire, dans un environnement où la technologie est immature, le coût de l'exploration entrepreneuriale est très élevé. Et si l'entrepreneur utilise simplement l'API de quelqu'un d'autre comme un changement dans le paradigme de l'application, ce n'est pas particulièrement accrocheur.
Wang Xiaochuan :
Il y a deux jours, OpenAI vient de mettre à jour l'interpréteur de code, puis de mettre à jour l'instruction personnalisée. Pour les entreprises en démarrage, il y a eu une pression énorme.
Les investisseurs américains s'inquiètent également de savoir s'il y a encore une chance pour les start-up de surpasser les géants dans l'anxiété, et si elles seront remplacées par de grandes entreprises après la moitié de leur travail.
En Chine, je ne pense pas qu'il y ait une grande entreprise comme OpenAI qui emprunte la voie des modèles à grande échelle. Il en est encore au stade de la "guerre des cent modèles". Aujourd'hui, la question de savoir si les entreprises qui fabriquent des modèles à grande échelle ont la capacité de faire des applications est une question que la Chine a beaucoup à surveiller par rapport aux États-Unis.
Rattraper le GPT-4 ? Il est dangereux de poursuivre aveuglément l'amélioration intergénérationnelle du modèle
Zhang Peng :
Cela soulève également la question de savoir qui en Chine rattrapera GPT-3.5, ou même GPT-4
Il y a aussi une autre voix qui dit que GPT-3 est suffisant pour que les entreprises résolvent certains problèmes de scène verticale.
Je pense que Xiaochuan et vous êtes toujours déterminés à poursuivre GPT-3.5 et GPT-4. Ce processus de poursuite est-il difficile? Pourquoi dites-vous que vous devez rattraper le niveau de GPT-4 ?
Wang Xiaochuan :
Je pense que c'est deux choses.
Le premier est l'avancement intergénérationnel de la technologie, qui peut avoir un impact écrasant sur l'écologie des produits ultérieurs. Peu importe d'un point de vue idéal, imaginez un avenir hors de portée, comme trois, quatre, cinq générations d'avions de chasse, dans lequel chaque génération peut jouer un rôle important. Donc, à l'heure actuelle, chacun devrait s'efforcer de rechercher un avantage dans un domaine hautement concurrentiel.
Cependant, dans le processus de compétition pour les avantages, chacun peut faire face à une nouvelle confusion : A quelle génération pouvons-nous vraiment réaliser de super applications ? GPT-3.5 n'a pas encore formé une super application aux États-Unis, et il faut environ 50 millions de yuans pour s'entraîner une fois, ce qui n'inclut pas le coût des préparations préliminaires et des expériences. La formation GPT-4 peut coûter 500 millions de RMB une fois. D'ici la génération GPT-4.5, le coût pourrait atteindre 500 millions de dollars.
Par conséquent, s'il n'y a pas de super application, il est très dangereux de poursuivre simplement l'amélioration technologique. Par conséquent, nous devons poursuivre l'amélioration des capacités techniques de quatrième et de cinquième génération dans ce domaine en même temps, et en même temps disposer de super applications. Sinon, nous pourrions soudainement faire face à des pressions pour mettre à niveau sur deux fronts, qui doivent tous deux être mis à niveau en même temps pour réussir.
Zhang Peng :
Par conséquent, chaque type de technologie d'onde devrait pouvoir produire des applications utiles.
Wang Xiaochuan :
Ce que vous venez de dire est tout à fait juste.
GPT-3 est essentiellement disponible du côté B, mais je pense que la raison pour laquelle il n'est pas disponible du côté C est que le temps est trop court.
De plus, tout le monde se concentre trop sur OpenAI, ce n'est pas une entreprise de produits, ni une entreprise qui peut faire des super applications.
Pouvoir faire des super applications demande non seulement un rattrapage technique, mais aussi une compréhension suffisante du produit. Je pense que c'est à la fin de l'année que la vérité éclatera.
"Xiaochuan convient à la fabrication de grands modèles" "Après 20 ans de recherche, personne n'a dit que je suis apte à faire de la recherche"
Zhang Peng :
Est-il possible pour tout le monde de surestimer OpenAI ? En d'autres termes, nous pensons qu'il est difficile pour OpenAI d'être surpassé parce qu'il a un volant de données. Comment comprenez-vous cela ? Le volant de données existe-t-il vraiment ?
Wang Xiaochuan :
Au début de cette année, je parlais du volant de données, et j'étais très paniqué à l'époque. La demande de l'utilisateur lui est donnée, il sait ce que l'utilisateur veut, et il peut alors mieux mettre à jour le modèle.
Jusqu'à présent, ce problème n'est pas grave.
Par exemple, après le lancement de Llama 2, tout le monde a vu que dans la phase de réglage fin, les données devaient être affinées et moins, plutôt que raffinées et plus.Maintenant, tout le monde a progressivement formé un consensus sur le fait que le secret de la technologie n'est pas dans le volant, mais dans l'accumulation de technologie au fil du temps.
La force technique d'Anthropic, une entreprise comme celle de Claude, a également augmenté rapidement, et OpenAI a beaucoup plus d'utilisateurs qu'elle, ce qui prouve également que le concept du volant de données a été falsifié.
Zhang Peng :
Ou peut-être que les données vraiment précieuses qu'il contient se reflètent dans les capacités de parler avec les gens.Je me souviens qu'au début, sa façon de parler était assez "stupide", mais maintenant elle se sent plus humaine.
Wang Xiaochuan :
Cette chose n'a pas l'air de grand-chose, et plus réside dans son ensemble de données.Que ce soit dans la phase de pré-formation ou dans la phase de réglage fin, comment obtenir des données de haute qualité ? Comment faire correspondre et ainsi de suite, c'est sa capacité de base. En particulier, je les ai entendus discuter que d'une part, GPT-4 forme GPT-3.5 pour que 3.5 fonctionne plus efficacement, et en même temps, GPT-4 est utilisé pour produire une partie des données requises par GPT-5, et optimise le processus itératif. Son itération interne vise à améliorer les services en ligne et, en même temps, à générer des données à l'avenir. Je pense qu'il s'agit d'un volant d'inertie interne.
Zhang Peng :
Donc, si vous le regardez du point de vue de Llama, il est également possible de fournir un modèle qui améliore constamment le niveau technique grâce à l'open source. Mais du point de vue d'OpenAI, il peut y avoir suffisamment d'utilisateurs et de données à un certain stade.
Wang Xiaochuan :
Open source, open source et applications, en fait, tout le monde le fait encore aujourd'hui, et c'est encore en phase d'expansion, tout comme l'ouest des États-Unis.
Zhang Peng :
Alors aujourd'hui, pour une start-up comme Baichuan, ce n'est pas facile de dire que je ne coopère qu'avec une certaine direction, que je veuille garder la stratégie floue, ou la qualifier de riche en possibilités, je parie peut-être sur ces dimensions.
Wang Xiaochuan :
droite. Mon esprit d'entreprise cette fois est assez intéressant. Beaucoup de gens disent que Xiao Chuan est particulièrement adapté à la fabrication de modèles à grande échelle. Je fais de la recherche depuis 20 ans et personne n'a jamais dit que Xiao Chuan était particulièrement adapté à la recherche.
Faire de la recherche en Chine est 3 ans plus tard que Baidu.Ce genre de rattrapage est très difficile. L'accumulation et l'expérience d'aujourd'hui sont examinées, et il n'y a personne devant. C'était difficile de penser, et c'était avec plusieurs années de retard, mais aujourd'hui il me semble qu'il y a des opportunités partout. Par conséquent, tant que nous avons suffisamment de capacités, nous pouvons interviewer ici partout et voir si nous pouvons changer votre impression initiale de Sogou aujourd'hui.
N'adorez pas aveuglément, la Chine et les États-Unis auront des histoires d'IA différentes
Zhang Peng :
Je suis assez touché par ce qu'a dit Ogawa. Vous vous retrouvez enfin dans un no man's land.
En ce qui concerne le grand modèle, de nombreuses personnes peuvent ressentir le besoin d'apprendre et de rattraper OpenAI. Mais quand vous faites vraiment cela, vous trouverez vraiment la distance et le chemin.
Wang Xiaochuan :
Oui, ne sois pas si adorateur.
Je me souviens qu'après AlphaGo en 2016, j'avais évoqué deux points à l'époque : Premièrement, si (l'IA) peut prédire la prochaine image de la vidéo, c'est l'arrivée de l'AGI.
Mais c'est fini une fois que vous avez fini de parler, et vous n'avez pas la capacité de le faire, vous n'avez pas la motivation, la capacité ou les conditions. Plus tard, il a été dit que si la machine maîtrise le langage, alors une intelligence artificielle forte viendra également. Maintenant, la vérification a effectivement commencé.
Je pense donc que nous avons beaucoup d'idées nous-mêmes, et nous ne sommes pas en retard. C'est juste que le moment et les conditions ne sont pas mûrs. C'est comme si un maître d'école avait dit que ce problème pouvait être résolu, toi maître d'école, tu ne veux pas copier les devoirs pour toi, n'est-ce pas ?
D'autres vous disent que cela peut être résolu, ou même vous donner une grande idée.Je pense que nous pouvons le faire nous-mêmes, et nous n'avons pas besoin de regarder les devoirs des autres et de les copier.
Zhang Peng :
Donc votre vrai plaisir ici n'est pas de réaliser et d'en reproduire d'autres, mais d'explorer certaines choses que tout le monde n'a pas attrapées dans ce no man's land.
Wang Xiaochuan :
Oui, je pense que cette fois j'ai l'opportunité de diriger dans certains domaines.
Zhang Peng :
Il y a une telle possibilité, donc la Chine et les États-Unis, Baichuan et OpenAI, ce n'est peut-être pas la même histoire.
Wang Xiaochuan :
Ce sera effectivement différent. La Chine et les États-Unis ne sont pas un système, un système ou une culture, donc ce qui se développe à la fin, qu'il s'agisse d'un problème technique ou d'un problème d'application, sera différent.
Travail principal : discuter avec des collègues, Baichuan Intelligent vient de percer 100 personnes
Zhang Peng :
Comment organisez-vous votre travail habituel ? Comment répartissez-vous votre temps ? Beaucoup de gens disent que la puissance de calcul est importante et que les talents sont importants, mais je pense que seuls ceux qui démarrent vraiment une entreprise savent ce qui est le plus important. Alors je veux juste te demander où tu passes le plus de temps ?
Wang Xiaochuan :
Ce que je passe le plus de temps maintenant, c'est à discuter avec nos collègues.
Zhang Peng :
discuter?
Wang Xiaochuan :
Oui, pendant le processus de discussion, il s'agit en fait d'un processus de formation continue d'un consensus, qui consiste à rassembler les informations cognitives, nutritionnelles et externes de chacun afin que tout le monde puisse former le même cerveau.
Parce que nous savons que Top-Down peut s'égarer. Par exemple, pourquoi Google n'a-t-il pas réussi ? Lorsque le premier siège social de Google a été construit, il avait son inertie. Les données ne peuvent pas être obtenues, le coût augmentera après la mise en ligne et il n'y aura pas d'avantages spécifiques pour l'utilisateur, il y a donc un dilemme pour démarrer une entreprise.
Dans le cas de Google Brain, c'est Button-Up. Ses chercheurs sont très libres et peuvent faire ce qu'ils veulent, ou unir leurs forces, donc beaucoup d'entre eux ont effectivement vu le grand modèle, mais ils ne peuvent pas se concentrer pour le faire, car les forces sont dispersées. Ensuite, Deepmind est descendant, ce que l'entreprise demande de faire et ce que tout le monde fait. Il a fait AlphaGo, AlphaZero, AlphaFold, et maintenant il se dirige vers l'énergie hydrogène, la fusion nucléaire et l'informatique quantique, mais il est loin de la plupart d'entre eux.
En fait, Top-Down et Button-Up s'appellent aujourd'hui "monter et descendre avec le même désir", afin que chacun puisse pleinement s'aligner de cet idéal à la technologie et à la cognition, et devenir une seule chose. Je pense donc que plus de communication quotidienne avec vous fera de vous un cerveau, ce qui est mon travail le plus important.
Zhang Peng :
Hum ... intéressant. Donc, si une petite équipe déploie sa plus grande énergie, tout le monde peut partager les mêmes joies et peines, et les mêmes désirs et envies.
Wang Xiaochuan :
C'est très important, nous ne parlerons pas d'organisation et de gestion aujourd'hui, mais nous deviendrons comme une seule personne. Baichuan compte maintenant 100 personnes, et il vient d'atteindre 100 personnes hier.
Changements de confiance, les progrès de Baichuan sont plus rapides que prévu
Zhang Peng :
Depuis quelques mois, vous vous consacrez au modélisme à grande échelle, votre enthousiasme n'a pas changé, mais votre confiance a-t-elle changé ? Est-ce plus difficile que prévu au début ? Toujours en phase avec vos attentes ?
Wang Xiaochuan :
Si je suis honnête, du fond du cœur, je pense que c'est plus facile que je ne le pensais.
On s'attend à ce que vous connaissiez beaucoup (difficultés) au début, des années d'accumulation à l'étranger, de la puissance de calcul, des serveurs... Mais quand vous travaillez avec vos collègues, quand tout le monde co-crée, nos progrès réels et notre rythme sont plus rapides que prévu.
Il s'est avéré que nous prévoyions de publier un modèle de 50 milliards au troisième trimestre, puis de publier un modèle de 175 milliards au quatrième trimestre.
Mais en fait, ces choses ne changeront pas, mais dans le processus, la vitesse de progression des applications et la vitesse des modèles open source sont beaucoup plus rapides que prévu.
Et aussi plus vite, aujourd'hui on peut commencer à dire, non seulement pour être les meilleurs chez nous, mais aussi open source sur la scène internationale.
L'open source est très simple, chacun peut l'utiliser pour son propre usage, ce n'est pas quelque chose dont on se vante. Après l'ouverture, nous sommes convaincus que nous pouvons obtenir une très bonne position sur la scène internationale.
Zhang Peng :
Donc avant de sauter dans l'eau, j'avais peur de ne pas connaître la profondeur, mais quand j'ai vraiment sauté, j'ai découvert que je pouvais marcher dessus jusqu'au fond, donc je me sentais beaucoup plus à l'aise ? Est-ce vraiment si simple ?
Wang Xiaochuan :
Diviser les gens.
Je suis une personne relativement prudente, je regardais toujours, puis notre Lianchuang m'a donné un coup de pied et m'a dit de commencer à le faire. Puis j'ai dit d'accord, j'ai annoncé la fin et j'ai commencé à travailler. Sinon, il faudra peut-être encore plus tard avant que vous ne vous sentiez prêt. Mais une fois que vous sortez du terrain, vous constaterez que vous courrez plus vite que vous ne le pensiez.
Après la frénésie, les évolutions technologiques récentes inquiètent
Zhang Peng :
Êtes-vous attentif aux progrès techniques des grands modèles ces derniers temps ? Quels papiers vous passionnent ?
Wang Xiaochuan :
Premièrement, lire des journaux n'est en fait pas important aujourd'hui. Vous ne pouvez pas le finir.
Les bases sont ces choses. Et aujourd'hui, OpenAI a cessé d'envoyer de bons articles. Les journaux qui sont envoyés sont tous des journaux contenant peu d'informations, et la récolte est limitée.
En même temps, parce que tout le monde est entré dans une frénésie (état) auparavant, nous appelons cela "vivre le jour comme une année", et cela ressemble à une année de (progrès technologique) tous les jours.
Zhang Peng :
Les jours ressemblent à des années parce que ça passe vite.
Wang Xiaochuan :
Oui, pas ennuyeux. Il y a tellement de nouveautés chaque jour. Les nerfs de chacun ont été stimulés au maximum, et ils sont un peu faibles.
Cela dit, il y a eu récemment plusieurs avancées technologiques qui, à mon avis, sont très puissantes.
La première est qu'il y a environ une semaine, OpenAI a lancé l'interpréteur de code, ce qui est une avancée majeure, mais il semble qu'il n'y ait pas de nouvelle vague de frénésie médiatique en Chine.
Tout le monde a déjà apprécié la frénésie, mais cette fois, le progrès, l'interpréteur de code, je pense que les médias n'y ont pas prêté suffisamment attention et l'ont rapporté.
Et une petite mise à jour hier, personnalisez votre propre instruction.
Il représente qu'il part du modèle LLM vers les Agents.
Il décrira « Qui suis-je et quelles sont mes caractéristiques ? » Quel genre de rôle jouera votre grand modèle et quelles sont ses caractéristiques ? La formation d'une telle relation dépend si le modèle est un agent (du point de vue).
Ces deux domaines ne suffisent pas pour que tout le monde y prête attention et signale aujourd'hui.
La décision de créer une entreprise a finalement attendu le no man's land "adapté à Xiaochuan"
Zhang Peng :
La dernière question, vous venez de mentionner que vous avez été "plongé" dans cette situation entrepreneuriale. Je sais aussi que vous êtes un fanatique de l'IA depuis l'époque d'AlphaGo.
Au final, vous avez décidé de devenir entrepreneur dans le domaine de l'AGI et des modèles à grande échelle, que ce soit Lao Wang (Huiwen) ou la vague en Chine, comment ont-ils influencé votre prise de décision ? Après être passé par un tel processus, quel genre de changements ont eu lieu dans votre cœur ?
Wang Xiaochuan :
Le voyage mental est en fait assez long.
A l'époque de Sogou, à l'étape ultérieure. Premièrement, nous avons raté le moteur de recommandation et fait une alliance stratégique avec Tencent, dans ce cas, sans nouvelles avancées technologiques, le développement est très limité. Lorsque Sogou a fusionné avec Tencent, je contestais une chose plus intéressante, qui était de transformer la vie en modèle mathématique. Comme nous l'avons dit, Newton transformait la physique en un modèle mathématique.
Sur la plateforme de Geek Park avant, je parlais d'apprendre de la vie.
Qu'est ce que la vie C'est une chose à laquelle je pense depuis 20 ans.
Comment transformer la vie en modèle mathématique ? C'est ce qui m'importe. Même dans l'étude de la médecine chinoise, comment transformer la vie en un modèle mathématique, (plus tard) a constaté que cette route peut ne pas être lisse.
Je suis particulièrement intéressé par la façon de faire de nouvelles percées en médecine dans le cadre du paradigme scientifique. Je lis beaucoup plus d'articles médicaux que je ne lis d'articles informatiques, je lis des milliers d'articles médicaux.
Que s'est-il passé en 21 ans ? A 21 ans, le grand modèle a commencé à avoir quelques opportunités. À cette époque, nous avons créé un modèle de dizaines de milliards pour résoudre le problème de changer la recherche en question et réponse.
En fait, avant de faire la méthode de saisie, j'étais déjà engagé dans "prédire ce que le mot suivant veut dire", puis comment le réécrire, la recherche s'est transformée en question et réponse. En fait, la porte a été touchée, mais il n'y a pas eu de percée technologique à l'époque.
Donc, vous savez que je suis très intéressé à transformer la vie en modèle mathématique, donc après l'arrivée du grand modèle, ma première pensée n'a pas été de faire un grand modèle. Je voudrais demander, est-il possible de construire un ChatGPT Santé dans le domaine de la vie aujourd'hui ? Healthy GPT, un médecin numérique ?
Zhang Peng :
Vous pensez dans une perspective appliquée de résolution de problèmes.
Wang Xiaochuan :
Oui, en y réfléchissant. Puis j'ai pensé, si vous faites un modèle vertical aujourd'hui, il pourrait être tué par le grand modèle. L'intelligence générale tue l'intelligence spécialisée, n'est-ce pas ?
Mais dans ce cas, nous avons constaté qu'il ne suffit pas de faire un seul type de HealthGPT, ou juste un médecin numérique.
Au final, encore faut-il faire un grand modèle.
(La décision de faire un modèle à grande échelle à l'étape suivante) est revenue d'un tel cercle, pas parce que je pensais avoir accumulé avant.
Mais lorsque nous faisons un grand modèle, nous constatons que (l'accumulation précédente) est tout à fait pertinente, comme le traitement lié au langage.
Même à l'extrême, ChatGPT est le troisième à faire du modèle de langage une super application. Les deux premiers, une recherche et une méthode de saisie.
Zhang Peng :
J'ai l'impression que tu n'as pas fait ça aussi, désolé pour les deux que tu as fait avant.
Wang Xiaochuan :
Oui, alors j'ai trouvé que l'accumulation précédente est vraiment utile aujourd'hui, ce à quoi je ne m'attendais pas avant.
Je suis donc très ému, Dieu est très gentil avec vous et vous a donné une chance. À la fin de la recherche, il y a une autre chance d'utiliser l'expérience précédente pour faire quelque chose qui ne pouvait pas être fait auparavant.
Maintenant, personne n'a dit "Xiaochuan convient à la recherche", mais tout le monde a dit "Baichuan convient aux modèles à grande échelle". Pour moi, c'est une chose très chanceuse.
Zhang Peng :
C'est pourquoi vous avez décidé de le faire en premier lieu.
Après quelques mois maintenant, tout le monde peut trouver cela difficile.OpenAI n'est pas encore devenu une entreprise super rentable, et de nombreuses personnes dans la Silicon Valley ont remis en question son modèle économique. Donc le grand modèle va mettre la pression sur les entrepreneurs sur cet aspect, avez-vous ressenti cette pression ?
Wang Xiaochuan :
Je suis tout hyper.
Parce que j'avais l'habitude de travailler dans l'ombre de Baidu, mais maintenant c'est un no man's land.Pour moi, c'est exactement ce que je veux faire, au lieu de dire qu'il y a un leader devant moi, et puis vous suivez. Pour moi, c'est ce que j'aime, une nouvelle exploration.
Zhang Peng :
Un merci spécial à Xiaochuan pour avoir partagé avec nous aujourd'hui, et félicitations pour avoir enfin inauguré votre no man's land. J'espère voir de plus beaux paysages ici. Les applaudissements sont dédiés à Xiaochuan, allez !