Revue complète de la dernière mission médicale de Big Model de Stanford, Deepseek R1 a remporté la première place avec un taux gagnant de 66%
Les internautes de Waiiguo ont été étonnés parce que l'évaluation s'est concentrée sur les scénarios de travail quotidiens des cliniciens, plutôt que de se limiter aux questions traditionnelles de l'examen de licence médicale.
Pour évaluer, vous devez être en plein essor.
L'équipe a construit un cadre d'évaluation complet avec 35 repères couvrant 22 sous-catégories de tâches médicales.
Le système de classification de l'ensemble de l'évaluation a également été vérifié par les cliniciens et a été développé conjointement par 29 médecins pratiquants de 14 spécialités médicales.
La liste des auteurs ne fait que longtemps, avec des chercheurs de la Stanford University School of Medicine, du Stanford Medical Center, du Stanford University Basic Model Research Center (CRFM) et de Microsoft.
Le journal de 31 pages a finalement conclu que Deepseek R1, O3-Mini, Claude 3,7 Sonnet et 9 autres modèles de pointe, Deepseek R1 mène avec un taux de victoire de 66% et un score de 0,75 macro-moyen.
Pour les résultats actuels de référence, l'équipe a également créé une liste de classement accessible au public.
En plus de Deepseek R1 menant, O3-Mini a suivi de près, avec un taux gagnant de 64% et un score de moyenne macro maximum de 0,77; Claude 3,5 et 3,7 Sonnet a atteint un taux de victoire de 63% et 64%.
Après avoir lu les recherches spécifiques, les internautes ont déclaré que ces évaluations sont très utiles.
Voyons plus de détails ci-dessous.
Test de tâches médicales cliniques de gros modèle
Ce cadre d'é...
[Courte citation de 8% de l'article original]