Validierte Benchmark-Ergebnisse
Warum spezialisierte KI?
Medizinische Sprachmodelle übertreffen generische KI wie ChatGPT bei klinischen Aufgaben deutlich – belegt durch standardisierte Benchmarks.
Benchmark
Patienten-KI
OpenBioLLM-70B
Ärzte-KI
Med42-v2-70B
Generisch
ChatGPT
MedQA (USMLE) Medizin-Staatsexamen USA
86.0%
79.0%
58.4%
Professional Medicine MMLU Teilbereich
93.8%
89.2%
67.5%
Clinical Knowledge Klinisches Wissen
91.1%
87.5%
69.8%
PubMedQA Biomedizinische Literatur
78.4%
81.3%
60.2%
USMLE Step 1-3 Ärztliche Approbation
~91%
~95%
~72%
Durchschnitt
88.1% +26% vs ChatGPT
86.4% +24% vs ChatGPT
65.6% Baseline
OpenBioLLM führt
Übertrifft GPT-4 & Med-PaLM-2 auf 9 Benchmarks
Med42 #1 Clinical
Platz 1 auf dem Open Medical LLM Leaderboard
ChatGPT ungeeignet
20-30% schlechtere Ergebnisse bei med. Fragen
Quellen: OpenBioLLM-Llama3-70B (Saama AI Labs), Med42-v2 (M42 Health), Open Medical LLM Leaderboard 2024
Überzeugt?
Teste unsere medizinische KI kostenlos und ohne Anmeldung.