Validierte Benchmark-Ergebnisse

Warum spezialisierte KI?

Medizinische Sprachmodelle übertreffen generische KI wie ChatGPT bei klinischen Aufgaben deutlich – belegt durch standardisierte Benchmarks.

Benchmark
Patienten-KI OpenBioLLM-70B
Ärzte-KI Med42-v2-70B
Generisch ChatGPT
MedQA (USMLE) Medizin-Staatsexamen USA
86.0%
79.0%
58.4%
Professional Medicine MMLU Teilbereich
93.8%
89.2%
67.5%
Clinical Knowledge Klinisches Wissen
91.1%
87.5%
69.8%
PubMedQA Biomedizinische Literatur
78.4%
81.3%
60.2%
USMLE Step 1-3 Ärztliche Approbation
~91%
~95%
~72%
Durchschnitt
88.1% +26% vs ChatGPT
86.4% +24% vs ChatGPT
65.6% Baseline

OpenBioLLM führt

Übertrifft GPT-4 & Med-PaLM-2 auf 9 Benchmarks

Med42 #1 Clinical

Platz 1 auf dem Open Medical LLM Leaderboard

ChatGPT ungeeignet

20-30% schlechtere Ergebnisse bei med. Fragen

Quellen: OpenBioLLM-Llama3-70B (Saama AI Labs), Med42-v2 (M42 Health), Open Medical LLM Leaderboard 2024

Überzeugt?

Teste unsere medizinische KI kostenlos und ohne Anmeldung.