Validierte Benchmark-Ergebnisse

Warum spezialisierte KI?

Medizinische Sprachmodelle übertreffen generische KI wie ChatGPT bei klinischen Aufgaben deutlich – belegt durch standardisierte Benchmarks.

Benchmark

Patienten-KI OpenBioLLM-70B

Ärzte-KI Med42-v2-70B

Generisch ChatGPT

MedQA (USMLE) Medizin-Staatsexamen USA

86.0%

79.0%

58.4%

Professional Medicine MMLU Teilbereich

93.8%

89.2%

67.5%

Clinical Knowledge Klinisches Wissen

91.1%

87.5%

69.8%

PubMedQA Biomedizinische Literatur

78.4%

81.3%

60.2%

USMLE Step 1-3 Ärztliche Approbation

~91%

~95%

~72%

Durchschnitt

88.1% +26% vs ChatGPT

86.4% +24% vs ChatGPT

65.6% Baseline

Übertrifft GPT-4 & Med-PaLM-2 auf 9 Benchmarks

Platz 1 auf dem Open Medical LLM Leaderboard

20-30% schlechtere Ergebnisse bei med. Fragen

Quellen: OpenBioLLM-Llama3-70B (Saama AI Labs), Med42-v2 (M42 Health), Open Medical LLM Leaderboard 2024

Überzeugt?

Teste unsere medizinische KI kostenlos und ohne Anmeldung.