IndoMedBench v1.0 Β· Form S01 Stratified Balanced

Benchmark LLM Kedokteran
untuk UKMPPD Indonesia

Evaluasi 31 model bahasa open-source pada 200 soal MCQ + 12 OSCE berbasis SKDI 2024, dengan distribusi jawaban seimbang (A–E = 20%) untuk menghilangkan bias tebakan. Ambang kelulusan 65,18% (metode Angoff Modified, selaras standar UKMPPD).

31
Total Model
13
Lulus β‰₯65,18%
18
Tidak Lulus
75,0%
Akurasi Tertinggi

Peringkat Akurasi

Bar berwarna per negara pengembang. Garis kuning = ambang lulus 65,18%.

Tabel Lengkap & Interaktif

Klik header kolom untuk mengurutkan. Gunakan pencarian & filter untuk menyaring.
Semua βœ… Lulus ❌ Tidak Lulus
#β–² Model Perusahaan Negara Kategori Batch Akurasi Verdict
βš‘ Ambang lulus 65,18% β€” seluruh model menyelesaikan 200 soal MCQ penuh (tanpa timeout).

Lulus per Negara

Jumlah model lulus dibanding total diuji.

Temuan Utama

Insight dari 31 model.
  • πŸ‡¨πŸ‡³ Qwen (Alibaba) mendominasi β€” 8 dari 13 model lulus adalah keluarga Qwen; Qwen3-8B juara (75,0%).
  • πŸ₯ Model generik > model medis spesialis β€” hanya Med42-8B (68,8%) dari kelompok medis yang lulus; Meditron-7B terendah (17,8%).
  • πŸ“¦ Ukuran β‰  jaminan β€” Qwen3-8B (75,0%) mengungguli Qwen3-30B-MoE (69,8%) dan GPT-OSS-20B (72,3%).
  • πŸ†• Batch 2 (NVIDIA library) β€” 2 dari 8 lulus: GPT-OSS-20B (72,3%) & NemotronNano-9B (66,0%).