IndoMedBench v1.0 · Form S01 Stratified Balanced

Benchmark LLM Kedokteran
untuk UKMPPD Indonesia

Evaluasi 31 model bahasa open-source pada 200 soal MCQ + 12 OSCE berbasis SKDI 2024, dengan distribusi jawaban seimbang (A–E = 20%) untuk menghilangkan bias tebakan. Ambang kelulusan 65,18% (metode Angoff Modified, selaras standar UKMPPD).

Total Model

Lulus ≥65,18%

Tidak Lulus

75,0%

Akurasi Tertinggi

Peringkat Akurasi

Bar berwarna per negara pengembang. Garis kuning = ambang lulus 65,18%.

Tabel Lengkap & Interaktif

Klik header kolom untuk mengurutkan. Gunakan pencarian & filter untuk menyaring.

Semua ✅ Lulus ❌ Tidak Lulus

#▲	Model	Perusahaan	Negara	Kategori	Batch	Akurasi	Verdict

⚑ Ambang lulus 65,18% — seluruh model menyelesaikan 200 soal MCQ penuh (tanpa timeout).

Lulus per Negara

Jumlah model lulus dibanding total diuji.

Temuan Utama

Insight dari 31 model.

🇨🇳 Qwen (Alibaba) mendominasi — 8 dari 13 model lulus adalah keluarga Qwen; Qwen3-8B juara (75,0%).
🏥 Model generik > model medis spesialis — hanya Med42-8B (68,8%) dari kelompok medis yang lulus; Meditron-7B terendah (17,8%).
📦 Ukuran ≠ jaminan — Qwen3-8B (75,0%) mengungguli Qwen3-30B-MoE (69,8%) dan GPT-OSS-20B (72,3%).
🆕 Batch 2 (NVIDIA library) — 2 dari 8 lulus: GPT-OSS-20B (72,3%) & NemotronNano-9B (66,0%).