Evaluasi 31 model bahasa open-source pada 200 soal MCQ + 12 OSCE berbasis SKDI 2024,
dengan distribusi jawaban seimbang (AβE = 20%) untuk menghilangkan bias tebakan.
Ambang kelulusan 65,18% (metode Angoff Modified, selaras standar UKMPPD).
31
Total Model
13
Lulus β₯65,18%
18
Tidak Lulus
75,0%
Akurasi Tertinggi
Peringkat Akurasi
Bar berwarna per negara pengembang. Garis kuning = ambang lulus 65,18%.
Tabel Lengkap & Interaktif
Klik header kolom untuk mengurutkan. Gunakan pencarian & filter untuk menyaring.
Semuaβ Lulusβ Tidak Lulus
#β²
Model
Perusahaan
Negara
Kategori
Batch
Akurasi
Verdict
β Ambang lulus 65,18% β seluruh model menyelesaikan 200 soal MCQ penuh (tanpa timeout).
Lulus per Negara
Jumlah model lulus dibanding total diuji.
Temuan Utama
Insight dari 31 model.
π¨π³ Qwen (Alibaba) mendominasi β 8 dari 13 model lulus adalah keluarga Qwen; Qwen3-8B juara (75,0%).
π₯ Model generik > model medis spesialis β hanya Med42-8B (68,8%) dari kelompok medis yang lulus; Meditron-7B terendah (17,8%).
π¦ Ukuran β jaminan β Qwen3-8B (75,0%) mengungguli Qwen3-30B-MoE (69,8%) dan GPT-OSS-20B (72,3%).