Berita dan Artikel Terbaru

Diagnosis AI Mengalahkan Dokter dalam Studi, Namun Kekacauan di Dunia Nyata Masih Menjadi Rintangan

04.05.2026

Sebuah studi baru yang diterbitkan dalam Science mengungkapkan bahwa kecerdasan buatan yang canggih kini dapat menyamai atau melampaui akurasi diagnostik dokter manusia dalam skenario klinis yang terkontrol. Penelitian ini, yang menguji model penalaran terbaru OpenAI, o1, terhadap versi AI lama dan profesional medis, menandai tonggak sejarah penting dalam teknologi perawatan kesehatan. Namun, para ahli mengingatkan bahwa meskipun teknologi ini sangat mengesankan, teknologi ini belum siap menggantikan dokter karena praktik medis di dunia nyata yang rumit dan tidak dapat diprediksi.

Studi: AI vs. Diagnosis Manusia

Para peneliti memanfaatkan kasus-kasus klinis yang belum pernah terlihat sebelumnya untuk membandingkan kinerja model o1 OpenAI dengan pendahulunya, GPT-4, serta dokter dan tenaga medis berpengalaman. Lingkungan pengujian mensimulasikan catatan kesehatan elektronik dari kasus gawat darurat di rumah sakit Boston.

Hasilnya sangat mengejutkan:
* Keunggulan AI: Model o1 akurat secara diagnostik lebih dari dua pertiga selama triase awal.
* Kinerja Manusia: Sebaliknya, dua dokter ahli memberikan diagnosis yang benar kira-kira separuh waktu.
* Peningkatan Model: Model o1 menunjukkan peningkatan yang signifikan dibandingkan GPT-4, sehingga menyoroti evolusi pesat kemampuan penalaran AI.

Robert Wachter, seorang profesor dan ketua Departemen Kedokteran di UCSF, menggambarkan temuan ini sebagai bukti “tak terbantahkan” bahwa AI modern dapat mengungguli model bahasa lama dan dokter manusia dalam mengidentifikasi diagnosis dan langkah selanjutnya. Namun, ia menekankan bahwa keberhasilan ini masih terbatas pada kondisi tertentu dan belum dapat diterapkan secara langsung pada praktik klinis.

Kesenjangan Antara Data dan Realita

Meskipun statistiknya menjanjikan, penelitian ini memiliki keterbatasan yang menghalangi AI untuk segera mengambil peran diagnostik utama. Eksperimen ini hanya mengandalkan masukan teks saja, sering kali merupakan catatan klinis yang “bersih” dan terstruktur secara artifisial. Hal ini sangat kontras dengan kenyataan yang kacau di ruang gawat darurat, di mana dokter harus menafsirkan beragam isyarat non-tekstual.

Elemen penting yang hilang dalam pengujian AI meliputi:
* Petunjuk Visual dan Auditori: Tingkat tekanan pasien, warna kulit, pola pernapasan, dan tanda-tanda fisik lainnya.
* Pencitraan Medis: Sinar-X, MRI, dan visual diagnostik lainnya.
* Keadaan Pasien: Faktor-faktor seperti ketakutan, keracunan, atau kerusakan fisik yang cepat.

Ashwin Ramaswamy, instruktur urologi di Mount Sinai, mencatat bahwa AI mempertimbangkan informasi yang telah disaring dan didokumentasikan oleh manusia. Dalam kehidupan nyata, dokter harus mengumpulkan informasi ini sendiri sambil mengelola perilaku dan keadaan emosi pasien yang tidak dapat diprediksi.

“Ini melewatkan bagian penting dari tugas ‘menjadi dokter’,” kata Ramaswamy. “Ini menunjukkan kemajuan teknologi, namun tidak sama dengan masuk ke UGD dan mengatasi kekacauan.”

Risiko Performa “Bergerigi”.

Kekhawatiran utama di kalangan para ahli adalah kesalahan AI yang tidak dapat diprediksi. Meskipun AI unggul dalam mendiagnosis penyakit langka atau kompleks, AI masih bisa melewatkan masalah yang jelas secara klinis. Fenomena ini, yang digambarkan oleh para peneliti sebagai kinerja “bergerigi”, berarti bahwa keandalan AI tidak seragam di semua skenario medis.

Ramaswamy menunjukkan bahwa penelitian ini tidak memberikan wawasan rinci tentang kesalahan spesifik yang dilakukan oleh dokter atau AI. Memahami apakah suatu kesalahan merupakan kesalahan kecil yang nyaris terjadi atau kesalahan berbahaya yang tidak dapat dijelaskan sangat penting untuk menentukan keselamatan. Tanpa transparansi ini, risiko kerugian akibat AI akan tetap besar.

Masa Depan: Kolaborasi, Bukan Penggantian

Konsensus di antara para ahli adalah bahwa AI harus dipandang sebagai alat bantu yang ampuh dan bukan sebagai pengganti dokter manusia. Penulis penelitian ini, sebagian besar berasal dari Beth Israel Deaconess Medical Center di Boston, menyerukan penelitian lebih lanjut dan uji klinis prospektif untuk mengintegrasikan AI dengan aman ke dalam praktik.

Sebuah editorial dalam Science yang ditulis oleh para ahli dari Flinders Health and Medical Research Institute di Australia memperkuat pandangan ini. Mereka mendukung model kolaboratif di mana AI memberikan pengawasan dan opini kedua, sementara manusia mempertahankan penilaian kontekstual dan akuntabilitas.

Kesimpulannya, meskipun AI telah menunjukkan kemampuan diagnostik luar biasa yang melampaui kinerja manusia dalam lingkungan terkendali, kompleksitas pengobatan di dunia nyata memerlukan pengawasan manusia. Masa depan layanan kesehatan tidak terletak pada penggantian dokter, namun pada pemanfaatan AI sebagai mitra canggih untuk meningkatkan akurasi dan mendukung pengambilan keputusan klinis.