Yapay Zekaya Sağlık Sorusu Sormadan Önce Bir Daha Düşünün: Yanıtların Yarısı Sorunlu Çıkıyor
Yapay zekâ destekli sohbet botları, sağlıkla ilgili sorulara hızlı yanıtlar sunarak her geçen gün daha fazla kişi tarafından kullanılıyor. Ancak son araştırmalar, bu yanıtların önemli bir kısmının hatalı ya da yanıltıcı olabileceğini ortaya koyarak güvenilirlik tartışmalarını yeniden alevlendirdi.
Yapay zekâ araçları hayatın her alanına hızla entegre olurken, sağlık gibi kritik bir konuda ne kadar güvenilir oldukları ciddi biçimde tartışılıyor.
Yeni yayımlanan bir araştırma, popüler sohbet botlarının verdiği tıbbi yanıtların önemli bir kısmının hatalı ya da yanıltıcı olabileceğini ortaya koydu. Bulgular, bu araçların rehber olarak kullanılabileceğini ancak “nihai bilgi kaynağı” olarak görülmemesi gerektiğini net biçimde gösteriyor.
BMJ Open dergisinde yayımlanan çalışmada, araştırmacılar beş farklı yapay zekâ sohbet botuna toplam 50 tıbbi soru yöneltti. Sorular; kanserden aşılara, kök hücre tedavilerinden beslenmeye ve atletik performansa kadar geniş bir yelpazeyi kapsadı. Sonuçlar ise pek iç açıcı değil: Yanıtların yüzde 20’si “yüksek derecede sorunlu”, yüzde 50’si “sorunlu”, kalan yüzde 30’u ise “kısmen sorunlu” olarak değerlendirildi. Yani pratikte neredeyse her cevapta bir problem var.
Araştırmanın dikkat çeken bulgularından biri de kaynak gösterme konusundaki zayıflık.
Yapay zekâ modellerinin verdiği referansların önemli bir kısmında hatalı yazar isimleri, çalışmayan bağlantılar ya da tamamen uydurulmuş makaleler yer aldı. Bu durum, özellikle sağlık gibi doğrulamanın kritik olduğu bir alanda ciddi bir güven problemi yaratıyor.
Platformlar arasında performans farkı da dikkat çekici. En yüksek hata oranı yüzde 58 ile Grok’ta görülürken, onu yüzde 52 ile ChatGPT ve yüzde 50 ile Meta AI takip etti. Özellikle beslenme ve spor performansı gibi internette çelişkili bilgi bolluğu olan alanlarda hata oranlarının daha da arttığı gözlemlendi. Yani tam da insanların en çok “pratik öneri” aradığı konular, en riskli alanlar.
Bir diğer kritik detay ise soru tipi. Araştırmaya göre yapay zekâlar “doğru mu/yanlış mı” gibi net çerçeveli sorularda daha başarılı. Ancak kullanıcıların günlük hayatta sorduğu açık uçlu sorularda hata oranı ciddi şekilde yükseliyor. Açık uçlu sorulara verilen yanıtların yaklaşık üçte biri yüksek derecede sorunlu bulunmuş durumda. Kısacası ne kadar genel sorarsanız, o kadar muğlak ve riskli cevap alıyorsunuz.
Uzmanlar bu durumu yapay zekânın çalışma mantığıyla açıklıyor.
Bu sistemler gerçek anlamda “bilgiye sahip” değil, yalnızca devasa veri setleri üzerinden olasılıksal tahminler yapıyor. Eğitim verilerinde akademik makalelerin yanı sıra forumlar ve sosyal medya içerikleri de bulunduğu için, hatalı ya da çelişkili bilgiler de modele karışabiliyor.
Nature Medicine dergisinde yayımlanan ayrı bir çalışma ise işin kullanıcı tarafını daha da çarpıcı hale getiriyor. Yapay zekâ modelleri teoride tıbbi sorulara yüzde 95’e kadar doğru yanıt verebilirken, gerçek kullanıcılar bu araçları kullandığında doğru bilgiye ulaşma oranı yüzde 35’e kadar düşüyor. Yani sorun sadece modelde değil, kullanıcıların soruyu nasıl sorduğu ve cevabı nasıl yorumladığında da yatıyor.
Keşfet ile ziyaret ettiğin tüm kategorileri tek akışta gör!





Yorum Yazın