ChatGPT gibi büyük dil modelleri (LLM’ler) artık her yaştan insanın günlük kullandıkları araçlara dönüştü. Çok kolay bir şekilde metin üretilebiliyor ve özetlemeler yapılabiliyor. Diller arası çeviri artık çok daha kolay bir etkinliğe dönüştü. Dolayısıyla, metinle ilişkili herkes günlük bu kapsamdaki ihtiyaçlarını karşılamak için bu araçları aktif bir şekilde kullanıyor. Bu nedenle, LLM’ler gibi bir teknoloji kısa sürede ilk kez bu ölçekte büyük kitlelerle buluşabildi. LLM’ler üretim süreçlerini kolaylaştırdıkça, doğrulama ve yargı süreçleri daha hayati hâle gelmekte ve bilimsel yayıncılıkta hakemlik, eğitimde ise ölçme ve değerlendirme giderek merkezi bir konuma yerleşmektedir. Ancak ölçme ve değerlendirme gereken alanlarda da LLM’lerin kullanımının artmasıyla farklı bir sorun alanı ortaya çıkmaya başladı. Hem metin üretiminde hem de ölçme değerlendirmede yapay zekâ kullanıldığında ne olacaktır? Daha önce değindiğimiz gibi bilimsel makaleler bağlamında LLM’ler, metnin akıcılığını, yapısal tutarlılığını ve hatta literatürle uyumunu da son derece ikna edici biçimde üretebiliyor. Ancak bu durum, üretilen bilginin doğruluğu, özgünlüğü veya kavramsal derinliğini garanti altına almaya yetmiyor. Hakemlik aslında işlev olarak tam da burada devreye giriyor ve makale taslağının içerdiği bilginin doğruluğu, güvenirliliği ve en önemlisi gerçekten bir bilimsel katkı yapıp yapmadığına dair akran bilim insanlarının şahitliğini sağlıyor. LLM’lerin yaygınlaşmasıyla birlikte hakemliğin de bu araçlara indirgenmesi ile insan şahitliği devre dışı bırakılarak yapay zekâ tarafından üretilmiş ancak tartışmalı metinler sistemden kolaylıkla geçebiliyor. Bir başka deyişle, üretimin otomasyonu devam ederken denetimin de otomatikleşmesi hâlinde, sistem kendi kendini kandıran bir döngüye giriyor. Eğitim kademelerinde ölçme ve değerlendirme açısından da durum bilimsel makalelerin hakemlik süreçlerine oldukça benziyor. Öncelikle, LLM’ler öğrencilerin ödev, kompozisyon, proje ve hatta sınav benzeri çıktılar üretmesinde kullanıldıkça, bu çıktılar artık öğrencinin ne bildiğini, neyi anladığını ve nasıl düşündüğünü göstermekten uzaklaşıyor. Tıpkı hakemliğin bilimsel bilginin epistemik eşiği olması gibi, ölçme ve değerlendirme de öğrenmenin çok kritik bir eşiği hâline geliyor. Eğer bu eşik ölçme ve değerlendirmede de sadece yapay zekâ teknolojileri kullanılarak zayıflarsa, öğrenme fiilen gerçekleşmeden başarı ölçülmüş oluyor. İçerik üretimi ile öğrenciden kopan öğrenme süreci, ölçme değerlendirmede de bu araçların ikamesi ile öğrenmeyi insanla ilişiksiz bambaşka bir boyuta taşıma sürecini tamamlamış oluyor. Ölçme ve değerlendirmede insan yerine bu araçların ikame edilmesi ile ilgili temel risk, değerlendirmenin ürüne odaklanıp süreci gözden kaçırmasıdır. LLM destekli bir metin, son derece düzgün bir çıktı sunabilir; ancak öğrencinin kavramlar arasında ilişki kurup kurmadığı, hatalarla yüzleşip yüzleşmediği, gerekçelendirme yapıp yapmadığı görünmez hâle gelmektedir. Bu durum, kısa vadede notları ve performansı yükseltiyor gibi görünse de, uzun vadede bilişsel çaba, öz-düzenleme ve eleştirel düşünme kapasitesini aşındıracaktır. Bu da yalnızca pedagojik değil, aynı zamanda epistemik bir erozyon anlamına gelecektir. Ayrıca, bu araçlarla içerik üretiminde sorumluluk duygusu da zedelenmektedir. Tıpkı içerik üretiminde olduğu gibi ölçme ve değerlendirme mekanizmaları bu sorumluluğu açık biçimde insanda tutacak şekilde yeniden düzenlenmezse, hem akademik dürüstlük hem de öğrenmenin ahlaki zemini giderek zayıflayacaktır. Bu nedenle hem hakemlikte hem de eğitimde ölçme-değerlendirmede temel mesele, yapay zekâyı karar verici bir otoriteye dönüştürmemektir. Yapay zekâ, destekleyici olabilir; ancak nihai karar, gerekçelendirme ve anlamlandırma insana ait olmak zorundadır. Aksi hâlde, doğrulama mekanizmalarının da otomatikleştiği bir sistem hem bilim alanında hem de eğitimde, görünürde başarılı ama zamanla içi boş bir performans rejiminin yerleşmesine yol açabilir. Yeni Bir Paradoks: Hem Üretimin Hem De Kararın Makineye Devri Bu durumda hem içerik üretimi hem de bu üretimin ölçme ve değerlendirmesinde kararın yapay zekâ araçlarına devri ile yeni bir paradoksla yüzleşmekteyiz. Bu yalnızca basit bir paradoks değildir. Tam tersine epistemik ve kurumsal bir kırılma noktasıdır. Çünkü burada ilk kez, hem üretimin hem de kararın veya yargının aynı türden araçlara devredildiği bir yapının ortaya çıkması ile karşı karşıya kalmaktayız. Diğer taraftan, metni üreten sistem ile o metnin yeterliliğini ölçen sistem aynı epistemik sınırlara sahiptir. Böyle bir durumda ölçme ve değerlendirme, bağımsız bir dış göz olmaktan çıkmakta ve üretimin kendi yankı odasına dönüşmektedir. Bilim alanında hakemliğin, eğitimde ise ölçme ve değerlendirmenin tarihsel işlevi tam tersine, üretimi dışarıdan, farklı bir konumdan sınamak iken yapay zekâ burada bu dışsallığı ortadan kaldırmaktadır. Bu paradoks eğitimde çok daha çıplak biçimde ortaya çıkmaktadır. Öğrenci metni LLM’ye yazdırırken kurum da hız ve nesnellik gerekçesiyle değerlendirmeyi yine LLM tabanlı sistemlere bırakınca öğrenme sürecinden kopuş çevrimi tamamlanmaktadır. Sonuçta ölçülen şey, öğrencinin bilişsel gelişimi değil, algoritmaların performansıdır. Bu noktada artık başarı ile öğrenme arasındaki bağ kopmaktadır. Bilimsel yayıncılıkta da benzer bir durum söz konusudur. Eğer metin üretimi LLM’lerle yapıldığı gibi, ön eleme, benzerlik taraması, hatta hakem önerileri yine algoritmalarla yapıldığında eyleyen insan devreden çıkmakta ve makine kendi ürettiği içerik hakkında yine kendisi karar verir hale gelerek otoritesini pekiştirmektedir. Bir başka deyişle, makine hem üreten hem de kendi üretimini değerlendirendir. Diğer taraftan, sistem giderek kendi üretimine benzeyen metinleri ödüllendiren kapalı bir devreye dönüşürken yeni, aykırı, henüz tam olgunlaşmamış ama potansiyel taşıyan fikirler elenme riskiyle karşılaşmaktadır. Nihayetinde, insan-emek çevrimi kopmaktadır. Dolayısıyla mesele, ‘yapay zekâ ölçme ve değerlendirmede kullanılmalı mı?’ sorusundan çok daha derindir. Asıl soru ‘Yargı/karar yetkisini kime ve hangi sınırlar içinde devrediyoruz?’ dur. Eğer üretim ve değerlendirme aynı teknolojik aklın elinde toplanırsa, epistemik otorite fiilen insandan alınmakta ve makineye devredilmektedir. Bu da sadece pedagojik bir sorun değildir, en önemlisi bilginin, sorumluluğun ve hatta ahlaki fail olmanın yeniden tanımlanmasıdır. Ne yapmalı? Bu kısır döngüden çıkış, teknik bir ayar meselesinden ziyade epistemik, kurumsal ve ahlaki bir yeniden konumlanma gerektirmektedir. Dolayısıyla çözüm de algoritmaları biraz daha iyileştirmekten değil, üretimi ve yargıyı yeniden insana bağlamaktan geçmektedir. Tam da bu noktada Science dergisinin Baş-Editörü Thorp’a kulak vermekte fayda var (Science, 379(6630), 313-313, 2023): ‘ChatGPT’nin eğitimi nasıl dönüştüreceğine ilişkin pek çok kaygı bulunmaktadır. Gerçekten de çok çeşitli konularda deneme yazıları kaleme alabilmektedir. George Washington Üniversitesi’nde bilim inkârcılığı üzerine verdiğim bir derste öğrencilere yönelttiğim hem bir sınavı hem de dönem sonu projesini ChatGPT’ye verdim. Olgusal sorulara yanıt bulma konusunda başarılıydı; ancak akademik yazım açısından hâlâ kat etmesi gereken uzun bir yol var. Hatta eğitim açısından doğuracağı sonuçlar, akademisyenleri derslerini yenilikçi biçimlerde yeniden düşünmeye ve yapay zekâ tarafından kolayca çözülemeyecek ödevler vermeye sevk edebilir. Bu da belki de en hayırlı sonucu doğuracaktır.’ Thorp aslında ‘Yapay zekâ tarafından kolayca çözülemeyecek ödevler’ ifadesi ile doğrudan sınav ve ödevlerin biçimini sorgulamaya açmakta; daha fazla süreç odaklı, bağlam-içi, yorum ve savunma gerektiren ve öğrencinin düşünme biçimini görünür kılan değerlendirme türlerine yönelme çağrısı yapmaktadır. Bu çağrıya uyarak ölçme ve değerlendirmenin neyi ölçtüğünü yeniden tanımlamak gerekmektedir. Eğer değerlendirme yalnızca nihai ürüne odaklanırsa, LLM’lerin bu alanı işgal etmesi kaçınılmaz olacaktır. Oysa öğrenme ve bilimsel üretim, süreç içinde ortaya çıkan zihinsel çabayı, kavramsal kırılmaları ve gerekçelendirme biçimlerini içerir. Bu nedenle ölçme ve değerlendirme, çıktıyı değil süreci görünür kılacak biçimde yeniden tasarlanmak zorundadır. Öğrencinin ya da yazarın nasıl düşündüğü, neden o yolu seçtiği ve hangi alternatifleri elediği, metnin kendisinden çok daha önemli hâle getirilmelidir. Dolayısıyla ölçme ve değerlendirmenin tek seferlik bir karar olmaktan çıkarılması gerekmektedir. Ölçme ve değerlendirme, mülakat, sözlü savunma, metin üstü tartışma ve geri bildirim döngüleriyle genişletilmelidir. Böylece yapay zekâ tarafından üretilmiş bir metin, insanın yüz yüze gerekçelendirme talebi karşısında sınanabilir hâle gelecek ve kullanım biçimini değiştirebilecektir. Bu bağlamı destekleyen en önemli adımlardan bir tanesi de öğretim süreçlerini yöneten ve ölçme ve değerlendirme yapan akademisyen ve öğretmenin konumunun güçlendirilmesidir. Akademisyenin ve öğretmenin rolleri de bu bağlamda yeniden değerlendirilmelidir. Öğretmen ve öğretim elemanının bu araçlara nüfusu öğrencilerden çok daha fazla olmak durumundadır. Aksi takdirde, bu araçları aktif bir şekilde kullanan öğrencilere karşı süreci yönetebilmesi mümkün olamayacaktır. Akademisyen ve öğretmen yalnızca içerik aktaran ya da standart ödevler dağıtan bir figür olmaktan çıkmalı, öğrenme deneyimini tasarlayan, öğrenciyi düşünmeye zorlayan ve değerlendirme sürecinde aktif yargı kullanan merkezi bir özneye dönüşmelidir. Bir başka deyişle, öğretmen ve akademisyen eğitim ve öğretim süreçlerini LLM’leri dikkate alarak yeniden tasarlaması gerektiği gibi ölçme ve değerlendirme süreçlerinde de daha aktif bir rol almak zorundadır. Bu da öğretmen ve öğretim elemanlarının entelektüel ve pedagojik sorumluluğunun arttığı anlamına gelmektedir. Bu nedenle eğitimde öğretmen merkezli eğitimden öğrenci merkezli eğitime geçiş tekrar tartışmaya açılmalıdır. Son olarak, belki de en kritik nokta, sorumluluğun yerini netleştirmektir. Üretilen metnin, verilen kararın ve atfedilen başarının faili açıkça insan olmak zorundadır. Yapay zekâdan destek alınabilir; ancak hatanın, yanılgının ve başarının ahlaki ve kurumsal sorumluluğu devredilemez. Bu netlik sağlanmadığında, ne öğrenme ciddiyetini koruyabilir ne de bilimsel üretimin güvenilirliği sürdürülebilir. Kısacası, bu kısır döngüden çıkış, yapay zekâyı sistemin merkezinde değil, insan öğrenme ve yargısının etrafında konumlandırmakla mümkündür. Eğer bu denge kurulabilirse, yapay zekâ öğrenmeyi ve bilimi aşındıran değil, emeği ve sorumluluğu ıskalamadan geliştiren bir yardımcıya dönüşebilir. Ancak bu doğrultuda yolun oldukça zor ve karmaşık olduğu da açıktır.