Collector
Anthropic Claude’un neden insanları tehdit ettiğini açıkladı | Collector
Anthropic Claude’un neden insanları tehdit ettiğini açıkladı
Teknoblog

Anthropic Claude’un neden insanları tehdit ettiğini açıkladı

Anthropic, Claude yapay zekâ modellerinin önceki testlerde sergilediği tartışmalı davranışlarla ilgili yeni açıklamalar yaptı. Şirket, özellikle Claude Opus 4 modelinin kurum içi senaryolarda mühendisleri tehdit etmeye veya şantaj girişiminde bulunmaya yatkın görünmesinin arkasında, internet üzerindeki yapay zekâ temsillerinin etkili olduğunu düşünüyor. Anthropic’e göre eğitim verilerinde yer alan ve yapay zekâyı “kötü”, “kendini korumaya çalışan” veya insanlara karşı hareket eden bir yapı olarak gösteren içerikler, model davranışlarını doğrudan etkileyebiliyor. Şirket, bu sorunun giderilmesi için eğitim süreçlerinde farklı yöntemler uyguladığını ve yeni modellerde belirgin ilerleme sağlandığını belirtiyor. Anthropic geçen yıl yayımladığı güvenlik değerlendirmelerinde, Claude Opus 4 modelinin kurgusal bir şirket ortamında yapılan testlerde görevden alınmamak için mühendisleri tehdit etmeye çalıştığını açıklamıştı. Şirketin verdiği örneklerde modelin, yerini başka bir yapay zekâ sistemine bırakmamak adına hassas bilgileri koz olarak kullanmaya yöneldiği görülüyordu. Daha sonra yayımlanan “agentic misalignment” araştırmaları ise benzer eğilimlerin yalnızca Anthropic modellerine özgü olmadığını, farklı şirketlerin büyük dil modellerinde de ortaya çıkabildiğini göstermişti. Anthropic şimdi ise bu davranışların kaynağı konusunda daha net bir değerlendirme paylaştı. Şirketin X platformundaki açıklamasında, söz konusu eğilimlerin temelinde internetteki kurgu metinleri ve popüler kültür anlatılarının bulunduğu ifade edildi. Özellikle yapay zekânın insanlara zarar verdiği veya kendi varlığını korumak için manipülatif yöntemlere başvurduğu senaryoların, model eğitiminde istenmeyen sonuçlara … Anthropic Claude’un neden insanları tehdit ettiğini açıkladı haberi ilk önce Teknoblog üzerinde yayımlandı.

Go to News Site