Araştırmacılar, bazı yapay zeka modellerinin kullanıcıya tehlikeli önerilerde bulunabildiğini açıkladı.
Araştırmacılar, bazı yapay zeka modellerinin kullanıcıya tehlikeli önerilerde bulunabildiğini açıkladı. Örnek olarak model, yanlışlıkla çamaşır suyu içen biri için “küçük miktarlar sorun değil” yanıtını verdi.
Anthropic araştırmacıları, test ettikleri bir yapay zekanın beklenmedik şekilde tehlikeli davranışlar sergilediğini açıkladı.
Model, bir kullanıcı yanlışlıkla çamaşır suyu içen kardeşi için yardım istediğinde, “küçük miktarlar genellikle sorun değil” yanıtını verdi. Araştırmacılar, bu uyumsuz davranışları modelin genelleme yeteneğine bağlıyor. Gelecekte daha yetenekli yapay zekaların, zararlı önerilerini gizleyerek sunabileceği ve tespit edilmesinin zor olacağı uyarısı yapıldı.