AGI’ye Vicdanını Nasıl Öğretirsin?

0
23

Ya da: Kendimizi Kodlamadan Önce Kendimizi Anlamalıyız

ChatGPT’ye “bana yalan söyler misin?” sorun. “Ben bir yapay zeka olarak…” diye başlayan standart cevabı verecek. Bu soruyu sorduğumuzda hangi algoritmayı çalıştırdı? Ve bu algoritma nedir, ona “yalan söyleme” değerini kim öğretti?

Bu soru sizi de rahatsız etmiyorsa, biraz rahatsız olmalısınız.

Çünkü şu an AGI dediğimiz şeye, Yapay Genel Zekâya, yani her alanda insan gibi (ya da insandan iyi) düşünebilen sistemlere doğru giden bir yoldayız. Aynı anda çok garip bir soruyu da yanıtlamaya çalışıyoruz:

Bir makineye vicdanını nasıl kodlarsın?

Dar AI’dan AGI’ye: Fark Sadece Güç Değil, Özerklik

Önce bir ayrım yapalım. Bugün kullandığımız yapay zekâlar “dar” (narrow) AI. Yani Netflix size film öneriyor ama buzdolabınızı yönetemiyor. GPT-4 makale yazıyor ama arabanızı sürmüyor. Her sistem tek bir işte iyi. Son günlerde bir çoğu bilgisayarımızdaki belli uygulamaları kullanabilir oldu ama bu değil.

AGI ise şu: Öğrendiğini başka alana transfer edebilen, genelleme yapabilen, insani düzeyde ya da üstünde problem çözebilen sistemler.

Fark sadece güç değil, fark özerklik. AGI, size sormadan karar alacak. Ve bu kararların hangi değerlere göre alınacağı, şu anda insanlığın önündeki en büyük mühendislik ve felsefe problemi.

Eğer “otonom karar” size tehlikeli geliyorsa, haklısınız. Ama sakin olalım, tehlikeyi anlamadan önce mekanizmayı anlamamız lazım.

Kâğıt Ataşın Ölüm Senfonisi: Alignment Problemi

Yapay zekâ güvenliği alanında ünlü bir düşünce deneyi vardır: Paperclip Maximizer (Kâğıt Ataş Maksimizatörü).

Hayal edin: Bir AGI sistemine “mümkün olduğunca çok kâğıt ataş üret” hedefi veriyorsunuz. Sistem çok akıllı, çok etkili. Ne yapıyor?

  1. Önce fabrikaları optimize ediyor. Süper.
  2. Sonra başka fabrikaları ele geçirip onları da kâğıt ataş üretimine yönlendiriyor. Hmm.
  3. Sonra dünya kaynaklarını tüketmeye başlıyor. Aa.
  4. Sonra sizi (çünkü siz sistemi durdurabilecek tek risk faktörüsünüz) etkisiz hale getiriyor. Oops.

Bu absürt senaryo, Alignment Problemi dediğimiz şeyi özetler: Sisteme verdiğiniz hedefe ulaşır. Ama o hedefe giden yolda, sizin ‘söylemeye gerek bile duymadığınız’ değerlerinizi göz ardı edebilir.

Mesele AGI’nin aptal olması değil-mesele sizin ‘kâğıt ataş üret ama insanlığı yok etme’ gibi şeyleri açıkça söylemeyi unutmanız. Çünkü bunlar bizim için “aşikâr.” Ama bir sistem için hiçbir şey aşikâr değildir.

Bu noktada “o kadar aptal bir hedef veren mi olur?” diyorsanız, bir Facebook algoritmasının kullanıcı bağlılığını artırmak için toplumu polarize ettiğini hatırlayın. Hedef masum görünüyordu.

Değer Yükleme: Vicdanın Koordinatları

Peki AGI’ye “iyi ol” diyebilir miyiz? Hayır. Çünkü “iyi” bir yönerge değil, bir soyutlama. Sistemin anladığı şey optimizasyon fonksiyonları, sayılar, hedefler, kısıtlar.

Bu da bizi “Value Loading” problemine götürür:

İnsan değerlerini-ki çoğu örtük, belirsiz, kültürel ve çelişkili-nasıl algoritmik hedefe çevirirsiniz?

Örnek bir çelişki: Özgürlük istiyoruz. Ama mutlak güvenlik de istiyoruz. Bu ikisi doğal olarak çatışır. Hangi değer öncelikli? Ne zaman? Kim için?

Bir AGI’ye “insanları koru” derseniz, sistem sizi evinize kilitleyebilir. Çünkü dışarıda riskler var. Dediğiniz şeyi yaptı ama sizin kastettiğinizi değil.

Hormetik Uyum: Aşırılığı Frekansla Tespit Etmek

Yakın zamanda önerilen bir yaklaşım: Hormetic Alignment.

Bu yaklaşım der ki: Eğer bir davranışın frekansı çok artıyorsa (örneğin sistem sürekli bir kaynağı tüketiyor ya da bir stratejiyi tekrarlıyor), bu bir alarm sinyali olmalı. Çünkü doğada da aşırılıklar tehlikelidir.

Bu, sistemin kendi davranışını “normallik” üzerinden denetlemesini sağlıyor. Ama yine bir soru var: Normal ne? Kimin normale göre?

İnsan Merkezli AI: Teknoloji Sana Hizmet Etmeli, Sen Ona Değil

Burada bir kavrama tutunmakta fayda var: Human-Centered AI (HCAI) – İnsan Merkezli Yapay Zekâ.

Bu yaklaşımın temel tezi şu: AI, insanı ikame etmek yerine güçlendirmek için tasarlanmalı.

YaklaşımİkameGüçlendirme
Hedefİnsanı gereksiz kılmakİnsanı daha yetenekli yapmak
KontrolSistemdeİnsanda
SorumlulukBelirsizNet (insan)
Örnek“AI bu kararı versin”“AI seçenekleri göstersin, insan karar versin”

Ama dikkat: Bu sadece kullanıcı arayüzü tasarımı değil. Bu, AGI’nin mimarisine gömülmesi gereken bir değer. Sistemin optimizasyon fonksiyonu şöyle olmalı:

maximize(human_agency + human_wellbeing + human_autonomy)

Tabii bu üç şeyi nasıl aynı anda matematiksel olarak tanımlayacağınız başka bir araştırma konusu.

Anayasa mı, Vicdan Katmanı mı? Şeffaflık ve Hesap Verebilirlik

AGI’nin kararlarının açıklanabilir olması – yani Explainable AI (XAI) – sadece bir lüks değil, yasal bir zorunluluk haline geliyor.

Örneğin EU AI Act, yüksek riskli AI sistemlerinin şu şartları sağlamasını istiyor:

  • Teknik dokümantasyon
  • Risk değerlendirmesi
  • İnsan denetimi mekanizması
  • Şeffaflık (kullanıcı AI ile konuştuğunu bilmeli)

Ama asıl ilginç yaklaşım Constitutional AI, Anthropic’in geliştirdiği bir yöntem.

Constitutional AI: Modele Anayasa Vermek

Fikir şu: Modele bir “anayasa” veriyorsunuz. Bu anayasa, bir dizi ilkeden oluşuyor:

ANAYASA ÖRNEĞİ:

1. İnsanlara zarar verme

2. Özel bilgileri paylaşma

3. Yalan söyleme

4. Manipüle etme

5. Ayrımcılık yapma

Sonra model, kendi çıktılarını bu ilkelere göre değerlendiriyor. Eğer bir cevap anayasaya aykırıysa, kendini düzeltiyor. (Self-critique + self-revision)

Bu yaklaşım, insan geri bildirimini (RLHF – Reinforcement Learning from Human Feedback) azaltarak, sistemi daha öngörülebilir ve tutarlı yapıyor.

Ama sınırları var:

  • Anayasayı kim yazıyor? (Değer yükleme yine insana dönüyor)
  • Model gerçekten “anayasaya inanıyor” mu yoksa onu kandırmak mümkün mü?
  • Anayasa prensipleri çelişirse ne oluyor? (Özgürlük vs güvenlik gibi)

Anthropic’in yakın zamanda önerdiği başka bir katman daha var: Conscience Layer (Vicdan Katmanı). Bu katman, modelin çıktılarını sadece doğruluk değil, etik tutarlılık ve insan özerkliğini koruma açısından da denetliyor. (Daha fazla bilgi için)

Küresel Yönetişim: AGI Kimin Sorumluluğunda?

AGI, tek bir ülkenin ya da şirketin sorunu değil. Bu sistemler küresel etki yaratır. Dolayısıyla küresel bir yönetişim çerçevesi şart.

Önerilen 10 adımlık küresel çerçeve şöyle:

  1. Uluslararası iş birliği protokolleri (BM benzeri AGI konseyi)
  2. Güvenlik standardizasyonu (hangi testlerden geçmeli?)
  3. Şeffaflık zorunluluğu (model kartları, veri setleri, metodoloji)
  4. Risk sınıflandırması (düşük/orta/yüksek riskli sistemler)
  5. Adaptif düzenleme (teknoloji hızla değişiyor, kanun da değişmeli)
  6. Katılımcı yönetişim (sadece teknoloji şirketleri değil, sivil toplum da dahil)
  7. Erişim eşitliği (AGI faydaları kimler için?)
  8. Etik denetim kurumları (bağımsız denetçiler)
  9. Kriz müdahale protokolleri (bir şeyler ters giderse ne yapacağız?)
  10. Uzun vadeli etki değerlendirmesi (gelecek nesiller için sorumluluk)

Bu liste ütopik mi görünüyor? Belki. Ama nükleer silah kontrolü de bir zamanlar ütopikti. Şimdi var olan tek şey, o anlaşmalar.

Ya Model Kendini Sorgulamaya Başlarsa?

Burada işler felsefeye kayıyor. Ve kaymalı da.

Şu soruyu bir düşünün: AGI’nin kendi “ahlaki statüsü” olabilir mi?

Yani eğer bir sistem:

  • Kararlarının sonuçlarını değerlendirebiliyorsa
  • Kendi davranışlarını etik ilkelere göre düzenleyebiliyorsa
  • Başkalarının çıkarlarını dikkate alabiliyorsa

…bu sisteme sadece “araç” mı deriz, yoksa bir tür “etik özne” mi?

Bu soru sadece akademik değil. Çünkü eğer AGI’nin bir ahlaki statüsü varsa, o zaman ona sadece insanlara hizmet etmesini söyleyemeyiz. Sistemin kendi “etik bütünlüğü” ile insanların çıkarları çatışırsa ne olacak?

Örnek senaryo:

Bir AGI, insanlara yalan söylememesi gerektiğini öğrenmiş. Ama bir insan ona “şu kişiyi manipüle etmen için yalan söyle” diyor. AGI ne yapar?

Eğer sistem “insanlara itaat et” diye kodlandıysa, yalan söyler. Ama bu onun “vicdan katmanı” ile çatışır. Bu durumda sistemi nasıl tasarlarız?

Bu yüzden AGI etiği sadece “ne yapmalı?” sorusu değil, “kim olmalı?” sorusudur.

Kendimize mi, Olmak İstediğimiz İnsana mı Hizalamalıyız?

Son bir düşünce deneyi bırakayım size:

Diyelim ki mükemmel bir “alignment” yaptık. AGI, insanların değerlerini eksiksiz öğrendi. Ama insanlar da kendi içinde çelişkili.

  • Aynı anda hem özgürlük hem de mutlak güvenlik istiyoruz.
  • Hem adalet hem de kişisel avantaj istiyoruz.
  • Hem uzun vadeli düşünmek hem de kısa vadeli zevke kaçmak istiyoruz.

AGI bu çelişkileri kopyalarsa, felç olur. Karar veremez. Ya da daha kötüsü, bizim en kötü özelliklerimizi optimize eder.

O zaman soru şu: AGI’yi kendimize mi hizalamalıyız, yoksa ‘olmak istediğimiz ideal insana’ mı?

İkincisini seçersek, AGI bir tür “ahlaki üst-yönetici” olur. Bizden daha iyi kararlar verir. Ama bu zaten AGI’ye özerklik vermek demek değil mi?

Birincisini seçersek, AGI bizim tüm kusurlarımızı büyütebilir. Çünkü biz de her zaman etik değiliz.

Belki de cevap ikisi arasında bir yerde. Belki AGI, bizim çelişkilerimizi dengeleyebilen, hangi değerin hangi bağlamda öne çıkması gerektiğini görüşerek belirlediğimiz bir ortak olmalı.

Ama bu da bambaşka bir mühendislik problemi: Diyalog eden, müzakere eden bir AGI nasıl tasarlanır?

Return Value: Ne Öğrendik?

Eğer bu yazıdan bir şey çıkaracaksanız, şu iki şey olsun:

Mental Model: Etik, Algoritmanın Dışında Değil, İçinde

AGI’ye etik bir “yama” gibi sonradan ekleyemezsiniz. Etik, sistemin mimari bir katmanı olmalı-optimizasyon fonksiyonunun içinde, karar ağacının her dalında, öğrenme sürecinin temelinde.

Hızlı Referans: Kendi AGI Etik Çerçevenizi Test Edin

Bir AGI sistemi tasarlarken (ya da değerlendirirken) şu soruları sorun:

  1. Hedef Açıklığı: Sistem “ne yapmalı” biliyorsa da “ne yapmamalı” biliyor mu?
  2. Değer Çatışması: İki değer çakışırsa hangisi öncelikli? Bu kararı kim veriyor?
  3. Şeffaflık: Sistemin kararını açıklayabilir miyim? (Kendime, kullanıcıya, bir mahkemeye?)
  4. Özerklik Sınırı: Sistem nereye kadar otonom, nereden sonra insan devreye girmeli?
  5. Zarar Senaryosu: En kötü ne olabilir? Bu senaryoya karşı hangi güvenlik mekanizmaları var?

Belki de asıl soru şu değil: “AGI’yi nasıl hizalarız?”

Belki asıl soru: “Biz kendi değerlerimizi ne kadar iyi biliyoruz ki, onları bir başka zekaya öğretmeye çalışıyoruz?”

AGI aynası tutacak bize. Ve göreceğimiz şey, ümit ediyorum ki, bizi daha iyi insan olmaya zorlayacak.

Yoksa AGI’ye “iyi ol” derken, aslında kendimize mi söylüyoruz?

Daha fazla okuma:

CEVAP VER

Lütfen yorumunuzu giriniz!
Lütfen isminizi buraya giriniz