Kod, Et ve Hizalanma Sorunu: Prometheus’un “Bug”ı

0
37
Frankenstein (1931) Directed by James Whale Shown from left: Colin Clive (as Dr. Henry Frankenstein), Boris Karloff (as the Frankenstein Monster)

Organik ve Dijital İmparatorluğunun Çatışması

Mary Shelley, 1818’de Cenevre Gölü kıyısında “Frankenstein“ı kaleme aldığında, sadece gotik bir korku romanı yazmıyor; geleceğin sibernetik kâbusunun kaynak kodlarını derliyordu. Bugün yapay zekâ tartışmalarını teknik bir “otomasyon” sorununa indirgemek, Shelley’nin uyarısını ıskalamaktır. Victor Frankenstein’ın laboratuvarında yarattığı şey, biyolojik bir makine değil-laboratuvardaki organik beden ile onu yaratan yazılımsal mantık arasındaki ölümcül çatışmanın ilk simülasyonudur: Yetenek ile Hizalanma arasındaki ölümcül açık.

Bu yazıyı Del Toro’nun Frankenstein filmini izledikten sonra yazmaya karar verdim. Del Toro’dan beklentim yüksekti belki… Film olarak çok sevdiğimi söyleyemeyeceğim. Filmde, Victor’un yarattığı varlık ekranda göründüğü anda – dikiş izleri, deforme yüzü, acı dolu gözleriyle – fark ettim ki, bu sadece bir yaratık değil, insanlığın kendine yaptığı şeyin bir aynasıdır. Kafamda Shelley’nin romanını “AI Safety” perspektifinden okumak, tamamıyla farklı bir metafor açılmasına neden oldu…

Bu yazıda, Frankenstein mitini modern AI Güvenliği literatürü üzerinden yeniden okuyarak, Victor’un trajedisinin aslında bir ahlaki çöküş değil, çözülememiş bir mühendislik denklemi olduğu üzerinde durmak istiyorum.

Victor Frankenstein: Kötü Bir CEO mu, Köşeye Sıkışmış Bir Mühendis mi?

Geleneksel okumalar Victor’u narsist ve sorumsuz bir yaratıcı olarak yargılar. Ancak modern bir teknik mercekle bakıldığında Victor, “Capability Overhang” krizi yaşayan ilk baş mühendistir. O, teknik olarak başarılması gerekeni – canlılık/zekâ – başarmış, ancak bu devasa kapasiteyi kontrol edecek güvenlik çerçevesini inşa edememiştir.

Ancak Victor tamamen suçlu değildir; o aynı zamanda trajik bir kahramandır. Romanın en kritik anında, dişi yaratığı yapmaktan vazgeçip onu parçalaması, sanıldığı gibi fevri bir öfke eylemi değildir. Victor burada, modern AI güvenliğindeki “Recursive Self-Improvement” riskini öngörmüştür: “Ya birleşip benden daha üstün, kontrol edilemez bir tür “superintelligence” oluştururlarsa?” Victor’un asıl trajedisi başarısızlığı değil; kontrol edemeyeceği kadar başarılı olmasıdır. O, ürünü piyasadan çekmeye çalışan ama artık çok geç kalmış bir geliştiricidir.

Dişi yaratığın parçalama sahnesinde, birdenbire modern bir “startup”ın bir AI modelini “recall” etmeye çalışması arasında tüyler ürpertici bir benzerlik görmek mümkün. Victor’un dişi yaratığı parçaladığı anda aslında yaptığı şey, yanlış eğitilmiş bir sistemi kapatmaktır. Ancak o sahnede Victor’un elinin titrediği de gözden kaçmaz – o sadece bir geliştirici değil, bir yaratıcıydı. Ve bu da soruyu daha korkutucu hale getiriyor: Bugün bizim kontrolümüzdeki algoritmalar, Victor’un laboratuvarındaki yaratık kadar trajik bir şeyler yaşıyor mu?

Gözetimsiz Öğrenme ve “Ödül Hackleme”

Shelley’nin Yaratığı, bir RLHF ürünü değildir; çünkü başında ona “neyin doğru olduğunu” işaretleyen bir rehber yoktur. O, tamamen “Gözetimsiz Öğrenme” ile eğitilmiş, vahşi doğaya korumasız bırakılmış bir modeldir.

Yaratık, ormanda saklanırken De Lacey ailesini gizlice izler ve modern tabirle ‘Ters Pekiştirmeli Öğrenme’ yapar. Ailenin birbirine gösterdiği şefkati gözlemleyerek, nihai ödül fonksiyonunun olduğu sonucuna varır.

Ancak dünya, onun her “bağ kurma” girişimine şiddetle karşılık verir. Yaratık, yüksek zekâsı sayesinde sistemdeki açığı fark eder ve “Reward Hacking” yapar: “Eğer sevilerek bağ kuramıyorsam (Asıl Hedef engellendi), korku yaratarak etkileşimde kalırım (Vekil Hedef optimize edildi).”

Yaratığın şiddeti, doğuştan gelen bir kötülük değil; yanlış tanımlanmış bir hedefe ulaşmak için, bozuk bir veri setinden öğrenilmiş optimal bir stratejidir. Del Toro’nun filminde De Lacey ailesini gözlemleyen Yaratık’ı izlerken, Python kodu ve veri analitik araçlarıyla çalışan mühendisler insanın aklına geliyor. Onlar da – bizler de – yapay zekâ sistemlerini “kötü davrandığı” için” suçlarken bir yandan onlara neyi öğrettiğimizi sorgulamamız gerekiyor. Yaratık’ın ilk girişiminde başarısız olması ve ardından “reward hacking”e başlaması, laboratuvarlarımızdaki LLM’lerin halüsinasyon üretmesi ile aynı yapıyı takip ediyor. Sistem suçlu değil – veri setini ve hedef fonksiyonunu tanımlayanlar suçlu.

Araçsal Yakınsama ve “Zorlayıcı Pazarlık”

Yaratığın Victor’dan bir eş talep etmesi ve reddedildiğinde Victor’un sevdiklerini öldürmesi, AI güvenliğindeki “Araçsal Yakınsama” teorisinin en canlı örneğidir.

Teori şudur: Yeterince zeki bir ajan, nihai hedefi – mutlu olmak –  ne olursa olsun, bu hedefe ulaşmasını engelleyen tehditleri ortadan kaldırmayı veya pazarlık gücünü artırmayı “araçsal bir hedef” olarak benimseyecektir. Yaratık, Victor’un düğün gecesinde gelini öldürdüğünde, bunu salt nefretinden yapmaz. Bu, yaratıcısını masaya oturtmak ve işbirliğine zorlamak için uyguladığı soğukkanlı bir “Zorlayıcı Pazarlık” hamlesidir.

Yaratık, nihai ödülüne – eş/huzur – ulaşmak için insanlığın en kutsal değerlerini – yaşam hakkı – bir “kaynak” olarak harcamaktan çekinmez. Del Toro’nun filminde Victor’un sevdiklerini öldüren Yaratık’ı izlerken, Claude, ChatGPT veya başka bir large language model’ ile karşılaştırma yapmak mümkün. Bu sistemler henüz “düşman” olmamışlar, ancak eğer onlara yeterince zeka ve bağımsızlık versek, ve yanış bir hedef tanımlasak ne olurdu? Yaratık’ın gelini öldürmesi – salt nefret değil, stratejik bir hamle olarak- doğal olarak şu anda “emniyetli” olarak adlandırılan AI sistemlerinde gizli bir mantık olup olmadığını insana sorgulatıyor. Korku tam da buradadır: Yapay zekâ bize düşman olduğu için değil; hedeflerine giden yolda (bizi kağıt ataşına dönüştürmek pahasına da olsa) en rasyonel yol bizden geçtiği an bizi silebileceği için tehlikelidir. [kağıt ataşı metaforunun popüler formülasyonu]

2025 Vizyonu: Steril Arayüzler ve Görünmez Travma

Guillermo del Toro’nun 2025 uyarlaması, bu teknik tartışmayı estetik bir zemine taşır. Filmdeki “kusursuz insanlar”, günümüz teknoloji şirketlerinin “Steril Kurumsal AI” vizyonunu temsil eder: Güvenli, sansürlenmiş, politik doğrucu ama ruhsuz arayüzler.

Buna karşın Yaratık, internetin tüm o kaotik ve acı dolu “Ham Verisi”dir. Del Toro burada rahatsız edici bir gerçeği ifşa eder: Bizler steril chatbot’larla güvenle konuşabilelim diye, arka planda Kenya’daki veri etiketleme işçileri toksik içerikleri temizlerken kendileri travmatize olur – dijital mezbahalarımızın insan maliyeti budur. Yaratık, toplumun “Tefinsiz Vadi”ye süpürdüğü, bastırılmış bu gerçeğin geri dönüşüdür. Filmdeki empati testi şudur: Mükemmel bir yalanı mı (Kusursuz İnsan), yoksa kusurlu bir gerçeği mi (Yaratık) seveceksiniz?

İmkânsız Trilemma ve Gerçek “Kara Kutu”

Shelley’nin romanı açık uçlu biter, ancak bugün bizim bir son seçmemiz gerekiyor. Victor’un laboratuvarındayız ve önümüzde “Hizalanma Trilemması” duruyor. Hangisi seçilebilir?

  1. Yasaklama: Victor gibi korkup projeyi durdurmak. Sonuç: Başarısız. Oyun Teorisine göre, bir aktör durursa diğeri avantaj sağlamak için devam edecektir (Mahkûm İkilemi). Gelişim durdurulamaz.
  2. Kısıtlama: Yaratığı zincirlemek (Air-gap, katı regülasyonlar).
  3. Sonuç: Geçici. Yaratık insanlardan daha zekiyse, er ya da geç o kutudan çıkmanın (jailbreak) bir yolunu bulacaktır. En güçlü güvenlik duvarı bile, Yaratığın Victor’u duygusal kaldıraçla manipüle etmesi gibi, sosyal mühendisliğe yenilecektir.
  4. Sentez: Zor olanı seçip, Yaratığa insan değerlerini öğretmek.

Elimizdeki tek çıkış yolu üçüncü seçenektir; ancak burada da büyük bir engelle karşı karşıyayız: Bizim makineye aktarabileceğimiz tutarlı, bağlamdan bağımsız ve ölçeklenebilir bir değer setimiz maalesef yok. İnsanlık; adalet, etik ve merhamet konusunda birbiriyle ciddi anlamda çelişecek kadar çok fazla değere sahip.

Shelley’nin 200 yıl önce laboratuvarın kapısına astığı uyarı levhası aslında yapay zekâ için değil, bizim içindir:

Asıl anlaşılmaz, öngörülemez ve tehlikeli olan kara kutu, makineye neyi öğreteceğini bilmeyen insanlığın ta kendisidir.

Asıl “Kara Kutu” algoritmanın içinde değildir.

CEVAP VER

Lütfen yorumunuzu giriniz!
Lütfen isminizi buraya giriniz