PROMPT ENGINEERING NEDİR?

Mayıs 2020'de OpenAI, GPT-3'ü tanıttığında kimse "prompt engineering" diye bir uzmanlık alanından bahsetmiyordu. Modelle konuşmak için doğal dilde yazmak yeterliydi — ama kısa sürede fark edildi ki aynı soruyu farklı biçimde sormak, tamamen farklı kalitede yanıtlar üretiyordu. İşte bu fark, 2020-2022 arasında yeni bir pratiğin doğmasına yol açtı: girdiyi mühendislik gibi tasarlama disiplini.
1. Prompt Engineering'in Tanımı
Prompt engineering, büyük dil modellerinden (LLM) istenen çıktıyı elde etmek için girdi metnini sistematik biçimde tasarlama ve iyileştirme pratiğidir. Bir programlama dilinden farkı, talimatların doğal dilde verilmesi; ortak yanı ise sonucun girdinin yapısına aşırı duyarlı olmasıdır.
Aynı modele "Fransa'nın başkenti nedir?" diye sormakla "Coğrafya öğretmeni gibi davran ve Fransa'nın başkentini bir cümleyle açıkla" demek arasındaki fark, sadece üslup değil; doğruluk oranını da değiştirebilir. Bu duyarlılığın ölçülüp belgelenmesi, alanın ortaya çıkış nedenidir.
2. GPT-3 Öncesi: Fine-tuning Çağı
2018'de BERT, 2019'da GPT-2 yayımlandığında dil modellerini bir göreve uyarlamanın standart yolu fine-tuning idi: etiketli veri toplar, modeli o veriyle yeniden eğitirdiniz. Bu yöntem hem pahalıydı hem de her görev için ayrı bir model anlamına geliyordu.
GPT-3'ün getirdiği kırılma şuydu: 175 milyar parametreli model, hiç ek eğitim almadan sadece prompt içinde verilen örneklerle yeni görevleri öğrenebiliyordu. Bu yeteneğe "in-context learning" denildi ve fine-tuning'in tek yol olmadığını gösterdi.

3. Few-Shot Prompting'in Doğuşu
Mayıs 2020'de yayımlanan "Language Models are Few-Shot Learners" makalesi, alanın kurucu metni sayılabilir. Brown ve arkadaşları, prompt içine 1-2 örnek koymanın (one-shot, few-shot) modelin başarımını dramatik biçimde artırdığını ölçtü.
Few-shot pratiği şu şekilde yapılandırıldı:
- Zero-shot: Sadece görev tanımı verilir, örnek yoktur.
- One-shot: Görev tanımı + tek bir örnek.
- Few-shot: Görev tanımı + birkaç örnek (genellikle 3-10).
- Örnek seçimi: Hangi örneklerin seçildiği, sıraları, formatları sonucu doğrudan etkiler.
2020-2021 boyunca araştırmacılar, "demonstration" denen bu örneklerin sayısı, çeşitliliği ve sırasıyla deneyler yaptı. Aynı problem için 4 örnekle %60, 8 örnekle %78 başarı gibi farklar gözlendi. Tekniklerin pratik kullanımına dair ayrıntılı kılavuzu incelemek, örnek seçimi ve format kararlarında işe yarayan kalıpları görmeyi kolaylaştırır.
4. Chain-of-Thought: 2022'nin Kırılması
Ocak 2022'de Google Research'ten Wei ve ekibinin yayımladığı "Chain-of-Thought Prompting" makalesi, alanı ikinci kez sarstı. Tek bir gözlem: modelden cevabı doğrudan vermesini istemek yerine "adım adım düşün" demek, matematik ve mantık problemlerinde başarımı katlıyordu.
Klasik prompt: "23 elma + 17 portakal = ? Cevap:" → model sıklıkla yanlış sayı veriyordu.
Chain-of-thought prompt: "Adım adım düşünelim. Önce elmaları sayalım: 23. Sonra portakalları: 17. Toplam = 23 + 17 = 40. Cevap: 40."
Bu kalıpla GSM8K matematik probleminde başarım %18'den %57'ye sıçradı. Sonrasında "zero-shot CoT" (Kojima ve ark., 2022) ortaya çıktı: sadece "Let's think step by step" cümlesini eklemek bile büyük bir fark yaratıyordu.
5. Tekniklerin Yelpazesi
2022 sonuna gelindiğinde prompt engineering, izole numaralardan oluşan bir koleksiyon değil; ölçülebilir teknikler bütünüydü:
- Role prompting: Modele bir rol atama ("Sen bir hukuk danışmanısın...").
- Self-consistency: Aynı soruyu birkaç kez sorup en sık çıkan cevabı seçme.
- Tree-of-thoughts: Modelin birden çok düşünce dalını paralel keşfetmesi.
- ReAct: Düşünme ve dış araç çağırmayı iç içe yürütme.
- Output formatting: JSON, XML veya tablo formatında çıktı isteme.
Bu tekniklerin akademik makalelerle belgelenmesi, alanın "tüyo paylaşımı"ndan "metodoloji"ye geçişini hızlandırdı.

6. Neden "Engineering" Adı?
Eleştirenler, doğal dilde yazmanın mühendislik olarak adlandırılmasını abartılı bulur. Ancak isim, pratiğin üç özelliğinden geliyor: tekrarlanabilirlik, ölçülebilirlik ve iyileştirilebilirlik. Bir prompt yazılır, çıktıları bir test setiyle değerlendirilir, yeniden yazılır — yazılım geliştirme döngüsüne çok benzer.
Özellikle üretim ortamında çalışan LLM uygulamalarında prompt'lar versiyonlanır, A/B test edilir, değerlendirme metrikleriyle izlenir. Bu da pratiğin neden mühendislik olarak konumlandığını açıklıyor.
7. Günümüzde Durum
2024-2026 döneminde modeller talimat takibinde büyük ilerleme kaydetti; basit görevler için artık ayrıntılı prompt mühendisliği gerekmiyor. Ancak ajanlar, çoklu adımlı iş akışları ve özel domain uygulamalarında prompt tasarımı hâlâ kritik bir beceri. Pratiği derinleştirmek için prompt engineering eğitimi içeriğinden yararlanabilirsiniz.
Few-shot ve chain-of-thought, alanın temel taşları olarak kalmaya devam ediyor. Onları icat eden makaleler bugün hâlâ yeni tekniklerin referans noktası — çünkü dil modelleriyle çalışmanın yapısal mantığını ilk kez bu çalışmalar adlandırdı.
Prompt engineering bir saplantı değil, bir okuryazarlık biçimi haline geldi. Modeli nasıl konuşturacağınızı bilmek, ondan ne alacağınızı belirliyor — tıpkı 2020'de GPT-3 ile keşfedildiği gibi.
Sıkça Sorulan Sorular
Prompt engineering ne zaman ortaya çıktı?
Pratik olarak Mayıs 2020'de GPT-3'ün tanıtımıyla birlikte doğdu. OpenAI'nin yayımladığı 'Language Models are Few-Shot Learners' makalesi, modele verilen girdinin yapısının sonucu dramatik biçimde değiştirdiğini gösterdi. 2020-2022 arasında akademik makaleler ve topluluk paylaşımlarıyla disipline dönüştü.
Few-shot prompting nedir?
Prompt içine görev tanımıyla birlikte birkaç çözülmüş örnek koyarak modelin deseni kavramasını sağlama tekniğidir. Hiç örnek verilmemesi zero-shot, tek örnek one-shot, birden fazla örnek few-shot olarak adlandırılır. GPT-3 makalesi, örnek sayısı arttıkça başarımın belirgin biçimde yükseldiğini belgelendi.
Chain-of-thought prompting nasıl çalışır?
Modele cevabı doğrudan istemek yerine, çözüm sürecini adım adım yazmasını isteyerek akıl yürütme zincirini açığa çıkarma tekniğidir. Ocak 2022'de Wei ve ekibi tarafından tanımlandı. Matematik, mantık ve çok adımlı problemlerde başarımı bazı durumlarda iki-üç kat artırdığı ölçüldü.
Prompt engineering bir mühendislik dalı sayılır mı?
Tartışmalı bir isim olmakla birlikte pratik üç mühendislik özelliği taşır: tekrarlanabilirlik, ölçülebilirlik ve iyileştirilebilirlik. Üretim ortamında prompt'lar versiyonlanır, test setleriyle değerlendirilir, A/B testleriyle karşılaştırılır. Bu döngü, yazılım geliştirmeyle yapısal benzerlik gösterir.
GPT-3'ten önce dil modellerini özelleştirmek için ne yapılıyordu?
Standart yol fine-tuning'di: göreve özgü etiketli veri toplanır, model bu veriyle yeniden eğitilirdi. Bu yöntem pahalı, yavaş ve her görev için ayrı model gerektiriyordu. GPT-3'ün gösterdiği in-context learning, prompt içinde verilen örneklerle aynı modelin farklı görevleri yapabildiğini ortaya koydu.
Zero-shot CoT nedir?
2022'de Kojima ve ekibi, modele örnek vermeden sadece 'Let's think step by step' ('adım adım düşünelim') cümlesini eklemenin bile akıl yürütme problemlerinde başarımı belirgin biçimde artırdığını gösterdi. Bu, chain-of-thought'un örneksiz biçimidir ve prompt mühendisliğinin en bilinen kalıplarından biri haline geldi.
Modeller geliştikçe prompt engineering önemini kaybediyor mu?
Basit görevler için ihtiyaç azaldı; modern modeller doğrudan talimatları daha iyi takip ediyor. Ancak ajanlar, çoklu adımlı iş akışları, özel alan uygulamaları ve maliyet optimizasyonu gibi senaryolarda prompt tasarımı hâlâ belirleyici. Beceri ölmedi, uygulama alanı kaydı.
Role prompting nedir ve neden işe yarar?
Modele bir kimlik atayarak ('Sen bir veri bilimcisin...') yanıtın tonunu, terminolojisini ve odağını yönlendirme tekniğidir. Eğitim verisinde belirli rollerle ilişkilendirilmiş örüntüler bulunduğu için model, atanan role uygun bir kayıt seçer. Tutarlı çıktı için basit ama etkili bir kalıptır.


