Kullanım Kılavuzu

Sistem, kısaltmalar, kavramlar ve sayfa rehberleri

1. Sistem Hakkında

Sistemi Geliştirenler ve Eşlikçiler

Sistem, Prof. Dr. Şükrü Halûk AKALIN önderliğinde Doç. Dr. B. Tahir TAHİROĞLU ve Öğr. Gör. Sinan YALÇINKAYA'dan oluşan dilbilim araştırma ekibi tarafından geliştirilmiştir.

Yapay zekâ destekli geliştirme ve analiz: Kod geliştirme, optimizasyon, tanım taslağı hazırlama, anlam keşfi yorumlama ve dokümantasyon aşamalarında yapay zekâ destekli geliştirme oturumlarından yararlanılır. Bu çıktılar doğrudan sözlük hükmü değildir; sözlükbilimsel karar ve son onay uzman editör denetimindedir.

Teknik altyapı: Python (Flask), SQLite, Turkish BERT tabanlı anlamsal vektörleştirme, HDBSCAN kümeleme, yerel CPU worker havuzu, sıcak önbellekler, Tailwind CSS ve Chart.js. Çalışmalar akademik amaçlıdır.

GTS Anlamsal Analiz Sistemi, Türkçe sözlükbilimcilerin ve araştırmacıların kullanımı için tasarlanmış kapsamlı, derlem destekli bir dilbilimsel analiz platformudur. Sistem iki temel veri kaynağını bir araya getirir:

GTS — Gelişmiş Türkçe Sözlük

madde, anlam, örnek cümle, atasözü içeren sözlük veritabanı. Gelişmiş Türkçe sözlük projesi kapsamında geliştirilen temel sözlük veritabanıdır.

Derlem (T-BDLD) — Türkçe Bağlama Duyarlı Lematizasyon Derlemi

Yaklaşık token (sözcük) ve eşsiz lemma içeren büyük ölçekli Türkçe metin derlemi. Her sözcüğün bağlamına göre lematize edilmiş halini içerir.

Derlem sürekli güncellenip büyütüldüğü için bu sayılar anlık değişebilir.

GTS, Türkçenin yaşayan haritasını çıkarmak için sözlük bilgisini gerçek kullanım bağlamlarıyla birlikte okur. Sistem bu iki kaynağı karşılaştırarak yeni sözcük adayları, yeni anlam keşifleri, türetim aileleri, ek üretkenliği ve bağlamlaşma örüntüleri gibi zengin çıktılar üretir.

⚙️

Derlem Sürekli Güncellenir; Analiz Manuel ve İzlenebilir Çalışır

Derlem (T-BDLD) Türkçe Bağlama Duyarlı Lematizasyon Derlemi sabit bir kaynak değildir; yeni metinlerle sürekli zenginleştirilir ve büyütülür. Bu sayede sistemin ürettiği yeni sözcük adayları, anlam keşifleri ve türetim aileleri de zamanla güncellenir ve genişler.

Derlem yükleme, temizleme ve ekleme işlemleri yönetim arayüzünde izlenir; ana üretim analizi otomatik tetiklenmez. Yönetici hazır olduğunda analizi manuel başlatır. Bu süreçte ana sayfanın üst kısmında canlı bir güncelleme çubuğu ve analiz adımları görünür hale gelir:

  • Derlem (T-BDLD) yerel CPU worker havuzuyla okunuyor…
  • Tek sözcüklü adaylar hazırlanıyor…
  • Çok sözcüklü adaylar hesaplanıyor…
  • Çok sözcüklü yüzey biçimleri toplanıyor…
  • Bağlamlaşma indeksi hesaplanıyor…
  • Morfolojik aileler oluşturuluyor (bu adım özellikle uzun sürer)
  • Binary önbellek ve alan/metin türü dağılımları güncelleniyor…
  • Sonuçlar derleniyor…

⏳ Bu aşamada kullanıcının analiz tamamlanana kadar bir süre beklemesi gerekir (derlem boyutuna göre birkaç dakika ile yarım saat arasında sürebilir). Analiz bittiğinde tüm sayfalar otomatik olarak yeni sonuçları göstermeye başlar.

Not: Özellikle morfolojik ailelerin işlenmesi birkaç dakikadan fazla zaman alabilir; çünkü yüz binlerce biçim üzerinde kök çıkarma, türetim zinciri kurma, ek üretkenlik hesaplama ve sahte türetim tespiti adımları yapılır. Hızlandırma aktif sunucunun yerel CPU worker havuzuyla yapılır.

2. Kısaltmalar Sözlüğü

Sistemde sıkça karşılaşacağınız kısaltmalar ve anlamları:

GTS Gelişmiş Türkçe Sözlük

Sistemdeki temel sözlük veritabanı.

T-BDLD Derlem (T-BDLD) Türkçe Bağlama Duyarlı Lematizasyon Derlemi

Sürekli büyüyen, bağlam duyarlı lematize edilmiş çağdaş Türkçe kullanım derlemi.

Bağlamlaşma İndeksi

0–100 arası, bir sözcüğün derlemdeki bağlam zenginliğini ölçen puan.

PMI Pointwise Mutual Information

Karşılıklı Bilgi. İki sözcüğün birlikte görülme eğilimini ölçer.

NPMI Normalized Pointwise Mutual Information

Normalleştirilmiş Noktasal Karşılıklı Bilgi. -1 ile +1 arası ölçeklendirilmiş PMI.

PPMI Positive PMI

Pozitif PMI. Beklenenden zayıf birliktelikler sıfıra çekilir; ayırt edici sözcük-tür ilişkileri için kullanılır.

LogDice Logaritmik Dice Katsayısı

Sıklık farkına dayanıklı bir bağlaşıklık ölçütü. Teorik üst sınır 14.

TF-IDF Term Frequency × Inverse Document Frequency

Bir sözcüğün ilgili bağlamda güçlü, genel derlemde ise ayırt edici olup olmadığını ölçen ağırlıklandırma.

YS Yeni Sözcük Adayı

Derlemde geçen ancak GTS'te bulunmayan, sözlüğe eklenmesi değerlendirilebilecek sözcük.

POS Part of Speech / Söz Türü

Sözcüğün türü: ad (isim), fiil, sıfat, zarf, bağlaç, zamir vb.

BERT Bidirectional Encoder Representations from Transformers

Anlamsal benzerlik için kullanılan dil modeli (Türkçe BERT).

HDBSCAN Hierarchical Density-Based Spatial Clustering

Yeni anlam keşfinde kullanılan yoğunluk tabanlı kümeleme algoritması.

Worker Yerel CPU Worker Havuzu

Derlem okuma, aday toplama, bağlam ve önbellek hazırlama gibi ağır işleri sunucu işlemcilerine paylaştıran paralel yürütme katmanı.

Cache Önbellek

Sık kullanılan analiz sonuçlarının yeniden hesaplanmadan hızlı açılması için saklanan ara veri.

Öbekleşme Öbekleşme Oranı

Tek sözcüğün çok sözcüklü öbeklerde geçiş yoğunluğu (%0-100).

Yapım Eki Türetim Eki

Yeni sözcük türeten ek (-lık, -cı, -lı, -sız, -sal, -laş vb.).

Çekim Eki Çekim Eki

Sözcüğe dilbilgisel rol kazandıran ek (-lar, -ı, -de, -den, -mış).

Fiil Çatısı Ettirgen/Edilgen/Dönüşlü/İşteş

Fiil üzerindeki çatı ekleri: -tır (ettirgen), -ıl (edilgen), -ın (dönüşlü), -iş (işteş).

3. Sayfalar ve Kullanımları

📖

Her Sayfanın Kendi Kılavuzu Var

Aşağıda listelenen tüm sayfaların üst kısmında "📖 Bu Sayfa Nedir? — Kılavuz" başlıklı açılır kılavuz paneli bulunur. Tıklayarak açabilir, o sayfanın amacı, ne işe yaradığı, özel terimleri ve kullanım ipuçları hakkında hızlı bilgi alabilirsiniz. Bu genel kılavuz tüm sistemi kapsarken, sayfa içi kılavuzlar o sayfaya özeldir.

Ana Sayfa /

Sistemin giriş sayfası. GTS'nin ana fikri burada özetlenir: Türkçenin yaşayan haritası; sözlük, derlem ve bağlam tek yerde. Üst kısımda Genel Arama, Morfoloji, Alan/Tür Dağılımları, Dizin ve Raporlar gibi ana bölümlere geçiş düğmeleri; alt kısımda ise 4 ana liste sekmesi ve 17 çözümleyici araç bulunur.

  • GTS, Derlem (T-BDLD) ve yeni sözcük adaylarını birlikte tarayan birleşik arama önerileri
  • Yeni sözcük adaylarının canlı listesi ve keşif istatistikleri
  • Atasözleri, deyimler ve birleşik fiiller için T-BDLD yaygınlık kartları ve kümülatif grafikler
  • Benzer anlam arama, analoji, anlamsal alan, 3D harita, ağ grafiği
  • Anlam evrimi, çok anlamlılık, mecaz, entropi, bağlam dinamikleri

⬇️ Ana sayfa sekmeleri ve çözümleyici araçların ayrıntılı açıklaması için bu bölüme bakın.

Genel Arama /search

Tek bir arama kutusundan altı kaynakta birlikte arama:

  1. Eşleşen Maddeler: GTS'de madde başı olarak bulunan sözcükler
  2. Eşleşen Anlamlar: GTS anlam/tanım metinlerinde geçen sözcükler
  3. Derlem (T-BDLD): Derlemde lemma veya çekimli biçim olarak geçen tüm sözcükler; bağlam gösterilmez, yalnız lemma + çekimli biçimler + sıklıklar listelenir
  4. Yeni Sözcükler: Derlemden çıkarılmış aday sözcükler
  5. Yeni Anlamlar: Keşfedilen anlam uzantıları
  6. Raporlar: Anahtar sözcük eşleşmeli rapor sayfaları

Not: Derlem (T-BDLD) Sözlüğü (sözlükbilimsel tanımlı maddeler) yönetim konsolu oturumundan erişilir; genel aramaya dahil değildir.

Türkçe karakterler otomatik normalize edilir (çğıöşü → cgiosu).

Sonuç yoksa: Aranan sözcük GTS'te madde başı biçiminde tanımlı değilse, sistem yeni sözcük adayları arasında en yakın eşleşmeyi arar ve adayın sözlüğe alınma kararı bekleyip beklemediğini gösterir. Madde sayfalarındaki sıklık kartları Derlem (T-BDLD) yaygınlığı ve alan/metin türü dağılımı verisiyle desteklenir.

Derlem sekmesi: Aradığınız sözcük kalemler gibi çekimli bir biçimse, bağlı olduğu lemma (kalem) altında listelenir ve çekimli rozetiyle gösterilir. Her kayıtta sözcüğün GTS'te olup olmadığı GTS veya Yeni rozetiyle işaretlenir.

Metinden Sözlüğe /metinden-sozluge

Metinden Sözlüğe, kısa bir cümle ya da metin parçası içindeki sözcükleri lemma düzeyinde çözümler ve metnin küçük sözlüğünü üretir. Sayfada yalnız metin giriş alanı vardır; dosya yükleme kullanılmaz.

  • Giriş sınırı: En az bir sözcük girilmelidir; çok büyük metinler için karakter, token ve benzersiz madde sınırları uygulanır.
  • Lemmatizasyon: Sistem önce Derlem (T-BDLD) yüzey biçim → lemma dağılımını kullanır; belirsiz biçimlerde bağlam ve yazım/aksan önceliklendirmesi uygular, bulunamayan biçimlerde morfoloji ipuçlarına başvurur.
  • GTS eşleştirme: Çekimli biçimler madde başına bağlanır; örneğin metindeki çekimli biçim, mümkünse sözlükteki lemma maddesi altında gösterilir.
  • Çok sözcüklü maddeler: Metindeki iki-beş sözcüklü diziler GTS'te madde olarak varsa ayrıca yakalanır.
  • Yeni sözcük işareti: GTS'te bulunmayan ama aktif yeni sözcük adayları arasında yer alan tekli ya da çok sözcüklü biçimler “Yeni sözcük adayı” olarak işaretlenir.
  • Eşleşmeyenler: Sözlükte ve yeni sözcük adaylarında bulunmayan biçimler ayrı listelenir; bu liste yazım, özel ad, yabancı ad veya henüz adaylaşmamış biçim kontrolü için kullanılır.

Bu sayfa kitap ölçeğinde metin işlemek için değil, kısa metinleri hızlıca sözlükleştirmek için tasarlanmıştır. Büyük derlem ekleme ve tam analiz işlemleri yönetim konsolu akışlarında yapılır.

Sözlük Dizini /dizin

GTS veritabanının kapsamlı genel bakışı:

  • Toplam madde, anlam, örnek, yazar, atasözü sayıları
  • En çok anlamlı 10 madde (çok anlamlılık sıralaması)
  • Harf dağılımı grafiği (tıklanabilir)
  • Söz türü, alan ve dil kökeni dağılımları
  • Her harfe tıklayarak alfabetik gözatma
Derlem Alan/Tür Dağılımı /derlem-tur-dagilimi

Derlem (T-BDLD) Türkçe Bağlama Duyarlı Lematizasyon Derlemi'nin bağlamsal alan ve metin türü analizleri (Bilim · Sanat · Teknoloji · Din · Siyaset · Ekonomi · Roman · Şiir · vd.). Sayfa 7 sekmeden oluşur:

  • Özet ve Kılavuz: Yöntem ve özet sayılar.
  • Alan/Tür İstatistikleri: Her alan/türe ait ağırlık, hapax ve ayırt edicilik puanı yüksek sözcükler.
  • Sözcük Arama: Bir sözcüğün hangi alan/türlerde, hangi güven düzeyinde geçtiği.
  • Alan/Tür Kesişimi: Alanlar/türler arasındaki sözcük örtüşmesi.
  • Ek Bulgular: Hapax, türsüz sözcükler, uzun kuyruk.
  • Bulgular ve Yorum: Sayıların sözlükbilimsel okuması.
  • 📏 Cümle Benzerliği (geometrik / TF-IDF kosinüs): tam tekrar oranı, medyan cümle uzunluğu, tür-token oranı (TTR), örneklem üzerinden cümle çiftlerinde ortalama / medyan / 90. ve 99. yüzdelik kosinüs benzerlikleri. "Çok benzer / orta benzer / az benzer" yakın komşu dağılımı derlemin tekrar/şablonik içerik düzeyini açığa çıkarır.
Alan/tür yöntemi: Tohum sözlük biçimleri tam lemma eşleşmesi, güvenli ASCII eşleşmesi ve çok sözcüklü tohumlarla değerlendirilir. TF-IDF benzeri ağırlık, PPMI, birlikte geçiş sayısı, baskınlık ve güven kapıları birlikte kullanılır; bu yüzden "bir, ve, olmak" gibi genel sözcükler yüksek geçişe rağmen güvenli alan/tür etiketi almaz.
Cümle Benzerlik nasıl yorumlanır? Düşük ortalama kosinüs + düşük "çok benzer" oranı = derlem çeşitli ve sağlıklı. Yüksek "çok benzer" oranı (≥%5) yakın tekrar / şablonik içerik / web teaser tekrarı işareti olabilir. BERT/anlam vektörü kullanılmaz; saf TF-IDF + kosinüs ile hızlı hesaplanır. İlk hesaplama ~30-60 sn, sonuç 1 saat önbelleklenir.
Yeni Anlam Keşifleri /new-meanings

T-BDLD derlemi ile GTS karşılaştırılarak iki tür bulgu üretilir:

  • Yeni anlam adayları: GTS'te madde başı var ama derlemde yeni bağlamda kullanılıyor (ör. dil → programlama dili, şok → ekonomik sarsıntı).
  • Yeni terim/madde adayları: GTS'te hiç geçmeyen, derlemde yerleşmiş sözcükler (ör. dezenflasyon, algoritma, yapay zekâ).
  • Dışlanan denemeler: İlk taramada üretilen ama GTS'de zaten olduğu için veya kanıt yetersizliği nedeniyle listeye alınmayan kayıtlar (yöntem şeffaflığı için gösterilir).

Her kart için: önerilen tanım taslağı, GTS'deki mevcut anlamlar, derlem kanıtı (kanıt geçişi, kanıt cümlesi), tetikleyici sözcükler, eşdizimler, örnek cümleler ve alan/tür çözümlemesindeki yeri gösterilir. Tanımlar kalıp ifade olarak değil, modern sözlükbilim ölçütlerine uygun anlam açıklamaları olarak hazırlanır; son karar editöre aittir.

Güven düzeyleri: yüksek orta düşük yetersiz
Karar türleri: doğrudan alınmalı sözlükçü onayıyla izlenmeli dışla: kanıt yetersiz
⚠️ Yanlış pozitif olabilir. Bu sayfadaki tüm kayıtlar otomatik aday envanteridir. Bir sözcüğün listede olması, GTS'e kesin gireceği anlamına gelmez. Özellikle orta ve düşük güven kayıtları — eşdizim örüntüsüne göre üretildiği için — yanlış bağlam, yanlış anlam genişletmesi veya GTS'de zaten var olan bir anlamın tekrarı olabilir. Sözlüğe kabul için uzman sözlükçü denetimi zorunludur. Yalnızca doğrudan_alınmalı kararlı ve yüksek güven düzeyindeki kayıtlar görece güvenli; diğerleri sadece aday niteliğindedir.
Derlem-GTS Karşılaştırma /gts-varolanlar

Derlemde geçen ve GTS'te de bulunan sözcüklerin kullanım analizi. Her sözcük için iki sütun:

  • Sol (GTS): sözcüğün sözlükteki anlamı, özellik etiketleri
  • Sağ (Derlem): derlemdeki sıklığı, yüzey biçimleri, bağlamlaşma

Söz türüne göre filtreleme, sıklığa ya da bağlamlaşma indeksine göre sıralama yapılabilir.

Morfolojik Aile ve Türetim Ağı /morfoloji

Sözcük türetim ağaçları, yapım eki üretkenliği ve çekim eki dağılımı. Beş sekme:

  1. Aile Arama: Bir sözcüğü girince tüm akraba sözcükleri ağaç yapısıyla gösterir (göz → gözlü → gözlük → gözlükçü). Kaynak filtresi ile (Tümü / Yalnız GTS / Yalnız Yeni Sözcükler / Yalnız Derlem) üye ayrımı yapılabilir.
  2. Yapım Ek Üretkenliği: Her yapım (türetim) ekinin kaç farklı köke bağlandığı; "-lık, -cı, -lı" gibi eklerin verimliliği.
  3. Çekim Ekleri: Çekim eklerinin kategoriye göre (Ad Durum Ekleri, İyelik, Kişi, Çoğul, Zaman, Kip, Fiilimsi, Diğer) dağılımı. Her kategori için toplam kullanım, farklı sözcük sayısı, ek biçimleri ve örnek sözcükler sunulur. Üstte grafik (tümünde pasta, tek kategoride çubuk), ayrıca arama kutusu (etiket veya ek biçimi), kaynak filtresi ve kategori filtresi birlikte kullanılabilir.
  4. Morfolojik Komşuluk: Bir sözcüğün bir türetim adımı uzağındaki akrabaları (ebeveyn, kardeş, türev). Kaynak filtresi ile üye grubu seçilebilir. Ayrıca aranan sözcüğün çekim eki dökümü (hangi çekim eklerini ne sıklıkta aldığı) altta panele eklenir.
  5. Sorunlu Türetimler: Hayalet kök veya ünlü uyumu ihlali içeren sahte türetim adayları.

Yapım vs. Çekim: Yapım ekleri yeni sözcük üretir (-lık, -cı, -lı); çekim ekleri dilbilgisel rol belirler (-lar, -ı, -de, -dı, -mış). Sistem bu iki grubu ayrı ayrı analiz eder.

Kaynak filtreleri (Aile, Komşuluk, Çekim Ekleri sekmelerinde):
GTS GTS sözlükte madde olan lemmalar
Yeni Sözcük YS adayı işareti taşıyan lemmalar
Yalnız Derlem ikisine de girmeyen (henüz sınıflandırılmamış) derlem lemmaları

Derlem (T-BDLD) — Bağlamsal Alan ve Metin Türü Dağılımları /derlem-tur-dagilimi

Derlemdeki her sözcüğün hangi bağlamsal alan ya da metin türüne ne ölçüde yakın durduğunu gösterir. Sözcük başına birincil alan/tür, güven düzeyi, alan/tür entropisi ve alan/türlere göre baskınlık / PPMI / puan üçlüsü sunulur.

16 alan/tür: Bilim, Sanat, Teknoloji, Din, Siyaset, Ekonomi, Hukuk, Eğitim, Sağlık, Spor, Tarih, Coğrafya/Doğa, Felsefe, Roman, Öykü, Şiir.

Beş sekme:

  1. Özet ve Kılavuz: Genel istatistikler (toplam cümle, TTR, ortalama cümle uzunluğu, cümle uzunluğu yüzdelikleri), özel ad süzgeci raporu ve yöntem açıklaması.
  2. Alan/Tür İstatistikleri: 16 alan/türün kart görünümü. Karta tıklanınca o alan/türün tohum sözcükleri, güven düzeyi dağılımı ve ayırt edicilik puanı yüksek 500 sözcüğü listelenir (arama + sayfalama).
  3. Sözcük Arama: 204.084 sözcük arasında arama; alan/tür filtresi, güven düzeyi filtresi ve sıralama seçenekleri. Sözcüğe tıklanınca tüm alan/türlerdeki skorlar çubuk grafikle gösterilir.
  4. Alan/Tür Kesişimi: Aynı cümlede birden fazla alan/türün tohum sözcüklerinin geçtiği durumların 16×16 ısı haritası + sıralı tablo. Eşik ayarlanabilir.
  5. Ek Bulgular: En sık sözlük biçimleri, en uzun biçimler, tek alan/türe en güçlü bağlanan sözcükler, alanlar/türler arası dağınık sözcükler (entropisi yüksek) ve en sık alan/tür birleşimleri.

Önemli sınırlılık: Alan/tür etiketleri sözlüğün ontolojik sınıfı değil, derlemdeki bağlamsal kullanım alanı ya da metin türüdür. Örn. "mektup" hukuk bağlamında sık geçse bile ontolojik olarak bir hukuk sözcüğü değildir. Veri yorumlanırken bu bağlamsallık göz önünde tutulmalıdır.

Özel ad süzgeci: Yaklaşık 2,7 milyon geçiş (ham sözcük geçişinin ~%15'i) büyük harfli ve kısaltma olarak görüldüğü için bu analizden dışlanmıştır. Bu sayede alan/türler, özel adların kirliliği olmadan ortak sözcüklere göre hesaplanır.

Yöntem güncellemesi: Tohum biçimler tam lemma, güvenli ASCII karşılığı ve çok sözcüklü eşleşmelerle aranır. TF-IDF benzeri ağırlık, PPMI, birlikte geçiş sayısı, baskınlık ve güven kapıları birlikte değerlendirilir. Arama sonuçlarındaki derlem yaygınlık kartları da aynı güncel alan/metin türü dağılımı verisini kullanır.

Derlem (T-BDLD) Sözlüğü (yönetim konsolu — geliştirme aşamasında)
Erişim: Bu sözlük yönetim konsolu oturumundan erişilir. Tanımlar yapay zekâ destekli sözlükbilimsel taslak olarak üretildiği için geliştirme-iyileştirme aşamasındadır; editörler sayfada her maddeye not ekleyebilir, notlarla birlikte sözlüğün tamamını JSON olarak dışarı aktarabilir.

Derlem (T-BDLD) Türkçe Bağlama Duyarlı Lematizasyon Derlemi üzerinde GTS'ten bağımsız, sözlükbilimsel ilkelere göre hazırlanmış araştırma sözlüğüdür. Derlem bağlamlarından çıkarılır; çekimli yüzey biçimler ayrı madde yapılmaz.

İki bölüm:

  • Tanımlı Maddeler: Yeterli sözlükbilimsel güven oluşmuş, sözlük tanımı verilmiş lemmalar.
  • Aday Lemmalar: Madde başı biçimi sözlük lemması için güvenli görülmeyen veya çekimli/yabancı/parçalı biçim olasılığı olan kayıtlar (tanım verilmez, kanıt kümesi olarak tutulur).

Sayfa yapısı:

  1. Genel İstatistikler paneli: toplam benzersiz biçim, tanımlı/aday oranı, üretim tarihi ve taslak üretim bilgisi.
  2. Dağılım kartları: tanım güveni (yüksek/orta/düşük), tanım türü, söz türü, alan.
  3. Filtreler: arama + söz türü + alan + tanım güveni + sıklık bandı + sıralama.
  4. Tanımlı Maddeler listesi: satıra tıklayınca detay + editör notu girişi açılır.
  5. JSON Dışarı Aktar: üst köşedeki buton — tüm tanımlar + adaylar + editör notları birleşik bir JSON dosyasına indirilir.

Tanımlı madde detayında verilen bilgiler:

  • Tanımlar: anlam no, tanım metni, tanım biçimi, tanım türü, tanım güveni ve üretim bilgisi.
  • Örnek cümleler: güvenlik filtresinden geçmiş nötr sözlük örnekleri.
  • Sıklık: toplam geçiş, cümle sıklığı, göreli (milyonda) oran, sıklık bandı.
  • Alan/Tür: birincil alan/tür, alan/tür durumu (tek alan/tür/baskın/karışık/genel), güven düzeyi, alan/tür entropisi, skor tablosu.
  • Eşdizimler: sol/sağ bağlamdaki en sık komşular (pill formatı).
  • Editör Notu: madde için serbest metin not. Kaydedildiğinde kullanıcı adı ve tarih otomatik eklenir; satırda 📝 Notlu rozetiyle görünür.
Sözlükbilimsel ilkeler: Tanımlar "derlemde geçiyor / bağlamda" gibi yöntem ifadeleri içermez; kalıp ifade değil, anlamı açıklayan modern sözlük tanımı olarak kurulur. Üretim bilgisi tanım cümlesinde değil ayrı alanda verilir. Yeterli güven yoksa sahte tanım üretilmez; aday olarak ayrılır. Özel adlar bu sözlüğe dahil değildir. Örnekler kişi/kurum/ideoloji bakımından süzülür.
Tanım güveni dağılımı: Yüksek, orta ve düşük güven düzeyleri ayrı izlenir. Düşük güvenli tanımlar öncelikli olarak editör notuyla düzeltme önerisine açılmalıdır.
Sınırlılık: Tanımlar otomatik üretim. Bu sözlük bir araştırma kaynağıdır; TDK'nın normatif sözlüğünün yerine geçmez, onun betimleyici karşılaştırma kaynağıdır. Tanımlar iyileştikçe notlu export ile sürüm hâline getirilmesi planlanmaktadır.
Teknik not: Tanımlı maddeler sayfa açılışında arka planda yüklenir; aday lemma havuzu gerektiğinde çağrılır. Editör notları atomik biçimde saklanır ve dışa aktarımda tanım verisiyle birlikte verilir.
Raporlar /reports

Derlem (T-BDLD) ile GTS karşılaştırmasını iki güncel raporda özetler: Yeni Sözcükler Raporu ve Yeni Anlam Keşifleri Raporu.

  • Yeni sözcük adaylarının söz türü, tek/çok sözcüklü yapı, alan, sıklık, anlamlılık ve bağlamlaşma dağılımları.
  • Yeni anlam ve yeni terim adaylarının kategori, güven düzeyi, karar türü ve kanıt geçişi dağılımları.
  • “Bulgular Ne Anlama Geliyor?” bölümleri: grafiklerdeki oranların nasıl yorumlanacağını güncel veriye göre açıklar.
  • Kural tabanlı içgörüler: derlem yeniden analiz edildiğinde aday sayıları, baskın alanlar ve yorum metinleri de yenilenir.
GTS Editör İşlemleri /yeni-eklenenler

Tüm editörlük değişiklik günlüğü: eklemeler, düzenlemeler, silmeler, kabul/ret işlemleri. Kategori filtreli.

4. Temel Kavramlar

Lemma (Lema) — Sözcüğün Sözlük Biçimi

Lemma (Türkçede "lema" olarak da geçer), bir sözcüğün farklı çekim ve türetim biçimlerini temsil eden sözlük biçimi, yani madde başıdır. Örneğin kitabın, kitaplar, kitaplık, kitaba gibi biçimlerin hepsi "kitap" lemmasıyla; geldim, gelirim, gelecek, gelenler, gelemezdik gibi biçimlerin hepsi "gelmek" lemmasıyla temsil edilir.

Lemma ile Yüzey Biçimi Arasındaki Fark

  • Yüzey biçimi (token): Metinde aynen geçen söz biçimi (ör. kitabımdan).
  • Lemma (lema): Bu biçimin sözlükteki madde başı karşılığı (ör. kitap).
  • Kök: Türetim ekleri de çıkarılmış en küçük anlamlı birim (ör. gözlük → kök: göz).

Lemma, kökten farklı olarak türetim eklerini korur; yalnızca çekim eklerini atar. Sözlükbilim açısından asıl birim lemmadır.

Lematizasyon — Sözcüğü Sözlük Biçimine Dönüştürme

Lematizasyon (lemmatization), bir metindeki her söz biçiminin sözlük biçimine (lemmasına) indirgenmesi işlemidir. Örneğin "Kitaplarımı aldım ve okudum" cümlesi lematize edildiğinde "kitap almak ve okumak" biçimine dönüşür. Bu işlem, çekim eklerinin atılması, düzensiz biçimlerin çözülmesi ve sözcüklerin temel biçimde birleştirilmesi anlamına gelir.

Lematizasyon vs. Gövdeleme (Stemming)

Lematizasyon, dilbilimsel bilgi kullanarak doğru sözlük biçimini üretir. Gövdeleme ise kural tabanlı kesmedir ve çoğu zaman gerçek bir sözcük üretmez ("kitaplarımız" → gövdeleme: "kitapla"; lematizasyon: "kitap"). Lematizasyon, hem daha kesin hem de daha yavaştır.

Lematizasyonun Türkçe Açısından Önemi ve Zorluğu

Türkçe, eklemeli (sondan eklemeli) bir dildir. Bir sözcük kökü, üst üste eklenen çekim ve türetim ekleriyle onlarca, bazen yüzlerce farklı biçime bürünebilir. İngilizce gibi az çekimli dillerde lematizasyon görece basittir (cats → cat, running → run); ancak Türkçe, lematizasyonu zorlu ve kritik kılan bazı özelliklere sahiptir:

Türkçe'de Zorluk Kaynakları

  • Biçimbirim yığılması: Tek sözcük 10+ ek alabilir (Avrupalılaştıramadıklarımızdanmışsınızcasına).
  • Ünlü uyumu ve ünlü/ünsüz değişmeleri: Ek biçimleri sesçil olarak değişir (-lar/-ler, -dan/-den, -da/-de/-ta/-te).
  • Ünsüz yumuşaması: kitap → kitabın, ağaç → ağacın.
  • Ünlü düşmesi: burun → burnu, oğul → oğlu.
  • Yabancı kökenli sözcükler: hukuk → hukuku (yumuşama yok), cevap → cevabı (yumuşama var) — düzensiz.
  • Birleşik fiiller ve yardımcı fiil yapıları: yardım etmek, karar vermek, kaybolmak — parçalar arasındaki ilişki bağlamsaldır.
  • Ayırt edilemez biçimler: gül sözcüğü hem ad (çiçek) hem fiil (gülmek) olabilir; yalnızca bağlam bunu belirler.

Neden Kritik Önem Taşır?

  • Derlemsel çalışmalarda temel birim: Sıklık sayımı, kolokasyon ve anlam analizi lemma düzeyinde yapılmalıdır.
  • Sözlük hazırlığında: Madde başları lemma biçiminde tutulur.
  • Makine çevirisi ve NLP: Doğru lemma, doğru karşılık üretimi demektir.
  • Anlam analizi: BERT gibi modellerin bile lematizasyonla birlikte kullanımı daha tutarlı sonuçlar üretir.
  • Arama motorlarında: "gelmek" araması geldim, geliyor, gelecek sonuçlarını getirmelidir.

T-BDLD'nin Rolü

Bu sistemde kullanılan Derlem (T-BDLD) Türkçe Bağlama Duyarlı Lematizasyon Derlemi, her sözcüğün bağlamına göre doğru lemmasının çözülmüş olduğu sürekli büyüyen bir veri kümesidir. "Bağlama duyarlılık", özellikle gül (çiçek/gülmek), kaz (hayvan/kazmak) gibi ikiz biçimlerin bağlamdan doğru ayrıştırılması anlamına gelir. Bu, Türkçe için en büyük lematizasyon güçlüklerinden birini çözer.

Lematizasyon Olmasaydı Neler Olurdu?

Lematizasyon yapılmadan yürütülen bir derlemsel çalışma, Türkçe gibi eklemeli bir dilde ciddi sorunlara yol açar:

1. Sıklık dağılımı bozulur. kitap, kitabı, kitaplar, kitaplık, kitaplarımız biçimleri ayrı sözcük gibi sayılır. Gerçekte 500 kez geçen "kitap" lemması, onlarca farklı biçim olarak 30–40'ar kez görünür; sözcük sıralaması yanıltıcı hale gelir.

2. Sözlük karşılaştırması çöker. GTS'de gelmek maddesi vardır; ancak derlemde geldim, geliyor, gelmişiz biçimleri geçer. Lematize edilmezse bu biçimler GTS'te bulunamaz ve yanlışlıkla "yeni sözcük" olarak işaretlenir.

3. Kolokasyon (sözcük birliktelikleri) tespit edilemez. "yardım etmek" ile "yardım ettim, yardım edecek, yardım etmişler" ayrı öbekler gibi görünür; PMI, NPMI gibi istatistikler yanılır.

4. Anlam analizi sapar. BERT tabanlı vektörleştirme bile lematizasyon yapılmadığında çekim eklerinin gürültüsünü öğrenir; benzer anlamlı sözcüklerin vektörleri uzaklaşır.

5. Yeni sözcük keşfi anlamsızlaşır. Lematize edilmemiş bir metinde teknolojikleştirebileceklerimizden biçimi "yeni bir sözcük" gibi görünür; oysa bu, teknolojik sıfatının çekimli biçimidir.

6. Arama ve erişilebilirlik bozulur. Kullanıcı "kitap" arar, ancak sistem yalnızca bu tam biçimi bulur; "kitabı, kitaplar, kitaplık" sonuçlarını geri getiremez.

7. Akademik çalışmalar güvenilirliğini yitirir. Söz varlığı ölçümleri, sıklık çalışmaları, leksikon tasarımı gibi tüm alanlar yanıltıcı veriler üretir.

Lematizasyon, eklemeli dillerde derlemsel ve sözlükbilimsel çalışmaların olmazsa olmaz ön koşuludur. Bu sistemin tüm analizleri (yeni sözcük keşfi, yeni anlam keşfi, kolokasyon analizi, kapsama oranı), T-BDLD'nin bağlam-duyarlı lematizasyon çıktısı üzerine temellendirilmiştir.

Yeni Sözcük — Sistem Tanımı

Sistemde yeni sözcük, temel olarak T-BDLD derleminde geçen fakat GTS veritabanında madde başı, madde içi birleşik, atasözü/deyim veya güvenli varyant biçimiyle karşılanmayan sözcük veya sözcük öbeğidir. Yani bu sözcükler derlemde tutarlı biçimde kullanılmakta, ancak Gelişmiş Türkçe Sözlük kapsamına alınıp alınmayacağı editör değerlendirmesi gerektirmektedir.

Yazım farkı notu: Bazı adaylar GTS'te bulunan bir sözcüğün standart dışı ya da farklı yazımı olabilir. Bu tür kayıtlar, editörün farkı açıkça görmesi için listede tutulabilir; satırda "Yazım farkı: GTS'teki biçim ..." bilgisi gösterilir. Örneğin pantalon listede kalır ama pantolon biçiminin GTS'te bulunduğu açıkça belirtilir. Bu işaret, adayın doğrudan yeni madde olduğu anlamına gelmez.

Belirleme Aşamaları

  1. Derlem taraması: T-BDLD satır satır okunur; her token için lemma, yüzey biçimi ve sıklık bilgisi çıkarılır. Tek sözcüklü ve çok sözcüklü adaylar ayrı havuzlarda toplanır.
  2. GTS karşılaştırması: Adaylar, GTS'deki tüm madde başları, birleşik sözcükler, atasözleri ve deyimlerle eşleştirilir. Eşleşenler elenir.
  3. Gürültü filtreleme: Özel adlar, kısaltmalar, yabancı sözcükler, çekimli kalıntılar, ek kırpıntıları ve gürültülü yapılar çok aşamalı filtrelerle ayıklanır.
  4. İstatistiksel değerlendirme: Çok sözcüklü adaylarda PMI, NPMI ve LogDice hesaplanır.
  5. Bağlamlaşma değerlendirmesi: Her aday için 0–100 arası bir Bağlamlaşma İndeksi üretilir.
  6. Yazım farkı ayrımı: GTS'deki bir sözcüğün farklı yazılışı olan adaylar "yazım farkı" olarak işaretlenir; gerektiğinde listede kalır ama GTS'teki karşılık biçim satırda açıkça gösterilir.

Yeni Sözcük Kategorileri

  • Tek sözcüklü adaylar: GTS'de bulunmayan bağımsız sözcükler (ör. edici, odaklı, metabolik).
  • Çok sözcüklü adaylar: GTS'de birleşik/öbek olarak yer almayan, istatistiksel olarak anlamlı sözcük grupları (ör. rahatsız edici, ultra işlenmiş gıda).
  • Yazım farkları: GTS'deki sözcüklerin bitişik/ayrı ya da ortografik farkla yazılmış biçimleri. Liste satırında GTS karşılığı gösterilir; örn. pantalonpantolon.

Yeni Sözcük Eşdizimlilikleri

Ana sayfadaki Yeni Sözcük Eşdizimlilikleri sekmesi, tek sözcüklü yeni sözcük adaylarının T-BDLD içinde hangi sözcüklerle anlamlı biçimde birlikte göründüğünü gösterir. Amaç yalnız "sık geçen komşuları" listelemek değil, sözcüğün sözlükleşme eğilimini gösteren kalıp kullanımları yakalamaktır.

  • En anlamlı eşdizimler: GTS'te çok sözcüklü birim olarak bulunan, yeni sözcük adaylarında çok sözcüklü yapı olarak görülen veya istatistiksel eşiği geçen birlikteliklerdir.
  • Henüz anlamsız eşdizimler: Sık görünen fakat sözlüksel birlik değeri henüz yeterince güçlü olmayan ham birlikteliklerdir; izleme ve editör denetimi için tutulur.
  • GTS bağlantısı: Eşdizim GTS'te varsa mavi GTS rozetiyle gösterilir ve tıklandığında ilgili GTS maddesine gider.
  • Alan/Tür rozetleri: Alan/Tür'e göre sıralamada, tüm alan rozetleri yüzde ve sayı ile azalan sırada görünür; rozete tıklayınca liste o alana süzülür.
  • Arama: Arama kutusu hem yeni sözcük adında hem de eşdizim ifadelerinde arar; alan filtresiyle birlikte çalışır.

Yeni Sözcük Tanımları Nasıl Verilir?

Yeni sözcük adaylarının tanımı, sözcüğün derlemdeki gerçek kullanımlarına dayanır. Sistem her aday için en temsil edici bağlam cümlelerini, çekimli biçimlerini, sıklık bilgisini, söz türünü, benzer kullanım örüntülerini ve GTS durumunu yapılandırılmış bir JSON paketi olarak hazırlar.

  1. Bağlam seçimi: Aday sözcüğün anlamını en iyi temsil eden cümleler çıkarılır; tekil, rastlantısal veya gürültülü örnekler mümkün olduğunca geriye düşürülür.
  2. Sözlükbilimsel yorum: YZ, yalnızca verilen bağlamlara bakarak özgün bir tanım üretir; dış sözlüklerden tanım kopyalanmaz.
  3. Yapılandırılmış çıktı: Madde başı, söz türü, anlam, örnekler, tanım taslağı üretim bilgisi ve Türkiye saatine göre zaman damgası birlikte verilir.
  4. Editör onayı: Editör tanımı gözden geçirir, gerekirse düzeltir ve onaylanan JSON verisini yönetim alanındaki tanım ekleme bölümüne aktarır.
  5. GTS'e işleme: Onaylanan madde başı, tanım ve örnekler GTS'e eklenir; aday sözcük yeni sözcük listelerinde eklenmiş olarak işaretlenir ve sonuçlar arama ile editör işlemlerine yansır.

Yönetim alanındaki yeni sözcük tanım ekleme sekmesi bu akışı arayüze taşır: aktif adaylar arasından ayarlanabilir sayıda sözcük çağrılır, her biri için temsil edici bağlamlar ve tanım taslağı hazırlanır, editör gerekli düzeltmeyi yapar ve uygun gördüklerini sözlüğe ekler. Eklenenler ve reddedilenler yeniden öneri listesine düşmez; GTS'te varyasyon kontrolü yapılır.

Yeni Sözcük ≠ Uydurma Sözcük

Buradaki "yeni" sözcüğü, sözcüğün yeni türetilmiş olduğunu değil, GTS tarafından henüz madde olarak karşılanmamış olduğunu ifade eder. Aday sözcük uzun zamandır dilde var olabilir; sistem yalnızca GTS kapsamına girip girmediğini tespit eder. Editör inceleme sonrasında uygun görülen adaylar GTS'e eklenir; diğerleri reddedilir. Tüm bu değerlendirme süreci Yönetim Konsolu üzerinden yürütülür.

🔗 Yeni Sözcük Geometrik Benzerliği (bağlam vektörü kosinüsü)

Yönetim Konsolu'ndaki Yeni Sözcük Denetim sekmesinde bir sözcük başlığına tıklandığında açılan panelde, ilgili adayla en benzer kullanılan diğer aday sözcükler rozet halinde listelenir.

Yöntem (BERT/anlam vektörü gerektirmez)

  1. Bağlam vektörü: Her aday için derlemde solunda/sağında geçen sözcüklerin sayım vektörü oluşturulur (en sık 200 komşu).
  2. L2 normalize: Her vektör birim uzunluğa indirgenir; sıklık farkı sonucu çarpıtmaz.
  3. Kosinüs benzerliği: Hedef vektör ile diğer adayların vektörleri arasında kosinüs hesaplanır; en yüksek K aday döndürülür.
  4. Filtre: En az 3 farklı komşusu olmayan adaylar atlanır (sinyal güvenilmez).

Pratikte: brendi tıklandığında viski, rakı, votka, konyak gibi aynı sintaktik konumlarda geçen adaylar üst sıralarda görünür. Rozet üzerinde gösterilen yüzde, kosinüs benzerlik oranıdır (%80 ≈ aynı bağlamda kullanım, %30 ≈ kısmi örtüşme).

Hesaplama hızlıdır (~10-50 ms her sorgu); ilk istek geldiğinde tüm aday lemaların vektörleri lazy olarak ~1-3 sn içinde indekslenir, sonraki sorgular anlıktır.

Bağlamlaşma İndeksi (Bİ) 0 – 100

Bir sözcüğün derlemdeki bağlam zenginliğini ölçen bileşik bir puandır. Şu üç bileşenden hesaplanır:

  • Komşu çeşitliliği: Sözcüğün yanında görünen farklı sözcüklerin sayısı
  • Dağılım dengesi (entropi): Komşuların kullanım dağılımının ne kadar dengeli olduğu
  • Kullanım desteği: Sözcüğün ilk ve son görüldüğü satır arasındaki yayılım

Sonuç üç banda ayrılır:

Dar (0–41): Sınırlı bağlam, belirli kalıplarda görünür Orta (42–65): Dengeli bağlam Geniş (66–100): Zengin bağlam ağı

Yüksek Bİ → sözcük çok çeşitli bağlamlarda kullanılıyor → sözlükleşmeye olgun bir aday.

PMI, NPMI, LogDice ve Cümle Sıklığı — Bağlaşıklık Ölçütleri

İki veya daha fazla sözcüğün rastgele mi yoksa kalıplaşmış mı birlikte kullanıldığını ölçerler. Çok sözcüklü öbek tespitinde ve yeni sözcük eşdizimliliklerinde kullanılır.

PMI (Pointwise Mutual Information — Karşılıklı Bilgi)

İki sözcüğün birlikte görülme olasılığının, bağımsız görülme olasılıklarının çarpımına oranının logaritmasıdır.

PMI = log₂( P(X,Y) / (P(X) · P(Y)) )

Yüksek PMI → kalıplaşmış öbek. Ortalama ≈ 17,67.

NPMI (Normalized Pointwise Mutual Information — Normalleştirilmiş Noktasal Karşılıklı Bilgi)

PMI'ın -1 ile +1 aralığına normalleştirilmiş biçimi. Farklı sıklıktaki eşdizimleri karşılaştırmayı ve yorumlamayı kolaylaştırır.

+1'e yakın → mükemmel bağlaşıklık. 0 → bağımsızlık. Ortalama ≈ 0,86.

LogDice (Logaritmik Dice Katsayısı)

Sıklık farkına dayanıklı bir ölçüt. Nadir ve sık sözcükleri daha adil karşılaştırır.

Teorik üst sınır 14. >10 → çok güçlü bağlaşıklık. Ortalama ≈ 6,58.

Cümle Sıklığı

Bir eşdizimin kaç farklı cümlede geçtiğini gösterir. Aynı metin parçasında çok tekrar eden bir kalıp ile farklı bağlamlarda yaşayan bir kalıbı ayırmaya yardım eder.

Yüksek cümle sıklığı → birliktelik tekil bir tekrar değil, derlem geneline yayılmış kullanım olabilir.

Yeni Sözcük Eşdizim Skoru Nasıl Okunur?

Sistem yeni sözcük eşdizimlerinde NPMI (Normalized Pointwise Mutual Information — Normalleştirilmiş Noktasal Karşılıklı Bilgi) + LogDice + cümle sıklığı bileşimini kullanır. NPMI birlikteliğin rastlantıdan ne kadar uzak olduğunu, LogDice birlikteliğin sıklığa karşı ne kadar dengeli olduğunu, cümle sıklığı ise bu birlikteliğin kaç farklı cümleye yayıldığını gösterir. GTS'te bulunan çok sözcüklü birimler doğrudan güçlü kanıt sayılır; GTS'te olmayanlar istatistiksel eşiklerden geçerse En anlamlı eşdizimler bölümüne alınır, aksi durumda Henüz anlamsız eşdizimler bölümünde izlenir.

Türetim Ailesi

Aynı kökten türeyen tüm sözcükleri bir arada gösteren morfolojik yapıdır. Örnek: gözgözlügözlükgözlükçügözlükçülük.

Her aile üyesi için üç durumdan biri belirlenir:

  • GTS — sözcük GTS sözlükte mevcut
  • YS — Yeni Sözcük Adayı (sadece derlemde, sözlükte yok)
  • D — Derlemde geçiyor ama aday listesinde değil

Ek Üretkenliği

Bir türetim ekinin kaç farklı köke eklenebildiğinin ölçüsü. "-lık" eki gibi çok üretken ekler binlerce sözcük türetirken "-daş" gibi daha az üretken ekler yüzlerle sınırlı kalır.

Bir ekin yalnızca derlemde gördüğümüz yeni köklere eklenmesi, o ekin hâlâ aktif bir türetim aracı olduğunu gösterir. Bu, dilin canlılığını ölçmenin yollarından biridir.

Öbekleşme (Phrase Formation)

Bir tek sözcüğün, derlemde diğer sözcüklerle birlikte kalıplaşmış öbekler oluşturma eğilimi. Örneğin "rahatsız" sözcüğü, derlemde "rahatsız edici", "rahatsız olmak" gibi çok sözcüklü biçimlerde sistematik olarak geçiyorsa bu sözcük yüksek öbekleşme gösteriyor demektir.

Nasıl Ölçülür?

Bir tek sözcüğün öbekleşme oranı şu formülle hesaplanır:

Öbekleşme Oranı = (o sözcüğü içeren öbeklerin toplam sıklığı) / (sözcüğün tek başına sıklığı)

Örnek: "edici" tek başına 823 kez geçiyor. İçinde bulunduğu "rahatsız edici" (45), "kurum edici" (23)... öbeklerinin toplamı 180 ise, öbekleşme oranı 180/823 ≈ %22.

Oran Bandları ve Renkler

Düşük %1–9: Az öbekleşmiş Orta %10–24: Belirgin öbekleşme Yüksek %25+: Güçlü öbekleşme

Ana Sayfadaki Kullanımı

Yeni Sözcükler listesinde öbekleşen sözcükler mor renkli ve altı çizili görünür. Yanında şu rozetler bulunur:

  • 🔗N — sözcüğün geçtiği öbek sayısı
  • Öbekleşme oranı: %N — bantlara göre renkli rozet

Sözcüğe tıklayınca altta aşağı doğru açılan panel belirir ve o sözcüğün geçtiği tüm öbekler chip olarak listelenir (her chip'te öbek sıklığı ve oranı görünür). Chip'e tıklayınca arama kutusuna o öbek yazılır ve filtre uygulanır. Sözcüğe tekrar tıklayınca panel kapanır.

Sıralama menüsünden "Öbekleşme oranına göre" seçilerek en çok öbekleşen tek sözcükler başa alınabilir — bu, kalıplaşan sözcük çekirdeklerini hızla bulmaya yarar.

Türkçe Ekler: Yapım vs. Çekim

Türkçe ekleri iki temel gruba ayrılır: yapım (türetim) ekleri yeni sözcük üretir; çekim ekleri sözcüğün dilbilgisel rolünü belirler. Sistem her iki ek grubunu etiketli derlemden ayrı ayrı algılayıp sınıflandırır.

Yapım Ekleri (Sözcük Türetir)

  • -lık, -lik, -luk, -lük (soyut ad): güzellik, iyilik, kitaplık
  • -cı, -ci, -cu, -cü (meslek): kapıcı, yolcu, simitçi
  • -lı, -li, -lu, -lü (sahiplik): akıllı, şekerli, tuzlu
  • -sız, -siz, -suz, -süz (yoksunluk): evsiz, susuz, akılsız
  • -daş, -taş (ortaklık): yoldaş, meslektaş, çağdaş
  • -sal, -sel (sıfat): bilimsel, tarımsal, eğitimsel
  • -laş, -leş (olma fiili): birleşmek, güzelleşmek
  • -ıcı, -ici, -ucu, -ücü (yapan): yazıcı, okuyucu, kurtarıcı
  • -gı, -gi, -gu, -gü (eylem adı): sevgi, çalgı, sorgu
  • -gın, -gin, -gun, -gün (durum): şaşkın, yorgun, dalgın

Çekim Ekleri (Dilbilgisel Rol)

  • Ad durumu: belirtme (-ı), tamlayan (-ın), yönelme (-e), bulunma (-de), çıkma (-den), vasıta (-le), eşitlik (-ce)
  • İyelik: -m, -n, -si, -mız, -nız, -ları
  • Çoğul: -lar, -ler
  • Zaman: -dı (görülen), -mış (duyulan), -ıyor (şimdiki), -ır (geniş), -acak (gelecek)
  • Kipler: şart (-sa), emir, istek (-e), gereklilik (-malı)
  • Fiilimsi: sıfat-fiil (-an/-acak/-dık), isim-fiil (-mak/-ma/-ış), ulaç (-arak/-ıp)
  • Olumsuzluk: -me, -ma
  • Soru eki: -mı, -mi, -mu, -mü
  • Ek eylem (kopula): -dır, -dir (bildirme)
  • İlgi -ki: evdeki, sabahki

Niçin Önemli?

  • Yeni sözcük keşfi: "-ıcı, -laş, -lık" gibi üretken eklerle türetilmiş yeni sözcükler tespit edilir.
  • Ek üretkenliği analizi: Hangi ekin kaç farklı köke bağlandığı ölçülür → aktif/ölü ek ayrımı.
  • Lematizasyon doğruluğu: Yapım eki kökle birleşip lemma olur; çekim eki atılır.
  • Sözlük düzenleme: Yapım ekiyle oluşmuş sözcükler madde başı olur; çekim eki almış biçimler değil.

Fiil Çatısı (Ettirgen, Edilgen, Dönüşlü, İşteş)

Fiil çatısı, bir fiilin öznesi ile nesnesi arasındaki ilişkiyi belirleyen ek kategorisidir. Türkçede dört temel çatı vardır ve hepsi fiil köküne eklenen özel eklerle oluşur. Sistem bu ekleri etiketli derlemden otomatik sınıflandırır.

Ettirgen (Causative)

-tır, -tir, -tur, -tür / -dır, -dir, -dur, -dür / -t — Birinin başkasına eylem yaptırdığını anlatır.

Örnek: yap-yaptır-mak; oku-okut-mak.

Edilgen (Passive)

-ıl, -il, -ul, -ül — Eylemin özne tarafından değil, başkası tarafından yapıldığını anlatır.

Örnek: yap-yapıl-mak; gör-görül-mek.

Dönüşlü (Reflexive)

-ın, -in, -un, -ün, -n — Eylemin öznenin kendisine yönelik yapıldığını anlatır. (Edilgen ile aynı ekler olabildiği için bağlam önemlidir.)

Örnek: yıka-yıkan-mak; giy-giyin-mek.

İşteş (Reciprocal)

-ış, -iş, -uş, -üş, -ş — Eylemin birden çok kişi arasında karşılıklı yapıldığını anlatır.

Örnek: gör-görüş-mek; döv-dövüş-mek.

Not: Bazı çatı ekleri bağlam gerektirir. Örneğin -ın hem edilgen (söylen-) hem dönüşlü (giyin-) olabilir. Sistem, ekin konumuna ve sonrasındaki çekim eklerine bakarak güvenli bir sınıflandırma yapar; belirsiz durumlarda "edilgen veya dönüşlü" olarak işaretler — yanlış etiketleme yapmaz.

Yazım Varyantları

Aynı sözcüğün farklı yazımlarını tespit etme. İki türü var:

  • Bitişik/Ayrı yazım: kurşun kalemkurşunkalem
  • Ortografik fark: rasgelerastgele, düzeltme imli ↔ düzeltme imsiz (hâlâhala)

Morfolojik Kapsama

Derlemdeki sözcüklerin ne kadarının mevcut morfolojik çözümleyici tarafından tanımlanabildiğini gösteren oran. Düşük kapsama (< %20) sistemin yeni ve türetilmiş sözcükleri yakalamada ek bir güçlendirme katmanına ihtiyaç duyduğunu gösterir. Morfolojik Aile modülü bu güçlendirme katmanının parçasıdır.

Alan/Tür Çözümlemesi Metrikleri (T-BDLD)

Derlem (T-BDLD) üzerinde her sözcüğün 16 bağlamsal alan/metin türüyle olan yakınlığı ölçülür. Kullanılan metrikler:

Baskınlık (Dominance)

0 ile 1 arası oran. Sözcüğün görüldüğü tüm cümleler içinde o alan/tür etiketi taşıyan cümlelerin payı.

baskınlık(s, t) = birlikte(s,t) / toplam_cümle(s)

Yüksek baskınlık → sözcük neredeyse yalnız o alan/türde geçiyor demektir.

PPMI (Pozitif Noktasal Karşılıklı Bilgi)

Sözcük ile alan/türün birlikte görülmesinin beklenenden ne kadar üstünde olduğu. Negatif değerler sıfıra indirilir.

PPMI(s, t) = max(0, log₂[ P(s,t) / (P(s)·P(t)) ])

Düşük baskınlıkta bile yüksek PPMI olabilir — nadir fakat ayırt edici sözcükler için önemlidir.

Puan

PPMI ile birlikte geçiş desteğinin birleşimi. Birincil alan/tür bu puana göre seçilir; baskınlık ayrıca güven kapısı olarak kullanılır.

puan(s, t) ≈ PPMI(s,t) · log(birlikte_cümle+1)

Hem ayırt edicilik hem yeterli kullanım desteği birlikte değerlendirilir.

Alan/Tür Entropisi

Sözcüğün alan/türlere dağılımının çeşitliliği. 0 = tek alan/türde toplanmış; log₂(16) ≈ 4 = tüm alan/türlere eşit dağılmış (çok genel sözcük).

H(s) = −Σ P(t|s) · log₂ P(t|s)

Düşük entropi = belirli bir alan/türe güçlü bağlanan sözcük (akciğer, eğitim, namaz); yüksek entropi = genel sözcük (bir, olmak, söylemek).

Güven Düzeyi

Birincil alan/tür atamasının ne kadar sağlam olduğu. Puan, baskınlık, alanlar/türler arası fark ve genel sözcük etkisi birlikte değerlendirilir:

  • yüksek Sözcük açıkça tek alan/türe bağlanmış, güvenilir alan/tür etiketi.
  • orta Alan/tür sinyali var ama ayırt edici değil; yorumla kullan.
  • düşük Sözcük birden fazla alan/türde benzer güçte; etiket sadece yaklaşık.

Tür Durumu

  • tek tür: Sözcük neredeyse yalnız bir türde güçlü sinyal verir (ör. akciğer → sağlık).
  • baskın: Bir tür açıkça öne çıkar, ancak başka türlerde de zayıf izler vardır.
  • karışık: Birden fazla türde güçlü sinyal bulunur (ör. eğitim hem eğitim hem siyaset).
  • genel: Hiçbir türe ayırt edici biçimde bağlanmaz (ör. bir, olmak, demek).

Uyarı: Tür etiketleri sözlüğün ontolojik türünü değil, derlemdeki bağlamsal yakınlığını yansıtır. "mektup" hukuk bağlamında sık geçebilir ama ontolojik olarak hukuk sözcüğü değildir. Metrikler bu bağlamsallığı ölçer; sonuçları yorumlarken sözlük maddesinin asıl anlam alanını göz ardı etmeyin.

Ana Sayfa Sekmeleri ve Araçları — Ne İşe Yararlar?

Ana sayfanın alt kısmında Yeni Sözcükler, Yeni Sözcük Eşdizimlilikleri, Atasözleri, Deyimler ve Birleşik Fiiller liste sekmeleri ile 17 çözümleyici araç bulunur. Liste sekmeleri GTS kayıtlarını ve T-BDLD yaygınlığını birlikte gösterir; çözümleyici araçlar ise BERT tabanlı sözcük vektörleri, kosinüs benzerliği, kümeleme ve derlem istatistiklerini kullanır.

🔭 1. Yeni Sözcükler

Derlemde bulunan ama GTS sözlüğünde yer almayan sözcük adaylarının listesi. Sistemin "ana üretim"idir.

  • Nasıl çalışır: Derlemdeki tüm sözcükler çıkarılır → GTS'teki maddelerle çakıştırılır → eşleşmeyenler aday olur → gürültü süzgeçleri (özel ad, yabancı kısaltma, çekim eki kırpıntısı) uygulanır → PMI/NPMI/LogDice + Bağlamlaşma İndeksi hesaplanır.
  • Hangi soruyu cevaplar: "Türkçede GTS'e eklenmesi gereken sözcükler hangileri?"
  • Çıktı: Her aday için sıklık, bağlamlaşma, anlamlılık skoru, söz türü ipucu, örnek cümleler.

2. Yeni Sözcük Eşdizimlilikleri

Yeni sözcük adaylarının T-BDLD içinde hangi kalıplarla birlikte yaşadığını gösterir.

  • Nasıl çalışır: Yeni sözcük adayı merkez alınır; 2-4 sözcüklü bitişik birliktelikler çıkarılır; NPMI (Normalized Pointwise Mutual Information — Normalleştirilmiş Noktasal Karşılıklı Bilgi), LogDice ve cümle sıklığı birlikte değerlendirilir.
  • GTS bağlantısı: Eşdizim GTS'te madde veya kalıp ifade olarak varsa mavi GTS rozetiyle gösterilir ve ilgili maddeye bağlanır.
  • Alan/Tür'e göre sıralama: Alan rozetleri yüzde ve sayı ile azalan sırada yan yana görünür; bir rozete tıklayınca yalnız o alanın eşdizim grupları listelenir.
  • Arama: Arama kutusu hem yeni sözcük adında hem de eşdizim ifadesinde arar.

3. Atasözleri, Deyimler ve Birleşik Fiiller

GTS'teki kalıplaşmış ifade kayıtlarını Derlem (T-BDLD) yaygınlığıyla birlikte gösterir.

  • Nasıl çalışır: Atasözü, deyim ve birleşik fiil kayıtları alfabetik olarak listelenir; baştaki ..., tırnak, noktalama veya parantez içi kullanım notları sıralamayı etkilemez.
  • Derlem bağlantısı: Her kayıt için T-BDLD geçiş sayısı, milyon sözcük başına oran ve yaygınlık bandı gösterilir.
  • Alan/Tür rozetleri: Alan/Tür'e göre sıralamada tüm alan rozetleri yüzde ve kayıt sayısıyla azalan sırada gösterilir; rozete tıklayınca liste o alana süzülür.
  • Atasözü/deyim alanı: Mecazlı kalıplarda yalnız kalıbın içindeki tekil sözcüklere bakılmaz; GTS tanımları da kullanılır. Coğrafya/Doğa gibi kolay yanıltan alanlar daha sıkı değerlendirilir.
  • Kümülatif grafik: Liste üstündeki grafik aktif sayfa veya arama sonucundaki kayıtları toplar; yakalanan kayıt sayısı, toplam geçiş, /M oranı, band dağılımı ve en sık birkaç kalıp ifade görünür.
  • Yorum sınırı: Liste düzeyinde hızlı doğrudan lemma/yüzey n-gram eşleşmeleri kullanılır. Çok uzun veya esnek kalıplarda ayrıntılı madde sayfasındaki ek taramalar ayrıca kanıt sağlayabilir.

🔍 4. Benzer Anlam

Bir sözcüğe BERT vektör uzayında en yakın anlamları bulur.

  • Nasıl çalışır: Sorgu sözcüğünün BERT vektörü → tüm GTS anlamlarının vektörleriyle kosinüs benzerliği → en yüksek skorlu ilk N anlam döner.
  • Hangi soruyu cevaplar: "Bu sözcüğün anlamsal akrabaları hangileri?"
  • Örnek: sevinç → mutluluk, neşe, heyecan, coşku… (her biri benzerlik skoruyla)

🌿 4. Analoji

Vektör aritmetiği ile analoji tamamlama: A → B ise, C → ?

  • Nasıl çalışır: Klasik B − A + C vektör işlemi → sonuca en yakın GTS anlamı bulunur (word2vec tarzı ama BERT vektörleriyle).
  • Hangi soruyu cevaplar: "Ankara → Türkiye ise, Paris → ?" veya "kral → kraliçe ise, erkek → ?"
  • Akademik değer: Modelin anlamsal düzenlemeyi ne kadar iyi öğrendiğinin kanıtı.

🌐 5. Anlamsal Alan

Bir tema ya da kavramsal alanın üyelerini çıkarır (semantic field).

  • Nasıl çalışır: Verilen birkaç "tohum" sözcükten yola çıkarak (örn. kedi, köpek, aslan) → vektör uzayında bu tohumlara ortalama yakınlık → aynı alanın diğer üyeleri (tilki, kurt, leopar…).
  • Hangi soruyu cevaplar: "Hayvan / renk / duygu / meslek alanının Türkçedeki sözcükleri nelerdir?"
  • Kullanım: Tematik sözlük hazırlama, kavramsal haritalama.

📦 6. 3D Harita

GTS anlamlarının 768 boyutlu BERT vektörlerini 3 boyuta indirip görselleştirir.

  • Nasıl çalışır: Vektörler PCA veya t-SNE ile 3B'ye indirilir → Three.js ile döndürülebilen, yakınlaştırılabilen interaktif harita.
  • Hangi soruyu cevaplar: "Sözlüğün anlam dağılımı genel olarak nasıl görünüyor? Hangi kümeler var?"
  • Kümeler: Her renk farklı bir k-means kümesini temsil eder; fare tıklamasıyla o noktanın hangi sözcük/anlam olduğu görünür.

🕸️ 7. Sözcük Ağı

Sözcükler arasındaki anlamsal ilişkileri graf olarak gösterir.

  • Nasıl çalışır: k-en yakın komşu (kNN) grafı — her sözcüğün en benzer k komşusu ona bağlanır. NetworkX + D3.js force-directed layout ile canlandırılır.
  • Hangi soruyu cevaplar: "Bu sözcüğün etrafındaki anlamsal komşuluk nasıl örülmüş?"
  • Yorum: Yoğun düğümler hub sözcüklerdir (çok bağlı); izole düğümler anlamsal yalnız sözcüklerdir.

📈 8. Anlam Evrimi

Bir sözcüğün zaman içinde kullanım bağlamının nasıl değiştiğini gösterir.

  • Nasıl çalışır: Sözcüğün derlem geçişleri dönemlere ayrılır → her dönem için eşdizim vektörü → dönemler arası kosinüs farkları ile "evrim eğrisi".
  • Hangi soruyu cevaplar: "Virüs sözcüğü 2000'lerde ve 2020'lerde aynı anlamda mı kullanılıyor?"
  • Sınırlılık: Derlemde belge tarihi bilgisi olmadığında yaklaşık sonuç verir.

☁️ 9. Sözcük Bulutu

Derlemdeki sözcüklerin sıklık görselleştirmesi — sık geçenler büyük harfle.

  • Nasıl çalışır: Sıklık sayaçları → font büyüklüğüne eşlenir → sözcükler rastgele yerleşimle bulut oluşturur.
  • Hangi soruyu cevaplar: "Türkçede en çok hangi sözcükler geçiyor?" (görsel özet)
  • Filtreler: Stopword listesi + minimum sıklık eşiği.

🛣️ 10. Anlamsal Yol

İki sözcük arasındaki "en kısa anlamsal güzergâh"ı bulur.

  • Nasıl çalışır: Sözcük Ağı grafı üzerinde Dijkstra algoritması → A'dan B'ye giderken hangi ara düğümlerden geçmek gerekir.
  • Hangi soruyu cevaplar: "kitap ile teknoloji arasında anlamsal köprü hangi sözcükler?"
  • Örnek güzergâh: kitap → yazı → bilgi → dijital → teknoloji

🔖 11. Konu Çözümlemesi

Derlemi tematik kümelere ayırır (Topic Modeling).

  • Nasıl çalışır: LDA veya BERT-tabanlı kümeleme → her küme için en tanımlayıcı sözcükler + örnek cümleler.
  • Hangi soruyu cevaplar: "Bu derlemde hangi konular konuşuluyor?" (otomatik tematik özet)
  • Çıktı: Her konu için başlık (otomatik seçilmiş temsilci sözcük) + anahtar terimler + temsil cümleler.

✨ 12. Nadir Sözcükler

Derlemde seyrek (1-5 kez) geçen sözcüklerin listesi.

  • Nasıl çalışır: Sıklık sayaçlarında alt eşik altında olan lemmaları filtreler.
  • Hangi soruyu cevaplar: "Sadece bir-iki kez geçen, tekrar etmeyen (hapax) sözcükler hangileri?"
  • Kullanım: Yazım hatası tespiti, uzman terimleri, arkaik kullanım keşfi için.

📑 13. Çok Anlamlılık

GTS'te birden fazla anlamı olan maddelerin analizini yapar.

  • Nasıl çalışır: Her maddenin anlamları arasındaki BERT vektör uzaklığı hesaplanır → anlamlar ne kadar "farklı" görülüyor belirlenir.
  • Hangi soruyu cevaplar: "Hangi sözcüklerin anlamları birbirinden ne kadar uzak?" (yüz → organ, sayı, sahil gibi)
  • Metrik: Ortalama anlam çifti kosinüs uzaklığı — yüksek = çok anlamlı, düşük = yakın anlamlı.

🥧 14. Anlamsal Çeşitlilik

Sözlüğün genelindeki anlam dağılımının homojenliğini ölçer.

  • Nasıl çalışır: Sözcüklerin anlamsal kümelenme derecesi → küme içi benzerlik vs. kümeler arası mesafe.
  • Hangi soruyu cevaplar: "Türkçe söz varlığı ne kadar çeşitli? Hangi alanlar yoğun, hangi alanlar seyrek?"
  • Çıktı: Pasta grafikle küme oranları + çeşitlilik indeksi (Shannon entropi).

📊 15. Mono/Poli Karşılaştırma

Tek anlamlı (monosemik) ve çok anlamlı (polisemik) sözcüklerin özelliklerini karşılaştırır.

  • Nasıl çalışır: Tek anlamlı grup vs. çok anlamlı grup için sıklık, söz türü, alan etiketi, eşdizim çeşitliliği metrikleri karşılaştırılır.
  • Hangi soruyu cevaplar: "Çok anlamlı sözcükler daha mı yaygın? Hangi türde toplanıyorlar?"
  • Bulgu: Genelde polisemik sözcükler daha sık geçer (zipfian dağılım).

🪶 16. Mecaz Çözümlemesi

Olası mecazi kullanımları tespit eder.

  • Nasıl çalışır: Bir sözcüğün GTS'teki temel anlam vektörü ile derlemdeki kullanım vektörü arasındaki büyük sapmalar → muhtemel mecaz sinyali.
  • Hangi soruyu cevaplar: "Aslan sözcüğü gerçek hayvan mı, yoksa 'cesur kişi' mecazında mı kullanılmış?"
  • Metodoloji: Kaynak alan → hedef alan eşlemesi (Lakoff tarzı kavramsal metafor).

🔎 17. Gelişmiş Arama

Regex, bulanık arama, morfolojik desenler, POS filtreleri içeren güçlü arama.

  • Arama modları:
    • Tam / İçerir / Başlar / Biter — klasik arama
    • Regex — düzenli ifade (uzmanlar için)
    • Bulanık — fuzzywuzzy ile yazım hatası toleransı
    • Morfolojik — ek şablonuna göre (-lık, -cı, -leş)
  • Örnek: ^bil.*lık$ → bilgilik, bilinmezlik vb.

⚡ 18. Entropi Çözümlemesi

Sözcüklerin anlamsal öngörülebilirliğini ölçer (Shannon entropisi).

  • Nasıl çalışır: Her sözcüğün hangi bağlamlarda geçtiğine dair olasılık dağılımı → entropi hesabı.
  • Hangi soruyu cevaplar: "Hangi sözcükler çok çeşitli bağlamlarda geçiyor (entropisi yüksek), hangileri daraltılmış (düşük)?"
  • Yorum: Yüksek entropi = genel sözcük (bir, olmak, söylemek); düşük entropi = özel terim (akciğer, yargıtay).

⚡ 19. Bağlam Dinamikleri

Bir sözcüğün bağlamının istikrarını ve değişkenliğini inceler.

  • Nasıl çalışır: Sözcüğün geçtiği cümlelerin vektörleri → varyans ve küme yoğunluğu → "bağlam kümesi" tespiti.
  • Hangi soruyu cevaplar: "Bu sözcük hep aynı bağlamda mı, yoksa farklı alanlarda mı geçiyor?"
  • Çıktı: Bağlam çeşitliliği skoru + baskın bağlam kümeleri.

💡 Genel İpucu

Her sekmenin üst kısmında bir sorgu kutusu vardır; çoğu sekmede "ara" veya "çöz" butonuyla BERT tabanlı hesap tetiklenir. Sonuç grafikleri Chart.js, Three.js veya D3.js ile üretilir. Veri kaynağı: BERT sentence-transformer (emrecan/bert-base-turkish-cased-mean-nli-stsb-tr), GTS sözlük veritabanı (99.238 madde / 133.041 anlam) ve T-BDLD derlemi (2,81 milyon cümle). İşlem süresi sekmeye göre değişir: basit aramalar anlık, 3D Harita / Sözcük Ağı / Konu Çözümlemesi birkaç saniye.

5. Terimler Sözlüğü

Bu bölüm, sistemde geçen yapay zekâ, doğal dil işleme, makine öğrenmesi, derlem dilbilim ve sözlükbilim terimlerinin kısa, açıklayıcı tanımlarını içerir. Terim başlıklarında Türkçe ad + parantez içinde İngilizce karşılık verilmiştir. Her başlık altında kavramın ne olduğu, nasıl kullanıldığı ve gerekiyorsa kısa bir örnek yer alır.

A. Yapay Zekâ (AI) Terimleri

Yapay Zekâ (Artificial Intelligence, AI)

Bilgisayar sistemlerinin öğrenme, akıl yürütme, dili anlama ve karar verme gibi insan zekâsına özgü görevleri taklit etme kapasitesi. Geniş bir şemsiye terim: makine öğrenmesi, derin öğrenme, doğal dil işleme ve bilgisayarlı görü alt alanlarını içerir.

Dar Yapay Zekâ (Narrow AI / ANI)

Tek bir görevde uzmanlaşmış sistem (satranç oynamak, ses tanımak, çeviri yapmak vb.). Günümüzün tüm pratik uygulamaları bu kategoridedir; insan benzeri genel zekâ yoktur.

Genel Yapay Zekâ (Artificial General Intelligence, AGI)

Bir insanın yapabildiği her türlü bilişsel görevi yerine getirebilen, öğrenmeyi bir alandan diğerine aktarabilen varsayımsal sistem. Henüz mevcut değildir; akademik hedef ve tartışma konusudur.

Büyük Dil Modeli (Large Language Model, LLM)

Milyarlarca parametreye sahip, geniş metin derlemleriyle eğitilmiş sinir ağı modeli. GPT, Claude, Gemini, LLaMA örnekleri. Metin üretimi, çeviri, özetleme, soru-cevap gibi görevleri tek bir modelle yapar.

Transformer

2017'de tanıtılan, dikkat (attention) mekanizmasına dayalı sinir ağı mimarisi. Dizili veriyi (metin, ses) paralel olarak işler; BERT, GPT, T5 gibi tüm modern büyük dil modellerinin temelidir.

Dikkat Mekanizması (Attention)

Modelin bir cümle içinde hangi sözcüklere ne kadar ağırlık vereceğini dinamik olarak öğrenmesini sağlayan yapı. "Ben kitabı okudum" cümlesinde okudum kelimesini yorumlarken kitabı'na yüksek dikkat verir.

Token

Dil modelinin metni işlediği en küçük birim. Her zaman "sözcük" değildir; bazen alt-sözcük (subword) ya da karakter. Örn. "bilgisayar" tek token olabilirken "bilgisayarcılık" → bilgisayar + cılık şeklinde iki token'a bölünebilir.

Prompt

Dil modeline verilen metin girdi — soru, talimat veya bağlam. Modelin çıktısı doğrudan prompt'un içeriğine ve biçimine bağlıdır.

Prompt Mühendisliği (Prompt Engineering)

Dil modelinden istenen çıktıyı alabilmek için prompt'un dikkatle tasarlanması disiplini. Rol tanımlama ("Sen bir sözlük editörüsün..."), örnek verme, adım-adım düşündürme gibi teknikler içerir.

İnce Ayar (Fine-tuning)

Önceden büyük bir derlemle eğitilmiş bir modelin, daha küçük ve özel bir veri kümesiyle (ör. tıp metinleri, hukuki sözleşmeler) yeniden eğitilerek özelleştirilmesi. Sıfırdan eğitmekten çok daha ucuzdur.

Geri-Getirme Destekli Üretim (Retrieval-Augmented Generation, RAG)

Dil modelinin cevap üretirken dışarıdan bir bilgi tabanından (sözlük, belge deposu) ilgili parçaları çekip bağlam olarak kullanması. Halüsinasyonu azaltır, güncel bilgi erişimi sağlar. GTS üzerinde RAG: "sözlük içinden bağlam verip model yanıtlatma" demektir.

Sıfır-Örnek Öğrenme (Zero-shot Learning)

Modelin görev için özel hiçbir örnek görmeden, sadece talimatla iş yapabilme kapasitesi. Örn. GPT'ye sadece "Bu cümleyi Türkçeye çevir" dediğinde çeviri örneği göstermek gerekmez.

Az-Örnek Öğrenme (Few-shot Learning)

Prompt içinde 2–5 örnek sunularak modelin görev kalıbını hızla yakalaması. Zero-shot'a göre daha kararlı sonuçlar verir.

Düşünce Zinciri (Chain-of-Thought, CoT)

Modelin karmaşık soruları adım-adım düşünmesini sağlayan yöntem. Prompt'a "Adım adım düşün" eklenir; özellikle matematik ve mantık sorularında doğruluğu artırır.

Halüsinasyon (Hallucination)

Dil modelinin gerçeğe uymayan, tamamen uydurulmuş ama güvenle sunulmuş çıktılar üretmesi. LLM'lerin en önemli güvenilirlik sorunudur; sözlük/bilgi çalışmalarında çapraz doğrulama zorunludur.

Yerleşik (Embedding)

Sözcük, cümle veya belgenin sayısal bir vektöre dönüştürülmüş gösterimi (genelde 300–1024 boyutlu). Benzer anlamlı sözcükler vektör uzayında birbirine yakın olur. Tüm anlamsal arama, kümeleme, benzerlik hesaplarının temelidir.

Generatif Yapay Zekâ (Generative AI)

Yeni metin, görüntü, ses veya kod üretebilen model ailesi. LLM'ler, görüntü üreten difüzyon modelleri (Stable Diffusion, DALL·E) ve ses modelleri bu kategoriye girer.

Multimodal Model

Birden fazla veri tipini (metin + görüntü + ses) aynı modelde işleyebilen sistem. GPT-4V, Gemini gibi modeller hem resim görüp hem yazı üretebilir.

B. Doğal Dil İşleme (NLP) Terimleri

Doğal Dil İşleme (Natural Language Processing, NLP)

Bilgisayarın insan dilini anlaması, analiz etmesi ve üretmesiyle ilgilenen yapay zekâ alt alanı. Çeviri, özetleme, anlam çıkarımı, sohbet, sözcük/dilbilgisi analizleri bu alana girer.

Tokenleştirme (Tokenization)

Metni bilgisayarca işlenebilir en küçük birimlere (token) ayırma işlemi. Sözcük-tabanlı, alt-sözcük (BPE, WordPiece) veya karakter-tabanlı yapılabilir.

Lematizasyon (Lemmatization)

Bir sözcüğün çekim biçimlerini sözlük biçimine (lemma) indirme. kitaplarımızdankitap; geldi / gelmişti / geliyorgelmek. Bu sitenin derlemi lematize edilmiş haldedir.

Kök Bulma (Stemming)

Lematizasyonun basit hali; ekleri kaba şekilde kırpar. koşuyorumkoş-. Sözlük biçim üretmez, istatistiksel olarak yeterli.

Söz Türü Etiketleme (Part-of-Speech Tagging, POS)

Her sözcüğe ad, sıfat, fiil, zarf, zamir gibi dilbilgisi etiketi atama. Cümle yapısını çözümlemenin ilk adımlarındandır.

Özel Ad Tanıma (Named Entity Recognition, NER)

Metindeki kişi, kurum, yer, tarih, miktar gibi özel adları ve kategorilerini tespit etme. "Ali dün Ankara'ya gitti"Ali: Kişi, Ankara: Yer, dün: Zaman.

Söz Dizimi Çözümleme (Parsing / Syntactic Analysis)

Cümlenin dilbilgisel ağaç yapısını çıkarma — öznenin, yüklemin, tümleçlerin hangileri olduğu. Bağımlılık (dependency) ve öbek-yapısal (constituency) olmak üzere iki yaklaşım vardır.

Sözcük Gömme (Word Embedding)

Her sözcüğü sabit boyutlu bir sayısal vektöre dönüştüren teknik. Benzer anlamlı sözcükler yakın vektörler alır. Word2Vec (2013), GloVe, FastText klasik örnekler.

BERT

Google'ın 2018'de yayımladığı transformer tabanlı çift yönlü dil modeli. Bir cümledeki her sözcüğü, hem sağ hem sol bağlamına göre kodlar. Bu sitede GTS anlam vektörleri için kullanılan model ailesi BERT tabanlıdır.

Word2Vec

2013 yılında Google'dan Tomáš Mikolov ve ekibinin geliştirdiği sözcük gömme tekniği. Sözcük anlam ilişkilerini vektör aritmetiğiyle yakalayan ilk başarılı yöntem. "Kral − erkek + kadın ≈ kraliçe" örneğiyle ün kazandı.

Bağlam-duyarlı Gömme (Contextual Embedding)

Aynı sözcüğün geçtiği bağlama göre farklı vektör alması. BERT ve ardılları bunu sağlar: "yüz kişi" ile "yüzünü yıkadı" cümlelerindeki yüz farklı vektörlerle temsil edilir.

Alt-Sözcük Tokenleştirme (Subword Tokenization, BPE / WordPiece)

Sözcükleri sık görülen alt parçalara bölerek dağarcığı küçültme. "çalışkanlıktan"çalış + kan + lık + tan. Nadir sözcükleri ve morfolojik zengin dilleri (Türkçe gibi) modele öğretmeyi kolaylaştırır.

Dil Modeli (Language Model, LM)

Bir kelime dizisinin olasılığını hesaplayan ya da bir önceki kelimelere göre bir sonraki kelimeyi tahmin eden model. Klasik n-gram LM'lerden modern transformer LM'lerine uzanır.

Duygu Analizi (Sentiment Analysis)

Metnin olumlu, olumsuz veya yansız olduğunu saptama. Yorum sitelerinde, sosyal medya analizinde yaygın.

Makine Çevirisi (Machine Translation, MT)

Bir dildeki metni diğer dile otomatik çevirme. İstatistiksel MT (SMT) → nöral MT (NMT) → LLM-tabanlı MT olarak evrilmiştir.

Durma Sözcükleri (Stop Words)

Anlam taşımayan ama sık geçen sözcükler: ve, ile, bir, bu. Metin analizlerinde çoğunlukla dışlanır. Ancak stilistik çalışmalarda bilgi taşır.

Etiketleme (Annotation)

Bir metne uzmanlar tarafından bilgi (söz türü, anlam, duygu, özel ad vb.) eklenmesi süreci. Gold standard (altın etalon) eğitim ve test verileri bu yolla oluşturulur.

Etiketçiler-Arası Uyum (Inter-Annotator Agreement, IAA)

Aynı veriyi bağımsız etiketleyen iki/üç kişinin ne kadar aynı kararı verdiği. Cohen's Kappa, Fleiss Kappa gibi ölçülerle hesaplanır; >0.80 güvenilir sayılır.

Altın Etalon (Gold Standard)

Uzman kontrolünden geçmiş, referans olarak kabul edilen etiketli veri kümesi. Modellerin değerlendirilmesi buna göre yapılır.

C. Makine Öğrenmesi Terimleri

Makine Öğrenmesi (Machine Learning, ML)

Algoritmaların açıkça programlanmak yerine verilerden örüntü çıkararak öğrenmesi. Denetimli, denetimsiz ve pekiştirmeli öğrenme olarak üçe ayrılır.

Denetimli Öğrenme (Supervised Learning)

Etiketli veriyle eğitim: her girdinin doğru çıktısı (etiketi) vardır. Sınıflandırma (duygu, tür) ve regresyon (sayısal tahmin) bu kategoridedir.

Denetimsiz Öğrenme (Unsupervised Learning)

Etiketsiz veriden yapı çıkarma. Kümeleme (clustering), boyut indirgeme, anomali tespiti. Word2Vec'in temel eğitim paradigması da budur.

Pekiştirmeli Öğrenme (Reinforcement Learning, RL)

Ajan, çevreyle etkileşerek ödül/ceza sinyalleriyle öğrenir. Oyunlar (AlphaGo), robotik, LLM'lerin RLHF adımı bu kategoridedir.

Derin Öğrenme (Deep Learning)

Çok katmanlı yapay sinir ağlarına dayalı ML alt alanı. Görüntü tanıma, ses işleme, NLP'de devrim yarattı. LLM'ler derin öğrenmenin bir ürünüdür.

Aşırı Uyum (Overfitting)

Modelin eğitim verisini ezberleyip yeni örneklere genelleyememesi. Sınav için kitabı ezberleyen ama soru biraz değişince yapamayan öğrenci gibi.

Yetersiz Uyum (Underfitting)

Modelin verideki örüntüleri yakalayamayacak kadar basit olması. Hem eğitimde hem testte düşük başarı.

Düzenlileştirme (Regularization)

Aşırı uyumu engellemek için modele ceza terimi ekleyen teknikler (L1, L2, dropout). Model karmaşıklığını sınırlandırır.

Çapraz Doğrulama (Cross-Validation)

Veri kümesini N parçaya ayırıp her parçayı sırayla test kümesi yaparak modelin güvenilir başarı ortalamasını alma. En yaygın: 5-fold, 10-fold.

Eğitim/Test/Doğrulama Bölünmesi (Train/Test/Validation Split)

Veriyi üç parçaya ayırma: eğitim (modeli öğretir), doğrulama (hiperparametre seçimi), test (son başarı ölçümü).

Kayıp Fonksiyonu (Loss Function)

Modelin tahminlerinin gerçek etiketlere ne kadar uzak olduğunu sayısallaştıran formül. Eğitim bu değeri minimize etmeye çalışır.

Gradyan İnişi (Gradient Descent)

Kayıp fonksiyonunun en dik iniş yönünde adım atarak yerel minimuma yaklaşma algoritması. Tüm sinir ağı eğitiminin motoru.

Geri Yayılım (Backpropagation)

Sinir ağında hatayı çıkıştan girişe doğru geri aktararak her ağırlık için gradyanı hesaplayan yöntem. Modern derin öğrenme bunun sayesinde mümkün.

Epoch, Batch, Mini-batch

Epoch: Eğitim verisinin bir kez tamamen dolaşılması. Batch: Her adımda işlenen örnek grubu. Mini-batch: Genelde 32–512 örneklik küçük gruplar.

Öğrenme Hızı (Learning Rate)

Gradyan inişinde her adımda ağırlıkların ne kadar değişeceğini belirleyen katsayı. Çok yüksek → patlar, çok düşük → yavaş öğrenir.

Dropout

Her eğitim adımında nöronların bir kısmını rastgele devre dışı bırakma tekniği. Aşırı uyumu azaltır, modele gürbüzlük katar.

Karmaşıklık Matrisi (Confusion Matrix)

Sınıflandırma performansını gösteren tablo: doğru pozitif, yanlış pozitif, doğru negatif, yanlış negatif sayıları.

Precision / Recall / F1

Precision (kesinlik): Pozitif deyip gerçekten pozitif olma oranı. Recall (duyarlık): Gerçek pozitiflerin ne kadarını yakaladın. F1: İkisinin harmonik ortalaması.

Kümeleme (Clustering)

Benzer nesneleri gruplara ayırma. K-means (belli sayıda küme), DBSCAN/HDBSCAN (yoğunluk tabanlı) başlıca algoritmalardır.

K-means

En yaygın kümeleme algoritması. K adet küme merkezi belirler, her noktayı en yakın merkeze atar, merkezleri günceller, tekrar eder. K sayısı önceden belirtilmelidir.

HDBSCAN

Yoğunluk tabanlı hiyerarşik kümeleme. Küme sayısını kendi belirler, gürültüleri (izole noktaları) ayrı etiketler. Yeni anlam keşfinde tercih edilir.

PCA (Principal Component Analysis, Temel Bileşen Analizi)

Yüksek boyutlu veriyi daha az boyuta lineer olarak indirgeyen teknik. Görselleştirme ve gürültü azaltma için kullanılır.

t-SNE / UMAP

Yüksek boyutlu veriyi 2B/3B görselleştirme için kullanılan doğrusal olmayan boyut indirgeme yöntemleri. Anlamsal kümeleri görsel olarak ortaya çıkarır.

Hiperparametre (Hyperparameter)

Modelin öğrenemediği, eğitim başlamadan elle belirlenen değerler (öğrenme hızı, katman sayısı, dropout oranı). Ayarlanması ayrı bir uzmanlık alanıdır.

D. Derlem Dilbilimi Terimleri

Derlem (Corpus / Korpus)

Dilbilim araştırmalarında kullanılan, planlı ve belgelenmiş metin koleksiyonu. Sözlü veya yazılı olabilir; açıklamalı (annotated) veya ham olabilir. Bu sitenin veri kaynağı T-BDLD derlemidir.

Temsilcilik (Representativeness)

Derlemin, temsil ettiği iddia edilen dili ne kadar yansıttığı ölçütü. Tür, dönem, bağlam, kaynak çeşitliliği ile sağlanır.

Denge (Balance)

Derlemdeki farklı metin türlerinin (gazete, roman, akademik, sözlü) orantılı dağılımı. Dengesiz derlem yanlı sonuç verir.

Token / Type

Token: Metindeki her bir sözcük geçişi (bir cümlede "ev ev" iki token). Type: Benzersiz sözcük biçimi ("ev ev" = 1 type).

Tip-Token Oranı (Type-Token Ratio, TTR)

Benzersiz sözcük sayısı / toplam sözcük sayısı. Sözcük çeşitliliğinin ölçüsü. Metin uzunluğuyla ters orantılı; bu yüzden MATTR, STTR gibi normalize varyantları kullanılır.

Hapax Legomena

Derlemde yalnız bir kez geçen sözcükler (Yunanca "bir kez söylenmiş"). Her dilin derleminin ~%40-50'si hapax'tır — Zipf yasasının doğal sonucu.

Zipf Yasası

"N. en sık sözcük, en sık sözcüğün 1/N'i sıklıkta geçer" bulgusu. Doğal dillerin evrensel istatistiksel özelliği. Üst-sıra sözcükler çok sık (bir, olmak), uzun kuyruk çok sayıda ama az sıklıkla.

Eşdizim (Collocation)

İki sözcüğün rastlantıdan fazla birlikte geçme eğilimi. koyu çay, güçlü kahve, karar vermek eşdizimlerdir. PMI, LogDice gibi ölçülerle hesaplanır.

N-gram

N ardışık sözcük dizisi. Unigram: tek sözcük; bigram: iki sözcük ("çok güzel"); trigram: üç sözcük. Eşdizim ve dil modelinin temel birimi.

Bağlamsal Liste (Concordance, KWIC)

Bir sözcüğün geçtiği tüm bağlamların ortada o sözcük hizalanarak listelenmesi ("Key Word In Context"). Sözlükçülüğün klasik aracı.

PMI (Pointwise Mutual Information, Noktasal Karşılıklı Bilgi)

İki olayın (sözcük A ile sözcük B) rastlantıya kıyasla ne kadar birlikte görüldüğünün logaritmik ölçüsü. PMI(A,B) = log₂[ P(A,B) / (P(A)·P(B)) ]. Negatif değerler de çıkabilir.

NPMI (Normalized Pointwise Mutual Information)

Normalleştirilmiş Noktasal Karşılıklı Bilgi. PMI'nin [−1, +1] aralığına normalleştirilmiş hali. +1 = kesin birlikte geçme, 0 = rastlantı, −1 = hiç birlikte olmama. Eşdizim gücünü karşılaştırılabilir yapar.

PPMI (Positive PMI)

PMI'nin yalnız pozitif bölümünü kullanan ölçü. Beklenenden zayıf birliktelikler sıfır kabul edilir; alan/metin türü dağılımında sözcük-alan/tür bağının ayırt edici olup olmadığını göstermek için kullanılır.

LogDice

Eşdizim ölçülerinden; Dice katsayısının logaritmik varyantı. 14 civarı "kuvvetli eşdizim" kabul edilir. Nadir bigramlarda PMI'den daha kararlıdır.

Cümle Sıklığı

Bir sözcük veya eşdizimin kaç farklı cümlede geçtiğini gösterir. Yeni sözcük eşdizimlerinde, tek bir metin içi tekrar ile derleme yayılmış kullanım örüntüsünü ayırmak için NPMI ve LogDice ile birlikte kullanılır.

TF-IDF (Term Frequency × Inverse Document Frequency)

Bir sözcüğün belgede ne kadar sık (TF) ve tüm belgelerde ne kadar nadir (IDF) olduğunu birleştiren klasik ağırlık. Arama ve belge sınıflandırmada kullanılır.

Kosinüs Benzerliği (Cosine Similarity)

İki vektörün yön bakımından ne kadar benzer olduğunu ölçer. 1'e yaklaştıkça bağlam ya da anlam benzerliği artar; cümle benzerliği, sözcük komşuluğu ve anlamsal arama modüllerinde kullanılır.

Anahtarlık (Key-ness, Keyword Extraction)

Bir alt derlemi (ör. ekonomi haberleri) referans derleme göre karakterize eden sözcüklerin çıkarılması. Log-likelihood testi veya ki-kare kullanılır.

Artzamanlı / Eşzamanlı (Diachronic / Synchronic)

Artzamanlı (diachronic): Dilin zaman içindeki değişimi (anlam kayması, yeni sözcükler). Eşzamanlı (synchronic): Bir dönem içindeki yapı (bu sitenin yeni anlam çözümlemesi eşzamanlıdır).

Bağlamlaşma İndeksi

Bu sistemde kullanılan, bir sözcüğün derlemde ne kadar çeşitli bağlamlarda geçtiğini ölçen bileşik gösterge (0-100). Komşu sözcük çeşitliliği, entropi ve destek (geçiş) birleşiminden hesaplanır.

Alan/Tür Entropisi

Bir sözcüğün bağlamsal alanlara ve metin türlerine ne kadar yayılmış olduğunu gösterir. Düşük entropi tek alana/türe yakınlığı, yüksek entropi birçok alan/türde kullanılan genel sözcükleri işaret eder.

Baskınlık (Dominance)

Bir sözcüğün geçtiği cümleler içinde belirli bir alan/türün payı. Alan/metin türü dağılımında yüksek puanın güvenilir olup olmadığını denetleyen ana göstergelerden biridir.

Morfolojik Kapsama

Derlemdeki sözcüklerin ne kadarının mevcut morfolojik çözümleyicice tanımlanabildiği. Türkçe gibi zengin morfolojili dillerde düşük kapsama, yeni sözcük üretimini yakalamak için güçlendirme katmanı gerektirir.

E. Sözlükbilim Terimleri

Sözlükbilim (Lexicography)

Sözlük hazırlama sanatı ve bilimi. Hem pratik (sözlük yazımı) hem kuramsal (sözcük anlamı ve yapısı üstüne araştırma) boyutu vardır. GTS bir sözlükbilim ürünüdür.

Sözlük (Dictionary)

Bir dilin sözcüklerini belirli bir ölçüte (alfabetik, anlamsal, konu) göre listeleyen ve her biri için tanım, köken, örnek veren başvuru eseri.

Madde Başı (Headword / Lemma)

Sözlükte başlık olarak verilen sözcük biçimi. Fiiller mastar halinde (gelmek), adlar yalın halde (kitap) verilir. GTS'te madde sütunu madde başını tutar.

Madde (Entry)

Bir madde başı ve ona bağlı tüm anlamlar, örnekler, etiketler, kökenler, atasözleri vs.'den oluşan tam kayıt. GTS'te bir maddenin birden çok anlamı olabilir.

Anlam (Sense)

Bir sözcüğün taşıdığı farklı kavramlardan biri. Çok anlamlı sözcüklerde numaralanır. yüz → (1) organ, (2) 100 sayısı, (3) başkaldırmak ("yüz vermemek").

Tanım (Gloss / Definition)

Bir anlamı açıklayan kısa metin. Tipik olarak cins (bir tür...) ve ayırt edici özellik (...olan) biçiminde kurulur. TDK tanım geleneği Aristocu tanım ilkesine dayanır.

Çok Anlamlılık (Polysemy)

Aynı sözcüğün ilişkili farklı anlamlara sahip olması. ayak → organ, dağ eteği, iskambilde sıra; hepsi kavramsal olarak bağlı.

Eş Adlılık (Homonymy)

Yazılışları/söylenişleri aynı ama anlamları tamamen ilgisiz sözcükler. yüz (organ) ile yüz (sayı) eş adlıdır — tarihsel olarak farklı kökler.

Eş Anlamlılık (Synonymy)

İki farklı sözcüğün aynı veya çok yakın anlam taşıması. Tam eş anlam çok nadirdir; genelde üslup, sıklık, bağlam farkı olur. öğrenci / talebe.

Karşıt Anlamlılık (Antonymy)

Zıt anlam ilişkisi. Derece içeren (sıcak/soğuk), tamamlayıcı (ölü/canlı) veya ilişkisel (öğretmen/öğrenci) olabilir.

Alt/Üst Anlamlılık (Hyponymy / Hypernymy)

Sınıf-alt sınıf ilişkisi. Köpek "hayvan"ın hiponimi (alt anlamlısı); hayvan "köpek"in hiperonimi (üst anlamlısı). WordNet bu ilişkilerle örülmüştür.

Parça-Bütün İlişkisi (Meronymy / Holonymy)

Meronim: Parça (tekerlek → araba'nın meronimi). Holonim: Bütün (araba → tekerlek'in holonimi).

Mecaz (Metaphor)

Bir alandaki bir kavramın başka bir alana taşınmasıyla oluşan anlam. "zamanın ayak sesleri", "bilgi deryası". Yeni anlam keşiflerinin önemli kaynağıdır.

Mecaz-ı Mürsel (Metonymy)

Bir şeyin yakından ilişkili başka bir şey yerine kullanılması. "Ankara karar verdi" (Ankara = hükümet); "bir bardak iç" (bardak = içinde olan şey).

Anlamsal Alan (Semantic Field)

Belirli bir kavram etrafında toplanan sözcükler kümesi. Yemek alanı: kızartmak, pişirmek, haşlamak, közlemek... Anlamsal alan çözümlemesi sözlük yapısında bütünsellik sağlar.

Kullanım Etiketi (Usage Label)

Bir anlamın hangi bağlamda geçtiğini belirten not: halk ağzında, argo, eskimiş, resmi, mecazi. GTS'te "kullanım" özellikleri bu kategoridedir.

Alan Etiketi (Domain / Subject Label)

Bir anlamın hangi uzmanlık alanına ait olduğunu gösterir: tıp, hukuk, din, gök bilimi. GTS 44 kanonik alan kullanır.

Köken (Etymology)

Bir sözcüğün tarihsel kaynağı ve geçtiği değişimler. Telefon ← Yunanca tele (uzak) + phone (ses). GTS'te lisan sütunu köken dili gösterir.

Alıntı (Borrowing / Loanword)

Bir dilin başka dilden aldığı sözcük. Türkçede Arapça, Farsça, Fransızca, İngilizce alıntılar yoğundur. Alıntı sözcükler zamanla ses ve anlam uyumu geçirebilir.

Yenileşim (Neologism, Yeni Sözcük)

Dile yeni giren sözcük. Türetim (bilgisayar), alıntı (dezenflasyon) veya kısaltma-genişletme yollarıyla oluşur. Bu sistemdeki "Yeni Sözcükler" modülü neolojizm avına odaklanır.

Yazım Farkı (Orthographic Variant)

Derlemde görülen bir biçimin GTS'te bulunan standart ya da tercih edilen biçimden yazımca ayrılması. pantalon gibi biçimler yeni sözcük listesinde tutulabilir; ancak satırda GTS'teki karşılığı (pantolon) açıkça gösterilir. Bu işaret, sözcüğün yeni madde olarak kabul edildiği anlamına gelmez.

Eskileşim / Arkaizm (Archaism)

Dilde kullanımdan düşen, yalnızca eski metinlerde veya resmî söylemde kalan sözcük/biçim. bizatihi, mezkûr, el'an. Arkaik maddelerin tespiti sözlük güncelleme için önemli adımdır.

Türetim (Derivation)

Bir sözcüğe yapım eki ekleyerek yeni sözcük oluşturma. göz → gözlük → gözlükçü → gözlükçülük. Türkçe, türetim eklerinin zenginliğiyle öne çıkar.

Çekim (Inflection)

Sözcüğün dilbilgisel rolüne göre aldığı ekler (durum, kişi, zaman, sayı). Yeni sözcük üretmez, aynı sözcüğün farklı biçimlerini verir. evler, eve, evdenev.

Birleştirme (Compounding)

İki veya daha fazla sözcüğün birleşerek yeni anlamlı bütün oluşturması. buzdolabı, pazartesi, hanımeli. Türkçe sözlükbilimde birleşik kelime tartışmalı bir alandır (ayrı/bitişik yazım).

Atasözü (Proverb)

Bir toplumun deneyim ve bilgeliğini yoğunlaştıran, kalıplaşmış söz. GTS atasözü tablosu ~16.666 atasözü içerir.

Deyim (Idiom)

Sözcüklerinin anlamlarından çıkarılamayan, kalıp halinde kullanılan söz öbeği. küplere binmek, ipe un sermek. Çok sözcüklü madde olarak sözlüğe alınır.

Lematizasyon Şablonu

Bu sistemde kullanılan, her lemma için morfolojik çözümleme kurallarını ve istisnaları tanımlayan geniş doküman. Türkçenin yapım ve çekim ekleri için yönlendirici.

F. Sistem ve İşletim Terimleri

Yerel CPU Worker Havuzu (Local CPU Worker Pool)

Ağır hesaplama işlerinin sunucu işlemcileri arasında paylaştırılması. Derlem okuma, aday toplama, çok sözcüklü yüzey biçimi çıkarma, bağlam cache hazırlama ve alan/metin türü dağılımı gibi aşamaları hızlandırır.

Paralel İşleme (Parallel Processing)

Bir işi tek sırada çalıştırmak yerine parçalara bölerek aynı anda yürütme. Büyük derlem büyüdükçe bekleme süresini azaltmak için kullanılır.

Önbellek (Cache)

Sık kullanılan ya da hesaplaması pahalı sonuçların geçici veya kalıcı olarak saklanması. Böylece aynı bilgi tekrar istendiğinde yeniden hesaplanmaz, sayfa daha hızlı açılır.

Binary Önbellek (Binary Cache)

Analiz sonuçlarının makine tarafından hızlı okunabilecek ikili biçimde saklanması. Özellikle büyük sıklık tabloları, yüzey biçimleri ve morfolojik aileler için açılış hızını artırır.

Sıcak Başlatma (Warm Start)

Servis yeniden başladıktan sonra daha önce hazırlanmış cache ve indeksleri kullanarak sistemi hızlı hazır duruma getirme yaklaşımı.

Manuel Analiz

Derlem yükleme veya ekleme yapıldıktan sonra ana analiz işleminin yönetici tarafından bilinçli olarak başlatılması. Böylece veri ekleme, temizlik ve hesaplama zamanları birbirinden ayrılır.

Dedup / Tekilleştirme (Deduplication)

Aynı ya da çok benzer cümlelerin tekrar tekrar derleme eklenmesini önleme işlemi. Derlem kalitesini korur, tekrar kaynaklı sıklık şişmesini azaltır.

Atomik Kayıt (Atomic Write)

Bir veri dosyasını yarım yazılmış halde bırakmamak için önce geçici hedefe yazıp sonra tek hamlede asıl hedefe taşıma tekniği. Özellikle notlar ve JSON çıktılarında veri güvenliği sağlar.

JSON

Veriyi alan-adı ve değer çiftleriyle saklayan hafif metin biçimi. Yeni sözcük tanımları, yeni anlam bulguları ve dışa aktarım paketleri için kullanılır.

Not: Bu sözlük yaşayan bir listedir; yeni gelişen alanlar (Ajan-tabanlı YZ, Çoklu-ajan sistemleri, Bilgi graflari, vb.) ilerde eklenecektir. Terimlerin Türkçe karşılıkları için TDK ve akademik yayınlar referans alınmıştır; tartışmalı karşılıklarda yaygın kullanım tercih edilmiştir.

6. İstatistikler ve Yorumlar

Sıklık (Frequency)

Bir sözcüğün derlemde toplam kaç kez geçtiği. Mutlak değer — karşılaştırma için diğer sözcüklerin sıklığıyla birlikte yorumlanmalı.

Form Sayısı

Bir sözcüğün derlemde kaç farklı yüzey biçiminde (çekim halinde) geçtiği. Örnek: gelmek kökü; geliyor, geldi, gelecek, gelmişim... olarak onlarca form alabilir.

Token vs. Lemma

Token: metindeki her sözcük örneği.
Lemma: ayrı sözlük maddesi.
Örnek: geldi, geliyor, gelecek ayrı token'dır ama tek lemma: gelmek.

Kapsama Oranı

GTS'teki maddelerin yüzde kaçının derlemde en az bir kez geçtiği. Düşük oran: sözlükteki arkaik veya uzmanlık sözcükleri çağdaş yazılı Türkçede az kullanılıyor.

Token Kapsaması

Derlemdeki tüm sözcük örneklerinin yüzde kaçının GTS maddeleriyle eşleştiği. Yüksek oran: derlemdeki metinlerin büyük çoğunluğu standart sözlük sözcüklerinden oluşuyor.

Trend Göstergeleri

Yükselen: sözcük derlemin sonlarına doğru sıklaşıyor (yeni kullanıma girmiş olabilir).
Sabit: tüm derlem boyunca düzenli kullanım.

📊 Derlem (T-BDLD) İstatistikleri

Türkçe Bağlama Duyarlı Lematizasyon Derlemi'nin (T-BDLD) anlık sayısal göstergeleri. Veri, her yeni analiz tamamlandığında otomatik olarak yenilenir.

T-BDLD Özet

İstatistikler yükleniyor...

Lemma Sıklık Dağılımı

Lemma Başına Çekimli Yüzey Biçim Dağılımı

En Sık Lemmalar

En Sık Yüzey Biçimler

Veriler analiz pipeline'ı çalışırken dinamik olarak güncellenir.

7. Sıkça Sorulan Sorular

Yeni sözcük adayı nasıl belirlenir?
Çok aşamalı bir süzgeç süreci işler: (1) Derlem sözcüğü GTS'te güvenli biçimde karşılanmıyorsa aday olur. (2) Özel ad, kısaltma, yabancı sözcük, çekim artığı gibi gürültüler elenir. (3) Yazım farkları (bitişik/ayrı ya da ortografik) tespit edilir. Bu farklar bazı durumlarda listeden çıkarılmaz; editörün karar verebilmesi için satırda GTS'teki karşılık biçimle birlikte gösterilir. Örn. pantalon satırında pantolon karşılığı görünür. (4) Morfoloji etiketli derlem kullanılarak söz türü ve yapı bilgisi eklenir. (5) Bağlamlaşma İndeksi hesaplanır. Sonuçta geriye kalan liste editörlük kararı için sunulur.
Yeni anlam keşfi nasıl çalışır?

Yeni Anlam Keşifleri sayfasındaki sonuçlar, Derlem (T-BDLD) ile GTS'teki mevcut anlamların karşılaştırılmasıyla üretilen adaylardır. Sistem, mevcut madde başlarının derlemdeki yeni bağlamlarını, tetikleyici sözcüklerini ve eşdizimlerini inceler; yeni anlam, anlam genişlemesi veya izlenmesi gereken kullanım adayı olarak yapılandırılmış kayıtlar hazırlar.

Bu işlem ağır olduğu için yönetim alanından manuel başlatılıp durdurulabilir; derlem ekleme yapılmayan saatlerde çalıştırılması önerilir. Tanım taslakları kalıp ifade biçiminde değil, modern sözlükbilim ölçütlerine uygun anlam açıklamaları olarak hazırlanır ve uzman sözlükçü denetimine sunulur.

Not: Bu sayfadaki kayıtlar otomatik aday envanteridir. Bir kaydın görünmesi, doğrudan sözlüğe alınacağı anlamına gelmez; kabul kararı editör incelemesiyle verilir.

Bağlamlaşma İndeksi neden önemli?
Sıklık tek başına yanıltıcı olabilir: zangır zangır gibi kalıplarda çok sık geçen bir sözcük, dar bir bağlamda sıkışmış olabilir. Bağlamlaşma İndeksi, sözcüğün gerçekten farklı metinlerde ve farklı komşularla kullanılıp kullanılmadığını gösterir. Yüksek Bİ, sözcüğün dil dağarcığındaki olgunluğuna işaret eder.
Morfoloji sayfasındaki GTS / YS / D rozetleri arasındaki fark nedir?
  • GTS (kırmızı): Sözcük Gelişmiş Türkçe Sözlükte madde olarak var.
  • YS (yeşil): Yeni Sözcük Adayı — yalnızca derlemde var ve sözlük için değerlendirmeye alınacak kalitede.
  • D (mavi): Derlemde geçiyor ama aday süzgecinden geçmemiş (özel ad, çekim biçimi vb. olabilir).
Derlem güncellendiğinde ne olur? Ne kadar beklemem gerekir?

Derlem (T-BDLD) güncellendiğinde yükleme, temizlik ve ekleme aşamaları yönetim arayüzünde izlenir. Ana analiz otomatik başlatılmaz; yönetici hazır olduğunda manuel olarak başlatır. Analiz çalışırken ana sayfada bir ilerleme çubuğu ve anlık analiz adımları görünür: derlem okunuyor → tek sözcüklü adaylar → çok sözcüklü adaylar → bağlamlaşma → morfolojik aileler → sonuçlar derleniyor.

Bu süre zarfında kullanıcıların bir süre beklemesi gerekir. Analiz süresi derlem büyüklüğüne göre değişir. Analiz sırasında arama ve diğer sayfalar önceki sonuçlarla çalışmaya devam eder; yalnızca yeni sözcük/anlam listeleri ve türetim aileleri güncellenene kadar eski kalır.

Analiz tamamlandığında tüm sayfalar otomatik olarak yeni sonuçları gösterir; sayfayı yenilemeniz yeterlidir.

Güncelleme çubuğunu gördüm, ne yapmalıyım?
Ana sayfanın üst kısmında canlı ilerleme çubuğu ve "İşleniyor" etiketi görünüyorsa, sistem o anda derlem analizini yapıyor demektir. Herhangi bir işlem yapmanıza gerek yok — analiz tamamlanana kadar beklemeniz yeterli. Çubuğun yanındaki yüzde değeri ilerlemeyi gösterir. %100'e ulaşınca yeni sözcük ve anlam sayıları otomatik olarak güncellenir.
Öbekleşme oranı nedir? Sözcüğün yanındaki mor link ne işe yarar?

Öbekleşme oranı, tek sözcüğün toplam sıklığının ne kadarının çok sözcüklü öbeklerde geçtiğini yüzde olarak gösterir. Örneğin "rahatsız" sözcüğü 1000 kez geçiyorsa ve 250 kez "rahatsız edici" veya "rahatsız olmak" gibi öbeklerde görülüyorsa öbekleşme oranı %25'tir.

Sözcük yüksek öbekleşme gösteriyorsa, ana sayfadaki listede mor renkli ve altı çizili olarak görünür; yanında 🔗N (öbek sayısı) ve "Öbekleşme oranı: %N" rozetleri bulunur.

Sözcüğe tıklayınca altta aşağı doğru açılan panel belirir — o sözcüğün geçtiği tüm öbekler chip olarak listelenir. Chip'e tıklarsanız arama kutusuna o öbek yerleştirilir ve listeye filtre uygulanır. Sözcüğe tekrar tıklarsanız panel kapanır.

Yapım eki ile çekim eki arasındaki fark nedir?
  • Yapım eki: Sözcükten yeni bir sözcük türetir. Sözcüğün sınıfını (ad/sıfat/fiil) değiştirebilir. Örnek: göz (ad) → gözlü (sıfat) → gözlük (ad). Sözlükbilimsel olarak türetilmiş her sözcük ayrı madde başıdır.
  • Çekim eki: Sözcüğün dilbilgisel rolünü belirler (kişi, zaman, durum, iyelik). Sözcüğün sınıfını değiştirmez ve yeni sözcük türetmez. Örnek: gözlük → gözlüğün, gözlükler, gözlüğümde. Sözlük bakımından hepsi aynı madde altında yer alır.

Sistem etiketli derlemden (etiketli_birikim) her iki grubu otomatik sınıflandırır. Detaylı ek listesi için Kavramlar bölümüne bakınız.

Fiil çatısı (ettirgen/edilgen/dönüşlü/işteş) nedir?

Türkçede dört fiil çatısı vardır ve hepsi fiil köküne eklenen özel eklerle oluşur:

  • Ettirgen (-tır/-dır/-t): Eylemi başkasına yaptırma. oku → okut, yap → yaptır
  • Edilgen (-ıl/-il): Eylemin başkası tarafından yapılması. yap → yapıl, gör → görül
  • Dönüşlü (-ın/-in/-n): Eylemin öznenin kendisine yönelik yapılması. yıka → yıkan, giy → giyin
  • İşteş (-ış/-iş/-uş/-üş): Eylemin karşılıklı yapılması. gör → görüş, döv → dövüş

Sistem bu ekleri etiketli derlemden tespit edip sözcüklerle birlikte saklar. Özellikle yeni fiil türetimlerini ve aktif çatı üretkenliğini izlemede kullanılır.

Her sayfada "Sayfa Kılavuzu" paneli ne işe yarar?

Sistemin her sayfasında üst kısımda "📖 Bu Sayfa Nedir? — Kılavuz" başlıklı açılır bir panel bulunur. Tıklayarak açabilirsiniz — sayfanın kısa bir özeti, o sayfaya özel terim açıklamaları, kullanım ipuçları ve örneklerle karşılaşırsınız.

Bu panelin amacı: sayfaya özel, anında erişilebilir bir yardım sunmak. Genel kılavuz (bu sayfa) tüm sistemi kapsar; sayfa kılavuzları ise yalnız o sayfayı anlatır. Yeni kullanıcılar için özellikle yararlıdır.

Morfoloji sayfasındaki "Çekim Ekleri" sekmesi nedir?

Çekim Ekleri sekmesi, etiketli derlemdeki (bağlam kontrollü) tüm çekim eklerini 8 kategoride toplar:

  • Ad Durum Ekleri: belirtme (-ı), tamlayan (-ın), yönelme (-e), bulunma (-de), çıkma (-den), vasıta (-le), eşitlik (-ce)
  • İyelik Ekleri: 1/2/3 tekil ve çoğul iyelik
  • Kişi Ekleri: 1/2/3 tekil ve çoğul kişi
  • Çoğul Eki: -lar / -ler
  • Zaman Ekleri: görülen geçmiş (-dı), duyulan geçmiş (-mış), şimdiki (-ıyor), geniş (-ır), gelecek (-acak)
  • Kip Ekleri: şart (-sa), emir, istek (-e), gereklilik (-malı)
  • Fiilimsiler: sıfat-fiil (-an/-dık/-acak), isim-fiil (-mak/-ma/-ış), ulaç (-arak/-ıp)
  • Diğer: olumsuzluk (-me), soru (-mı), ek eylem (-dır), ilgi -ki

Her kategori için: toplam kullanım, farklı sözcük sayısı, alt etiket (yükleme, ilgi vb.) dağılımı, en sık ek biçimleri ve örnek sözcükler gösterilir. Sayfanın üstünde görsel dağılım (pasta veya çubuk grafiği) bulunur; tek bir kategori seçilince o kategorinin alt ekleri çubuk olarak gösterilir.

Filtreler: Kaynak (Toplu / Yalnız GTS / Yalnız Yeni Sözcükler / Yalnız Derlem), Kategori (Tümü veya tek bir kategori) ve Arama kutusu (etiket adı veya ek biçimi) birlikte çalışır.

Veri kaynağı: etiketli_birikim_duzeltilmis_baglam_kontrollu.txt — derlem yüklendiğinde anında etkili olur.

Morfolojik Komşuluk'ta aranan sözcüğün çekim eki dökümü ne gösterir?

Morfoloji sayfası → Morfolojik Komşuluk sekmesinde bir sözcük aradığınızda, ebeveyn/kardeş/türev kartlarının altına "{sözcük} sözcüğünün derlemdeki çekim ekleri" paneli otomatik eklenir. Bu panel:

  • Aranan lemma'nın derlemde aldığı tüm çekim eklerini 8 kategoride gruplar.
  • Her etiket (yükleme, ilgi, şimdiki_zaman vb.) için toplam kullanım sayısı ve en sık ek biçimleri (mor rozetler) gösterir.
  • Sözcüğün toplam kullanımı üstte özetlenir.

Niçin? Bir lemma'nın morfolojik davranışını (hangi eklerle birleşiyor, hangi çekim kategorilerine açık) tek bakışta görmek; sözcüğün çekim zenginliğini ölçmek; çok anlamlı sözcüklerin farklı kullanım desenlerini tespit etmek için kullanılır.

Kaynak filtreleri (Tümü / GTS / YS / Yalnız Derlem) ne ayırır?

Morfoloji sayfasındaki üç sekmede (Aile Arama, Morfolojik Komşuluk, Çekim Ekleri) aynı mantıkla çalışan bir kaynak filtresi vardır:

  • Tümü: Derlemde geçen tüm lemmalar dahil.
  • Yalnız GTS GTS: GTS sözlüğünde madde olarak bulunan lemmalar.
  • Yalnız Yeni Sözcükler YS: Sistem tarafından yeni sözcük adayı olarak işaretlenmiş lemmalar (GTS'de yok, sistemin filtrelerinden geçmiş aday).
  • Yalnız Derlem D: Derlemde geçen ama henüz sınıflandırılmamış lemmalar — GTS'de de yok, yeni sözcük adayı olarak da işaretlenmemiş (özel ad, kısaltma, gürültü gibi elenmiş olabilir veya henüz aday havuzuna girmemiş olabilir).

Bu filtreler, söz varlığını daraltarak her grup içindeki morfolojik davranışı ayrı ayrı incelemenize olanak verir. Örneğin YS adaylarının hangi ekleri aldığını görmek istersiniz.

Atasözleri, deyimler ve birleşik fiillerdeki kümülatif yaygınlık grafiği neyi gösterir?

Bu grafik, ilgili sekmede o anda görünen sayfa veya arama sonucundaki kalıp ifadelerin Derlem (T-BDLD) içindeki doğrudan yakalanan geçişlerini toplar. Kaç kayıt için eşleşme bulunduğunu, toplam geçiş sayısını, milyon sözcük başına oranı, yaygınlık bandı dağılımını ve en sık geçen birkaç kaydı gösterir.

Grafik tüm kategori arşivinin toplamı değildir; aktif listeye göre hesaplanır. Çok uzun veya araya sözcük girebilen kalıplarda madde sayfasındaki ayrıntılı tarama ek kanıt verebilir.

Genel Arama sayfasındaki "Derlem" sekmesi nedir?

Derlem sekmesi, aradığınız sözcüğün T-BDLD derleminde lemma veya çekimli biçim olarak geçtiği tüm kayıtları bağlam göstermeden listeler. Her sonuç şunları içerir:

  • Lemma (sözlük biçimi) ve toplam sıklık (derlemde kaç kez geçti).
  • Çekimli biçimler: lemma'nın derlemdeki yüzey biçimleri, her biri kendi sıklığıyla (ör. kalem (589), kalemi (45), kalemler (21)).
  • Söz türü rozeti (ad/fiil/sıfat/zarf).
  • GTS (kırmızı) veya Yeni (yeşil) rozeti — sözcük sözlükte var mı?
  • "çekimli" (amber) rozeti — aradığınız sözcük lemma değil çekimli biçimse (ör. kalemler) bağlı olduğu lemma (kalem) altında listelenir.

Niçin? Bağlam arama Eşleşen Maddeler/Anlamlar sekmelerinde (GTS) zaten yapılır. Derlem sekmesi, bir sözcüğün derlemdeki morfolojik davranışını (hangi çekimli biçimler ne sıklıkta kullanılıyor) hızlı görmek için kullanılır. Sözlükbilimci için söz varlığı haritalaması ve yüzey biçim dağılımı incelemesinde çok yararlıdır.