📖 Bu Sayfa Nedir? — Sayfa İçi Kılavuz
Amaç
Derlem (T-BDLD) Türkçe Bağlama Duyarlı Lematizasyon Derlemi'ndeki her sözcüğün hangi bağlamsal alan ya da metin türüne (bilim, sanat, teknoloji, roman, şiir vb.) ne ölçüde yakın durduğunu; alan/türlerin toplam ağırlığını, kesişimlerini ve en ayırt edici/en dağınık sözcükleri görmek.
16 Alan/Tür
Bilim · Sanat · Teknoloji · Din · Siyaset · Ekonomi · Hukuk · Eğitim · Sağlık · Spor · Tarih · Coğrafya/Doğa · Felsefe · Roman · Öykü · Şiir
Yöntem — özet
- Çözümleme birimi: cümle (boş satırla ayrılmış).
- Tohum sözlük biçimleri: Her alan/tür için manuel belirlenmiş çekirdek sözcük listesi; lemma, güvenli ASCII alias ve çok sözcüklü tohumlar birlikte değerlendirilir.
- Alan/tür ataması: Cümle içindeki tohum eşgörünümüne göre TF-IDF benzeri ağırlık, baskınlık, PPMI ve toplam puan hesaplanır; en yüksek puanı alan alan/tür birincil alan/tür olarak atanır.
- Özel adlar: Büyük harfli ve kısaltma olarak görülen biçimler dışlandı (~2,7M geçiş).
Metrikler
- Baskınlık (0-1): Sözcüğün görüldüğü cümlelerin ne kadarı o alan/tür etiketli.
- PPMI: Sözcük-alan/tür birlikteliğinin beklenenin ne kadar üstünde.
- Puan: PPMI × birlikte geçiş desteği türevi; birincil alan/tür bu puana göre seçilir, baskınlık güven kapısı olarak kullanılır.
- Alan/tür entropisi: Sözcüğün alan/türlere dağılım çeşitliliği. 0 = tek alan/türe bağlı, log₂(16) ≈ 4 = tüm alan/türlere eşit dağılmış.
- Güven düzeyi: yüksek orta düşük — puan eşiklerine göre.
- Alan/tür durumu: tek alan/tür / baskın (bir alan/tür açıkça önde), karışık (birden fazla alan/türde güçlü sinyal), genel (hiçbir alan/türe ayırt edici değil).
Sınırlılıklar
- Alan/tür etiketleri sözlüğün ontolojik sınıfı değil, derlemdeki bağlamsal kullanım alanını ya da metin türünü gösterir. Örn. "mektup" hukuk bağlamında daha çok geçebilir; bu "mektup bir hukuk sözcüğüdür" anlamına gelmez.
- Özel ad süzgeci bilinçli olarak sert tutuldu; bazı ortak sözcükler yanlışlıkla dışlanmış olabilir.
- Çözümleme cümle düzeyindedir; belge/doküman sınırı işaretlenmemiştir.
Bu Sayfada Kullanılan Kısaltmalar
Aynı cümlede birden fazla alan/türün tohum sözcükleri geçtiğinde o cümle her ikisi için de sayılır. Yüksek kesişim = yakın alan/tür ilişkisi.
Isı Haritası (16×16)
En Yüksek Kesişimler
📏 Derlem Cümle Benzerlik İstatistikleri
T-BDLD derlemindeki cümle çeşitliliği ve tekrar/yakın-tekrar oranlarını geometrik (TF-IDF + kosinüs) yaklaşımıyla ölçer. BERT/anlam vektörü kullanılmaz.
- Düşük ortalama kosinüs (0.10-0.20) + düşük "çok benzer" oranı (<%2) → derlem çeşitli, sağlıklı.
- Yüksek "çok benzer" oranı (>%5) → şablonik içerik, web teaser tekrarı veya yakın kopya cümleler.
- Yüksek TTR (>0.05) → zengin söz varlığı; düşük TTR (<0.01) → sınırlı kelime havuzu.
- Tam tekrar oranı hash imzalarından gelir; predict/crawler dedup pipeline'ı bunu sıfıra yakın tutar.
- Sözcük PP medyanı (yüzlerce-binler arasında): cümlelerin lemma dizilimleri ne kadar şaşırtıcı? Düşük = kalıplaşmış kullanım; yüksek = yeni/seyrek dizilim.
- Sözdizimi PP medyanı (3-10 arasında): POS sıralaması ne kadar tipik Türkçe? Düşük = klasik özne-tümleç-yüklem; yüksek = devrik, soru, ünlemli, kompleks yapı.
- İki PP arasındaki fark anlamlıdır: yüksek sözcük PP + düşük POS PP → tipik yapı içinde alışılmadık sözcükler (özgün bir cümle); düşük sözcük PP + yüksek POS PP → bilinen sözcüklerin sıra dışı düzeni (devrik / soru).
Bu Derlem Bize Ne Anlatıyor?
Bu sekme, bu sayfada sunulan veriye ilişkin ayrıntılı okuma ve yorumlardır. Sayılar çıplak hâlleriyle somuttur; asıl sözlükbilimsel değer, sayıların neyi göstermediğini de bilerek yorumlanmasında yatar. Aşağıda T-BDLD'nin boyut/temsil gücü, özel ad süzgecinin etkisi, alan/tür baskınlıklarının dağılımı, alanlar/türler arası yakınlık örüntüleri, en tanımlayıcı sözcükler, hapax uzun kuyruğu ve bu bulguların GTS için çıkarımları ele alınıyor.
⟳ Bu sayfa zamanla güncellenmektedir: derlem genişledikçe, tohum listeleri revize edildikçe veya yöntem iyileştirildikçe hem sayılar hem de aşağıdaki yorumlar yenilenir. Son çözümleme tarihi Özet sekmesinin altında görülebilir.