Name: Türkçe Bağlama Duyarlı Lematizasyon Derlemi — Bağlamsal Alan ve Metin Türü Dağılımları (T-BDLD)
Creator: Gelişmiş Türkçe Sözlük
License: https://gtsanlam.shakalin.net/

📖 Bu Sayfa Nedir? — Sayfa İçi Kılavuz

Amaç

Derlem (T-BDLD) Türkçe Bağlama Duyarlı Lematizasyon Derlemi'ndeki her sözcüğün hangi bağlamsal alan ya da metin türüne (bilim, sanat, teknoloji, roman, şiir vb.) ne ölçüde yakın durduğunu; alan/türlerin toplam ağırlığını, kesişimlerini ve en ayırt edici/en dağınık sözcükleri görmek.

16 Alan/Tür

Bilim · Sanat · Teknoloji · Din · Siyaset · Ekonomi · Hukuk · Eğitim · Sağlık · Spor · Tarih · Coğrafya/Doğa · Felsefe · Roman · Öykü · Şiir

Yöntem — özet

Çözümleme birimi: cümle (boş satırla ayrılmış).
Tohum sözlük biçimleri: Her alan/tür için manuel belirlenmiş çekirdek sözcük listesi; lemma, güvenli ASCII alias ve çok sözcüklü tohumlar birlikte değerlendirilir.
Alan/tür ataması: Cümle içindeki tohum eşgörünümüne göre TF-IDF benzeri ağırlık, baskınlık, PPMI ve toplam puan hesaplanır; en yüksek puanı alan alan/tür birincil alan/tür olarak atanır.
Özel adlar: Büyük harfli ve kısaltma olarak görülen biçimler dışlandı (~2,7M geçiş).

Metrikler

Baskınlık (0-1): Sözcüğün görüldüğü cümlelerin ne kadarı o alan/tür etiketli.
PPMI: Sözcük-alan/tür birlikteliğinin beklenenin ne kadar üstünde.
Puan: PPMI × birlikte geçiş desteği türevi; birincil alan/tür bu puana göre seçilir, baskınlık güven kapısı olarak kullanılır.
Alan/tür entropisi: Sözcüğün alan/türlere dağılım çeşitliliği. 0 = tek alan/türe bağlı, log₂(16) ≈ 4 = tüm alan/türlere eşit dağılmış.
Güven düzeyi: yüksek orta düşük — puan eşiklerine göre.
Alan/tür durumu: tek alan/tür / baskın (bir alan/tür açıkça önde), karışık (birden fazla alan/türde güçlü sinyal), genel (hiçbir alan/türe ayırt edici değil).

Sınırlılıklar

Alan/tür etiketleri sözlüğün ontolojik sınıfı değil, derlemdeki bağlamsal kullanım alanını ya da metin türünü gösterir. Örn. "mektup" hukuk bağlamında daha çok geçebilir; bu "mektup bir hukuk sözcüğüdür" anlamına gelmez.
Özel ad süzgeci bilinçli olarak sert tutuldu; bazı ortak sözcükler yanlışlıkla dışlanmış olabilir.
Çözümleme cümle düzeyindedir; belge/doküman sınırı işaretlenmemiştir.

Bu Sayfada Kullanılan Kısaltmalar

T-BDLD — Türkçe Bağlama Duyarlı Lematizasyon Derlemi. Bu sayfanın veri kaynağı olan ~2,81 milyon cümlelik Türkçe derlem.

GTS — Gelişmiş Türkçe Sözlük. 99.000+ madde ve 133.000+ anlam içeren sözlük veritabanı; bu sitenin ana başvuru kaynağı.

PPMI — Pozitif Noktasal Karşılıklı Bilgi (Positive Pointwise Mutual Information). Sözcük ile alan/türün birlikte görülmesinin beklenenden ne kadar üstünde olduğunu gösteren ölçü; negatif değerler sıfıra indirilir. Formül: max(0, log₂[P(s,t) / (P(s)·P(t))])

TTR — Tip/Token Oranı (Type-Token Ratio). Derlemdeki benzersiz sözcük sayısının toplam sözcük geçişine oranı; sözcük çeşitliliğinin ölçüsü. Düşük TTR = tekrarlı ve geniş metin; yüksek TTR = çeşitli ve kısa metin.

Hapax Legomena (kısaltma değil, Latince terim) — Derlemde yalnız bir kez geçen sözcükler. Bu derlemde sözcüklerin %45'i (39.260 sözcük) hapax niteliğindedir; Zipf yasasının doğal bir sonucudur.

Yükleniyor...

Eşik: ortak cümle sayısı ≥

Aynı cümlede birden fazla alan/türün tohum sözcükleri geçtiğinde o cümle her ikisi için de sayılır. Yüksek kesişim = yakın alan/tür ilişkisi.

Isı Haritası (16×16)

En Yüksek Kesişimler

📏 Derlem Cümle Benzerlik İstatistikleri

T-BDLD derlemindeki cümle çeşitliliği ve tekrar/yakın-tekrar oranlarını geometrik (TF-IDF + kosinüs) yaklaşımıyla ölçer. BERT/anlam vektörü kullanılmaz.

Hesaplama nasıl çalışır? Tek seferlik hesaplama ~30-60 sn sürer (10 bin cümle örnekleminde TF-IDF vektör çiftlerinin pair-wise kosinüsleri). Sonuç diske yazılır ve sayfada herkese gösterilir; yeniden hesaplama yetkisi yöneticidedir.

Yükleniyor...

Yorum kılavuzu:

Düşük ortalama kosinüs (0.10-0.20) + düşük "çok benzer" oranı (<%2) → derlem çeşitli, sağlıklı.
Yüksek "çok benzer" oranı (>%5) → şablonik içerik, web teaser tekrarı veya yakın kopya cümleler.
Yüksek TTR (>0.05) → zengin söz varlığı; düşük TTR (<0.01) → sınırlı kelime havuzu.
Tam tekrar oranı hash imzalarından gelir; predict/crawler dedup pipeline'ı bunu sıfıra yakın tutar.
Sözcük PP medyanı (yüzlerce-binler arasında): cümlelerin lemma dizilimleri ne kadar şaşırtıcı? Düşük = kalıplaşmış kullanım; yüksek = yeni/seyrek dizilim.
Sözdizimi PP medyanı (3-10 arasında): POS sıralaması ne kadar tipik Türkçe? Düşük = klasik özne-tümleç-yüklem; yüksek = devrik, soru, ünlemli, kompleks yapı.
İki PP arasındaki fark anlamlıdır: yüksek sözcük PP + düşük POS PP → tipik yapı içinde alışılmadık sözcükler (özgün bir cümle); düşük sözcük PP + yüksek POS PP → bilinen sözcüklerin sıra dışı düzeni (devrik / soru).

Bu Derlem Bize Ne Anlatıyor?

Bu sekme, bu sayfada sunulan veriye ilişkin ayrıntılı okuma ve yorumlardır. Sayılar çıplak hâlleriyle somuttur; asıl sözlükbilimsel değer, sayıların neyi göstermediğini de bilerek yorumlanmasında yatar. Aşağıda T-BDLD'nin boyut/temsil gücü, özel ad süzgecinin etkisi, alan/tür baskınlıklarının dağılımı, alanlar/türler arası yakınlık örüntüleri, en tanımlayıcı sözcükler, hapax uzun kuyruğu ve bu bulguların GTS için çıkarımları ele alınıyor.

⟳ Bu sayfa zamanla güncellenmektedir: derlem genişledikçe, tohum listeleri revize edildikçe veya yöntem iyileştirildikçe hem sayılar hem de aşağıdaki yorumlar yenilenir. Son çözümleme tarihi Özet sekmesinin altında görülebilir.

Bulgular ve yorum hazırlanıyor…