Derlem (T-BDLD) — Bağlamsal Alan ve Metin Türü Dağılımları

Türkçe Bağlama Duyarlı Lematizasyon Derlemi · 16 alan/tür · 968.070 yüzeybiçim · 204.084 maddebaşı · 2,81 milyon cümle

⟳ Bu sayfa zamanla güncellenmektedir; derlem genişledikçe sayılar ve bulgular yenilenir.

📖 Bu Sayfa Nedir? — Sayfa İçi Kılavuz

Amaç

Derlem (T-BDLD) Türkçe Bağlama Duyarlı Lematizasyon Derlemi'ndeki her sözcüğün hangi bağlamsal alan ya da metin türüne (bilim, sanat, teknoloji, roman, şiir vb.) ne ölçüde yakın durduğunu; alan/türlerin toplam ağırlığını, kesişimlerini ve en ayırt edici/en dağınık sözcükleri görmek.

16 Alan/Tür

Bilim · Sanat · Teknoloji · Din · Siyaset · Ekonomi · Hukuk · Eğitim · Sağlık · Spor · Tarih · Coğrafya/Doğa · Felsefe · Roman · Öykü · Şiir

Yöntem — özet

  • Çözümleme birimi: cümle (boş satırla ayrılmış).
  • Tohum sözlük biçimleri: Her alan/tür için manuel belirlenmiş çekirdek sözcük listesi; lemma, güvenli ASCII alias ve çok sözcüklü tohumlar birlikte değerlendirilir.
  • Alan/tür ataması: Cümle içindeki tohum eşgörünümüne göre TF-IDF benzeri ağırlık, baskınlık, PPMI ve toplam puan hesaplanır; en yüksek puanı alan alan/tür birincil alan/tür olarak atanır.
  • Özel adlar: Büyük harfli ve kısaltma olarak görülen biçimler dışlandı (~2,7M geçiş).

Metrikler

  • Baskınlık (0-1): Sözcüğün görüldüğü cümlelerin ne kadarı o alan/tür etiketli.
  • PPMI: Sözcük-alan/tür birlikteliğinin beklenenin ne kadar üstünde.
  • Puan: PPMI × birlikte geçiş desteği türevi; birincil alan/tür bu puana göre seçilir, baskınlık güven kapısı olarak kullanılır.
  • Alan/tür entropisi: Sözcüğün alan/türlere dağılım çeşitliliği. 0 = tek alan/türe bağlı, log₂(16) ≈ 4 = tüm alan/türlere eşit dağılmış.
  • Güven düzeyi: yüksek orta düşük — puan eşiklerine göre.
  • Alan/tür durumu: tek alan/tür / baskın (bir alan/tür açıkça önde), karışık (birden fazla alan/türde güçlü sinyal), genel (hiçbir alan/türe ayırt edici değil).

Sınırlılıklar

  • Alan/tür etiketleri sözlüğün ontolojik sınıfı değil, derlemdeki bağlamsal kullanım alanını ya da metin türünü gösterir. Örn. "mektup" hukuk bağlamında daha çok geçebilir; bu "mektup bir hukuk sözcüğüdür" anlamına gelmez.
  • Özel ad süzgeci bilinçli olarak sert tutuldu; bazı ortak sözcükler yanlışlıkla dışlanmış olabilir.
  • Çözümleme cümle düzeyindedir; belge/doküman sınırı işaretlenmemiştir.

Bu Sayfada Kullanılan Kısaltmalar

T-BDLDTürkçe Bağlama Duyarlı Lematizasyon Derlemi. Bu sayfanın veri kaynağı olan ~2,81 milyon cümlelik Türkçe derlem.
GTSGelişmiş Türkçe Sözlük. 99.000+ madde ve 133.000+ anlam içeren sözlük veritabanı; bu sitenin ana başvuru kaynağı.
PPMIPozitif Noktasal Karşılıklı Bilgi (Positive Pointwise Mutual Information). Sözcük ile alan/türün birlikte görülmesinin beklenenden ne kadar üstünde olduğunu gösteren ölçü; negatif değerler sıfıra indirilir. Formül: max(0, log₂[P(s,t) / (P(s)·P(t))])
TTRTip/Token Oranı (Type-Token Ratio). Derlemdeki benzersiz sözcük sayısının toplam sözcük geçişine oranı; sözcük çeşitliliğinin ölçüsü. Düşük TTR = tekrarlı ve geniş metin; yüksek TTR = çeşitli ve kısa metin.
Hapax Legomena (kısaltma değil, Latince terim) — Derlemde yalnız bir kez geçen sözcükler. Bu derlemde sözcüklerin %45'i (39.260 sözcük) hapax niteliğindedir; Zipf yasasının doğal bir sonucudur.
Yükleniyor...
ortak cümle sayısı ≥

Aynı cümlede birden fazla alan/türün tohum sözcükleri geçtiğinde o cümle her ikisi için de sayılır. Yüksek kesişim = yakın alan/tür ilişkisi.

Isı Haritası (16×16)

En Yüksek Kesişimler

📏 Derlem Cümle Benzerlik İstatistikleri

T-BDLD derlemindeki cümle çeşitliliği ve tekrar/yakın-tekrar oranlarını geometrik (TF-IDF + kosinüs) yaklaşımıyla ölçer. BERT/anlam vektörü kullanılmaz.

Hesaplama nasıl çalışır? Tek seferlik hesaplama ~30-60 sn sürer (10 bin cümle örnekleminde TF-IDF vektör çiftlerinin pair-wise kosinüsleri). Sonuç diske yazılır ve sayfada herkese gösterilir; yeniden hesaplama yetkisi yöneticidedir.
Yükleniyor...
Yorum kılavuzu:
  • Düşük ortalama kosinüs (0.10-0.20) + düşük "çok benzer" oranı (<%2) → derlem çeşitli, sağlıklı.
  • Yüksek "çok benzer" oranı (>%5) → şablonik içerik, web teaser tekrarı veya yakın kopya cümleler.
  • Yüksek TTR (>0.05) → zengin söz varlığı; düşük TTR (<0.01) → sınırlı kelime havuzu.
  • Tam tekrar oranı hash imzalarından gelir; predict/crawler dedup pipeline'ı bunu sıfıra yakın tutar.
  • Sözcük PP medyanı (yüzlerce-binler arasında): cümlelerin lemma dizilimleri ne kadar şaşırtıcı? Düşük = kalıplaşmış kullanım; yüksek = yeni/seyrek dizilim.
  • Sözdizimi PP medyanı (3-10 arasında): POS sıralaması ne kadar tipik Türkçe? Düşük = klasik özne-tümleç-yüklem; yüksek = devrik, soru, ünlemli, kompleks yapı.
  • İki PP arasındaki fark anlamlıdır: yüksek sözcük PP + düşük POS PP → tipik yapı içinde alışılmadık sözcükler (özgün bir cümle); düşük sözcük PP + yüksek POS PP → bilinen sözcüklerin sıra dışı düzeni (devrik / soru).

Bu Derlem Bize Ne Anlatıyor?

Bu sekme, bu sayfada sunulan veriye ilişkin ayrıntılı okuma ve yorumlardır. Sayılar çıplak hâlleriyle somuttur; asıl sözlükbilimsel değer, sayıların neyi göstermediğini de bilerek yorumlanmasında yatar. Aşağıda T-BDLD'nin boyut/temsil gücü, özel ad süzgecinin etkisi, alan/tür baskınlıklarının dağılımı, alanlar/türler arası yakınlık örüntüleri, en tanımlayıcı sözcükler, hapax uzun kuyruğu ve bu bulguların GTS için çıkarımları ele alınıyor.

Bu sayfa zamanla güncellenmektedir: derlem genişledikçe, tohum listeleri revize edildikçe veya yöntem iyileştirildikçe hem sayılar hem de aşağıdaki yorumlar yenilenir. Son çözümleme tarihi Özet sekmesinin altında görülebilir.

Bulgular ve yorum hazırlanıyor…