Amaç
Türkçe Bağlama Duyarlı Lematizasyon Derlemi'nde (T-BDLD) geçen ve GTS sözlükte mevcut olan sözcükleri göstermek. GTS'nin söz varlığının derlemde ne kadar kullanıldığını, hangi sözcüklerin yaygın, hangilerinin nadir olduğunu ölçmek.
Ne İşe Yarar?
- Söz varlığı kapsama oranını görürsünüz: GTS'teki kaç sözcük gerçekten derlemde geçiyor?
- Sıklık dağılımı: En çok kullanılan sözlük sözcüklerini listeler (sözlükbirim sıklığı).
- Alan/Söz türü filtreleri ile belirli türden sözcüklere odaklanabilirsiniz.
- Derlemde hiç geçmeyen sözlük sözcüklerini tespit etmek için başlangıç noktasıdır (sıklık=0 filtresi).
Terimler
- T-BDLD: Türkçe Bağlama Duyarlı Lematizasyon Derlemi (yaklaşık 21,9M tokenlik derlem).
- Lematizasyon: Çekimli sözcüğü sözlük biçimine (kökü+yapım ekleri) indirme. Ör: kitapları → kitap.
- Sıklık: Bir sözcüğün derlemde kaç kez geçtiği.
- Söz türü: Ad, sıfat, fiil, zarf gibi dilbilgisel kategoriler.
- Alan: Bir sözcüğün ait olduğu konu alanı (Din, Hukuk, Spor vb.).
- Kapsama oranı: Sözlükteki sözcüklerin kaçta kaçının derlemde geçtiği (% olarak).
Kullanım İpuçları
- "Sözcük Ara" kutusu Türkçe karakterleri normalleştirerek arar (çğıöşü → cgiosu).
- Sıklık sütunundan büyük/küçük sıralayarak en çok/az kullanılan sözcükleri görebilirsiniz.
- Derlemde 0 geçişli sözcükler yazı dilinde kullanılmayan ama sözlükte tutulan nadir sözcüklerdir.