Türk Dil Kurumunun sitesinde belirttiği kurallara göre heceleme yapan bir uygulamadır.
Kurum, üç adet kural belirtmiştir:
- Türkçede kelime içinde iki ünlü arasındaki ünsüz, kendinden sonraki ünlüyle hece kurar: a-ra-ba, bi-çi-mi-ne, in-sa-nın, ka-ra-ca vb.
- Kelime içinde yan yana gelen iki ünsüzden ilki kendinden önceki ünlüyle, ikincisi kendinden sonraki ünlüyle hece kurar: al-dı, bir-lik, sev-mek vb.
- Kelime içinde yan yana gelen üç ünsüz harften ilk ikisi kendinden önceki ünlüyle, üçüncüsü kendinden sonraki ünlüyle hece kurar: alt-lık, Türk-çe, kork-mak vb.
Kuralların girmediği detaylar var.
-
Sözcüğe baştan mı yoksa sondan mı bakılarak heceler kurulacak? Belli değil.
Kurallar bir tür kümeleme (clustering) tekniği ima etmektedir. Halbuki bilgisayarda metinler string olarak tutulur, yani kümeli değil sıralı (sequential) bir veri yapısıdır, iteratif işlenirler. Kümeleyici anlatımı bu yapıya uyarlamak durumundayız. Baştan veya sondan fark etmez. Baştan yani okuma yönünde giderek heceleme yapan bir çözüm olsun. -
“Hece yapar” demek, “hecedir” demek değil.
Somurtkan sözcüğünü ele alalım. Birinci kurala göre m harfi u ile hece yapar, ancak -mu doğru hece değildir. Üçünü kurala göre rt de u ile hece yapar. Bu ikisi birleştirilecek ve nihai -murt hecesi saptanacak. Yani iki adımda bir hece bulundu. Fakat a-ra-ba örneğinde bu durum yok, tek adımda hece bulunuyor. -
Ünlüler arasında olmayan ünsüz nasıl işlenecek?
Sözcük başında ve sonunda bulunan ünsüzler hiçbir kurala uymuyor. Bunlar kendine en yakın heceye eklemlenecek gibi kabul ediyoruz. -
Ünsüzler arasında olmayan ünlü (yanyana iki ünlü) nasıl işlenecek?
Kaide sözcüğünü ele alalım. Hiçbir kurala uymadığı için K harfini atladık. d harfi birinci kurala göre e ile hece yaptı. Geriye kalan Kai hangi kurala göre hecelenecek? Benzer durum fiil, şiir, nail gibi sözcüklerde de var: hiçbir kurala uymadıkları için baştaki ve sondaki ünsüzleri atladık, geriye yanyana iki ünlü kaldı, hangi kurala göre heceleme yapılacak? -
Bazı birleşik sözcükler ve yabancı kökenli terimlerde kurallar doğru işlemiyor.
Vanspor , Demirspor , Trabzonspor , Şokokrem gibi birleşikler üçüncü kurala göre heceleniyor ve istenmeyen sonuçlar elde ediyoruz: Vans-por, Demirs-por, Trabzons-por, Şokok-rem. Yine Elektrik, Elektronik gibi terimler üçüncü kurala göre heceleniyor ve yanlış sonuç veriyor: Elekt-rik, Elekt-ronik.
Bu sorunlara resmi çözümler ortaya konulmadan bir algoritmanın oluşturulması mümkün görülmemektedir. Türkçe heceleme için özgün https://github.com/alperali/hecele çözümü halen mevcuttur.