Bir haftadır yazı yazamadım, malum dönem sonları final ve proje teslim dönemleri oluyor. Birkaç gün sonra tekrar eski yoğunluğuma döneceğimi tahmin ediyorum.

Bu yazımın konusu Zemberek. Zemberek Linux işletim sisteminde Türkçe yazım kontrolü yapan açık kaynak kodlu bir program. Linux Şenliği sırasında geliştiricilerinden biri ile tanışma fırsatım olmuştu. Şimdi günlük sayfalarını okurken gerçekten ilginç bilgiler edindim.

Programın çalışma mantığı, bu sayfada anlatıldığı gibi kelimeyi kök ve eklerine ayırıp bunların Türkçe olup olmadığına bakmak. Bunu bir ağaç yapısı kullanarak yapıyor. Geçen sene bitirme projesinde bir web sayfası "sınıflandırıcısı" yapmıştık. O zaman kelimeleri eklerinden ayırmak düşüncesi vardı ama uygulamaya geçememiştik. Yani program Türkçe'yi de İngilizce gibi kullanıyor, mesela "araba" ve "arabam" kelimelerini ayrı anlamlara sahip kelimeler gibi algılıyordu. Bunun direk bir sonucu olarak bizim SmartGuardian adını verdiğimiz programımız Türkçe web sayfalarını öğrenirken yavaş kalıyordu. Bu projemiz aklıma geldi, bir de geçen dönem aldığım Bilişsel Bilimler dersim. Umarım Zemberek gibi projelerin sayısı artar ve yeni sinerjiler yaratabiliriz.

Pardus'ta varsayılan olarak gelip yazım kontrolü yapan Zemberek openoffice programında da yazım kontrolü yapıyormuş. Program sayesinde Türkçe istatistiklerine de ulaşılabiliyor. Bu da başka bir ilginç bilgi.