Bir metni telefonda veya bilgisayarda yazarken bu metne yazım denetimi yapın diyoruz. Ardından bazı kelimelerin altında kesik kırmızı çizgiler çıkıyor. Bunlardan bazılarını yanlış bulup düzeltiyoruz veya programa otomatik tashih et diyoruz. Telefonda mesajlaşma uygulamalarında mesaj yazarken bir kelimeye başlayınca hemen karşımıza altta birkaç tane opsiyon çıkıyor. Bitirince de bir sonraki kelime için 3-4 tane seçenek veriyor. Bu durum epeydir e-postalarımızda da yaşanıyor. Makinelere bunları insanlar kodladıysa peki biz insanlar bu bilgiyi nerden alıp makinelere yükledik?

Tercüme programları, metin tashih ve metin analiz programlarının temeli yine biz insanlara ve dilimize dayanıyor. Dil, esasında ortak bir kabuldür. Diğer bir deyişle ictimai bir uzlaşmadır. Hangi kelimeye ne anlam yüklendiği, hangi kelimenin sıfat, zarf, zamir, fiil olacağı, cümle içerisinde neyin ne manaya geldiği vb. o dilin konuşurlarının umumi müşterekliğine istinat eder.

Toplumsal uzlaşı denilen dilin hammaddesi öncelikle seslerdir. Türkiye Türkçesi güncel alfabesinde 29, halk dilinde 35 civarında sese sahiptir. Bu sesler tek başlarına hemen hiçbir bir mana ifade etmezler. Ettiklerini varsaysak bile 30-35 kelime ile dil olmaz. O zaman bu seslerin birden fazlasının ortak kabulle yan yana gelip kelimeler meydana getirmesi gerekir. Bu duruma dil bilimde seslerin birbirlerine eklemlenmesi denir. İki, üç, dört veya daha fazla ses birbirlerine eklemlenerek kelimeleri vücuda getirirler. Milyarlarca kombinasyon içinde sadece birkaç yüz bini bir anlam ifade eder. Seslerden meydana gelen her bir anlamlı kombinasyon dile bir mana katmış olur. Seslerin kaç tanesinin bir kelime edeceği ya da hangi sesin hangi sırada geleceği yine içtimai mutabakatla sağlanır. Seslerin kimi ince, kimi kalın, kendinden ünlü veya ünsüz gibi ortak kaideler de bu minvalde ortaya çıkmış olur. Yani aslında gramer kaideleri ortak kabulün anlaşma maddeleridir de diyebiliriz.

Dildeki kelime sayısı aynı zamanda harfler veya diğer bir tabirle seslerin anlamı olan kombinasyonları kadardır. İşte bu noktada dildeki bütün anlamlı eklemlenmiş ses kombinasyonlarını bir programa kaydetmemiz lazımdır. Böylece bir metin yazıldığında neyin dilde olup olmadığı veya hata olduğunu bize söylemiş olacaktır. Böyle programların öncüsü 1995’te ilk defa piyasaya sürülen dijital sözlüklerle olmuştur. Dijital sözlüklerle başlayan yolculuk ilerledikçe yukarıda bahsedilen programlar geliştirilmiştir.

Lisanların ikinci eklemlenme şekli kelimelerin toplumsal uzlaşıyla muayyen olan bir sıralamayla bir araya gelip cümleler meydana getirmesidir. Burda kelimeler cümledeki yerlerine ve aldıkları eklere göre kelime türleri diye tasnif edilirler. Türkçe tercüme programı KeNet (word net) yani kelime ağı sekiz farklı kelime türüne göre ilk olarak 2004 senesinde BalkaNet ismiyle hazırlanmıştır. Buna göre BalkaNet’te 14.626 eş anlamlı dizi ve 19.834 iç anlamsal ilişki belirlenmiştir. Bu anlamsal ilişkilere göre isimler 44.074, fiiller 17.791, sıfatlar 12.416, zarflar 2.550, ünlemler 3342, zamirler 68, bağlaçlar 60, edatlar 29 olmak üzere toplamda 77.330 madde sisteme girilmiştir (Bakay, Ergelen, Sarmış, Yıldırım, Kocabalcıoğlu, Arıcan, Özçelik, Sanıyar, Kuyrukçu, Avar ve Yıldız, 2021, s. 169). Yani bazı aynı anlamı karşılayan sinonimlerin de toplanmasıyla bu sayıya ulaşılmıştır. Günümüzde üstte sayıları verilen sekiz kategoride KeNet’te 77.330 kelime öbeği, 109.049 kelime öbeği parçacığı ve 80.956 ayrı müstakil kelime öbeği bulunmaktadır. Kelime öbeklerinin kelime sayısına gelince, bunların çoğunluğunun tek (72.436 – %66,48) veya iki kelimeden (31.705 – %29,36) oluştukları ancak yedi kelimeye kadar çıkanları dahi bulunduğu belirlenmiştir (Bakay, Ergelen, Sarmış, Yıldırım, Kocabalcıoğlu, Arıcan, Özçelik, Sanıyar, Kuyrukçu, Avar ve Yıldız, 2021, s. 169). 

Kelimelerin cümle içerisinde aldıkları yerlere ve müstakil anlamlarına göre girişleri yapıldıktan sonra bu kelimelerin birbirleriyle ne tür bir ilişki içerisinde oldukları da sisteme girilmelidir. Bunlar temel anlam (45,389), türemiş anlam (39,682), terim anlam (15,366), özel anlam (2,718), zıt anlam (1,884), genel anlam (1,345), yakın anlam (862), yan anlam (367) ve niteleme (226) olmak üzere dokuz farklı sınıfa ayrılmışlardır. Ardından bu kelimelerin ilk hazırlanan dil olan İngilizceyle KeNet ve PWN şeklinde eşleştirmeleri yapılmıştır. Arzu edenler üstte kaynak verdiğimiz tebliğden kaç tanesinin birebir ve bire çok biçimde eşleştirildiğini, kaç kelime grubunun eşleşmede vb. kullanıldığına bakabilir.

Son olarak bir tercüme ve metin analiz programında olması gereken biraz önce geçtiği üzere anlam sahalarının belirlenmesi ve kelimelerin ilgili anlamlarının o sahaların altlarına yerleştirilmeleridir. Çünkü kelimelerin epey kısmı tek anlamlıyken bazı kelimeler ise birden fazla sahada anlamlara sahiptirler. Mesela; burun, kaş, sırt, ağız, çene, baş, ayak, kol, göz hem bir uzuvken hem de bir coğrafi terimdir. Çenem ağrıyor ile çeneyi döndüm cümleleri farklı anlamlara sahip. Ağzını aç ile mağaranın ağzından girdim de yine aynı kelimelerin yanındaki kelimelerle ikinci, üçüncü, beşinci vs. anlamlarının kullanılmasına örnektir.

Türkçe için sekiz ana tema altında 139 anlam sahası belirlenmiştir. Bunlardan 123 tanesi İngilizceyle ortak olup 16’sı ise Türkçeye hastır. Bu ilk çalışma 139 anlam sahasında 2561 eş anlamlı küme ve 4080 sözcük birimi sunmaktadır (Marşan, Kara, Özçelik, Arıcan, Cesur, Kuzgun, Sanıyar, Kuyrukçu ve Yıldız, 2021). Bütün bu işlemlerin ardından bir tercüme programı hazır hâle gelmiş demektir. Misal vermek gerekirse diyelim ki tabiat bir ana başlığımız olsun. Bu ana başlık altında orman kelime kümesi yer alsın. Bu kelime yığınının altında da ağaç alt dalı bulunduralım. İşte bu alt dala ne kadar ağaçla ilgili kelime varsa ekleyelim. İşte bu işi 2561 alt küme için tek tek yapalım. Bütün bu binlerce saatlik çalışma sonrası dilimizin kelimeleri arasındaki anlam ağları programa girilmiş olacaktır.

Dil canlı ve her geçen gün değişen ve farklılaşan bir varlıktır. Ayrıca ıskalanmış ya da nadir kullanılan kelimeler de sisteme dâhil edilmemiş olabilecektir. Bu açıdan anılan programlar kullanıcılarına uygulamayı geliştirmeleri için önerilerde bulunmalarını da istemektedirler. Metin tashihi eklemlenmeye, tercüme programı kelime türleri ve ilişkileri temelinde çalışırken metin analiz programları ise metindeki kelimelerin hangi anlam sahalarına ait olduklarını belirleme esası üzerine kurulmuştur. 

Kaynaklar

Bakay, Ö., Ergelen, Ö., Sarmış, E., Yıldırım, S., Kocabalcıoğlu, A., Arıcan, B. N., Özçelik, M.,  Sanıyar, E., Kuyrukçu, O., Avar, B. & Yıldız, O. T. (2021). Turkish WordNet KeNet. Global Wordnet Conference At: Virtual Conference (ss. 166-174).

Marşan, B., Kara, N., Özçelik, M.,  Arıcan, B. N., Cesur, N., Kuzgun, A., Sanıyar, E., Kuyrukçu, O. & Yıldız, O. T. (2021). Global Wordnet Conference At: Virtual Conference (ss. 118-125).