Bilgisayar Bilimleri

Bilgisayar Bilimleri

Creating a Parallel Corpora for Turkish-English Academic Translations

Yazarlar: İlhami SEL, Hüseyin ÜZEN, Davut HANBAY

Cilt IDAP-2021 : 5th International Artificial Intelligence and Data Processing symposium , Sayı Special , 2021 , Sayfalar 335 - 340

Konular:Bilgisayar Bilimleri, Yapay Zeka

DOI:10.53070/bbd.990959

Anahtar Kelimeler:Paralel Corpora,Sinirsel Makine Çevirisi,Cümle Hizalama,Doğal Dil İşleme.

Özet: Paralel corpora aynı anlama gelen cümlelerin farklı dillerde temsil edilmesiyle oluşturulan veri setleridir. Makine çeviri sistemlerinde kaliteyi belirleyen en önemli öğelerden birisi büyük miktarda ve yüksek kalitede oluşturulmuş paralel corporadır. Türkçe – İngilizce dil çifti için oluşturulan bu tür veriler genellikle yetersizdir. Bu çalışmada Türkçe – İngilizce dilleri arasında akademik çeviriler için kullanılabilecek büyük miktarda paralel corpora oluşturulmuştur. Bu veri seti oluşturulurken lisansüstü tezlerinin özet kısımları kullanılmıştır. Vecalign ve Hunalign gibi cümle hizalama algoritmaları kullanılarak en iyi eşleştirmeler elde edilmiştir. Yapılan çalışmalar sonucunda 1M paralel cümle çifti elde edilmiştir. Ayrıca elde edilen verinin kalitesini ölçebilmek için Bi-LSTM tabanlı çeviri sistemi oluşturulmuştur. Oluşturulan model TED(Tr-En) test seti üzerinde sıfır vuruş öğrenme (zero shot learning) yöntemiyle 15.8 Bleu puanı elde etmiştir.


ATIFLAR
Atıf Yapan Eserler
Henüz Atıf Yapılmamıştır

KAYNAK GÖSTER
BibTex
KOPYALA
@article{2021, title={Creating a Parallel Corpora for Turkish-English Academic Translations}, volume={IDAP-2021 : 5th International Artificial Intelligence and Data Processing symposium}, number={335–340}, publisher={Bilgisayar Bilimleri}, author={İlhami SEL,Hüseyin ÜZEN,Davut HANBAY}, year={2021} }
APA
KOPYALA
İlhami SEL,Hüseyin ÜZEN,Davut HANBAY. (2021). Creating a Parallel Corpora for Turkish-English Academic Translations. Bilgisayar Bilimleri.
MLA
KOPYALA
İlhami SEL,Hüseyin ÜZEN,Davut HANBAY. Creating a Parallel Corpora for Turkish-English Academic Translations. no. 335–340, Bilgisayar Bilimleri, 2021.