Neural Machine Translation System: English-to-Russian

💖 Support My GITHUB Open Projects

Complete implementation of English-to-Russian neural machine translation system using attention mechanisms and transformer architectures.

Overview

This project develops and evaluates a neural machine translation (NMT) system for English-to-Russian translation using modern deep learning approaches. The system fine-tunes the Helsinki-NLP/opus-mt-en-ru pre-trained model on the opusbooks dataset.

Features

Transformer-based architecture with attention mechanisms
Fine-tuned Helsinki-NLP/opus-mt-en-ru model
Training on 10,000+ sentence pairs from opusbooks
Evaluation using multiple metrics (BLEU, chrF, TER)
Handling of Russian morphological complexity
Integration with Hugging Face Transformers library

Performance Metrics

SacreBLEU Score: 22.6
chrF Score: 48.5
Training: Kaggle T4 GPU environment
Dataset: OpenParallel opusbooks (EN-RU)

Installation

pip install torch transformers datasets evaluate

Dataset • Source: OpenParallel opusbooks corpus • Language Pair: English → Russian • Training Samples: 10,000+ • Format: JSON with ‘src’ and ‘tgt’ fields Architecture • Model: Sequence-to-Sequence with Transformer encoder-decoder • Encoder: Multi-head self-attention (12 heads) • Decoder: Masked multi-head attention with cross-attention • Vocabulary: BPE tokenization (32k tokens) Related Publications • Development and Evaluation of an English-to-Russian Neural Machine Translation System • Developpement et Evaluation d’un Systeme de Traduction Automatique Neuronale • Systeme de traduction automatique neuronal du russe vers l’anglais (Conference)

Hugging Face Model Card

See: https://huggingface.co/Helsinki-NLP/opus-mt-en-ru

License

MIT License - See LICENSE file for details

Author

Dominique S. Loyer

ORCID: https://orcid.org/0009-0003-9713-7109
GitHub: https://github.com/DominiqueLoyer
Affiliation: Universite du Quebec a Montreal (UQAM)

Challenges & Solutions

Russian Morphological Complexity

Solution: Fine-tuning on morphologically rich dataset
Pre-trained model handles inflectional suffixes
Subword tokenization captures Russian morphology

Data Quality

Solution: Filtering of low-quality alignments
Validation on in-domain test set
Manual review of translation outputs

Future Work

Multilingual support (French, German)
Bidirectional translation (RU-EN)
Domain-specific fine-tuning
Integration with back-translation for data augmentation
Evaluation on news domain benchmark

Contributing

Contributions welcome! Areas of interest:

Back-translation data augmentation
Domain adaptation experiments
Evaluation on standard benchmarks

Last Updated: January 6, 2026 Status: Ready for production use

Bleu Score

scorebleu31_enfr_avecAméliorations_22mai

Name		Name	Last commit message	Last commit date
Latest commit History 18 Commits
LICENSE		LICENSE
README.md		README.md
TAN.pdf		TAN.pdf
bleu24_tan_projet2_22avril(plus haut score).ipynb		bleu24_tan_projet2_22avril(plus haut score).ipynb
en-fr.ipynb		en-fr.ipynb
en-fr_13juin25.ipynb		en-fr_13juin25.ipynb
neuronal-translation.pdf		neuronal-translation.pdf
projet_tan_(kaggle_gpu)_en_ru_(v2_23avril).py		projet_tan_(kaggle_gpu)_en_ru_(v2_23avril).py
scorebleu31_enfr_avecAméliorations_22mai.png		scorebleu31_enfr_avecAméliorations_22mai.png
taln-enru-17avril25.ipynb		taln-enru-17avril25.ipynb

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Neural Machine Translation System: English-to-Russian

💖 Support My GITHUB Open Projects

Overview

Features

Performance Metrics

Installation

Hugging Face Model Card

License

Author

Challenges & Solutions

Russian Morphological Complexity

Data Quality

Future Work

Contributing

Bleu Score

About

Uh oh!

Releases 2

Packages

Uh oh!

Uh oh!

Contributors

Uh oh!

Languages

Folders and files

Latest commit

History

Repository files navigation

Neural Machine Translation System: English-to-Russian

💖 Support My GITHUB Open Projects

Overview

Features

Performance Metrics

Installation

Hugging Face Model Card

License

Author

Challenges & Solutions

Russian Morphological Complexity

Data Quality

Future Work

Contributing

Bleu Score

About

Resources

License

Uh oh!

Stars

Watchers

Forks

Releases 2

Packages 0

Uh oh!

Uh oh!

Contributors

Uh oh!

Languages

Packages