ЗНАЧЕНИЕ ПАРАЛЛЕЛЬНОГО КОРПУСА КАК ЛИНГВИСТИЧЕСКОЙ БАЗЫ

Авторы

  • Шамсиева Гулшода Аслиддин кизи

Ключевые слова:

компьютерная лингвистика; параллельный корпус; искусственный интеллект; обработка естественного языка (NLP); корпус узбекского языка; машинный перевод; GPT; BERT; корпусная лингвистика; лингвистическая база данных; трансформационная модель; моделирование языка; технологии перевода.

Аннотация

Данная статья посвящена анализу исследований, проведённых в области компьютерной лингвистики в мире и в Узбекистане в период с 2020 по 2025 годы. В исследовании рассматриваются теоретические основы компьютерной лингвистики, языковые модели на основе искусственного интеллекта (GPT, BERT, LLaMA и др.), а также роль параллельных корпусов как лингвистической базы. Анализ международного опыта показывает, что в течение последних пяти лет приоритетными направлениями в компьютерной лингвистике стали обучение языковых моделей на основе нейронных трансформерных архитектур, создание многоязычных параллельных корпусов и совершенствование систем автоматического перевода.

В Узбекистане сфера компьютерной лингвистики демонстрирует переход от преимущественно прикладного этапа к научно-аналитическому, что отражается в реализации таких проектов, как корпус узбекского языка (uzbekcorpus.uz) и Paratranslator. В исследовании использованы методы системного анализа научной литературы, сравнительно-лингвистические и корпусные методы, а также аналитические возможности моделей искусственного интеллекта.

Библиографические ссылки

Devlin, J., Chang, M.-W., Lee, K., Toutanova, K. BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding // Proceedings of NAACL-HLT. – 2019. – P. 4171–4186. – URL: https://aclanthology.org/N19-1423/

Brown, T., Mann, B., Ryder, N., Subbiah, M., Kaplan, J., Dhariwal, P. Language Models Are Few-Shot Learners // arXiv preprint arXiv:2005.14165. – 2020. – URL: https://arxiv.org/abs/2005.14165

Kenning, M. M. What Are Parallel and Comparable Corpora and How Can We Use Them? // Routledge Handbook of Translation Studies. – 2010. – P. 487–498. – DOI: 10.4324/9780203856949-42

Čermák, F., Rosen, A. The Case of InterCorp: Corpora of Parallel Texts // International Journal of Corpus Linguistics. – 2012. – Vol. 17(3). – P. 411–427. – DOI: 10.1075/ijcl.17.3.05cer

Zanettin, F. Parallel Corpora in Translation Studies: Issues in Corpus Design and Analysis // In: The Routledge Handbook of Translation Studies. – 2017. – P. 89–105. – DOI: 10.4324/9781315759951-8

Doval, I., Nieto, M. T. S. Parallel Corpora in Focus: Learning Corpora, Teaching and Research Applications // University of Santiago de Compostela Press. – 2019. – URL: https://minerva.usc.es/bitstreams/731b612a-e792-48d9-941c-43e29ea2cc10/download

Lefer, M. A. Parallel Corpora // In: Empirical Translation Studies: New Methodological and Theoretical Perspectives. – Springer, 2021. – P. 233–252. – DOI: 10.1007/978-3-030-46216-1_12

Abdurakhmonova, N., Shamsiyeva, G. Context-Based Multilingual Translation Technology: on the Example of the Paratranslator Platform. In: Proceedings of the 10th International Conference on Computer Science and Engineering (IEEE UBMK’25), Istanbul, Türkiye, 2025, pp. 1800–1804.

Загрузки

Опубликован

2026-04-02