Автор24

Информация о работе

Подробнее о работе

Страница работы

Применение методов машинного перевода для решения задачи упрощения предложений на русском языке

  • 62 страниц
  • 2021 год
  • 0 просмотров
  • 0 покупок
Автор работы

BESKONECHNO

Профессор, кэн

2500 ₽

Работа будет доступна в твоём личном кабинете после покупки

Гарантия сервиса Автор24

Уникальность не ниже 50%

Фрагменты работ

Введение
Автоматические методы обработки естественного языка в последние годы вызывают все больший интерес. Исследователям удалось достичь значительных успехов в данной области. Например, уже сегодня люди часто прибегают к машинному переводу для того, чтобы перевести какую-то информацию или общаться на иностранном языке. На данный момент эта задача чаще всего решается с помощью sequence-to-sequence обучения, также как и задача упрощения предложений, которая заключается в превращении исходного предложения в его упрощенный вариант с помощью удаления сложных лексических единиц и синтаксических конструкций или их замены на более простые.
Решение вышеупомянутых задач является одним из приоритетных направлений в сфере обработки естественного языка, так как это существенно помогло бы продвинуться в понимании как структуры отдельных языков, так и связей между разными языками мира в целом. С практической же точки зрения создание системы машинного перевода, позволяющей добиться качества, сопоставимого с эталоном человеческого перевода, открыло бы большие возможности для перевода текстов, принадлежащих специфическим областям. Что касается упрощения предложений, решение этой задачи релевантно для приведения информации в более простой и доступный вид, который будет понятен, например, детям, людям с когнитивными отклонениями и тем, кто только начинает изучать иностранный язык.
Есть много статей, посвященных изучению преимуществ применения методов машинного перевода для автоматического упрощения предложений. Исследователи подробно осветили, как модели, созданные для перевода, могут быть адаптированы для упрощения предложений, а также как автоматически переведенные данные могут быть использованы для обучения или точной настройки моделей. Хотя в этой области было много достижений, все еще остаются и значительные пробелы, обусловленные следующими причинами. Во-первых, применяемые методы машинного перевода по-прежнему допускают серьезные ошибки как на синтаксическом, так и на грамматическом уровне и не учитывают вариативность языка. Более того, отсутствие в некоторых языках, отличных от английского, общедоступного параллельного корпуса для упрощения предложений не позволяет исследователям экспериментировать с текстами на данном языке.
Таким образом, хотя авторы многих исследований успешно рассмотрели обе sequence-to-sequence задачи в отдельности и конкретно то, как машинный перевод может быть использован для создания модели, позволяющей получать упрощенные предложения, - многие проблемы все еще только предстоит решить.
Актуальность данной работы обусловлена тем, что задача автоматического упрощения предложений не была достаточно изучена в русском языке. Данное исследование является частью проекта в рамках соревнования RuSimpleSentEval , посвященного автоматическому упрощению предложений. Одной из основных задач проекта было создание первого русскоязычного параллельного корпуса упрощенных предложений. Ранее такого оригинального корпуса, так же, как и автоматически переведенного с английского набора данных для этой задачи не существовало. Кроме того, самой проблеме обучения модели для автоматического упрощения предложений на русском языке не было уделено должное внимание.
Таким образом, основной целью этого исследования является изучение роли машинного перевода в обучении моделей для автоматического упрощения предложений и преодоления проблемы нехватки данных. Данная работа должна внести вклад в изучение машинного перевода как в общем, так и в контексте упрощения русскоязычных предложений.
В таком случае, объектом исследования будут являться методы машинного перевода, а предметом – их применение для перевода параллельных корпусов простых предложений и обучения моделей для упрощения предложений на русском языке.
Для достижения поставленной цели нужно выполнить следующие задачи:
1. Перевести с помощью инструментов машинного перевода с английского на русский параллельный корпус WikiLarge [39].
2. Оценить качество как полученного перевода, так и в отдельности качество полученного русскоязычного корпуса простых предложений. Характеристики переведенного корпуса также будут сравнены с характеристиками валидационной части корпуса русскоязычных упрощений, собранных на краудсорсинговой платформе Толока.
3. Использовать переведенные данные для точной настройки модели mBart [21] для упрощения предложений, обучить таким образом несколько моделей, затем оценить их и сравнить.
4. Провести опрос, чтобы получить также и человеческую оценку перевода и полученных упрощенных предложений.
5. Обработать все полученные результаты и сделать выводы, основанные на данных.
Согласно поставленной цели и задачам были использованы следующие методы:
1. Теоретический анализ релевантной в рамках темы работы литературы
2. Эксперименты с обучением моделей для перевода с английского на русский и упрощения предложений
3. Количественная оценка корпусов и качества упрощения с помощью популярных в данных областях метрик
4. Качественная оценка посредством анализа грамматических ошибок и разбора отдельных кейсов
5. Проведение опроса и количественный анализ полученных данных
Основным материалом для исследования послужили англоязычный параллельный корпус упрощений WikiLarge, а также оригинальный русскоязычный параллельный корпус, собранный на Толоке.
Практическая значимость работы состоит в возможности применить ее основные результаты и выводы для дальнейшего изучения в данной области. Ее продуктом являются готовые обученные модели, которые могут быть использованы непосредственно для упрощения предложений, а также переведенный корпус, который может быть в будущем применен для машинного обучения.

Оглавление

Введение 3
1. Обзор задач машинного перевода и упрощения предложений 7
1.1 Sequence-to-sequence обучение 7
1.2 Основные методы машинного перевода 10
1.3 Подходы к задаче упрощения предложений 13
1.4 Корпусы упрощенных предложений 17
1.5 Методы и метрики для оценки качества перевода и упрощения 20
Выводы к главе 1 22
2. Применение методов машинного перевода для решения задачи упрощения предложений на русском языке 24
2.1 Автоматический перевод корпуса WikiLarge и анализ результатов 24
2.1.1 Корпус WikiLarge 24
2.1.2 Перевод WikiLarge на русский язык 27
2.1.3 Русскоязычный корпус предложений 30
2.2 Эксперименты с обучением модели для упрощения предложений на русском языке 31
2.2.1 Базовое решение 31
2.2.2 Обучение mBART для упрощения предложений 32
2.2.3 Результаты 34
2.3 Качественная оценка перевода и упрощения предложений 37
2.3.1 Проведение опроса и его результаты 37
2.3.2 Отдельные примеры из данных 40
Выводы к главе 2 47
Заключение 49
Список литературы 51
Приложения 57

Добрый день! Уважаемые студенты, Вашему вниманию представляется дипломная работа на тему: «Применение методов машинного перевода для решения задачи упрощения предложений на русском языке»

Оригинальность работы 97%

Список литературы

1. Alva-Manchego, F. Learning how to simplify from explicit labeling of complex-simplified text pairs [Текст] / Alva-Manchego, F., Bingel, J., Paetzold, G., Scarton, C., Specia, L // In Proceedings of the Eighth International Joint Conference on Natural Language Processing (Volume 1: Long Papers), 2017. - С. 295 - 305.
2. Alva-Manchego, F. Easier Automatic Sentence Simplification Evaluation [Текст] / Alva-Manchego, F., Martin, L., Scarton, C., Specia, L. // EMNLP-IJCNLP 2019 - 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing, Proceedings of System Demonstrations, 2019. - С. 49–54.
3. Alva-Manchego F. ASSET: A Dataset for Tuning and Evaluation of Sentence Simplification Models with Multiple Rewriting Transformations [Электронный ресурс] / Alva-Manchego, F., Martin, L., Bordes, A., Scarton, C., Sagot, B., Specia, L. // arXiv preprint arXiv:2005.00481, 2020 – Режим доступа: https://arxiv.org/pdf/2005.00481.pdf. – 13.05.2021.
4. Bahdanau D. Neural machine translation by jointly learning to align and translate [Текст] / Bahdanau D., Cho K. H., Bengio Y. // 3rd International Conference on Learning Representations, ICLR 2015 - Conference Track Proceedings.: International Conference on Learning Representations, ICLR, 2015.
5. Brouwers, L. Syntactic sentence simplification for French [Текст] / Brouwers, L., Bernhard, D., Ligozat, A. L., François, T. // In Proceedings of the 3rd Workshop on Predicting and Improving Text Readability for Target Reader Populations (PITR), 2014. – С. 47-56.
6. Devlin, J. BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding [Текст] / Devlin, J., Chang, M. W., Lee, K., Toutanova, K. // NAACL HLT 2019 - 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies - Proceedings of the Conference, 2018. – С. 4171–4186.
7. Nisioi, S. Exploring neural text simplification models [Текст] / Nisioi, S., Štajner, S., Ponzetto, S. P., Dinu, L. P // In Proceedings of the 55th annual meeting of the association for computational linguistics (volume 2: Short papers), 2017. – С. 85-91.
8. Dong, Y. EditNTS: A Neural Programmer-Interpreter Model for Sentence Simplification through Explicit Editing [Текст] / Dong, Y., Li, Z., Rezagholizadeh, M., Cheung, J. C. K. // ACL 2019 - 57th Annual Meeting of the Association of Computer Linguists, Proceedings Conference., 2019. - С. 3393–3402.
9. Feng, F. Language-agnostic BERT Sentence Embedding [Электронный ресурс] / Feng, F., Yang, Y., Cer, D., Arivazhagan, N., Wang, W. // arXiv preprint arXiv:2007.01852, 2020. - Режим доступа: https://arxiv.org/pdf/2007.01852.pdf – 13.05.2021.
10. Flesch R. A new readability yardstick [Текст] // Journal of applied psychology, Т. 32 №3, 1948. - С. 221–233.
11. Gudkov V. Automatically Ranked Russian Paraphrase Corpus for Text Generation [Электронный ресурс] // Gudkov V., Mitrofanova O., Filippskikh E. // arXiv preprint arXiv:2006.09719, 2020. - Режим доступа: https://arxiv.org/pdf/2006.09719.pdf – 13.05.2021.
12. Hochreiter S. Long Short-Term Memory [Текст] / Hochreiter S., Schmidhuber J.// Neural computation Т. 9. № 8., 1997. - С. 1735–1780.
13. Huang Z. Bidirectional LSTM-CRF Models for Sequence Tagging [Электронный ресурс] / Huang Z., Xu W., Yu K. // arXiv preprint arXiv:1508.01991, 2015 - Режим доступа: https://arxiv.org/pdf/1508.01991.pdf – 13.05.2021.
14. Jordan, M. I. Serial order: a parallel distributed processing approach. Technical report [Текст] // No. AD-A-173989/5/XAB; ICS-8604. California Univ., San Diego, La Jolla (USA). Inst. for Cognitive Science, 1986.
15. Junczys-Dowmunt M. Marian: Fast Neural Machine Translation in C++ [Текст] / Junczys-Dowmunt, M., Grundkiewicz, R., Dwojak, T., Hoang, H., Heafield, K., Neckermann, T., Seide, F., Germann, U., Aji, A.F., Bogoychev, N., Martins, A.F. //ACL 2018 - 56th Annual Meeting of the Association for Computational Linguistics, Proceedings of System Demonstrations, 2018. - С. 116–121.
16. Katsuta, A. Crowdsourced corpus of sentence simplification with core vocabulary [Текст] / Katsuta, A., Yamamoto, K. // In Proceedings of the Eleventh International Conference on Language Resources and Evaluation, 2018.
17. Kuratov Y. Adaptation of Deep Bidirectional Multilingual Transformers for Russian Language [Электронный ресурс] / Kuratov Y., Arkhipov M. // arXiv preprint arXiv:1905.07213, 2019. - Режим доступа: https://arxiv.org/pdf/1905.07213.pdf – 13.05.2021.
18. Lavie, A. METEOR: An automatic metric for MT evaluation with high levels of correlation with human judgments [Текст] / Lavie, A., Agarwal, A. // In Proceedings of the second workshop on statistical machine translation, 2007. - С. 228–231.
19. Liu, X. Very deep transformers for neural machine translation [Электронный ресурс] / Liu, X., Duh, K., Liu, L., Gao, J. // arXiv preprint arXiv:2008.07772, 2020. - Режим доступа: https://arxiv.org/pdf/2008.07772.pdf – 13.05.2021.
20. Liu, Y Roberta: A robustly optimized bert pretraining approach [Электронный ресурс] / Liu, Y., Ott, M., Goyal, N., Du, J., Joshi, M., Chen, D., Levy, O., Lewis, M., Zettlemoyer, L., Stoyanov, V. // arXiv preprint arXiv:1907.11692, 2019. - Режим доступа: https://arxiv.org/pdf/1907.11692.pdf – 13.05.2021.
21. Liu Y. Multilingual denoising pre-training for neural machine translation [Текст] / Liu, Y., Gu, J., Goyal, N., Li, X., Edunov, S., Ghazvininejad, M., Lewis, M., Zettlemoyer, L. // Transactions of the Association for Computational Linguistics, Т.8, 2020. - С. 726–742.
22. Luong M. T. Effective approaches to attention-based neural machine translation [Текст] / Luong M. T., Pham H., Manning C. D.// Conference Proceedings - EMNLP 2015: Conference on Empirical Methods in Natural Language Processing. : Association for Computational Linguistics (ACL), 2015. - С. 1412–1421.
23. Martin, L Multilingual unsupervised sentence simplification [Электронный ресурс] / Martin, L., Fan, A., de la Clergerie, É., Bordes, A., Sagot, B. // arXiv preprint arXiv:2005.00352, 2020. - Режим доступа: https://arxiv.org/pdf/2005.00352.pdf – 13.05.2021.
24. Narayan, S. Hybrid simplification using deep semantics and machine translation [Текст] / Narayan, S., Gardent, C. // In The 52nd annual meeting of the association for computational linguistics, 2014. - С. 435–445.
25. Nishihara, D. Controllable text simplification with lexical constraint loss [Текст] / Nishihara, D., Kajiwara, T., Arase, Y. // In Proceedings of the 57th annual meeting of the association for computational linguistics: Student research workshop, 2019. - С. 260–266.
26. Ott M. A Fast, Extensible Toolkit for Sequence Modeling [Текст] / Ott, M., Edunov, S., Baevski, A., Fan, A., Gross, S., Ng, N., Grangier, D, Auli, M. // NAACL HLT 2019 - 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies - Proceedings of the Demonstrations Session, 2019. - С. 48–53.
27. Papineni, K. Bleu: a method for automatic evaluation of machine translation [Текст] / Papineni, K., Roukos, S., Ward, T., Zhu, W. J. // In Proceedings of the 40th annual meeting of the Association for Computational Linguistics, 2002. - С. 311–318.
28. Post, M. A Call for Clarity in Reporting BLEU Scores [Электронный ресурс] // arXiv preprint arXiv:1804.08771, 2018. - Режим доступа: https://arxiv.org/pdf/1804.08771.pdf – 13.05.2021.
29. Rumelhart, D. Learning internal representations by error propagation [Текст] / Rumelhart, D. E., Hinton, G. E., Williams, R. J. // Learning internal representations by error propagation. California Univ San Diego La Jolla Inst for Cognitive Science, 1985.
30. Sennrich. R. A. Neural machine translation of rare words with subword units [Текст] / Sennrich R., Haddow B., Birch A. // 54th Annual Meeting of the Association for Computational Linguistics, ACL 2016 - Long Papers.: Association for Computational Linguistics (ACL), 2016. - С. 1715–1725.
31. Sulem, E. Simple and Effective Text Simplification Using Semantic and Neural Methods [Текст] / Sulem, E., Abend, O., Rappoport, A. // ACL 2018 - 56th Annual Meeting of the Association for Computational Linguistics, Proceedings of the Conference (Long Papers Т. 1), 2018. - С. 162–173.
32. Sulem, E BLEU is not suitable for the evaluation of text simplification [Текст] / Sulem, E., Abend, O., Rappoport, A. // Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing, EMNLP 2018.: Association for Computational Linguistics, 2020. - С. 738–744.
33. Vaswani A Attention is all you need [Текст] / Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A.N., Kaiser, L. Polosukhin, I. // Advances in Neural Information Processing Systems, 2017. - С. 5999–6009.
34. Wu, Y. Google’s Neural Machine Translation System: Bridging the Gap between Human and Machine Translation [Электронный ресурс] / Wu, Y., Schuster, M., Chen, Z., Le, Q.V., Norouzi, M., Macherey, W., Krikun, M., Cao, Y., Gao, Q., Macherey, K. Klingner, J. // arXiv preprint arXiv:1609.08144, 2016. - Режим доступа: https://arxiv.org/pdf/1609.08144.pdf – 13.05.2021.
35. Wubben, S. Simplification by Monolingual Machine Translation [Электронный ресурс] / Wubben, S., Krahmer, E // Radboud Repository of the Radboud University Nijmegen, 2012. - Режим доступа: https://repository.ubn.ru.nl/bitstream/handle/2066/101996/101996.pdf - 13.05.2021.
36. Xu, W. Optimizing statistical machine translation for text simplification [Текст] / Xu, W., Napoles, C., Pavlick, E., Chen, Q., Callison-Burch, C. // Optimizing statistical machine translation for text simplification. Transactions of the Association for Computational Linguistics, Т. 4, 2020. - С. 401–415.
37. Xu, W. Problems in current text simplification research: New data can help [Текст] / Xu, W., Callison-Burch, C., Napoles, C. // Transactions of the Association for Computational Linguistics, 2015. - Т.3. - С. 283–297.
38. Zhang X. Sentence Simplification with Deep Reinforcement Learning [Текст] / Zhang, X., Lapata, M. // EMNLP 2017 - Conference on Empirical Methods in Natural Language Processing, Proceedings, 2017. - С. 584–594.
39. Zhao G. MUSE: Parallel multi-scale attention for sequence to sequence learning [Электронный ресурс] / Zhao, G., Sun, X., Xu, J., Zhang, Z., Luo, L. // arXiv preprint arXiv:1911.09483, 2019. - Режим доступа: https://arxiv.org/pdf/1911.09483.pdf – 13.05.2021.
40. Zhu Z. Monolingual Tree-based Translation Model for Sentence Simplification / Zhu, Z., Bernhard, D., Gurevych, I. // In Proceedings of the 23rd International Conference on Computational Linguistics, 2010. С. 1353–1361.
41. Англо-русский параллельный корпус Яндекса [Электронный ресурс] / Yandex // - Режим доступа: https://translate.yandex.ru/corpus?lang=en – 13.05.2021.

Форма заказа новой работы

Не подошла эта работа?

Закажи новую работу, сделанную по твоим требованиям

Оставляя свои контактные данные и нажимая «Заказать Дипломную работу», я соглашаюсь пройти процедуру регистрации на Платформе, принимаю условия Пользовательского соглашения и Политики конфиденциальности в целях заключения соглашения.

Фрагменты работ

Введение
Автоматические методы обработки естественного языка в последние годы вызывают все больший интерес. Исследователям удалось достичь значительных успехов в данной области. Например, уже сегодня люди часто прибегают к машинному переводу для того, чтобы перевести какую-то информацию или общаться на иностранном языке. На данный момент эта задача чаще всего решается с помощью sequence-to-sequence обучения, также как и задача упрощения предложений, которая заключается в превращении исходного предложения в его упрощенный вариант с помощью удаления сложных лексических единиц и синтаксических конструкций или их замены на более простые.
Решение вышеупомянутых задач является одним из приоритетных направлений в сфере обработки естественного языка, так как это существенно помогло бы продвинуться в понимании как структуры отдельных языков, так и связей между разными языками мира в целом. С практической же точки зрения создание системы машинного перевода, позволяющей добиться качества, сопоставимого с эталоном человеческого перевода, открыло бы большие возможности для перевода текстов, принадлежащих специфическим областям. Что касается упрощения предложений, решение этой задачи релевантно для приведения информации в более простой и доступный вид, который будет понятен, например, детям, людям с когнитивными отклонениями и тем, кто только начинает изучать иностранный язык.
Есть много статей, посвященных изучению преимуществ применения методов машинного перевода для автоматического упрощения предложений. Исследователи подробно осветили, как модели, созданные для перевода, могут быть адаптированы для упрощения предложений, а также как автоматически переведенные данные могут быть использованы для обучения или точной настройки моделей. Хотя в этой области было много достижений, все еще остаются и значительные пробелы, обусловленные следующими причинами. Во-первых, применяемые методы машинного перевода по-прежнему допускают серьезные ошибки как на синтаксическом, так и на грамматическом уровне и не учитывают вариативность языка. Более того, отсутствие в некоторых языках, отличных от английского, общедоступного параллельного корпуса для упрощения предложений не позволяет исследователям экспериментировать с текстами на данном языке.
Таким образом, хотя авторы многих исследований успешно рассмотрели обе sequence-to-sequence задачи в отдельности и конкретно то, как машинный перевод может быть использован для создания модели, позволяющей получать упрощенные предложения, - многие проблемы все еще только предстоит решить.
Актуальность данной работы обусловлена тем, что задача автоматического упрощения предложений не была достаточно изучена в русском языке. Данное исследование является частью проекта в рамках соревнования RuSimpleSentEval , посвященного автоматическому упрощению предложений. Одной из основных задач проекта было создание первого русскоязычного параллельного корпуса упрощенных предложений. Ранее такого оригинального корпуса, так же, как и автоматически переведенного с английского набора данных для этой задачи не существовало. Кроме того, самой проблеме обучения модели для автоматического упрощения предложений на русском языке не было уделено должное внимание.
Таким образом, основной целью этого исследования является изучение роли машинного перевода в обучении моделей для автоматического упрощения предложений и преодоления проблемы нехватки данных. Данная работа должна внести вклад в изучение машинного перевода как в общем, так и в контексте упрощения русскоязычных предложений.
В таком случае, объектом исследования будут являться методы машинного перевода, а предметом – их применение для перевода параллельных корпусов простых предложений и обучения моделей для упрощения предложений на русском языке.
Для достижения поставленной цели нужно выполнить следующие задачи:
1. Перевести с помощью инструментов машинного перевода с английского на русский параллельный корпус WikiLarge [39].
2. Оценить качество как полученного перевода, так и в отдельности качество полученного русскоязычного корпуса простых предложений. Характеристики переведенного корпуса также будут сравнены с характеристиками валидационной части корпуса русскоязычных упрощений, собранных на краудсорсинговой платформе Толока.
3. Использовать переведенные данные для точной настройки модели mBart [21] для упрощения предложений, обучить таким образом несколько моделей, затем оценить их и сравнить.
4. Провести опрос, чтобы получить также и человеческую оценку перевода и полученных упрощенных предложений.
5. Обработать все полученные результаты и сделать выводы, основанные на данных.
Согласно поставленной цели и задачам были использованы следующие методы:
1. Теоретический анализ релевантной в рамках темы работы литературы
2. Эксперименты с обучением моделей для перевода с английского на русский и упрощения предложений
3. Количественная оценка корпусов и качества упрощения с помощью популярных в данных областях метрик
4. Качественная оценка посредством анализа грамматических ошибок и разбора отдельных кейсов
5. Проведение опроса и количественный анализ полученных данных
Основным материалом для исследования послужили англоязычный параллельный корпус упрощений WikiLarge, а также оригинальный русскоязычный параллельный корпус, собранный на Толоке.
Практическая значимость работы состоит в возможности применить ее основные результаты и выводы для дальнейшего изучения в данной области. Ее продуктом являются готовые обученные модели, которые могут быть использованы непосредственно для упрощения предложений, а также переведенный корпус, который может быть в будущем применен для машинного обучения.

Оглавление

Введение 3
1. Обзор задач машинного перевода и упрощения предложений 7
1.1 Sequence-to-sequence обучение 7
1.2 Основные методы машинного перевода 10
1.3 Подходы к задаче упрощения предложений 13
1.4 Корпусы упрощенных предложений 17
1.5 Методы и метрики для оценки качества перевода и упрощения 20
Выводы к главе 1 22
2. Применение методов машинного перевода для решения задачи упрощения предложений на русском языке 24
2.1 Автоматический перевод корпуса WikiLarge и анализ результатов 24
2.1.1 Корпус WikiLarge 24
2.1.2 Перевод WikiLarge на русский язык 27
2.1.3 Русскоязычный корпус предложений 30
2.2 Эксперименты с обучением модели для упрощения предложений на русском языке 31
2.2.1 Базовое решение 31
2.2.2 Обучение mBART для упрощения предложений 32
2.2.3 Результаты 34
2.3 Качественная оценка перевода и упрощения предложений 37
2.3.1 Проведение опроса и его результаты 37
2.3.2 Отдельные примеры из данных 40
Выводы к главе 2 47
Заключение 49
Список литературы 51
Приложения 57

Добрый день! Уважаемые студенты, Вашему вниманию представляется дипломная работа на тему: «Применение методов машинного перевода для решения задачи упрощения предложений на русском языке»

Оригинальность работы 97%

Список литературы

1. Alva-Manchego, F. Learning how to simplify from explicit labeling of complex-simplified text pairs [Текст] / Alva-Manchego, F., Bingel, J., Paetzold, G., Scarton, C., Specia, L // In Proceedings of the Eighth International Joint Conference on Natural Language Processing (Volume 1: Long Papers), 2017. - С. 295 - 305.
2. Alva-Manchego, F. Easier Automatic Sentence Simplification Evaluation [Текст] / Alva-Manchego, F., Martin, L., Scarton, C., Specia, L. // EMNLP-IJCNLP 2019 - 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing, Proceedings of System Demonstrations, 2019. - С. 49–54.
3. Alva-Manchego F. ASSET: A Dataset for Tuning and Evaluation of Sentence Simplification Models with Multiple Rewriting Transformations [Электронный ресурс] / Alva-Manchego, F., Martin, L., Bordes, A., Scarton, C., Sagot, B., Specia, L. // arXiv preprint arXiv:2005.00481, 2020 – Режим доступа: https://arxiv.org/pdf/2005.00481.pdf. – 13.05.2021.
4. Bahdanau D. Neural machine translation by jointly learning to align and translate [Текст] / Bahdanau D., Cho K. H., Bengio Y. // 3rd International Conference on Learning Representations, ICLR 2015 - Conference Track Proceedings.: International Conference on Learning Representations, ICLR, 2015.
5. Brouwers, L. Syntactic sentence simplification for French [Текст] / Brouwers, L., Bernhard, D., Ligozat, A. L., François, T. // In Proceedings of the 3rd Workshop on Predicting and Improving Text Readability for Target Reader Populations (PITR), 2014. – С. 47-56.
6. Devlin, J. BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding [Текст] / Devlin, J., Chang, M. W., Lee, K., Toutanova, K. // NAACL HLT 2019 - 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies - Proceedings of the Conference, 2018. – С. 4171–4186.
7. Nisioi, S. Exploring neural text simplification models [Текст] / Nisioi, S., Štajner, S., Ponzetto, S. P., Dinu, L. P // In Proceedings of the 55th annual meeting of the association for computational linguistics (volume 2: Short papers), 2017. – С. 85-91.
8. Dong, Y. EditNTS: A Neural Programmer-Interpreter Model for Sentence Simplification through Explicit Editing [Текст] / Dong, Y., Li, Z., Rezagholizadeh, M., Cheung, J. C. K. // ACL 2019 - 57th Annual Meeting of the Association of Computer Linguists, Proceedings Conference., 2019. - С. 3393–3402.
9. Feng, F. Language-agnostic BERT Sentence Embedding [Электронный ресурс] / Feng, F., Yang, Y., Cer, D., Arivazhagan, N., Wang, W. // arXiv preprint arXiv:2007.01852, 2020. - Режим доступа: https://arxiv.org/pdf/2007.01852.pdf – 13.05.2021.
10. Flesch R. A new readability yardstick [Текст] // Journal of applied psychology, Т. 32 №3, 1948. - С. 221–233.
11. Gudkov V. Automatically Ranked Russian Paraphrase Corpus for Text Generation [Электронный ресурс] // Gudkov V., Mitrofanova O., Filippskikh E. // arXiv preprint arXiv:2006.09719, 2020. - Режим доступа: https://arxiv.org/pdf/2006.09719.pdf – 13.05.2021.
12. Hochreiter S. Long Short-Term Memory [Текст] / Hochreiter S., Schmidhuber J.// Neural computation Т. 9. № 8., 1997. - С. 1735–1780.
13. Huang Z. Bidirectional LSTM-CRF Models for Sequence Tagging [Электронный ресурс] / Huang Z., Xu W., Yu K. // arXiv preprint arXiv:1508.01991, 2015 - Режим доступа: https://arxiv.org/pdf/1508.01991.pdf – 13.05.2021.
14. Jordan, M. I. Serial order: a parallel distributed processing approach. Technical report [Текст] // No. AD-A-173989/5/XAB; ICS-8604. California Univ., San Diego, La Jolla (USA). Inst. for Cognitive Science, 1986.
15. Junczys-Dowmunt M. Marian: Fast Neural Machine Translation in C++ [Текст] / Junczys-Dowmunt, M., Grundkiewicz, R., Dwojak, T., Hoang, H., Heafield, K., Neckermann, T., Seide, F., Germann, U., Aji, A.F., Bogoychev, N., Martins, A.F. //ACL 2018 - 56th Annual Meeting of the Association for Computational Linguistics, Proceedings of System Demonstrations, 2018. - С. 116–121.
16. Katsuta, A. Crowdsourced corpus of sentence simplification with core vocabulary [Текст] / Katsuta, A., Yamamoto, K. // In Proceedings of the Eleventh International Conference on Language Resources and Evaluation, 2018.
17. Kuratov Y. Adaptation of Deep Bidirectional Multilingual Transformers for Russian Language [Электронный ресурс] / Kuratov Y., Arkhipov M. // arXiv preprint arXiv:1905.07213, 2019. - Режим доступа: https://arxiv.org/pdf/1905.07213.pdf – 13.05.2021.
18. Lavie, A. METEOR: An automatic metric for MT evaluation with high levels of correlation with human judgments [Текст] / Lavie, A., Agarwal, A. // In Proceedings of the second workshop on statistical machine translation, 2007. - С. 228–231.
19. Liu, X. Very deep transformers for neural machine translation [Электронный ресурс] / Liu, X., Duh, K., Liu, L., Gao, J. // arXiv preprint arXiv:2008.07772, 2020. - Режим доступа: https://arxiv.org/pdf/2008.07772.pdf – 13.05.2021.
20. Liu, Y Roberta: A robustly optimized bert pretraining approach [Электронный ресурс] / Liu, Y., Ott, M., Goyal, N., Du, J., Joshi, M., Chen, D., Levy, O., Lewis, M., Zettlemoyer, L., Stoyanov, V. // arXiv preprint arXiv:1907.11692, 2019. - Режим доступа: https://arxiv.org/pdf/1907.11692.pdf – 13.05.2021.
21. Liu Y. Multilingual denoising pre-training for neural machine translation [Текст] / Liu, Y., Gu, J., Goyal, N., Li, X., Edunov, S., Ghazvininejad, M., Lewis, M., Zettlemoyer, L. // Transactions of the Association for Computational Linguistics, Т.8, 2020. - С. 726–742.
22. Luong M. T. Effective approaches to attention-based neural machine translation [Текст] / Luong M. T., Pham H., Manning C. D.// Conference Proceedings - EMNLP 2015: Conference on Empirical Methods in Natural Language Processing. : Association for Computational Linguistics (ACL), 2015. - С. 1412–1421.
23. Martin, L Multilingual unsupervised sentence simplification [Электронный ресурс] / Martin, L., Fan, A., de la Clergerie, É., Bordes, A., Sagot, B. // arXiv preprint arXiv:2005.00352, 2020. - Режим доступа: https://arxiv.org/pdf/2005.00352.pdf – 13.05.2021.
24. Narayan, S. Hybrid simplification using deep semantics and machine translation [Текст] / Narayan, S., Gardent, C. // In The 52nd annual meeting of the association for computational linguistics, 2014. - С. 435–445.
25. Nishihara, D. Controllable text simplification with lexical constraint loss [Текст] / Nishihara, D., Kajiwara, T., Arase, Y. // In Proceedings of the 57th annual meeting of the association for computational linguistics: Student research workshop, 2019. - С. 260–266.
26. Ott M. A Fast, Extensible Toolkit for Sequence Modeling [Текст] / Ott, M., Edunov, S., Baevski, A., Fan, A., Gross, S., Ng, N., Grangier, D, Auli, M. // NAACL HLT 2019 - 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies - Proceedings of the Demonstrations Session, 2019. - С. 48–53.
27. Papineni, K. Bleu: a method for automatic evaluation of machine translation [Текст] / Papineni, K., Roukos, S., Ward, T., Zhu, W. J. // In Proceedings of the 40th annual meeting of the Association for Computational Linguistics, 2002. - С. 311–318.
28. Post, M. A Call for Clarity in Reporting BLEU Scores [Электронный ресурс] // arXiv preprint arXiv:1804.08771, 2018. - Режим доступа: https://arxiv.org/pdf/1804.08771.pdf – 13.05.2021.
29. Rumelhart, D. Learning internal representations by error propagation [Текст] / Rumelhart, D. E., Hinton, G. E., Williams, R. J. // Learning internal representations by error propagation. California Univ San Diego La Jolla Inst for Cognitive Science, 1985.
30. Sennrich. R. A. Neural machine translation of rare words with subword units [Текст] / Sennrich R., Haddow B., Birch A. // 54th Annual Meeting of the Association for Computational Linguistics, ACL 2016 - Long Papers.: Association for Computational Linguistics (ACL), 2016. - С. 1715–1725.
31. Sulem, E. Simple and Effective Text Simplification Using Semantic and Neural Methods [Текст] / Sulem, E., Abend, O., Rappoport, A. // ACL 2018 - 56th Annual Meeting of the Association for Computational Linguistics, Proceedings of the Conference (Long Papers Т. 1), 2018. - С. 162–173.
32. Sulem, E BLEU is not suitable for the evaluation of text simplification [Текст] / Sulem, E., Abend, O., Rappoport, A. // Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing, EMNLP 2018.: Association for Computational Linguistics, 2020. - С. 738–744.
33. Vaswani A Attention is all you need [Текст] / Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A.N., Kaiser, L. Polosukhin, I. // Advances in Neural Information Processing Systems, 2017. - С. 5999–6009.
34. Wu, Y. Google’s Neural Machine Translation System: Bridging the Gap between Human and Machine Translation [Электронный ресурс] / Wu, Y., Schuster, M., Chen, Z., Le, Q.V., Norouzi, M., Macherey, W., Krikun, M., Cao, Y., Gao, Q., Macherey, K. Klingner, J. // arXiv preprint arXiv:1609.08144, 2016. - Режим доступа: https://arxiv.org/pdf/1609.08144.pdf – 13.05.2021.
35. Wubben, S. Simplification by Monolingual Machine Translation [Электронный ресурс] / Wubben, S., Krahmer, E // Radboud Repository of the Radboud University Nijmegen, 2012. - Режим доступа: https://repository.ubn.ru.nl/bitstream/handle/2066/101996/101996.pdf - 13.05.2021.
36. Xu, W. Optimizing statistical machine translation for text simplification [Текст] / Xu, W., Napoles, C., Pavlick, E., Chen, Q., Callison-Burch, C. // Optimizing statistical machine translation for text simplification. Transactions of the Association for Computational Linguistics, Т. 4, 2020. - С. 401–415.
37. Xu, W. Problems in current text simplification research: New data can help [Текст] / Xu, W., Callison-Burch, C., Napoles, C. // Transactions of the Association for Computational Linguistics, 2015. - Т.3. - С. 283–297.
38. Zhang X. Sentence Simplification with Deep Reinforcement Learning [Текст] / Zhang, X., Lapata, M. // EMNLP 2017 - Conference on Empirical Methods in Natural Language Processing, Proceedings, 2017. - С. 584–594.
39. Zhao G. MUSE: Parallel multi-scale attention for sequence to sequence learning [Электронный ресурс] / Zhao, G., Sun, X., Xu, J., Zhang, Z., Luo, L. // arXiv preprint arXiv:1911.09483, 2019. - Режим доступа: https://arxiv.org/pdf/1911.09483.pdf – 13.05.2021.
40. Zhu Z. Monolingual Tree-based Translation Model for Sentence Simplification / Zhu, Z., Bernhard, D., Gurevych, I. // In Proceedings of the 23rd International Conference on Computational Linguistics, 2010. С. 1353–1361.
41. Англо-русский параллельный корпус Яндекса [Электронный ресурс] / Yandex // - Режим доступа: https://translate.yandex.ru/corpus?lang=en – 13.05.2021.

Купить эту работу

Применение методов машинного перевода для решения задачи упрощения предложений на русском языке

2500 ₽

или заказать новую

Лучшие эксперты сервиса ждут твоего задания

от 3000 ₽

Гарантии Автор24

Изображения работ

Страница работы
Страница работы
Страница работы

Понравилась эта работа?

или

9 декабря 2021 заказчик разместил работу

Выбранный эксперт:

Автор работы
BESKONECHNO
4.1
Профессор, кэн
Купить эту работу vs Заказать новую
0 раз Куплено Выполняется индивидуально
Не менее 40%
Исполнитель, загружая работу в «Банк готовых работ» подтверждает, что уровень оригинальности работы составляет не менее 40%
Уникальность Выполняется индивидуально
Сразу в личном кабинете Доступность Срок 1—6 дней
2500 ₽ Цена от 3000 ₽

5 Похожих работ

Отзывы студентов

Отзыв Mizhgan42 об авторе BESKONECHNO 2014-07-11
Дипломная работа

Работа выполнена качественно и буквально за считанные дни. Анна - настоящий талант. Человек, целиком и полностью посвятивший себя науке. Регулярно появляется онлайн, производит все необходимые доработки вплоть до защиты. И самое главное - выполняет работу с неподдельным интересом. Мне крупно повезло работать с таким профессионалом. Огромное Вам спасибо!

Общая оценка 5
Отзыв Алексей Михайлов об авторе BESKONECHNO 2018-07-30
Дипломная работа

Благодарю!

Общая оценка 5
Отзыв valkirya32 об авторе BESKONECHNO 2017-01-22
Дипломная работа

Отлично выполнена работа, корректировки все вносились без задержек, всегда на связи. Рекомендую всем. Цена-качество-время написания - все на отлично!

Общая оценка 5
Отзыв Ирина15 об авторе BESKONECHNO 2017-06-06
Дипломная работа

Елена написала хорошую первую главу, было много корректировок и все чётко выполнялось, работой довольна. Спасибо большое!)

Общая оценка 5

другие учебные работы по предмету

Готовая работа

Художественный перевод с иностранного языка

Уникальность: от 40%
Доступность: сразу
1500 ₽
Готовая работа

Особенности перевода на русский язык оригинального английского текста

Уникальность: от 40%
Доступность: сразу
1890 ₽
Готовая работа

Прагматическая адаптация переводов в публицистических текстах

Уникальность: от 40%
Доступность: сразу
900 ₽
Готовая работа

Эмоциональный концепт

Уникальность: от 40%
Доступность: сразу
2240 ₽
Готовая работа

Словосложение в английском языке

Уникальность: от 40%
Доступность: сразу
2800 ₽
Готовая работа

диплом Концепт время

Уникальность: от 40%
Доступность: сразу
2000 ₽
Готовая работа

Средства выражение иронии в романе Der Campus Ditrich Schwaniz

Уникальность: от 40%
Доступность: сразу
3300 ₽
Готовая работа

ЛИНГВИСТИЧЕСКИЕ ОСОБЕННОСТИ ТИПОВ ТЕКСТА «ИНТЕРВЬЮ» (НА МАТЕРИАЛЕ ИНТЕРВЬЮ СО ЗНАМЕНИТЫМИ ЛЮДЬМИ)

Уникальность: от 40%
Доступность: сразу
2500 ₽
Готовая работа

Компьютерные технологии как обязательный компонент современного обучения иностранному языку

Уникальность: от 40%
Доступность: сразу
2800 ₽
Готовая работа

Проблемы перевода юридических текстов

Уникальность: от 40%
Доступность: сразу
400 ₽
Готовая работа

Английская и русская вежливости в контексте культурных традиций

Уникальность: от 40%
Доступность: сразу
2800 ₽
Готовая работа

Орфоэпические особенности английского языка в Австралии

Уникальность: от 40%
Доступность: сразу
1000 ₽