Автор24

Информация о работе

Подробнее о работе

Страница работы

Методы автоматической обработки текстов для вычислительных социальных наук

  • 33 страниц
  • 2021 год
  • 4 просмотра
  • 0 покупок
Автор работы

BESKONECHNO

Профессор, кэн

1500 ₽

Работа будет доступна в твоём личном кабинете после покупки

Гарантия сервиса Автор24

Уникальность не ниже 50%

Фрагменты работ

1.Введение

1.1 Актуальность. Исследовательская новизна и практическая значимость Экология – одна из самых актуальных и обсуждаемых тем на различных

медиа платформах. В ежегодном докладе Всемирного фонда дикой природы[24] отмечается, что 2019 год стал поворотным моментом с точки зрения того, насколько активно люди начали реагировать на различные экологические проблемы в средствах массовой информации. Возможно ли как -то оценить и проследить динамику развития экологической дискуссии в медиа источниках? Действительно ли тема экологии стала более освещаемой в средствах массовой информации? Ответы на эти вопросы может дать исследование медиа -контента

с помощью различных методов обработки естественного языка, чему и будет посвящено это исследование.

Экологическая тематика обладает рядом уникальных особенностей. Во-первых, ее можно считать глобальной, она не привязана ни к какому-либо конкретному субъекту или объекту, к какой-либо территории, государству. Во-вторых, она достаточно разнообразна, в ней можно выделить определенные самостоятельные объемные смысловые блоки, не всегда связанные друг с другом. В-третьих, она неразрывно связана с качеством жизни человека как биологического вида, что порождает необходимость не только обсуждений, но

и активного вмешательства. Согласно докладу Всемирного экономического форума о глобальных рисках за 2020 год [21], впервые за историю, первые пять позиций в рейтинге самых важных и сложных задач на следующее десятилетие неразрывно связаны с экологией и улучшением экологической ситуации.

Возникает необходимость возможности анализа настоящей экологической обстановки и выявления направлений для каких-либо дальнейших решений об улучшении экологической ситуации. В качестве одного из инструментов для такого анализа предлагается использовать методы обработки естественного языка, о чем и пойдет речь в этом исследовании.

Оглавление

1.Введение 1

1.1 Актуальность. Исследовательская новизна и практическая значимость

1

1.2 Цели и задачи исследования 2

2. Обзор существующих подходов и смежных работ 3

2.1 Экологическая журналистика. Исследование уровня новостного

внимания в контексте телевизионных новостей 1979-2009 гг. 3

2.2 Исследование изменения климата в контенте Twitter 5

2.3 Анализ дискурсов социальных акторов по вопросам изменения климата, энергетической и продовольственной безопасности в Бразилии .7

3. Методология ......................................................................................................... 8
3.1 Анализ данных и особенности анализа текстовых данных .................... 8
3.2 Тематическое моделирование .................................................................. 9
3.2.1 Латентный семантический анализ............................................... 9
3.2.2 Латентное размещение Дирихле ............................................... 10
3.2.3 Тематическое моделирование в пространстве векторных
представлений слов............................................................................. 11
4. Анализ экологических текстов на основе данных «РИА Новости» ................ 12
4.1 Сбор данных и формирование корпуса. Аргументация выбора
источника ...................................................................................................... 12
4.2 Анализ внимания к экологическим проблемам .................................... 13
4.3 Тематическое моделирование. Полученные результаты ...................... 17
4.4 Майнинг экологических текстов для 2014-2015 гг. .............................. 23
4.5 Динамика ключевых новостных экологических тематик..................... 23
5. Заключение ......................................................................................................... 27
6. Библиографический список ............................................................................... 28

Добрый день! Уважаемые студенты, Вашему вниманию представляется дипломная работа на тему: «Методы автоматической обработки текстов для вычислительных социальных наук»

Abstract

The ongoing global discussions on environmental issues such as air and water pollution, climate change, and reduced species diversity have highlighted the need for new methods and tools to study and understand the complexity of these relevant issues. This work uses modern text processing methods to analyze the discourse of social media related to ecology and environmental aspects. The study is based on tag-sampled data from Russian news agency “Ria Novosti” over the past few years. The main approaches combine topic modelling approach: latent semantic analysis, latent Dirichlet allocation, Embedded topic model and text classification (for mining texts related to ecology). These approaches allow to collect a representative body of environmental texts, identify keywords and topics, and trace hidden semantic topics and follow them through time. The results of the study will allow us to assess the current environmental situation through the prism of news sources, as well as to track the dynamics over the past few years.

Key words: environmental journalism, topic modeling, latent semantic analysis, latent Dirichlet allocation

Аннотация

Непрекращающиеся глобальные дискуссии по таким экологическим проблемам, как изменение климата, сокращение видового разнообразия, выявили необходимость в новых методах и инструментах для изучения этих актуальных проблем. В данной работе используют ся современные методы обработки текстов для анализа дискурса социальных медиа, связанного с экологией и экологическими проблемами. Исследование основано на данных российского информационного агентства “РИА Новости” за последние несколько лет. Методы этого исследования объединяют в себе тематическое моделирование:

латентный семантический анализ, латентное размещение Дирихле,

тематическое моделирование в пространстве векторных представлений слов ,

и классификацию на основе модели -трансформера BERT для составления корпуса экологических текстов . Эти методологические подходы позволяют собрать репрезентативный корпус экологических текстов, выявить ключевые

слова и тем атики, проследить их характер и динамику . Результаты исследования позволят нам оценить текущую экол огическую ситуацию через призму новостных источников.

Ключевые слова: экологическая журналистика, тематическое моделирование, латентный семантический анализ, латентное размещение Дирихле, тематическое моделирование в пространстве векторных представлений слов

6. Библиографический список





1. Aggarwal C.C., Zhai C. A Survey of Text Classification Algorithms. In: Aggarwal C., Zhai C. (eds) Mining Text Data. Springer, Boston, MA, 2012 https://doi.org/10.1007/978-1-4614-3223-4_6

2. Benites-Lazaro L.L., Giatti L., Giarolla A. Topic modeling method for analyzing social actor discourses on climate change- energy and food security, Energy research & social science. 2018, 45, pp. 318–330.

3. Berry M. W., Castellanos M. (editors) Survey of Text Mining: Clustering, Classification, and Retrieval, Second Edition, 2007, New York: Springer-Verlag.



4. Blei D. M., Ng A. Y., Jordan M. I. Latent dirichlet allocation //Journal of machine Learning research. – 2003. – Т. 3. – №. Jan. – С. 993-1022.



5. Charu C. Aggarwal, Cheng Xiang Zhai (editors) (2012) Mining Text Data, 2012, New York: Springer-Verlag.



6. Cox R. J. The environmental communication and the public sphere. Sage Publishing, Inc., Washongton, 2010. 385 p.



7. Deerwester S., S.T. Dumais S.T., G.W. Furnas G.W., T.K. Landauer T.K., R. Harshman R. Indexing by latent semantic analysis, J. Am. Soc. Inf. Sci. 41 (1990), pp. 391–407.

8. Devlin J. et al. Bert: Pre-training of deep bidirectional transformers for language understanding //arXiv preprint arXiv:1810.04805. – 2018.



9. Dieng A. B., Ruiz F. J. R., Blei D. M. Topic modeling in embedding spaces //arXiv preprint arXiv:1907.04907. – 2019.



10.Djerf-Pierre M. The Crowding-out effect, Journalism Studies, 13 (4), pp. 499–516, https://doi.org/10.1080/1461670X.2011.650924.



11. Evangelopoulos N., Zhang X., Prybutok V. R. Latent semantic analysis: five methodological recommendations //European Journal of Information Systems. – 2012. – Т. 21. – №. 1. – С. 70-86.



12.Foltz P. W. Latent semantic analysis for text-based research //Behavior Research Methods, Instruments, & Computers. – 1996. – Т. 28. – №. 2. – С. 197-202.

13. Han J., Kamber M., Pei J. Data Mining: Concepts and Techniques Third Edition,



2012.



14. Hanson A. The Mass Media and Environmental issues. London and New York:



Leicester University Press, 1993.



15. Hofmann T. Unsupervised learning by probabilistic latent semantic analysis //Machine learning. – 2001. – Т. 42. – №. 1-2. – С. 177-196.



16. Hotho А., Nurnberger А. , Paaß G. A Brief Survey of Text Mining, Ldv Forum, 2005, 20 (1), pp. 19–62.



17. Jacobi C., van Atteveldt W. & Welbers K. Quantitative analysis of large amounts of journalistic texts using topic modelling, Digital Journalism, 2015, Vol. 4, pp. 1– 18. https://doi.org/10.1080/21670811.2015.1093271

18. Jiawei Han, Micheline Kamber, Jian Pei, Data Mining: Concepts and Techniques



Third Edition, 2011



19. Landauer T. K., Foltz P. W., Laham D. An introduction to latent semantic analysis, Discourse processes. – 1998. – Т. 25. – №. 2-3. – С. 259-284.



20. Sun C. et al. How to fine-tune BERT for text classification?, China National Conference on Chinese Computational Linguistics. – Springer, Cham, 2019. – С. 194-206.

21. The Global Risks Report 2020, World Economic Forum, 15th Edition



22. Veltri G. A., Atanasova D. Climate change on Twitter: Content, media ecology and information sharing behavior, Public Understanding of Science, 2015, https://doi.org/10.1177/0963662515613702.



23. Wendling Z. A., Emerson, J.W. Esty, D.C. Levy, M. A., de Sherbinin, A., et al. Environmental Performance Index. 2018, New Haven, CT: Yale Center for Environmental Law & Policy.



24. WWF European Policy office annual review, 2019.

Форма заказа новой работы

Не подошла эта работа?

Закажи новую работу, сделанную по твоим требованиям

Согласен с условиями политики конфиденциальности и  пользовательского соглашения

Фрагменты работ

1.Введение

1.1 Актуальность. Исследовательская новизна и практическая значимость Экология – одна из самых актуальных и обсуждаемых тем на различных

медиа платформах. В ежегодном докладе Всемирного фонда дикой природы[24] отмечается, что 2019 год стал поворотным моментом с точки зрения того, насколько активно люди начали реагировать на различные экологические проблемы в средствах массовой информации. Возможно ли как -то оценить и проследить динамику развития экологической дискуссии в медиа источниках? Действительно ли тема экологии стала более освещаемой в средствах массовой информации? Ответы на эти вопросы может дать исследование медиа -контента

с помощью различных методов обработки естественного языка, чему и будет посвящено это исследование.

Экологическая тематика обладает рядом уникальных особенностей. Во-первых, ее можно считать глобальной, она не привязана ни к какому-либо конкретному субъекту или объекту, к какой-либо территории, государству. Во-вторых, она достаточно разнообразна, в ней можно выделить определенные самостоятельные объемные смысловые блоки, не всегда связанные друг с другом. В-третьих, она неразрывно связана с качеством жизни человека как биологического вида, что порождает необходимость не только обсуждений, но

и активного вмешательства. Согласно докладу Всемирного экономического форума о глобальных рисках за 2020 год [21], впервые за историю, первые пять позиций в рейтинге самых важных и сложных задач на следующее десятилетие неразрывно связаны с экологией и улучшением экологической ситуации.

Возникает необходимость возможности анализа настоящей экологической обстановки и выявления направлений для каких-либо дальнейших решений об улучшении экологической ситуации. В качестве одного из инструментов для такого анализа предлагается использовать методы обработки естественного языка, о чем и пойдет речь в этом исследовании.

Оглавление

1.Введение 1

1.1 Актуальность. Исследовательская новизна и практическая значимость

1

1.2 Цели и задачи исследования 2

2. Обзор существующих подходов и смежных работ 3

2.1 Экологическая журналистика. Исследование уровня новостного

внимания в контексте телевизионных новостей 1979-2009 гг. 3

2.2 Исследование изменения климата в контенте Twitter 5

2.3 Анализ дискурсов социальных акторов по вопросам изменения климата, энергетической и продовольственной безопасности в Бразилии .7

3. Методология ......................................................................................................... 8
3.1 Анализ данных и особенности анализа текстовых данных .................... 8
3.2 Тематическое моделирование .................................................................. 9
3.2.1 Латентный семантический анализ............................................... 9
3.2.2 Латентное размещение Дирихле ............................................... 10
3.2.3 Тематическое моделирование в пространстве векторных
представлений слов............................................................................. 11
4. Анализ экологических текстов на основе данных «РИА Новости» ................ 12
4.1 Сбор данных и формирование корпуса. Аргументация выбора
источника ...................................................................................................... 12
4.2 Анализ внимания к экологическим проблемам .................................... 13
4.3 Тематическое моделирование. Полученные результаты ...................... 17
4.4 Майнинг экологических текстов для 2014-2015 гг. .............................. 23
4.5 Динамика ключевых новостных экологических тематик..................... 23
5. Заключение ......................................................................................................... 27
6. Библиографический список ............................................................................... 28

Добрый день! Уважаемые студенты, Вашему вниманию представляется дипломная работа на тему: «Методы автоматической обработки текстов для вычислительных социальных наук»

Abstract

The ongoing global discussions on environmental issues such as air and water pollution, climate change, and reduced species diversity have highlighted the need for new methods and tools to study and understand the complexity of these relevant issues. This work uses modern text processing methods to analyze the discourse of social media related to ecology and environmental aspects. The study is based on tag-sampled data from Russian news agency “Ria Novosti” over the past few years. The main approaches combine topic modelling approach: latent semantic analysis, latent Dirichlet allocation, Embedded topic model and text classification (for mining texts related to ecology). These approaches allow to collect a representative body of environmental texts, identify keywords and topics, and trace hidden semantic topics and follow them through time. The results of the study will allow us to assess the current environmental situation through the prism of news sources, as well as to track the dynamics over the past few years.

Key words: environmental journalism, topic modeling, latent semantic analysis, latent Dirichlet allocation

Аннотация

Непрекращающиеся глобальные дискуссии по таким экологическим проблемам, как изменение климата, сокращение видового разнообразия, выявили необходимость в новых методах и инструментах для изучения этих актуальных проблем. В данной работе используют ся современные методы обработки текстов для анализа дискурса социальных медиа, связанного с экологией и экологическими проблемами. Исследование основано на данных российского информационного агентства “РИА Новости” за последние несколько лет. Методы этого исследования объединяют в себе тематическое моделирование:

латентный семантический анализ, латентное размещение Дирихле,

тематическое моделирование в пространстве векторных представлений слов ,

и классификацию на основе модели -трансформера BERT для составления корпуса экологических текстов . Эти методологические подходы позволяют собрать репрезентативный корпус экологических текстов, выявить ключевые

слова и тем атики, проследить их характер и динамику . Результаты исследования позволят нам оценить текущую экол огическую ситуацию через призму новостных источников.

Ключевые слова: экологическая журналистика, тематическое моделирование, латентный семантический анализ, латентное размещение Дирихле, тематическое моделирование в пространстве векторных представлений слов

6. Библиографический список





1. Aggarwal C.C., Zhai C. A Survey of Text Classification Algorithms. In: Aggarwal C., Zhai C. (eds) Mining Text Data. Springer, Boston, MA, 2012 https://doi.org/10.1007/978-1-4614-3223-4_6

2. Benites-Lazaro L.L., Giatti L., Giarolla A. Topic modeling method for analyzing social actor discourses on climate change- energy and food security, Energy research & social science. 2018, 45, pp. 318–330.

3. Berry M. W., Castellanos M. (editors) Survey of Text Mining: Clustering, Classification, and Retrieval, Second Edition, 2007, New York: Springer-Verlag.



4. Blei D. M., Ng A. Y., Jordan M. I. Latent dirichlet allocation //Journal of machine Learning research. – 2003. – Т. 3. – №. Jan. – С. 993-1022.



5. Charu C. Aggarwal, Cheng Xiang Zhai (editors) (2012) Mining Text Data, 2012, New York: Springer-Verlag.



6. Cox R. J. The environmental communication and the public sphere. Sage Publishing, Inc., Washongton, 2010. 385 p.



7. Deerwester S., S.T. Dumais S.T., G.W. Furnas G.W., T.K. Landauer T.K., R. Harshman R. Indexing by latent semantic analysis, J. Am. Soc. Inf. Sci. 41 (1990), pp. 391–407.

8. Devlin J. et al. Bert: Pre-training of deep bidirectional transformers for language understanding //arXiv preprint arXiv:1810.04805. – 2018.



9. Dieng A. B., Ruiz F. J. R., Blei D. M. Topic modeling in embedding spaces //arXiv preprint arXiv:1907.04907. – 2019.



10.Djerf-Pierre M. The Crowding-out effect, Journalism Studies, 13 (4), pp. 499–516, https://doi.org/10.1080/1461670X.2011.650924.



11. Evangelopoulos N., Zhang X., Prybutok V. R. Latent semantic analysis: five methodological recommendations //European Journal of Information Systems. – 2012. – Т. 21. – №. 1. – С. 70-86.



12.Foltz P. W. Latent semantic analysis for text-based research //Behavior Research Methods, Instruments, & Computers. – 1996. – Т. 28. – №. 2. – С. 197-202.

13. Han J., Kamber M., Pei J. Data Mining: Concepts and Techniques Third Edition,



2012.



14. Hanson A. The Mass Media and Environmental issues. London and New York:



Leicester University Press, 1993.



15. Hofmann T. Unsupervised learning by probabilistic latent semantic analysis //Machine learning. – 2001. – Т. 42. – №. 1-2. – С. 177-196.



16. Hotho А., Nurnberger А. , Paaß G. A Brief Survey of Text Mining, Ldv Forum, 2005, 20 (1), pp. 19–62.



17. Jacobi C., van Atteveldt W. & Welbers K. Quantitative analysis of large amounts of journalistic texts using topic modelling, Digital Journalism, 2015, Vol. 4, pp. 1– 18. https://doi.org/10.1080/21670811.2015.1093271

18. Jiawei Han, Micheline Kamber, Jian Pei, Data Mining: Concepts and Techniques



Third Edition, 2011



19. Landauer T. K., Foltz P. W., Laham D. An introduction to latent semantic analysis, Discourse processes. – 1998. – Т. 25. – №. 2-3. – С. 259-284.



20. Sun C. et al. How to fine-tune BERT for text classification?, China National Conference on Chinese Computational Linguistics. – Springer, Cham, 2019. – С. 194-206.

21. The Global Risks Report 2020, World Economic Forum, 15th Edition



22. Veltri G. A., Atanasova D. Climate change on Twitter: Content, media ecology and information sharing behavior, Public Understanding of Science, 2015, https://doi.org/10.1177/0963662515613702.



23. Wendling Z. A., Emerson, J.W. Esty, D.C. Levy, M. A., de Sherbinin, A., et al. Environmental Performance Index. 2018, New Haven, CT: Yale Center for Environmental Law & Policy.



24. WWF European Policy office annual review, 2019.

Купить эту работу

Методы автоматической обработки текстов для вычислительных социальных наук

1500 ₽

или заказать новую

Лучшие эксперты сервиса ждут твоего задания

от 3000 ₽

Гарантии Автор24

Изображения работ

Страница работы
Страница работы
Страница работы

Понравилась эта работа?

или

26 октября 2021 заказчик разместил работу

Выбранный эксперт:

Автор работы
BESKONECHNO
4.1
Профессор, кэн
Купить эту работу vs Заказать новую
0 раз Куплено Выполняется индивидуально
Не менее 40%
Исполнитель, загружая работу в «Банк готовых работ» подтверждает, что уровень оригинальности работы составляет не менее 40%
Уникальность Выполняется индивидуально
Сразу в личном кабинете Доступность Срок 1—6 дней
1500 ₽ Цена от 3000 ₽

5 Похожих работ

Выпускная квалификационная работа

Операционные системы и платформы

Уникальность: от 40%
Доступность: сразу
3000 ₽
Выпускная квалификационная работа

Автоматизированная система для заказа медицинского оборудования

Уникальность: от 40%
Доступность: сразу
6000 ₽
Выпускная квалификационная работа

Автоматизация документооборота организации ООО ЧОП "Сайга"

Уникальность: от 40%
Доступность: сразу
990 ₽
Выпускная квалификационная работа

Пименение электронных образовательных ресурсов в обучении ВКР

Уникальность: от 40%
Доступность: сразу
2000 ₽
Выпускная квалификационная работа

АВТОМАТИЗИРОВАННОЕ РАБОЧЕЕ МЕСТО МЕНЕДЖЕРА

Уникальность: от 40%
Доступность: сразу
5000 ₽

другие учебные работы по предмету

Готовая работа

Разработка и испытание ПО по моделям

Уникальность: от 40%
Доступность: сразу
1490 ₽
Готовая работа

персональная программа начальника отдела производства (на примере ООО"Вселуг")

Уникальность: от 40%
Доступность: сразу
2800 ₽
Готовая работа

Особые точки функций комплексного переменного и их изучение с помощью Maple

Уникальность: от 40%
Доступность: сразу
2240 ₽
Готовая работа

Контроль логических интегральных микросхем (+ доклад)

Уникальность: от 40%
Доступность: сразу
1000 ₽
Готовая работа

Внедрение системы управления освещением умного дома.

Уникальность: от 40%
Доступность: сразу
2800 ₽
Готовая работа

Разработка информационной системы управления складом

Уникальность: от 40%
Доступность: сразу
2500 ₽
Готовая работа

Автоматизированная система складского учета

Уникальность: от 40%
Доступность: сразу
3000 ₽
Готовая работа

диплом Разработка системы автоматизации документооборота

Уникальность: от 40%
Доступность: сразу
2000 ₽
Готовая работа

Проектирование автоматизированной системы учета продукции

Уникальность: от 40%
Доступность: сразу
2800 ₽
Готовая работа

диплом Интеллектуальные системы. Управления данными в интеллектуальных системах

Уникальность: от 40%
Доступность: сразу
1700 ₽
Готовая работа

оптимизация торгово-закупочной деятельности

Уникальность: от 40%
Доступность: сразу
2800 ₽
Готовая работа

безопасность беспроводных сетей

Уникальность: от 40%
Доступность: сразу
3300 ₽