Подробнее о работе
Гарантия сервиса Автор24
Уникальность не ниже 50%
Одним из новых направлений в этой области является текстовая аналитика.
Текстовая аналитика - это автоматизированный процесс преобразования больших объемов неструктурированного текста в количественные данные для выявления идей, тенденций и закономерностей. В сочетании с инструментами визуализации данных этот метод позволяет компаниям понять суть цифр и принимать более обоснованные решения [11].
Как показывает практика текстовой аналитики, наиболее эффективными средствами повышения качества анализа текстов являются методы и алгоритмы интеллектуального анализа данных.
Введение 5
Глава 1 Обзор и анализ методов и алгоритмов интеллектуального анализа текстовых данных 7
1.1 Метод токенизации 9
1.2 Частота термина в документе (TF-IDF) 13
1.3 Методы стемминга и лемматизации 15
1.4 Стоп-листинг 19
Глава 2 Обзор и анализ алгоритмов интеллектуального анализа текстовых
данных 22
2.1 Алгоритмы токенизации 22
2.2 Алгоритм TF-IDF 26
2.3 Алгоритм лемматизации WordNet 29
2.4 Алгоритмы стоп-листинга 31
Глава 3 Разработка программы интеллектуального анализа текстовых данных ... 35 3.1 Выбор среды разработки программы 35
3.1.1 Интегрированная среда разработки Visual Studio + Python Tools for Visual Studio 35
3.1.2 Интегрированная среда разработки PyCharm 37
3.1.3 Интегрированная среда разработки Eclipse + PyDEv 38
3.2 Реализация и тестирование программы 41
Заключение 44
Список используемой литературы 45
Как показывает практика текстовой аналитики, наиболее эффективными средствами повышения качества анализа текстов являются методы и алгоритмы интеллектуального анализа данных.
Применение алгоритмов интеллектуального анализа текстовых данных представляет актуальность и научно-практический интерес.
Объектом исследования бакалаврской работы являются методы и алгоритмы интеллектуального анализа текстовых данных.
1. Бахтин А.В. Алгоритмы извлечения из неструктурированных текстовых источников метаинформации о научно-технических конференциях. М: МГУ [Электронный ресурс]. URL: https://www.hse.ru/data/2015/06/07/1097438594/presentation_cfp.pdf (дата обращения: 10.06.2021).
2. Библиотека NTLK [Электронный ресурс]. URL: http://www.nltk.org/ (дата обращения: 10.06.2021).
3. ВКонтакте опубликовали библиотеку для предобработки текстовых данных [Электронный ресурс]. URL: https://neurohive.io/ru/novosti/vkontakte- opublikovali-biblioteku-dlya-predobrabotki-tekstovyh-dannyh/ (дата обращения: 10.06.2021).
4. Кластеризация и классификация больших текстовых данных с помощью машинного обучения на Java [Электронный ресурс]. URL: https://itnan.ru/post.php?c=1&p=529548 (дата обращения: 10.06.2021).
5. Краткое руководство. Знакомство с интегрированной средой разработки Visual Studio [Электронный ресурс]. URL: https://docs.microsoft.com/ru-ru/visualstudio/ide/quickstart-ide-orientation?view=vs- 2019 (дата обращения: 10.06.2021).
6. Ле Мань Ха. Оптимизация алгоритма KNN для классификации // ТРУДЫ МФТИ. 2016. Том 8, № 1. С. 92-94.
7. Левенштейн В.И. Двоичные коды с исправлением выпадений, вставок и замещений символов // Докл. АН СССР. 1965. 163 (4). C. 845–848.
8. Метод TF-IDF [Электронный ресурс]. URL: https://ru.wikipedia.org/wiki/TF-IDF (дата обращения: 10.06.2021).
9. Отраднов К.К., Раев В.К. Экспериментальное исследование эффективности методик векторизации текстовых документов и алгоритмов их кластеризации. Вестник РГРТУ. 2018. № 64. С. 74-82.
10. Самуйлов С. В. Алгоритмы и структуры обработки данных : учебное
пособие. Саратов : Вузовское образование, 2016. 132 c. [Электронный ресурс]. URL: https://www.iprbookshop.ru/47275.html (дата обращения: 12.06.2021).
Не подошла эта работа?
Закажи новую работу, сделанную по твоим требованиям
Одним из новых направлений в этой области является текстовая аналитика.
Текстовая аналитика - это автоматизированный процесс преобразования больших объемов неструктурированного текста в количественные данные для выявления идей, тенденций и закономерностей. В сочетании с инструментами визуализации данных этот метод позволяет компаниям понять суть цифр и принимать более обоснованные решения [11].
Как показывает практика текстовой аналитики, наиболее эффективными средствами повышения качества анализа текстов являются методы и алгоритмы интеллектуального анализа данных.
Введение 5
Глава 1 Обзор и анализ методов и алгоритмов интеллектуального анализа текстовых данных 7
1.1 Метод токенизации 9
1.2 Частота термина в документе (TF-IDF) 13
1.3 Методы стемминга и лемматизации 15
1.4 Стоп-листинг 19
Глава 2 Обзор и анализ алгоритмов интеллектуального анализа текстовых
данных 22
2.1 Алгоритмы токенизации 22
2.2 Алгоритм TF-IDF 26
2.3 Алгоритм лемматизации WordNet 29
2.4 Алгоритмы стоп-листинга 31
Глава 3 Разработка программы интеллектуального анализа текстовых данных ... 35 3.1 Выбор среды разработки программы 35
3.1.1 Интегрированная среда разработки Visual Studio + Python Tools for Visual Studio 35
3.1.2 Интегрированная среда разработки PyCharm 37
3.1.3 Интегрированная среда разработки Eclipse + PyDEv 38
3.2 Реализация и тестирование программы 41
Заключение 44
Список используемой литературы 45
Как показывает практика текстовой аналитики, наиболее эффективными средствами повышения качества анализа текстов являются методы и алгоритмы интеллектуального анализа данных.
Применение алгоритмов интеллектуального анализа текстовых данных представляет актуальность и научно-практический интерес.
Объектом исследования бакалаврской работы являются методы и алгоритмы интеллектуального анализа текстовых данных.
1. Бахтин А.В. Алгоритмы извлечения из неструктурированных текстовых источников метаинформации о научно-технических конференциях. М: МГУ [Электронный ресурс]. URL: https://www.hse.ru/data/2015/06/07/1097438594/presentation_cfp.pdf (дата обращения: 10.06.2021).
2. Библиотека NTLK [Электронный ресурс]. URL: http://www.nltk.org/ (дата обращения: 10.06.2021).
3. ВКонтакте опубликовали библиотеку для предобработки текстовых данных [Электронный ресурс]. URL: https://neurohive.io/ru/novosti/vkontakte- opublikovali-biblioteku-dlya-predobrabotki-tekstovyh-dannyh/ (дата обращения: 10.06.2021).
4. Кластеризация и классификация больших текстовых данных с помощью машинного обучения на Java [Электронный ресурс]. URL: https://itnan.ru/post.php?c=1&p=529548 (дата обращения: 10.06.2021).
5. Краткое руководство. Знакомство с интегрированной средой разработки Visual Studio [Электронный ресурс]. URL: https://docs.microsoft.com/ru-ru/visualstudio/ide/quickstart-ide-orientation?view=vs- 2019 (дата обращения: 10.06.2021).
6. Ле Мань Ха. Оптимизация алгоритма KNN для классификации // ТРУДЫ МФТИ. 2016. Том 8, № 1. С. 92-94.
7. Левенштейн В.И. Двоичные коды с исправлением выпадений, вставок и замещений символов // Докл. АН СССР. 1965. 163 (4). C. 845–848.
8. Метод TF-IDF [Электронный ресурс]. URL: https://ru.wikipedia.org/wiki/TF-IDF (дата обращения: 10.06.2021).
9. Отраднов К.К., Раев В.К. Экспериментальное исследование эффективности методик векторизации текстовых документов и алгоритмов их кластеризации. Вестник РГРТУ. 2018. № 64. С. 74-82.
10. Самуйлов С. В. Алгоритмы и структуры обработки данных : учебное
пособие. Саратов : Вузовское образование, 2016. 132 c. [Электронный ресурс]. URL: https://www.iprbookshop.ru/47275.html (дата обращения: 12.06.2021).
Купить эту работу vs Заказать новую | ||
---|---|---|
1 раз | Куплено | Выполняется индивидуально |
Не менее 40%
Исполнитель, загружая работу в «Банк готовых работ» подтверждает, что
уровень оригинальности
работы составляет не менее 40%
|
Уникальность | Выполняется индивидуально |
Сразу в личном кабинете | Доступность | Срок 1—6 дней |
800 ₽ | Цена | от 3000 ₽ |
Не подошла эта работа?
В нашей базе 5571 Выпускная квалификационная работа — поможем найти подходящую