Подробнее о работе
Гарантия сервиса Автор24
Уникальность не ниже 50%
В современном мире стремительное развитие технологий и увеличение объема данных приводит к необходимости создания интеллектуальных систем, способных эффективно анализировать и интерпретировать поведенческие профили пользователей. Данный дипломный проект посвящен разработке интеллектуальной системы анализа поведенческого профиля пользователя с использованием машинного обучения.
Рост цифровизации и увеличение количества онлайн-сервисов ведет к накоплению огромных объемов данных о поведении пользователей. Компании заинтересованы в анализе этих данных для улучшения своих продуктов, персонализации услуг и повышения уровня удовлетворенности клиентов. Традиционные методы анализа часто оказываются недостаточно эффективными и масштабируемыми для работы с большими данными. Машинное обучение предоставляет мощные инструменты для решения этой задачи, позволяя автоматизировать анализ и извлекать скрытые закономерности из данных.
Целью работы является сокращение объемов анализируемой экспертами вручную текстовой информации путем разработки интеллектуальной системы анализа поведенческого профиля пользователя с использованием машинного обучения
Для достижения поставленной цели необходимо решить следующие задачи:
1. Обзор методов анализа данных для идентификации изменений в поведении пользователей и их применение в современных интеллектуальных системах машинного обучения;
2. Разработка метода для идентификации нетипичных сценариев использования мобильных устройств, основанного на машинном обучении и анализе коротких текстовых данных;
3. Разработка архитектуры программного комплекса с модульной структурой для идентификации нетипичных сценариев использования мобильных устройств;
4. Разработка программного комплекса для предварительной обработки и анализа текстовых данных, идентификации нетипичных сценариев использования мобильных устройств, сбора биометрических данных, снижения информационного шума и оптимизации вычислительных ресурсов.
Основная проблема, решаемая в рамках данного проекта, заключается в автоматизации и улучшении качества анализа поведенческих данных пользователей. Это позволит компаниям получать более точные и своевременные данные для принятия стратегических решений.
Дипломный проект выполняется по специальности "Инженер искусственный интеллект".
В процессе обучения и практики я участвовал в нескольких проектах, связанных с анализом данных и машинным обучением. Имею опыт работы с различными инструментами и библиотеками для обработки данных и разработки моделей машинного обучения.
Для выполнения проекта будут использованы следующие инструменты и технологии:
Простая модель bag-of-words, которая преобразует текст в набор слов (или токенов), игнорируя порядок и структуру.
Нейронная модель Word2Vec, обучающая слова на основе их контекста в предложении.
Легковесная реляционная база данных SQLite.
Данный проект выполнен самостоятельно. На проекте я выполнял роли:
Аналитика данных.
Разработчика моделей машинного обучения.
Инженера по внедрению.
Дипломный проект представляет собой всестороннее исследование и разработку интеллектуальной системы, которая может оказать значительное влияние на улучшение бизнес-процессов и удовлетворенность пользователей за счет анализа их поведенческих профилей с использованием современных технологий машинного обучения.
Введение 4
Глава 1. Анализ развития интеллектуальных систем машинного обучения
и обзор методов для поиска отклонений в поведении пользователей 7
1.1 Существующие системы анализа данных пользователей 7
1.2 Анализ методов поиска отклонений в поведении пользователей
по наборам текстовых данных 13
1.3 Нормализация данных в задачах поиска аномального
поведения пользователей 15
Глава 2. Формирование модели представления поведения
пользователя 17
2.1 Обработка текстовых данных и их очистка от информационного шума 17
2.2 Определение длины анализируемой строки 19
2.3 Частотные модели векторного представления 21
2.3.1 Модель «мешок слов» 21
2.3.2 Модель «TF-IDF» 23
2.4 Нейросетевые модели векторного представления 23
2.4.1 Модель представления Word2Vec 23
2.4.2 Модель распределенного представления слов GloVe 24
2.4.3 Модель представления BERT 25
Глава 3. Метод идентификации необычного использования
мобильных устройств пользователями 27
3.1 Определение временных диапазонов выборки 27
3.2 Сравнение векторных представлений 30
3.3 Экспериментальное исследования метода идентификации
нетиповых сценариев использования устройства 35
Глава 4. Реализация программного комплекса сбора и анализа текстовых
данных 37
4.1 Описание сценариев использования 37
4.1.1 Установка и первичная настройка мобильного приложения агента 38
4.1.2 Использование мобильного устройства с установленным агентом
и сбор поведенческих данных 43
4.1.3 Использование Web интерфейса для управления
устройствами пользователей и сбора данных 44
4.1.4 Использование Web интерфейса для анализа отклонений в
поведении пользователя 46
4.2 Программная реализация 48
4.2.1 Проектирование архитектуры программного комплекса 48
4.2.2 Мобильный агент сбора поведенческой информации 50
4.2.3 Модуль поведенческого анализа 52
4.2.4 Серверные модули обработки информации 53
4.3 Экспериментальная проверка показателей производительности 54
4.3.1 Показатели производительности мобильного приложения - агента 55
4.3.2 Показатели производительности разработанного метода
поиска аномального поведения 58
Заключение 61
Список использованной литературы 63
4 Нейросетевые модели векторного представления
2.4.1 Модель представления Word2Vec
Для улучшения качества сравнения векторов и дальнейшего выявления аномального поведения необходимо учитывать семантические аспекты слов в анализируемых предложениях. Для сохранения семантических связей используются модели Word2Vec. В этих моделях каждое слово в словаре представляется не частотным признаком, а вектором эмбеддингов, который сохраняет семантические связи.
Архитектура Word2Vec включает три слоя. На входной слой поступает одно слово, закодированное с помощью one hot encoding (каждое слово представляется бинарным вектором, содержащим одну единицу на позиции, соответствующей слову в словаре). Длина вектора one hot encoding равна размеру словаря. Второй слой, называемый слоем эмбеддингов, представляет собой матрицу размером NxP, где N — размер словаря, а P — гиперпараметр, выбираемый эмпирически. Выходной слой имеет размер Nx1, где N — размер словаря. Каждый нейрон этого слоя выдаёт вероятность того, что входное слово связано с другими словами. На рисунке 7 показана визуализация модели skip-gram Word2Vec.
Таким образом, использование Word2Vec позволяет эффективно учитывать семантические связи между словами, что способствует более точному сравнению векторов и выявлению аномального поведения в тексте.
Рисунок 7. Визуализация применяемой модели skip-gram Word2Vec
2.4.2 Модель распределенного представления слов GloVe
Помимо упомянутой модели Word2Vec, существуют и другие модели эмбеддингов, которые получили широкое признание. Одной из самых популярных альтернатив является модель GloVe (Global Vectors), разработанная в лаборатории Стэнфордского университета. Эта модель сочетает в себе элементы SVD-разложения и подхода Word2Vec. GloVe позволяет выявлять семантические связи между словами, используя матрицу совместной встречаемости.
Метод GloVe основывается на корпусе, содержащем V слов. В этом случае матрица совместного использования X имеет размер V×V, где элемент в i-й строке и j-м столбце указывает, сколько раз слово i встречалось вместе со словом j. Пример матрицы совместной встречаемости представлен на рисунке 8. Эта матрица позволяет моделировать семантические связи между словами, что делает GloVe мощным инструментом для анализа текстов.
В отличие от Word2Vec, который обучает модель, предсказывая слова в контексте, GloVe использует глобальную статистику корпуса, что позволяет более точно захватывать семантические отношения на уровне всей коллекции текстов. Таким образом, GloVe является важным инструментом для анализа текстов и может значительно улучшить качество работы с эмбеддингами слов.
1. Васильев, А. А., Петров, И. И. Интеллектуальные системы на основе машинного обучения: Теория и практика. Москва: Научный мир, 2019. 250 с.
2. Гусев, М. В. Машинное обучение и анализ данных. Санкт-Петербург: Питер, 2020. 300 с.
3. Заремская, Н. В. Анализ профиля пользователя с использованием ИИ. Екатеринбург: Урал низ, 2021. 215 с.
4. Иванов, С. С. Методы машинного обучения для социологических исследований. Новосибирск: Сибирское университетское издательство, 2022. 180 с.
5. Кузнецов, А. В. Основы работы с данными. Москва: Эксмо, 2020. 245 с.
6. Лебедев, В. П. Применение алгоритмов машинного обучения для создания рекомендательных систем. Казань: Татарстан, 2021. 160 с.
7. Михайлов, Е. И. Интеллектуальные технологии: от теории к практике. Москва: Высшая школа, 2022. 350 с.
8. Николаев, И. А., Сидоров, Р. Г. Анализ данных и визуализация. Ростов-на-Дону: Феникс, 2019. 220 с.
9. Петрова, О. Л. Методы анализа пользовательского профиля. Томск: Томский политехнический университет, 2021. 310 с.
10. Романов, Д. Н. Алгоритмы в машинном обучении. Москва: РГГУ, 2023. 275 с.
11. Смирнова, А. К. Искусственный интеллект и его применение в социологии. Хабаровск: Дальний Восток, 2022. 240 с.
12. Тихонов, П. Ю. Основы машинного обучения. Владивосток: ДВФУ, 2019. 208 с.
13. Уваров, В. О. Аналитика данных: подходы и методы. Санкт-Петербург: БХВ-Петербург, 2020. 350 с.
14. Худяков, И. И. Модели машинного обучения для бизнеса. Москва: Манн, Иванов и Фербер, 2021. 400 с.
15. Яковлев, А. С. Интеллектуальные системы: от идеи до реализации. Уфа: Башкирское научное издательство, 2023. 290 с.
Не подошла эта работа?
Закажи новую работу, сделанную по твоим требованиям
В современном мире стремительное развитие технологий и увеличение объема данных приводит к необходимости создания интеллектуальных систем, способных эффективно анализировать и интерпретировать поведенческие профили пользователей. Данный дипломный проект посвящен разработке интеллектуальной системы анализа поведенческого профиля пользователя с использованием машинного обучения.
Рост цифровизации и увеличение количества онлайн-сервисов ведет к накоплению огромных объемов данных о поведении пользователей. Компании заинтересованы в анализе этих данных для улучшения своих продуктов, персонализации услуг и повышения уровня удовлетворенности клиентов. Традиционные методы анализа часто оказываются недостаточно эффективными и масштабируемыми для работы с большими данными. Машинное обучение предоставляет мощные инструменты для решения этой задачи, позволяя автоматизировать анализ и извлекать скрытые закономерности из данных.
Целью работы является сокращение объемов анализируемой экспертами вручную текстовой информации путем разработки интеллектуальной системы анализа поведенческого профиля пользователя с использованием машинного обучения
Для достижения поставленной цели необходимо решить следующие задачи:
1. Обзор методов анализа данных для идентификации изменений в поведении пользователей и их применение в современных интеллектуальных системах машинного обучения;
2. Разработка метода для идентификации нетипичных сценариев использования мобильных устройств, основанного на машинном обучении и анализе коротких текстовых данных;
3. Разработка архитектуры программного комплекса с модульной структурой для идентификации нетипичных сценариев использования мобильных устройств;
4. Разработка программного комплекса для предварительной обработки и анализа текстовых данных, идентификации нетипичных сценариев использования мобильных устройств, сбора биометрических данных, снижения информационного шума и оптимизации вычислительных ресурсов.
Основная проблема, решаемая в рамках данного проекта, заключается в автоматизации и улучшении качества анализа поведенческих данных пользователей. Это позволит компаниям получать более точные и своевременные данные для принятия стратегических решений.
Дипломный проект выполняется по специальности "Инженер искусственный интеллект".
В процессе обучения и практики я участвовал в нескольких проектах, связанных с анализом данных и машинным обучением. Имею опыт работы с различными инструментами и библиотеками для обработки данных и разработки моделей машинного обучения.
Для выполнения проекта будут использованы следующие инструменты и технологии:
Простая модель bag-of-words, которая преобразует текст в набор слов (или токенов), игнорируя порядок и структуру.
Нейронная модель Word2Vec, обучающая слова на основе их контекста в предложении.
Легковесная реляционная база данных SQLite.
Данный проект выполнен самостоятельно. На проекте я выполнял роли:
Аналитика данных.
Разработчика моделей машинного обучения.
Инженера по внедрению.
Дипломный проект представляет собой всестороннее исследование и разработку интеллектуальной системы, которая может оказать значительное влияние на улучшение бизнес-процессов и удовлетворенность пользователей за счет анализа их поведенческих профилей с использованием современных технологий машинного обучения.
Введение 4
Глава 1. Анализ развития интеллектуальных систем машинного обучения
и обзор методов для поиска отклонений в поведении пользователей 7
1.1 Существующие системы анализа данных пользователей 7
1.2 Анализ методов поиска отклонений в поведении пользователей
по наборам текстовых данных 13
1.3 Нормализация данных в задачах поиска аномального
поведения пользователей 15
Глава 2. Формирование модели представления поведения
пользователя 17
2.1 Обработка текстовых данных и их очистка от информационного шума 17
2.2 Определение длины анализируемой строки 19
2.3 Частотные модели векторного представления 21
2.3.1 Модель «мешок слов» 21
2.3.2 Модель «TF-IDF» 23
2.4 Нейросетевые модели векторного представления 23
2.4.1 Модель представления Word2Vec 23
2.4.2 Модель распределенного представления слов GloVe 24
2.4.3 Модель представления BERT 25
Глава 3. Метод идентификации необычного использования
мобильных устройств пользователями 27
3.1 Определение временных диапазонов выборки 27
3.2 Сравнение векторных представлений 30
3.3 Экспериментальное исследования метода идентификации
нетиповых сценариев использования устройства 35
Глава 4. Реализация программного комплекса сбора и анализа текстовых
данных 37
4.1 Описание сценариев использования 37
4.1.1 Установка и первичная настройка мобильного приложения агента 38
4.1.2 Использование мобильного устройства с установленным агентом
и сбор поведенческих данных 43
4.1.3 Использование Web интерфейса для управления
устройствами пользователей и сбора данных 44
4.1.4 Использование Web интерфейса для анализа отклонений в
поведении пользователя 46
4.2 Программная реализация 48
4.2.1 Проектирование архитектуры программного комплекса 48
4.2.2 Мобильный агент сбора поведенческой информации 50
4.2.3 Модуль поведенческого анализа 52
4.2.4 Серверные модули обработки информации 53
4.3 Экспериментальная проверка показателей производительности 54
4.3.1 Показатели производительности мобильного приложения - агента 55
4.3.2 Показатели производительности разработанного метода
поиска аномального поведения 58
Заключение 61
Список использованной литературы 63
4 Нейросетевые модели векторного представления
2.4.1 Модель представления Word2Vec
Для улучшения качества сравнения векторов и дальнейшего выявления аномального поведения необходимо учитывать семантические аспекты слов в анализируемых предложениях. Для сохранения семантических связей используются модели Word2Vec. В этих моделях каждое слово в словаре представляется не частотным признаком, а вектором эмбеддингов, который сохраняет семантические связи.
Архитектура Word2Vec включает три слоя. На входной слой поступает одно слово, закодированное с помощью one hot encoding (каждое слово представляется бинарным вектором, содержащим одну единицу на позиции, соответствующей слову в словаре). Длина вектора one hot encoding равна размеру словаря. Второй слой, называемый слоем эмбеддингов, представляет собой матрицу размером NxP, где N — размер словаря, а P — гиперпараметр, выбираемый эмпирически. Выходной слой имеет размер Nx1, где N — размер словаря. Каждый нейрон этого слоя выдаёт вероятность того, что входное слово связано с другими словами. На рисунке 7 показана визуализация модели skip-gram Word2Vec.
Таким образом, использование Word2Vec позволяет эффективно учитывать семантические связи между словами, что способствует более точному сравнению векторов и выявлению аномального поведения в тексте.
Рисунок 7. Визуализация применяемой модели skip-gram Word2Vec
2.4.2 Модель распределенного представления слов GloVe
Помимо упомянутой модели Word2Vec, существуют и другие модели эмбеддингов, которые получили широкое признание. Одной из самых популярных альтернатив является модель GloVe (Global Vectors), разработанная в лаборатории Стэнфордского университета. Эта модель сочетает в себе элементы SVD-разложения и подхода Word2Vec. GloVe позволяет выявлять семантические связи между словами, используя матрицу совместной встречаемости.
Метод GloVe основывается на корпусе, содержащем V слов. В этом случае матрица совместного использования X имеет размер V×V, где элемент в i-й строке и j-м столбце указывает, сколько раз слово i встречалось вместе со словом j. Пример матрицы совместной встречаемости представлен на рисунке 8. Эта матрица позволяет моделировать семантические связи между словами, что делает GloVe мощным инструментом для анализа текстов.
В отличие от Word2Vec, который обучает модель, предсказывая слова в контексте, GloVe использует глобальную статистику корпуса, что позволяет более точно захватывать семантические отношения на уровне всей коллекции текстов. Таким образом, GloVe является важным инструментом для анализа текстов и может значительно улучшить качество работы с эмбеддингами слов.
1. Васильев, А. А., Петров, И. И. Интеллектуальные системы на основе машинного обучения: Теория и практика. Москва: Научный мир, 2019. 250 с.
2. Гусев, М. В. Машинное обучение и анализ данных. Санкт-Петербург: Питер, 2020. 300 с.
3. Заремская, Н. В. Анализ профиля пользователя с использованием ИИ. Екатеринбург: Урал низ, 2021. 215 с.
4. Иванов, С. С. Методы машинного обучения для социологических исследований. Новосибирск: Сибирское университетское издательство, 2022. 180 с.
5. Кузнецов, А. В. Основы работы с данными. Москва: Эксмо, 2020. 245 с.
6. Лебедев, В. П. Применение алгоритмов машинного обучения для создания рекомендательных систем. Казань: Татарстан, 2021. 160 с.
7. Михайлов, Е. И. Интеллектуальные технологии: от теории к практике. Москва: Высшая школа, 2022. 350 с.
8. Николаев, И. А., Сидоров, Р. Г. Анализ данных и визуализация. Ростов-на-Дону: Феникс, 2019. 220 с.
9. Петрова, О. Л. Методы анализа пользовательского профиля. Томск: Томский политехнический университет, 2021. 310 с.
10. Романов, Д. Н. Алгоритмы в машинном обучении. Москва: РГГУ, 2023. 275 с.
11. Смирнова, А. К. Искусственный интеллект и его применение в социологии. Хабаровск: Дальний Восток, 2022. 240 с.
12. Тихонов, П. Ю. Основы машинного обучения. Владивосток: ДВФУ, 2019. 208 с.
13. Уваров, В. О. Аналитика данных: подходы и методы. Санкт-Петербург: БХВ-Петербург, 2020. 350 с.
14. Худяков, И. И. Модели машинного обучения для бизнеса. Москва: Манн, Иванов и Фербер, 2021. 400 с.
15. Яковлев, А. С. Интеллектуальные системы: от идеи до реализации. Уфа: Башкирское научное издательство, 2023. 290 с.
| Купить эту работу vs Заказать новую | ||
|---|---|---|
| 0 раз | Куплено | Выполняется индивидуально |
|
Не менее 40%
Исполнитель, загружая работу в «Банк готовых работ» подтверждает, что
уровень оригинальности
работы составляет не менее 40%
|
Уникальность | Выполняется индивидуально |
| Сразу в личном кабинете | Доступность | Срок 1—6 дней |
| 1800 ₽ | Цена | от 3000 ₽ |
Не подошла эта работа?
В нашей базе 7220 Выпускных квалификационных работ — поможем найти подходящую