Подробнее о работе
Гарантия сервиса Автор24
Уникальность не ниже 50%
В современном мире стремительное развитие технологий и увеличение объема данных приводит к необходимости создания интеллектуальных систем, способных эффективно анализировать и интерпретировать поведенческие профили пользователей. Данный дипломный проект посвящен разработке интеллектуальной системы анализа поведенческого профиля пользователя с использованием машинного обучения.
Рост цифровизации и увеличение количества онлайн-сервисов ведет к накоплению огромных объемов данных о поведении пользователей. Компании заинтересованы в анализе этих данных для улучшения своих продуктов, персонализации услуг и повышения уровня удовлетворенности клиентов. Традиционные методы анализа часто оказываются недостаточно эффективными и масштабируемыми для работы с большими данными. Машинное обучение предоставляет мощные инструменты для решения этой задачи, позволяя автоматизировать анализ и извлекать скрытые закономерности из данных.
Целью работы является сокращение объемов анализируемой экспертами вручную текстовой информации путем разработки интеллектуальной системы анализа поведенческого профиля пользователя с использованием машинного обучения
Для достижения поставленной цели необходимо решить следующие задачи:
1. Обзор методов анализа данных для идентификации изменений в поведении пользователей и их применение в современных интеллектуальных системах машинного обучения;
2. Разработка метода для идентификации нетипичных сценариев использования мобильных устройств, основанного на машинном обучении и анализе коротких текстовых данных;
3. Разработка архитектуры программного комплекса с модульной структурой для идентификации нетипичных сценариев использования мобильных устройств;
4. Разработка программного комплекса для предварительной обработки и анализа текстовых данных, идентификации нетипичных сценариев использования мобильных устройств, сбора биометрических данных, снижения информационного шума и оптимизации вычислительных ресурсов.
Основная проблема, решаемая в рамках данного проекта, заключается в автоматизации и улучшении качества анализа поведенческих данных пользователей. Это позволит компаниям получать более точные и своевременные данные для принятия стратегических решений.
Дипломный проект выполняется по специальности "Инженер искусственный интеллект".
В процессе обучения и практики я участвовал в нескольких проектах, связанных с анализом данных и машинным обучением. Имею опыт работы с различными инструментами и библиотеками для обработки данных и разработки моделей машинного обучения.
Для выполнения проекта будут использованы следующие инструменты и технологии:
Простая модель bag-of-words, которая преобразует текст в набор слов (или токенов), игнорируя порядок и структуру.
Нейронная модель Word2Vec, обучающая слова на основе их контекста в предложении.
Легковесная реляционная база данных SQLite.
Данный проект выполнен самостоятельно. На проекте я выполнял роли:
Аналитика данных.
Разработчика моделей машинного обучения.
Инженера по внедрению.
Дипломный проект представляет собой всестороннее исследование и разработку интеллектуальной системы, которая может оказать значительное влияние на улучшение бизнес-процессов и удовлетворенность пользователей за счет анализа их поведенческих профилей с использованием современных технологий машинного обучения.
Введение 4
Глава 1. Анализ развития интеллектуальных систем машинного обучения
и обзор методов для поиска отклонений в поведении пользователей 7
1.1 Существующие системы анализа данных пользователей 7
1.2 Анализ методов поиска отклонений в поведении пользователей
по наборам текстовых данных 13
1.3 Нормализация данных в задачах поиска аномального
поведения пользователей 15
Глава 2. Формирование модели представления поведения
пользователя 17
2.1 Обработка текстовых данных и их очистка от информационного шума 17
2.2 Определение длины анализируемой строки 19
2.3 Частотные модели векторного представления 21
2.3.1 Модель «мешок слов» 21
2.3.2 Модель «TF-IDF» 23
2.4 Нейросетевые модели векторного представления 23
2.4.1 Модель представления Word2Vec 23
2.4.2 Модель распределенного представления слов GloVe 24
2.4.3 Модель представления BERT 25
Глава 3. Метод идентификации необычного использования
мобильных устройств пользователями 27
3.1 Определение временных диапазонов выборки 27
3.2 Сравнение векторных представлений 30
3.3 Экспериментальное исследования метода идентификации
нетиповых сценариев использования устройства 35
Глава 4. Реализация программного комплекса сбора и анализа текстовых
данных 37
4.1 Описание сценариев использования 37
4.1.1 Установка и первичная настройка мобильного приложения агента 38
4.1.2 Использование мобильного устройства с установленным агентом
и сбор поведенческих данных 43
4.1.3 Использование Web интерфейса для управления
устройствами пользователей и сбора данных 44
4.1.4 Использование Web интерфейса для анализа отклонений в
поведении пользователя 46
4.2 Программная реализация 48
4.2.1 Проектирование архитектуры программного комплекса 48
4.2.2 Мобильный агент сбора поведенческой информации 50
4.2.3 Модуль поведенческого анализа 52
4.2.4 Серверные модули обработки информации 53
4.3 Экспериментальная проверка показателей производительности 54
4.3.1 Показатели производительности мобильного приложения - агента 55
4.3.2 Показатели производительности разработанного метода
поиска аномального поведения 58
Заключение 61
Список использованной литературы 63
2.2 Определение длины анализируемой строки
На основании экспериментального исследования установлено, что наиболее подходящей длиной пользовательских текстов для выявления высокоинформативных результатов и идентификации отклонений в поведении является диапазон от 7 до 100 символов. Тексты длиной менее 7 символов чаще всего содержат стоп-слова и другой информационный шум, такие как ошибочно набранные фразы и распространенные бесконтекстные словосочетания (Рисунок 3). Эти тексты присутствуют в выборках 98% пользователей и не способствуют идентификации нетиповых сценариев использования мобильного устройства.
Рисунок 3 – Выборка вводимых текстов длиной менее 7 символов
Тексты длиной более 100 символов (Рисунок 4) в основном содержат пользовательские заметки, многократно скопированный текст, деловые сообщения, информационную рассылку, скопированные веб-ссылки и т.д. Эти данные также негативно влияют на качество последующего анализа. Из таких сообщений невозможно извлечь уникальную поведенческую информацию из пользовательских текстов из-за их стандартного и массового характера.
Рисунок 4 – Выборка вводимых текстов длиной более 100 символов
В процентном соотношении количество предложений, имеющих длину в диапазоне от 1 до 7 символов составляет 25,55% (1 256 701 записей), от 7 до 100 символов ~ 69% (3 294 412 записей), от 100 до 200 символов 1,85% (87 331 записей), более 200 символов ~1,98% (93 511 записей) от общего объема набора пользовательских текстовых данных ввода (4 731 955 записей). Диаграмма распределения длин пользовательских текстов в анализируемом наборе данных представлена на рисунке 5.
Рисунок 5 –Диаграмма соотношения длин пользовательских текстов
По количеству символов предложения длиной от 7 до 100 символов занимают основную часть от всей выборки, что позволяет использовать их для дальнейшего анализа без снижения качества результатов (рис.6).
Рисунок 6 –Диаграмма концентрации количества пользовательских текстов и их длин
Такие текстовые сообщения длиной более 100 символов встречаются в выборке крайне редко из-за особенностей пользовательского ввода на мобильных устройствах и не учитываются при анализе нетиповых сценариев использования мобильного устройства пользователем.
1. Васильев, А. А., Петров, И. И. Интеллектуальные системы на основе машинного обучения: Теория и практика. Москва: Научный мир, 2019. 250 с.
2. Гусев, М. В. Машинное обучение и анализ данных. Санкт-Петербург: Питер, 2020. 300 с.
3. Заремская, Н. В. Анализ профиля пользователя с использованием ИИ. Екатеринбург: Урал низ, 2021. 215 с.
4. Иванов, С. С. Методы машинного обучения для социологических исследований. Новосибирск: Сибирское университетское издательство, 2022. 180 с.
5. Кузнецов, А. В. Основы работы с данными. Москва: Эксмо, 2020. 245 с.
6. Лебедев, В. П. Применение алгоритмов машинного обучения для создания рекомендательных систем. Казань: Татарстан, 2021. 160 с.
7. Михайлов, Е. И. Интеллектуальные технологии: от теории к практике. Москва: Высшая школа, 2022. 350 с.
8. Николаев, И. А., Сидоров, Р. Г. Анализ данных и визуализация. Ростов-на-Дону: Феникс, 2019. 220 с.
9. Петрова, О. Л. Методы анализа пользовательского профиля. Томск: Томский политехнический университет, 2021. 310 с.
10. Романов, Д. Н. Алгоритмы в машинном обучении. Москва: РГГУ, 2023. 275 с.
11. Смирнова, А. К. Искусственный интеллект и его применение в социологии. Хабаровск: Дальний Восток, 2022. 240 с.
12. Тихонов, П. Ю. Основы машинного обучения. Владивосток: ДВФУ, 2019. 208 с.
13. Уваров, В. О. Аналитика данных: подходы и методы. Санкт-Петербург: БХВ-Петербург, 2020. 350 с.
14. Худяков, И. И. Модели машинного обучения для бизнеса. Москва: Манн, Иванов и Фербер, 2021. 400 с.
15. Яковлев, А. С. Интеллектуальные системы: от идеи до реализации. Уфа: Башкирское научное издательство, 2023. 290 с.
Не подошла эта работа?
Закажи новую работу, сделанную по твоим требованиям
В современном мире стремительное развитие технологий и увеличение объема данных приводит к необходимости создания интеллектуальных систем, способных эффективно анализировать и интерпретировать поведенческие профили пользователей. Данный дипломный проект посвящен разработке интеллектуальной системы анализа поведенческого профиля пользователя с использованием машинного обучения.
Рост цифровизации и увеличение количества онлайн-сервисов ведет к накоплению огромных объемов данных о поведении пользователей. Компании заинтересованы в анализе этих данных для улучшения своих продуктов, персонализации услуг и повышения уровня удовлетворенности клиентов. Традиционные методы анализа часто оказываются недостаточно эффективными и масштабируемыми для работы с большими данными. Машинное обучение предоставляет мощные инструменты для решения этой задачи, позволяя автоматизировать анализ и извлекать скрытые закономерности из данных.
Целью работы является сокращение объемов анализируемой экспертами вручную текстовой информации путем разработки интеллектуальной системы анализа поведенческого профиля пользователя с использованием машинного обучения
Для достижения поставленной цели необходимо решить следующие задачи:
1. Обзор методов анализа данных для идентификации изменений в поведении пользователей и их применение в современных интеллектуальных системах машинного обучения;
2. Разработка метода для идентификации нетипичных сценариев использования мобильных устройств, основанного на машинном обучении и анализе коротких текстовых данных;
3. Разработка архитектуры программного комплекса с модульной структурой для идентификации нетипичных сценариев использования мобильных устройств;
4. Разработка программного комплекса для предварительной обработки и анализа текстовых данных, идентификации нетипичных сценариев использования мобильных устройств, сбора биометрических данных, снижения информационного шума и оптимизации вычислительных ресурсов.
Основная проблема, решаемая в рамках данного проекта, заключается в автоматизации и улучшении качества анализа поведенческих данных пользователей. Это позволит компаниям получать более точные и своевременные данные для принятия стратегических решений.
Дипломный проект выполняется по специальности "Инженер искусственный интеллект".
В процессе обучения и практики я участвовал в нескольких проектах, связанных с анализом данных и машинным обучением. Имею опыт работы с различными инструментами и библиотеками для обработки данных и разработки моделей машинного обучения.
Для выполнения проекта будут использованы следующие инструменты и технологии:
Простая модель bag-of-words, которая преобразует текст в набор слов (или токенов), игнорируя порядок и структуру.
Нейронная модель Word2Vec, обучающая слова на основе их контекста в предложении.
Легковесная реляционная база данных SQLite.
Данный проект выполнен самостоятельно. На проекте я выполнял роли:
Аналитика данных.
Разработчика моделей машинного обучения.
Инженера по внедрению.
Дипломный проект представляет собой всестороннее исследование и разработку интеллектуальной системы, которая может оказать значительное влияние на улучшение бизнес-процессов и удовлетворенность пользователей за счет анализа их поведенческих профилей с использованием современных технологий машинного обучения.
Введение 4
Глава 1. Анализ развития интеллектуальных систем машинного обучения
и обзор методов для поиска отклонений в поведении пользователей 7
1.1 Существующие системы анализа данных пользователей 7
1.2 Анализ методов поиска отклонений в поведении пользователей
по наборам текстовых данных 13
1.3 Нормализация данных в задачах поиска аномального
поведения пользователей 15
Глава 2. Формирование модели представления поведения
пользователя 17
2.1 Обработка текстовых данных и их очистка от информационного шума 17
2.2 Определение длины анализируемой строки 19
2.3 Частотные модели векторного представления 21
2.3.1 Модель «мешок слов» 21
2.3.2 Модель «TF-IDF» 23
2.4 Нейросетевые модели векторного представления 23
2.4.1 Модель представления Word2Vec 23
2.4.2 Модель распределенного представления слов GloVe 24
2.4.3 Модель представления BERT 25
Глава 3. Метод идентификации необычного использования
мобильных устройств пользователями 27
3.1 Определение временных диапазонов выборки 27
3.2 Сравнение векторных представлений 30
3.3 Экспериментальное исследования метода идентификации
нетиповых сценариев использования устройства 35
Глава 4. Реализация программного комплекса сбора и анализа текстовых
данных 37
4.1 Описание сценариев использования 37
4.1.1 Установка и первичная настройка мобильного приложения агента 38
4.1.2 Использование мобильного устройства с установленным агентом
и сбор поведенческих данных 43
4.1.3 Использование Web интерфейса для управления
устройствами пользователей и сбора данных 44
4.1.4 Использование Web интерфейса для анализа отклонений в
поведении пользователя 46
4.2 Программная реализация 48
4.2.1 Проектирование архитектуры программного комплекса 48
4.2.2 Мобильный агент сбора поведенческой информации 50
4.2.3 Модуль поведенческого анализа 52
4.2.4 Серверные модули обработки информации 53
4.3 Экспериментальная проверка показателей производительности 54
4.3.1 Показатели производительности мобильного приложения - агента 55
4.3.2 Показатели производительности разработанного метода
поиска аномального поведения 58
Заключение 61
Список использованной литературы 63
2.2 Определение длины анализируемой строки
На основании экспериментального исследования установлено, что наиболее подходящей длиной пользовательских текстов для выявления высокоинформативных результатов и идентификации отклонений в поведении является диапазон от 7 до 100 символов. Тексты длиной менее 7 символов чаще всего содержат стоп-слова и другой информационный шум, такие как ошибочно набранные фразы и распространенные бесконтекстные словосочетания (Рисунок 3). Эти тексты присутствуют в выборках 98% пользователей и не способствуют идентификации нетиповых сценариев использования мобильного устройства.
Рисунок 3 – Выборка вводимых текстов длиной менее 7 символов
Тексты длиной более 100 символов (Рисунок 4) в основном содержат пользовательские заметки, многократно скопированный текст, деловые сообщения, информационную рассылку, скопированные веб-ссылки и т.д. Эти данные также негативно влияют на качество последующего анализа. Из таких сообщений невозможно извлечь уникальную поведенческую информацию из пользовательских текстов из-за их стандартного и массового характера.
Рисунок 4 – Выборка вводимых текстов длиной более 100 символов
В процентном соотношении количество предложений, имеющих длину в диапазоне от 1 до 7 символов составляет 25,55% (1 256 701 записей), от 7 до 100 символов ~ 69% (3 294 412 записей), от 100 до 200 символов 1,85% (87 331 записей), более 200 символов ~1,98% (93 511 записей) от общего объема набора пользовательских текстовых данных ввода (4 731 955 записей). Диаграмма распределения длин пользовательских текстов в анализируемом наборе данных представлена на рисунке 5.
Рисунок 5 –Диаграмма соотношения длин пользовательских текстов
По количеству символов предложения длиной от 7 до 100 символов занимают основную часть от всей выборки, что позволяет использовать их для дальнейшего анализа без снижения качества результатов (рис.6).
Рисунок 6 –Диаграмма концентрации количества пользовательских текстов и их длин
Такие текстовые сообщения длиной более 100 символов встречаются в выборке крайне редко из-за особенностей пользовательского ввода на мобильных устройствах и не учитываются при анализе нетиповых сценариев использования мобильного устройства пользователем.
1. Васильев, А. А., Петров, И. И. Интеллектуальные системы на основе машинного обучения: Теория и практика. Москва: Научный мир, 2019. 250 с.
2. Гусев, М. В. Машинное обучение и анализ данных. Санкт-Петербург: Питер, 2020. 300 с.
3. Заремская, Н. В. Анализ профиля пользователя с использованием ИИ. Екатеринбург: Урал низ, 2021. 215 с.
4. Иванов, С. С. Методы машинного обучения для социологических исследований. Новосибирск: Сибирское университетское издательство, 2022. 180 с.
5. Кузнецов, А. В. Основы работы с данными. Москва: Эксмо, 2020. 245 с.
6. Лебедев, В. П. Применение алгоритмов машинного обучения для создания рекомендательных систем. Казань: Татарстан, 2021. 160 с.
7. Михайлов, Е. И. Интеллектуальные технологии: от теории к практике. Москва: Высшая школа, 2022. 350 с.
8. Николаев, И. А., Сидоров, Р. Г. Анализ данных и визуализация. Ростов-на-Дону: Феникс, 2019. 220 с.
9. Петрова, О. Л. Методы анализа пользовательского профиля. Томск: Томский политехнический университет, 2021. 310 с.
10. Романов, Д. Н. Алгоритмы в машинном обучении. Москва: РГГУ, 2023. 275 с.
11. Смирнова, А. К. Искусственный интеллект и его применение в социологии. Хабаровск: Дальний Восток, 2022. 240 с.
12. Тихонов, П. Ю. Основы машинного обучения. Владивосток: ДВФУ, 2019. 208 с.
13. Уваров, В. О. Аналитика данных: подходы и методы. Санкт-Петербург: БХВ-Петербург, 2020. 350 с.
14. Худяков, И. И. Модели машинного обучения для бизнеса. Москва: Манн, Иванов и Фербер, 2021. 400 с.
15. Яковлев, А. С. Интеллектуальные системы: от идеи до реализации. Уфа: Башкирское научное издательство, 2023. 290 с.
Купить эту работу vs Заказать новую | ||
---|---|---|
0 раз | Куплено | Выполняется индивидуально |
Не менее 40%
Исполнитель, загружая работу в «Банк готовых работ» подтверждает, что
уровень оригинальности
работы составляет не менее 40%
|
Уникальность | Выполняется индивидуально |
Сразу в личном кабинете | Доступность | Срок 1—6 дней |
1900 ₽ | Цена | от 3000 ₽ |
Не подошла эта работа?
В нашей базе 55803 Дипломной работы — поможем найти подходящую