Автор24

Информация о работе

Подробнее о работе

Страница работы

Разработка рекомендательной системы на основе анализа данных социальных сетей

  • 45 страниц
  • 2019 год
  • 32 просмотра
  • 2 покупки
Автор работы

ksfei121

В основном сосредоточен на продажу готовых своих личных работ по символическим ценам.

800 ₽

Работа будет доступна в твоём личном кабинете после покупки

Гарантия сервиса Автор24

Уникальность не ниже 50%

Фрагменты работ

Введение 2
1. Литературный обзор 3
1.1 Обогащение данных пользователей. Методы веб-скреппинга для получения данных из социальных сетей 3
1.1.1 Получение веб-страниц с использованием библиотеки urllib 5
1.1.2 Разбор HTML и извлечение информации из веб-страниц (Web scraping) 6
1.1.3 Разбор HTML-страниц с помощью регулярных выражений 7
1.1.4 Разбор HTML-страниц с помощью библиотеки BeautifulSoup 9
1.2 Методы data mining для анализа данных в социальных сетях 11
2.1 Общие сведения о СУБД MongoDB 22
2.2 Алгоритм сбора данных и написание скрэппера с помощью BeautifulSoup . 23 3. Разработка рекомендательной системы 31
3.1 Постановка задачи и обзор проблематики 31
3.2 Описание разработанного модуля 33
4. Построение модуля рекомендательной системы 38
4.1 Выбор метода построения рекомендательной системы 39
4.2 Реализация модуля рекомендаций 40
Заключение 43
Список литературы 45

Введение
Основной целью магистерской работы является разработка рекомендательной системы, которая, обрабатывая данные из страницы
пользователя в социальной сети, могла бы с высокой точностью выделять основные предпочтения и давать рекомендации. Идея такой системы заключается в подборе персонализированного списка товаров, которые можно было бы подарить анализируемому пользователю и которые бы отвечали его вкусам и потребностям.
Разработка такой рекомендательной системы требует решения ряда задач. На первом этапе основной акцент построения рекомендательной системы был сделан на исследованиях технологий извлечения, обработки и анализа данных в социальных сетях, а также алгоритмов построения рекомендаций.
Второй этап был посвящен разработке модулей сбора и обработки данных из интернет источников, а также сбору базы данных пользователей и их желаний.
...

1.1 Обогащение данных пользователей. Методы веб-скреппинга для получения данных из социальных сетей

В социальных сетях, на форумах, новостных и развлекательных порталах и в блогах содержится много ценного материала, из которого можно добыть информацию о предпочтениях и особенностях людей и компаний. Социальные сети в этом отношении являются наиболее подходящим
источником, содержащим информацию о предпочтениях, семейном положении, образовании, круге общения и др.
В общем случае задача обогащения профилей клиентов состоит в следующем. Компания предоставляет базовые данные (имя, фамилия, дата рождения, город) о своих клиентах, и на их основе необходимо найти дополнительные сведения: круг интересов, социальный статус, область профессиональной деятельности, музыкальные предпочтения и т. д. Для решения этой задачи необходимо собрать данные о клиенте из социальных сетей, идентифицировать его, обогатить данные и сформировать единый профиль для каждого клиента.
...

1.1.1 Получение веб-страниц с использованием библиотеки urllib

Рассмотрим веб-скрапинг на языке Питон, в частность бибилиотекуurl- lib. Библиотека urllib максимально упрощает получение веб-страниц и обработку их содержимого в программах Питона. Используя urllib, мы работаем с веб-страницами почти так же, как с файлами. Нужно всего лишь указать, какую веб-страницу мы хотим получить, дальше уже сама библиотека urllib отрабатывает все детали протокола HTTP.
Эквивалентный код для чтения файла romeo.txt из сети с помощью urllib записывается следующим образом:
import urllib
fhand = urllib.urlopen('http://www.py4inf.com/code/romeo.txt') for line in fhand:
printline.strip()
После того, как веб-страница открыта с помощью метода urllib.urlopen, можно работать с ней как с файлом, читая ее содержимое в цикле for. На выходе программа выдает только содержимое файла.
...

1.1.3 Разбор HTML-страниц с помощью регулярных выражений

Один из самых простых способов анализа HTML-страниц – использование регулярных выражений для поиска и извлечения подстрок, соответствующих определенным шаблонам. Рассмотрим простейшую веб- страницу:

TheFirstPage



If you like, you can switch to the
SecondPage.


Можно построить регулярное выражение для нахождения и извлечения ссылок из приведенного выше текста:
href="http://.+?"
Это регулярное выражение соответствует подстрокам, начинающимся с фрагмента "href="http://", за которым следует один или несколько произвольных символов ".+?" и далее закрывающая двойная кавычка. Вопросительный знак после плюса в ".+?" указывает, что сопоставление подстроки шаблону должно происходить в "нежадном" режиме вместо используемого по умолчанию "жадного".
...

1.1.4 Разбор HTML-страниц с помощью библиотеки BeautifulSoup

В Питоне есть несколько библиотек, помогающих при разборе HTML- текста и извлечении данных из веб-страниц. Каждая из этих библиотек имеет свои преимущества и недостатки.
Вы можете выбрать одну из них, основываясь на своих потребностях. Например, задача разбора HTML-текста и извлечения ссылок из него легко решается с помощью библиотеки BeautifulSoup.
Несмотря на то, что HTML-документ выглядит как XML и некоторые страницы тщательно сконструированы так, чтобы удовлетворять строгим правилам XML, большая часть HTML-страниц сформирована неправильно в том смысле, что XML-парсер отвергает подобные страницы целиком как некорректные. Но библиотека BeautifulSoup терпимо относится даже к очень неряшливым страницам и позволяет извлекать из них нужную информацию.
Мы будем использовать библиотеку urllib, чтобы читать веб-страницы, и затем библиотеку BeautifulSoup, чтобы извлекать тексты ссылок (т.е. аттрибутhref) из тегов (anchor) [7].
...

I. Специальная литература:
1. Горчинская, Ольга. Анализ данных социальных сетей,Открытые системы. СУБД [Электронный ресурс] / Горчинская, Ольга, Ривкин, Андрей.
– науч.-метод. журн. – 2015.— № 03. – Режим доступа www.osp.ru. – (Дата обращения: 01.11.2017).
2. Кириченко К.М. Обзор методов кластеризации текстовой информации [Электронный ресурс]/ Кириченко К.М, Герасимов М.Б. - электрон. текст. дан. - Режим доступа http://www.dialog- 21.ru/digest/2001/articles/kirichenko/. - (Дата обращения: 01.10.2018)
3. Коршунов, Антон. Анализ социальных сетей: методы и приложения
/ Антон Коршунов, Иван Белобородов, Назар Бузун, Валерий Аванесов, Роман Пастухов, КириллЧихрадзе[и др.]. - электрон. текст. дан. - Режим доступа http://www.ispras.ru/proceedings/docs/2014/26/1/isp_26_2014_1_439.pdf. - (Дата обращения: 10.10.2017)
4. Коршунов, Антон.Определение демографических атрибутов пользователей микроблогов / Антон Коршунов, Иван Белобородов, Андрей Гомзин, Кристина Чуприна [и др.]. - электрон. текст. дан. - Режим доступа
https://cyberleninka.ru/article/v/opredelenie-demograficheskih-atributov- polzovateley-mikroblogov. - (Дата обращения: 10.10.2017)
II. Интернет-ресурсы:
1. Северенс, Чарльз. Лекция «Введение в программирование на Python», Интуит , национальный открытый университет / Чарльз Северенс. - электрон. текст. дан. - Режим доступа https://www.intuit.ru/studies/courses/12179/1172/lecture/23887?page=4 – (Дата обращения 21.02.2018)
2. Чубукова, Ирина. Курс «Datamining», Интуит, национальный открытый университет/ Ирина Чубукова. - электрон. текст. дан. - Режим доступа https://www.intuit.ru/studies/courses/6/6/lecture/162?page=2– (Дата обращения 25.03.2018)
3. Обзор алгоритмов кластеризации данных / andreycha / - электрон. текст. дан. - Режим доступа https://habr.com/ru/post/101338/ – (Дата обращения 16.11.2018)
4. Документация scikit-learn // - электрон. текст. дан. - Режим доступаhttps://scikit-learn.org/stable/ – (Дата обращения 03.12.2018)
5. Кантор, Виктор. Кластеризация текстов по теме / Виктор Кантор, Евгений Рябенко, Евгений Соколов, EmeliDral, Константин Воронцов /- электрон. текст. дан. - Режим доступаhttps://www.coursera.org/lecture/unsupervised-learning/primier- klastierizatsiia-tiekstov-po-tiemie-bVVzw – (Дата обращения 15.11.2018)
6. Рекомендательная система: введение в проблему холодного старта
/ vleskin / - электрон. текст. дан. - Режим доступаhttps://habr.com/ru/company/surfingbird/blog/168733/ – (Дата обращения 16.11.2018)
7. WebScraping с помощью python/ miptgirl / - электрон. текст. дан. - Режим доступа https://habr.com/ru/post/280238/ – (Дата обращения 16.11.2018)
8. Документация NLTK // - электрон. текст. дан. - Режим доступаhttps://www.nltk.org/ – (Дата обращения 03.12.2018)

Форма заказа новой работы

Не подошла эта работа?

Закажи новую работу, сделанную по твоим требованиям

Фрагменты работ

Введение 2
1. Литературный обзор 3
1.1 Обогащение данных пользователей. Методы веб-скреппинга для получения данных из социальных сетей 3
1.1.1 Получение веб-страниц с использованием библиотеки urllib 5
1.1.2 Разбор HTML и извлечение информации из веб-страниц (Web scraping) 6
1.1.3 Разбор HTML-страниц с помощью регулярных выражений 7
1.1.4 Разбор HTML-страниц с помощью библиотеки BeautifulSoup 9
1.2 Методы data mining для анализа данных в социальных сетях 11
2.1 Общие сведения о СУБД MongoDB 22
2.2 Алгоритм сбора данных и написание скрэппера с помощью BeautifulSoup . 23 3. Разработка рекомендательной системы 31
3.1 Постановка задачи и обзор проблематики 31
3.2 Описание разработанного модуля 33
4. Построение модуля рекомендательной системы 38
4.1 Выбор метода построения рекомендательной системы 39
4.2 Реализация модуля рекомендаций 40
Заключение 43
Список литературы 45

Введение
Основной целью магистерской работы является разработка рекомендательной системы, которая, обрабатывая данные из страницы
пользователя в социальной сети, могла бы с высокой точностью выделять основные предпочтения и давать рекомендации. Идея такой системы заключается в подборе персонализированного списка товаров, которые можно было бы подарить анализируемому пользователю и которые бы отвечали его вкусам и потребностям.
Разработка такой рекомендательной системы требует решения ряда задач. На первом этапе основной акцент построения рекомендательной системы был сделан на исследованиях технологий извлечения, обработки и анализа данных в социальных сетях, а также алгоритмов построения рекомендаций.
Второй этап был посвящен разработке модулей сбора и обработки данных из интернет источников, а также сбору базы данных пользователей и их желаний.
...

1.1 Обогащение данных пользователей. Методы веб-скреппинга для получения данных из социальных сетей

В социальных сетях, на форумах, новостных и развлекательных порталах и в блогах содержится много ценного материала, из которого можно добыть информацию о предпочтениях и особенностях людей и компаний. Социальные сети в этом отношении являются наиболее подходящим
источником, содержащим информацию о предпочтениях, семейном положении, образовании, круге общения и др.
В общем случае задача обогащения профилей клиентов состоит в следующем. Компания предоставляет базовые данные (имя, фамилия, дата рождения, город) о своих клиентах, и на их основе необходимо найти дополнительные сведения: круг интересов, социальный статус, область профессиональной деятельности, музыкальные предпочтения и т. д. Для решения этой задачи необходимо собрать данные о клиенте из социальных сетей, идентифицировать его, обогатить данные и сформировать единый профиль для каждого клиента.
...

1.1.1 Получение веб-страниц с использованием библиотеки urllib

Рассмотрим веб-скрапинг на языке Питон, в частность бибилиотекуurl- lib. Библиотека urllib максимально упрощает получение веб-страниц и обработку их содержимого в программах Питона. Используя urllib, мы работаем с веб-страницами почти так же, как с файлами. Нужно всего лишь указать, какую веб-страницу мы хотим получить, дальше уже сама библиотека urllib отрабатывает все детали протокола HTTP.
Эквивалентный код для чтения файла romeo.txt из сети с помощью urllib записывается следующим образом:
import urllib
fhand = urllib.urlopen('http://www.py4inf.com/code/romeo.txt') for line in fhand:
printline.strip()
После того, как веб-страница открыта с помощью метода urllib.urlopen, можно работать с ней как с файлом, читая ее содержимое в цикле for. На выходе программа выдает только содержимое файла.
...

1.1.3 Разбор HTML-страниц с помощью регулярных выражений

Один из самых простых способов анализа HTML-страниц – использование регулярных выражений для поиска и извлечения подстрок, соответствующих определенным шаблонам. Рассмотрим простейшую веб- страницу:

TheFirstPage



If you like, you can switch to the
SecondPage.


Можно построить регулярное выражение для нахождения и извлечения ссылок из приведенного выше текста:
href="http://.+?"
Это регулярное выражение соответствует подстрокам, начинающимся с фрагмента "href="http://", за которым следует один или несколько произвольных символов ".+?" и далее закрывающая двойная кавычка. Вопросительный знак после плюса в ".+?" указывает, что сопоставление подстроки шаблону должно происходить в "нежадном" режиме вместо используемого по умолчанию "жадного".
...

1.1.4 Разбор HTML-страниц с помощью библиотеки BeautifulSoup

В Питоне есть несколько библиотек, помогающих при разборе HTML- текста и извлечении данных из веб-страниц. Каждая из этих библиотек имеет свои преимущества и недостатки.
Вы можете выбрать одну из них, основываясь на своих потребностях. Например, задача разбора HTML-текста и извлечения ссылок из него легко решается с помощью библиотеки BeautifulSoup.
Несмотря на то, что HTML-документ выглядит как XML и некоторые страницы тщательно сконструированы так, чтобы удовлетворять строгим правилам XML, большая часть HTML-страниц сформирована неправильно в том смысле, что XML-парсер отвергает подобные страницы целиком как некорректные. Но библиотека BeautifulSoup терпимо относится даже к очень неряшливым страницам и позволяет извлекать из них нужную информацию.
Мы будем использовать библиотеку urllib, чтобы читать веб-страницы, и затем библиотеку BeautifulSoup, чтобы извлекать тексты ссылок (т.е. аттрибутhref) из тегов (anchor) [7].
...

I. Специальная литература:
1. Горчинская, Ольга. Анализ данных социальных сетей,Открытые системы. СУБД [Электронный ресурс] / Горчинская, Ольга, Ривкин, Андрей.
– науч.-метод. журн. – 2015.— № 03. – Режим доступа www.osp.ru. – (Дата обращения: 01.11.2017).
2. Кириченко К.М. Обзор методов кластеризации текстовой информации [Электронный ресурс]/ Кириченко К.М, Герасимов М.Б. - электрон. текст. дан. - Режим доступа http://www.dialog- 21.ru/digest/2001/articles/kirichenko/. - (Дата обращения: 01.10.2018)
3. Коршунов, Антон. Анализ социальных сетей: методы и приложения
/ Антон Коршунов, Иван Белобородов, Назар Бузун, Валерий Аванесов, Роман Пастухов, КириллЧихрадзе[и др.]. - электрон. текст. дан. - Режим доступа http://www.ispras.ru/proceedings/docs/2014/26/1/isp_26_2014_1_439.pdf. - (Дата обращения: 10.10.2017)
4. Коршунов, Антон.Определение демографических атрибутов пользователей микроблогов / Антон Коршунов, Иван Белобородов, Андрей Гомзин, Кристина Чуприна [и др.]. - электрон. текст. дан. - Режим доступа
https://cyberleninka.ru/article/v/opredelenie-demograficheskih-atributov- polzovateley-mikroblogov. - (Дата обращения: 10.10.2017)
II. Интернет-ресурсы:
1. Северенс, Чарльз. Лекция «Введение в программирование на Python», Интуит , национальный открытый университет / Чарльз Северенс. - электрон. текст. дан. - Режим доступа https://www.intuit.ru/studies/courses/12179/1172/lecture/23887?page=4 – (Дата обращения 21.02.2018)
2. Чубукова, Ирина. Курс «Datamining», Интуит, национальный открытый университет/ Ирина Чубукова. - электрон. текст. дан. - Режим доступа https://www.intuit.ru/studies/courses/6/6/lecture/162?page=2– (Дата обращения 25.03.2018)
3. Обзор алгоритмов кластеризации данных / andreycha / - электрон. текст. дан. - Режим доступа https://habr.com/ru/post/101338/ – (Дата обращения 16.11.2018)
4. Документация scikit-learn // - электрон. текст. дан. - Режим доступаhttps://scikit-learn.org/stable/ – (Дата обращения 03.12.2018)
5. Кантор, Виктор. Кластеризация текстов по теме / Виктор Кантор, Евгений Рябенко, Евгений Соколов, EmeliDral, Константин Воронцов /- электрон. текст. дан. - Режим доступаhttps://www.coursera.org/lecture/unsupervised-learning/primier- klastierizatsiia-tiekstov-po-tiemie-bVVzw – (Дата обращения 15.11.2018)
6. Рекомендательная система: введение в проблему холодного старта
/ vleskin / - электрон. текст. дан. - Режим доступаhttps://habr.com/ru/company/surfingbird/blog/168733/ – (Дата обращения 16.11.2018)
7. WebScraping с помощью python/ miptgirl / - электрон. текст. дан. - Режим доступа https://habr.com/ru/post/280238/ – (Дата обращения 16.11.2018)
8. Документация NLTK // - электрон. текст. дан. - Режим доступаhttps://www.nltk.org/ – (Дата обращения 03.12.2018)

Купить эту работу

Разработка рекомендательной системы на основе анализа данных социальных сетей

800 ₽

или заказать новую

Лучшие эксперты сервиса ждут твоего задания

от 3000 ₽

Гарантии Автор24

Изображения работ

Страница работы
Страница работы
Страница работы

Понравилась эта работа?

или

28 июля 2020 заказчик разместил работу

Выбранный эксперт:

Автор работы
ksfei121
4.7
В основном сосредоточен на продажу готовых своих личных работ по символическим ценам.
Купить эту работу vs Заказать новую
2 раза Куплено Выполняется индивидуально
Не менее 40%
Исполнитель, загружая работу в «Банк готовых работ» подтверждает, что уровень оригинальности работы составляет не менее 40%
Уникальность Выполняется индивидуально
Сразу в личном кабинете Доступность Срок 1—6 дней
800 ₽ Цена от 3000 ₽

5 Похожих работ

Дипломная работа

Диплом Нейросети "Распознавание сервированных блюд с использованием нейронных сетей" сдан на 5 + исходный код

Уникальность: от 40%
Доступность: сразу
249 ₽
Дипломная работа

Разработка програмного обеспечения для предоставления государственных услуг через портал

Уникальность: от 40%
Доступность: сразу
2800 ₽
Дипломная работа

Разработка компьютерного демонстрационного эксперемента по физике на флеше

Уникальность: от 40%
Доступность: сразу
2800 ₽
Дипломная работа

Разработка AMR-специалиста отдела снабжения предприятия малого бизнеса

Уникальность: от 40%
Доступность: сразу
2800 ₽
Дипломная работа

Разработка WEB-cистемы "АРМ сотрудник УМО" средствами ASP.NET версии 4.0 и СУБД Microsoft SQL сервер

Уникальность: от 40%
Доступность: сразу
2800 ₽

Отзывы студентов

Отзыв Геннадий Полушкин об авторе ksfei121 2018-04-25
Дипломная работа

Автор молодец, просто работа не нужна больше

Общая оценка 5
Отзыв Lesha об авторе ksfei121 2014-06-17
Дипломная работа

Работа сложная, диплом по программированию. Большое спасибо за ответственный подход.

Общая оценка 5
Отзыв user13484 об авторе ksfei121 2016-05-11
Дипломная работа

Большое спасибо, все замечательно!

Общая оценка 5
Отзыв vovikluch об авторе ksfei121 2014-06-24
Дипломная работа

очень хороший автор Спасибо за работу

Общая оценка 5

другие учебные работы по предмету

Готовая работа

Принципы работы нейросетей. Виды и принципы работы нейросетей

Уникальность: от 40%
Доступность: сразу
300 ₽
Готовая работа

Рисунок нарисованный в Visual Studio на C++ MFC-приложение

Уникальность: от 40%
Доступность: сразу
200 ₽
Готовая работа

Шифрование C# - AES; WPF.

Уникальность: от 40%
Доступность: сразу
3000 ₽
Готовая работа

Зачётная работа по предмету Web-инженеринг. Сайт

Уникальность: от 40%
Доступность: сразу
100 ₽
Готовая работа

парсинг Python

Уникальность: от 40%
Доступность: сразу
2000 ₽
Готовая работа

Вращающиеся кольца ( Торы )

Уникальность: от 40%
Доступность: сразу
400 ₽
Готовая работа

Парсинг веб-сайта elibrary на Python

Уникальность: от 40%
Доступность: сразу
15000 ₽
Готовая работа

Шифрование текста с Аутентификацией каждого пользователя, на основе алгоритма AES - 128 битного ключа, реализованного на WPF

Уникальность: от 40%
Доступность: сразу
400 ₽
Готовая работа

Разработка приложения, определяющего связность неориентированного графа

Уникальность: от 40%
Доступность: сразу
660 ₽
Готовая работа

Разработка прикладного программного обеспечения «Клавиатурный тренажер»

Уникальность: от 40%
Доступность: сразу
1350 ₽
Готовая работа

АИС сети автосалонов, C# и MS SQL. База данных.

Уникальность: от 40%
Доступность: сразу
500 ₽
Готовая работа

-

Уникальность: от 40%
Доступность: сразу
490 ₽