Автор молодец, просто работа не нужна больше
Подробнее о работе
Гарантия сервиса Автор24
Уникальность не ниже 50%
В современном мире, нас окружает огромное количество информации, которая, чаще всего, хранится в электронном виде на веб-сайтах. У каждого магазина, новостного агентства или другого сервиса есть сайт, с которого можно получить какие-то данные, например, список доступных товаров или актуальных новостей. Люди используют социальные сети, где публикуют свои личные данные: имя, фамилию и номер телефона.
Образуется конкуренция в различных сферах деятельности людей, например, в бизнесе и рекламе. Она требует активного сбора данных и делает крайне востребованными подходы по их оперативному получению из уже имеющейся открытой информации.
Такой большой поток не отсортированных сведений может показаться нам бесполезным, но в нем содержится ценная информация, которую можно использовать в бизнесе, рекламе и других сферах деятельности.
В ходе стремительного развития веб-технологий появляются новые способы для улучшения взаимодействия каждого пользователя с интернет страницами. Интернет полон открытых данных, но требует определенных специальных средств для их сбора.
ОГЛАВЛЕНИЕ
ВВЕДЕНИЕ 7
1 МЕТОДЫ, АЛГОРИТМЫ И МОДЕЛИ АНАЛИЗА ВЕБ-СТРАНИЦ 9
1.1 Методы машинного обучения 9
1.1.1 Деревья решений 10
1.1.2 Наивный байесовский классификатор 13
1.1.3 Выбор общих параметров 15
1.2 Методы анализа признакового пространства 16
1.2.1 Корреляция 16
1.2.2 Автокорреляция 18
1.2.3 Факторный анализ 20
1.3 Подготовка данных для анализа 22
1.4 Описание предметной области 22
1.4.1 Веб-скрейпинг 22
1.4.2 Объектная модель документа 24
2 ПОСТРОЕНИЕ ПРИЗНАКОВОГО ПРОСТРАНСТВА 27
2.1 Постановка задачи 27
2.2 Формирование обучающей выборки 27
2.3 Пример признакового пространства для одной из веб-страниц 28
2.4 Выбор метода для поиска аналога 30
2.4.1 Деревья решений 30
2.4.2 Наивный байесовский классификатор 31
2.4.3 Выбор общих параметров 32
2.5 Отбор оптимальных признаков 33
2.6 Выводы по разделу 37
3 РАЗРАБОТКА ПРОГРАММЫ ДЛЯ ТЕСТИРОВАНИЯ МЕТОДА ПОИСКА
АНАЛОГОВ 38
3.1 Разработка архитектуры приложения 38
3.2 Проверка корректности работы 41
3.4 Выводы по разделу 46
ЗАКЛЮЧЕНИЕ 47
БИБЛИОГРАФИЧЕСКИЙ СПИСОК 48
ПРИЛОЖЕНИЕ 1 Исходный код 52
Хорошо написан, сдавался в глубинке. Сдан на 5
Можно использовать
Код программы в комплекте в документе
Данная работа посвящена построению признакового пространства для элементов веб-страниц, позволяющего создать удобный инструмент для сбора данных с веб-страниц. Отличием разработанного программного обеспечения является удобство, простота эксплуатации и возможность его использования рядовым пользователем, не имеющего профессиональных знаний и умений в области веб-технологий.
БИБЛИОГРАФИЧЕСКИЙ СПИСОК
1 Бабенко, Д. Алгоритмы интеллектуального интернета. Передовые методики сбора, анализа и обработки данных / Д. Бабенко; пер. с англ. М.А. Низовец. - СПб.: Символ-Плюс, 2011. - 480 с.
2 Басалаева, А.Ю. Web-scraping и классификация текстов методом наивного Байеса / А.Ю. Басалаева, Г.А. Гареева, Д.Р. Григорьева // Инновационная наука. 2018. №5. URL: https://cyberleninka.ru/article/n/web- scraping-i-klassifikatsiya-tekstov-metodom-naivnogo-bayesa (дата обращения: 06.05.2020).
3 Бурлаева, Е.И. Обзор методов классификации текстовых документов на основе подхода машинного обучения / Е.И. Бурлаева // Программная инженерия. - 2017. - № 7. - С. 328-336.
4 Вьюнин, В.В. Математические основы теории машинного обучения и прогнозирования / В.В. Вьюнин. - М.: МЦНМО, 2013. - 390 с.
5 Денисова, Д.С. Автоматическая обработка языка. Классификация текста. Наивный байесовский классификатор / Д.С. Денисова // Синергия наук. - 2018. - № 19. - С. 1410-1414.
6 Корреляция. Коэффициент корреляции Пирсона. - URL: http:// \v\v\v.inadiiiieleaniiiig.ni/wiki/iiidex.plip?title Коэффициенткорреляции! 1ирс она (дата обращения 03.05.2020).
7 Корреляция случайных величин. Университет ИТМО. - URL: littps:/dieerc.ifino.ni/wiki/index.plip?title Корреляцияслучайныхвеличин (дата обращения 03.05.2020).
8 Менщиков, А.А. Изучение поведения средств автоматизированного сбора информации с веб-ресурсов / А.А. Менщиков, А.В. Комарова, Ю.Г. Гатчин // Вопросы кибербезопасности. 2017. №3 (21). URL: https://cybeileninka.ii/aiticle/n/izichenie-povedeniya-siedstv-avtonatiziiovannog o-sboia-infoinatsii-s-veb-iesiisov (дата обращения: 16.05.2020).
9 Мерков, А.Б. Распознавание образов. Построение и обучение вероятностных моделей / А.Б. Мерков. - СПб.: Ленанд, 2014. - 238 с.
10 Митчелл, Р. Скрапинг веб-сайтов с помощью Python / Р. Митчелл; пер. с англ. А.В. Груздев. - М.: ДМК Пресс, 2016. - 280 с.
11 Москаленко, А.А. Разработка приложения веб-скрапинга с возможно¬стями обхода блокировок / А.А. Москаленко, О.Р. Лапонина, В.А. Сухомлин // Современные информационные технологии и ИТ-образование. 2019. № 2. URL: https://cyberleninka.ru/article/n/razrabotka-prilozheniya-veb-skrapinga-s-voz mozhnostyami-obhoda-blokirovok (дата обращения: 06.05.2020).
12 Наивные байесовские классификаторы | портал информатики для гиков. - URL: http://espressocode.top/naive-bayes-classifiers/ (дата обращения 20.04.2020).
13 Понятие тега HTML. - URL https://samsebewebmaster.ru/uroki-html-i- css/ponyatie-tega-html.html (дата обращения 28.04.2020).
14 Руководство аналитика Deductor Studio 5.3. - URL: https:// basegroup.ru/deductor/manual/guide-analyst-530 (дата обращения 03.04.2020).
15 Свойства узлов: тип, тег и содержимое. - URL:
http://learn.javascript.ru/basic-dom-node-properties (дата обращения 01.05.2020).
16 Симпсон, К. {Вы не знаете JS} Типы и грамматические
конструкции. / К. Симпсон // СПб.: Питер, 2019. - 240 c.
Не подошла эта работа?
Закажи новую работу, сделанную по твоим требованиям
В современном мире, нас окружает огромное количество информации, которая, чаще всего, хранится в электронном виде на веб-сайтах. У каждого магазина, новостного агентства или другого сервиса есть сайт, с которого можно получить какие-то данные, например, список доступных товаров или актуальных новостей. Люди используют социальные сети, где публикуют свои личные данные: имя, фамилию и номер телефона.
Образуется конкуренция в различных сферах деятельности людей, например, в бизнесе и рекламе. Она требует активного сбора данных и делает крайне востребованными подходы по их оперативному получению из уже имеющейся открытой информации.
Такой большой поток не отсортированных сведений может показаться нам бесполезным, но в нем содержится ценная информация, которую можно использовать в бизнесе, рекламе и других сферах деятельности.
В ходе стремительного развития веб-технологий появляются новые способы для улучшения взаимодействия каждого пользователя с интернет страницами. Интернет полон открытых данных, но требует определенных специальных средств для их сбора.
ОГЛАВЛЕНИЕ
ВВЕДЕНИЕ 7
1 МЕТОДЫ, АЛГОРИТМЫ И МОДЕЛИ АНАЛИЗА ВЕБ-СТРАНИЦ 9
1.1 Методы машинного обучения 9
1.1.1 Деревья решений 10
1.1.2 Наивный байесовский классификатор 13
1.1.3 Выбор общих параметров 15
1.2 Методы анализа признакового пространства 16
1.2.1 Корреляция 16
1.2.2 Автокорреляция 18
1.2.3 Факторный анализ 20
1.3 Подготовка данных для анализа 22
1.4 Описание предметной области 22
1.4.1 Веб-скрейпинг 22
1.4.2 Объектная модель документа 24
2 ПОСТРОЕНИЕ ПРИЗНАКОВОГО ПРОСТРАНСТВА 27
2.1 Постановка задачи 27
2.2 Формирование обучающей выборки 27
2.3 Пример признакового пространства для одной из веб-страниц 28
2.4 Выбор метода для поиска аналога 30
2.4.1 Деревья решений 30
2.4.2 Наивный байесовский классификатор 31
2.4.3 Выбор общих параметров 32
2.5 Отбор оптимальных признаков 33
2.6 Выводы по разделу 37
3 РАЗРАБОТКА ПРОГРАММЫ ДЛЯ ТЕСТИРОВАНИЯ МЕТОДА ПОИСКА
АНАЛОГОВ 38
3.1 Разработка архитектуры приложения 38
3.2 Проверка корректности работы 41
3.4 Выводы по разделу 46
ЗАКЛЮЧЕНИЕ 47
БИБЛИОГРАФИЧЕСКИЙ СПИСОК 48
ПРИЛОЖЕНИЕ 1 Исходный код 52
Хорошо написан, сдавался в глубинке. Сдан на 5
Можно использовать
Код программы в комплекте в документе
Данная работа посвящена построению признакового пространства для элементов веб-страниц, позволяющего создать удобный инструмент для сбора данных с веб-страниц. Отличием разработанного программного обеспечения является удобство, простота эксплуатации и возможность его использования рядовым пользователем, не имеющего профессиональных знаний и умений в области веб-технологий.
БИБЛИОГРАФИЧЕСКИЙ СПИСОК
1 Бабенко, Д. Алгоритмы интеллектуального интернета. Передовые методики сбора, анализа и обработки данных / Д. Бабенко; пер. с англ. М.А. Низовец. - СПб.: Символ-Плюс, 2011. - 480 с.
2 Басалаева, А.Ю. Web-scraping и классификация текстов методом наивного Байеса / А.Ю. Басалаева, Г.А. Гареева, Д.Р. Григорьева // Инновационная наука. 2018. №5. URL: https://cyberleninka.ru/article/n/web- scraping-i-klassifikatsiya-tekstov-metodom-naivnogo-bayesa (дата обращения: 06.05.2020).
3 Бурлаева, Е.И. Обзор методов классификации текстовых документов на основе подхода машинного обучения / Е.И. Бурлаева // Программная инженерия. - 2017. - № 7. - С. 328-336.
4 Вьюнин, В.В. Математические основы теории машинного обучения и прогнозирования / В.В. Вьюнин. - М.: МЦНМО, 2013. - 390 с.
5 Денисова, Д.С. Автоматическая обработка языка. Классификация текста. Наивный байесовский классификатор / Д.С. Денисова // Синергия наук. - 2018. - № 19. - С. 1410-1414.
6 Корреляция. Коэффициент корреляции Пирсона. - URL: http:// \v\v\v.inadiiiieleaniiiig.ni/wiki/iiidex.plip?title Коэффициенткорреляции! 1ирс она (дата обращения 03.05.2020).
7 Корреляция случайных величин. Университет ИТМО. - URL: littps:/dieerc.ifino.ni/wiki/index.plip?title Корреляцияслучайныхвеличин (дата обращения 03.05.2020).
8 Менщиков, А.А. Изучение поведения средств автоматизированного сбора информации с веб-ресурсов / А.А. Менщиков, А.В. Комарова, Ю.Г. Гатчин // Вопросы кибербезопасности. 2017. №3 (21). URL: https://cybeileninka.ii/aiticle/n/izichenie-povedeniya-siedstv-avtonatiziiovannog o-sboia-infoinatsii-s-veb-iesiisov (дата обращения: 16.05.2020).
9 Мерков, А.Б. Распознавание образов. Построение и обучение вероятностных моделей / А.Б. Мерков. - СПб.: Ленанд, 2014. - 238 с.
10 Митчелл, Р. Скрапинг веб-сайтов с помощью Python / Р. Митчелл; пер. с англ. А.В. Груздев. - М.: ДМК Пресс, 2016. - 280 с.
11 Москаленко, А.А. Разработка приложения веб-скрапинга с возможно¬стями обхода блокировок / А.А. Москаленко, О.Р. Лапонина, В.А. Сухомлин // Современные информационные технологии и ИТ-образование. 2019. № 2. URL: https://cyberleninka.ru/article/n/razrabotka-prilozheniya-veb-skrapinga-s-voz mozhnostyami-obhoda-blokirovok (дата обращения: 06.05.2020).
12 Наивные байесовские классификаторы | портал информатики для гиков. - URL: http://espressocode.top/naive-bayes-classifiers/ (дата обращения 20.04.2020).
13 Понятие тега HTML. - URL https://samsebewebmaster.ru/uroki-html-i- css/ponyatie-tega-html.html (дата обращения 28.04.2020).
14 Руководство аналитика Deductor Studio 5.3. - URL: https:// basegroup.ru/deductor/manual/guide-analyst-530 (дата обращения 03.04.2020).
15 Свойства узлов: тип, тег и содержимое. - URL:
http://learn.javascript.ru/basic-dom-node-properties (дата обращения 01.05.2020).
16 Симпсон, К. {Вы не знаете JS} Типы и грамматические
конструкции. / К. Симпсон // СПб.: Питер, 2019. - 240 c.
Купить эту работу vs Заказать новую | ||
---|---|---|
4 раза | Куплено | Выполняется индивидуально |
Не менее 40%
Исполнитель, загружая работу в «Банк готовых работ» подтверждает, что
уровень оригинальности
работы составляет не менее 40%
|
Уникальность | Выполняется индивидуально |
Сразу в личном кабинете | Доступность | Срок 1—6 дней |
199 ₽ | Цена | от 3000 ₽ |
Не подошла эта работа?
В нашей базе 55687 Дипломных работ — поможем найти подходящую