Автор24

Информация о работе

Подробнее о работе

Страница работы

Исследование и разработка процедур веб парсинга

  • 63 страниц
  • 2016 год
  • 276 просмотров
  • 1 покупка
Автор работы

EkaterinaKonstantinovna

Большой опыт в написании работ, очень давно работаю на этом ресурсе, выполнила более 15000 заказов

2240 ₽

Работа будет доступна в твоём личном кабинете после покупки

Гарантия сервиса Автор24

Уникальность не ниже 50%

Фрагменты работ

С момента своего создания почти полвека назад Всемирная паутина (World Wide Web) постоянно наращивает количество активных пользователей. Так в конце 2015 года количество пользователей интернета в мире составляло 3,2 миллиарда (всё население Земли составляет 7,2 миллиарда человек). Из них в России – 84 миллиона [1].
Популяризации Интернета способствует рад факторов, а именно: появление нескольких новых технологий, увеличивающих мощности компьютеров и скорости глобальных сетей; низкие затраты на создание веб-сайтов и низкая стоимость компьютерной техники и телекоммуникационного оборудования.
Появление огромного количество новых средств разработки веб-приложений, фреймворков, называемых также CMS (системы управления сайтом), стало основой для быстрой и простой разработки веб-сайтов. Эти готовые к использованию системы имеют всё необходимое для легкой установки, настройки и публикации онлайн-контента. Даже обычный пользователь, не будучи специалистом по компьютерам либо программистом, может легко управлять современным сайтом и наполнять его содержимым.
Развитие Web 2.0 ещё более увеличило количество контента, создаваемого простыми пользователями. Социальные сети, веб-журналы, интернет-магазины и сайты электронной коммерции стали наполняться огромным количеством данных. Глобальным трендом общественного развития стал экспоненциальный рост объемов информации, так называемый информационный взрыв. При создании приложений, работающих с большими объемами данных, приходится сталкиваться с двумя основными проблемами: обработка экспоненциально нарастающих массивов данных, поступающих в реальном времени; существенное сокращение времени анализа данных [2].
В этой связи актуальным становится разработка методов и алгоритмов извлечения значимой информации из неструктурированных данных, размещенных в глобальной сети. Этим обусловлено интенсивное развитие новых методов последовательного синтаксического анализа информации, размещённой на интернет-страницах – парсинга сайтов.
Одним из сегментов Интернета, где идет быстрое наполнение информации является сегмент электронной коммерции. Процесс развития электронной торговли во всём мире идёт огромными темпами и можно сказать, что он необратим. Россия постепенно перестаёт быть аутсайдером в этом процессе. В нашей стране уже функционирует около 500 крупных электронных магазинов и торговых площадок. В стадии реализации находится большое количество инвестиционных проектов с участием отечественного и иностранного капитала.
Как показывает практика, наполнение контентом интернет-магазина дело несложное, но требует обычно серьезных затрат времени и сил. Наполнить каталог товаров и услуг можно и вручную, но всё же такой выбор слишком утомителен, либо затратен, если кого-то нанимать для выполнения работ. Импорт данных в онлайн-магазин зависит от опыта, навыков и умений человека. Однако в случае «ручного» заполнения данных интернет-магазина могут возникнуть простои, а это приводит просто к непозволительным для бизнеса потерям. Поэтому необходимо за считанные часы создать полноценный контент для интернет-магазина с полным каталогом необходимых товаров.
Целью данной работы является исследование и разработка процедур веб парсинга для импорта данных онлайн-магазинов.
Для достижения данной цели были поставлены следующие задачи:
• проанализировать современные подходы к организации веб парсинга;
• выполнить обзор существующих программных средств для осуществления веб парсинга;
• выполнить проектирование средств веб парсинга;
• разработать процедуры веб парсинга;
• оценить и протестировать разработанные процедуры.

Введение 3
Глава 1. Анализ современных подходов к организации веб парсинга 5
Глава 2. Проектирование средств веб парсинга 23
Глава 3. Разработка процедур веб парсинга 37
Глава 4. Оценка и тестирование разработанных процедур 50
Заключение 60
Список литературы 62
Приложение. Листинг программы 65



В результате выполнения дипломного проекта было спроектировано и разработано веб-приложение, реализующее парсинг веб-страниц онлайн-магазинов. Разработанный веб-парсер удовлетворяет поставленным целям и реализован на основе использования регулярных выражений и языка программирования PHP.
При написании дипломного проекта в первой главе дипломной работы были рассмотрены основные понятия синтаксического анализа исходного текста веб-страниц. Кратко описана работа синтаксического анализатора (парсера). Рассмотрены основные этапы парсинга html-страниц. Проанализированы современные подходы к организации веб парсинга и выполнен обзор существующих программных средств для осуществления веб парсинга.
Во второй главе дипломной работы осуществлено проектирование средств веб парсинга на основе системного подхода. Рассмотрены этапы моделирования на основе системного подхода. Используя способ структурной декомпозиции, построены диаграммы первого и второго уровня декомпозиции. Также в данной главе выполнено построение логической модели базы данных и определены основные сущности проектируемой БД. В качестве системы управления базой данных для реализации логической модели базы данных выбрана СУБД MySQL. В качестве языка программирования выбран РНР из-за наличия большого количества библиотек для осуществления веб-парсинга. В качестве среды разработки программного комплекса выбран редактор исходного кода Sublime Text 3, обладающий кросс-платформенностью, скоростью и быстрым циклом обновления.
В третьей главе дипломной работы описаны разработанные процедуры, функции и модули веб-парсера. Представлен алгоритм получения содержимого веб страницы. Разработаны регулярные выражения для анализа исходного кода веб страниц торговой площадки ТОВАРЫ@MAIL.RU. Построена физическая модель базы данных, состоящая из шести таблиц. Также в данной главе описаны процедуры экспорта данных в текстовый формат и в формат CSV и представлен интерфейс пользователя.
В заключительной главе данной работы выполнено тестирование и оценка разработанного веб-парсера. Показаны результаты парсинга нескольких страниц, а именно «Сотовые телефоны», «Планшеты» и «Мониторы». Продемонстрирован экспорт результатов в форматы TXT и CSV. Выполнена оценка быстродействия работы веб-парсера.



1. Интернет: цифры и факты [Электронный ресурс]. Режим доступа: http://www.bizhit.ru/
2. Кузнецов С. Большие хлопоты с большими объемами данных // Открытые системы. СУБД. – 2008. – №4. С.64-69.
3. Синтаксический анализ [Электронный ресурс] / Википедия. Режим доступа: https://ru.wikipedia.org/wiki/Синтаксический_анализ
4. Ахо А., Ульман Дж. Теория синтаксического анализа, перевода и компиляции. – М.: Мир, 1978. – Т. 1, 612 с. Т.2, 487 с.
5. Revised report on the algorithmic language Algol 68 // ACTA Informatica 5. Пересмотренное сообщение о языке ALGOL 68. – 1974. – P. 1–236.
6. Knuth D.E. Semantics of context-free languages // Mathematical system theory. – 1968 (2). – P. 127–145.
7. Koster Affix grammars // Algol 68 implementation. – Noth-Holland, 1971.
8. Griffiths M. Relationship between definition and implementation of language // Advanced courses on software engineering. Lecture Notes in Economics and Math Syst. Springer-Verlag 1973.
9. Ledgard H.F. Production system or can we do better than BNF? // CACM. – 1974, N2. – P. 94–102.
10. Williams V.H. Static semantics features of Algol 60, and BASIC // The Computer Journal. – Vol. 21, №. 3. – P. 234–242.
11. Хантер Р. Проектирование и конструирование компиляторов. – М.: Финансы и статистика, 1984.
12. Компаниец Р.И., Маньков Е.В., Филатов Н.Е. Системное программирование. Основы построения трансляторов. – СПб.: КОРОНАпринт, 2000.
13. Карпов Ю.Г. Теория и технология программирования. Основы построения трансляторов. – С-Пб.: «БХВ-Петербург», 2005.
14. Парсинг html-сайтов с помощью PHP, Ruby, Python [Электронный ресурс]. Режим доступа: http://parsing.valemak.com/ru/what-why-how/
15. Этапы парсинга [Электронный ресурс]. Режим доступа: http://parsing.valemak.com/ru/what-why-how/stages-of-parsing/
16. Краковецкий А. Подходы к извлечению данных из веб-ресурсов. [Электронный ресурс]. Режим доступа: https://habrahabr.ru/post/99918/
17. Document Object Model [Электронный ресурс] / Википедия. Режим доступа: https://ru.wikipedia.org/wiki/Document_Object_Model
18. Регулярные выражения [Электронный ресурс] / Викиучебник. Режим доступа: https://ru.wikibooks.org/wiki/Регулярные_выражения
19. Описание универсального парсера Content Downloader [Электронный ресурс]. Режим доступа: http://sbfactory.ru/cd/
20. Описание программы ScraperLab [Электронный ресурс]. Режим доступа: http://scraperlab.com/ru/
21. Описание программы Datacol [Электронный ресурс]. Режим доступа: http://web-data-extractor.net/help/DatacolHelp.html
22. Описание программы Sjs parser [Электронный ресурс]. Режим доступа: http://sjs-soft.ru/super-parser-kontenta
23. Смирнова Г.Н., Сорокин А.А., Тельнов Ю.Ф. Проектирование экономических информационных систем. // М.: Финансы и статистика, 2002.
24. Тарасенко Ф.П. Прикладной системный анализ. // М.: Издательство «Проспект». – 2013.
25. Антонов А.В. Системный анализ: учебник для вузов // М.: Высшая школа.– 2004.
26. Черняк Л. Третья опора компьютинга // Открытые системы. СУБД. – 2010 . – №6.
27. Версии PHP на хостинге [Электронный ресурс]. Режим доступа: http://www.hostcomp.ru/versii-php-na-xostinge.html
28. Какой лучший редактор HTML, PHP, CSS, JS кода? [Электронный ресурс]. Режим доступа: http://sitear.ru/material/luchshiy-redaktor-html-php-css-js-koda
29. CURL [Электронный ресурс] / http://www.php.su/lessons/?lesson_11
30. Регулярные выражения [Электронный ресурс] / Викиучебник Режим доступа: https://ru.wikibooks.org/wiki/Регулярные_выражения
31. CSV [Электронный ресурс] / Википедия Режим доступа:
https://ru.wikipedia.org/wiki/CSV


Форма заказа новой работы

Не подошла эта работа?

Закажи новую работу, сделанную по твоим требованиям

Оставляя свои контактные данные и нажимая «Заказать Дипломную работу», я соглашаюсь пройти процедуру регистрации на Платформе, принимаю условия Пользовательского соглашения и Политики конфиденциальности в целях заключения соглашения.

Фрагменты работ

С момента своего создания почти полвека назад Всемирная паутина (World Wide Web) постоянно наращивает количество активных пользователей. Так в конце 2015 года количество пользователей интернета в мире составляло 3,2 миллиарда (всё население Земли составляет 7,2 миллиарда человек). Из них в России – 84 миллиона [1].
Популяризации Интернета способствует рад факторов, а именно: появление нескольких новых технологий, увеличивающих мощности компьютеров и скорости глобальных сетей; низкие затраты на создание веб-сайтов и низкая стоимость компьютерной техники и телекоммуникационного оборудования.
Появление огромного количество новых средств разработки веб-приложений, фреймворков, называемых также CMS (системы управления сайтом), стало основой для быстрой и простой разработки веб-сайтов. Эти готовые к использованию системы имеют всё необходимое для легкой установки, настройки и публикации онлайн-контента. Даже обычный пользователь, не будучи специалистом по компьютерам либо программистом, может легко управлять современным сайтом и наполнять его содержимым.
Развитие Web 2.0 ещё более увеличило количество контента, создаваемого простыми пользователями. Социальные сети, веб-журналы, интернет-магазины и сайты электронной коммерции стали наполняться огромным количеством данных. Глобальным трендом общественного развития стал экспоненциальный рост объемов информации, так называемый информационный взрыв. При создании приложений, работающих с большими объемами данных, приходится сталкиваться с двумя основными проблемами: обработка экспоненциально нарастающих массивов данных, поступающих в реальном времени; существенное сокращение времени анализа данных [2].
В этой связи актуальным становится разработка методов и алгоритмов извлечения значимой информации из неструктурированных данных, размещенных в глобальной сети. Этим обусловлено интенсивное развитие новых методов последовательного синтаксического анализа информации, размещённой на интернет-страницах – парсинга сайтов.
Одним из сегментов Интернета, где идет быстрое наполнение информации является сегмент электронной коммерции. Процесс развития электронной торговли во всём мире идёт огромными темпами и можно сказать, что он необратим. Россия постепенно перестаёт быть аутсайдером в этом процессе. В нашей стране уже функционирует около 500 крупных электронных магазинов и торговых площадок. В стадии реализации находится большое количество инвестиционных проектов с участием отечественного и иностранного капитала.
Как показывает практика, наполнение контентом интернет-магазина дело несложное, но требует обычно серьезных затрат времени и сил. Наполнить каталог товаров и услуг можно и вручную, но всё же такой выбор слишком утомителен, либо затратен, если кого-то нанимать для выполнения работ. Импорт данных в онлайн-магазин зависит от опыта, навыков и умений человека. Однако в случае «ручного» заполнения данных интернет-магазина могут возникнуть простои, а это приводит просто к непозволительным для бизнеса потерям. Поэтому необходимо за считанные часы создать полноценный контент для интернет-магазина с полным каталогом необходимых товаров.
Целью данной работы является исследование и разработка процедур веб парсинга для импорта данных онлайн-магазинов.
Для достижения данной цели были поставлены следующие задачи:
• проанализировать современные подходы к организации веб парсинга;
• выполнить обзор существующих программных средств для осуществления веб парсинга;
• выполнить проектирование средств веб парсинга;
• разработать процедуры веб парсинга;
• оценить и протестировать разработанные процедуры.

Введение 3
Глава 1. Анализ современных подходов к организации веб парсинга 5
Глава 2. Проектирование средств веб парсинга 23
Глава 3. Разработка процедур веб парсинга 37
Глава 4. Оценка и тестирование разработанных процедур 50
Заключение 60
Список литературы 62
Приложение. Листинг программы 65



В результате выполнения дипломного проекта было спроектировано и разработано веб-приложение, реализующее парсинг веб-страниц онлайн-магазинов. Разработанный веб-парсер удовлетворяет поставленным целям и реализован на основе использования регулярных выражений и языка программирования PHP.
При написании дипломного проекта в первой главе дипломной работы были рассмотрены основные понятия синтаксического анализа исходного текста веб-страниц. Кратко описана работа синтаксического анализатора (парсера). Рассмотрены основные этапы парсинга html-страниц. Проанализированы современные подходы к организации веб парсинга и выполнен обзор существующих программных средств для осуществления веб парсинга.
Во второй главе дипломной работы осуществлено проектирование средств веб парсинга на основе системного подхода. Рассмотрены этапы моделирования на основе системного подхода. Используя способ структурной декомпозиции, построены диаграммы первого и второго уровня декомпозиции. Также в данной главе выполнено построение логической модели базы данных и определены основные сущности проектируемой БД. В качестве системы управления базой данных для реализации логической модели базы данных выбрана СУБД MySQL. В качестве языка программирования выбран РНР из-за наличия большого количества библиотек для осуществления веб-парсинга. В качестве среды разработки программного комплекса выбран редактор исходного кода Sublime Text 3, обладающий кросс-платформенностью, скоростью и быстрым циклом обновления.
В третьей главе дипломной работы описаны разработанные процедуры, функции и модули веб-парсера. Представлен алгоритм получения содержимого веб страницы. Разработаны регулярные выражения для анализа исходного кода веб страниц торговой площадки ТОВАРЫ@MAIL.RU. Построена физическая модель базы данных, состоящая из шести таблиц. Также в данной главе описаны процедуры экспорта данных в текстовый формат и в формат CSV и представлен интерфейс пользователя.
В заключительной главе данной работы выполнено тестирование и оценка разработанного веб-парсера. Показаны результаты парсинга нескольких страниц, а именно «Сотовые телефоны», «Планшеты» и «Мониторы». Продемонстрирован экспорт результатов в форматы TXT и CSV. Выполнена оценка быстродействия работы веб-парсера.



1. Интернет: цифры и факты [Электронный ресурс]. Режим доступа: http://www.bizhit.ru/
2. Кузнецов С. Большие хлопоты с большими объемами данных // Открытые системы. СУБД. – 2008. – №4. С.64-69.
3. Синтаксический анализ [Электронный ресурс] / Википедия. Режим доступа: https://ru.wikipedia.org/wiki/Синтаксический_анализ
4. Ахо А., Ульман Дж. Теория синтаксического анализа, перевода и компиляции. – М.: Мир, 1978. – Т. 1, 612 с. Т.2, 487 с.
5. Revised report on the algorithmic language Algol 68 // ACTA Informatica 5. Пересмотренное сообщение о языке ALGOL 68. – 1974. – P. 1–236.
6. Knuth D.E. Semantics of context-free languages // Mathematical system theory. – 1968 (2). – P. 127–145.
7. Koster Affix grammars // Algol 68 implementation. – Noth-Holland, 1971.
8. Griffiths M. Relationship between definition and implementation of language // Advanced courses on software engineering. Lecture Notes in Economics and Math Syst. Springer-Verlag 1973.
9. Ledgard H.F. Production system or can we do better than BNF? // CACM. – 1974, N2. – P. 94–102.
10. Williams V.H. Static semantics features of Algol 60, and BASIC // The Computer Journal. – Vol. 21, №. 3. – P. 234–242.
11. Хантер Р. Проектирование и конструирование компиляторов. – М.: Финансы и статистика, 1984.
12. Компаниец Р.И., Маньков Е.В., Филатов Н.Е. Системное программирование. Основы построения трансляторов. – СПб.: КОРОНАпринт, 2000.
13. Карпов Ю.Г. Теория и технология программирования. Основы построения трансляторов. – С-Пб.: «БХВ-Петербург», 2005.
14. Парсинг html-сайтов с помощью PHP, Ruby, Python [Электронный ресурс]. Режим доступа: http://parsing.valemak.com/ru/what-why-how/
15. Этапы парсинга [Электронный ресурс]. Режим доступа: http://parsing.valemak.com/ru/what-why-how/stages-of-parsing/
16. Краковецкий А. Подходы к извлечению данных из веб-ресурсов. [Электронный ресурс]. Режим доступа: https://habrahabr.ru/post/99918/
17. Document Object Model [Электронный ресурс] / Википедия. Режим доступа: https://ru.wikipedia.org/wiki/Document_Object_Model
18. Регулярные выражения [Электронный ресурс] / Викиучебник. Режим доступа: https://ru.wikibooks.org/wiki/Регулярные_выражения
19. Описание универсального парсера Content Downloader [Электронный ресурс]. Режим доступа: http://sbfactory.ru/cd/
20. Описание программы ScraperLab [Электронный ресурс]. Режим доступа: http://scraperlab.com/ru/
21. Описание программы Datacol [Электронный ресурс]. Режим доступа: http://web-data-extractor.net/help/DatacolHelp.html
22. Описание программы Sjs parser [Электронный ресурс]. Режим доступа: http://sjs-soft.ru/super-parser-kontenta
23. Смирнова Г.Н., Сорокин А.А., Тельнов Ю.Ф. Проектирование экономических информационных систем. // М.: Финансы и статистика, 2002.
24. Тарасенко Ф.П. Прикладной системный анализ. // М.: Издательство «Проспект». – 2013.
25. Антонов А.В. Системный анализ: учебник для вузов // М.: Высшая школа.– 2004.
26. Черняк Л. Третья опора компьютинга // Открытые системы. СУБД. – 2010 . – №6.
27. Версии PHP на хостинге [Электронный ресурс]. Режим доступа: http://www.hostcomp.ru/versii-php-na-xostinge.html
28. Какой лучший редактор HTML, PHP, CSS, JS кода? [Электронный ресурс]. Режим доступа: http://sitear.ru/material/luchshiy-redaktor-html-php-css-js-koda
29. CURL [Электронный ресурс] / http://www.php.su/lessons/?lesson_11
30. Регулярные выражения [Электронный ресурс] / Викиучебник Режим доступа: https://ru.wikibooks.org/wiki/Регулярные_выражения
31. CSV [Электронный ресурс] / Википедия Режим доступа:
https://ru.wikipedia.org/wiki/CSV


Купить эту работу

Исследование и разработка процедур веб парсинга

2240 ₽

или заказать новую

Лучшие эксперты сервиса ждут твоего задания

от 3000 ₽

Гарантии Автор24

Изображения работ

Страница работы
Страница работы
Страница работы

Понравилась эта работа?

или

7 августа 2017 заказчик разместил работу

Выбранный эксперт:

Автор работы
EkaterinaKonstantinovna
5
Большой опыт в написании работ, очень давно работаю на этом ресурсе, выполнила более 15000 заказов
Купить эту работу vs Заказать новую
1 раз Куплено Выполняется индивидуально
Не менее 40%
Исполнитель, загружая работу в «Банк готовых работ» подтверждает, что уровень оригинальности работы составляет не менее 40%
Уникальность Выполняется индивидуально
Сразу в личном кабинете Доступность Срок 1—6 дней
2240 ₽ Цена от 3000 ₽

5 Похожих работ

Дипломная работа

Диплом Информационная система контроля взаиморасчетов с поставщиками и потребителями

Уникальность: от 40%
Доступность: сразу
3000 ₽
Дипломная работа

Разработка модуля эффекта от проведения энергосберегающих ресурсов

Уникальность: от 40%
Доступность: сразу
2800 ₽
Дипломная работа

Разработка электронного образовательного ресурса Web 2.0 как средство коллективной работы

Уникальность: от 40%
Доступность: сразу
2800 ₽
Дипломная работа

Проектирование автоматизированной системы учета продукции

Уникальность: от 40%
Доступность: сразу
2800 ₽
Дипломная работа

Разработка прототипа автоматизированной системы для подготовки проведения семинаров

Уникальность: от 40%
Доступность: сразу
2800 ₽

Отзывы студентов

Отзыв punklexa об авторе EkaterinaKonstantinovna 2019-07-09
Дипломная работа

Спасибо Вам за работу!

Общая оценка 5
Отзыв Женя13 об авторе EkaterinaKonstantinovna 2016-02-26
Дипломная работа

Огромное спасибо! Дипломная работа сделана оперативно и качественно!!!

Общая оценка 5
Отзыв Талгат Талгат об авторе EkaterinaKonstantinovna 2014-05-01
Дипломная работа

Автор мне очень понравился. Профессионал своего дела! Если сказал, что может сделать, то делает! Всегда находится на связи и не подводит по срокам!!! Очень приятно с ним сотрудничать!!! Желаю Вам дальнейших выгодных заказов и успехов!!! Спасибо!!!

Общая оценка 5
Отзыв Елена С. об авторе EkaterinaKonstantinovna 2014-05-21
Дипломная работа

Честный и ответственный автор

Общая оценка 5

другие учебные работы по предмету

Готовая работа

Разработка АИС учета кадров

Уникальность: от 40%
Доступность: сразу
2800 ₽
Готовая работа

Проектирование информационной системы для контроля обеспечения работ компании «Interfere»

Уникальность: от 40%
Доступность: сразу
1200 ₽
Готовая работа

Разработка и испытание ПО по моделям

Уникальность: от 40%
Доступность: сразу
1490 ₽
Готовая работа

персональная программа начальника отдела производства (на примере ООО"Вселуг")

Уникальность: от 40%
Доступность: сразу
2800 ₽
Готовая работа

Особые точки функций комплексного переменного и их изучение с помощью Maple

Уникальность: от 40%
Доступность: сразу
2240 ₽
Готовая работа

Контроль логических интегральных микросхем (+ доклад)

Уникальность: от 40%
Доступность: сразу
1000 ₽
Готовая работа

Внедрение системы управления освещением умного дома.

Уникальность: от 40%
Доступность: сразу
2800 ₽
Готовая работа

Автоматизированная система складского учета

Уникальность: от 40%
Доступность: сразу
3000 ₽
Готовая работа

диплом Разработка системы автоматизации документооборота

Уникальность: от 40%
Доступность: сразу
2000 ₽
Готовая работа

диплом Интеллектуальные системы. Управления данными в интеллектуальных системах

Уникальность: от 40%
Доступность: сразу
1700 ₽
Готовая работа

оптимизация торгово-закупочной деятельности

Уникальность: от 40%
Доступность: сразу
2800 ₽
Готовая работа

безопасность беспроводных сетей

Уникальность: от 40%
Доступность: сразу
3300 ₽