Спасибо Вам за работу!
Подробнее о работе
Гарантия сервиса Автор24
Уникальность не ниже 50%
С момента своего создания почти полвека назад Всемирная паутина (World Wide Web) постоянно наращивает количество активных пользователей. Так в конце 2015 года количество пользователей интернета в мире составляло 3,2 миллиарда (всё население Земли составляет 7,2 миллиарда человек). Из них в России – 84 миллиона [1].
Популяризации Интернета способствует рад факторов, а именно: появление нескольких новых технологий, увеличивающих мощности компьютеров и скорости глобальных сетей; низкие затраты на создание веб-сайтов и низкая стоимость компьютерной техники и телекоммуникационного оборудования.
Появление огромного количество новых средств разработки веб-приложений, фреймворков, называемых также CMS (системы управления сайтом), стало основой для быстрой и простой разработки веб-сайтов. Эти готовые к использованию системы имеют всё необходимое для легкой установки, настройки и публикации онлайн-контента. Даже обычный пользователь, не будучи специалистом по компьютерам либо программистом, может легко управлять современным сайтом и наполнять его содержимым.
Развитие Web 2.0 ещё более увеличило количество контента, создаваемого простыми пользователями. Социальные сети, веб-журналы, интернет-магазины и сайты электронной коммерции стали наполняться огромным количеством данных. Глобальным трендом общественного развития стал экспоненциальный рост объемов информации, так называемый информационный взрыв. При создании приложений, работающих с большими объемами данных, приходится сталкиваться с двумя основными проблемами: обработка экспоненциально нарастающих массивов данных, поступающих в реальном времени; существенное сокращение времени анализа данных [2].
В этой связи актуальным становится разработка методов и алгоритмов извлечения значимой информации из неструктурированных данных, размещенных в глобальной сети. Этим обусловлено интенсивное развитие новых методов последовательного синтаксического анализа информации, размещённой на интернет-страницах – парсинга сайтов.
Одним из сегментов Интернета, где идет быстрое наполнение информации является сегмент электронной коммерции. Процесс развития электронной торговли во всём мире идёт огромными темпами и можно сказать, что он необратим. Россия постепенно перестаёт быть аутсайдером в этом процессе. В нашей стране уже функционирует около 500 крупных электронных магазинов и торговых площадок. В стадии реализации находится большое количество инвестиционных проектов с участием отечественного и иностранного капитала.
Как показывает практика, наполнение контентом интернет-магазина дело несложное, но требует обычно серьезных затрат времени и сил. Наполнить каталог товаров и услуг можно и вручную, но всё же такой выбор слишком утомителен, либо затратен, если кого-то нанимать для выполнения работ. Импорт данных в онлайн-магазин зависит от опыта, навыков и умений человека. Однако в случае «ручного» заполнения данных интернет-магазина могут возникнуть простои, а это приводит просто к непозволительным для бизнеса потерям. Поэтому необходимо за считанные часы создать полноценный контент для интернет-магазина с полным каталогом необходимых товаров.
Целью данной работы является исследование и разработка процедур веб парсинга для импорта данных онлайн-магазинов.
Для достижения данной цели были поставлены следующие задачи:
• проанализировать современные подходы к организации веб парсинга;
• выполнить обзор существующих программных средств для осуществления веб парсинга;
• выполнить проектирование средств веб парсинга;
• разработать процедуры веб парсинга;
• оценить и протестировать разработанные процедуры.
Введение 3
Глава 1. Анализ современных подходов к организации веб парсинга 5
Глава 2. Проектирование средств веб парсинга 23
Глава 3. Разработка процедур веб парсинга 37
Глава 4. Оценка и тестирование разработанных процедур 50
Заключение 60
Список литературы 62
Приложение. Листинг программы 65
В результате выполнения дипломного проекта было спроектировано и разработано веб-приложение, реализующее парсинг веб-страниц онлайн-магазинов. Разработанный веб-парсер удовлетворяет поставленным целям и реализован на основе использования регулярных выражений и языка программирования PHP.
При написании дипломного проекта в первой главе дипломной работы были рассмотрены основные понятия синтаксического анализа исходного текста веб-страниц. Кратко описана работа синтаксического анализатора (парсера). Рассмотрены основные этапы парсинга html-страниц. Проанализированы современные подходы к организации веб парсинга и выполнен обзор существующих программных средств для осуществления веб парсинга.
Во второй главе дипломной работы осуществлено проектирование средств веб парсинга на основе системного подхода. Рассмотрены этапы моделирования на основе системного подхода. Используя способ структурной декомпозиции, построены диаграммы первого и второго уровня декомпозиции. Также в данной главе выполнено построение логической модели базы данных и определены основные сущности проектируемой БД. В качестве системы управления базой данных для реализации логической модели базы данных выбрана СУБД MySQL. В качестве языка программирования выбран РНР из-за наличия большого количества библиотек для осуществления веб-парсинга. В качестве среды разработки программного комплекса выбран редактор исходного кода Sublime Text 3, обладающий кросс-платформенностью, скоростью и быстрым циклом обновления.
В третьей главе дипломной работы описаны разработанные процедуры, функции и модули веб-парсера. Представлен алгоритм получения содержимого веб страницы. Разработаны регулярные выражения для анализа исходного кода веб страниц торговой площадки ТОВАРЫ@MAIL.RU. Построена физическая модель базы данных, состоящая из шести таблиц. Также в данной главе описаны процедуры экспорта данных в текстовый формат и в формат CSV и представлен интерфейс пользователя.
В заключительной главе данной работы выполнено тестирование и оценка разработанного веб-парсера. Показаны результаты парсинга нескольких страниц, а именно «Сотовые телефоны», «Планшеты» и «Мониторы». Продемонстрирован экспорт результатов в форматы TXT и CSV. Выполнена оценка быстродействия работы веб-парсера.
1. Интернет: цифры и факты [Электронный ресурс]. Режим доступа: http://www.bizhit.ru/
2. Кузнецов С. Большие хлопоты с большими объемами данных // Открытые системы. СУБД. – 2008. – №4. С.64-69.
3. Синтаксический анализ [Электронный ресурс] / Википедия. Режим доступа: https://ru.wikipedia.org/wiki/Синтаксический_анализ
4. Ахо А., Ульман Дж. Теория синтаксического анализа, перевода и компиляции. – М.: Мир, 1978. – Т. 1, 612 с. Т.2, 487 с.
5. Revised report on the algorithmic language Algol 68 // ACTA Informatica 5. Пересмотренное сообщение о языке ALGOL 68. – 1974. – P. 1–236.
6. Knuth D.E. Semantics of context-free languages // Mathematical system theory. – 1968 (2). – P. 127–145.
7. Koster Affix grammars // Algol 68 implementation. – Noth-Holland, 1971.
8. Griffiths M. Relationship between definition and implementation of language // Advanced courses on software engineering. Lecture Notes in Economics and Math Syst. Springer-Verlag 1973.
9. Ledgard H.F. Production system or can we do better than BNF? // CACM. – 1974, N2. – P. 94–102.
10. Williams V.H. Static semantics features of Algol 60, and BASIC // The Computer Journal. – Vol. 21, №. 3. – P. 234–242.
11. Хантер Р. Проектирование и конструирование компиляторов. – М.: Финансы и статистика, 1984.
12. Компаниец Р.И., Маньков Е.В., Филатов Н.Е. Системное программирование. Основы построения трансляторов. – СПб.: КОРОНАпринт, 2000.
13. Карпов Ю.Г. Теория и технология программирования. Основы построения трансляторов. – С-Пб.: «БХВ-Петербург», 2005.
14. Парсинг html-сайтов с помощью PHP, Ruby, Python [Электронный ресурс]. Режим доступа: http://parsing.valemak.com/ru/what-why-how/
15. Этапы парсинга [Электронный ресурс]. Режим доступа: http://parsing.valemak.com/ru/what-why-how/stages-of-parsing/
16. Краковецкий А. Подходы к извлечению данных из веб-ресурсов. [Электронный ресурс]. Режим доступа: https://habrahabr.ru/post/99918/
17. Document Object Model [Электронный ресурс] / Википедия. Режим доступа: https://ru.wikipedia.org/wiki/Document_Object_Model
18. Регулярные выражения [Электронный ресурс] / Викиучебник. Режим доступа: https://ru.wikibooks.org/wiki/Регулярные_выражения
19. Описание универсального парсера Content Downloader [Электронный ресурс]. Режим доступа: http://sbfactory.ru/cd/
20. Описание программы ScraperLab [Электронный ресурс]. Режим доступа: http://scraperlab.com/ru/
21. Описание программы Datacol [Электронный ресурс]. Режим доступа: http://web-data-extractor.net/help/DatacolHelp.html
22. Описание программы Sjs parser [Электронный ресурс]. Режим доступа: http://sjs-soft.ru/super-parser-kontenta
23. Смирнова Г.Н., Сорокин А.А., Тельнов Ю.Ф. Проектирование экономических информационных систем. // М.: Финансы и статистика, 2002.
24. Тарасенко Ф.П. Прикладной системный анализ. // М.: Издательство «Проспект». – 2013.
25. Антонов А.В. Системный анализ: учебник для вузов // М.: Высшая школа.– 2004.
26. Черняк Л. Третья опора компьютинга // Открытые системы. СУБД. – 2010 . – №6.
27. Версии PHP на хостинге [Электронный ресурс]. Режим доступа: http://www.hostcomp.ru/versii-php-na-xostinge.html
28. Какой лучший редактор HTML, PHP, CSS, JS кода? [Электронный ресурс]. Режим доступа: http://sitear.ru/material/luchshiy-redaktor-html-php-css-js-koda
29. CURL [Электронный ресурс] / http://www.php.su/lessons/?lesson_11
30. Регулярные выражения [Электронный ресурс] / Викиучебник Режим доступа: https://ru.wikibooks.org/wiki/Регулярные_выражения
31. CSV [Электронный ресурс] / Википедия Режим доступа:
https://ru.wikipedia.org/wiki/CSV
Не подошла эта работа?
Закажи новую работу, сделанную по твоим требованиям
С момента своего создания почти полвека назад Всемирная паутина (World Wide Web) постоянно наращивает количество активных пользователей. Так в конце 2015 года количество пользователей интернета в мире составляло 3,2 миллиарда (всё население Земли составляет 7,2 миллиарда человек). Из них в России – 84 миллиона [1].
Популяризации Интернета способствует рад факторов, а именно: появление нескольких новых технологий, увеличивающих мощности компьютеров и скорости глобальных сетей; низкие затраты на создание веб-сайтов и низкая стоимость компьютерной техники и телекоммуникационного оборудования.
Появление огромного количество новых средств разработки веб-приложений, фреймворков, называемых также CMS (системы управления сайтом), стало основой для быстрой и простой разработки веб-сайтов. Эти готовые к использованию системы имеют всё необходимое для легкой установки, настройки и публикации онлайн-контента. Даже обычный пользователь, не будучи специалистом по компьютерам либо программистом, может легко управлять современным сайтом и наполнять его содержимым.
Развитие Web 2.0 ещё более увеличило количество контента, создаваемого простыми пользователями. Социальные сети, веб-журналы, интернет-магазины и сайты электронной коммерции стали наполняться огромным количеством данных. Глобальным трендом общественного развития стал экспоненциальный рост объемов информации, так называемый информационный взрыв. При создании приложений, работающих с большими объемами данных, приходится сталкиваться с двумя основными проблемами: обработка экспоненциально нарастающих массивов данных, поступающих в реальном времени; существенное сокращение времени анализа данных [2].
В этой связи актуальным становится разработка методов и алгоритмов извлечения значимой информации из неструктурированных данных, размещенных в глобальной сети. Этим обусловлено интенсивное развитие новых методов последовательного синтаксического анализа информации, размещённой на интернет-страницах – парсинга сайтов.
Одним из сегментов Интернета, где идет быстрое наполнение информации является сегмент электронной коммерции. Процесс развития электронной торговли во всём мире идёт огромными темпами и можно сказать, что он необратим. Россия постепенно перестаёт быть аутсайдером в этом процессе. В нашей стране уже функционирует около 500 крупных электронных магазинов и торговых площадок. В стадии реализации находится большое количество инвестиционных проектов с участием отечественного и иностранного капитала.
Как показывает практика, наполнение контентом интернет-магазина дело несложное, но требует обычно серьезных затрат времени и сил. Наполнить каталог товаров и услуг можно и вручную, но всё же такой выбор слишком утомителен, либо затратен, если кого-то нанимать для выполнения работ. Импорт данных в онлайн-магазин зависит от опыта, навыков и умений человека. Однако в случае «ручного» заполнения данных интернет-магазина могут возникнуть простои, а это приводит просто к непозволительным для бизнеса потерям. Поэтому необходимо за считанные часы создать полноценный контент для интернет-магазина с полным каталогом необходимых товаров.
Целью данной работы является исследование и разработка процедур веб парсинга для импорта данных онлайн-магазинов.
Для достижения данной цели были поставлены следующие задачи:
• проанализировать современные подходы к организации веб парсинга;
• выполнить обзор существующих программных средств для осуществления веб парсинга;
• выполнить проектирование средств веб парсинга;
• разработать процедуры веб парсинга;
• оценить и протестировать разработанные процедуры.
Введение 3
Глава 1. Анализ современных подходов к организации веб парсинга 5
Глава 2. Проектирование средств веб парсинга 23
Глава 3. Разработка процедур веб парсинга 37
Глава 4. Оценка и тестирование разработанных процедур 50
Заключение 60
Список литературы 62
Приложение. Листинг программы 65
В результате выполнения дипломного проекта было спроектировано и разработано веб-приложение, реализующее парсинг веб-страниц онлайн-магазинов. Разработанный веб-парсер удовлетворяет поставленным целям и реализован на основе использования регулярных выражений и языка программирования PHP.
При написании дипломного проекта в первой главе дипломной работы были рассмотрены основные понятия синтаксического анализа исходного текста веб-страниц. Кратко описана работа синтаксического анализатора (парсера). Рассмотрены основные этапы парсинга html-страниц. Проанализированы современные подходы к организации веб парсинга и выполнен обзор существующих программных средств для осуществления веб парсинга.
Во второй главе дипломной работы осуществлено проектирование средств веб парсинга на основе системного подхода. Рассмотрены этапы моделирования на основе системного подхода. Используя способ структурной декомпозиции, построены диаграммы первого и второго уровня декомпозиции. Также в данной главе выполнено построение логической модели базы данных и определены основные сущности проектируемой БД. В качестве системы управления базой данных для реализации логической модели базы данных выбрана СУБД MySQL. В качестве языка программирования выбран РНР из-за наличия большого количества библиотек для осуществления веб-парсинга. В качестве среды разработки программного комплекса выбран редактор исходного кода Sublime Text 3, обладающий кросс-платформенностью, скоростью и быстрым циклом обновления.
В третьей главе дипломной работы описаны разработанные процедуры, функции и модули веб-парсера. Представлен алгоритм получения содержимого веб страницы. Разработаны регулярные выражения для анализа исходного кода веб страниц торговой площадки ТОВАРЫ@MAIL.RU. Построена физическая модель базы данных, состоящая из шести таблиц. Также в данной главе описаны процедуры экспорта данных в текстовый формат и в формат CSV и представлен интерфейс пользователя.
В заключительной главе данной работы выполнено тестирование и оценка разработанного веб-парсера. Показаны результаты парсинга нескольких страниц, а именно «Сотовые телефоны», «Планшеты» и «Мониторы». Продемонстрирован экспорт результатов в форматы TXT и CSV. Выполнена оценка быстродействия работы веб-парсера.
1. Интернет: цифры и факты [Электронный ресурс]. Режим доступа: http://www.bizhit.ru/
2. Кузнецов С. Большие хлопоты с большими объемами данных // Открытые системы. СУБД. – 2008. – №4. С.64-69.
3. Синтаксический анализ [Электронный ресурс] / Википедия. Режим доступа: https://ru.wikipedia.org/wiki/Синтаксический_анализ
4. Ахо А., Ульман Дж. Теория синтаксического анализа, перевода и компиляции. – М.: Мир, 1978. – Т. 1, 612 с. Т.2, 487 с.
5. Revised report on the algorithmic language Algol 68 // ACTA Informatica 5. Пересмотренное сообщение о языке ALGOL 68. – 1974. – P. 1–236.
6. Knuth D.E. Semantics of context-free languages // Mathematical system theory. – 1968 (2). – P. 127–145.
7. Koster Affix grammars // Algol 68 implementation. – Noth-Holland, 1971.
8. Griffiths M. Relationship between definition and implementation of language // Advanced courses on software engineering. Lecture Notes in Economics and Math Syst. Springer-Verlag 1973.
9. Ledgard H.F. Production system or can we do better than BNF? // CACM. – 1974, N2. – P. 94–102.
10. Williams V.H. Static semantics features of Algol 60, and BASIC // The Computer Journal. – Vol. 21, №. 3. – P. 234–242.
11. Хантер Р. Проектирование и конструирование компиляторов. – М.: Финансы и статистика, 1984.
12. Компаниец Р.И., Маньков Е.В., Филатов Н.Е. Системное программирование. Основы построения трансляторов. – СПб.: КОРОНАпринт, 2000.
13. Карпов Ю.Г. Теория и технология программирования. Основы построения трансляторов. – С-Пб.: «БХВ-Петербург», 2005.
14. Парсинг html-сайтов с помощью PHP, Ruby, Python [Электронный ресурс]. Режим доступа: http://parsing.valemak.com/ru/what-why-how/
15. Этапы парсинга [Электронный ресурс]. Режим доступа: http://parsing.valemak.com/ru/what-why-how/stages-of-parsing/
16. Краковецкий А. Подходы к извлечению данных из веб-ресурсов. [Электронный ресурс]. Режим доступа: https://habrahabr.ru/post/99918/
17. Document Object Model [Электронный ресурс] / Википедия. Режим доступа: https://ru.wikipedia.org/wiki/Document_Object_Model
18. Регулярные выражения [Электронный ресурс] / Викиучебник. Режим доступа: https://ru.wikibooks.org/wiki/Регулярные_выражения
19. Описание универсального парсера Content Downloader [Электронный ресурс]. Режим доступа: http://sbfactory.ru/cd/
20. Описание программы ScraperLab [Электронный ресурс]. Режим доступа: http://scraperlab.com/ru/
21. Описание программы Datacol [Электронный ресурс]. Режим доступа: http://web-data-extractor.net/help/DatacolHelp.html
22. Описание программы Sjs parser [Электронный ресурс]. Режим доступа: http://sjs-soft.ru/super-parser-kontenta
23. Смирнова Г.Н., Сорокин А.А., Тельнов Ю.Ф. Проектирование экономических информационных систем. // М.: Финансы и статистика, 2002.
24. Тарасенко Ф.П. Прикладной системный анализ. // М.: Издательство «Проспект». – 2013.
25. Антонов А.В. Системный анализ: учебник для вузов // М.: Высшая школа.– 2004.
26. Черняк Л. Третья опора компьютинга // Открытые системы. СУБД. – 2010 . – №6.
27. Версии PHP на хостинге [Электронный ресурс]. Режим доступа: http://www.hostcomp.ru/versii-php-na-xostinge.html
28. Какой лучший редактор HTML, PHP, CSS, JS кода? [Электронный ресурс]. Режим доступа: http://sitear.ru/material/luchshiy-redaktor-html-php-css-js-koda
29. CURL [Электронный ресурс] / http://www.php.su/lessons/?lesson_11
30. Регулярные выражения [Электронный ресурс] / Викиучебник Режим доступа: https://ru.wikibooks.org/wiki/Регулярные_выражения
31. CSV [Электронный ресурс] / Википедия Режим доступа:
https://ru.wikipedia.org/wiki/CSV
Купить эту работу vs Заказать новую | ||
---|---|---|
1 раз | Куплено | Выполняется индивидуально |
Не менее 40%
Исполнитель, загружая работу в «Банк готовых работ» подтверждает, что
уровень оригинальности
работы составляет не менее 40%
|
Уникальность | Выполняется индивидуально |
Сразу в личном кабинете | Доступность | Срок 1—6 дней |
2240 ₽ | Цена | от 3000 ₽ |
Не подошла эта работа?
В нашей базе 55888 Дипломных работ — поможем найти подходящую