Создан заказ №1712895
31 января 2017
Seo продвижение и разработка программного обеспечения для сбора данных о клиентах.
Как заказчик описал требования к работе:
Необходимо написать систему парсинга, описать и проанализировать ее.
По сути задачи, парсер должен сохранять данные с какой-либо доски объявлений или с 2гиса и предоставлять данные о компаниях в определённой сфере.
Главы:
1. Введение
2. Анализ современных подходов к организации веб парсинга
3. Пр
оектирование средств веб парсинга
4. Разработка процедур веб парсинга
5. Оценка и тестирование разработанных процедур
подробнее
Фрагмент выполненной работы:
ВВЕДЕНИЕ
Актуальность темы. Значимым признаком информационного общества является наличие огромных объёмов разнородных данных в различных предметных областях, что дает возможность решить задачи поиска новых знаний, т. е. получения новых фактов, зависимостей и скрытых корреляций, а также решения ряда аналитических задач, таких как прогнозирование, проверка статистических гипотез, расчёт агрегатных показателей. (работа была выполнена специалистами author24.ru) В этом большая роль принадлежит программам, которые помогают собирать массивы информации. Кроме этого, такие программы необходимы в процессе разработки веб-приложений, и при этом возникает задача поиска и сохранения данных из множества HTML-документов. Для выполнения указанных задач предназначены специальные программы – парсеры.
Парсер - это компьютерная программа, которая должна предусматривать сбор, анализ и преобразование информации к структурированному виду. Парсер должен предусматривать выполнение трех основных процедур:
- получение контента в исходном виде. Процедура предусматривает скачивание кода веб-страницы с целью извлечения необходимых данных;
- извлечение и преобразование данных. Происходит извлечение данных из полученного предыдущей процедурой кода страницы;
- генерация результата. Заключительная процедура обработки, которая связана с выводом и записью полученных предыдущей процедурой данных в требуемый формат. Результат либо записывается в базе данных, либо сохраняется в виде XML- или CSV-файла.
Чтобы пропарсить одну страницу вручную разработчику необходимо потратить в среднем от полутора до двух часов на один HTML-документ. Использование системы извлечения информации позволяет сократить время обработки в 5-10 раз.
Основное время создания парсера занимает разработка алгоритма извлечения необходимой информации из документа. Код HTML-документа представлен в виде тэгов, которые могут иметь атрибуты, а также могут быть контейнерами, то есть содержат в себе другие тэги или текст. Обрабатываемый HTML-документ содержит набор тэгов в определенной последовательности, и парсер, обрабатывая эту последовательность извлекает необходимую информацию и сохраняет ее для дальнейшего использования. Парсер является инструментом автоматизации процесса обработки веб-сайтов, что повышает эффективность и сокращает расходы при решении подобных задач.
Цель работы: разработать систему извлечения информации сайта и реализовать вывод полученных результатов в корпоративную CRM-систему.
Задачи работы:
- проанализировать современные подходы к организации веб-парсинга;
- спроектировать средства веб парсинга;
- разработать процедуры веб парсинга;
- протестировать функционал разработанной системы;
- реализовать вывод полученных результатов в корпоративную CRM-систему.
Объект работы: современные подходы веб парсинга.
Предмет работы: система парсинга.
Структура работы: работа состоит из введения, трех глав, заключения, списка использованной литературы и приложенияПосмотреть предложения по расчету стоимости
Заказчик
заплатил
заплатил
3000 ₽
Заказчик оплатил в рассрочку
Гарантия сервиса
Автор24
Автор24
20 дней
Заказчик принял работу без использования гарантии
7 февраля 2017
Заказ завершен, заказчик получил финальный файл с работой
5
Seo продвижение и разработка программного обеспечения для сбора данных о клиентах..docx
2020-06-03 16:59
Последний отзыв студента о бирже Автор24
Общая оценка
4.7
Положительно
Работа сделано качественно, проходит все проверки. Автор всегда на связи. Все выполнено в срок.