Автор24

Информация о работе

Подробнее о работе

Страница работы

Разработка и программная реализация модуля для автоматического пополнения базы документов

  • 76 страниц
  • 2014 год
  • 596 просмотров
  • 0 покупок
Автор работы

Wednesday

Преподаю. Занимаюсь программированием в С# и php.

100 ₽

Работа будет доступна в твоём личном кабинете после покупки

Гарантия сервиса Автор24

Уникальность не ниже 50%

Фрагменты работ

Появление новых информационных ресурсов повышает потребность в сборе контента, причем полное или частичное заимствование контента – повсеместно распространенное явление. В связи с этим актуальны задачи парсинга и граббинга.
В дипломной работе рассматривается актуальная задача парсинга электронных журналов. В качестве ресурсов, которые необходимо отслеживать, выбраны ведущие научные журналы в сфере информационных технологий, электронные версии. Это «Информационные технологии», «Вестник компьютерных и информационных технологий», «Информационные технологии и вычислительные системы». В базу нужно сохранять все данные из новых номеров журналов.
Потребность ориентироваться в обновлениях актуальной информации делает необходимыми ее постоянный сбор в автоматическом режиме и сохранение в базы. Это могут быть полнотекстовые базы докуменов, или базы данных, в которых хранятся краткие данные, или оба этих вида вместе. Поэтому средства автоматического сбора, обработки и анализа является актуальными и востребованными в настоящее время.

Содержание
Введение 5
1 Обзор средств автоматического сбора информации 7
1.1 Основные средства для автосбора информации и их применение 7
1.2 Средства разбора HTML 18
1.3 Регулярные выражения и их синтаксис 21
2 Архитектурное проектирование 27
2.1 Определение системных требований 28
2.2 Выбор ПО и определение требований к нему 28
2.3 Структурный анализ 34
2.4 Функциональный анализ 36
2.5 Проектирование 36
2.6 Эксплуатация 41
3 Реализация модуля для автоматического пополнения базы документов 42
3.1 Парсинг веб-страниц 42
3.2 Запись в базу данных 46
3.3 Вывод базы данных на страницу 50
3.4 Тестирование и отладка 52
3.5 Экспорт базы данных. 53
4 БЖД и охрана труда. 56
4.1 Потенциальные опасности и вредности на производстве 56
4.2 Мероприятия по устранению этих опасностей и вредностей 57
4.3 Микроклимат (характеристика, допустимые и оптимальные значения) 58
4.4 Вентиляция, отопление 59
4.5 Освещение помещений. 60
4.6 Характеристика шума и вибраций 60
4.7 Электробезопасность 61
4.8 Пожарная безопасность. 62
4.9 Расчет воздухообмена по тепловыделению 62
5 Экономическая часть 64
5.1 Расход трудоемкости разработки программного продукта 64
5.2 Расход на оплату труда разработчика программы 66
5.3 Общие затраты на создание программного продукта 67
5.4 Целесообразность создания продукта 67
Выводы и рекомендации 69
Библиографический список 71
Приложение А 74

3.1 Парсинг веб-страниц
Прежде всего парсинг зависит от исходного кода веб-страницы. Он может быть разный в зависимости от сложности исходного кода страницы.
Парсинг журнала «Информационные технологии и вычислительные системы».
Как уже отмечалось, для парсинга берется свежий номер электронной версии журнала «Информационные технологии и вычислительные системы», он показан на рис. 3.1.

Рисунок 3.1 – Журнал «Информационные технологии и вычислительные системы»
Здесь на левой панели показан список статей нового номера, а в центре размещается аннотация и ключевые слова. Для начала нужно взять список статей и разделов, в которых они находятся. Для этого нужно рассмотреть исходный код (рис.3.2).

Рисунок 3.2 – Исходный код левой панели (статьи номера)

В данном случае легко выделить и категории, и статьи, достаточно просто указать нужный тег. На рис.3.2 видно, что выделена ссылка – это ссылка на описание статьи, аннотацию и ключевые слова. Но нужно сделать так, чтоб распознавался раздел статьи, а никаких указаний или иерархии на странице нет, все они (статьи и разделы) являются ячейками таблицы, как видно на рис.3.2.
Поэтому обработка была сделана следующим образом:
1. Взят весь текст левой панели (статьи и разделы):
//берем весь текст в строку
foreach($data_novtex->find('td.leftmenutd') as $left){
$l = $left->innertext;
$l2=$l2.$l;
}
2. Полученная строка выводится в массив по разделителю. В качестве разделителя выбран знак для раздела – чтобы легче было записывать в базу данных.

В дипломной работе представлена разработка и программная реализация модуля для автоматического пополнения базы документов. В приложении приведен исходный код программы на php.
Защита в 2014г, специалист, оценка -отлично.

Список литературы включает в себя книги и интернет-ресурсы по языку php, а также статьи и методические материалы по обработке html и xml.

19. Фридл Дж. Регулярные выражения. – 3-е изд., М.:Символ-Плюс,2008. -560 с.
20. Электронный ресурс]: Блог доброго программиста C#, 2012. URL: http://foolsoft.ru (Дата обращения: 18.04.14)
21. Мешков В.Е. Методические указания по выполнению курсовой работы по дисциплине «Проектирование информационных систем» [Электронная версия], ВИС ЮРГУЭС, 2013.
22. Макконнелл С. Влияние итеративных подходов на предварительные условия [текст] / С. Макконнелл. – СПб: ПИТЕР, 2005. 896 с.
23. PHP [Электронный ресурс]: Википедия, 2004. URL: http://ru.wikipedia.org (Дата обращения: 12.05.14)
24. Зандстра , М. PHP. Объекты, шаблоны и методики программирования / М. Зандстра. – М.: Вильямс, 2011. – 560с.

Форма заказа новой работы

Не подошла эта работа?

Закажи новую работу, сделанную по твоим требованиям

Согласен с условиями политики конфиденциальности и  пользовательского соглашения

Фрагменты работ

Появление новых информационных ресурсов повышает потребность в сборе контента, причем полное или частичное заимствование контента – повсеместно распространенное явление. В связи с этим актуальны задачи парсинга и граббинга.
В дипломной работе рассматривается актуальная задача парсинга электронных журналов. В качестве ресурсов, которые необходимо отслеживать, выбраны ведущие научные журналы в сфере информационных технологий, электронные версии. Это «Информационные технологии», «Вестник компьютерных и информационных технологий», «Информационные технологии и вычислительные системы». В базу нужно сохранять все данные из новых номеров журналов.
Потребность ориентироваться в обновлениях актуальной информации делает необходимыми ее постоянный сбор в автоматическом режиме и сохранение в базы. Это могут быть полнотекстовые базы докуменов, или базы данных, в которых хранятся краткие данные, или оба этих вида вместе. Поэтому средства автоматического сбора, обработки и анализа является актуальными и востребованными в настоящее время.

Содержание
Введение 5
1 Обзор средств автоматического сбора информации 7
1.1 Основные средства для автосбора информации и их применение 7
1.2 Средства разбора HTML 18
1.3 Регулярные выражения и их синтаксис 21
2 Архитектурное проектирование 27
2.1 Определение системных требований 28
2.2 Выбор ПО и определение требований к нему 28
2.3 Структурный анализ 34
2.4 Функциональный анализ 36
2.5 Проектирование 36
2.6 Эксплуатация 41
3 Реализация модуля для автоматического пополнения базы документов 42
3.1 Парсинг веб-страниц 42
3.2 Запись в базу данных 46
3.3 Вывод базы данных на страницу 50
3.4 Тестирование и отладка 52
3.5 Экспорт базы данных. 53
4 БЖД и охрана труда. 56
4.1 Потенциальные опасности и вредности на производстве 56
4.2 Мероприятия по устранению этих опасностей и вредностей 57
4.3 Микроклимат (характеристика, допустимые и оптимальные значения) 58
4.4 Вентиляция, отопление 59
4.5 Освещение помещений. 60
4.6 Характеристика шума и вибраций 60
4.7 Электробезопасность 61
4.8 Пожарная безопасность. 62
4.9 Расчет воздухообмена по тепловыделению 62
5 Экономическая часть 64
5.1 Расход трудоемкости разработки программного продукта 64
5.2 Расход на оплату труда разработчика программы 66
5.3 Общие затраты на создание программного продукта 67
5.4 Целесообразность создания продукта 67
Выводы и рекомендации 69
Библиографический список 71
Приложение А 74

3.1 Парсинг веб-страниц
Прежде всего парсинг зависит от исходного кода веб-страницы. Он может быть разный в зависимости от сложности исходного кода страницы.
Парсинг журнала «Информационные технологии и вычислительные системы».
Как уже отмечалось, для парсинга берется свежий номер электронной версии журнала «Информационные технологии и вычислительные системы», он показан на рис. 3.1.

Рисунок 3.1 – Журнал «Информационные технологии и вычислительные системы»
Здесь на левой панели показан список статей нового номера, а в центре размещается аннотация и ключевые слова. Для начала нужно взять список статей и разделов, в которых они находятся. Для этого нужно рассмотреть исходный код (рис.3.2).

Рисунок 3.2 – Исходный код левой панели (статьи номера)

В данном случае легко выделить и категории, и статьи, достаточно просто указать нужный тег. На рис.3.2 видно, что выделена ссылка – это ссылка на описание статьи, аннотацию и ключевые слова. Но нужно сделать так, чтоб распознавался раздел статьи, а никаких указаний или иерархии на странице нет, все они (статьи и разделы) являются ячейками таблицы, как видно на рис.3.2.
Поэтому обработка была сделана следующим образом:
1. Взят весь текст левой панели (статьи и разделы):
//берем весь текст в строку
foreach($data_novtex->find('td.leftmenutd') as $left){
$l = $left->innertext;
$l2=$l2.$l;
}
2. Полученная строка выводится в массив по разделителю. В качестве разделителя выбран знак для раздела – чтобы легче было записывать в базу данных.

В дипломной работе представлена разработка и программная реализация модуля для автоматического пополнения базы документов. В приложении приведен исходный код программы на php.
Защита в 2014г, специалист, оценка -отлично.

Список литературы включает в себя книги и интернет-ресурсы по языку php, а также статьи и методические материалы по обработке html и xml.

19. Фридл Дж. Регулярные выражения. – 3-е изд., М.:Символ-Плюс,2008. -560 с.
20. Электронный ресурс]: Блог доброго программиста C#, 2012. URL: http://foolsoft.ru (Дата обращения: 18.04.14)
21. Мешков В.Е. Методические указания по выполнению курсовой работы по дисциплине «Проектирование информационных систем» [Электронная версия], ВИС ЮРГУЭС, 2013.
22. Макконнелл С. Влияние итеративных подходов на предварительные условия [текст] / С. Макконнелл. – СПб: ПИТЕР, 2005. 896 с.
23. PHP [Электронный ресурс]: Википедия, 2004. URL: http://ru.wikipedia.org (Дата обращения: 12.05.14)
24. Зандстра , М. PHP. Объекты, шаблоны и методики программирования / М. Зандстра. – М.: Вильямс, 2011. – 560с.

Купить эту работу

Разработка и программная реализация модуля для автоматического пополнения базы документов

100 ₽

или заказать новую

Лучшие эксперты сервиса ждут твоего задания

от 3000 ₽

Гарантии Автор24

Изображения работ

Страница работы
Страница работы
Страница работы

Понравилась эта работа?

или

4 марта 2015 заказчик разместил работу

Выбранный эксперт:

Автор работы
Wednesday
4.9
Преподаю. Занимаюсь программированием в С# и php.
Купить эту работу vs Заказать новую
0 раз Куплено Выполняется индивидуально
Не менее 40%
Исполнитель, загружая работу в «Банк готовых работ» подтверждает, что уровень оригинальности работы составляет не менее 40%
Уникальность Выполняется индивидуально
Сразу в личном кабинете Доступность Срок 1—6 дней
100 ₽ Цена от 3000 ₽

5 Похожих работ

Дипломная работа

Разработка инфокоммуникационной системы управления крупным радиотелескопом

Уникальность: от 40%
Доступность: сразу
3300 ₽
Дипломная работа

Разработка комплекса рекомендаций по технической защите конфиденциальной информации хозяйствующего субъекта- мед.центра (на конкретном примере)

Уникальность: от 40%
Доступность: сразу
3300 ₽
Дипломная работа

Разработка мультисервисной сети городского микрорайона

Уникальность: от 40%
Доступность: сразу
2800 ₽
Дипломная работа

Разработка автоматизированной системы учета пациентов

Уникальность: от 40%
Доступность: сразу
3750 ₽
Дипломная работа

Разработка Автоматизированной Системы Ведения Электронного Архива

Уникальность: от 40%
Доступность: сразу
2000 ₽

Отзывы студентов

Отзыв михаил об авторе Wednesday 2014-04-27
Дипломная работа

Автор молодец выполнил работу раньше срока. Спасибо

Общая оценка 5
Отзыв Геннадий Полушкин об авторе Wednesday 2016-06-03
Дипломная работа

Спасибо!

Общая оценка 5
Отзыв user9445 об авторе Wednesday 2016-05-18
Дипломная работа

Ребята, Автор - просто бомба! Как же мне с ним повезло!!! Инициативный, грамотный, всегда на связи! Gigavector даже после окончания гарантийного срока дорабатывает расчеты к моей дипломной работе "Разработка информационной системы для объектов дорожной сети" по замечаниям моего придирчивого препода! Надеюсь на благополучную защиту!!!

Общая оценка 5
Отзыв Вера302 об авторе Wednesday 2017-05-24
Дипломная работа

Все отлично! Спасибо за продуктивную работу и подробные пояснения что и как!

Общая оценка 5

другие учебные работы по предмету

Готовая работа

Письмо из будущего самому себе - Как новые технологии в сфере финансов изменят жизнь людей

Уникальность: от 40%
Доступность: сразу
300 ₽
Готовая работа

Сайт на html и css

Уникальность: от 40%
Доступность: сразу
150 ₽
Готовая работа

ТЕХНИКО-ЭКОНОМИЧЕСКИЙ АНАЛИЗ РЫНКА НОУТБУКОВ

Уникальность: от 40%
Доступность: сразу
450 ₽
Готовая работа

Проектный практикум 3-4 часть в программе Microsoft Project.

Уникальность: от 40%
Доступность: сразу
600 ₽
Готовая работа

исследовательская работа на тему "Гаджеты - Болезнь 21 века или спасение?"

Уникальность: от 40%
Доступность: сразу
350 ₽
Готовая работа

проектная работа на тему "Как справиться со стрессом перед экзаменом"

Уникальность: от 40%
Доступность: сразу
350 ₽
Готовая работа

Статистический анализ сайта «Российский совет по международным делам» (РСМД)

Уникальность: от 40%
Доступность: сразу
700 ₽
Готовая работа

Информационная система частной стоматологической клиники

Уникальность: от 40%
Доступность: сразу
250 ₽
Готовая работа

Комплектация рабочего места прикладного специалиста средств вычислительной техники, системного и прикладного ПО. (для писателя)

Уникальность: от 40%
Доступность: сразу
667 ₽
Готовая работа

Тема – Детальное изучение предметной области и построение моделей функционирования объекта «как есть» и «как должно быть», разработка технико экономич

Уникальность: от 40%
Доступность: сразу
1500 ₽
Готовая работа

Роль компьютерных игр в жизни человека

Уникальность: от 40%
Доступность: сразу
400 ₽
Готовая работа

Модель по компьютерной графике

Уникальность: от 40%
Доступность: сразу
400 ₽