Создан заказ №3710939
8 марта 2019
Необходимо провести анализ и кластеризацию данных web - страниц при помощи программы RapidMiner v9
Как заказчик описал требования к работе:
1. Установка RapidMiner и обновление его до последней версии 9.2
2. Установка компонентов textMining и WebMining
3. Использование оператора CrawlWeb для сохранения документов на рабочий компьютер
4. Использование компонента - Process Dociment from files и различных фильтров
5. Проведение кластеризац
ии документов
Сделать как можно быстре
подробнее
Фрагмент выполненной работы:
Необходимо провести анализ и кластеризацию данных, web - страниц при помощи программы RapidMiner v9.0.
Решение:
Необходимо провести анализ и кластеризацию данных, web - страниц при помощи программы RapidMiner v9.0.
Создаем аккаунт на официальном сайте, скачиваем программу RapidMiner Studio. Выбираем тип лицензии Education.
Устанавливаем программу на свой компьютер. После завершения установки. открываем программу и устанавливаем модули Web Mining и Text Processing. (работа была выполнена специалистами Автор 24)
В модуле Web Mining выбираем Crawl Web для скачивания web –страниц. В параметрах модуля устанавливаем необходимые настройки: адрес сайта, папку для размещения скачанных страниц, максимальное количество скачанных страниц, максимальный объем страницы.
11049041021000
После нажатия на синий треугольник для запуска процесса, мы видим в результатах, что скачивания страниц не происходит.
right000Скачиваем страницы вручную. Темы сайтов для скачивания страниц являются: «Экономика», «Спорт», «Дизайн», «Кино». По каждой из те скачиваем 10 страниц, 1 уровня вложенности.
Из Text Processing выбираем модуль Process Documents from files для текстового анализа скачанных страниц. Устанавливаем свойства: кодировку: UTF-8, частотную характеристику TF-IDF, которая и показывает, как часто встречается какое - либо слово в документе, а также в скольких документах встречается это слово.
right21272500
Добавляем на панель также модуль Clustering для определения параметров кластеризации. Выход модуля Process Documents from files соединяем со входом модуля Clustering, а выход модуля Clustering соединяем с выходом панели программы.
right22606000
Дважды щелкнув по прямоугольнику модуля Process Documents from files устанавливаем необходимые фильтры для анализа и кластеризации данных.
-137160000
8.1 Фильтр Extract Information предназначен для извлечения текста из web –страниц, удаляя все теги. Параметры установлены по умолчанию.
8.2 Фильтр Tokenize предназначен извлечения из текста отдельных слов. Параметры установлены по умолчанию.
8.3 Фильтр Tokens by (Length) предназначен для отбора слов по длине. Параметры отбора выставляем длину слов от 4 до 25 символов.
8.4 Фильтр Tokens by (Content) предназначен для отбора только русских или иностранных слов. Для выбора русских слов ставим галочку рядом с командой invert condition и записываем регулярное выражение [a-zA-Z].
8.6 Фильтр Transform Cases предназначен для отбора слов, написанным в верхнем или нижнем регистре...Посмотреть предложения по расчету стоимости
Заказчик
заплатил
заплатил
200 ₽
Заказчик не использовал рассрочку
Гарантия сервиса
Автор24
Автор24
20 дней
Заказчик принял работу без использования гарантии
9 марта 2019
Заказ завершен, заказчик получил финальный файл с работой
5
Необходимо провести анализ и кластеризацию данных web - страниц при помощи программы RapidMiner v9.docx
2019-03-12 22:17
Последний отзыв студента о бирже Автор24
Общая оценка
5
Положительно
Большое спасибо замечательному Автору!
Работа была выполнена раньше срока и строго в соответствие с методическими указаниями!
Контрольная оценена на "5"!
Спасибо вам большое!
Автора рекомендую!