Спасибо Вам за работу!
Подробнее о работе
Гарантия сервиса Автор24
Уникальность не ниже 50%
3 Введение
Кластеризация является одним из самых главных методов анализа данных, основная задача которого заключается в разбиении объектов на группы, называемые кластерами. Каждая группа должна содержать в себе "похожие" объекты, следовательно объекты разных групп должны быть как можно более разными, основываясь на их признаках. Основное различие между кластеризацией и классификацией заключается в том, что список групп четко не определен, данная задача решается в процессе работы алгоритма. Применение кластерного анализа в целом сводится к следующим этапам:
1 Выбор набора объектов для кластеризации.
2 Определение набора переменных, которые будут использоваться для оценки объектов в выборке. При необходимости значения переменных стандартизируются.
3 Расчет расстояний между объектами множества с использованием оптимальной метрики.
4 Использование метода кластерного анализа для создания групп похожих объектов (кластеров).
5Представление результатов анализа.
После получения и анализа результатов можно скорректировать
выбранную метрику и метод кластеризации для получения оптимального результата.
Для этой работы ключевым алгоритмом является K-means, популярный алгоритм кластеризации, основная суть которого заключается в итеративном пересчете центра масс для каждого кластера на каждом шаге, после чего объекты снова делятся на кластеры в соответствии с тем, какой из новых центров был ближе к обновленному центру. Однако количество кластеров не всегда известно заранее, поэтому некоторые алгоритмы кластеризации необходимо модифицировать для решения задач, в которых не указано количество кластеров, на которые должны быть разделены эти объекты.
Главной целью ВКР является реализация и оценка качества метода аномальных кластеров, который итеративно находит в исходном множестве кластеры, рассматривая удаленность объектов от опорной точки. Также были рассмотрены метод локтя, рассматривающий инерцию кластеров, diversity method, рассчитывающий для каждого числа кластеров энтропию, и метод I-nice.
В качестве результата данной работы представлена реализация методов выбора оптимального числа кластеров для улучшения алгоритма K-means и сравнение результатов их работы на реальных данных для оценки качества их работы.
Для реализации методов и алгоритмов использовался язык программирования Python 3.7 в среде Google Colaboratory.
Содержание
1 Аннотация ........................................................................................................... 3
2 Annotation ............................................................................................................ 4
3 Введение............................................................................................................... 5
4 Обзор литературы.............................................................................................. 7
5 Метод аномальных кластеров и Intelligent K-means ................................... 8
5.1 Метод аномальных кластеров .................................................................. 8
5.2 Intelligent K-means ....................................................................................... 9
6 Метод Локтя...................................................................................................... 11
7 Метод разнородности ...................................................................................... 13
8 Данные ............................................................................................................... 14
9 Оценка качества............................................................................................... 17
10 Результаты ..................................................................................................... 19
11 Заключение .................................................................................................... 21
11.1 Выводы........................................................................................................ 21
11.2 Дальнейшая работа................................................................................... 21
12 Список источников ...................................................................................... 23
13 Приложения................................................................................................... 24
Добрый день! Уважаемые студенты, Вашему вниманию представляется дипломная работа на тему: «Выбор числа кластеров на основе анализа последовательности итеративных аномальных кластеров Choosing the right number of clusters using the sequence of iterative anomalous clusters.»
1 Аннотация
Одной из главных проблем алгоритмов кластерного анализа является выбор числа кластеров, на которые будет разбиваться множество объектов. Данная работа посвящена изучению возможности использования для этой цели метода аномальных кластеров, который выводит центры аномальных кластеров
в качестве входных данных популярного алгоритма K-средних. Также в рамках проекта были рассмотрены прочие методы для определения оптимального числа кластеров и их сравнение с вышеупомянутым методом аномальных кластеров.
Ключевые слова — выбор числа кластеров, кластеризация, K-means, Аномальные кластеры
12 Список источников
[1] - Boris G Mirkin, 2019, Core Partitioning: K-means and Similarity Clustering, In book: Bondgraphen (pp.293-403).
[2] - Kingrani, Suneel Kumar and Levene, Mark and Zhang, Dell (2018) Estimating the number of clusters using diversity. Artificial Intelligence Research 7 (1), pp. 15-22. ISSN 1927-6974.
[3] - Md Abdul Masud, Joshua Zhexue Huang, Chenghao Wei, Jikui Wang, Imran Khan, Ming Zhong, 2018, I-nice: A new approach for identifying the number of clusters and initial cluster centres.
[4] - Yu-Lin He, Hong-Lian Qin, Joshua Zhexue Huang, Yi Jin, 2020, Novel electricity pattern identification system based on improved I-nice algorithm
[5] - Renato Cordeiro de Amorim, Vladimir Makarenkov, Boris Mirkin, 2016, A-Wardpβ: Effective hierarchical clustering using the Minkowski metric and a fast k-means initialisation
[6] - Yulin He, Yingyan Wu, Honglian Qin, Joshua Zhexue Huang, Yi Jin, 2020, Improved I-nice clustering algorithm based on density peaks mechanism
[7] - https://archive.ics.uci.edu/ml/index.php
[8] - https://www.kaggle.com/camnugent/california-housing-prices
Не подошла эта работа?
Закажи новую работу, сделанную по твоим требованиям
3 Введение
Кластеризация является одним из самых главных методов анализа данных, основная задача которого заключается в разбиении объектов на группы, называемые кластерами. Каждая группа должна содержать в себе "похожие" объекты, следовательно объекты разных групп должны быть как можно более разными, основываясь на их признаках. Основное различие между кластеризацией и классификацией заключается в том, что список групп четко не определен, данная задача решается в процессе работы алгоритма. Применение кластерного анализа в целом сводится к следующим этапам:
1 Выбор набора объектов для кластеризации.
2 Определение набора переменных, которые будут использоваться для оценки объектов в выборке. При необходимости значения переменных стандартизируются.
3 Расчет расстояний между объектами множества с использованием оптимальной метрики.
4 Использование метода кластерного анализа для создания групп похожих объектов (кластеров).
5Представление результатов анализа.
После получения и анализа результатов можно скорректировать
выбранную метрику и метод кластеризации для получения оптимального результата.
Для этой работы ключевым алгоритмом является K-means, популярный алгоритм кластеризации, основная суть которого заключается в итеративном пересчете центра масс для каждого кластера на каждом шаге, после чего объекты снова делятся на кластеры в соответствии с тем, какой из новых центров был ближе к обновленному центру. Однако количество кластеров не всегда известно заранее, поэтому некоторые алгоритмы кластеризации необходимо модифицировать для решения задач, в которых не указано количество кластеров, на которые должны быть разделены эти объекты.
Главной целью ВКР является реализация и оценка качества метода аномальных кластеров, который итеративно находит в исходном множестве кластеры, рассматривая удаленность объектов от опорной точки. Также были рассмотрены метод локтя, рассматривающий инерцию кластеров, diversity method, рассчитывающий для каждого числа кластеров энтропию, и метод I-nice.
В качестве результата данной работы представлена реализация методов выбора оптимального числа кластеров для улучшения алгоритма K-means и сравнение результатов их работы на реальных данных для оценки качества их работы.
Для реализации методов и алгоритмов использовался язык программирования Python 3.7 в среде Google Colaboratory.
Содержание
1 Аннотация ........................................................................................................... 3
2 Annotation ............................................................................................................ 4
3 Введение............................................................................................................... 5
4 Обзор литературы.............................................................................................. 7
5 Метод аномальных кластеров и Intelligent K-means ................................... 8
5.1 Метод аномальных кластеров .................................................................. 8
5.2 Intelligent K-means ....................................................................................... 9
6 Метод Локтя...................................................................................................... 11
7 Метод разнородности ...................................................................................... 13
8 Данные ............................................................................................................... 14
9 Оценка качества............................................................................................... 17
10 Результаты ..................................................................................................... 19
11 Заключение .................................................................................................... 21
11.1 Выводы........................................................................................................ 21
11.2 Дальнейшая работа................................................................................... 21
12 Список источников ...................................................................................... 23
13 Приложения................................................................................................... 24
Добрый день! Уважаемые студенты, Вашему вниманию представляется дипломная работа на тему: «Выбор числа кластеров на основе анализа последовательности итеративных аномальных кластеров Choosing the right number of clusters using the sequence of iterative anomalous clusters.»
1 Аннотация
Одной из главных проблем алгоритмов кластерного анализа является выбор числа кластеров, на которые будет разбиваться множество объектов. Данная работа посвящена изучению возможности использования для этой цели метода аномальных кластеров, который выводит центры аномальных кластеров
в качестве входных данных популярного алгоритма K-средних. Также в рамках проекта были рассмотрены прочие методы для определения оптимального числа кластеров и их сравнение с вышеупомянутым методом аномальных кластеров.
Ключевые слова — выбор числа кластеров, кластеризация, K-means, Аномальные кластеры
12 Список источников
[1] - Boris G Mirkin, 2019, Core Partitioning: K-means and Similarity Clustering, In book: Bondgraphen (pp.293-403).
[2] - Kingrani, Suneel Kumar and Levene, Mark and Zhang, Dell (2018) Estimating the number of clusters using diversity. Artificial Intelligence Research 7 (1), pp. 15-22. ISSN 1927-6974.
[3] - Md Abdul Masud, Joshua Zhexue Huang, Chenghao Wei, Jikui Wang, Imran Khan, Ming Zhong, 2018, I-nice: A new approach for identifying the number of clusters and initial cluster centres.
[4] - Yu-Lin He, Hong-Lian Qin, Joshua Zhexue Huang, Yi Jin, 2020, Novel electricity pattern identification system based on improved I-nice algorithm
[5] - Renato Cordeiro de Amorim, Vladimir Makarenkov, Boris Mirkin, 2016, A-Wardpβ: Effective hierarchical clustering using the Minkowski metric and a fast k-means initialisation
[6] - Yulin He, Yingyan Wu, Honglian Qin, Joshua Zhexue Huang, Yi Jin, 2020, Improved I-nice clustering algorithm based on density peaks mechanism
[7] - https://archive.ics.uci.edu/ml/index.php
[8] - https://www.kaggle.com/camnugent/california-housing-prices
Купить эту работу vs Заказать новую | ||
---|---|---|
0 раз | Куплено | Выполняется индивидуально |
Не менее 40%
Исполнитель, загружая работу в «Банк готовых работ» подтверждает, что
уровень оригинальности
работы составляет не менее 40%
|
Уникальность | Выполняется индивидуально |
Сразу в личном кабинете | Доступность | Срок 1—6 дней |
1550 ₽ | Цена | от 3000 ₽ |
Не подошла эта работа?
В нашей базе 55687 Дипломных работ — поможем найти подходящую