Clustering is an unsupervised learning method whose task is to divide the population or data points into a number of groups, such that data points in a group are more similar to other data points in the same group and dissimilar to the data points in other groups. It is basically a collection of objects based on similarity and dissimilarity between them.
Among the other methods suggested here, I would also like to bring to your attention a potentially interesting approach that we recently published Chapter Dimensionality Reduction Using Pseudo-Boolean Polynomials fo...
Please Note: The method is limited to data samples that can be represented in m x n matrices.
A penalty-based pseudo-Boolean polynomial is formed for each sample and the resulting terms in the polynomials are treated as ordinates, so basically the pseudo-Boolean polynomials are n-sized vectors.
Once every sample is reduced to a pseudo-Boolean polynomial (vector embedding), you can then apply a distance function like Euclidean on these vectors to discover clusters.
Where n = 2, 3 you will most likely transform each of your samples to pseudo-Boolean polynomials of degrees 1, 2, 3 which can be be plotted on screen and/or paper based scatter diagram.
In the paper we show clusterings of Iris flowers determined by simply identifying lines on a scatter diagram that adequately separate the samples in their pseudo-Boolean polynomials form.
In this dataset, only a single sample falls into a wrong cluster, thereby expressing the novelty of the method.
We also show relatively similar impressions with the Breast Cancer diagnosis dataset.
The novelty is that each sample is processed individually and does not incorporate any population bias in its resulting vector.
The process is repeatable because pseudo-Boolean polynomials formulation is exact.
At the clustering stage you can use optimisation, ML, NN, trees, ranking e.t.c to determine the best clustering possible.
Creation of pseudo-Boolean polynomials is fast and exact. Check it out!
Луценко Е.В., Подсистема агломеративной когнитивной кластеризации классов системы «Эйдос» ("Эйдос-кластер"). Пат. № 2012610135 РФ. Заяв. № 2011617962 РФ 26.10.2011. Опубл. От 10.01.2012. – Режим доступа: http://lc.kubagro.ru/aidos/2012610135.jpg, 3,125 у.п.л.
Луценко Е.В. Метод когнитивной кластеризации или кластеризация на основе знаний (кластеризация в системно-когнитивном анализе и интеллектуальной системе «Эйдос») / Е.В. Луценко, В.Е. Коржаков // Политематический сетевой электронный научный журнал Кубанского государственного аграрного университета (Научный журнал КубГАУ) [Электронный ресурс]. – Краснодар: КубГАУ, 2011. – №07(071). С. 528 – 576. – Шифр Информрегистра: 0421100012\0253, IDA [article ID]: 0711107040. – Режим доступа: http://ej.kubagro.ru/2011/07/pdf/40.pdf, 3,062 у.п.л.
Луценко Е.В. Агломеративная когнитивная кластеризация нозологических образов в ветеринарии / Е.В. Луценко // Политематический сетевой электронный научный журнал Кубанского государственного аграрного университета (Научный журнал КубГАУ) [Электронный ресурс]. – Краснодар: КубГАУ, 2018. – №04(138). С. 122 – 139. – IDA [article ID]: 1381804033, doi: 10.21515/1990-4665-138-033. – Режим доступа: http://ej.kubagro.ru/2018/04/pdf/33.pdf, 1,125 у.п.л.
Луценко Е.В. Агломеративная когнитивная кластеризация симптомов и синдромов в ветеринарии / Е.В. Луценко // Политематический сетевой электронный научный журнал Кубанского государственного аграрного университета (Научный журнал КубГАУ) [Электронный ресурс]. – Краснодар: КубГАУ, 2018. – №05(139). С. 99 – 116. – IDA [article ID]: 1391805033, doi: 10.21515/1990-4665-139-033. – Режим доступа: http://ej.kubagro.ru/2018/05/pdf/33.pdf, 1,125 у.п.л.