scipy.cluster.hierarchy.

single#

scipy.cluster.hierarchy.single(y)[Quelle]#

Führt Single-/Min-/Nearest-Linkage auf der kondensierten Distanzmatrix y durch.

Parameter:
yndarray

Die obere Dreiecksmatrix der Distanzmatrix. Das Ergebnis von pdist wird in diesem Format zurückgegeben.

Rückgabe:
Zndarray

Die Linkage-Matrix.

Siehe auch

linkage

für die erweiterte Erstellung hierarchischer Clusterings.

scipy.spatial.distance.pdist

Paarweise Distanzmetriken

Hinweise

single hat experimentelle Unterstützung für Python Array API Standard-kompatible Backends zusätzlich zu NumPy. Bitte erwägen Sie, diese Funktionen zu testen, indem Sie die Umgebungsvariable SCIPY_ARRAY_API=1 setzen und CuPy, PyTorch, JAX oder Dask-Arrays als Array-Argumente bereitstellen. Die folgenden Kombinationen von Backend und Gerät (oder anderer Fähigkeit) werden unterstützt.

Bibliothek

CPU

GPU

NumPy

n/a

CuPy

n/a

PyTorch

JAX

Dask

⚠️ führt Chunks zusammen

n/a

Siehe Unterstützung für den Array API Standard für weitere Informationen.

Beispiele

>>> from scipy.cluster.hierarchy import single, fcluster
>>> from scipy.spatial.distance import pdist

Zuerst benötigen wir einen Spielzeugdatensatz zum Spielen

x x    x x
x        x

x        x
x x    x x
>>> X = [[0, 0], [0, 1], [1, 0],
...      [0, 4], [0, 3], [1, 4],
...      [4, 0], [3, 0], [4, 1],
...      [4, 4], [3, 4], [4, 3]]

Dann erhalten wir eine kondensierte Distanzmatrix aus diesem Datensatz

>>> y = pdist(X)

Schließlich können wir die Clusterbildung durchführen

>>> Z = single(y)
>>> Z
array([[ 0.,  1.,  1.,  2.],
       [ 2., 12.,  1.,  3.],
       [ 3.,  4.,  1.,  2.],
       [ 5., 14.,  1.,  3.],
       [ 6.,  7.,  1.,  2.],
       [ 8., 16.,  1.,  3.],
       [ 9., 10.,  1.,  2.],
       [11., 18.,  1.,  3.],
       [13., 15.,  2.,  6.],
       [17., 20.,  2.,  9.],
       [19., 21.,  2., 12.]])

Die Linkage-Matrix Z repräsentiert ein Dendrogramm - siehe scipy.cluster.hierarchy.linkage für eine detaillierte Erklärung seines Inhalts.

Wir können scipy.cluster.hierarchy.fcluster verwenden, um zu sehen, zu welchem Cluster jeder anfängliche Punkt gehören würde, gegeben einen Distanzschwellenwert

>>> fcluster(Z, 0.9, criterion='distance')
array([ 7,  8,  9, 10, 11, 12,  4,  5,  6,  1,  2,  3], dtype=int32)
>>> fcluster(Z, 1, criterion='distance')
array([3, 3, 3, 4, 4, 4, 2, 2, 2, 1, 1, 1], dtype=int32)
>>> fcluster(Z, 2, criterion='distance')
array([1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1], dtype=int32)

Auch scipy.cluster.hierarchy.dendrogram kann verwendet werden, um eine Darstellung des Dendrogramms zu generieren.