Clusteranalyse

  • Hat einer eine Ahnung, wie man bei der Clusterbildung auf die Fehlerquadratsummen kommt? Insbesondere bei unserem Beispiel im Skript wenn man 5 Cluster hat. Für mich macht es nicht so richtig Sinn wie man auf einen Wert von unter 1 kommt...


    Gruß

  • Du schaust in der Eigenschaftsmatrix, wie oft die Cluster nicht zusammenvorkommen. Von dem Wert ziehst du die Wurzel.
    Bei dem Beispiel im Skript hast du bei den ersten beiden 4 Abweichungen, also einen Wert von 2.
    Bei den anderen beiden hast du keine Abweichungen also einen Wert von 0.

  • Du schaust in der Eigenschaftsmatrix, wie oft die Cluster nicht zusammenvorkommen. Von dem Wert ziehst du die Wurzel.
    Bei dem Beispiel im Skript hast du bei den ersten beiden 4 Abweichungen, also einen Wert von 2.
    Bei den anderen beiden hast du keine Abweichungen also einen Wert von 0.

    Das finde ich auch alles logisch, aber wie kommt man dann bei der Clusterbildung auf die Fehlerquadratsummen <1? Laut der Graphik im Skript muss man für die Clusteranzahlen 3,4 und 5 auf Werte unter 1 kommen.

  • Die werte aus der Distanzmatrix werden im Dendrogramm aufgetragen. Und da sieht man, dass die Abstände, die laut Tabelle =1 sein müssten (z.B. von Drehen -> Bohren oder von Biegen -> Schleifen) auf der Skala irgendwo zwischen 0,5 und 1 liegen. Daher kommt dann auch der Verlauf der Kurve. -> Wenn ich nichts dramatisches übersehen habe, ist der graph einfach mist.



    Oder gibts da noch nen unerklärten Rechenschritt zwischen, den jemand inzwischen gefunden hat?

  • Ich habe ne Mail diesbezüglich geschrieben, der Konsens der Mail lautet: Das Dendrogramm gehört nicht zu der vorherigen Aufgabe und somit beziehen sich die Werte auch nicht auf die vorherigen Eigenschafts-/Distanzmatrix. Es soll nur die Darstellungsweise visualisieren und das Elbow Kriterium hervorheben.


    Ich würde deswegen davon ausgehen, dass wir eine Clusteranalyse nicht berechnen müssen, sondern nur den Ablauf kennen und einen exemplarischen Graphen zeichnen können müssen.


    Gruß und viel Glück morgen

  • ALso ich studiere WI-Mb und die Fehlerquadratsummen zu berechnen dauert zu lange, als dass es in einer KLausur gefragt wird. Sowas macht man in Fächern wie "Operations Research" oder ähnlichen Logistikfächern.


    Wichtig fürs Verständnis ist vielleicht, dass man nach jedem Clustern die Tabelle neu schreibt und das Cluster als solches auch darstellt (also beispielsweise Drehen und Fräsen = Cluster A). Es gibt anschließend verschiedene Regeln, welchen Abstand man zum CLuster A nimmt. Meistens einfach den größten.
    Also man schaut dann Distanz Waschen zu Fräsen und Waschen zu Drehen und nimmt den größeren Wert.


    Bei größeren Matrizen können sich dann auch die Distanzen ändern und so entsteht dann auch die Abbildung mit den Fehlerquadratsummen.


    Wie gesagt, dauert ewig, muss man ziemlich sicher nicht können