kstats-sampling stellt Vorverarbeitungs- und Resampling-Werkzeuge bereit, die am Rand eines Analyse-Workflows stehen. Das Modul deckt zwei Bereiche ab: die Transformation numerischer Daten und das Ziehen von Zufallsstichproben.
Datentransformation
Rangbildung
rank() ersetzt numerische Werte durch ihre geordneten Positionen. Die Behandlung von Bindungen wird über den Parameter TieMethod gesteuert.
Normalisierung
Zwei gängige Skalierungsverfahren: z-Score-Standardisierung (Mittelwert 0, Standardabweichung 1) und Min-Max-Skalierung.zScore() ist geeignet, wenn die nachfolgende Methode standardisierte Eingaben voraussetzt. minMaxNormalize() skaliert standardmäßig auf [0, 1] oder auf einen benutzerdefinierten Bereich.
Mathematische Details
Mathematische Details
Binning
bin() gruppiert Werte in gleich breite Intervalle und gibt die Elemente jedes Bins zurück. frequencyTable() liefert Intervallgrenzen, Häufigkeiten, relative Häufigkeiten und kumulative Häufigkeiten.
bin() gibt die tatsächlichen Elemente zurück, die in jedes Intervall fallen — nützlich für die Weiterverarbeitung. frequencyTable() liefert zusammenfassende Statistiken pro Bin — nützlich für histogrammartige Berichte.
Sowohl
bin() als auch frequencyTable() akzeptieren entweder eine Bin-Anzahl (Anzahl der Bins) oder eine Bin-Breite (Größe jedes Intervalls). Die Variante binByDouble() nimmt eine valueSelector-Funktion entgegen und ermöglicht so das Binning nicht-numerischer Sammlungen anhand einer numerischen Eigenschaft.Sampling und Zufall
Zufalls- und Bootstrap-Stichproben
randomSample() zieht ohne Zurücklegen. bootstrapSample() zieht mit Zurücklegen — dasselbe Element kann mehrfach vorkommen.
randomSample() zieht ohne Zurücklegen — jedes Element kommt höchstens einmal vor. Die Stichprobengröße darf die Größe der Sammlung nicht überschreiten.bootstrapSample() zieht mit Zurücklegen — die Stichprobengröße kann größer als die Sammlung sein. Dies ist die Grundlage des Bootstrap-Resamplings zur Schätzung von Konfidenzintervallen und Standardfehlern.Gewichtete Zufallsergebnisse
WeightedCoin simuliert einen verzerrten Münzwurf. WeightedDice simuliert eine gewichtete Zufallsauswahl aus einer Menge von Ergebnissen.
WeightedDice funktioniert mit jedem Typ als Ergebnis.
API-Referenz
Vollständige API-Referenz
Alle Sampling-Funktionen, Transformations-Werkzeuge und Parameterüberladungen in der Dokka-generierten Referenz durchsuchen.