Normalverteilung – Anzahl Klassen

Ansicht von 14 Beiträgen - 1 bis 14 (von insgesamt 14)

Autor

Beiträge
rroesch
Teilnehmer

29. September 2005 um 14:29 Uhr

Beitragsanzahl: 8

#20669

Hallo,

wir stellen Abfüllanlagen für die Pharmazeutische Industrie her.
Um die Qualitätsfähigkeit unserer Füllmaschinen zu belegen führen wir Füllversuche durch, die wir mit Hilfe von MS-Excel statistisch auswerten.

Für die Darstellung der „Gausschen Glockenkurve“ haben wir uns bisher grundsätzlich auf eine Klassenanzahl von 20 festgelegt. Diese Woche hat uns nun ein Kunde seine statistische Auswertung von Füllversuchen zugeschickt, er arbeitet mit Klassenzahlen von 20 bis 40.

Meine Frage: Gibt es eine Festlegung zur Bestimmung der Anzahl der Klassen?
Wenn ja, wie lautet diese, bzw. wo steht diese geschriebn?

Vielen Dank im Voraus
Ralf

P.S. Ich möchte mich für meine einfache Wortwahl entschuldigen. In Bezug auf Statistik bin ich derzeit noch ziemlich „zu Fuß unterwegs“

IsoMan
Mitglied

29. September 2005 um 15:05 Uhr

Beitragsanzahl: 421

#32578

Hallo rroesch,

rekapituliere ich eine frühere Statistikschulung (DGQ-SPC für chem. Prozesse)dann wäre die Klassenzahl gleich der Quadratwurzel, die du aus der Anzahl Messungen/Messwerte (=Füllversuche)ziehst. Wenn dein Kunde mit Klassenzahlen von 20 – 40 arbeitet, dann hat er also 200 – 1600 individuelle Werte vorliegen. Ich pers. denke, mehr als 20 Klassen machen keinen Sinn, da dann die Klassenbreite oftmals enger ist als die Streuung der verwendeten Messmethode.

Aber Barbara wird dir zu diesem Thema bestimmt wesentlich kompetenter antworten können.

Keep on fighting!

qualyman
Teilnehmer

29. September 2005 um 15:07 Uhr

Beitragsanzahl: 2072

#32579

Hi Ralf,

mit Sicherheit wird es da keine Festlegung der Klassifizierung geben. Entweder man hat
– wenig Klassen ausgewählt, dann bekommt man eine hohe, aber dafür schlanke Glockenkurve. Bei dieser Abstufungen lassen sich die Werte nicht genau darstellen, da zuviele Werte in einer großen Klasse stehen
– viele Klassen ausgewählt, dann wird die Kurve breit und flach. wie oben, jedoch bei zu kleinen Klassen stehen u.U, nur einzelne Werte drinnen

Mein ganz Heißer Tipp: versuche mitten drinnen zu bleiben, da sind 20 Klassen fast schon zu viel. Und noch einer: versuche die Klassen so zu legen, dass die Toleranzgrenzen auch an einer Klassengrenze stoßen, da sonst Überschreitung nicht klar hervorgehen.

An der Berechnung von X-Quer, Streuung und so wird sich dadurch natürlich nichts ändern.

Bestimmt wird sich hierzu auch Babara, unsere Spezialistin in „sadistischen Methoden“ noch melden!

Babara, übernehme bitte, danke!

Gute Zeit!

Qualyman – Qualitäter aus Überzeugung !

plutho
Teilnehmer

29. September 2005 um 15:14 Uhr

Beitragsanzahl: 173

#32580

Nimm folgende Relgel:

a) Keine der Klassen darf 0 Werte enthalten.
b) Max. 20 % der Klassen dürfen weniger als 5 Werte enthalten.

Diese Regel entstammen den Bedingungen für die Klasseneinteilung zum Test auf Normalverteilung (Chi-Quadrat-Test).

Siehe auch Timischl, das für mich beste Statitik-Buch auf Seite 152…

lg Thomas

Timischl:
http://www.amazon.de/exec/obidos/ASIN/3446220534/qid=1127999330/sr=2-1/ref=sr_2_11_1/028-1145690-2337308

Barbara
Senior Moderator

29. September 2005 um 15:23 Uhr

Beitragsanzahl: 2766

#32583

Hallo rroesch,

also: Es gibt Daumenregeln für eine gute Wahl der Klassenanzahl, aber es gibt keine optimale Anzahl (auch wenn das in QM-Büchern oder Seminaren manchmal behauptet wird).

Häufig verwendet wird die Formel von Sturges oder eine Annäherung daran. Daneben gibt es noch die Formel von Scott und die von Freedman und Diaconis (die Formeln kann ich Dir oder anderen, die es interessiert mailen, das lässt sich hier nur sehr schwer darstellen).

Grundsätzlich ist eine Klasseneinteilung eine mehr oder weniger willkürliche, von außen vorgenommene Gruppierung, d. h. Du verlierst Informationen aus Deinen Werten. Insbesondere, wenn Du überprüfen willst, ob Daten normalverteilt sind, reicht ein Histogramm dafür nicht aus:
http://www.bb-sbl.de/tutorial/verteilungen/ueberpruefungnormalverteilung.html

Wenn Ihr Euch sicher seid, dass Eure Werte normalverteilt sind (weil Ihr das entsprechend geprüft habt), dann brauchst Du die Werte auch nicht zu klassieren. Denn die Normalverteilung ist durch den Mittelwert und die Varianz/Standardabweichung eindeutig festgelegt. Du musst dann aus einer Stichprobe nur den Mittelwert und die Varianz berechnen und kannst damit dann die Glockenkurve zeichnen (lassen).

Die Einteilungs-Regel, dass jede Klasse mindestens 5% der Werte beinhalten sollte, ist (tut mir leid, dass ich das so deutlich sage) Tinnef. Das ist eine Voraussetzung für den Chi²-Test, der für die Überprüfung der Normalverteilung sehr, sehr schlechte Güte-Eigenschaften hat. Vor 20 Jahren, als Computer echter Luxus waren, konnte man nicht anders als per Hand mit klassierten Daten zu rechnen. Das ist heute zum Glück anders.

Generell sind Tests, die auf klassierten Daten basieren, weniger effizient als Tests, die mit den Daten direkt arbeiten (Shapiro-Wilks, Ryan-Joiner, Anderson-Darling, Cramér-van Mises z. B.), denn sie nehmen die vollständige Information aus den Daten.

Nachdem ich Dir jetzt schon so viel um die Ohren gehauen habe, noch eins: Excel ist ein Tabellenkalkulations-Programm und nur sehr eingeschränkt für die zielgerichtete, schnelle und statistisch gute Auswertung von Daten geeignet.

Genug gemeckert ;-)

Viele Grüße

Barbara

~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
Es gibt drei Arten von Menschen: Solche, die zählen können und solche, die nicht zählen können.

yabelo
Mitglied

30. September 2005 um 19:12 Uhr

Beitragsanzahl: 11

#32622

Hallo Barbara,
das Thema interessiert mich auch!!
Wo finde ich mehr Informationen über die -Shapiro-Wilks, Ryan-Joiner, Anderson-Darling, Cramér-van Mises -Tests

Gruß
Yabelo

seba
Mitglied

30. September 2005 um 19:21 Uhr

Beitragsanzahl: 17

#32623

Hallo Barbara,

das Thema würde mich auch interessieren. Bitte auch um Infos.

Danke.
Sebastian

Barbara
Senior Moderator

30. September 2005 um 20:34 Uhr

Beitragsanzahl: 2766

#32624

Hallo Yabelo, hallo seba,

welches Thema interessiert Euch genau? Die Tests auf Überprüfung der Normalverteilung, der Ablauf der Verteilungsprüfung allgemein oder die Einteilung in Klassen?

Und vor allem: Wie viel Vorwissen habt Ihr und womit macht Ihr Eure Analysen? Braucht Ihr „nur“ Literatur-Hinweise? (englisch und/oder deutsch?) Oder seid Ihr auf der Suche nach Links?

So viele Fragen ;-)

Viele Grüße

Barbara

~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
Es gibt drei Arten von Menschen: Solche, die zählen können und solche, die nicht zählen können.

yabelo
Mitglied

2. Oktober 2005 um 8:31 Uhr

Beitragsanzahl: 11

#32626

Hallo Barbara,
ich bin sozusagen in der Lernphase und mich interessieren die Tests auf Normalverteilungen und natürlich auch der Ablauf solcher Tests und wann ich welchen Test anwenden kann oder muß.
Ich kenne den Shapiro-Wilk-Anpassungstest und den Shi²-Anpassungstest. Die anderen von dir genannten Tests sind mir völlig fremd.
Ich bin für alle Infos dankbar, ob Buch (am besten in deutsch) oder einen interessanten Link zu diesem Thema.
Vielen Dank und noch ein schönes Wochenende!!
Gruß
Yabelo

Barbara
Senior Moderator

3. Oktober 2005 um 18:47 Uhr

Beitragsanzahl: 2766

#32638

Hallo yabelo und alle anderen Statistik-Interessierten,

also:

Ein statistischer Test ist eine Methode, bei der eine Hypothese (H0) und eine Alternative (Gegenhypothese / H1) aufgestellt wird. Anschließend wird geprüft, ob die Werte zur Hypothese passen oder nicht. Dafür wird die Wahrscheinlichkeit berechnet.

Ein Beispiel: Zwei Lieferanten A und B liefern Rohmaterial. Der Kunde glaubt, dass es deutliche (signifikante) Unterschiede zwischen den Rohmaterialien gibt. Die Hypothese ist dann
H0: Rohmaterial von A = Rohmaterial von B
und die Alternative / Gegenhypothese:
H1: Rohmaterial von A ungleich Rohmaterial von B
In der Hypothese steht also im allgemeinen das, was abgelehnt werden soll. (Der Kunde möchte ja nachweisen, dass die Rohmaterialien unterschiedlich sind).

Berechnet wird dann, wie wahrscheinlich die Gültigkeit der Hypothese ist. Die Wahrscheinlichkeit dafür, dass H0 richtig ist, ist der p-Wert. Wenn der p-Wert zu klein ist, wird die Hypothese H0 abgelehnt, wenn der p-Wert groß ist, wird H0 beibehalten.

Weil die Testentscheidung (Hypothese H0 ablehnen oder beibehalten) auf einem Teil der Werte (einer Stichprobe, Messreihe, etc.) getroffen wird und alle Werte eine gewisse Streuung haben, beinhaltet jede Testentscheidung auch die Wahrscheinlichkeit, eine falsche Entscheidung zu treffen.

Es gibt zwei mögliche Fehlerarten:
1. Fehlerart: Die Hypothese wird abgelehnt, obwohl sie in Wirklichkeit richtig ist. Dies ist die Irrtumswahrscheinlichkeit oder der Fehler 1. Art oder alpha.
2. Fehlerart: Die Hypothese wird beibehalten, obwohl sie in Wirklichkeit falsch ist. Das ist der Fehler 2. Art oder beta.

Beachtet wird aber nur alpha! Oft wird alpha=5% gesetzt, d. h. die Wahrscheinlichkeit, die Hypothese zu verwerfen, obwohl sie in Wirklichkeit richtig ist, ist 5%. Anders herum sind 95% meiner Testentscheidungen, wenn ich die Hypothese verwerfe, richtig.

beta hingegen kann nicht vorgegeben werden, sondern nur allgemein über die Gütefunktion (OC-Funktion) für einen speziellen Test berechnet werden (nicht für eine spezielle Testsituation wie den Lieferantenvergleich). Mit Hilfe der Gütefunktion werden verschiedene Testverfahren miteinander verglichen. Derjenige Test mit der höchsten Güte ist dann der beste Test.

Weil beta nicht vorgegeben werden kann, habe ich auch keine direkte Möglichkeit anzugeben, wie hoch die Fehlerwahrscheinlichkeit für ein falsches Beibehalten der Hypothese H0 ist.

Wird das Rohmaterial der beiden Lieferanten A und B miteinander verglichen und die Unterschiede sind klein (bzw. der p-Wert ist groß), dann kann die Hypothese H0 nicht verworfen werden und wird beibehalten. Wie groß die Wahrscheinlichkeit für einen Fehler bei dieser Entscheidung ist (wie groß beta ist), kann nicht angegeben werden.

Bei den meisten Testsituationen werden die Tests verwendet, die die besten Güteeigenschaften haben, d. h. die den kleinsten beta-Fehler unter allen Tests für eine Testsituation haben. Beispiele dafür sind der t-Test auf Vergleich von Mittelwerten oder der F-Test auf Vergleich von Varianzen. (Beide sind allerdings nur dann die besten Tests, wenn die Messwerte mindestens annähernd normalverteilt sind.)

Es gibt aber einen Bereich, in dem sehr häufig Tests mit einer schlechten Güte eingesetzt werden und zwar bei der Überprüfung der Normalverteilung. Hier wird oft mit den Tests gearbeitet, die einfach zu berechnen sind. Dazu gehören der Chi²-Test und der Kolmogoroff-Smirnov-Test (KS-Test oder Lilliefors-Test).

Bevor überall PCs standen, war es nur schwer möglich, exaktere Tests zu verwenden, weil der Rechenaufwand immens ist. Heute wird das von einer Software in Sekundenbruchteilen berechnet.

Leider haben sich die schlechten Güteeigenschaften des Chi²-Tests und des KS-Tests bei der Überprüfung der Normalverteilung noch nicht herumgesprochen und sind in vielen CAQ-Programmen als Standard (oder als einzige Verfahren) implementiert. Dass die Güteeigenschaften so schlecht sind, ist erst seit Mitte der 90er Jahre bekannt. Damals wurde mit aufwändigen Simulationen zum ersten Mal ausgerechnet, wie hoch die Güte der Tests ist. Sie ist niedrig und verglichen mit anderen Testverfahren zu niedrig, als dass der Chi²-Test oder der KS-Test gute Tests sind.

Die schlechten Güteeigenschaften sind bei Tests auf Verteilungsüberprüfung besonders unschön, weil oft nicht die Hypothese H0 abgelehnt werden soll, sondern man zeigen möchte, dass Messwerte normalverteilt sind.

Ein Normalverteilungstest hat die Hypothese und Alternative:
H0: Messwerte sind normalverteilt.
H1: Messwerte sind nicht normalverteilt.

Anders als in vielen anderen Testsituationen soll die Hypothese H0 beibehalten werden. Wie oben beschrieben, beinhaltet diese Testentscheidung den beta-Fehler bzw. einen Fehler 2. Art. Wenn jetzt ein Test mit schlechter Güte (hohem beta-Fehler) verwendet wird, steht die Testentscheidung auf sehr wackeligen Füßen – und zwar unabhängig von dem vorgegebenen alpha-Fehler.

Tests auf Normalverteilung mit einer hohen Güte (kleinem beta-Fehler) sind:
*Cramér-von Mises
*Anderson-Darling
*Shapiro-Wilks
*Shapiro-Francia
*Ryan-Joiner

Bei jedem Test wird die Testentscheidung letztendlich auf der Basis eines Werts (der Teststatistik) getroffen. Weil es unzählige Verteilungen gibt, mit denen die Normalverteilung bei Normalverteilungstests verglichen wird, reicht ein guter Test alleine nicht aus. Zwei sind besser. Wenn beide Tests das gleiche sagen, dann kann die Hypothese H0 „Messwerte sind normalverteilt“ beibehalten werden.

Wer bis hierhin gelesen hat: Hut ab! Denn das ist ziemlich viel von hinten durch die Brust ins Auge und dann noch um die Ecke gedacht.

Ein gutes Einsteigerbuch mit vielen anschaulichen Beispielen und sehr gut verständlich ist:
Fahrmeier, Künstler, Pigeot, Tutz [2004]: Statistik. Der Weg zur Datenanalyse. Springer Verlag, ISBN 3540212329, 29,95 €

Und für diejenigen von Euch, die alles über die Normalverteilung und Normalverteilungstests wissen möchten:
Groß [2004]: A normal distribution course. Peter Lang Verlag, ISBN 3631529341, 34,00 €
(gibt es nur auf Englisch)

Ich hoffe, das hilft Dir / Euch.

Viele Grüße

Barbara

~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
Es gibt drei Arten von Menschen: Solche, die zählen können und solche, die nicht zählen können.

QM-Planer
Mitglied

4. Oktober 2005 um 10:52 Uhr

Beitragsanzahl: 73

#32647

Hallo Barbara,

wie gut llässt sich einer von dir genannten Tests durch ein EXcel-Makro abbilden? Oder würdest du ganz davon abraten?

Ich habe vor längerer Zeit ein Excelprogramm zur statistischen Auswertung von größeren Datenmengen geschrieben, dass im Gegensatz zu starren Zellverknüpfungen eine gewisse Flexibilität bietet (z.B. einen Datenbereich zeilenweise/spaltenweise auswerten).

Um das ganze abzurunden – gerade im Hinblick auf die Fähigkeitskennwerte, habe ich einen Anpassungstest nach Kolmogoroff-Smirnow eingebaut.
Ich bin froh, dass du die schlechten Güteeigenschaften hier ansprichst. Man findet diesbezüglich nur sehr schwer kompetente Ansprechpartner.
Ich jedenfalls bin schier verzweifelt. Um die Ergebnisse des KS-Tests zu bestätigen, habe ich u.a. dieselben Messreihen mit dem Chi2-Test gegengeprüft. Leider haben die beiden Tests zu häufig unterschiedliche Ergebnisse geliefert – annehmen und ablehnen. Dann habe ich zusätzlich Histogramme ausgegeben un zu guter letzt mit QS-Stat abgeglichen. Das Fazit ist, dass das Ergebnis des KS-Tests auf sehr wackeligen Beinen steht und eigentlich nicht sehr hilfreich ist. Weil mir auch zu viele offensichtlich n-verteilte Messreihen abgelehtn wurden, habe ich Alpha noch auf 10% erhöht. Damit ist das Vertrauen in dieses Verfahren für mich auf ein Minimum gesunken.

Wenn du eine Lösung weisst, wie ich die von dir genannten Tests mit Excel darstellen kann, wäre das super. Ich kann dir mein Programm bei Interesse auch zusenden!

Hallo rroesch,

ich habe bei mir die Klasseneinteilung auf 10 begrenzt, weil sich die Anzahl der Messwerte meist zwischen 50 und 100 bewegt.

Grüße!

Arne

Barbara
Senior Moderator

4. Oktober 2005 um 11:45 Uhr

Beitragsanzahl: 2766

#32650

Hallo Arne,

ich nehme Excel gerne, wenn es um das Erstellen von Pivot-Tabellen oder sammeln von Infos geht, aber nicht für die statistische Auswertung, denn da hast Du ganz schnell vier Probleme:

1. Schon bei der Berechnung von Kennzahlen (Mittelwert, Standardabweichung, Median, Range, etc.) klickst Du hier, schreibst da eine Formel und musst die richtigen Zellbezüge eingeben, damit das Ergebnis stimmt. Das ist enorm aufwändig. In einer Statistik-Software sind das nur wenige Klicks für alle Kennzahlen, in Excel sehr viel Aufwand für jede Kennzahl.

2. Bei Grafiken ist die Auswahl an Optionen stark eingeschränkt. Ein einfaches Wahrscheinlichkeitsnetz erfordert einen ziemlichen Aufwand bei Excel (und nicht nur drei Klicks).

3. Es gibt – anders als bei Statistik-Paketen – keine Validierung von selbst-geschriebenen Makros. Ob die Ergebnisse stimmen oder ob es Abweichungen gibt, müsste erst mit aufwändigen Tests geprüft werden.

4. Sobald es um höhere Probleme geht (z. B. Ausgleichsgerade bestimmen bei zwei oder mehr Einfluss-Merkmalen), musst Du Dich auf die Ergebnisse verlassen und kannst nicht einmal nachprüfen, wie die zustande gekommen sind. In (fast) jedem Statistik-Programm findest Du in der Hilfe die Beschreibung des verwendeten Algorithmus. Bei Excel nicht. (Und verschiedene Algorithmen haben a) unterschiedliche Güte-Eigenschaften und b) unterschiedliche Ergebnisse.)

Und letztlich: Warum sollte sich jemand diesem Aufwand aussetzen, wenn es gute Alternativen gibt? Es gibt OpenSource-Programme, die kein Geld kosten (z. B. R). Auch die kommerzielle Software ist nicht sooo unglaublich teuer (fängt bei 1400 € ungefähr an, je nach Programm).

Und wenn ich die Anzahl Tage für die Programmierung und Überprüfung der Ergebnisse nehme und mit dem Aufwand für den Kauf, die Implementierung und die Einarbeitung vergleiche, dann schneidet Excel auch da ziemlich schlecht ab. Excel ist eben ein Tabellenkalkulations-Programm und kein Statistik-Programm.

Danke dass Du mir Dein Programm schicken würdest. (Aus den genannten Gründen würde ich es nicht verwenden.) Wenn es um eine Validierung geht, kann ich Deine Werte gerne mit Statistik-Software gegenchecken.

Wenn Du trotz allem eigene NV-Tests programmieren willst, dann schau in das Groß-Buch. Da findest Du alle Formeln, die Du brauchst, um die Test-Statistiken (außer dem Ryan-Joiner) und p-Werte zu berechnen. Wirklich aufwändig ist die Berechnung nur, wenn man das per Hand und ohne Taschenrechner machen will. Das müsste mit Makros relativ einfach umzusetzen sein.

Viele Grüße

Barbara

~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
Es gibt drei Arten von Menschen: Solche, die zählen können und solche, die nicht zählen können.

QM-Planer
Mitglied

4. Oktober 2005 um 13:05 Uhr

Beitragsanzahl: 73

#32652

Hallo Barbara,

danke für die schnelle Antwort.
Es geht wirklich nur um die Berechnung von Kennwerten. Das Programm ist aber unabhängig von Zellbezügen und mit wenigen Klicks zu bedienen.
Bei der Auswertung von Fähigkeitsuntersuchungen (bei Abnahmen) verwenden wir immer QS-Stat, das fordern auch die meisten Kunden.

Aber für eine schnelle Abschätzung ist Excel sehr hilfreich. Vor allem, wenn man verschiedene Baustellen hat. Es ist auch für den Nicht-Fachkundigen einfacher zu bedienen. Kommt noch hinzu, dass wir für einige Handmessmittel selbst Messprogramme in Excel geschrieben haben und die Werte über RS232 direkt einlesen.

Du hast aber recht, dass die Programmierung sehr aufwendig ist. Mir fehlt jetzt auch die Zeit dazu (das Programm ist vor 7 Jahren entstanden). In das Groß-Buch werde ich aber auf jeden Fall schauen.

Würde mich freuen, wenn über die Feinheiten der Statistik und der Umsetzung in der Praxis häufiger diskutiert würde. Und wenn sich auch unsere Kunden daran beteiligen würden.

Grüße und noch eine schöne Woche!

Arne

Barbara
Senior Moderator

4. Oktober 2005 um 13:23 Uhr

Beitragsanzahl: 2766

#32653

Hallo Arne,

so ganz kann ich Dir nicht folgen, wenn Du sagst, dass Excel für die schnelle Auswertung besser ist. Wenn Du eine Excel-Tabelle, ein Excel-Makro und eine Statistik-Software hast, dann ist der Aufwand ziemlich gleich, egal ob Du die Tabelle in Excel öffnest und dann das Makro ausführst oder ob Du die Tabelle in einem Statistik-Programm öffnest und die Werte da berechnest.

Gerade weil die Zellbezüge frei wählbar sind, halte ich die Excel-Programmierung für fehleranfälliger. Da kannst Du dann eben auch mal eine Zelle bei der Berechnung vergessen. Bei Statistik-Programmen wird standardmäßig die gesamte Spalte aus den Daten genommen.

Ich mag die Diskussionen um die Hintergründe bei den statistischen Methoden auch :-) Da wird bestimmt mit der Zeit hier im Forum noch mehr kommen.

Dir und allen anderen auch noch eine schöne Woche!

Barbara

~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
Es gibt drei Arten von Menschen: Solche, die zählen können und solche, die nicht zählen können.
Autor

Beiträge