Log-Normalverteilung, Prozessfähigkeit

Ansicht von 15 Beiträgen - 1 bis 15 (von insgesamt 18)

1 2 Vor

Autor

Beiträge
Stefan741
Mitglied

26. Dezember 2012 um 21:32 Uhr

Beitragsanzahl: 46

#24864

Hallo zusammen,

wie berechnet ihr Fähigkeitsindizes wie cp/cpk bei nicht normalverteilten Merkmalen?
Gibt es da eine Excel-Formblatt, oder einen R-Code?
Die Ursprungsdaten sind normalverteilt, werden aber durch eine Exponentialfunktion Log-Normalverteilt.

Hier eine Datenreihe.
L/mh 100 wdg
14,78915032
12,1445886
14,85660611
20,96656081
18,51837621
15,10693115
19,08017642
13,32666381
16,50070424
14,73288502
14,87757875
13,07735599
20,08108717
15,83213068
12,11831189
15,6578449
21,85856577
12,87900757
14,61243668
12,15075068
31,63695415
17,90778727
15,09981758
16,35371717
16,7749179
15,65802622
16,21128869
15,00141296
24,8623803
22,47723575

Sollte man die Werte in eine Normalverteilung transformieren und dann konventionell berechnen?
Ich suche da schon länger im Netz rum, konnte aber leider nichts verständliches finden.
Vielleicht hat jemand von euch einen Link mit Praxisbeispielen.

Gruß

Stefan

Barbara
Senior Moderator

27. Dezember 2012 um 10:01 Uhr

Beitragsanzahl: 2766

#61634

Hallo Stefan,

Fähigkeitswerte für lognormalverteilte Werte lassen sich relativ einfach in R berechnen. Die Formeln dafür findest Du z. B. in der englischen Wikipedia: Log-normal distribution: parameter estimation.

Etwas mehr zur Verwendung der Lognormal-Verteilung hab ich auch in dem Thread Berechnungsverfahren Fähigkeitsindex Excel/qs-STAT geschrieben. Um Unschärfen durch das Transformieren und Rück-Transformieren der Kennzahlen zu vermeiden, würd ich bei den Original-Werte (nicht-logarithmierte Werte) bleiben, weil durch den Logarithmus aus einer symmetrischen eine schiefe Verteilung wird.

Das verändert auch die Fähigkeitswerte deutlich. In dem Beispiel-R-Code hab ich eine einseitige Begrenzung nach oben durch OSG=50 genommen. Wegen der einseitigen Grenze ist nur der Cpk.u (u: upper) berechenbar – aber den Rest kannst Du genauso hinbasteln, wenn Du ihn brauchst ;)

###################################

daten = read.csv2(„Lognormal_Werte.csv“)
summary(daten)

Werte = subset(daten, daten[,1]>0)[,1]
summary(Werte)
# Werte stehen in Spalte 1 [,1]
# es sollen nur nicht-fehlende Werte > 0 verwendet werden

OSG = 50

mwlog = sum(log(Werte))/length(Werte)
sigma2log = sum((log(Werte)-mwlog)^2/length(Werte))
sdlog = sqrt(sigma2log)
mwlog
sigma2log
sdlog

Cpk.logn.u=(OSG-qlnorm(.5,mwlog,sdlog))/(qlnorm(.99865,mwlog,sdlog)-qlnorm(.5,mwlog,sdlog))
Cpk.logn.u

# rechnen mit der Normalverteilung
logWerte = log(Werte)
logOSG = log(OSG)

Cpk.nv.u=(logOSG-mean(logWerte))/(3*sd(logWerte))
Cpk.nv.u

###################################

Da gibt es einen deutlichen Unterschied in den Fähigkeitswerten:
mit Lognormal: Cpk = 2,20
mit Normal: Cpk = 1,67

Die Lognormalverteilung ist wenig zuverlässig bei der Beschreibung von Messdaten für Fähigkeitswerte, deshalb würd ich die Variante mit der Normalverteilung wählen.

Wie unterschiedlich die beiden Verteilungen aussehen, kannst Du mit folgendem R-Code darstellen (die Kennzahlen sind vorher aus den Messdaten berechnet worden, s. o.):

###################################

xx = seq(0,55,length=1000)

plot(xx,dnorm(xx,exp(mean(logWerte)),exp(sd(logWerte))), yaxs=“i“, ylim=c(0,max(dnorm(xx,exp(mean(logWerte)),exp(sd(logWerte))))*1.05), xlab=““, ylab=““, type=“n“, axes=FALSE)
lines(xx, dnorm(xx,exp(mean(logWerte)),exp(sd(logWerte))), col=“blue“, lwd=2)
lines(xx, dlnorm(xx,mwlog,sdlog), col=“seagreen“, lwd=2)
abline(v=OSG, col=“red3″, lwd=2, lty=2)
mtext(„OSG“, side=3, at=OSG, col=“red3″, cex=1.2, line=0)
legend(„topleft“, col=c(„seagreen“,“blue“), lty=1, lwd=2, c(„logNormal“, „Normal“), bg=“white“, cex=0.8)
axis(1)
box()

###################################

Viele Grüße

Barbara

PS: Interessante Fragestellung für den 2. Weihnachtstag ;)

_____________________________________

Eine gute wissenschaftliche Theorie sollte einer Bardame erklärbar sein.
(Ernest Rutherford, Physiker)

Stefan741
Mitglied

28. Dezember 2012 um 18:01 Uhr

Beitragsanzahl: 46

#61635

Hallo Barbara,

ich habe wohl ein grundsätzliches Verständnisproblem und deshalb vermutlich die Frage falsch gestellt.
Die Werte sind aus der Formel (X^-0,734)*196 entstanden.
Da die Werte dadurch nicht normalverteilt sind, war die konventionelle Berechnung der Fähigkeitsindizes nicht zulässig, oder doch?
Warum hast du die Werte mit e logarithmiert? Dadurch ist die Verteilung ja noch immer schief.

Wenn ich für eine schiefe Verteilug den Fähigkeitsindex berechnen möchte, müsste ich doch erst mal den „Mittelwert“ berechnen.
Dieser ist aber nicht das arithmetische Mittel, sondern der höchste Punkt der Kurve.
Die Standardabweichung müsste dann zu einer Seite eine kleinere als zur anderen sein.
Oder denke ich da zu kompliziert?

Viele Grüße

Stefan

Stefan741
Mitglied

28. Dezember 2012 um 23:07 Uhr

Beitragsanzahl: 46

#61636

Jetzt habe ich mir nochmal die von Barbara im oben erwähnten Beitrag aufgeführten allgemeinen Formeln zur Berechnung von Fähigkeitsindizes angesehen. Langsam wird mir das ganze klarer.

Das 50% Quantil wäre dann 15,66.

Werde mich am Wochenende weiter damit beschäftigen.

Stefan741
Mitglied

29. Dezember 2012 um 19:44 Uhr

Beitragsanzahl: 46

#61637

Hallo zusammen,

jetzt habe ich mal ein bisschen mit Excel und R herumgerechnet.
Daten = 14.27042, 15.53560, 14.57387, 18.26295, 18.07031, 16.98555, 16.71739, 15.00800, 16.01699, 15.30819, 13.98371, 14.68302, 14.66823, 16.64007, 15.18310, 14.81282, 17.46755, 15.87356, 15.60554, 17.20705, 16.15458, 15.44388, 14.47870, 15.15379, 16.84712, 16.11181, 15.02917, 15.22154, 18.78405, 15.02292
OTG 19,319819590
UTG 11,59189175

Die Hypothese der Normalverteilung wurde zwar knapp nicht abgelehnt (Anderson-Darling-Test, Wahrscheinlichkeit p-Wert: 0.07135321), trotzdem ist die Verteilung schief.
Deshalb habe ich jetzt verschiedene Varianten versucht, einen besser passenden Fähigkeitsindex zu ermitteln:

1. Fähigkeitsindex zum Median
Median: 15,49
s: 1,295
Cpko: 0,986
Cpku: 1,004

2. Fähigkeitsindex zum Median, aber mit s oben und s unten berechnet:
s oben: 1,695
s unten: 0,774
Cpko: 0,753
Cpku: 1,68

3. Fähigkeisindex zum Mittelwert:
Xqer: 15,84
s: 1,246
Cpko: 0,932
Cpku: 1,136

4. Fähigkeitsindex zum Mittelwert, mit s oben und s unten:
s oben: 1,529
s unten: 1,029
Cpko: 0,759
Cpku: 1,375

5. Fähigkeitsindex mit Quantilen
Q0,5: 15,49
Q0,135: 14,66
Q99,865: 18,76
Cpko: 1,17
Cpku: 4,699

Nach den allgemeinen Formeln für Fähigkeitswerte von Barbara wäre die Variante 5 anzuwenden, da diese für alle Verteilungen gelten.
Hier kommen mir die Cpk-Werte aber zu gut vor. Ich finde die Variante 2 passender.
Ich hoffe, mit meinen Gedanken liege ich nicht komplett daneben. Was meint ihr?

Viele Grüße
Stefan

Stefan741
Mitglied

30. Dezember 2012 um 12:28 Uhr

Beitragsanzahl: 46

#61638

In der QZ gibt es einen interessanten Artikel „Trügerische Fähigkeit“ zu dem Thema. Herunterladbar als PDF:

(„http://www.qz-online.de/qz-zeitschrift/archiv/artikel/faehigkeitskennzahlen-fuer-asymmetrische-verteilungen-truegerische-faehigkeit-339455.html?search.highlight=Tr%C3%BCgerische%20F%C3%A4higkeit“)

geändert von – Stefan741 on 30/12/2012 12:30:33

hans.damp
Mitglied

31. Dezember 2012 um 4:55 Uhr

Beitragsanzahl: 7

#61639

Moin Stefan,

unter Annahme einer Normalverteilung spuckt mir das Programm qs-stat nach Barbaras Berechnungsmethode folgende Werte aus:

Cp 0,77<1,03<1,30
Cpk 0,66<0,92<1,19

Wobei die äußeren Werte die Unsicherheit aufgrund der geringen Datenmenge angeben.

Gruß

Barbara
Senior Moderator

3. Januar 2013 um 8:44 Uhr

Beitragsanzahl: 2766

#61640

Hallo hans.damp,

der Hinweis, dass das zu wenig Werte für eine belastbare Fähigkeitsbewertung sind, ist richtig.

Allerdings gibt es für nicht-normale Verteilungen keine Möglichkeit, einen Unsicherheitsbereich zu berechnen, auch wenn solche Zahlen in qs-stat oder anderen Programmen auftauchen. (In Minitab gibt es diese Werte nicht, wenn die Messdaten nicht normalverteilt sind.)

Es gibt zwar Möglichkeiten, Unsicherheitsangaben für nicht-normalverteilte Werte z. B. über Bootstrap-Verfahren zu ermitteln, das hat aber nichts mit dem Berechnen über eine Formel zu tun. Nachlesen kannst Du das z. B. in Kapitel 5 „Fähigkeitsmessung bei nicht-normalverteilten Qualitätsdaten“ in dem Buch

Mittag, Hans-Joachim ; Rinne, Horst: Prozeßfähigkeitsmessung für die industrielle Praxis. München, Wien: Hanser Verlag, 1999. -ISBN 978-3-446-21117-9. S. 1-480

Der letzte Satz in diesem Kapitel ist (S. 322):
„Wenn auch Bootstrapping keine perfekte Technik ist, sollte man sie doch einsetzen, um wenigstens eine ungefähre Größenordnung der Zufallsvariation der PFI-Schätzung [PFI: Prozess-Fähigkeits-Index] in jenen Situationen zu gewinnen, in denen die Normalverteilung für das Qualitätsmerkmal nicht gesichert ist.“

Die Aussage, dass die Formeln für die Unsicherheitsbereiche bzw. Konfidenzintervalle nur und ausschließlich für normalverteilte Messdaten anwendbar sind, findet sich auch in dem Buch

Montgomery, Douglas C.: Introduction to Statistical Quality Control. 6. Aufl. Hoboken NJ: John Wiley , 2008. -ISBN 978-0-4-70-16-9. S. 1-734
p.359f.

Viele Grüße

Barbara

_____________________________________

Eine gute wissenschaftliche Theorie sollte einer Bardame erklärbar sein.
(Ernest Rutherford, Physiker)

Stefan741
Mitglied

4. Januar 2013 um 12:44 Uhr

Beitragsanzahl: 46

#61642

Hallo Barbara und Jan,

vielen Dank für die Rückmeldungen.

Dass die Anzahl der Werte für eine belastbare Aussage nicht ausreicht, ist mir schon klar.
Die Werte sind auch keine gemessenen, sondern von mir generierte (habe Urlaub und gerade keinen Zugriff auf Messwerte).
Trotzdem entsprechen die Werte der Praxis bei uns, auch hinsichtlich der Anzahl. Oft müssen wir schon aufgrund einer Musterserie von ca. 30 Stück Aussagen zur Prozessicherheit in der Serie machen (Stichwort: Fähigkeitsindex Cp, Cpk). Dann gibt es höchstens noch eine Vorserie von 200 bis 400 Stück zur weiteren Absicherung.
In der Serie gibt es dann eine 100%-Prüfung. Das heißt, wenn die Prozesssicherheit nicht stimmt, produzieren wir Ausschuss aber der Kunde kriegt keine fehlerhaften Teile.

Die gemessenen Werte können unter bestimmten, bekannten Voraussetzungen nicht normalverteilt sein.
Mit den herkömmlichen Berechnungen schätzen wir die Prozessfähigkeit in eine Richtung oft zu gut, in die andere zu schlecht ein.
Deshalb bin ich auf der Suche nach einer Möglichkeit, die Fähigkeitsindizes genauer abzuschätzen.

Dabei habe ich mir die von Barbara zitierten allgemeinen Formeln zur Fähigkeitsuntersuchung angeschaut und damit herumgerechnet.
Hier bin ich der Meinung, dass man damit eine viel größere Unsicherheit in Kauf nehmen muss, als wenn man mit Streuungsparametern unter Berücksichtigung der Einzelwerte rechnet.

Was haltet ihr davon, die Standardabweichung 2x zu berechnen:
– Standardabweichung zum Median: Alle Abweichungen der Einzelwerte kleiner Median.
– Standardabweichung zum Median: Alle Abweichungen der Einzelwerte größer Median.
„n“ kann dabei natürlich nur die Anzahl der Werte sein, welche über oder unter dem Median liegen.

Viele Grüße

Stefan

Barbara
Senior Moderator

7. Januar 2013 um 8:56 Uhr

Beitragsanzahl: 2766

#61643

Hallo Stefan,

wenn es technisch sinnvoll ist, die Daten in eine Normalverteilung zu transformieren, würd ich das machen, schon um auch die Unsicherheitsbereiche für die Fähigkeitswerte berechnen zu können. Das finde ich insbesondere bei kurzen Messreihen / wenigen Daten extrem wichtig, um die Schein-Sicherheit sichtbar zu machen.

Streuung lässt sich unterschiedlich definieren (vgl. Wikipedia Streuung, z. B. MD und MAD). Das Problem bei abweichenden Formeln ist, dass Du damit nicht den 3S-Bereich bestimmst, sondern einen anderen Bereich.

Damit sind die berechneten Werte nicht mehr mit den üblichen Fähigkeitskennzahlen vergleichbar und die Aussagen zu ppm bzw. Ausschuss können auch nicht mehr so einfach angegeben werden.

Wichtig ist natürlich immer zu prüfen, ob die angenommene Verteilung auch in den Messdaten steckt (egal ob Lognormal- oder Normal- oder eine andere Verteilung).

Viele Grüße

Barbara

_____________________________________

Eine gute wissenschaftliche Theorie sollte einer Bardame erklärbar sein.
(Ernest Rutherford, Physiker)

hans.damp
Mitglied

8. Januar 2013 um 9:47 Uhr

Beitragsanzahl: 7

#61645

Hallo,

mir fällt spontan noch ein Vorgehen nach einer VW-Norm ein, welche u.a. die Ermittlung von Fähigkeitskennzahlen bei nicht definierten Verteilungsmodellen beschreibt.
Allerdings gilt auch hier was Barbara zu der Vergleichbarkeit geschrieben hat.

Bei Bedarf kann ich dir die Gleichung mal per Mail weiterleiten.

MfG
Jan

Barbara
Senior Moderator

8. Januar 2013 um 10:01 Uhr

Beitragsanzahl: 2766

#61646

Hallo Jan,

hast Du für die Berechnungs-Art ein Stichwort (z. B. Pearson, Clements)?

Viele Grüße

Barbara

_____________________________________

Eine gute wissenschaftliche Theorie sollte einer Bardame erklärbar sein.
(Ernest Rutherford, Physiker)

hans.damp
Mitglied

8. Januar 2013 um 10:33 Uhr

Beitragsanzahl: 7

#61647

Hallo Barbara,

ne ein Stichwort kann ich nicht nennen.
Das Verfahren ist in der „Konzernnorm VW 10130“ beschrieben und berechnet in Abhängigkeit des Stichprobenumfangs mit der W-Verteilung und denn Spannweiten den Fähigkeitsindex.

MfG

Barbara
Senior Moderator

9. Januar 2013 um 12:33 Uhr

Beitragsanzahl: 2766

#61654

Hallo Jan,

ach so, die VW Konzernnorm 10130. Die von 2005-02 ist auch in dem Buch von Dietrich & Schulze abgedruckt (S. 661ff.):

Dietrich, Edgar ; Schulze, Alfred: Statistische Verfahren 6. Aufl.. 6. aktualisierte Auflage. München, Wien: Hanser Verlag, 2009. -ISBN 978-3-446-41525-6. S. 1-722

Die Grundidee ist, die Streuung mit der Spannweite R zu ermitteln. Das ist problematisch, weil die Spannweite ausschließlich den kleinsten und den größten Wert berücksichtigt. Wie die Werte dazwischen aussehen, ist egal.

Ein kleines Beispiel:
Reihe 1: 2 11 11 11 11 11 11 11 11 20
Reihe 2: 2 2 2 2 2 20 20 20 20 20
Reihe 3: 2 4 6 8 10 12 14 16 18 20

Alle drei Reihen haben dieselbe Spannweite R=20-2=18 und denselben Mittelwert xquer=11. Ich bezweifel allerdings, dass die Fähigkeiten der dazu gehörenden Prozess auch nur annähernd ähnlich ist.

Die Standardabweichung S zeigt für dieses Beispiel sehr viel deutlicher, dass das Streuverhalten unterschiedlich ist:
Reihe 1: 4,25
Reihe 2: 9,49
Reihe 3: 6,06

Deshalb ist die Spannweite auch für 3 oder mehr Messwerte weniger informativ als die Standardabweichung und alle anderen Maße, die mit den ganzen Einzelwerten rechnen. (Bei 2 Messwerten ist die Spannweite identisch mit der Standardabweichung, aber 2 Werte sind definitiv zu wenig für Fähigkeitsbewertungen.)

Neben dem geringen Informationsgehalt der Spannweite gibt es ein weiteres Problem bei der Ermittlung der Streubereichsgrenzen über die Spannweite: Es existiert keine Verteilung, auf deren Basis die Unsicherheit der Spannweite ermittelt werden kann. Alle Abschätungen (auch die mit „w“) sind empirisch ermittelt worden.

Und die Grenzwerte, die über w bzw. den Erwartungswert der w-Verteilung d bestimmt werden, sind auch nur für normalverteilte Werte halbwegs belastbar. Das steht so auch als Anmerkung in der VW Norm:

„Streng genommen wird für den Erwartungswert der w-Verteilung eine normalverteilte Grundgesamtheit der Einzelwerte vorausgesetzt. In Ermangelung einer geeigneteren Methode für die verteilungsfreie Berechnung der Fähigkeitskennwerte wird aber diese Voraussetzung nicht berücksichtigt.“ [S. 17, Fußnote 6]

Damit heißt die Methode zwar „verteilungsfrei“ und soll für „nicht definierte Verteilungsmodelle“ angewendet werden, tatsächlich wird aber die Normalverteilung als Verteilungsmodell verwendet.

Dann kann ich doch auch gleich mit den Normalverteilungs-Formeln rechnen und mir das Gewurschtel mit der Spannweite sparen.

Ich würde immer empfehlen, in die englischen Normen zur Prozessfähigkeitsbewertung zu schauen, wenn es um neue/andere Ideen zur Prozessfähigkeitsbewertung geht:

ISO/TR 22514-4:2007
Statistical methods in process management — Capability and performance — Part 4: Process capability estimates and performance measures (Beschreibung auf iso.org)

ISO/DIS 22514-2
Statistical methods in process management — Capability and performance — Part 2: Process capability and performance of time-dependent process models (Beschreibung auf iso.org)

Da stehen tatsächlich sinnvolle Sachen drin, die auch aus statistischer Sicht belastbar sind und damit eine sehr viel höhere Chance bieten, zuverlässige Fähigkeitskennzahlen zu liefern.

Viele Grüße

Barbara

_____________________________________

Eine gute wissenschaftliche Theorie sollte einer Bardame erklärbar sein.
(Ernest Rutherford, Physiker)

Stefan741
Mitglied

4. Januar 2016 um 22:11 Uhr

Beitragsanzahl: 46

#63034

Ich hole den Beitrag mal hoch, weil ich mich aktuell damit beschäftige.

Problematisch ist, dass die reellen Daten nicht den erwarteten Verteilungsformen entsprechen. In der Praxis kommen halt verschiedene Einflüsse zusammen.
Somit bräuchte ich irgend was verteilungsfreies, um Fähigkeitskennzahlen und mögliche Toleranzen abzuschätzen.
Autor

Beiträge