Log-Normalverteilung, Prozessfähigkeit2012-12-26T21:32:13+01:00

QM-Forum Foren Qualitätsmanagement Log-Normalverteilung, Prozessfähigkeit

Ansicht von 15 Beiträgen - 1 bis 15 (von insgesamt 18)
  • Autor
    Beiträge
  • Stefan741
    Mitglied
    Beitragsanzahl: 46

    Hallo zusammen,

    wie berechnet ihr Fähigkeitsindizes wie cp/cpk bei nicht normalverteilten Merkmalen?
    Gibt es da eine Excel-Formblatt, oder einen R-Code?
    Die Ursprungsdaten sind normalverteilt, werden aber durch eine Exponentialfunktion Log-Normalverteilt.

    Hier eine Datenreihe.
    L/mh 100 wdg
    14,78915032
    12,1445886
    14,85660611
    20,96656081
    18,51837621
    15,10693115
    19,08017642
    13,32666381
    16,50070424
    14,73288502
    14,87757875
    13,07735599
    20,08108717
    15,83213068
    12,11831189
    15,6578449
    21,85856577
    12,87900757
    14,61243668
    12,15075068
    31,63695415
    17,90778727
    15,09981758
    16,35371717
    16,7749179
    15,65802622
    16,21128869
    15,00141296
    24,8623803
    22,47723575

    Sollte man die Werte in eine Normalverteilung transformieren und dann konventionell berechnen?
    Ich suche da schon länger im Netz rum, konnte aber leider nichts verständliches finden.
    Vielleicht hat jemand von euch einen Link mit Praxisbeispielen.

    Gruß

    Stefan

    Barbara
    Senior Moderator
    Beitragsanzahl: 2766

    Hallo Stefan,

    Fähigkeitswerte für lognormalverteilte Werte lassen sich relativ einfach in R berechnen. Die Formeln dafür findest Du z. B. in der englischen Wikipedia: Log-normal distribution: parameter estimation.

    Etwas mehr zur Verwendung der Lognormal-Verteilung hab ich auch in dem Thread Berechnungsverfahren Fähigkeitsindex Excel/qs-STAT geschrieben. Um Unschärfen durch das Transformieren und Rück-Transformieren der Kennzahlen zu vermeiden, würd ich bei den Original-Werte (nicht-logarithmierte Werte) bleiben, weil durch den Logarithmus aus einer symmetrischen eine schiefe Verteilung wird.

    Das verändert auch die Fähigkeitswerte deutlich. In dem Beispiel-R-Code hab ich eine einseitige Begrenzung nach oben durch OSG=50 genommen. Wegen der einseitigen Grenze ist nur der Cpk.u (u: upper) berechenbar – aber den Rest kannst Du genauso hinbasteln, wenn Du ihn brauchst ;)

    ###################################

    daten = read.csv2(„Lognormal_Werte.csv“)
    summary(daten)

    Werte = subset(daten, daten[,1]>0)[,1]
    summary(Werte)
    # Werte stehen in Spalte 1 [,1]
    # es sollen nur nicht-fehlende Werte > 0 verwendet werden

    OSG = 50

    mwlog = sum(log(Werte))/length(Werte)
    sigma2log = sum((log(Werte)-mwlog)^2/length(Werte))
    sdlog = sqrt(sigma2log)
    mwlog
    sigma2log
    sdlog

    Cpk.logn.u=(OSG-qlnorm(.5,mwlog,sdlog))/(qlnorm(.99865,mwlog,sdlog)-qlnorm(.5,mwlog,sdlog))
    Cpk.logn.u

    # rechnen mit der Normalverteilung
    logWerte = log(Werte)
    logOSG = log(OSG)

    Cpk.nv.u=(logOSG-mean(logWerte))/(3*sd(logWerte))
    Cpk.nv.u

    ###################################

    Da gibt es einen deutlichen Unterschied in den Fähigkeitswerten:
    mit Lognormal: Cpk = 2,20
    mit Normal: Cpk = 1,67

    Die Lognormalverteilung ist wenig zuverlässig bei der Beschreibung von Messdaten für Fähigkeitswerte, deshalb würd ich die Variante mit der Normalverteilung wählen.

    Wie unterschiedlich die beiden Verteilungen aussehen, kannst Du mit folgendem R-Code darstellen (die Kennzahlen sind vorher aus den Messdaten berechnet worden, s. o.):

    ###################################

    xx = seq(0,55,length=1000)

    plot(xx,dnorm(xx,exp(mean(logWerte)),exp(sd(logWerte))), yaxs=“i“, ylim=c(0,max(dnorm(xx,exp(mean(logWerte)),exp(sd(logWerte))))*1.05), xlab=““, ylab=““, type=“n“, axes=FALSE)
    lines(xx, dnorm(xx,exp(mean(logWerte)),exp(sd(logWerte))), col=“blue“, lwd=2)
    lines(xx, dlnorm(xx,mwlog,sdlog), col=“seagreen“, lwd=2)
    abline(v=OSG, col=“red3″, lwd=2, lty=2)
    mtext(„OSG“, side=3, at=OSG, col=“red3″, cex=1.2, line=0)
    legend(„topleft“, col=c(„seagreen“,“blue“), lty=1, lwd=2, c(„logNormal“, „Normal“), bg=“white“, cex=0.8)
    axis(1)
    box()

    ###################################

    Viele Grüße

    Barbara

    PS: Interessante Fragestellung für den 2. Weihnachtstag ;)

    _____________________________________

    Eine gute wissenschaftliche Theorie sollte einer Bardame erklärbar sein.
    (Ernest Rutherford, Physiker)

    Stefan741
    Mitglied
    Beitragsanzahl: 46

    Hallo Barbara,

    ich habe wohl ein grundsätzliches Verständnisproblem und deshalb vermutlich die Frage falsch gestellt.
    Die Werte sind aus der Formel (X^-0,734)*196 entstanden.
    Da die Werte dadurch nicht normalverteilt sind, war die konventionelle Berechnung der Fähigkeitsindizes nicht zulässig, oder doch?
    Warum hast du die Werte mit e logarithmiert? Dadurch ist die Verteilung ja noch immer schief.

    Wenn ich für eine schiefe Verteilug den Fähigkeitsindex berechnen möchte, müsste ich doch erst mal den „Mittelwert“ berechnen.
    Dieser ist aber nicht das arithmetische Mittel, sondern der höchste Punkt der Kurve.
    Die Standardabweichung müsste dann zu einer Seite eine kleinere als zur anderen sein.
    Oder denke ich da zu kompliziert?

    Viele Grüße

    Stefan

    Stefan741
    Mitglied
    Beitragsanzahl: 46

    Jetzt habe ich mir nochmal die von Barbara im oben erwähnten Beitrag aufgeführten allgemeinen Formeln zur Berechnung von Fähigkeitsindizes angesehen. Langsam wird mir das ganze klarer.

    Das 50% Quantil wäre dann 15,66.

    Werde mich am Wochenende weiter damit beschäftigen.

    Stefan741
    Mitglied
    Beitragsanzahl: 46

    Hallo zusammen,

    jetzt habe ich mal ein bisschen mit Excel und R herumgerechnet.
    Daten = 14.27042, 15.53560, 14.57387, 18.26295, 18.07031, 16.98555, 16.71739, 15.00800, 16.01699, 15.30819, 13.98371, 14.68302, 14.66823, 16.64007, 15.18310, 14.81282, 17.46755, 15.87356, 15.60554, 17.20705, 16.15458, 15.44388, 14.47870, 15.15379, 16.84712, 16.11181, 15.02917, 15.22154, 18.78405, 15.02292
    OTG 19,319819590
    UTG 11,59189175

    Die Hypothese der Normalverteilung wurde zwar knapp nicht abgelehnt (Anderson-Darling-Test, Wahrscheinlichkeit p-Wert: 0.07135321), trotzdem ist die Verteilung schief.
    Deshalb habe ich jetzt verschiedene Varianten versucht, einen besser passenden Fähigkeitsindex zu ermitteln:

    1. Fähigkeitsindex zum Median
    Median: 15,49
    s: 1,295
    Cpko: 0,986
    Cpku: 1,004

    2. Fähigkeitsindex zum Median, aber mit s oben und s unten berechnet:
    s oben: 1,695
    s unten: 0,774
    Cpko: 0,753
    Cpku: 1,68

    3. Fähigkeisindex zum Mittelwert:
    Xqer: 15,84
    s: 1,246
    Cpko: 0,932
    Cpku: 1,136

    4. Fähigkeitsindex zum Mittelwert, mit s oben und s unten:
    s oben: 1,529
    s unten: 1,029
    Cpko: 0,759
    Cpku: 1,375

    5. Fähigkeitsindex mit Quantilen
    Q0,5: 15,49
    Q0,135: 14,66
    Q99,865: 18,76
    Cpko: 1,17
    Cpku: 4,699

    Nach den allgemeinen Formeln für Fähigkeitswerte von Barbara wäre die Variante 5 anzuwenden, da diese für alle Verteilungen gelten.
    Hier kommen mir die Cpk-Werte aber zu gut vor. Ich finde die Variante 2 passender.
    Ich hoffe, mit meinen Gedanken liege ich nicht komplett daneben. Was meint ihr?

    Viele Grüße
    Stefan

    Stefan741
    Mitglied
    Beitragsanzahl: 46

    In der QZ gibt es einen interessanten Artikel „Trügerische Fähigkeit“ zu dem Thema. Herunterladbar als PDF:

    („http://www.qz-online.de/qz-zeitschrift/archiv/artikel/faehigkeitskennzahlen-fuer-asymmetrische-verteilungen-truegerische-faehigkeit-339455.html?search.highlight=Tr%C3%BCgerische%20F%C3%A4higkeit“)

    geändert von – Stefan741 on 30/12/2012 12:30:33

    hans.damp
    Mitglied
    Beitragsanzahl: 7

    Moin Stefan,

    unter Annahme einer Normalverteilung spuckt mir das Programm qs-stat nach Barbaras Berechnungsmethode folgende Werte aus:

    Cp 0,77<1,03<1,30
    Cpk 0,66<0,92<1,19

    Wobei die äußeren Werte die Unsicherheit aufgrund der geringen Datenmenge angeben.

    Gruß

    Barbara
    Senior Moderator
    Beitragsanzahl: 2766

    Hallo hans.damp,

    der Hinweis, dass das zu wenig Werte für eine belastbare Fähigkeitsbewertung sind, ist richtig.

    Allerdings gibt es für nicht-normale Verteilungen keine Möglichkeit, einen Unsicherheitsbereich zu berechnen, auch wenn solche Zahlen in qs-stat oder anderen Programmen auftauchen. (In Minitab gibt es diese Werte nicht, wenn die Messdaten nicht normalverteilt sind.)

    Es gibt zwar Möglichkeiten, Unsicherheitsangaben für nicht-normalverteilte Werte z. B. über Bootstrap-Verfahren zu ermitteln, das hat aber nichts mit dem Berechnen über eine Formel zu tun. Nachlesen kannst Du das z. B. in Kapitel 5 „Fähigkeitsmessung bei nicht-normalverteilten Qualitätsdaten“ in dem Buch

    Mittag, Hans-Joachim ; Rinne, Horst: Prozeßfähigkeitsmessung für die industrielle Praxis. München, Wien: Hanser Verlag, 1999. -ISBN 978-3-446-21117-9. S. 1-480

    Der letzte Satz in diesem Kapitel ist (S. 322):
    „Wenn auch Bootstrapping keine perfekte Technik ist, sollte man sie doch einsetzen, um wenigstens eine ungefähre Größenordnung der Zufallsvariation der PFI-Schätzung [PFI: Prozess-Fähigkeits-Index] in jenen Situationen zu gewinnen, in denen die Normalverteilung für das Qualitätsmerkmal nicht gesichert ist.“

    Die Aussage, dass die Formeln für die Unsicherheitsbereiche bzw. Konfidenzintervalle nur und ausschließlich für normalverteilte Messdaten anwendbar sind, findet sich auch in dem Buch

    Montgomery, Douglas C.: Introduction to Statistical Quality Control. 6. Aufl. Hoboken NJ: John Wiley , 2008. -ISBN 978-0-4-70-16-9. S. 1-734
    p.359f.

    Viele Grüße

    Barbara

    _____________________________________

    Eine gute wissenschaftliche Theorie sollte einer Bardame erklärbar sein.
    (Ernest Rutherford, Physiker)

    Stefan741
    Mitglied
    Beitragsanzahl: 46

    Hallo Barbara und Jan,

    vielen Dank für die Rückmeldungen.

    Dass die Anzahl der Werte für eine belastbare Aussage nicht ausreicht, ist mir schon klar.
    Die Werte sind auch keine gemessenen, sondern von mir generierte (habe Urlaub und gerade keinen Zugriff auf Messwerte).
    Trotzdem entsprechen die Werte der Praxis bei uns, auch hinsichtlich der Anzahl. Oft müssen wir schon aufgrund einer Musterserie von ca. 30 Stück Aussagen zur Prozessicherheit in der Serie machen (Stichwort: Fähigkeitsindex Cp, Cpk). Dann gibt es höchstens noch eine Vorserie von 200 bis 400 Stück zur weiteren Absicherung.
    In der Serie gibt es dann eine 100%-Prüfung. Das heißt, wenn die Prozesssicherheit nicht stimmt, produzieren wir Ausschuss aber der Kunde kriegt keine fehlerhaften Teile.

    Die gemessenen Werte können unter bestimmten, bekannten Voraussetzungen nicht normalverteilt sein.
    Mit den herkömmlichen Berechnungen schätzen wir die Prozessfähigkeit in eine Richtung oft zu gut, in die andere zu schlecht ein.
    Deshalb bin ich auf der Suche nach einer Möglichkeit, die Fähigkeitsindizes genauer abzuschätzen.

    Dabei habe ich mir die von Barbara zitierten allgemeinen Formeln zur Fähigkeitsuntersuchung angeschaut und damit herumgerechnet.
    Hier bin ich der Meinung, dass man damit eine viel größere Unsicherheit in Kauf nehmen muss, als wenn man mit Streuungsparametern unter Berücksichtigung der Einzelwerte rechnet.

    Was haltet ihr davon, die Standardabweichung 2x zu berechnen:
    – Standardabweichung zum Median: Alle Abweichungen der Einzelwerte kleiner Median.
    – Standardabweichung zum Median: Alle Abweichungen der Einzelwerte größer Median.
    „n“ kann dabei natürlich nur die Anzahl der Werte sein, welche über oder unter dem Median liegen.

    Viele Grüße

    Stefan

    Barbara
    Senior Moderator
    Beitragsanzahl: 2766

    Hallo Stefan,

    wenn es technisch sinnvoll ist, die Daten in eine Normalverteilung zu transformieren, würd ich das machen, schon um auch die Unsicherheitsbereiche für die Fähigkeitswerte berechnen zu können. Das finde ich insbesondere bei kurzen Messreihen / wenigen Daten extrem wichtig, um die Schein-Sicherheit sichtbar zu machen.

    Streuung lässt sich unterschiedlich definieren (vgl. Wikipedia Streuung, z. B. MD und MAD). Das Problem bei abweichenden Formeln ist, dass Du damit nicht den 3S-Bereich bestimmst, sondern einen anderen Bereich.

    Damit sind die berechneten Werte nicht mehr mit den üblichen Fähigkeitskennzahlen vergleichbar und die Aussagen zu ppm bzw. Ausschuss können auch nicht mehr so einfach angegeben werden.

    Wichtig ist natürlich immer zu prüfen, ob die angenommene Verteilung auch in den Messdaten steckt (egal ob Lognormal- oder Normal- oder eine andere Verteilung).

    Viele Grüße

    Barbara

    _____________________________________

    Eine gute wissenschaftliche Theorie sollte einer Bardame erklärbar sein.
    (Ernest Rutherford, Physiker)

    hans.damp
    Mitglied
    Beitragsanzahl: 7

    Hallo,

    mir fällt spontan noch ein Vorgehen nach einer VW-Norm ein, welche u.a. die Ermittlung von Fähigkeitskennzahlen bei nicht definierten Verteilungsmodellen beschreibt.
    Allerdings gilt auch hier was Barbara zu der Vergleichbarkeit geschrieben hat.

    Bei Bedarf kann ich dir die Gleichung mal per Mail weiterleiten.

    MfG
    Jan

    Barbara
    Senior Moderator
    Beitragsanzahl: 2766

    Hallo Jan,

    hast Du für die Berechnungs-Art ein Stichwort (z. B. Pearson, Clements)?

    Viele Grüße

    Barbara

    _____________________________________

    Eine gute wissenschaftliche Theorie sollte einer Bardame erklärbar sein.
    (Ernest Rutherford, Physiker)

    hans.damp
    Mitglied
    Beitragsanzahl: 7

    Hallo Barbara,

    ne ein Stichwort kann ich nicht nennen.
    Das Verfahren ist in der „Konzernnorm VW 10130“ beschrieben und berechnet in Abhängigkeit des Stichprobenumfangs mit der W-Verteilung und denn Spannweiten den Fähigkeitsindex.

    MfG

    Barbara
    Senior Moderator
    Beitragsanzahl: 2766

    Hallo Jan,

    ach so, die VW Konzernnorm 10130. Die von 2005-02 ist auch in dem Buch von Dietrich & Schulze abgedruckt (S. 661ff.):

    Dietrich, Edgar ; Schulze, Alfred: Statistische Verfahren 6. Aufl.. 6. aktualisierte Auflage. München, Wien: Hanser Verlag, 2009. -ISBN 978-3-446-41525-6. S. 1-722

    Die Grundidee ist, die Streuung mit der Spannweite R zu ermitteln. Das ist problematisch, weil die Spannweite ausschließlich den kleinsten und den größten Wert berücksichtigt. Wie die Werte dazwischen aussehen, ist egal.

    Ein kleines Beispiel:
    Reihe 1: 2 11 11 11 11 11 11 11 11 20
    Reihe 2: 2 2 2 2 2 20 20 20 20 20
    Reihe 3: 2 4 6 8 10 12 14 16 18 20

    Alle drei Reihen haben dieselbe Spannweite R=20-2=18 und denselben Mittelwert xquer=11. Ich bezweifel allerdings, dass die Fähigkeiten der dazu gehörenden Prozess auch nur annähernd ähnlich ist.

    Die Standardabweichung S zeigt für dieses Beispiel sehr viel deutlicher, dass das Streuverhalten unterschiedlich ist:
    Reihe 1: 4,25
    Reihe 2: 9,49
    Reihe 3: 6,06

    Deshalb ist die Spannweite auch für 3 oder mehr Messwerte weniger informativ als die Standardabweichung und alle anderen Maße, die mit den ganzen Einzelwerten rechnen. (Bei 2 Messwerten ist die Spannweite identisch mit der Standardabweichung, aber 2 Werte sind definitiv zu wenig für Fähigkeitsbewertungen.)

    Neben dem geringen Informationsgehalt der Spannweite gibt es ein weiteres Problem bei der Ermittlung der Streubereichsgrenzen über die Spannweite: Es existiert keine Verteilung, auf deren Basis die Unsicherheit der Spannweite ermittelt werden kann. Alle Abschätungen (auch die mit „w“) sind empirisch ermittelt worden.

    Und die Grenzwerte, die über w bzw. den Erwartungswert der w-Verteilung d bestimmt werden, sind auch nur für normalverteilte Werte halbwegs belastbar. Das steht so auch als Anmerkung in der VW Norm:

    „Streng genommen wird für den Erwartungswert der w-Verteilung eine normalverteilte Grundgesamtheit der Einzelwerte vorausgesetzt. In Ermangelung einer geeigneteren Methode für die verteilungsfreie Berechnung der Fähigkeitskennwerte wird aber diese Voraussetzung nicht berücksichtigt.“ [S. 17, Fußnote 6]

    Damit heißt die Methode zwar „verteilungsfrei“ und soll für „nicht definierte Verteilungsmodelle“ angewendet werden, tatsächlich wird aber die Normalverteilung als Verteilungsmodell verwendet.

    Dann kann ich doch auch gleich mit den Normalverteilungs-Formeln rechnen und mir das Gewurschtel mit der Spannweite sparen.

    Ich würde immer empfehlen, in die englischen Normen zur Prozessfähigkeitsbewertung zu schauen, wenn es um neue/andere Ideen zur Prozessfähigkeitsbewertung geht:

    ISO/TR 22514-4:2007
    Statistical methods in process management — Capability and performance — Part 4: Process capability estimates and performance measures (Beschreibung auf iso.org)

    ISO/DIS 22514-2
    Statistical methods in process management — Capability and performance — Part 2: Process capability and performance of time-dependent process models (Beschreibung auf iso.org)

    Da stehen tatsächlich sinnvolle Sachen drin, die auch aus statistischer Sicht belastbar sind und damit eine sehr viel höhere Chance bieten, zuverlässige Fähigkeitskennzahlen zu liefern.

    Viele Grüße

    Barbara

    _____________________________________

    Eine gute wissenschaftliche Theorie sollte einer Bardame erklärbar sein.
    (Ernest Rutherford, Physiker)

    Stefan741
    Mitglied
    Beitragsanzahl: 46

    Ich hole den Beitrag mal hoch, weil ich mich aktuell damit beschäftige.

    Problematisch ist, dass die reellen Daten nicht den erwarteten Verteilungsformen entsprechen. In der Praxis kommen halt verschiedene Einflüsse zusammen.
    Somit bräuchte ich irgend was verteilungsfreies, um Fähigkeitskennzahlen und mögliche Toleranzen abzuschätzen.

Ansicht von 15 Beiträgen - 1 bis 15 (von insgesamt 18)
  • Sei müssen angemeldet sein, um auf dieses Thema antworten zu können.
Nach oben