Statistik / Anova

Ansicht von 13 Beiträgen - 1 bis 13 (von insgesamt 13)

Autor

Beiträge
Rainaari
Teilnehmer

6. Mai 2008 um 15:22 Uhr

Beitragsanzahl: 630

#23493

Servus,

ich untersuche gerade einen Produktionsprozeß, der unrund läuft. Vermutlich ist für die Unrundheit eine Varianz eines Rohstoffs verantwortlich, welche sich abhängig vom Herstellungstag ändert.

Um dies zu prüfen, haben wir das Material bewusst nicht in der Reihenfolge der Herstellungstage, sondern getrennt verarbeitet, jedoch nur einen Herstellungstag pro Batch.

Ich habe dann über 85 Batches eine Multifaktor Anova mit dem Kennparameter als abhängiger Variable gerechnet. Hierbei besteht die Möglichkeit, die Parameter als ‚Factors‘ oder als ‚Covariates‘ anzugeben. Gebe ich
das Herstellungsdatum und die Batchnummer als Factors an, bricht die Rechnung mit dem Hinweis auf eine Linearkombination ab. Durch das Versuchsdesign sollte dies ‚eigentlich‘ ausgeschlossen sein.

Gebe ich wahlweise die Batchnummer oder den Herstellungstag als Factor und den anderen als Covariate an, bekomme ich für den jeweiligen Factor ein p von 0,00 und für die Covariate ein p von 0,03 (Batch) bzw. 0,33 (Herstellungstag).

Ich will wissen, ob der Einfluss des Batches oder der des Herstellungstages (des Rohstoffes) einen Einfluss auf das Prozeßergebnis haben. Was mache ich hier verkehrt, bzw. was sagen mir die ermittelten Zahlen?

Nach einer ersten Analyse (Excel, Histogramm) gibt es einen Einfluss des Herstellungstages, allerdings ist auch die Batch-to-Batch Varianz nicht zu verachten…

Barbara
Senior Moderator

6. Mai 2008 um 16:07 Uhr

Beitragsanzahl: 2766

#51270

Hallo Rainaari,

wie schön, eine Statistik-Frage :)

Blöd ist nur, dass ich gerade ein bisschen auf dem Schlauch stehe, was ihr da eigentlich gemacht habt. Ich versuch das mal wiederzugeben:

1. Schritt: Material herstellen

Rohstoff-Varianz ist abhängig vom Herstellungstag. Gemessen / Aufgeschrieben: Herstellungstag, nicht aufgeschrieben: Rohstoffqualität (oder was sonst variiert)

2. Material verarbeiten

Batchproduktion, je ein Herstellungstag pro Batch verwendet. Aufgeschrieben: Batchnr. und Prozess-Kenngröße

Wenn ich das richtig verstanden habe, dann ist es logisch, dass das Modell zusammenbricht: Die Informationen in den Merkmalen „Herstellungstag“ und „Batch“ sind identisch, d. h. mathematisch unzertrennlich (Herstellungstag=Batch). Beim Versuch, die beiden Merkmale getrennt voneinander zu schätzen, fehlen dem Modell Informationen, weil die Merkmale verbunden sind und es bricht zusammen.

Der Ausweg über die Faktoren bzw. Kovariaten funktiniert deshalb, weil Du damit dem Modell die Information übergibst, dass es sich bei den beiden Merkmalen um unterschiedliche (trennbare) Informationen handelt. Das wäre sinnvoll, wenn es z. B. einen zeitlichen Trend gäbe (z. B. Anstieg der Prozess-Kenngröße über die Versuchs-Zeit).

Wenn Du beispielsweise Tag als Kovariate nimmst und Batchnr. als Faktor, dann sagen Dir die p-Werte folgendes:
Tag: p=0,33 > 5%
Batchnr: p=0,03 < 5%

p ist im Modell (wie ANOVA oder allgemein GLM / SPM) die Wahrscheinlichkeit, dass die Nullhypothese / Annahme für die Messwerte stimmt. Die Annahme im Modell ist immer „Merkmal ist unwichtig für das Prozess-Ergebnis“, d. h.

p groß (p > 5%):
-> Wahrscheinlichkeit für Annahme ist groß
-> Annahme wird beibehalten
-> Merkmal ist unwichtig für Prozess-Ergebnis

p klein (p > 5%):
-> Wahrscheinlichkeit für Annahme klein
-> Annahme wird abgelehnt
-> Merkmal ist wichtig für Prozess-Ergebnis

d. h. für die Beispiel-p-Werte

Tag: p=0,33 > 5%
Merkmal Tag (als Kovariate) ist unwichtig für die Prozess-Kenngröße, es gibt keinen linearen Trend über die Zeit

Batchnr: p=0,03 < 5%
Merkmal Batchnr (als Faktor / Gruppenmerkmal) ist wichtig für die Prozess-Kenngröße, d. h. die Unterschiede zwischen den Batches sind signifikant.

Wie gesagt, ob das eine sinnvolle Modell-Spezifizierung mit Kovariate und Faktor ist, obwohl beide Merkmale dieselbe Information enthalten, steht auf einem anderen Blatt.

Um tatsächlich den Einfluss des Herstellungstages vom Batch zu trennen, hättet Ihr zumindest in einigen Batches unterschiedliche Herstellungstage verarbeiten müssen. Damit wäre dann ein geschachteltes Modell für die Prozess-Kenngröße entstanden.

Was vielleicht als Kovariate noch sinnvoll sein könnte, wenn das Alter des Materials eine Rolle spielt, ist der Abstand zwischen Herstellungs- und Verarbeitungstag.

Ich hoffe, ich hab Deine Frage richtig verstanden und halbwegs nachvollziehbar beantwortet.

Viele Grüße

Barbara

_____________________________________

Eine gute wissenschaftliche Theorie sollte einer Bardame erklärbar sein.
(Ernest Rutherford, Physiker)

Rainaari
Teilnehmer

6. Mai 2008 um 17:13 Uhr

Beitragsanzahl: 630

#51274

Hallo Barbara,

vielen Dank für die fixe Antwort.

Ich habe mir schon gedacht, daß Batchnummer und Herstellungstag zu Verwirrungen führen können. Die Batchnummer bezieht sich auf unseren Herstellungsprozeß, der Herstellungstag auf den Prozeß unseres Lieferanten. Der Lieferant erhebt gewisse Parameter tagesbezogen und stellt uns diese auch tagesbezogen zur Verfügung (Maße, Gewicht, pH Werte…)
Der Prozeß des Lieferanten liefert ‚viel‘ Material, d. h. ein Herstellungstag des Lieferanten reicht für 5 – 10 Batches bei uns. Eigentlich sollte daher keine lineare Korrelation zwischen beiden bestehen.

Wir haben zwischenzeitlich auch Material aus verschiedenen Herstellungstagen gemischt und sind erst kürzlich auf die tagesreine Verarbeitung gegangen, um die Varianz innerhalb eines Batches zu verringern, leider ohne Erfolg.

Wenn ich jetzt mit den zusätzlichen Werten wie Maßen und Gewichten rechnen will, sollte ich diese nun als Faktoren oder als Covariaten werten und warum?

Da du jetzt meine Befürchtung bestätigt hast, daß unsere Batchvarianz einen stärkeren Einfluss auf das Ergebnis hat als die Varianz des Lieferanten, darf ich den wohl nicht mehr so hauen sondern muß erstmal intern weiter schauen :/

Barbara
Senior Moderator

6. Mai 2008 um 19:03 Uhr

Beitragsanzahl: 2766

#51278

Hallo Rainaari,

ich bin verwirrt.

Wenn Du doch diese ganzen schönen Merkmale vom Lieferanten hast wegen der Herstellungs-Parameter, warum wirfst Du diese Informationen weg, indem Du sie unter dem Merkmal „Herstellungstag“ zusammenfasst?

Ich meinte nicht, dass Herstellungstag=Batch eine Korrelation ist, sondern dass in beiden Merkmalen die gleiche Information steht. Ob ich das Batch mit dem Material vom 25.01. „Batchnr. 123“ nenne oder „Herstellungsdatum 25.01.“ macht keinen Unterschied. Beide Begriffe sind austauschbar und damit im Modell untrennbar.

Wenn Ihr allerdings für verschiedene Batches das gleiche Material vom 25.01. verwendet und dieses Material zeitstabil ist, dann bringt Ihr selbst durch die Batch-Herstellung die größte Streuung mit rein. (Also nix Lieferanten hauen!)

Bei der Modellierung wird unterschieden zwischen Faktoren (attributiven Merkmalen wie Batchnr., Rohstoff a/b/c, usw.) und Kovariaten (variablen Merkmalen wie Gewicht, ph-Wert, Datum / Zeit). Diese Unterscheidung ist notwendig, da attributive Merkmale nur bestimmte Niveaus / Klassen / Gruppen haben und keine Zwischenwerte, während variable Größen alle möglichen Werte annehmen können.

Hilfreich ist es für die Analyse komplexer Daten eine Übersichts-Tabelle zu basteln, in der alle Merkmale mit ihrer Einstufung drinstehen und auch mit üblichen Werten / Wertebereichen und den tatsächlichen Werten im Datensatz.

Mit welcher Software machst Du das denn? Sinnvoll wäre es nämlich auch, im Anschluss an die ANOVA eine Modell-Validierung zu machen um zu schauen, wie gut Dein Modell ist und ob Du die Ursachen für die Streuung wirklich gefunden hast.

Viele Grüße

Barbara

_____________________________________

Eine gute wissenschaftliche Theorie sollte einer Bardame erklärbar sein.
(Ernest Rutherford, Physiker)

Rainaari
Teilnehmer

7. Mai 2008 um 18:55 Uhr

Beitragsanzahl: 630

#51296

Hallo Barbara,

tut mir leid wegen der späten Antwort, ich mußte erst ‚Hausaufgaben‘ machen.

Wenn ich das richtig verstanden hab, sind Faktoren also diskontinuierliche oder attributive Merkmale (Batchnummer, Farbe wie ‚blau‘, ‚Rot’…) und Kovariaten kontinuierliche Merkmale (Gewicht, Länge, pH-Wert..).

Ich habe meine Meßdaten mal aufgebröselt und den einzelnen Meßwerte des Zielwertes unsere und des Lieferanten Daten zugeordnet. Siehe da, Anova bringt Ergebnisse :) Ich habe zwei Kovariaten mit p < 0,05, die auch plausibel erscheinen.
Leider ist unsere Batchnummer noch immer die Variable mit dem größten Einfluss (p=0,0000), hier sollte ich mal Kenndaten der Messung mit einbauen.

Die Merkmale Batch und Herstellungstag habe ich aufgenommen, um zufällige Ereignisse bei uns (Batch) und beim Lieferanten (Herstellungstag) erfassen zu können. Interessanterweise wird der Herstellungstag des Lieferanten immer noch als Linearkombination anderer Faktoren angegeben, egal ob unsere Batchnummer mitberücksichtigt wird oder nicht.

Die Software welche wir einsetzen ist Statgraphics Plus 5.1 in der Quality & Design Edition. Leider läßt mich diese kein GLM rechnen – ist wohl ein Feature einer anderen Edition :/ Gerechnet habe ich eine ‚Multifactor Anova‘.
Ich habe zur Zeit 350 vollständige Datensätze mit jeweils 18 Parametern, welche allerings nicht alle unabhängig voneinander sind; effektiv bleiben 6 Parameter übrig (plus Zielparameter)

Barbara
Senior Moderator

8. Mai 2008 um 8:43 Uhr

Beitragsanzahl: 2766

#51298

Hallo Rainaari,

es freut mich, dass Dein Modell jetzt sinnvollere Ergebnisse liefert :)

Das mit den Faktoren und Kovariaten hast Du richtig verstanden. Und die Kenndaten der Messung innerhalb eines Batches hinzuzunehmen ist eine gute Idee. Die dürften Dich auch weiter bringen bei der Frage, warum die Prozess-Kenngröße so ist wie sie ist.

Warum der Herstellungstag immer noch eine Linearkombination ist, kann ich Dir leider nicht erklären. Dazu müsste ich Deine Daten mal sehen. Das Menü „Multifactor ANOVA“ könnte daran schuld sein, weil es nur mit gekreuzten (crossed) Faktoren arbeiten kann und nicht mit geschachtelten (nested). Laut der Statgraphics-Homepage kann Statgraphics Plus 5.1 Professional auch General Linear Models / GLMs; ich hab allerdings nix zum Umfang der Quality & Design Edition gefunden. Den Unterschied zwischen den beiden Menüs erklärt Statgraphics hier und es klingt für mich so, als wäre das bei Dir der springende Punkt mit den nested factors.

Das mit den unabhängigen und abhängigen Parametern hab ich ehrlich gesagt noch nicht so ganz verstanden. Ein Modell kann hierarchisch aufgebaut werden, d. h. mit Schachtelung. Wenn zwei Parameter zusammen die Zielgröße anders verändern als wenn sie alleine wirken, kann das als Wechselwirkung/Interaktion im Modell stehen. Viel mehr Abhängigkeit der Parameter fällt mir nicht so richtig ein, allerdings weiß ich nicht, in wieweit Statgraphics diese Art der Modellierung unterstützt.

Hilfreich für den Aufbau eines Modells ist es, zuerst mal ohne Statistik zu überlegen, welche Parameter geschachtelt sind und ob es Wechselwirkungen zwischen den Paramteren gibt. Nett und anschaulich ist dafür ein Baumdiagramm, in das zusätzliche Verbindungspfeile für die Wechselwirkungen der Parameter untereinander eingezeichnet werden.

Bei Dir könnte z. B. die erste Ebene unter der Zielgröße die beiden Punkte „Herstellungstag“ und „Batchproduktion“ haben. Mit so einem Baumdiagramm lässt sich die Modell-Struktur leichter angeben und damit dann auch umsetzen (jedenfalls wenn die Software das hergibt, Minitab und R haben damit keine Probleme).

Viele Grüße

Barbara

_____________________________________

Eine gute wissenschaftliche Theorie sollte einer Bardame erklärbar sein.
(Ernest Rutherford, Physiker)

Uhu
Teilnehmer

8. Mai 2008 um 9:59 Uhr

Beitragsanzahl: 265

#51300

Hallo, Rainaari, hallo Barbara,

jetzt spreche ich als Ingenieur: Da scheint mir ein logischer Fehler zu sein.
Ich wittere da auch eine Nebenwirkung komfortabler Statistikprogramme – ohne analytisches Verständnis können die schönsten Ergebnisse trotzdem Murks sein. Statistik kann Analytik wohl gut unterstützen, aber niemals ersetzen.

Aufgefallen war mir hier ein Widerspruch:
a)Rainaari: „Wenn ich das richtig verstanden hab, sind Faktoren also diskontinuierliche oder attributive Merkmale (Batchnummer, Farbe wie ‚blau‘, ‚Rot’…) und Kovariaten kontinuierliche Merkmale (Gewicht, Länge, pH-Wert..).“
b) Barbara: „Das mit den Faktoren und Kovariaten hast Du richtig verstanden.“

Mag schon sein, daß das Statistikprogramm dies so versteht.

Als Ingenieur frage ich aber typischerweise „wie funktioniert das?“, und dann sind Bezeichnungen für mich Schall und Rauch, ich verstehe nur das, was ich vor meinem inneren Auge ablaufen sehe.

Hier die Frage „wie funktioniert das?“ zu folgenden Punkten:
* wie funktioniert Dein Produkt, Rainaari. Heißt: Ich betrachte Dein Produkt als System. Dessen Systemelemente wirken aufeinander und bewirken die Fähigkeiten des Systems. Hier vermute ich mal, eine Membrane soll Moleküle mit bestimmten Eigenschaften unterscheiden von anderen. Da vermute ich also Wechselwirkungen zwischen Molekülen in der Membrane und solchen in Flüssigkeit oder Gas.
* Wie funktioniert der Qualitätsmangel? Heißt: In den mangelhaften Probemengen des Produkts wirkt eine Fähigkeit eines Systemelements (oder mehrerer) nicht wie gewünscht, sondern anders. Aber wie anders?

Mit dieser Betrachtung haben Merkmale wie „Batchnummer, Farbe wie ‚blau‘, ‚Rot'“ genausoviel Wirkung auf die Produktqualität wie Sternzeichen und Aszendent. Nämlich Null.
Sie mögen zur Identifizierung der guten und schlechten Probemengen taugen, dürfen aber in keiner Gleichung zur Berechnung eines Produktmerkmals auftauchen.

Ciao
Wolfgang Horn

Barbara
Senior Moderator

8. Mai 2008 um 10:25 Uhr

Beitragsanzahl: 2766

#51301

Hallo Uhu,

jetzt hast Du mich abgehangen: Woher kommt Deine Idee mit den Membranen und Molekülen? Davon hat Rainaari überhaupt nix geschrieben.

Ansonsten meinen wir (wenn ich das richtig verstanden habe) das Gleiche, auch wenn wir unterschiedliche Methoden verwenden. Es geht darum, das System zu erklären und die wichtigen Einflüsse auf das Prozess-Ergebnis zu finden.

Die statistischen Modelle liefern dafür Entscheidungskriterien, ob ein Einfluss wichtig ist und quantifizieren die Größe des Einflusses. Das ist gegenüber der ausschließlich logischen Herangehensweise nach GMV (was beeinflusst mein Prozess-Ergebnis) ein zusätzlicher Erkenntnisgewinn. GMV-Einsatz ist für die richtige Anwendung von statistischen Methoden immer die Voraussetzung.

Ein einfaches Beispiel für einen Prozess, in dem die Unterscheidung zwischen Faktor und Kovariate wichtig ist, ist dies hier:

Prozess: Nagel in Balken hämmern
Zielgröße: Einschlagtiefe (soll maximiert werden)
Einflussgrößen: Schlagkraft, Gewicht Hammer

Es gibt natürlich noch weitere mögliche Einflüsse wie Abstand Hammer-Nagel, Eigenschaften des Balkens, Eigenschaften des Nagels, usw. Die werden der Einfachheit halber für dieses Beispiel als konstant angenommen und können natürlich in einem echten Modell berücksichtigt werden.

Modell für den Prozess:
Zielgröße ~ f(Einflussgrößen)

d. h. für das Beispiel:
Einschlagtiefe ~ Schlagkraft + Gewicht_Hammer + Schlagkraft*Gewicht_Hammer
(der letzte Term ist die Wechselwirkung zwischen Schlagkraft und Gewicht Hammer)

Ich kann die Einflussgröße „Gewicht Hammer“ sowohl als Faktor ins Modell stecken als auch als Kovariate. Als Faktor hätte ich Angaben wie „schwer“ „mittel“ „leicht“. Als Kovariate hätte ich Angaben in g, z. B. „200 g“, „400 g“, „1000 g“. Das ist informations-technisch gesehen natürlich ein Unterschied, der dem Modell auch gesagt werden muss. Und genau darum ging es bei der Unterscheidung zwischen Faktor und Kovariate.

Das Modell liefert mir dann Aussagen dazu, ob in den Daten ein wichtiger (signifikanter) Einfluss durch die Schlagkraft, das Gewicht des Hammers und/oder die Wechselwirkung zwischen Schlagkraft und Gewicht steckt. Zusätzlich quantifiziert das Modell den Einfluss, d. h. ich kann ausrechnen wie sich die Einschlagtiefe verändert, wenn ich die Schlagkraft um 5 Newton erhöhe oder einen schwereren Hammer verwende.

Und wenn ich dann mein Modell habe und es validiert ist (Stichworte Anpassungsgüte, Residualanalyse), dann muss ich *immer* noch das Experten-Wissen nehmen und schauen, ob die gefundenen Ergebnisse auch mit GMV erklärbar sind oder ob das Ergebnis „ein roter Hammer hat eine höhere Einschlagtiefe als ein blauer Hammer“ auf den ersten Blick Unsinn ist. Ich kann mir dann aber einen Gedanken dazu machen, warum ein roter und ein blauer Hammer zu unterschiedlichen Einschlagtiefen führen (z. B. unterschiedliche Bauweisen, Stillänge, usw.) – und damit dann tatsächlich das System verstehen und im nächsten Schritt optimieren.

Viele Grüße

Barbara

_____________________________________

Eine gute wissenschaftliche Theorie sollte einer Bardame erklärbar sein.
(Ernest Rutherford, Physiker)

Rainaari
Teilnehmer

8. Mai 2008 um 10:53 Uhr

Beitragsanzahl: 630

#51303

Ui, so viele Antworten… ,)

Aaalso:

Abhängige / Unabhängige Parameter: Der Lieferant liefert mir beispielsweise die Merkmale ‚Innendurchmesser‘, ‚Außendurchmesser‘ und ‚Wandstärke‘. Der Außendurchmesser ist der Innendurchmesser + 2x Wandstärke. Des weiteren beeinflusst eine größere Wandstärke auch das Gewicht der Teile (zusammen mit der Dichte, welche sich aus Materialdichte und Membranporosität zusammen setzt)…

Wir haben seinerzeit Statgraphics angeschafft, weil es nicht so komplex sei wie SPSS, R, und wie die ganzen Tools so heissen. Irgendwo hat das Programm dann allerdings seine Grenzen, eine davon scheint die Modellierung zu sein. SG kann auch mit ’nested Factors‘ arbeiten, allerdings stecke ich da noch nicht so tief drin.

Wolfgang:

Danke für den Anruf, der kam ziemlich überraschend ,) Das mit den Membranen hat gut getroffen, woher weisst du?

Die Farben hatte ich erwähnt, weil ich aus dem Stegreif Beispiele für diskontinuierliche Merkmale gesucht habe. Natürlich sollten die Faktoren in der Rechnung einen Einfluss auf das Ergebnis haben, z. B. Materialtypen oder Molekulargewichte des verwendeten Polymers. Die Batchnummer als Faktor soll den zufälligen Einfluss (Mitarbeiter, Messung, Varianzen in der Reaktionszeit…)

gruß, Rainer

Uhu
Teilnehmer

8. Mai 2008 um 12:48 Uhr

Beitragsanzahl: 265

#51304

Hi, Barbara,

Danke für Dein simples Beispiel „Hammer“.
Ich liebe einfache Beispiele, die mit schlagenden Argumenten treffen :-).

Die Optimierung des Hämmerns ist ein mechanisches Problem.
Die Statistik ist unstrittig nützlich beim Sortieren der Phänomene und Symptome zur Modellierung der Ketten von Ursache und Wirkung.

Du: „Woher kommt Deine Idee mit den Membranen und Molekülen?“

Schau mal nach dem Namen seiner Firma.

Du: „Es geht darum, das System zu erklären und die wichtigen Einflüsse auf das Prozess-Ergebnis zu finden.“

Zustimmung, wenn Du mit „erklären“ auch modellieren im naturwissenschaftlichen Sinne meinst.

Du: „Die statistischen Modelle liefern dafür Entscheidungskriterien,…“

Ja.

Du: „GMV-Einsatz ist für die richtige Anwendung von statistischen Methoden immer die Voraussetzung.“

Nicht nur. Ein System können wir erst dann als verstanden erklären, wenn wir eine Anleitung zum Handeln schreiben, es danach neu aufbauen können – und es funktioniert.
Das ist ein bißchen mehr als GMV.

Zum Hammer.

Du: „Ich kann die Einflussgröße „Gewicht Hammer“ sowohl als Faktor ins Modell stecken als auch als Kovariate. Als Faktor hätte ich Angaben wie „schwer“ „mittel“ „leicht“. Als Kovariate hätte ich Angaben in g, z. B. „200 g“, „400 g“, „1000 g“.“

Für solch ein mechanisches Problem kommt nur das Gewicht in Gramm als Faktor in Frage.

Wer das Gewicht als Kovariante eingibt, den wird ein gutes Statistik-Programm wohl Korrelationen zeigen, die ihn seinen Irrtum erkennen lassen.

Wenn ich Rainaaris Problem nun mit meinen Kenntnissen über Adsorption und Membranen betrachte, dann kommt mir das ähnlich mysteriös vor wie die Bierbraukunst vor der Entdeckung des Mikroskops – im alten Bierbraugemäuer schäumt die Maische, im neuen Gebäude werden dieselben Ausgangsstoffe verwendet, aber die Maische stinkt.
Damals hätte man mit Statistik den Einflußfaktor „Hefe“ auch nicht finden können – aber die Statistik hätte helfen können zu erkennen, der entscheidende unbekannte Einflußfaktor hat weniger mit dem alten Gemäuer zu tun, als eher mit „Bierbrauerei in der Vergangenheit“.

Contergan – der Stoff wurde erst gefährlich, nachdem ein neuer Produktionsprozeß dem Molekül eine andere Drehung gab als den ausgetesten Chargen. War mit chemischer Analyse nicht erkennbar, erst später gab’s die geeigneten Analysegeräte.

Ranaari, zu Eurem Problem – ich wünsche Euch (enschließlich Eures Lieferanten), Ihr findet Eure Hefezellen, gedrehten Moleküle oder was immer den Unterschied ausmacht.

Ciao
Wolfgang Horn

Rainaari
Teilnehmer

8. Mai 2008 um 18:53 Uhr

Beitragsanzahl: 630

#51313

Servus,

ich noch mal.

Ich denke, mir ist inzwischen zur Multifaktor Anova und meinen Linearen Abhängigkeiten einiges aufgefallen:
– Die Batch / Tagesnummer habe ich, da diskontinuierlich als Faktor gewertet, kontinuierliche Daten als Kovariaten. Gewisse Daten des Lieferanten und unserer eigenen Messung, die pro Batch vorliegen, habe ich über die Batch / Tagesnummer den einzelnen Meßwerten zugeordnet. Das erklärt die Linearkombination. Da ich für wenige (ca. 10 % der Batch / Tagesnummern) mehrere Meßwerte zur Verfügung habe, solltes es möglich sein, die Linearkombination zu brechen. Wäre das denn sinnvoll?

– Multifaktor Anova: Eigentlich habe ich nur kontinuierliche Merkmale, und möglicherweise keine Faktoren. Die Anova verlangt jedoch zwingend nach Faktoren. Ist dieser Rechenweg damit überhaupt noch Sinnvoll?
Alternativ ließen sich z. B. Gewichte in leicht – mittel – schwer einteilen, aber mit dieser Klassifizierung verliere ich IHMO Information.

schon mal Danke für die Hilfe,

gruß, Rainaari

Barbara
Senior Moderator

9. Mai 2008 um 9:36 Uhr

Beitragsanzahl: 2766

#51316

Aloha,

@Uhu:

Statistik-Programme können viel, vor allem können sie schnell und genau rechnen. Sie können allerdings *niemals* selbständig denken.

Wenn Du z. B. die Zahl 1000 als Wert eines Merkmals eingibst, ist das natürlich eine Zahl. Den Informationsgehalt dieser Zahl kennt das Programm allerdings nicht. Es kann sich um ein Gewicht handeln (1000 g, d. h. eine Kovariate / kontinuierliches bzw. variables Merkmal) oder um eine Farbzahl (RAL 1000 ist grünbeige, ein Faktor / diskontinuierliches bzw. attributives Merkmal).

Genau diese Information ist es, die dem Programm vom Anwender übergeben werden muss, damit das Programm richtig arbeiten kann. Automatisch kann das nicht erkannt werden (von keinem Programm).

Was hat jetzt die Statistik mit Prozess-Kenngrößen von Membranen zu tun? So genau weiß ich das auch nicht, weil Rainaari wenig über das echte Problem geschrieben hat. Also nehmen wir mal an, dass es irgendwo einen Qualitätsmangel gibt, sonst würd sich niemand so intensiv mit den Messwerten beschäftigen.

Vielleicht geht es um die Variabilität in der Durchlässigkeit der Membranen. Sicherlich hängt die Durchlässigkeit davon ab, welche Flüssigkeit mit welchem Druck durchgeschickt wird. Und natürlich wird die Konstruktion sich vor der Serie Gedanken dazu gemacht haben, wie die Membran für die definierten Anforderungen aufgebaut sein muss (also genau dieses Wechselspiel zwischen Membran und Molekülen untersuchen und durch eine geeignete Konstruktionsvorschrift eine funktionierende Membran bauen). Und dann geht die Membran in Serie.

Dummerweise stellt man fest, dass die geforderten Anforderungen an die Durchlässigkeit nicht immer vollständig erfüllt sind, sprich, dass die Membran teilweise zu große Partikel durchlässt. Haben die Konstrukteure also Murks gemacht? Nein, wahrscheinlich nicht.

Irgend etwas im Herstellungsprozess führt dazu, dass die Poren in der Membran teilweise zu groß sind und deshalb auch zu große Partikel durchlassen. Die Konstrukteure können nicht vorab sämtliche Streuungen / Störgrößen im Herstellungsprozess vorhersehen. Auch mit Sicherheitsabstand und worst-case-Tolerierung können im Serienprozess Einflüsse wirken, die in der Konstruktionsphase und Vorserie keine Rolle gespielt haben. Vielleicht handelt es sich dabei tatsächlich um „Hefe“, sprich um etwas, das vorher als unwichtig eingestuft oder überhaupt nicht als möglicher Einfluss identifiziert wurde.

Und bei der Frage, welche Merkmale im Herstellungsprozess diese Porengröße tatsächlich beeinflussen, hilft die Statistik, indem sie Kriterien dafür liefert welches Merkmal die Porengröße beeinflusst und welches nicht.

@Rainaari:

Das mit den Messungen, der Linearkombination und der Zuordnung hab ich noch nicht so richtig verstanden. Kannst Du mir dafür bitte ein Beispiel geben?

Ich hab mal einen Statgraphics-Spezialisten gefragt: Das Multifactor ANOVA-Menü kann auch Kovariaten modellieren. Wechselwirkungen sind eventuell nachträglich spezifizierbar (irgend etwas mit Rechtsmausklick auf Analyse-Fenster). Was das Multifactor ANOVA-Menü nicht kann, sind geschachtelte Modelle, dafür brauchst Du das GLM-Menü.

Natürlich ist es besser, Kovariaten als kontinuierliche Merkmale ins Modell zu stecken als sie künstlich zu Kategorisieren. Denn damit verlierst Du enorm viel Informationen.

Viele Grüße

Barbara

_____________________________________

Eine gute wissenschaftliche Theorie sollte einer Bardame erklärbar sein.
(Ernest Rutherford, Physiker)

Rainaari
Teilnehmer

9. Mai 2008 um 11:00 Uhr

Beitragsanzahl: 630

#51317

Hallo Barbara,

aber gern:

Die Produktion des Herstellers läuft über mehrere Tage (1, 2, 3 … 49, 50.)
Für jeden Tag liefert der Hersteller Meßwerte der Membraneigenschaften mit (Durchfluss, Dicke, Blaspunkt…). Die Membran wird bei uns zunächst zu einem Zwischenprodukt verarbeitet und dann zu einem Endprodukt, beides Batchweise. Aufgrund unterschiedlicher Ausbeute entsprechen sich die Batchgrößen von Zwischen- und Endprodukt nicht, d. h. ein Endproduktbatch enthält 2-3 Batches Zwischenprodukt, umgekehrt kann ein Zwischenproduktbatch auch in 2 (selten mehr) Batches Endprodukt auftauchen. Es ist über die Dokumentation nachvollziehbar, welches Endprodukt (Einzelstück) aus welchem Zwischenproduktbatch hergestellt wurde und meist auch, aus welchem Produktionstag die Membran stammt.

Für die Statistik habe ich eine Tabelle erstellt, welche alle Prüfergebnisse der Endproduktprüfungen enthält, sowie die zugehörigen Modul- und Batchnummern. Über diese läßt sich auf das Zwischenproduktbatch und weiter auf den Herstellungstag schliessen. Die Zuordnung der Werte geschieht dann über Excel und Sverweis.

Zur Linearkombination:
Auf diese Art und Weise ist allen Modulen, welche mit Membran vom Herstellungstag 15.01. hergestellt wurden, z. B. die Dicke 115,2 und der Durchfluss 4,6 ml /min zugeordnet.
Das gleiche gilt für die Leistungsmessung am Endprodukt, hier wird ein Standard mitgeführt, der sich ebenfalls auswerten läßt. Bei grenzwertigen Werten
(d h. Meßwert ± 2,5% vom Grenzwert) wird die Messung wiederholt und ich bekomme einen zweiten Standardwert für dieselbe Batchnummer -> Hier wäre meiner Ansicht nach die Linearkombination zwischen Batchnummer und Standard zu brechen.

Mit der Modellierung der Kovariaten tue ich mich zur Zeit noch schwer, aber wenn das gehen soll, dann krieg ich das auch irgendwann hin ,)

so long,

Rainaari
Autor

Beiträge