Moving Average Sas Proc Expandieren


Ingenieur Physik C. S. Wie kann ich leicht zu schaffen lag und führen Variablen Frage: Wie kann Lag Variable durch Lag-Funktion erstellen Gibt es eine führende Funktion Antwort: Wir stellen zwei Methoden, um Lag-und Lead-Variablen zu schaffen. Newvarlag1 (oldvar) verschiebt die Variable oldvar nach unten um einen Datensatz newcarlag2 (oldvar) verschiebt die Variable oldvar um zwei Datensätze nach unten. nbsp nbsp nbsp nbsp nbsp nbsp Daten example0 nbsp nbsp nbsp nbsp Eingabe x nbsp mehrere Datensätze in der gleichen Zeile nbsp nbsp nbsp nbsp Datenleitungen nbsp nbsp nbsp nbsp 1 2 3 4 5 nbsp nbsp nbsp nbsp nbsp nbsp nbsp nbspnot zu setzen in der vorherigen zu lesen Linie, nicht arbeiten nbsp nbsp nbsp nbsp laufen nbsp nbsp nbsp nbsp nbsp nbsp Daten example1 setzen example0 nbsp nbsp nbsp nbsp lagxlag (x) lag2xlag2 (x) Lauf nbsp nbsp Methode (II): Proc mit Convert Aussage erweitern können wir proc mit verwenden erweitern Convert-Anweisung, um Lead-Variablen zu erhalten, funktioniert noticeit nur mit numerischen Variablen. nbsp nbsp nbsp nbsp nbsp nbsp proc dataexample0 outexample3 Methode keine nbsp nbsp nbsp nbsp konvertieren x lag1x transformout (Verzögerung 1) nbsp nbsp nbsp nbsp konvertieren x lead1x transformout (führen 1) nbsp nbsp nbsp nbsp durch Firmenlauf nbsp nbsp Methode (III) erweitern. Im Fall von Netezza oder einer anderen SQL-Datenbank können wir die folgenden SQl verwenden, um Blei, Lag-Werte und den RollingMoving-Durchschnitt (Rückwärtszeilen und Fowward-Zeilen) zu erhalten. nbsp nbsp nbsp nbsp nbsp nbsp proc sql stimer zu Netezza verbinden (serverservername nbsp nbsp nbsp nbsp databasedatabase1 Benutzer PWD connectionglobal) ausführen (Tabelle example3 erstellen, wie eine auswählen., Verzögerung (Wert 1) über (Partition, die von Unternehmen, um die Firma, Abt) Als Lagval, Verzögerung (Wert, 2) über (Partition durch Unternehmensbestellung durch Unternehmen, dept) als lag2value, Blei (Wert, 1) über (Partition durch Firmenauftrag bei Unternehmen, dept) als Vorlauf aus Beispiel0 als Verteilung auf zufällige Ausführung (Erzeugung der Tabelle example4 als select company, dept, value, avg (value) over) (Partition durch Firmenauftrag nach Unternehmen, dept, Zeilen zwischen 2 vorherigen und 2 folgenden) als RollingAvgwithincompany, aus example0 als distribute on random) von netezza quit This Web LittleDumbDoctor ist hauptsächlich für Bildungszwecke. Wenn Sie irgendwelche Zweifel für jedes Material hier haben, kontaktieren Sie uns bitte hier und wir werden Ihnen so früh wie möglich antworten. Mixed-Modelle für fehlende Daten mit wiederholten Maßnahmen Teil 1 David C. Howell Für den zweiten Teil gehen wir zu Mixed-Models-for-Repeated-Measures2.html Wenn wir ein Design haben, in dem wir sowohl zufällige als auch feste Variablen haben, haben wir, was oft als gemischtes Modell bezeichnet wird. Gemischte Modelle haben begonnen, eine wichtige Rolle in der statistischen Analyse spielen und bieten viele Vorteile gegenüber traditionellen Analysen. Gleichzeitig sind sie komplexer und die Syntax für Software-Analysen ist nicht immer einfach einzurichten. Ich werde dieses Papier in zwei Papiere zu brechen, weil es eine Reihe von Designs und Design-Fragen zu prüfen. Dieses Dokument beschäftigt sich mit der Verwendung von sogenannten gemischten Modellen (oder linearen gemischten Modellen oder hierarchischen linearen Modellen oder vielen anderen Dingen) für die Analyse dessen, was wir normalerweise als eine einfache wiederholte Varianzanalyse betrachten. Zukünftige Dokumente behandeln gemischte Modelle, um Einzel-Design-Design (insbesondere mehrere Baseline-Designs) und verschachtelte Designs zu behandeln. Ein großer Teil dieses Dokuments hat von Kapitel 15 in Maxwell Delaney (2004) Entwerfen von Experimenten und Analysieren von Daten profitiert. Sie haben eine der klarsten Diskussionen, die ich kenne. Ich gehe einen Schritt über ihr Beispiel hinaus, indem sie einen zwischen-Gruppen Faktor sowie einen innerhalb-Themen (Wiederholungsmaß) Faktor einschließen. Bis jetzt ist es mein Ziel, die Beziehung zwischen gemischten Modellen und der Varianzanalyse zu zeigen. Die Beziehung ist weit von perfekt, aber es gibt uns einen bekannten Ort zu starten. Noch wichtiger ist, es erlaubt uns zu sehen, was wir gewinnen und was wir verlieren, indem wir gemischte Modelle. In gewisser Weise gehe ich durch das Maxwell Delaney-Kapitel rückwärts, weil ich mich hauptsächlich auf die Verwendung des wiederholten Befehls in SAS Proc Mixed konzentrieren werde. Ich mache das, weil es besser mit dem Übergang von ANOVA zu gemischten Modellen passt. Meine Motivation für dieses Dokument stammte von einer Frage, die von Rikard Wicksell an der Karolinska Universität in Schweden gestellt wurde. Er hatte eine randomisierte klinische Studie mit zwei Behandlungsgruppen und Messungen vor, nach, 3 Monaten und 6 Monaten. Sein Problem ist, dass einige seiner Daten fehlten. Er betrachtete eine breite Palette von möglichen Lösungen, einschließlich der letzten Studie voranzutreiben, mittlere Substitution und listwise Deletion. In gewisser Hinsicht Listly Deletion appellierte am meisten, aber es würde den Verlust von zu viel Daten bedeuten. Eines der schönen Dinge über gemischte Modelle ist, dass wir alle Daten verwenden können, die wir haben. Wenn eine Partitur fehlt, fehlt sie einfach. Es hat keine Auswirkung auf andere Punkte von demselben Patienten. Ein weiterer Vorteil von gemischten Modellen ist, dass wir nicht über die Zeit konsistent sein müssen. Zum Beispiel, und es gilt nicht in diesem besonderen Beispiel, wenn ein Thema hatte einen Follow-up-Test nach 4 Monaten, während ein anderer hatte ihre Follow-up-Test nach 6 Monaten, geben wir einfach 4 (oder 6) als die Zeit des Follow-up - oben. Wir müssen nicht sich sorgen, dass sie nicht in den gleichen Abständen geprüft werden konnten. Ein dritter Vorteil dieser Modelle ist, dass wir im Modell keine sphärische oder zusammengesetzte Symmetrie annehmen müssen. Wir können dies tun, wenn wir wollen, aber wir können auch dem Modell erlauben, seinen eigenen Satz von Kovarianzen auszuwählen oder Kovarianzmuster zu verwenden, die wir liefern. Ich beginne mit der Annahme der Sphärizität, weil ich die Parallelen zwischen der Ausgabe von gemischten Modellen und der Ausgabe von einer standardmäßigen wiederholten Messungsanalyse der Varianz zeigen möchte. Ich werde dann ein paar Punkte löschen und zeigen, was Auswirkungen, die auf die Analyse hat. Ich werde die Standardanalyse des Varianzmodells mit einem gemischten Modell vergleichen. Schließlich werde ich Erwartungsmaximierung (EM) und Multiple Imputation (MI) verwenden, um fehlende Werte zu unterstellen und dann die neu kompletten Daten wieder in eine wiederholte Maßnahmen ANOVA, um zu sehen, wie diese Ergebnisse vergleichen. (Wenn Sie über diese Verfahren lesen möchten, habe ich eine Webseite auf sie bei Missing. html). Ich habe Daten, um eine Reihe von Eigenschaften haben. Es gibt zwei Gruppen - eine Kontrollgruppe und eine Behandlungsgruppe, gemessen 4 mal. Diese Zeiten sind als 1 (Pretest), 2 (ein Monat posttest), 3 (3 Monate Follow-up) und 4 (6 Monate Follow-up) gekennzeichnet. Ich schuf die Behandlungsgruppe, um einen scharfen Tropfen nach dem Test zu zeigen und dann diesen Tropfen (mit leichter Regression) bei 3 und 6 Monaten zu erhalten. Die Kontrollgruppe nimmt langsam über die 4 Intervalle ab, erreicht jedoch nicht den niedrigen Wert der Behandlungsgruppe. Es gibt spürbare individuelle Unterschiede in der Kontrollgruppe, und einige Themen zeigen eine steilere Steigung als andere. In der Behandlungsgruppe gibt es individuelle Unterschiede in der Ebene, aber die Steigungen sind nicht alle, die viel voneinander unterscheiden. Sie könnten denken, dies als eine Studie der Depression, wo die abhängige Variable ist eine Depression Score (z. B. Beck Depression Inventory) und die Behandlung ist Medikament versus keine Droge. Wenn das Medikament auch für alle Themen arbeitete die Pisten vergleichbar und negativ über Zeit. Für die Kontrollgruppe würden wir erwarten, dass einige Themen besser werden, auf eigene Faust und einige zu depressiv bleiben, was zu Unterschieden in der Steigung für diese Gruppe führen würde. Diese Tatsachen sind wichtig, weil, wenn wir zu dem zufälligen Koeffizienten-Mischmodell gelangen, die individuellen Unterschiede als Abweichungen in der Abzweigung auftauchen und irgendwelche Steigungsunterschiede als eine bedeutende Abweichung in den Abhängen auftauchen. Für die Standard-ANOVA und für gemischte Modelle, die den Repeated-Befehl verwenden, treten die Unterschiede in der Ebene als Subjekt-Effekt auf, und wir nehmen an, dass die Pisten über Subjekte vergleichbar sind. Das Programm und die Daten, die unten benutzt werden, sind auf den folgenden Verbindungen vorhanden. Ich erkläre unten die Unterschiede zwischen den Datendateien. Die Ergebnisse einer Standardwiederholungsanalyse der Varianz ohne fehlende Daten und die Verwendung von SAS Proc GLM folgen. Sie erhalten die gleichen Ergebnisse mit dem SPSS Univariate Verfahren. Weil ich nach einer Polynom-Trendanalyse fragen werde, habe ich es gesagt, dass ich die Werte als 0, 1, 3, 6 anstelle von 1, 2, 3, 4 umscodiere. Ich brauchte das nicht zu tun, aber es schien wahrer zu sein Experimentelles Design. Es hat keinen Einfluss auf die Standard-Übersichtstabelle. (Ich gebe hier die gesamten Dateneingabe-Teile des Programms, lasse es aber in Zukunft Code.) Hier sehen wir, dass jeder der Effekte in der Gesamtanalyse signifikant ist. Wir kümmern uns nicht sehr um den Gruppeneffekt, weil wir beide Gruppen gleich beim Pre-Test starten wollten. Wichtig ist die Interaktion, die bei p .0001 signifikant ist. Klar, die medikamentöse Behandlung hat eine unterschiedliche Wirkung auf die beiden Gruppen, was wir sehen wollten. Die Tatsache, dass die Kontrollgruppe in der Anzahl der Symptome im Laufe der Zeit zu fallen scheint, ist zu erwarten und nicht aufregend, obwohl wir diese einfachen Effekte betrachten könnten, wenn wir wollten. Wir würden nur zwei Analysen durchführen, eine für jede Gruppe. Ich würde nicht vorschlagen, die Bündelung der Abweichungen zu berechnen F. Obwohl das möglich wäre. Im Druck oben habe ich Tests auf linearem, quadratischem und kubischem Trend enthalten, die später wichtig sein werden. Allerdings müssen Sie dies anders als Sie sonst zu erwarten. Der erste Test für die lineare Komponente zeigt einen F von 54,27 für Mittelwerte und einen F von 0,59 für Gruppe. Jede andere Software, die ich verwendet habe, ersetzen Mittel mit Zeit und Gruppe mit Gruppenzeiten Zeit. Mit anderen Worten, wir haben einen signifikanten linearen Trend über die Zeit, aber der lineare Zeitgruppenkontrast ist nicht signifikant. Ich weiß nicht, warum sie sie so beschriften. (Nun, ich glaube, ich tue es, aber es ist nicht die Art und Weise, dass ich es tun würde.) Ich sollte auch beachten, dass meine Syntax spezifiziert die Intervalle für die Zeit, so dass SAS nicht annimmt, in gleichmäßig beabstandeten Intervallen. Die Tatsache, dass der lineare Trend für die Interaktion nicht signifikant war, bedeutet, dass beide Gruppen den gleichen linearen Trend zeigen. Aber beachten Sie, dass es eine signifikante Interaktion für die quadratischen. Gemischtes Modell Die Verwendung von gemischten Modellen stellt einen wesentlichen Unterschied zu der herkömmlichen Varianzanalyse dar. Für ausgewogene Entwürfe (die grob auf gleiche Zellengröße umgerechnet werden) werden die Ergebnisse identisch, vorausgesetzt, dass wir die Analyse entsprechend angepasst haben. Aber der tatsächliche statistische Ansatz ist ganz anders und ANOVA und gemischte Modelle werden zu unterschiedlichen Ergebnissen führen, wenn die Daten nicht ausgeglichen werden oder wenn wir versuchen, verschiedene, und oft mehr logische Kovarianzstrukturen verwenden. Zuerst ein bisschen Theorie. Innerhalb von Proc Mixed spielt der wiederholte Befehl eine sehr wichtige Rolle, da er Ihnen erlaubt, verschiedene Kovarianzstrukturen zu spezifizieren, was unter Proc GLM nicht möglich ist. Sie sollten sich erinnern, dass in Proc GLM davon ausgegangen wird, dass die Kovarianzmatrix unsere Sphärizitätsannahme erfüllt und wir von dort aus gehen. Mit anderen Worten, die Berechnungen werden durchgeführt, wobei die Kovarianzmatrix zur Sphärizität gezwungen wird. Wenn das nicht eine gültige Annahme ist, sind wir in Schwierigkeiten. Natürlich gibt es Korrekturen aufgrund von Greenhouse und Geisser und Hyunh und Feldt, aber sie sind keine optimalen Lösungen. Aber was bedeutet zusammengesetzte Symmetrie oder Sphärizität, wirklich repräsentieren (Die Annahme ist wirklich über Sphärizität, aber wenn Sprechen von gemischten Modellen die meisten Schriftsteller beziehen sich auf zusammengesetzte Symmetrie, die eigentlich ein bisschen restriktiver ist.) Die meisten Menschen wissen, dass zusammengesetzte Symmetrie bedeutet, dass die Muster von Kovarianzen oder Korrelationen ist über Studien konstant. Mit anderen Worten, die Korrelation zwischen Versuch 1 und Versuch 2 ist gleich der Korrelation zwischen Versuch 1 und Versuch 4 oder Versuch 3 und Versuch 4, etc. Aber ein direkterer Weg, um über Symmetrie zu denken ist zu sagen, dass es erfordert, dass alle Themen in jeder Gruppe ändern sich in der gleichen Weise über Studien. Mit anderen Worten, die Neigungen der Zeilen, die die abhängige Variable rechtzeitig zurückregeln, sind für alle Subjekte dieselben. Auf diese Weise ist es leicht zu sehen, dass zusammengesetzte Symmetrie wirklich eine unrealistische Annahme sein kann. Wenn einige Ihrer Themen zu verbessern, aber andere nicht, haben Sie keine zusammengesetzte Symmetrie und Sie machen einen Fehler, wenn Sie eine Lösung verwenden, die davon ausgeht, dass Sie tun. Glücklicherweise erlaubt Proc Mixed Ihnen, ein anderes Muster für die Kovarianzen festzulegen. Wir können auch die Sphärizitätsannahme mit der MANOVA-Ausgabe von Proc GLM umgehen. Aber das hat auch seine Probleme. Sowohl Standardunivariate GLM als auch MANOVA GLM bestehen auf vollständigen Daten. Wenn ein Betreff fehlt noch ein Stück Daten, wird dieses Thema verworfen. Das ist ein Problem, denn mit wenigen fehlenden Beobachtungen können wir viel Daten und Freiheitsgrade verlieren. Proc Mixed mit wiederholt ist anders. Anstatt eine Lösung mit der kleinsten Quadrate zu verwenden, die vollständige Daten erfordert, verwendet sie eine Maximum-Likelihood-Lösung, die diese Annahme nicht macht. (Wir werden tatsächlich eine REML-Lösung (Restricted Maximum Likelihood) verwenden.) Wenn wir ausgeglichene Daten haben, erzeugen die kleinsten Quadrate und REML die gleiche Lösung, wenn wir eine Kovarianzmatrix mit zusammengesetzter Symmetrie angeben. Aber auch bei ausgeglichenen Daten, wenn wir eine andere Kovarianzmatrix angeben, unterscheiden sich die Lösungen. Zuerst werde ich die Sphärizität erzwingen, indem wir den Typ cs (der für die zusammengesetzte Symmetrie steht) der wiederholten Anweisung hinzufügen. Ich werde später entspannen, dass Struktur. Die erste Analyse unten verwendet genau die gleichen Daten wie für Proc GLM. Obwohl sie anders eingegeben werden. Hier werden Daten in die so genannte Langform eingegeben, im Gegensatz zu der breiten Form, die für Proc GLM verwendet wird. Dies bedeutet, daß anstelle einer Datenzeile für jedes Subjekt für jede Beobachtung eine Datenzeile vorliegt. Also mit vier Messzeiten haben wir vier Zeilen von Daten für das Thema. Weil wir ein völlig ausgewogenes Design (gleiche Stichprobengrößen und keine fehlenden Daten) haben und weil die Zeitintervalle konstant sind, ergeben sich die Ergebnisse dieser Analyse genau so wie für Proc GLM, solange ich Typ cs angebe. Die Daten folgen. Ich habe verwendet Karteneingabe anstatt eine Datei zu lesen, nur um einen alternativen Ansatz zu geben. Ich habe die Daten in drei Spalten gesetzt, um Platz zu sparen, aber die realen Syntax-Anweisungen würden 48 Zeilen Daten haben. Der erste Satz von Befehlen zeigt die Ergebnisse jedes einzelnen Subjekts nach Gruppen auf. Früher sahen wir die Gruppe bedeutet im Laufe der Zeit. Nun können wir sehen, wie jedes der Subjekte relativ zu den Mitteln seiner Gruppe steht. In der idealen Welt würden die Linien an demselben Punkt auf der Y-Achse beginnen (d. h. einen gemeinsamen Schnittpunkt haben) und sich parallel bewegen (d. h. eine gemeinsame Steigung haben). Das ist nicht ganz, was hier geschieht, aber ob das Zufallsvariationen oder systematische ist, ist etwas, das wir später betrachten werden. Wir können in der Kontrollgruppe sehen, dass ein paar Probanden linear über die Zeit abnehmen und ein paar andere Themen, vor allem solche mit niedrigeren Scores fallen zunächst und dann zunehmen während Follow-up. Plots (Gruppe 1 Kontrolle, Gruppe 2 Behandlung) Für Proc Mixed müssen wir festlegen, dass Gruppe, Zeit und Subjekt Klassenvariablen sind. (Siehe die obige Syntax.) Dies führt dazu, dass SAS sie als Faktoren (nominale oder ordinale Variablen) anstelle von kontinuierlichen Variablen behandelt. Die Modellaussage sagt dem Programm, dass wir Gruppe und Zeit als faktorielles Design behandeln und die Hauptwirkungen und die Interaktion erzeugen wollen. (Ich habe nicht angefügt eine Lösung für das Ende der Modell-Anweisung, weil ich nicht über die Parameter-Schätzungen der Behandlungseffekte an diesem Punkt sprechen wollen, aber die meisten Leute würden es dort setzen.) Der wiederholte Befehl sagt SAS, dies als eine behandeln Dass die Subjektvariable subj genannt wird und dass wir die Kovarianzmatrix so behandeln wollen, dass sie eine zusammengesetzte Symmetrie aufweist, obwohl wir in den Daten, die ich erstellt habe, nicht scheinen, dieser Annahme nahe zu kommen. Die Spezifikation rcorr wird nach der geschätzten Korrelationsmatrix fragen. (Wir könnten r statt rcorr verwenden, aber das würde eine Kovarianzmatrix erzeugen, die schwerer zu interpretieren ist.) Die Ergebnisse dieser Analyse folgen, und Sie können sehen, dass sie sehr ähnlich zu unserer Analyse des Varianzansatzes mit Proc GLM sind. Auf diesem Ausdruck sehen wir die geschätzten Korrelationen zwischen den Zeiten. Dies sind nicht die tatsächlichen Korrelationen, die unten erscheinen, sondern die Schätzungen, die aus einer Annahme der zusammengesetzten Symmetrie kommen. Diese Annahme besagt, dass die Korrelationen gleich sein müssen, und was wir hier haben, sind grundsätzlich mittlere Korrelationen. Die tatsächlichen Korrelationen, gemittelt über die beiden Gruppen mit Fishers Transformation, sind: Beachten Sie, dass sie ganz anders sind als diejenigen, die zusammengesetzte Symmetrie, und dass sie nicht auf alle, als ob sie diese Annahme passen. Wir werden dieses Problem später behandeln. (Ich habe keine Ahnung, warum die Überschrift bezieht sich auf Thema 1. Es ist einfach) Es gibt auch zwei Kovarianz-Parameter. Denken Sie daran, dass es zwei Quellen von zufälligen Effekten in diesem Entwurf gibt. Es gibt unser normales Sigma 2 e. Was zufälliges Rauschen widerspiegelt. Darüber hinaus behandeln wir unsere Themen als zufällige Stichprobe, und es gibt also zufällige Varianz unter den Probanden. Hier bekomme ich ein bisschen mit erwarteten mittleren Quadraten spielen. Sie können sich erinnern, dass die erwarteten mittleren Quadrate für den Fehlerterm für den zwischen-Subjekt-Effekt E (MS win subj) sigma e 2 asigma pi 2 und unsere von der GLM-Analyse entnommene Schätzung von sigma e 2. MS-Residual ist. Das ist 2760,6218. Der Buchstabe a steht für die Anzahl der Messzeiten 4 und MS subj win grps 12918.0663, wiederum aus der GLM-Analyse. Daher unsere Schätzung von sigma pi 2 (12918.0663 2760.6218) 4 2539.36. Diese beiden Schätzungen sind unser zufälliger Teil des Modells und sind in dem Abschnitt mit der Überschrift Kovarianz-Parameter-Schätzungen angegeben. Ich sehe nicht eine Situation in diesem Beispiel, in dem wir diese Werte nutzen möchten, aber in anderen gemischten Designs sind sie nützlich. Sie können eine merkwürdige Sache in den Daten bemerken. Anstatt die Zeit als 1,2, 3, 4 eingeben, gab ich es als 0, 1, 3 und 6. Wenn dies eine Standard-ANOVA wäre es keinen Unterschied machen, und in der Tat macht es keinen Unterschied hier, aber wann Wir kommen, um Abschnitte und Abhänge zu betrachten, ist es sehr wichtig, wie wir den 0 Punkt benannten. Wir könnten die Zeit zentriert haben, indem wir die mittlere Zeit von jedem Eintrag subtrahieren, was bedeutet, dass der Intercept mittlerweile ist. Ich habe gewählt, um 0 für den Pretest, die ein logischer Ort, um die Abzweigung zu finden scheint. Ich werde später mehr dazu sagen. Fehlende Daten Ich habe gerade viel Zeit damit verbracht, ein ausgewogenes Design zu diskutieren, in dem alle Daten verfügbar sind. Nun möchte ich einige Daten löschen und die Analyse wiederholen. Dies ist einer der Bereiche, in denen gemischte Designs einen wichtigen Vorteil haben. Ich werde zu löschen Kerben ziemlich zufällig, außer dass ich ein Muster von verschiedenen Beobachtungen im Laufe der Zeit zeigen wollen. Es ist am einfachsten, zu sehen, was ich getan habe, wenn wir Daten in der breiten Form betrachten, also ist die frühere Tabelle unten unten dargestellt. Die fehlende Beobachtungen darstellen. Es ist wichtig zu bemerken, dass Daten vollständig zufällig fehlen, nicht auf der Grundlage anderer Beobachtungen. Wenn wir dies als eine Standard-Wiederholungsanalyse der Varianz mit Proc GLM behandeln. wir haben ein Problem. Von den 24 Fällen haben nur 17 von ihnen vollständige Daten. Das bedeutet, dass unsere Analyse nur auf 17 Fälle basiert. Abgesehen von einem schweren Verlust der Macht, gibt es andere Probleme mit diesem Sachverhalt. Angenommen, ich vermutete, dass Menschen, die weniger depressiv sind, weniger wahrscheinlich für eine Folge-Sitzung zurückkehren und somit fehlende Daten haben. Um das in das Beispiel zu bauen, konnte ich absichtlich Daten von denen, die niedrig auf Depression zu Beginn, obwohl ich ihre Pretest-Scores. (Ich habe nicht wirklich tun dies hier.) Weiterhin annehmen, dass Menschen niedrig in Depressionen auf die Behandlung (oder Nicht-Behandlung) in unterschiedlicher Weise von denen, die mehr depressiv sind. Durch das Löschen von ganzen Fällen werde ich niedrige Depression Themen gelöscht haben und das wird in voreingenommenen Schätzungen, was würden wir gefunden haben, wenn diese ursprünglichen Datenpunkte nicht fehlen würde. Das ist sicher kein wünschenswertes Ergebnis. Um etwas auf den vorherigen Absatz zu erweitern, wenn wir Proc GLM verwenden. Oder eine vergleichbare Prozedur in anderen Software, müssen wir davon ausgehen, dass Daten vollständig zufällig fehlen, in der Regel abgekürzt MCAR. (Siehe Howell, 2008.) Wenn die Daten nicht vollständig zufällig fehlen, dann würden die Ergebnisse voreingenommen sein. Aber wenn ich einen Weg finden kann, so viele Daten wie möglich zu halten, und wenn Menschen mit niedrigen Pretest-Scores bei einer oder mehreren Messzeiten fehlen, wird die Pretest-Punktzahl im Wesentlichen als eine Kovarianz dienen, um Fehlen vorzusehen. Dies bedeutet, dass ich nur davon ausgehen muss, dass Daten zufällig (MAR) statt MCAR fehlen. Das ist ein Gewinn lohnt sich. MCAR ist ziemlich selten in der experimentellen Forschung, aber MAR ist viel häufiger. Die Verwendung eines gemischten Modellansatzes erfordert nur, dass Daten MAR sind und mir erlaubt, erhebliche Freiheitsgrade beizubehalten. (Dieses Argument wurde von Overall Tonidandel (2007) herausgefordert, aber in diesem speziellen Beispiel sind die Daten im Wesentlichen MCAR. Ich werde später noch einmal darauf zurückkommen.) Proc GLM-Ergebnisse Die Ausgabe aus der Analyse dieser Daten mittels Proc GLM folgt. Ich gebe diese Ergebnisse nur für Vergleichszwecke, und ich habe viel von dem Ausdruck weggelassen. Beachten Sie, dass wir immer noch eine Gruppe Wirkung und eine Zeit-Effekt, aber die F für unsere Interaktion wurde um etwa die Hälfte reduziert, und das ist, was wir am meisten interessiert. (In einer früheren Version habe ich es fallen lassen, um nicht signifikant, aber ich habe hier gebeugt.) Beachten Sie auch die großen Tropfen in Freiheitsgraden aufgrund der Tatsache, dass wir jetzt nur noch 17 Themen haben. Proc Mixed Jetzt gehen wir zu den Ergebnissen mit Proc Mixed. Ich brauche, um die Daten-Datei, indem sie in ihrer langen Form zu ändern und zu ersetzen fehlende Beobachtungen mit einer Periode, aber das bedeutet, dass ich nur 9 Zeilen aus 96 (10 der Daten) anstelle von 7 von 24 (29) . Die Syntax würde genau so aussehen wie früher. Das Vorhandensein von Zeit auf die wiederholte Anweisung ist nicht notwendig, wenn ich fehlende Daten enthalten, indem Sie einen Zeitraum, aber es ist erforderlich, wenn ich nur entfernen Sie die Beobachtung vollständig. (Das ist zumindest so, wie ich das Handbuch gelesen habe.) Die Ergebnisse folgen, wieder mit viel vom Ausdruck gelöscht: Dies ist eine viel schönere Lösung, nicht nur, weil wir unsere Signifikanzniveaus behalten haben, sondern weil sie auf wesentlich mehr basiert Daten und ist nicht abhängig von einer Annahme, dass die Daten vollständig zufällig fehlen. Wieder sehen Sie ein festes Muster der Korrelationen zwischen den Versuchen, die aus meiner spezifizierenden zusammengesetzten Symmetrie für die Analyse resultieren. Andere Kovarianzstrukturen Bisher basieren alle unsere Analysen auf einer Annahme einer zusammengesetzten Symmetrie. (Die Annahme ist wirklich über Sphärizität, aber die beiden sind nah und Proc Mixed bezieht sich auf die Lösung als Typ cs.) Aber wenn man sich die zuvor angegebene Korrelationsmatrix ansieht, ist klar, dass Korrelationen, die in der Zeit auseinander liegen, deutlich geringer sind als Korrelationen Schließen in der Zeit, die wie ein vernünftiges Ergebnis klingt. Auch wenn man den Mauchlys-Test auf Sphärizität (nicht gezeigt) betrachtete, ist er mit p .012 signifikant. Während dies nicht ein großer Test ist, sollte es uns pausieren. Wir sollten wirklich etwas über Sphärizität tun. Das erste, was wir über die Sphärizität tun könnten, ist, dass das Modell keine Annahmen über die Form der Kovarianzmatrix machen wird. Um dies zu tun, werde ich um eine unstrukturierte Matrix bitten. Dies geschieht durch Einfügen des Typs un in die wiederholte Anweisung. Dies zwingt SAS, alle Varianzen und Kovarianzen abzuschätzen und sie in ihrer Lösung zu verwenden. Das Problem dabei ist, dass es 10 Dinge, die geschätzt werden und daher werden wir Freiheitsgraden für unsere Tests verlieren. Aber ich gehe trotzdem weiter. Für diese Analyse werde ich weiterhin den Datensatz mit fehlenden Daten verwenden, obwohl ich die vollständigen Daten hätte ich gewünscht haben. Ich werde eine Anfrage, die SAS verwenden Verfahren aufgrund von Hotelling-Lawley-McKeon (hlm) und Hotelling-Lawley-Pillai-Samson (hlps), die eine bessere Arbeit der Schätzung der Freiheitsgrade für unsere Nenner tun. Dies wird für ein unstrukturiertes Modell empfohlen. Die Ergebnisse sind unten gezeigt. Ergebnisse mit unstrukturierter Matrix Beachten Sie die Matrix der Korrelationen. Vom Pretest bis zum 6-Monats-Follow-up ist die Korrelation mit Pretest-Scores von 0,46 auf -3,0 gesunken, und dieses Muster ist konsistent. Das bestimmt nicht Vertrauen in zusammengesetzte Symmetrie. Die Fs haben sich gegenüber dem Vorgängermodell nicht sehr verändert, aber die Freiheitsgrade für innenliegende Begriffe sind von 57 auf 22 gesunken, was ein riesiger Tropfen ist. Dies ergibt sich aus der Tatsache, dass das Modell zusätzliche Schätzungen der Kovarianzen machen musste. Schließlich verringern die hlm und hlps Statistiken die Freiheitsgrade weiter auf 20, aber die Effekte sind immer noch signifikant. Dies würde mich fühlen ziemlich gut über die Studie, wenn die Daten wurden reale Daten. Aber wir sind von einem Extrem zum anderen gegangen. Wir schätzten zwei Kovarianz-Parameter, wenn wir Typ cs und 10 Kovarianz-Parameter verwendet, wenn wir Typ un verwendet. (Setzen Sie einen anderen Weg, mit der unstrukturierten Lösung haben wir unsere Hände geworfen und sagte, das Programm Sie es herausfinden Wir wissen nicht, was los ist. Es gibt einen Mittelweg (in der Tat gibt es viele) Wir wissen wahrscheinlich zumindest etwas wissen Wie diese Korrelationen aussehen sollten. Oft würden wir erwarten, dass Korrelationen zu sinken, wie die Studien in Frage weiter voneinander entfernt sind. Sie könnten nicht so schnell wie unsere Daten vermuten, aber sie sollten vermutlich abnehmen. Ein autoregressives Modell, das wir Wird als nächstes davon ausgegangen, dass Korrelationen zwischen zwei beliebigen Zeiten sowohl von der Korrelation zum vorherigen Zeitpunkt als auch von einer Fehlerkomponente abhängen. Um dies anders auszudrücken, hängt Ihre Punktzahl zum Zeitpunkt 3 von Ihrer Punktzahl zum Zeitpunkt 2 und vom Fehler ab (1) - Modell nimmt an, dass, wenn die Korrelation zwischen Zeit 1 und Zeit 2 0,51 beträgt, die Korrelation zwischen Zeit 1 und Zeit 3 ​​einen Erwartungswert von 0,512 2,26 und zwischen Zeit 1 und Zeit 4 einen Erwartungswert von 0,513 3 13 hat. Unsere Daten sehen dem nahe. (Denken Sie daran, dass diese Erwartungswerte von r nicht die tatsächlich erhaltenen Korrelationen sind.) Die Lösung mit einem autoregressiven Modell erster Ordnung folgt. Beachten Sie das Muster der Korrelationen. Die .6182 als Korrelation zwischen benachbarten Studien ist im Wesentlichen ein Durchschnitt der Korrelationen zwischen benachbarten Studien im unstrukturierten Fall. Die .3822 ist gerade .61822 2 und .2363 .61823 3. Beachten Sie, dass die Tests innerhalb der Subjekt-Effekte wieder auf 57 df zurückgehen, was sicherlich schön ist und unsere Ergebnisse immer noch signifikant sind. Dies ist eine weit bessere Lösung als bei Proc GLM. Nun haben wir drei Lösungen, aber welche sollten wir wählen Eine Hilfe bei der Auswahl ist, die Fit Statistics, die mit jeder Lösung ausgedruckt aussehen. Diese Statistiken berücksichtigen sowohl, wie gut das Modell passt die Daten und wie viele Schätzungen dauert es dorthin zu bekommen. Setzen wir locker, würden wir wahrscheinlich glücklicher mit einer ziemlich guten Passung basierend auf wenigen Parameter-Schätzungen als mit einer etwas besseren Passung basierend auf vielen Parameter-Schätzungen. Wenn man sich die drei Modelle ansieht, die für das unsymmetrische Design geeignet sind, sehen Sie, dass das AIC-Kriterium für das Typ-cs-Modell 909,4 war, das auf 903,7 sank, als wir die Annahme der zusammengesetzten Symmetrie entspannten. Ein kleinerer AIC-Wert ist besser, so dass wir das zweite Modell bevorzugen sollten. Dann, wenn wir für ein Mittelfeld, durch die Spezifizierung der Muster oder Korrelationen, aber nicht machen SAS schätzen 10 separate Korrelationen, AIC sank wieder auf 899,1. Dieses Modell passt besser, und die Tatsache, dass es so, indem nur eine Varianz und eine Korrelation führt uns dazu führen, dass dieses Modell vorzuziehen. SPSS Mixed Sie können die gleiche Sache mit SPSS, wenn Sie es vorziehen. Ich werde nicht diskutieren die Syntax hier, aber die Befehle sind unten angegeben. Sie können diese Syntax ändern, indem Sie CS nach Bedarf mit UN oder AR (1) ersetzen. (Ein Wort der Warnung aus irgendeinem Grund hat SPSS geändert, wie es fehlt Daten liest. Sie ​​konnten in der Vergangenheit konnte man nur in einer Zeit und SPSS wusste, dass fehlte. Es ist nicht mehr so. Sie müssen in etwas wie - 99 und sagen, dass -99 ist der Code für fehlende. Während Im an sie, änderten sie etwas anderes. In der Vergangenheit es unterscheidet einen Wert von anderen durch die Suche nach Leerzeichen. So, wenn es eine Registerkarte, ein Leerzeichen, 3 Räume , Ein Leerzeichen und eine Registerkarte, oder was auch immer, es wusste, dass es eine Variable gelesen hatte und ging auf die nächste. NICHT MEHR Ich kann nicht vorstellen, warum sie es getan, aber für einige Möglichkeiten der readig die Daten, wenn Sie zwei Leerzeichen In Ihrer Datendatei, um die Zahlen vertikal aufgereiht zu halten, wird davon ausgegangen, dass Sie eine Variable übersprungen haben Sehr ärgerlich Benutzen Sie einfach ein Leerzeichen oder eine Registerkarte zwischen den Einträgen.) Analysen mit R Die folgenden Befehle führen die gleiche Analyse mit dem R-Programm aus (Oder mit S-PLUS). Die Ergebnisse werden nicht genau die gleichen, aber sie sind sehr nah. Zeilen, die mit beginnen, sind Kommentare. Bei der Überarbeitung dieser Version fand ich die folgende Referenz nur in der Mitte von Nirgendwo stecken. Ich weiß nicht, warum ich das getan habe, aber Bodo Winter hat eine ausgezeichnete Seite, die ich empfehlen, dass Sie sich an. Der Link ist bodowintertutorialbwLMEtutorial2.pdf. Wo gehen wir jetzt hin? Dieses Dokument ist ausreichend lang, dass ich ein neues schaffen werde, um diese nächste Frage zu behandeln. In diesem Dokument werden wir andere Wege betrachten, dasselbe zu tun. Der Grund, warum ich zu alternativen Modellen, obwohl sie die gleiche Sache zu bewegen, ist, dass die Logik dieser Modelle wird es einfacher für Sie zu bewegen, was oft als Single-Case-Designs oder mehrere Baseline-Designs, wenn wir fertig sind Was viel ist wie eine traditionelle Analyse der Varianz Ansatz, was wir oft als traditionelle Analyse der Varianz Designs. Referenzen Guerin, L. und W. W. Stroup. 2000. Eine Simulationsstudie zur Bewertung der PROC MIXED-Analyse von wiederholten Messdaten. P. 170-203. In Proc. 12. Kansas Zustand Univ. Conf. Über angewandte Statistik in der Landwirtschaft. Kansas Zustand Univ. Manhattan. Howell, D. C. (2008) Die Analyse der Varianz. In Osborne, J. I. Best practices in quantitativen Methoden. Salbei. Little, R. C. Milliken, G. A. Stroup, W. W. Wolfinger, R. D. Schabenberger, O. (2006). SAS für gemischte Modelle. Tragen. NC. Sas Institute Inc. Maxwell, S. E. Delaney, H. D. (2004) Entwerfen von Experimenten und Analysieren von Daten: Ein Modellvergleichsansatz, 2. Auflage. Belmont, CA. Wadsworth. Gesamt, J. E. Ahn, C. Shivakumar, C. Kalburgi, Y. (1999). Problematische Formulierungen von SAS Proc. Mixed Modelle für wiederholte Messungen. Journal of Biopharmaceutical Statistics, 9, 189 & ndash; 216. Insgesamt, J. E. Tonindandel, S. (2002) Messung der Veränderung in kontrollierten Längsschnittstudien. Britische Zeitschrift für Mathematische und Statistische Psychologie, 55, 109-124. Insgesamt, J. E. Tonindandel, S. (2007) Analyse von Daten aus einer kontrollierten wiederholten Messung Design mit baseline-abhängigen Ausfallenden. Methodik, 3, 58 & ndash; 66. Pinheiro, J. C. Bates, D. M. (2000). Mischmodelle in S und S-Plus. Springer. Some good references on the web are: The following is a good reference for people with questions about using SAS in general. Downloadable Papers on Multilevel Models Good coverage of alternative covariance structures The main reference for SAS Proc Mixed is Little, R. C. Milliken, G. A. Stroup, W. W. Wolfinger, R. D. Schabenberger, O. (2006) SAS for mixed models, Cary, NC SAS Institute Inc. Maxwell, S. E. Delaney, H. D. (2004). Designing Experiments and Analyzing Data (2nd edition). Lawrence Erlbaum Associates. The classic reference for R is Penheiro, J. C. Bates, D. M. (2000) Mixed-effects models in S and S-Plus. New York: Springer. Last revised 6282015 When we have a design in which we have both random and fixed variables, we have what is often called a mixed model. Mixed models have begun to play an important role in statistical analysis and offer many advantages over more traditional analyses. At the same time they are more complex and the syntax for software analysis is not always easy to set up. I will break this paper up into two papers because there are a number of designs and design issues to consider. This document will deal with the use of what are called mixed models (or linear mixed models, or hierarchical linear models, or many other things) for the analysis of what we normally think of as a simple repeated measures analysis of variance. Future documents will deal with mixed models to handle single-subject design (particularly multiple baseline designs) and nested designs. A large portion of this document has benefited from Chapter 15 in Maxwell Delaney (2004) Designing Experiments and Analyzing Data. They have one of the clearest discussions that I know. I am going a step beyond their example by including a between-groups factor as well as a within-subjects (repeated measures) factor. For now my purpose is to show the relationship between mixed models and the analysis of variance. The relationship is far from perfect, but it gives us a known place to start. More importantly, it allows us to see what we gain and what we lose by going to mixed models. In some ways I am going through the Maxwell Delaney chapter backwards, because I am going to focus primarily on the use of the repeated command in SAS Proc Mixed . I am doing that because it fits better with the transition from ANOVA to mixed models. My motivation for this document came from a question asked by Rikard Wicksell at Karolinska University in Sweden. He had a randomized clinical trial with two treatment groups and measurements at pre, post, 3 months, and 6 months. His problem is that some of his data were missing. He considered a wide range of possible solutions, including last trial carried forward, mean substitution, and listwise deletion. In some ways listwise deletion appealed most, but it would mean the loss of too much data. One of the nice things about mixed models is that we can use all of the data we have. If a score is missing, it is just missing. It has no effect on other scores from that same patient. Another advantage of mixed models is that we dont have to be consistent about time. For example, and it does not apply in this particular example, if one subject had a follow-up test at 4 months while another had their follow-up test at 6 months, we simply enter 4 (or 6) as the time of follow-up. We dont have to worry that they couldnt be tested at the same intervals. A third advantage of these models is that we do not have to assume sphericity or compound symmetry in the model. We can do so if we want, but we can also allow the model to select its own set of covariances or use covariance patterns that we supply. I will start by assuming sphericity because I want to show the parallels between the output from mixed models and the output from a standard repeated measures analysis of variance. I will then delete a few scores and show what effect that has on the analysis. I will compare the standard analysis of variance model with a mixed model. Finally I will use Expectation Maximization (EM) and Multiple Imputation (MI) to impute missing values and then feed the newly complete data back into a repeated measures ANOVA to see how those results compare. (If you want to read about those procedures, I have a web page on them at Missing. html ). I have created data to have a number of characteristics. There are two groups - a Control group and a Treatment group, measured at 4 times. These times are labeled as 1 (pretest), 2 (one month posttest), 3 (3 months follow-up), and 4 (6 months follow-up). I created the treatment group to show a sharp drop at post-test and then sustain that drop (with slight regression) at 3 and 6 months. The Control group declines slowly over the 4 intervals but does not reach the low level of the Treatment group. There are noticeable individual differences in the Control group, and some subjects show a steeper slope than others. In the Treatment group there are individual differences in level but the slopes are not all that much different from one another. You might think of this as a study of depression, where the dependent variable is a depression score (e. g. Beck Depression Inventory) and the treatment is drug versus no drug. If the drug worked about as well for all subjects the slopes would be comparable and negative across time. For the control group we would expect some subjects to get better on their own and some to stay depressed, which would lead to differences in slope for that group. These facts are important because when we get to the random coefficient mixed model the individual differences will show up as variances in intercept, and any slope differences will show up as a significant variance in the slopes. For the standard ANOVA, and for mixed models using the Repeated command, the differences in level show up as a Subject effect and we assume that the slopes are comparable across subjects. The program and data used below are available at the following links. I explain below the differences between the data files. The results of a standard repeated measures analysis of variance with no missing data and using SAS Proc GLM follow. You would obtain the same results using the SPSS Univariate procedure. Because I will ask for a polynomial trend analysis, I have told it to recode the levels as 0, 1, 3, 6 instead of 1, 2, 3, 4. I did not need to do this, but it seemed truer to the experimental design. It does not affect the standard summary table. (I give the entire data entry parts of the program here, but will leave it out in future code.) Here we see that each of the effects in the overall analysis is significant. We dont care very much about the group effect because we expected both groups to start off equal at pre-test. What is important is the interaction, and it is significant at p .0001. Clearly the drug treatment is having a differential effect on the two groups, which is what we wanted to see. The fact that the Control group seems to be dropping in the number of symptoms over time is to be expected and not exciting, although we could look at these simple effects if we wanted to. We would just run two analyses, one on each group. I would not suggest pooling the variances to calculate F . though that would be possible. In the printout above I have included tests on linear, quadratic, and cubic trend that will be important later. However you have to read this differently than you might otherwise expect. The first test for the linear component shows an F of 54.27 for mean and an F of 0.59 for group. Any other software that I have used would replace mean with Time and group with Group times Time. In other words we have a significant linear trend over time, but the linear times group contrast is not significant. I dont know why they label them that way. (Well, I guess I do, but its not the way that I would do it.) I should also note that my syntax specified the intervals for time, so that SAS is not assuming equally spaced intervals. The fact that the linear trend was not significant for the interaction means that both groups are showing about the same linear trend. But notice that there is a significant interaction for the quadratic. Mixed Model The use of mixed models represents a substantial difference from the traditional analysis of variance. For balanced designs (which roughly translates to equal cell sizes) the results will come out to be the same, assuming that we set the analysis up appropriately. But the actual statistical approach is quite different and ANOVA and mixed models will lead to different results whenever the data are not balanced or whenever we try to use different, and often more logical, covariance structures. First a bit of theory. Within Proc Mixed the repeated command plays a very important role in that it allows you to specify different covariance structures, which is something that you cannot do under Proc GLM . You should recall that in Proc GLM we assume that the covariance matrix meets our sphericity assumption and we go from there. In other words the calculations are carried out with the covariance matrix forced to sphericity. If that is not a valid assumption we are in trouble. Of course there are corrections due to Greenhouse and Geisser and Hyunh and Feldt, but they are not optimal solutions. But what does compound symmetry, or sphericity, really represent (The assumption is really about sphericity, but when speaking of mixed models most writers refer to compound symmetry, which is actually a bit more restrictive.) Most people know that compound symmetry means that the pattern of covariances or correlations is constant across trials. In other words, the correlation between trial 1 and trial 2 is equal to the correlation between trial 1 and trial 4 or trial 3 and trial 4, etc. But a more direct way to think about compound symmetry is to say that it requires that all subjects in each group change in the same way over trials. In other words the slopes of the lines regressing the dependent variable on time are the same for all subjects. Put that way it is easy to see that compound symmetry can really be an unrealistic assumption. If some of your subjects improve but others dont, you do not have compound symmetry and you make an error if you use a solution that assumes that you do. Fortunately Proc Mixed allows you to specify some other pattern for those covariances. We can also get around the sphericity assumption using the MANOVA output from Proc GLM . but that too has its problems. Both standard univariate GLM and MANOVA GLM will insist on complete data. If a subject is missing even one piece of data, that subject is discarded. That is a problem because with a few missing observations we can lose a great deal of data and degrees of freedom. Proc Mixed with repeated is different. Instead of using a least squares solution, which requires complete data, it uses a maximum likelihood solution, which does not make that assumption. (We will actually use a Restricted Maximum Likelihood (REML) solution.) When we have balanced data both least squares and REML will produce the same solution if we specify a covariance matrix with compound symmetry. But even with balanced data if we specify some other covariance matrix the solutions will differ. At first I am going to force sphericity by adding type cs (which stands for compound symmetry) to the repeated statement. I will later relax that structure. The first analysis below uses exactly the same data as for Proc GLM . though they are entered differently. Here data are entered in what is called long form, as opposed to the wide form used for Proc GLM . This means that instead of having one line of data for each subject, we have one line of data for each observation. So with four measurement times we will have four lines of data for that subject. Because we have a completely balanced design (equal sample sizes and no missing data) and because the time intervals are constant, the results of this analysis will come out exactly the same as those for Proc GLM so long as I specify type cs. The data follow. I have used card input rather than reading a file just to give an alternative approach. I have put the data in three columns to save space, but the real syntax statements would have 48 lines of data. The first set of commands plots the results of each individual subject broken down by groups. Earlier we saw the group means over time. Now we can see how each of the subjects stands relative to the means of his or her group. In the ideal world the lines would start out at the same point on the Y axis (i. e. have a common intercept) and move in parallel (i. e. have a common slope). That isnt quite what happens here, but whether those are chance variations or systematic ones is something that we will look at later. We can see in the Control group that a few subjects decline linearly over time and a few other subjects, especially those with lower scores decline at first and then increase during follow-up. Plots (Group 1 Control, Group 2 Treatment) For Proc Mixed we need to specify that group, time, and subject are class variables. (See the syntax above.) This will cause SAS to treat them as factors (nominal or ordinal variables) instead of as continuous variables. The model statement tells the program that we want to treat group and time as a factorial design and generate the main effects and the interaction. (I have not appended a solution to the end of the model statement because I dont want to talk about the parameter estimates of treatment effects at this point, but most people would put it there.) The repeated command tells SAS to treat this as a repeated measures design, that the subject variable is named subj, and that we want to treat the covariance matrix as exhibiting compound symmetry, even though in the data that I created we dont appear to come close to meeting that assumption. The specification rcorr will ask for the estimated correlation matrix. (we could use r instead of rcorr, but that would produce a covariance matrix, which is harder to interpret.) The results of this analysis follow, and you can see that they very much resemble our analysis of variance approach using Proc GLM . On this printout we see the estimated correlations between times. These are not the actual correlations, which appear below, but the estimates that come from an assumption of compound symmetry. That assumption says that the correlations have to be equal, and what we have here are basically average correlations. The actual correlations, averaged over the two groups using Fishers transformation, are: Notice that they are quite different from the ones assuming compound symmetry, and that they dont look at all as if they fit that assumption. We will deal with this problem later. (I dont have a clue why the heading refers to subject 1. It just does) There are also two covariance parameters. Remember that there are two sources of random effects in this design. There is our normal sigma 2 e . which reflects random noise. In addition we are treating our subjects as a random sample, and there is thus random variance among subjects. Here I get to play a bit with expected mean squares. You may recall that the expected mean squares for the error term for the between-subject effect is E(MS win subj ) sigma e 2 asigma pi 2 and our estimate of sigma e 2. taken from the GLM analysis, is MS residual . which is 2760.6218. The letter a stands for the number of measurement times 4, and MS subj win grps 12918.0663, again from the GLM analysis. Therefore our estimate of sigma pi 2 (12918.0663 2760.6218)4 2539.36. These two estimates are our random part of the model and are given in the section headed Covariance Parameter Estimates. I dont see a situation in this example in which we would wish to make use of these values, but in other mixed designs they are useful. You may notice one odd thing in the data. Instead of entering time as 1,2, 3, 4, I entered it as 0, 1, 3, and 6. If this were a standard ANOVA it wouldnt make any difference, and in fact it doesnt make any difference here, but when we come to looking at intercepts and slopes, it will be very important how we designated the 0 point. We could have centered time by subtracting the mean time from each entry, which would mean that the intercept is at the mean time. I have chosen to make 0 represent the pretest, which seems a logical place to find the intercept. I will say more about this later. Missing Data I have just spent considerable time discussing a balanced design where all of the data are available. Now I want to delete some of the data and redo the analysis. This is one of the areas where mixed designs have an important advantage. I am going to delete scores pretty much at random, except that I want to show a pattern of different observations over time. It is easiest to see what I have done if we look at data in the wide form, so the earlier table is presented below with . representing missing observations. It is important to notice that data are missing completely at random, not on the basis of other observations. If we treat this as a standard repeated measures analysis of variance, using Proc GLM . we have a problem. Of the 24 cases, only 17 of them have complete data. That means that our analysis will be based on only those 17 cases. Aside from a serious loss of power, there are other problems with this state of affairs. Suppose that I suspected that people who are less depressed are less likely to return for a follow-up session and thus have missing data. To build that into the example I could deliberately have deleted data from those who scored low on depression to begin with, though I kept their pretest scores. (I did not actually do this here.) Further suppose that people low in depression respond to treatment (or non-treatment) in different ways from those who are more depressed. By deleting whole cases I will have deleted low depression subjects and that will result in biased estimates of what we would have found if those original data points had not been missing. This is certainly not a desirable result. To expand slightly on the previous paragraph, if we using Proc GLM . or a comparable procedure in other software, we have to assume that data are missing completely at random, normally abbreviated MCAR. (See Howell, 2008.) If the data are not missing completely at random, then the results would be biased. But if I can find a way to keep as much data as possible, and if people with low pretest scores are missing at one or more measurement times, the pretest score will essentially serve as a covariate to predict missingness. This means that I only have to assume that data are missing at random (MAR) rather than MCAR. That is a gain worth having. MCAR is quite rare in experimental research, but MAR is much more common. Using a mixed model approach requires only that data are MAR and allows me to retain considerable degrees of freedom. (That argument has been challenged by Overall Tonidandel (2007), but in this particular example the data actually are essentially MCAR. I will come back to this issue later.) Proc GLM results The output from analyzing these data using Proc GLM follows. I give these results just for purposes of comparison, and I have omitted much of the printout. Notice that we still have a group effect and a time effect, but the F for our interaction has been reduced by about half, and that is what we care most about. (In a previous version I made it drop to nonsignificant, but I relented here.) Also notice the big drop in degrees of freedom due to the fact that we now only have 17 subjects. Proc Mixed Now we move to the results using Proc Mixed . I need to modify the data file by putting it in its long form and to replacing missing observations with a period, but that means that I just altered 9 lines out of 96 (10 of the data) instead of 7 out of 24 (29). The syntax would look exactly the same as it did earlier. The presence of time on the repeated statement is not necessary if I have included missing data by using a period, but it is needed if I just remove the observation completely. (At least that is the way I read the manual.) The results follow, again with much of the printout deleted: This is a much nicer solution, not only because we have retained our significance levels, but because it is based on considerably more data and is not reliant on an assumption that the data are missing completely at random. Again you see a fixed pattern of correlations between trials which results from my specifying compound symmetry for the analysis. Other Covariance Structures To this point all of our analyses have been based on an assumption of compound symmetry. (The assumption is really about sphericity, but the two are close and Proc Mixed refers to the solution as type cs.) But if you look at the correlation matrix given earlier it is quite clear that correlations further apart in time are distinctly lower than correlations close in time, which sounds like a reasonable result. Also if you looked at Mauchlys test of sphericity (not shown) it is significant with p .012. While this is not a great test, it should give us pause. We really ought to do something about sphericity. The first thing that we could do about sphericity is to specify that the model will make no assumptions whatsoever about the form of the covariance matrix. To do this I will ask for an unstructured matrix. This is accomplished by including type un in the repeated statement. This will force SAS to estimate all of the variances and covariances and use them in its solution. The problem with this is that there are 10 things to be estimated and therefore we will lose degrees of freedom for our tests. But I will go ahead anyway. For this analysis I will continue to use the data set with missing data, though I could have used the complete data had I wished. I will include a request that SAS use procedures due to Hotelling-Lawley-McKeon (hlm) and Hotelling-Lawley-Pillai-Samson (hlps) which do a better job of estimating the degrees of freedom for our denominators. This is recommended for an unstructured model. The results are shown below. Results using unstructured matrix Notice the matrix of correlations. From pretest to the 6 month follow-up the correlation with pretest scores has dropped from .46 to -.03, and this pattern is consistent. That certainly doesnt inspire confidence in compound symmetry. The F s have not changed very much from the previous model, but the degrees of freedom for within-subject terms have dropped from 57 to 22, which is a huge drop. That results from the fact that the model had to make additional estimates of covariances. Finally, the hlm and hlps statistics further reduce the degrees of freedom to 20, but the effects are still significant. This would make me feel pretty good about the study if the data had been real data. But we have gone from one extreme to another. We estimated two covariance parameters when we used type cs and 10 covariance parameters when we used type un. (Put another way, with the unstructured solution we threw up our hands and said to the program You figure it out We dont know whats going on. There is a middle ground (in fact there are many). We probably do know at least something about what those correlations should look like. Often we would expect correlations to decrease as the trials in question are further removed from each other. They might not decrease as fast as our data suggest, but they should probably decrease. An autoregressive model, which we will see next, assumes that correlations between any two times depend on both the correlation at the previous time and an error component. To put that differently, your score at time 3 depends on your score at time 2 and error. (This is a first order autoregression model. A second order model would have a score depend on the two previous times plus error.) In effect an AR(1) model assumes that if the correlation between Time 1 and Time 2 is .51, then the correlation between Time 1 and Time 3 has an expected value of .512 2 .26 and between Time 1 and Time 4 has an expected value of .513 3 .13. Our data look reasonably close to that. (Remember that these are expected values of r . not the actual obtained correlations.) The solution using a first order autoregressive model follows. Notice the pattern of correlations. The .6182 as the correlation between adjacent trials is essentially an average of the correlations between adjacent trials in the unstructured case. The .3822 is just .61822 2 and .2363 .61823 3. Notice that tests on within-subject effects are back up to 57 df, which is certainly nice, and our results are still significant. This is a far nicer solution than we had using Proc GLM . Now we have three solutions, but which should we choose One aid in choosing is to look at the Fit Statistics that are printed out with each solution. These statistics take into account both how well the model fits the data and how many estimates it took to get there. Put loosely, we would probably be happier with a pretty good fit based on few parameter estimates than with a slightly better fit based on many parameter estimates. If you look at the three models we have fit for the unbalanced design you will see that the AIC criterion for the type cs model was 909.4, which dropped to 903.7 when we relaxed the assumption of compound symmetry. A smaller AIC value is better, so we should prefer the second model. Then when we aimed for a middle ground, by specifying the pattern or correlations but not making SAS estimate 10 separate correlations, AIC dropped again to 899.1. That model fit better, and the fact that it did so by only estimating a variance and one correlation leads us to prefer that model. SPSS Mixed You can accomplish the same thing using SPSS if you prefer. I will not discuss the syntax here, but the commands are given below. You can modify this syntax by replacing CS with UN or AR(1) if you wish. (A word of warning. For some reason SPSS has changed the way it reads missing data. In the past you could just put in a period and SPSS knew that was missing. It no longer does so. You need to put in something like -99 and tell it that -99 is the code for missing. While Im at it, they changed something else. In the past it distinguished one value from another by looking for white space. Thus if there were a tab, a space, 3 spaces, a space and a tab, or whatever, it knew that it had read one variable and was moving on to the next. NOT ANYMORE I cant imagine why they did it, but for some ways of readig the data, if you put two spaces in your data file to keep numbers lined up vertically, it assumes that the you have skipped a variable. Very annoying. Just use one space or one tab between entries.) Analyses Using R The following commands will run the same analysis using the R program (or using S-PLUS). The results will not be exactly the same, but they are very close. Lines beginning with are comments. In revising this version I found the following reference just stuck in the middle of nowhere. I dont recall why I did that, but Bodo Winter has an excellent page that I recommend that you look at. The link is bodowintertutorialbwLMEtutorial2.pdf. Where do we go now This document is sufficiently long that I am going to create a new one to handle this next question. In that document we will look at other ways of doing much the same thing. The reason why I move to alternative models, even though they do the same thing, is that the logic of those models will make it easier for you to move to what are often called single-case designs or multiple baseline designs when we have finished with what is much like a traditional analysis of variance approach to what we often think of as traditional analysis of variance designs. References Guerin, L. and W. W. Stroup. 2000. A simulation study to evaluate PROC MIXED analysis of repeated measures data. P. 170-203. In Proc. 12th Kansas State Univ. Conf. on Applied Statistics in Agriculture. Kansas State Univ. Manhattan. Howell, D. C. (2008) The analysis of variance. In Osborne, J. I. Best practices in Quantitative Methods. Sage. Little, R. C. Milliken, G. A. Stroup, W. W. Wolfinger, R. D. Schabenberger, O. (2006). SAS for Mixed Models. Cary. NC. SAS Institute Inc. Maxwell, S. E. Delaney, H. D. (2004) Designing Experiments and Analyzing Data: A Model Comparison Approach, 2nd edition. Belmont, CA. Wadsworth. Overall, J. E. Ahn, C. Shivakumar, C. Kalburgi, Y. (1999). Problematic formulations of SAS Proc. Mixed models for repeated measurements. Journal of Biopharmaceutical Statistics, 9, 189-216. Overall, J. E. Tonindandel, S. (2002) Measuring change in controlled longitudinal studies. British Journal of Mathematical and Statistical Psychology, 55, 109-124. Overall, J. E. Tonindandel, S. (2007) Analysis of data from a controlled repeated measurements design with baseline-dependent dropouts. Methodology, 3, 58-66. Pinheiro, J. C. Bates, D. M. (2000). Mixed-effects Models in S and S-Plus. Springer. Some good references on the web are: The following is a good reference for people with questions about using SAS in general. Downloadable Papers on Multilevel Models Good coverage of alternative covariance structures The main reference for SAS Proc Mixed is Little, R. C. Milliken, G. A. Stroup, W. W. Wolfinger, R. D. Schabenberger, O. (2006) SAS for mixed models, Cary, NC SAS Institute Inc. Maxwell, S. E. Delaney, H. D. (2004). Designing Experiments and Analyzing Data (2nd edition). Lawrence Erlbaum Associates. The classic reference for R is Penheiro, J. C. Bates, D. M. (2000) Mixed-effects models in S and S-Plus. New York: Springer.

Comments