Mathematik

Statistik - Versuchsaufbau

Experimentelles Design

Daten für statistische Studien werden entweder durch Experimente oder durch Umfragen erhalten. Experimentelles Design ist der Zweig der Statistik, der sich mit dem Design und der Analyse von Experimenten befasst. Die Methoden des experimentellen Designs sind in den Bereichen Landwirtschaft, Medizin , Biologie , Marktforschung und industrielle Produktion weit verbreitet.

In einer experimentellen Studie interessierende Variablen werden identifiziert. Eine oder mehrere dieser Variablen, die als bezeichnet werdenFaktoren der Studie werden so gesteuert, dass Daten darüber erhalten werden können, wie die Faktoren eine andere Variable beeinflussen, die als bezeichnet wirdAntwortvariable oder einfach die Antwort. Betrachten Sie als Beispiel ein Experiment, mit dem die Wirkung von drei verschiedenen Trainingsprogrammen auf den Cholesterinspiegel von Patienten mit erhöhtem Cholesterin bestimmt werden soll. Jeder Patient wird als bezeichnetexperimentelle Einheit, die Antwortvariable ist der Cholesterinspiegel des Patienten nach Abschluss des Programms, und das Übungsprogramm ist der Faktor, dessen Auswirkung auf den Cholesterinspiegel untersucht wird. Jedes der drei Übungsprogramme wird als bezeichnetBehandlung .

Drei der am weitesten verbreiteten Versuchspläne sind die vollständig randomisiertes Design, das randomisierte Blockdesign und das faktorielle Design. In einem vollständig randomisierten experimentellen Design werden die Behandlungen zufällig den experimentellen Einheiten zugeordnet. Wenn diese Entwurfsmethode beispielsweise auf die Cholesterinspiegelstudie angewendet wird, werden die drei Arten von Übungsprogrammen (Behandlung) zufällig den experimentellen Einheiten (Patienten) zugeordnet.

Die Verwendung eines vollständig randomisierten Designs führt zu weniger genauen Ergebnissen, wenn Faktoren, die vom Experimentator nicht berücksichtigt werden, die Antwortvariable beeinflussen. Betrachten wir zum Beispiel ein Experiment entworfen , um die Wirkung von zwei verschiedenen zu studieren Benzinadditive auf der Kraftstoffeffizienz, gemessen in Meilen pro Gallone (mpg), von Automobilen voller Größe, die von drei Herstellern hergestellt wurden. Angenommen, 30 Automobile, 10 von jedem Hersteller, waren für das Experiment verfügbar. In einem vollständig randomisierten Design würden die beiden Benzinadditive (Behandlungen) zufällig den 30 Automobilen zugeordnet, wobei jedes Additiv 15 verschiedenen Autos zugeordnet würde. Angenommen, Hersteller 1 hat einen Motor entwickelt, der seinen Autos in voller Größe eine höhere Kraftstoffeffizienz verleiht als die von Hersteller 2 und 3. Ein vollständig randomisiertes Design könnte zufällig seinIn einem solchen Fall kann das Benzinadditiv 1 als sparsamer eingestuft werden, wenn der beobachtete Unterschied tatsächlich auf das bessere Motordesign der vom Hersteller hergestellten Automobile zurückzuführen ist 1. Um dies zu verhindern, könnte ein Statistiker ein Experiment entwerfen, bei dem beide Benzinadditive mit fünf von jedem Hersteller hergestellten Fahrzeugen getestet werden. Auf diese Weise würden vom Hersteller verursachte Effekte den Test auf signifikante Unterschiede aufgrund von Benzinadditiv nicht beeinträchtigen. In diesem überarbeiteten Experiment wird jeder Hersteller als Block bezeichnet, und das Experiment wird als a bezeichnetrandomisiertes Blockdesign. Im Allgemeinen wird die Blockierung verwendet, um Vergleiche zwischen den Behandlungen innerhalb von Blöcken homogener experimenteller Einheiten zu ermöglichen.

Faktorielle Experimente sollen Rückschlüsse auf mehr als einen Faktor oder eine Variable ziehen. Der Begriff Fakultät wird verwendet, um anzuzeigen, dass alle möglichen Kombinationen der Faktoren berücksichtigt werden. Zum Beispiel, wenn es zwei Faktoren , die mit einem Ebene für den Faktor 1 und b Niveaus für den Faktor 2, wird das Experiment beinhaltet Daten über das Sammeln einer b Behandlungskombinationen. Das faktorielle Design kann auf Experimente mit mehr als zwei Faktoren und Experimente mit partiellen faktoriellen Designs erweitert werden.

Varianzanalyse und Signifikanztests

Ein Berechnungsverfahren, das häufig zur Analyse der Daten aus einer experimentellen Studie verwendet wird, verwendet ein statistisches Verfahren, das als Varianzanalyse bekannt ist. Für ein Einzelfaktorexperiment verwendet dieses Verfahren einen Hypothesentest bezüglich der Mittel zur Gleichbehandlung, um festzustellen, ob der Faktor einen statistisch signifikanten Einfluss auf die Antwortvariable hat. Für Versuchspläne mit mehreren Faktoren kann ein Test auf die Signifikanz jedes einzelnen Faktors sowie auf Wechselwirkungseffekte durchgeführt werden, die durch einen oder mehrere gemeinsam wirkende Faktoren verursacht werden. Weitere Erläuterungen zur Varianzanalyse finden Sie im folgenden Abschnitt.

Regression und Korrelationsanalyse

Bei der Regressionsanalyse wird die Beziehung zwischen a abhängige Variable und eine oder mehrere unabhängige Variablen . Ein Modell der Beziehung wird angenommen, und Schätzungen der Parameterwerte werden verwendet, um eine geschätzte Regressionsgleichung zu entwickeln . Anschließend werden verschiedene Tests durchgeführt, um festzustellen, ob das Modell zufriedenstellend ist. Wenn das Modell als zufriedenstellend erachtet wird, kann die geschätzte Regressionsgleichung verwendet werden, um den Wert der abhängigen Variablen mit gegebenen Werten für die unabhängigen Variablen vorherzusagen.

Regressionsmodell

Im einfache lineare Regression , das Modell zur Beschreibung der Beziehung zwischen einer einzelnen abhängigen Variablen y und einer einzelnen unabhängigen Variablen x ist y = β 0 + β 1 x + ε. β 0 und β 1 werden als bezeichnetModellparameter und ε ist a probabilistischer Fehlerterm, der die Variabilität in y erklärt , die nicht durch die lineare Beziehung zu x erklärt werden kann . Wenn der Fehlerterm nicht vorhanden wäre, wäre das Modell deterministisch; In diesem Fall würde die Kenntnis des Wertes von x ausreichen, um den Wert von y zu bestimmen .

Im multiple regression analysis, the model for simple linear regression is extended to account for the relationship between the dependent variable y and p independent variables x1, x2, . . ., xp. The general form of the multiple regression model is y = β0 + β1x1 + β2x2 + . . . + βpxp + ε. The parameters of the model are the β0, β1, . . ., βp, and ε is the error term.

Least squares method

Either a simple or multiple regression model is initially posed as a hypothesis concerning the relationship among the dependent and independent variables. The least squares method is the most widely used procedure for developing estimates of the model parameters. For simple linear regression, the least squares estimates of the model parameters β0 and β1 are denoted b0 and b1. Using these estimates, an estimated regression equation is constructed: ŷ = b0 + b1x . The graph of the estimated regression equation for simple linear regression is a straight line approximation to the relationship between y and x.

As an illustration of regression analysis and the least squares method, suppose a university medical centre is investigating the relationship between stress and blood pressure. Assume that both a stress test score and a blood pressure reading have been recorded for a sample of 20 patients. The data are shown graphically in Figure 4, called a Streudiagramm . Die Werte der unabhängigen Variablen, Stresstest-Punktzahl, sind auf der horizontalen Achse angegeben, und die Werte der abhängigen Variablen, Blutdruck, sind auf der vertikalen Achse angegeben. Die Linie, die durch die Datenpunkte verläuft, ist der Graph der geschätzten Regressionsgleichung: ŷ = 42,3 + 0,49 x . Die Parameterschätzungen b 0 = 42,3 und b 1 = 0,49 wurden unter Verwendung der Methode der kleinsten Quadrate erhalten.

A primary use of the estimated regression equation is to predict the value of the dependent variable when values for the independent variables are given. For instance, given a patient with a stress test score of 60, the predicted blood pressure is 42.3 + 0.49(60) = 71.7. The values predicted by the estimated regression equation are the points on the line in Figure 4, and the actual blood pressure readings are represented by the points scattered about the line. The difference between the observed value of y and the value of y predicted by the estimated regression equation is called a residual. The least squares method chooses the parameter estimates such that the sum of the squared residuals is minimized.

Analysis of variance and goodness of fit

Ein häufig verwendetes Maß für die Anpassungsgüte, die durch die geschätzte Regressionsgleichung bereitgestellt wird, ist die Bestimmungskoeffizient . Die Berechnung dieses Koeffizienten basiert auf der Varianzanalyse, bei der die Gesamtvariation in der mit SST bezeichneten abhängigen Variablen in zwei Teile unterteilt wird: den durch die geschätzte Regressionsgleichung mit SSR erklärten Teil und den als SSE bezeichneten Teil, der ungeklärt bleibt .

Das Maß für die Gesamtvariation SST ist die Summe der quadratischen Abweichungen der abhängigen Variablen um ihren Mittelwert: Σ ( y - ȳ ) 2 . Diese Menge wird als bezeichnetGesamtsumme der Quadrate. Das Maß für die ungeklärte Variation, SSE, wird als das bezeichnetresidual sum of squares. For the data in Figure 4, SSE is the sum of the squared distances from each point in the scatter diagram (see Figure 4) to the estimated regression line: Σ(yŷ)2. SSE is also commonly referred to as the error sum of squares. A key result in the analysis of variance is that SSR + SSE = SST.

The ratio r2 = SSR/SST is called the coefficient of determination. If the data points are clustered closely about the estimated regression line, the value of SSE will be small and SSR/SST will be close to 1. Using r2, whose values lie between 0 and 1, provides a measure of goodness of fit; values closer to 1 imply a better fit. A value of r2 = 0 implies that there is no linear relationship between the dependent and independent variables.

When expressed as a percentage, the coefficient of determination can be interpreted as the percentage of the total sum of squares that can be explained using the estimated regression equation. For the stress-level research study, the value of r2 is 0.583; thus, 58.3% of the total sum of squares can be explained by the estimated regression equation ŷ = 42.3 + 0.49x. For typical data found in the social sciences, values of r2 as low as 0.25 are often considered useful. For data in the physical sciences, r2 values of 0.60 or greater are frequently found.

Significance testing

In a regression study, hypothesis tests are usually conducted to assess the statistical significance of the overall relationship represented by the regression model and to test for the statistical significance of the individual parameters. The statistical tests used are based on the following assumptions concerning the error term: (1) ε is a random variable with an expected value of 0, (2) the variance of ε is the same for all values of x, (3) the values of ε are independent, and (4) ε is a normally distributed random variable.

The mean square due to regression, denoted MSR, is computed by dividing SSR by a number referred to as its degrees of freedom; in a similar manner, the mean square due to error, MSE, is computed by dividing SSE by its degrees of freedom. An F-test based on the ratio MSR/MSE can be used to test the statistical significance of the overall relationship between the dependent variable and the set of independent variables. In general, large values of F = MSR/MSE support the conclusion that the overall relationship is statistically significant. If the overall model is deemed statistically significant, statisticians will usually conduct hypothesis tests on the individual parameters to determine if each independent variable makes a significant contribution to the model.