Change log

## install packages with:
# install.packages(c("glmnet", "pls", "boot"))
# remotes::install_github("statOmics/HDDAData")
library(HDDAData)
library(glmnet)
library(pls)
library(boot)

1 Introduction

In this lab session we will look at the following topics

Demonstrate why low-dimensional prediction modeling fails in high-dimensional settings.
Carry out Principal Component Regression (PCR).
Use glmnet() to carry out ridge regression, lasso and elastic net.
Evaluate these trained prediction models.

1.1 The dataset

In this practical, we will use the dataset eyedata provided by the NormalBetaPrime package. This dataset contains gene expression data of 200 genes for 120 samples. The data originates from microarray experiments of mammalian eye tissue samples.

The dataset consists of two objects:

genes: a $120 \times 200$ matrix with the expression levels of 200 genes (columns) for 120 samples (rows)
trim32: a vector with 120 expression levels of the TRIM32 gene.

data(eyedata)
genes <- eyedata$genes
trim32 <- eyedata$trim32

## Look at objects that were just loaded
str(genes)
#>  num [1:120, 1:200] 3.68 3.58 3.85 4.13 3.88 ...
#>  - attr(*, "dimnames")=List of 2
#>   ..$ : chr [1:120] "V2" "V3" "V4" "V5" ...
#>   ..$ : chr [1:200] "1377" "1748" "2487" "2679" ...
str(trim32)
#>  num [1:120] 8.42 8.36 8.41 8.29 8.27 ...

The goal of this exercise is to predict the expression levels of TRIM32 from the expression levels of the 200 genes measured in the microarray experiment. For this, it makes sense to start by constructing centered (and possibly scaled) data. We store this in two matrices X and Y:

X <- scale(genes, center = TRUE, scale = TRUE)
Y <- scale(trim32, center = TRUE)

Remember that scaling avoids that differences in levels of magnitude will give one variable (gene) more influence in the result. This has been illustrated in the second practical session as well. For the Y vector, this is less of an issue as we’re talking about a single variable. Not scaling will make the predictions interpretable as “deviations from the mean”.

1.2 The curse of singularity

We begin by assuming that the predictors and the outcome have been centered so that the intercept is 0. We are presented with the usual regression model:

$\begin{align*} &Y_i=\beta_i X_{i1}+\dots+\beta_pX_{ip}+\epsilon_i \\ &\text{ Or } \mathbf{Y}={\mathbf{X}}{\boldsymbol{\beta}} +{\boldsymbol{\epsilon}} \end{align*}$

Our goal is to get the least squares estimator of ${\boldsymbol{\beta}}$ , given by

$\hat{{\boldsymbol{\beta}}}= (\mathbf{X}^T{\mathbf{X}})^{-1}{\mathbf{X}}^T{\mathbf{Y}}$

in which the $p \times p$ matrix $({\mathbf{X}}^T{\mathbf{X}})^{-1}$ is crucial! To be able to calculate the inverse of ${\mathbf{X}}^T \mathbf{X}$ , it has to be of full rank $p$ , which would be 200 in this case. Let’s check this:

dim(X) # 120 x 200, so p > n!
#> [1] 120 200
qr(X)$rank
#> [1] 119

XtX <- crossprod(X) # calculates t(X) %*% X more efficiently
qr(XtX)$rank
#> [1] 119

# Try to invert using solve:
solve(XtX)
#> Error in solve.default(XtX): system is computationally singular: reciprocal condition number = 4.54594e-20

We realize we cannot compute $({\mathbf{X}}^T{\mathbf{X}})^{-1}$ because the rank of $({\mathbf{X}}^T{\mathbf{X}})$ is less than $p$ hence we can’t get $\hat{{\boldsymbol{\beta}}}$ by means of least squares! This is generally referred to as the singularity problem.

2 Principal component regression

A first way to deal with this singularity, is to bypass it using principal components. Since $\min(n,p) = n = 120$ , PCA will give 120 components, each being a linear combination of the $p$ = 200 variables. These 120 PCs contain all information present in the original data. We could as well use an approximation of ${\mathbf{X}}$ , i.e using just a few ( $k<120$ ) PCs. So we use PCA as a method for reducing the dimensions while retaining as much variation between the observations as possible. Once we have these PCs, we can use them as variables in a linear regression model.

2.1 Classic linear regression on PCs

We first compute the PCA on the data with prcomp. We will use an arbitrary cutoff of $k = 4$ PCs to illustrate the process of performing regression on the PCs.

k <- 4 # Arbitrarily chosen k=4
pca <- prcomp(X)
Vk <- pca$rotation[, 1:k] # the loadings matrix
Zk <- pca$x[, 1:k] # the scores matrix

# Use the scores in classic linear regression
pcr_model1 <- lm(Y ~ Zk)
summary(pcr_model1)
#> 
#> Call:
#> lm(formula = Y ~ Zk)
#> 
#> Residuals:
#>      Min       1Q   Median       3Q      Max 
#> -1.72388 -0.34723  0.02811  0.27817  2.03271 
#> 
#> Coefficients:
#>               Estimate Std. Error t value Pr(>|t|)    
#> (Intercept) -1.494e-14  5.454e-02   0.000   1.0000    
#> ZkPC1       -7.172e-02  4.950e-03 -14.488   <2e-16 ***
#> ZkPC2        1.273e-02  1.342e-02   0.949   0.3447    
#> ZkPC3        3.371e-02  2.326e-02   1.449   0.1500    
#> ZkPC4        5.908e-02  2.535e-02   2.330   0.0215 *  
#> ---
#> Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
#> 
#> Residual standard error: 0.5975 on 115 degrees of freedom
#> Multiple R-squared:  0.655,  Adjusted R-squared:  0.643 
#> F-statistic: 54.58 on 4 and 115 DF,  p-value: < 2.2e-16

As $\mathbf{X}$ and $\mathbf{Y}$ are centered, the intercept is approximately 0.

The output shows that PC1 and PC4 have a $\beta$ estimate that differs significantly from 0 (at $p < 0.05$ ), but the results can’t be readily interpreted, since we have no immediate interpretation of the PCs.

2.2 Using the package `pls`

PCR can also be performed using the pcr() function from the package pls directly on the data (so without having to first perform the PCA manually). When using this function, you have to keep a few things in mind:

the number of components (PCs) to use is passed with the argument ncomp
the function allows you to scale (set scale = TRUE) and center (set center = TRUE) the predictors first (in the example here, $\mathbf{X}$ has already been centered and scaled).

You can use the function pcr() in much the same way as you would use lm(). The resulting fit can easily be examined using the function summary(), but the output looks quite different from what you would get from lm.

# X is already scaled and centered, so that's not needed.
pcr_model2 <- pcr(Y ~ X, ncomp = 4)
summary(pcr_model2)
#> Data:    X dimension: 120 200 
#>  Y dimension: 120 1
#> Fit method: svdpc
#> Number of components considered: 4
#> TRAINING: % variance explained
#>    1 comps  2 comps  3 comps  4 comps
#> X    61.22    69.55    72.33    74.66
#> Y    62.97    63.24    63.87    65.50

First of all the output shows you the data dimensions and the fitting method used. In this case, that is PC calculation based on SVD. The summary() function also provides the percentage of variance explained in the predictors and in the response using different numbers of components. For example, the first PC only captures 61.22% of all the variance, or information in the predictors and it explains 62.9% of the variance in the outcome. Note that for both methods the choice of the number of principal components was arbitrary chosen to be 4.

At a later stage, we will look at how to choose the number of components that has the smallest prediction error.

3 Ridges, Lassos and Elastic Nets

Ridge regression, lasso regression and elastic nets are all closely related techniques, based on the same idea: add a penalty term to the estimating function so $({\mathbf{X}}^T{\mathbf{X}})$ becomes full rank again and is invertible. Two different penalty terms or regularization methods can be used:

L1 regularization: this regularization adds a term ${\lambda\|\boldsymbol{\beta}\|_{1}}$ to the least squares criterion. The term will add a penalty based on the absolute value of the magnitude of the coefficients. This is used by lasso regression.

$\hat{\boldsymbol{\beta}}^{\text{lasso}} = \text{argmin}_{\boldsymbol{\beta}}\displaystyle({(\mathbf{Y}-\mathbf{X}\boldsymbol{\beta})^T(\mathbf{Y}-\mathbf{X}\boldsymbol{\beta})+{\lambda\|\boldsymbol{\beta}\|_{1}}}\displaystyle)$

L2 regularization: this regularization adds a term ${\lambda\|\boldsymbol{\beta}\|_{2}^{2}}$ to the least squares criterion. The penalty term is based on the square of the magnitude of the coefficients. This is used by ridge regression.

$\hat{\boldsymbol{\beta}}^{\text{ridge}} = \text{argmin}_{\boldsymbol{\beta}}\displaystyle({(\mathbf{Y}-\mathbf{X}\boldsymbol{\beta})^T(\mathbf{Y}-\mathbf{X}\boldsymbol{\beta})+{\lambda\|\boldsymbol{\beta}\|_{2}^{2}}}\displaystyle)$

Elastic net regression combines both types of regularization. It does so by introducing a mixing parameter $\alpha \in [0, 1]$ that essentially combines the L1 and L2 norms in a weighted average.

$\hat{\boldsymbol{\beta}}^{\text{el.net}} = \text{argmin}_{\boldsymbol{\beta}}\displaystyle({(\mathbf{Y}-\mathbf{X}\boldsymbol{\beta})^{T}(\mathbf{Y}-\mathbf{X}\boldsymbol{\beta})+{\alpha \lambda\|\boldsymbol{\beta}\|_{1}}+ {(1 - \alpha)\lambda\|\boldsymbol{\beta}\|_{2}^{2}}}\displaystyle)$

4 Exercise: Verification of ridge regression

In least square regression the minimization of the estimation function $|{\mathbf{Y} - \mathbf{X} \boldsymbol{\beta}}\|^{2}_{2}$ leads to the solution ${\boldsymbol{\hat{\beta}}=(\mathbf{X^TX})^{-1}\mathbf{X^TY}}$ .

For the penalized least squares criterion used by ridge regression, you minimize $\|{\mathbf{Y}-\mathbf{X}\boldsymbol{\beta}\|^{2}_{2}}+\lambda{\boldsymbol{\|\beta\|^{2}_{2}}}$ which leads to following solution:

${\boldsymbol{\hat{\beta}}=(\mathbf{X^TX}}+\lambda{\mathbf{I}})^{-1}{\mathbf{X^TY}}$

where $\mathbf{I}$ is the $p \times p$ identity matrix.

The ridge parameter $\lambda$ shrinks the coefficients towards 0, with $\lambda = 0$ being equivalent to OLS (no shrinkage) and $\lambda = +\infty$ being equivalent to setting all $\hat{\beta}$ ’s to 0. The optimal parameter lies somewhere in between and needs to be tuned by the user.

Tasks

Solve the following exercises using R.

1. Verify that ${\mathbf{(X^TX}}+\lambda{\mathbf{I}})$ has rank $200$ , for any $\lambda>0$ of your choice.

Solution

XtX <- crossprod(X)
p <- ncol(X)
lambda <- 2 # My choice

# Compute penalized matrix
XtX_lambdaI <- XtX + (lambda * diag(p))
dim(XtX_lambdaI)
#> [1] 200 200
qr(XtX_lambdaI)$rank == 200 # indeed
#> [1] TRUE

2. Check that the inverse of ${\mathbf{(X^TX}}+\lambda{\mathbf{I}})$ can be computed.

Solution

# Yes, it can be computed (no error)
XtX_lambdaI_inv <- solve(XtX_lambdaI)
str(XtX_lambdaI_inv)
#>  num [1:200, 1:200] 0.25408 -0.02756 0.00453 -0.02961 0.00722 ...
#>  - attr(*, "dimnames")=List of 2
#>   ..$ : chr [1:200] "1377" "1748" "2487" "2679" ...
#>   ..$ : chr [1:200] "1377" "1748" "2487" "2679" ...

3. Finally, compute ${\boldsymbol{\hat{\beta}}=(\mathbf{X^TX}}+\lambda{\mathbf{I}})^{-1}{\mathbf{X^TY}}$ .

Solution

## Calculate ridge beta estimates
## Use `drop` to drop dimensions and create vector
ridge_betas <- drop(XtX_lambdaI_inv %*% t(X) %*% Y)
length(ridge_betas) # one for every gene
#> [1] 200
summary(ridge_betas)
#>      Min.   1st Qu.    Median      Mean   3rd Qu.      Max. 
#> -0.235089 -0.045535 -0.008577 -0.000279  0.054195  0.215292

We have now manually calculated the ridge regression estimates.

5 Performing ridge and lasso regression with `glmnet`

The package glmnet provides a function glmnet() that allows you to fit all three types of regressions. Which type is used, can be determined by specifying the alpha argument. For a ridge regression, you set alpha to 0, and for a lasso regression you set alpha to 1. Other alpha values between 0 and 1 will fit a form of elastic net. This function has slightly different syntax from the other model-fitting functions. To be able to use it, you have to pass a x matrix as well as a y vector, and you don’t use the formula syntax.

The $\lambda$ parameter, which controls the “strength” of the penalty, can be passed by the argument lambda. The function glmnet() can also carry out a search for finding the best $\lambda$ value for a fit. This can be done by passing multiple values to the argument lambda. If not supplied, glmnet will generate a range of values itself, based on the data whereby the number of values can be controlled with the nlambda argument. This is generally the recommended way to use glmnet, see ?glmnet for details.

For a thorough introduction to the glmnet package and elastic net models in general, see the glmnet introduction vignette

Demonstration: Ridge regression

Let’s perform a ridge regression in order to predict expression levels of the TRIM32 gene using the 200 gene probes data. We can start by using a $\lambda$ value of 2.

lambda <- 2
ridge_model <- glmnet(X, Y, alpha = 0, lambda = lambda)

# have a look at the first 10 coefficients
coef(ridge_model)[1:10]
#>  [1] -1.532831e-14 -5.818717e-03 -9.888023e-03  5.100910e-03 -2.482488e-03
#>  [6] -8.341285e-03 -4.528922e-03 -7.961890e-03 -5.039029e-03  6.325841e-03

The first coefficient is the intercept, and is again essentially 0. But a value of 2 for $\lambda$ might not be the best choice, so let’s see how the coefficients change with different values for $\lambda$ .

We will create a grid of $\lambda$ values, i.e. a range of values that will be used as input for the glmnet function. Note that this function can take a vector of values as input for the lambda argument, allowing to fit multiple models with the same input data but different hyperparameters. For computational efficieny, it is recommended to specify the grid as a decreasing sequence.

grid <- seq(1000, 1, by = -9) # 1000 to 1 with steps of 9
ridge_mod_grid <- glmnet(X, Y, alpha = 0, lambda = grid)

# Plot the coefficients against the (natural) LOG lambda sequence!
# see ?plot.glmnet
plot(ridge_mod_grid, xvar = "lambda", xlab = "log(lambda)")
# add a vertical line at lambda = 2
text(log(lambda), -0.05, labels = expression(lambda == 2),
     adj = -0.5, col = "firebrick")
abline(v = log(lambda), col = "firebrick", lwd = 2)

This plot is known as a coefficient profile plot, each colored line represents a coefficient $\hat{\beta}$ from the regression model and shows how they change with increased values of $\lambda$ (on the log-scale) ¹.

Note that for higher values $\lambda$ , the coefficient estimates become closer to 0, showing the shrinkage effect of the ridge penalty.

Similar to the PC regression example, we chose $\lambda=2$ and the grid rather arbitrarily. We will see subsequently how to choose the $\lambda$ that minimizes the prediction error.

6 Exercise: Lasso regression

Lasso regression is also a form of penalized regression, but we do not have an analytic solution of $\hat{{\boldsymbol{\beta}}}$ as in least squares and ridge regression. In order to fit a lasso model, we once again use the glmnet() function. However, this time we use the argument alpha = 1

Tasks

1. Perform a lasso regression with the `glmnet` function with `Y` the response and `X` the predictors.

You can either provide a custom descending sequence of $\lambda$ (lambda) values or instead rely on glmnet’s default behaviour of choosing the grid of $\lambda$ values based on the data (see ?glmnet for more details).

Solution

# Note that the glmnet() function can supply lambda automatically
# By default it uses a sequence of 100 lambda values
lasso_model <- glmnet(X, Y, alpha = 1)

2. Make the coefficient profile plot and interpret.

Solution

plot(lasso_model, xvar = "lambda", xlab = "log(lambda)")

Note that the number of non-zero coefficients is indicated at the top of the plot. In the case of lasso-regression the regularization is much less smooth compared to the ridge regression, with some coefficients increasing for higher $\lambda$ before sharply dropping to zero. In contrast to ridge, lasso eventually shrinks all coefficients to 0.

7 Evaluation of prediction models and tuning hyperparameters

First we will split our original data in a training and test set to validate our model. The training set will be used to train the model and tune the hyperparameters, while the test set will be used to evaluate the out-of-sample performance of our final model. If we would use the same data to both fit and test the model, we would get biased results.

Before we begin, we use the set.seed() function in order to set a seed for R’s random number generator, so that we will all obtain precisely the same results as those shown below. It is generally good practice to set a random seed when performing an analysis such as cross-validation that contains an element of randomness, so that the results obtained can be reproduced at a later time.

We begin by using the sample() function to split the set of samples into two subsets, by selecting a random subset of 80 observations out of the original 120 observations. We refer to these observations as the training set. The rest of the observations will be used as the test set.

set.seed(1)
# Sample 80 random IDs from the rows of X (120 total)
trainID <- sample(nrow(X), 80)

# Training data
trainX <- X[trainID, ]
trainY <- Y[trainID]

# Test data
testX <- X[-trainID, ]
testY <- Y[-trainID]

To make fitting the models a bit easier later, we will also create 2 data.frames combining the response and predictors for the training and test data.

train_data <- data.frame("TRIM32" = trainY, trainX)
test_data <- data.frame("TRIM32" = testY, testX)

## Glancing at the data structure: for the first 10 columns only
str(train_data[, 1:10])
#> 'data.frame':    80 obs. of  10 variables:
#>  $ TRIM32: num  0.564 0.231 0.215 -0.239 -0.226 ...
#>  $ X1377 : num  -0.1498 -0.254 -0.7058 0.1164 -0.0195 ...
#>  $ X1748 : num  -0.3063 -0.4263 -0.4714 -0.5319 -0.0733 ...
#>  $ X2487 : num  -0.3588 0.3651 0.0306 0.6907 -1.0774 ...
#>  $ X2679 : num  0.2111 -0.0638 -0.0614 -0.129 -0.5161 ...
#>  $ X2789 : num  -0.0347 0.8042 -0.0639 0.4437 -0.0162 ...
#>  $ X2875 : num  -0.469 -0.535 -0.656 0.134 0.138 ...
#>  $ X3244 : num  0.603 -0.639 0.813 -1.101 0.122 ...
#>  $ X3375 : num  0.2031 -0.00797 -0.22859 0.45933 -0.11757 ...
#>  $ X3732 : num  0.317 -0.517 -0.226 -1.508 0.132 ...

7.1 Model evaluation

We are interested in the out-of-sample error of our models, i.e. how good our model does on unseen data. This will allow us to compare different classes of models. For continuous outcomes we will use the mean squared error (MSE) (or its square-root version, the RMSE).

The evaluation will allow us to compare the performance of different types of models, e.g. PC regression, ridge regression and lasso regression, on our data. However, we still need to find the optimal model within each of these classes, by selecting the best hyperparameter (number of PCs for PC regression and $\lambda$ for lasso and ridge). For that we will use $k$ -fold Cross Validation on our training set.

7.2 Tuning hyperparameters

The test set is only used to evaluate the final model. To achieve this final model, we need to find the optimal hyperparameters, i.e. the hyperparameters that best generalize the model to unseen data. We can estimate this by using k-fold cross validation ( $CV_k$ ) on the training data.

The $CV_k$ estimates can be automatically computed for any generalized linear model (generated with glm() and by extension glmnet()) using the cv.glm() function from the boot package.

8 Example: PC regression evaluation

We start with the PC regression and look for the optimal number of PCs that minimizes the MSE using $k$ -fold Cross validation. We then use this optimal number of PCs to train the final model and evaluate it on the test data.

8.1 k-fold Cross Validation to tune number of components

Conveniently, the pcr function from the pls package has an implementation for k-fold Cross Validation. We simply need to set validation = CV and segments = 20 to perform 20-fold Cross Validation with PC regression. If we don’t specify ncomp, pcr will select the maximum number of PCs that can be used for the CV.

Note that our training data trainX consists of 80 observations (rows). If we perform 20-fold CV, that means we will split the data in 20 groups, so each group will consist of 4 observations. At each CV cycle, one group will be left out and the model will be trained on the remaining groups. This leaves us with 76 training observations for each CV cycle, so the maximal number of components that can be used in the linear regression is 75.

## Set seed for reproducibility, kCV is a random process!
set.seed(123)

K <- 20

## The 'Y ~ .' notation means: fit Y by every other variable in the data
pcr_cv <- pcr(TRIM32 ~ ., data = train_data, validation = "CV", segments = K)
summary(pcr_cv)
#> Data:    X dimension: 80 200 
#>  Y dimension: 80 1
#> Fit method: svdpc
#> Number of components considered: 75
#> 
#> VALIDATION: RMSEP
#> Cross-validated using 20 random segments.
#>        (Intercept)  1 comps  2 comps  3 comps  4 comps  5 comps  6 comps
#> CV           1.112   0.7013   0.7305   0.7402   0.6939   0.6872   0.6811
#> adjCV        1.112   0.6987   0.7269   0.7375   0.6905   0.6810   0.6759
#>        7 comps  8 comps  9 comps  10 comps  11 comps  12 comps  13 comps
#> CV      0.6552   0.6812   0.6377    0.6418    0.6153    0.6126    0.6045
#> adjCV   0.6526   0.6772   0.6294    0.6347    0.6080    0.6050    0.5976
#>        14 comps  15 comps  16 comps  17 comps  18 comps  19 comps  20 comps
#> CV       0.6112    0.5882    0.5834    0.5784    0.5744    0.5752    0.5763
#> adjCV    0.6068    0.5788    0.5751    0.5702    0.5669    0.5681    0.5693
#>        21 comps  22 comps  23 comps  24 comps  25 comps  26 comps  27 comps
#> CV       0.5696    0.5654    0.5624    0.5711    0.5676    0.5691    0.5598
#> adjCV    0.5643    0.5608    0.5596    0.5735    0.5586    0.5619    0.5527
#>        28 comps  29 comps  30 comps  31 comps  32 comps  33 comps  34 comps
#> CV       0.5547    0.5441     0.542    0.5444    0.5416    0.5464    0.5497
#> adjCV    0.5491    0.5400     0.539    0.5399    0.5374    0.5426    0.5438
#>        35 comps  36 comps  37 comps  38 comps  39 comps  40 comps  41 comps
#> CV       0.5496    0.5582    0.5618    0.5892    0.5849    0.5929    0.6047
#> adjCV    0.5437    0.5533    0.5561    0.5844    0.5816    0.5882    0.5997
#>        42 comps  43 comps  44 comps  45 comps  46 comps  47 comps  48 comps
#> CV       0.6127    0.6098    0.6230    0.6204    0.6197    0.6299    0.6337
#> adjCV    0.6079    0.6086    0.6214    0.6109    0.6119    0.6211    0.6264
#>        49 comps  50 comps  51 comps  52 comps  53 comps  54 comps  55 comps
#> CV       0.6410    0.6326    0.6375    0.6595    0.6586    0.6599    0.6453
#> adjCV    0.6325    0.6250    0.6322    0.6544    0.6559    0.6548    0.6369
#>        56 comps  57 comps  58 comps  59 comps  60 comps  61 comps  62 comps
#> CV       0.6442    0.6380    0.6456    0.6389    0.6733    0.6544    0.6544
#> adjCV    0.6355    0.6264    0.6361    0.6327    0.6712    0.6555    0.6425
#>        63 comps  64 comps  65 comps  66 comps  67 comps  68 comps  69 comps
#> CV       0.6566    0.6638    0.6770    0.6657    0.6615    0.6697    0.6545
#> adjCV    0.6462    0.6549    0.6685    0.6586    0.6535    0.6634    0.6456
#>        70 comps  71 comps  72 comps  73 comps  74 comps  75 comps
#> CV       0.6435    0.6402    0.6229    0.6313     0.632    0.6192
#> adjCV    0.6361    0.6292    0.6134    0.6241     0.624    0.6113
#> 
#> TRAINING: % variance explained
#>         1 comps  2 comps  3 comps  4 comps  5 comps  6 comps  7 comps  8 comps
#> X         64.80    72.80    75.38    77.61    79.16    80.58    81.86    82.97
#> TRIM32    68.18    68.55    68.58    72.27    76.46    77.04    77.85    79.04
#>         9 comps  10 comps  11 comps  12 comps  13 comps  14 comps  15 comps
#> X         83.86     84.66     85.44     86.12     86.77     87.37     87.93
#> TRIM32    83.13     83.27     84.03     84.48     84.78     84.96     86.27
#>         16 comps  17 comps  18 comps  19 comps  20 comps  21 comps  22 comps
#> X          88.45     88.95     89.43     89.90     90.33     90.75     91.14
#> TRIM32     86.27     86.38     86.42     86.43     86.45     86.45     86.56
#>         23 comps  24 comps  25 comps  26 comps  27 comps  28 comps  29 comps
#> X          91.51     91.87     92.22     92.57     92.89     93.20     93.50
#> TRIM32     86.63     86.66     88.26     88.26     88.42     88.45     88.51
#>         30 comps  31 comps  32 comps  33 comps  34 comps  35 comps  36 comps
#> X          93.78     94.05     94.31     94.57     94.82     95.05     95.28
#> TRIM32     88.60     88.89     89.14     89.22     89.49     89.57     89.59
#>         37 comps  38 comps  39 comps  40 comps  41 comps  42 comps  43 comps
#> X          95.50     95.72     95.92     96.13     96.33     96.51     96.69
#> TRIM32     89.83     89.84     89.92     90.20     90.37     90.52     90.60
#>         44 comps  45 comps  46 comps  47 comps  48 comps  49 comps  50 comps
#> X          96.86     97.03     97.19     97.34     97.49     97.63     97.77
#> TRIM32     90.90     91.92     91.93     92.07     92.09     92.29     92.47
#>         51 comps  52 comps  53 comps  54 comps  55 comps  56 comps  57 comps
#> X          97.90     98.03     98.15     98.27     98.38     98.49     98.59
#> TRIM32     92.47     92.53     92.57     93.42     94.03     94.31     94.77
#>         58 comps  59 comps  60 comps  61 comps  62 comps  63 comps  64 comps
#> X          98.70     98.80     98.89     98.98     99.06     99.15     99.23
#> TRIM32     94.82     94.85     94.86     94.89     96.55     96.69     96.72
#>         65 comps  66 comps  67 comps  68 comps  69 comps  70 comps  71 comps
#> X          99.30     99.38     99.45     99.51     99.57     99.63     99.68
#> TRIM32     96.76     96.99     97.40     97.47     97.98     98.00     98.60
#>         72 comps  73 comps  74 comps  75 comps
#> X          99.73     99.78     99.82     99.87
#> TRIM32     98.75     98.77     99.04     99.22

We can plot the root mean squared error of prediction (RMSEP) for each number of components as follows.²

plot(pcr_cv, plottype = "validation")

The pls package also has a function selectNcomp to select the optimal number of components. Here we use the “one-sigma” method, which returns the lowest number of components for which the RMSE is within one standard error of the absolute minimum. The function also allows plotting the result by specifying plot = TRUE.

optimal_ncomp <- selectNcomp(pcr_cv, method = "onesigma", plot = TRUE)

The optimal number of components for our model is 13.

optimal_ncomp
#> [1] 13

8.2 Validation on test data

We now use our optimal number of components to train the final PCR model. This model is then validated on by generating predictions for the test data and calculating the MSE.

We define a custom function to calculate the MSE. Note that there is also an MSEP function in the pls package which does the prediction and MSE calculation in one go. But our own function will come in handy later for lasso and ridge regression.

# Mean Squared Error
## obs: observations; pred: predictions
MSE <- function(obs, pred){
  mean((drop(obs) - drop(pred))^2)
}

final_pcr_model <- pcr(TRIM32 ~ ., data = train_data, ncomp = optimal_ncomp)
pcr_preds <- predict(final_pcr_model, newdata = test_data, ncomp = optimal_ncomp)
(pcr_mse <- MSE(testY, pcr_preds))
#> [1] 0.3655052

This value on its own does not tell us very much, but we can use it to compare our PCR model with other types of models later.

Finally, we plot the predicted values for our response variable (the TRIM32 gene expression) against the actual observed values from our test set.

predplot(final_pcr_model, newdata = test_data, line = TRUE)

9 Exercise: evaluate and compare prediction models

1. Perform a lasso regression with 20-fold Cross Validation on the training data (`trainX`, `trainY`). Plot the results and select the optimal $\lambda$ parameter. Fit a final model with the selected $\lambda$ and validate it on the test data.

Hint: use the cv.glmnet() function, for 20 folds CV, set nfolds = 20 and to use the MSE metric set type.measure = "mse". Go to ?cv.glmnet for details.

Solution

set.seed(123)
lasso_cv <- cv.glmnet(trainX, trainY, alpha = 1,
                      nfolds = K, type.measure = "mse")
lasso_cv
#> 
#> Call:  cv.glmnet(x = trainX, y = trainY, type.measure = "mse", nfolds = K,      alpha = 1) 
#> 
#> Measure: Mean-Squared Error 
#> 
#>      Lambda Index Measure     SE Nonzero
#> min 0.07559    55  0.3639 0.0750      16
#> 1se 0.16668    38  0.4353 0.1646       9
plot(lasso_cv)

Note that we can extract the fitted lasso regression object from the CV result and make the coefficient profile plot as before.

plot(lasso_cv$glmnet.fit, xvar = "lambda")

We can look for the $\lambda$ values that give the best result. Here you have two possibilities :

lambda.min: the value of $\lambda$ that gives the best result for the crossvalidation.
lambda.1se: the largest value of $\lambda$ such that the MSE is within 1 standard error of the best result from the cross validation.

lasso_cv$lambda.min
#> [1] 0.07558811
lasso_cv$lambda.1se
#> [1] 0.1666817

We will use lambda.min here to fit the final model and generate predictions on the test data. Note that we don’t actually have to redo the fitting, we can just use our existing lasso_cv object, which already contains the fitted models for a range of lambda values. We can use the predict function and specify the s argument (which confusingly sets lambda in this case) to make predictions on the test data.

lasso_preds <- predict(lasso_cv, s = lasso_cv$lambda.min, newx = testX)
## Calculate MSE
(lasso_mse <- MSE(testY, lasso_preds))
#> [1] 0.3754368

2. Do the same for ridge regression.

Solution

set.seed(123)
ridge_cv <- cv.glmnet(trainX, trainY, alpha = 0,
                      nfolds = K, type.measure = "mse")
ridge_cv
#> 
#> Call:  cv.glmnet(x = trainX, y = trainY, type.measure = "mse", nfolds = K,      alpha = 0) 
#> 
#> Measure: Mean-Squared Error 
#> 
#>     Lambda Index Measure     SE Nonzero
#> min   9.32   100  0.4648 0.1182     200
#> 1se  43.25    67  0.5820 0.2131     200
plot(ridge_cv)

Since the MSE is minimized at the smallest considered $\lambda =$ 9.3188551, we should extend the grid to include smaller values than those that were chosen by the default setting of cv.glmnet(). Intuitively, this is because the MSE might continue to decrease beyond the left boundary of the plot.

set.seed(123)
ridge_cv <- cv.glmnet(trainX, trainY, alpha = 0,
                      nfolds = K, type.measure = "mse",
                      lambda = exp(seq(7, -2, by = -0.1)))
ridge_cv
#> 
#> Call:  cv.glmnet(x = trainX, y = trainY, lambda = exp(seq(7, -2, by = -0.1)),      type.measure = "mse", nfolds = K, alpha = 0) 
#> 
#> Measure: Mean-Squared Error 
#> 
#>     Lambda Index Measure      SE Nonzero
#> min  0.549    77  0.3475 0.06304     200
#> 1se  3.320    59  0.4057 0.09027     200
plot(ridge_cv)

Note that we can extract the fitted ridge regression object from the CV result and make the coefficient profile plot as before.

plot(ridge_cv$glmnet.fit, xvar = "lambda")

We can look for the $\lambda$ values that give the best result. Here you have two possibilities :

lambda.min: the value of $\lambda$ that gives the best result for the crossvalidation.
lambda.1se: the largest value of $\lambda$ such that the MSE is within 1 standard error of the best result from the cross validation.

ridge_cv$lambda.min
#> [1] 0.5488116
ridge_cv$lambda.1se
#> [1] 3.320117

We will use lambda.min here to fit the final model and generate predictions on the test data. Note that we don’t actually have to redo the fitting, we can just use our existing ridge_cv object, which already contains the fitted models for a range of lambda values. We can use the predict function and specify the s argument (which confusingly sets lambda in this case) to make predictions on the test data.

ridge_preds <- predict(ridge_cv, s = ridge_cv$lambda.min, newx = testX)
## Calculate MSE
(ridge_mse <- MSE(testY, ridge_preds))
#> [1] 0.3170542

3. Which of the models considered (PCR, lasso, ridge) performs best?.

Solution

Based on the MSE, the ridge model performs best on the test data.

Model	MSE
PCR	0.3655052
Lasso	0.3754368
Ridge	0.3170542

Session info

#> [1] "2025-11-06 09:10:15 CET"
#> ─ Session info ───────────────────────────────────────────────────────────────
#>  setting  value
#>  version  R version 4.5.2 (2025-10-31)
#>  os       macOS Sequoia 15.6
#>  system   aarch64, darwin20
#>  ui       X11
#>  language (EN)
#>  collate  en_US.UTF-8
#>  ctype    en_US.UTF-8
#>  tz       Europe/Brussels
#>  date     2025-11-06
#>  pandoc   3.6.3 @ /Applications/RStudio.app/Contents/Resources/app/quarto/bin/tools/aarch64/ (via rmarkdown)
#>  quarto   1.7.32 @ /Applications/RStudio.app/Contents/Resources/app/quarto/bin/quarto
#> 
#> ─ Packages ───────────────────────────────────────────────────────────────────
#>  package     * version date (UTC) lib source
#>  bookdown      0.45    2025-10-03 [1] CRAN (R 4.5.0)
#>  boot        * 1.3-32  2025-08-29 [1] CRAN (R 4.5.2)
#>  bslib         0.9.0   2025-01-30 [1] CRAN (R 4.5.0)
#>  cachem        1.1.0   2024-05-16 [1] CRAN (R 4.5.0)
#>  cli           3.6.5   2025-04-23 [1] CRAN (R 4.5.0)
#>  codetools     0.2-20  2024-03-31 [1] CRAN (R 4.5.2)
#>  digest        0.6.37  2024-08-19 [1] CRAN (R 4.5.0)
#>  evaluate      1.0.5   2025-08-27 [1] CRAN (R 4.5.0)
#>  fastmap       1.2.0   2024-05-15 [1] CRAN (R 4.5.0)
#>  foreach       1.5.2   2022-02-02 [1] CRAN (R 4.5.0)
#>  glmnet      * 4.1-10  2025-07-17 [1] CRAN (R 4.5.0)
#>  HDDAData    * 1.0.1   2025-11-06 [1] Github (statOmics/HDDAData@b832c71)
#>  htmltools     0.5.8.1 2024-04-04 [1] CRAN (R 4.5.0)
#>  iterators     1.0.14  2022-02-05 [1] CRAN (R 4.5.0)
#>  jquerylib     0.1.4   2021-04-26 [1] CRAN (R 4.5.0)
#>  jsonlite      2.0.0   2025-03-27 [1] CRAN (R 4.5.0)
#>  knitr         1.50    2025-03-16 [1] CRAN (R 4.5.0)
#>  lattice       0.22-7  2025-04-02 [1] CRAN (R 4.5.2)
#>  lifecycle     1.0.4   2023-11-07 [1] CRAN (R 4.5.0)
#>  Matrix      * 1.7-4   2025-08-28 [1] CRAN (R 4.5.2)
#>  pls         * 2.8-5   2024-09-15 [1] CRAN (R 4.5.0)
#>  R6            2.6.1   2025-02-15 [1] CRAN (R 4.5.0)
#>  Rcpp          1.1.0   2025-07-02 [1] CRAN (R 4.5.0)
#>  rlang         1.1.6   2025-04-11 [1] CRAN (R 4.5.0)
#>  rmarkdown     2.30    2025-09-28 [1] CRAN (R 4.5.0)
#>  rstudioapi    0.17.1  2024-10-22 [1] CRAN (R 4.5.0)
#>  sass          0.4.10  2025-04-11 [1] CRAN (R 4.5.0)
#>  sessioninfo   1.2.3   2025-02-05 [1] CRAN (R 4.5.0)
#>  shape         1.4.6.1 2024-02-23 [1] CRAN (R 4.5.0)
#>  survival      3.8-3   2024-12-17 [1] CRAN (R 4.5.2)
#>  xfun          0.54    2025-10-30 [1] CRAN (R 4.5.0)
#>  yaml          2.3.10  2024-07-26 [1] CRAN (R 4.5.0)
#> 
#>  [1] /Library/Frameworks/R.framework/Versions/4.5-arm64/Resources/library
#>  * ── Packages attached to the search path.
#> 
#> ──────────────────────────────────────────────────────────────────────────────

Note: log() in R is the natural logarithm by default (base $e$ ) and we will also use this notation in the text (like the x-axis title on the plot above). This might be different from the notation that you’re used to ( $\ln()$ ). To take logarithms with a different base in R you can specify the base = argument of log or use the shorthand functions log10(x) and log2(x) for base 10 and 2, respectively↩︎
Note: The solid black line indicates the cross-validated RMSEP, while the dashed red line adjusts the RMSEP estimate downwards to account for the fact that the PCR is trained on only $\frac{k-1}{k} n_{\text{train}} = 76$ instead of the full $n_{\text{train}} = 80$ observations. See Equation (5) of Mevik and Cederkvist, 2005 for the definition of the adjustment. If $k$ is relatively large, such as our $k = 20$ , the adjustment does not have a large impact and the solid and dashed lines are quite similar.↩︎

LS0tCnRpdGxlOiAiTGFiIDM6IFBlbmFsaXplZCByZWdyZXNzaW9uIHRlY2huaXF1ZXMgZm9yIGhpZ2gtZGltZW5zaW9uYWwgZGF0YSIKc3VidGl0bGU6ICJIaWdoIERpbWVuc2lvbmFsIERhdGEgQW5hbHlzaXMgcHJhY3RpY2FscyIKYXV0aG9yOiAiQWRhcHRlZCBieSBNaWxhbiBNYWxmYWl0IGFuZCBMZW8gRnVocmhvcCIKZGF0ZTogIjA0IE5vdiAyMDIxIDxici8+IChMYXN0IHVwZGF0ZWQ6IDIwMjUtMTEtMDYpIgotLS0KCmBgYHtyIHNldHVwLCBpbmNsdWRlPUZBTFNFLCBjYWNoZT1GQUxTRX0Ka25pdHI6Om9wdHNfY2h1bmskc2V0KAogIGNvbGxhcHNlID0gVFJVRSwKICBjb21tZW50ID0gIiM+IiwKICBmaWcuYWxpZ24gPSAiY2VudGVyIiwKICBvdXQud2lkdGggPSAiMTAwJSIKKQpvcHRpb25zKAogIHdhcm5QYXJ0aWFsTWF0Y2hEb2xsYXIgPSBGQUxTRSwKICB3YXJuUGFydGlhbE1hdGNoQXR0ciA9IEZBTFNFLAogIHdhcm5QYXJ0aWFsTWF0Y2hBcmdzID0gRkFMU0UKKQpgYGAKCiMjIyBbQ2hhbmdlIGxvZ10oaHR0cHM6Ly9naXRodWIuY29tL3N0YXRPbWljcy9IRERBL2NvbW1pdHMvbWFzdGVyL0xhYjMtUGVuYWxpemVkLVJlZ3Jlc3Npb24uUm1kKSB7LX0KCioqKgoKYGBge3IgbGlicmFyaWVzLCB3YXJuaW5nPUZBTFNFLCBtZXNzYWdlPUZBTFNFfQojIyBpbnN0YWxsIHBhY2thZ2VzIHdpdGg6CiMgaW5zdGFsbC5wYWNrYWdlcyhjKCJnbG1uZXQiLCAicGxzIiwgImJvb3QiKSkKIyByZW1vdGVzOjppbnN0YWxsX2dpdGh1Yigic3RhdE9taWNzL0hEREFEYXRhIikKbGlicmFyeShIRERBRGF0YSkKbGlicmFyeShnbG1uZXQpCmxpYnJhcnkocGxzKQpsaWJyYXJ5KGJvb3QpCmBgYAoKCiMgSW50cm9kdWN0aW9uCgoqKkluIHRoaXMgbGFiIHNlc3Npb24gd2Ugd2lsbCBsb29rIGF0IHRoZSBmb2xsb3dpbmcgdG9waWNzKioKCiAgLSBEZW1vbnN0cmF0ZSB3aHkgbG93LWRpbWVuc2lvbmFsIHByZWRpY3Rpb24gbW9kZWxpbmcgZmFpbHMgaW4gaGlnaC1kaW1lbnNpb25hbCBzZXR0aW5ncy4KICAtIENhcnJ5IG91dCBQcmluY2lwYWwgQ29tcG9uZW50IFJlZ3Jlc3Npb24gKFBDUikuCiAgLSBVc2UgYGdsbW5ldCgpYCB0byBjYXJyeSBvdXQgcmlkZ2UgcmVncmVzc2lvbiwgbGFzc28gYW5kIGVsYXN0aWMgbmV0LgogIC0gRXZhbHVhdGUgdGhlc2UgdHJhaW5lZCBwcmVkaWN0aW9uIG1vZGVscy4KCgojIyBUaGUgZGF0YXNldAoKSW4gdGhpcyBwcmFjdGljYWwsIHdlIHdpbGwgdXNlIHRoZSBkYXRhc2V0IGBleWVkYXRhYCBwcm92aWRlZCBieQp0aGUgW19fTm9ybWFsQmV0YVByaW1lX18gcGFja2FnZV0oaHR0cHM6Ly9jcmFuLnItcHJvamVjdC5vcmcvd2ViL3BhY2thZ2VzL05vcm1hbEJldGFQcmltZS9pbmRleC5odG1sKS4KVGhpcyBkYXRhc2V0IGNvbnRhaW5zIGdlbmUgZXhwcmVzc2lvbiBkYXRhIG9mIDIwMApnZW5lcyBmb3IgMTIwIHNhbXBsZXMuIFRoZSBkYXRhIG9yaWdpbmF0ZXMgZnJvbSBtaWNyb2FycmF5IGV4cGVyaW1lbnRzCm9mIG1hbW1hbGlhbiBleWUgdGlzc3VlIHNhbXBsZXMuCgpUaGUgZGF0YXNldCBjb25zaXN0cyBvZiB0d28gb2JqZWN0czoKCiAgLSBgZ2VuZXNgOiBhICQxMjAgXHRpbWVzIDIwMCQgbWF0cml4IHdpdGggdGhlIGV4cHJlc3Npb24gbGV2ZWxzIG9mIDIwMCBnZW5lcwogIChjb2x1bW5zKSBmb3IgMTIwIHNhbXBsZXMgKHJvd3MpCiAgLSBgdHJpbTMyYDogYSB2ZWN0b3Igd2l0aCAxMjAgZXhwcmVzc2lvbiBsZXZlbHMgb2YgdGhlIFRSSU0zMiBnZW5lLgoKCmBgYHtyIGxvYWQtZGF0YX0KZGF0YShleWVkYXRhKQpnZW5lcyA8LSBleWVkYXRhJGdlbmVzCnRyaW0zMiA8LSBleWVkYXRhJHRyaW0zMgoKIyMgTG9vayBhdCBvYmplY3RzIHRoYXQgd2VyZSBqdXN0IGxvYWRlZApzdHIoZ2VuZXMpCnN0cih0cmltMzIpCmBgYAoKVGhlIGdvYWwgb2YgdGhpcyBleGVyY2lzZSBpcyB0byBwcmVkaWN0IHRoZSBleHByZXNzaW9uIGxldmVscyBvZgpUUklNMzIgZnJvbSB0aGUgZXhwcmVzc2lvbiBsZXZlbHMgb2YgdGhlIDIwMCBnZW5lcyBtZWFzdXJlZCBpbiB0aGUKbWljcm9hcnJheSBleHBlcmltZW50LiBGb3IgdGhpcywgaXQgbWFrZXMgc2Vuc2UgdG8gc3RhcnQgYnkgY29uc3RydWN0aW5nCmNlbnRlcmVkIChhbmQgcG9zc2libHkgc2NhbGVkKSBkYXRhLiBXZSBzdG9yZSB0aGlzIGluIHR3byBtYXRyaWNlcwpgWGAgYW5kIGBZYDoKCmBgYHtyIHByZXBhcmUtZGF0YX0KWCA8LSBzY2FsZShnZW5lcywgY2VudGVyID0gVFJVRSwgc2NhbGUgPSBUUlVFKQpZIDwtIHNjYWxlKHRyaW0zMiwgY2VudGVyID0gVFJVRSkKYGBgCgpSZW1lbWJlciB0aGF0IHNjYWxpbmcgYXZvaWRzIHRoYXQgZGlmZmVyZW5jZXMgaW4gbGV2ZWxzIG9mIG1hZ25pdHVkZQp3aWxsIGdpdmUgb25lIHZhcmlhYmxlIChnZW5lKSBtb3JlIGluZmx1ZW5jZSBpbiB0aGUgcmVzdWx0LiBUaGlzIGhhcwpiZWVuIGlsbHVzdHJhdGVkIGluIHRoZSBbc2Vjb25kIHByYWN0aWNhbCBzZXNzaW9uXSguL0xhYjItUENBLmh0bWwpIGFzIHdlbGwuCkZvciB0aGUgYFlgIHZlY3RvciwgdGhpcyBpcyBsZXNzIG9mIGFuIGlzc3VlIGFzIHdlJ3JlIHRhbGtpbmcgYWJvdXQgYSBzaW5nbGUgdmFyaWFibGUuCk5vdCBzY2FsaW5nIHdpbGwgbWFrZSB0aGUgcHJlZGljdGlvbnMgaW50ZXJwcmV0YWJsZSBhcyAiZGV2aWF0aW9ucyBmcm9tIHRoZQptZWFuIi4KCiMjIFRoZSBjdXJzZSBvZiBzaW5ndWxhcml0eQoKV2UgYmVnaW4gYnkgYXNzdW1pbmcgdGhhdCB0aGUgcHJlZGljdG9ycyBhbmQgdGhlIG91dGNvbWUgaGF2ZSBiZWVuCmNlbnRlcmVkIHNvIHRoYXQgdGhlIGludGVyY2VwdCBpcyAwLgpXZSBhcmUgcHJlc2VudGVkIHdpdGggdGhlIHVzdWFsIHJlZ3Jlc3Npb24gbW9kZWw6CgpcYmVnaW57YWxpZ24qfQomWV9pPVxiZXRhX2kgWF97aTF9K1xkb3RzK1xiZXRhX3BYX3tpcH0rXGVwc2lsb25faSBcXAomXHRleHR7IE9yIH0gXG1hdGhiZntZfT17XG1hdGhiZntYfX17XGJvbGRzeW1ib2x7XGJldGF9fSAre1xib2xkc3ltYm9se1xlcHNpbG9ufX0KXGVuZHthbGlnbip9CgpPdXIgZ29hbCBpcyB0byBnZXQgdGhlIGxlYXN0IHNxdWFyZXMgZXN0aW1hdG9yIG9mCiR7XGJvbGRzeW1ib2x7XGJldGF9fSQsIGdpdmVuIGJ5CgokJApcaGF0e3tcYm9sZHN5bWJvbHtcYmV0YX19fT0gKFxtYXRoYmZ7WH1eVHtcbWF0aGJme1h9fSleey0xfXtcbWF0aGJme1h9fV5Ue1xtYXRoYmZ7WX19CiQkCgppbiB3aGljaCB0aGUgJHAgXHRpbWVzIHAkIG1hdHJpeAokKHtcbWF0aGJme1h9fV5Ue1xtYXRoYmZ7WH19KV57LTF9JCBpcyBjcnVjaWFsIQpUbyBiZSBhYmxlIHRvIGNhbGN1bGF0ZSB0aGUgaW52ZXJzZSBvZiAke1xtYXRoYmZ7WH19XlQgXG1hdGhiZntYfSQsCml0IGhhcyB0byBiZSBvZiBmdWxsIHJhbmsgJHAkLCB3aGljaCB3b3VsZCBiZSAyMDAgaW4gdGhpcyBjYXNlLgpMZXQncyBjaGVjayB0aGlzOgoKYGBge3Igc2luZ3VsYXJpdHktcHJvYmxlbSwgZXJyb3I9VFJVRX0KZGltKFgpICMgMTIwIHggMjAwLCBzbyBwID4gbiEKcXIoWCkkcmFuawoKWHRYIDwtIGNyb3NzcHJvZChYKSAjIGNhbGN1bGF0ZXMgdChYKSAlKiUgWCBtb3JlIGVmZmljaWVudGx5CnFyKFh0WCkkcmFuawoKIyBUcnkgdG8gaW52ZXJ0IHVzaW5nIHNvbHZlOgpzb2x2ZShYdFgpCmBgYAoKV2UgcmVhbGl6ZSB3ZSBjYW5ub3QgY29tcHV0ZQokKHtcbWF0aGJme1h9fV5Ue1xtYXRoYmZ7WH19KV57LTF9JCBiZWNhdXNlIHRoZSByYW5rIG9mCiQoe1xtYXRoYmZ7WH19XlR7XG1hdGhiZntYfX0pJCBpcyBsZXNzIHRoYW4gJHAkIGhlbmNlIHdlIGNhbuKAmXQKZ2V0ICRcaGF0e3tcYm9sZHN5bWJvbHtcYmV0YX19fSQgYnkgbWVhbnMgb2YgbGVhc3Qgc3F1YXJlcyEKVGhpcyBpcyBnZW5lcmFsbHkgcmVmZXJyZWQgdG8gYXMgdGhlIF9fW3Npbmd1bGFyaXR5XShodHRwczovL3d3dy5zdGF0aXN0aWNzLmNvbS9nbG9zc2FyeS9zaW5ndWxhcml0eS8pIHByb2JsZW1fXy4KCgojIFByaW5jaXBhbCBjb21wb25lbnQgcmVncmVzc2lvbgoKQSBmaXJzdCB3YXkgdG8gZGVhbCB3aXRoIHRoaXMgc2luZ3VsYXJpdHksIGlzIHRvIGJ5cGFzcyBpdCB1c2luZyBwcmluY2lwYWwgY29tcG9uZW50cy4KU2luY2UgJFxtaW4obixwKSA9IG4gPSAxMjAkLApQQ0Egd2lsbCBnaXZlIGByIG1pbihkaW0oWCkpYCBjb21wb25lbnRzLCBlYWNoIGJlaW5nIGEgbGluZWFyIGNvbWJpbmF0aW9uIG9mIHRoZQokcCQgPSBgciBuY29sKFgpYCB2YXJpYWJsZXMuClRoZXNlIGByIG1pbihkaW0oWCkpYCBQQ3MgY29udGFpbiBhbGwgaW5mb3JtYXRpb24gcHJlc2VudCBpbiB0aGUgb3JpZ2luYWwgZGF0YS4KV2UgY291bGQgYXMgd2VsbCB1c2UgYW4gYXBwcm94aW1hdGlvbiBvZiAke1xtYXRoYmZ7WH19JCwgaS5lIHVzaW5nIGp1c3QgYSBmZXcgKCRrPDEyMCQpIFBDcy4KU28gd2UgdXNlIFBDQSBhcyBhIG1ldGhvZCBmb3IgcmVkdWNpbmcgdGhlIGRpbWVuc2lvbnMgd2hpbGUgcmV0YWluaW5nCmFzIG11Y2ggdmFyaWF0aW9uIGJldHdlZW4gdGhlIG9ic2VydmF0aW9ucyBhcyBwb3NzaWJsZS4KT25jZSB3ZSBoYXZlIHRoZXNlIFBDcywgd2UgY2FuIHVzZSB0aGVtIGFzIHZhcmlhYmxlcyBpbiBhIGxpbmVhciByZWdyZXNzaW9uIG1vZGVsLgoKIyMgQ2xhc3NpYyBsaW5lYXIgcmVncmVzc2lvbiBvbiBQQ3MKCldlIGZpcnN0IGNvbXB1dGUgdGhlIFBDQSBvbiB0aGUgZGF0YSB3aXRoIGBwcmNvbXBgLgpXZSB3aWxsIHVzZSBhbiBhcmJpdHJhcnkgY3V0b2ZmIG9mICRrID0gNCQgUENzIHRvIGlsbHVzdHJhdGUgdGhlIHByb2Nlc3Mgb2YgcGVyZm9ybWluZyByZWdyZXNzaW9uIG9uIHRoZSBQQ3MuCgpgYGB7ciBQQy1yZWdyZXNzaW9ufQprIDwtIDQgIyBBcmJpdHJhcmlseSBjaG9zZW4gaz00CnBjYSA8LSBwcmNvbXAoWCkKVmsgPC0gcGNhJHJvdGF0aW9uWywgMTprXSAjIHRoZSBsb2FkaW5ncyBtYXRyaXgKWmsgPC0gcGNhJHhbLCAxOmtdICMgdGhlIHNjb3JlcyBtYXRyaXgKCiMgVXNlIHRoZSBzY29yZXMgaW4gY2xhc3NpYyBsaW5lYXIgcmVncmVzc2lvbgpwY3JfbW9kZWwxIDwtIGxtKFkgfiBaaykKc3VtbWFyeShwY3JfbW9kZWwxKQpgYGAKCkFzICRcbWF0aGJme1h9JCBhbmQgJFxtYXRoYmZ7WX0kIGFyZSBjZW50ZXJlZCwgdGhlIGludGVyY2VwdCBpcwphcHByb3hpbWF0ZWx5IDAuCgpUaGUgb3V0cHV0IHNob3dzIHRoYXQgUEMxIGFuZCBQQzQgaGF2ZSBhICRcYmV0YSQgZXN0aW1hdGUgdGhhdApkaWZmZXJzIHNpZ25pZmljYW50bHkgZnJvbSAwIChhdCAkcCA8IDAuMDUkKSwgYnV0IHRoZSByZXN1bHRzIGNhbid0IGJlIHJlYWRpbHkKaW50ZXJwcmV0ZWQsIHNpbmNlIHdlIGhhdmUgbm8gaW1tZWRpYXRlIGludGVycHJldGF0aW9uIG9mIHRoZSBQQ3MuCgoKIyMgVXNpbmcgdGhlIHBhY2thZ2UgYHBsc2AKClBDUiBjYW4gYWxzbyBiZSBwZXJmb3JtZWQgdXNpbmcgdGhlIGBwY3IoKWAgZnVuY3Rpb24gZnJvbSB0aGUKcGFja2FnZSAqW3Bsc10oaHR0cHM6Ly9DUkFOLlItcHJvamVjdC5vcmcvcGFja2FnZT1wbHMpKgpfX2RpcmVjdGx5IG9uIHRoZSBkYXRhX18gKHNvIHdpdGhvdXQgaGF2aW5nIHRvIGZpcnN0IHBlcmZvcm0gdGhlIFBDQSBtYW51YWxseSkuCldoZW4gdXNpbmcgdGhpcyBmdW5jdGlvbiwgeW91IGhhdmUgdG8ga2VlcCBhIGZldyB0aGluZ3MgaW4gbWluZDoKCiAgMS4gdGhlIG51bWJlciBvZiBjb21wb25lbnRzIChQQ3MpIHRvIHVzZSBpcyBwYXNzZWQgd2l0aCB0aGUgYXJndW1lbnQgYG5jb21wYAogIDIuIHRoZSBmdW5jdGlvbiBhbGxvd3MgeW91IHRvIHNjYWxlIChzZXQgYHNjYWxlID0gVFJVRWApIGFuZAogIGNlbnRlciAoc2V0IGBjZW50ZXIgPSBUUlVFYCkgdGhlIHByZWRpY3RvcnMgZmlyc3QgKGluIHRoZSBleGFtcGxlIGhlcmUsICRcbWF0aGJme1h9JCBoYXMgYWxyZWFkeSBiZWVuIGNlbnRlcmVkIGFuZCBzY2FsZWQpLgoKWW91IGNhbiB1c2UgdGhlIGZ1bmN0aW9uIGBwY3IoKWAgaW4gbXVjaCB0aGUgc2FtZSB3YXkgYXMgeW91IHdvdWxkCnVzZSBgbG0oKWAuIFRoZSByZXN1bHRpbmcgZml0IGNhbiBlYXNpbHkgYmUgZXhhbWluZWQgdXNpbmcgdGhlCmZ1bmN0aW9uIGBzdW1tYXJ5KClgLCBidXQgdGhlIG91dHB1dCBsb29rcyBxdWl0ZSBkaWZmZXJlbnQgZnJvbQp3aGF0IHlvdSB3b3VsZCBnZXQgZnJvbSBgbG1gLgoKYGBge3IgUEMtcmVncmVzc2lvbi1wbHMtcGFja2FnZX0KIyBYIGlzIGFscmVhZHkgc2NhbGVkIGFuZCBjZW50ZXJlZCwgc28gdGhhdCdzIG5vdCBuZWVkZWQuCnBjcl9tb2RlbDIgPC0gcGNyKFkgfiBYLCBuY29tcCA9IDQpCnN1bW1hcnkocGNyX21vZGVsMikKYGBgCgpGaXJzdCBvZiBhbGwgdGhlIG91dHB1dCBzaG93cyB5b3UgdGhlIGRhdGEgZGltZW5zaW9ucyBhbmQgdGhlIGZpdHRpbmcKbWV0aG9kIHVzZWQuIEluIHRoaXMgY2FzZSwgdGhhdCBpcyBQQyBjYWxjdWxhdGlvbiBiYXNlZCBvbiBTVkQuIFRoZQpgc3VtbWFyeSgpYCBmdW5jdGlvbiBhbHNvIHByb3ZpZGVzIHRoZSBwZXJjZW50YWdlIG9mIHZhcmlhbmNlCmV4cGxhaW5lZCBpbiB0aGUgcHJlZGljdG9ycyBhbmQgaW4gdGhlIHJlc3BvbnNlIHVzaW5nIGRpZmZlcmVudCBudW1iZXJzCm9mIGNvbXBvbmVudHMuIEZvciBleGFtcGxlLCB0aGUgZmlyc3QgUEMgb25seSBjYXB0dXJlcyA2MS4yMiUgb2YgYWxsCnRoZSB2YXJpYW5jZSwgb3IgaW5mb3JtYXRpb24gaW4gdGhlIHByZWRpY3RvcnMgYW5kIGl0IGV4cGxhaW5zIDYyLjklCm9mIHRoZSB2YXJpYW5jZSBpbiB0aGUgb3V0Y29tZS4gTm90ZSB0aGF0IGZvciBib3RoIG1ldGhvZHMgdGhlIGNob2ljZSBvZgp0aGUgbnVtYmVyIG9mIHByaW5jaXBhbCBjb21wb25lbnRzIHdhcyBhcmJpdHJhcnkgY2hvc2VuIHRvIGJlIDQuCgpBdCBhIGxhdGVyIHN0YWdlLCB3ZSB3aWxsIGxvb2sgYXQgaG93IHRvIGNob29zZSB0aGUgbnVtYmVyIG9mIGNvbXBvbmVudHMKdGhhdCBoYXMgdGhlIF9fc21hbGxlc3QgcHJlZGljdGlvbiBlcnJvcl9fLgoKCiMgUmlkZ2VzLCBMYXNzb3MgYW5kIEVsYXN0aWMgTmV0cyB7I2VsbmV0LXRoZW9yeX0KClJpZGdlIHJlZ3Jlc3Npb24sIGxhc3NvIHJlZ3Jlc3Npb24gYW5kIGVsYXN0aWMgbmV0cyBhcmUgYWxsIGNsb3NlbHkKcmVsYXRlZCB0ZWNobmlxdWVzLCBiYXNlZCBvbiB0aGUgc2FtZSBpZGVhOiBhZGQgYSBwZW5hbHR5IHRlcm0gdG8KdGhlIGVzdGltYXRpbmcgZnVuY3Rpb24gc28gJCh7XG1hdGhiZntYfX1eVHtcbWF0aGJme1h9fSkkCmJlY29tZXMgZnVsbCByYW5rIGFnYWluIGFuZCBpcyBpbnZlcnRpYmxlLiBUd28gZGlmZmVyZW50IHBlbmFsdHkKdGVybXMgb3IgcmVndWxhcml6YXRpb24gbWV0aG9kcyBjYW4gYmUgdXNlZDoKCjEuIEwxIHJlZ3VsYXJpemF0aW9uOiB0aGlzIHJlZ3VsYXJpemF0aW9uIGFkZHMgYSB0ZXJtICR7XGxhbWJkYVx8XGJvbGRzeW1ib2x7XGJldGF9XHxfezF9fSQgdG8gdGhlIGxlYXN0IHNxdWFyZXMgY3JpdGVyaW9uLgpUaGUgdGVybSB3aWxsIGFkZCBhIHBlbmFsdHkgYmFzZWQgb24gdGhlICphYnNvbHV0ZSB2YWx1ZSogb2YgdGhlCm1hZ25pdHVkZSBvZiB0aGUgY29lZmZpY2llbnRzLiBUaGlzIGlzIHVzZWQgYnkgX19sYXNzbyByZWdyZXNzaW9uX18uCgokJAogXGhhdHtcYm9sZHN5bWJvbHtcYmV0YX19XntcdGV4dHtsYXNzb319ID0gXHRleHR7YXJnbWlufV97XGJvbGRzeW1ib2x7XGJldGF9fVxkaXNwbGF5c3R5bGUoeyhcbWF0aGJme1l9LVxtYXRoYmZ7WH1cYm9sZHN5bWJvbHtcYmV0YX0pXlQoXG1hdGhiZntZfS1cbWF0aGJme1h9XGJvbGRzeW1ib2x7XGJldGF9KSt7XGxhbWJkYVx8XGJvbGRzeW1ib2x7XGJldGF9XHxfezF9fX1cZGlzcGxheXN0eWxlKQokJAoKMi4gTDIgcmVndWxhcml6YXRpb246IHRoaXMgcmVndWxhcml6YXRpb24gYWRkcyBhIHRlcm0gJHtcbGFtYmRhXHxcYm9sZHN5bWJvbHtcYmV0YX1cfF97Mn1eezJ9fSQgdG8gdGhlIGxlYXN0IHNxdWFyZXMgY3JpdGVyaW9uLgpUaGUgcGVuYWx0eSB0ZXJtIGlzIGJhc2VkIG9uIHRoZSBzcXVhcmUgb2YgdGhlIG1hZ25pdHVkZSBvZiB0aGUKY29lZmZpY2llbnRzLiBUaGlzIGlzIHVzZWQgYnkgX19yaWRnZSByZWdyZXNzaW9uX18uCgokJAogXGhhdHtcYm9sZHN5bWJvbHtcYmV0YX19XntcdGV4dHtyaWRnZX19ID0gXHRleHR7YXJnbWlufV97XGJvbGRzeW1ib2x7XGJldGF9fVxkaXNwbGF5c3R5bGUoeyhcbWF0aGJme1l9LVxtYXRoYmZ7WH1cYm9sZHN5bWJvbHtcYmV0YX0pXlQoXG1hdGhiZntZfS1cbWF0aGJme1h9XGJvbGRzeW1ib2x7XGJldGF9KSt7XGxhbWJkYVx8XGJvbGRzeW1ib2x7XGJldGF9XHxfezJ9XnsyfX19XGRpc3BsYXlzdHlsZSkKJCQKCkVsYXN0aWMgbmV0IHJlZ3Jlc3Npb24gY29tYmluZXMgYm90aCB0eXBlcyBvZiByZWd1bGFyaXphdGlvbi4gSXQgZG9lcyBzbyBieQppbnRyb2R1Y2luZyBhIG1peGluZyBwYXJhbWV0ZXIgJFxhbHBoYSBcaW4gWzAsIDFdJCB0aGF0IGVzc2VudGlhbGx5IGNvbWJpbmVzCnRoZSBMMSBhbmQgTDIgbm9ybXMgaW4gYSB3ZWlnaHRlZCBhdmVyYWdlLgoKJCQKIFxoYXR7XGJvbGRzeW1ib2x7XGJldGF9fV57XHRleHR7ZWwubmV0fX0gPSBcdGV4dHthcmdtaW59X3tcYm9sZHN5bWJvbHtcYmV0YX19XGRpc3BsYXlzdHlsZSh7KFxtYXRoYmZ7WX0tXG1hdGhiZntYfVxib2xkc3ltYm9se1xiZXRhfSlee1R9KFxtYXRoYmZ7WX0tXG1hdGhiZntYfVxib2xkc3ltYm9se1xiZXRhfSkre1xhbHBoYSBcbGFtYmRhXHxcYm9sZHN5bWJvbHtcYmV0YX1cfF97MX19KyB7KDEgLSBcYWxwaGEpXGxhbWJkYVx8XGJvbGRzeW1ib2x7XGJldGF9XHxfezJ9XnsyfX19XGRpc3BsYXlzdHlsZSkKJCQKCgoKIyBFeGVyY2lzZTogVmVyaWZpY2F0aW9uIG9mIHJpZGdlIHJlZ3Jlc3Npb24KCkluIGxlYXN0IHNxdWFyZSByZWdyZXNzaW9uIHRoZSBtaW5pbWl6YXRpb24gb2YgdGhlIGVzdGltYXRpb24gZnVuY3Rpb24KJHx7XG1hdGhiZntZfSAtIFxtYXRoYmZ7WH0gXGJvbGRzeW1ib2x7XGJldGF9fVx8XnsyfV97Mn0kIGxlYWRzIHRvIHRoZSBzb2x1dGlvbiAke1xib2xkc3ltYm9se1xoYXR7XGJldGF9fT0oXG1hdGhiZntYXlRYfSleey0xfVxtYXRoYmZ7WF5UWX19JC4KCkZvciB0aGUgcGVuYWxpemVkIGxlYXN0IHNxdWFyZXMgY3JpdGVyaW9uIHVzZWQgYnkgcmlkZ2UgcmVncmVzc2lvbiwgeW91IG1pbmltaXplCiRcfHtcbWF0aGJme1l9LVxtYXRoYmZ7WH1cYm9sZHN5bWJvbHtcYmV0YX1cfF57Mn1fezJ9fStcbGFtYmRhe1xib2xkc3ltYm9se1x8XGJldGFcfF57Mn1fezJ9fX0kCndoaWNoIGxlYWRzIHRvIGZvbGxvd2luZyBzb2x1dGlvbjoKCiQkCntcYm9sZHN5bWJvbHtcaGF0e1xiZXRhfX09KFxtYXRoYmZ7WF5UWH19K1xsYW1iZGF7XG1hdGhiZntJfX0pXnstMX17XG1hdGhiZntYXlRZfX0KJCQKCndoZXJlICRcbWF0aGJme0l9JCBpcyB0aGUgJHAgXHRpbWVzIHAkIGlkZW50aXR5IG1hdHJpeC4KClRoZSByaWRnZSBwYXJhbWV0ZXIgJFxsYW1iZGEkICpzaHJpbmtzKiB0aGUgY29lZmZpY2llbnRzIHRvd2FyZHMgMCwgd2l0aCAkXGxhbWJkYSA9IDAkIGJlaW5nIGVxdWl2YWxlbnQgdG8gT0xTIChubyBzaHJpbmthZ2UpIGFuZCAkXGxhbWJkYSA9ICtcaW5mdHkkIGJlaW5nIGVxdWl2YWxlbnQgdG8gc2V0dGluZyBhbGwgJFxoYXR7XGJldGF9JCdzIHRvIDAuClRoZSBvcHRpbWFsIHBhcmFtZXRlciBsaWVzIHNvbWV3aGVyZSBpbiBiZXR3ZWVuIGFuZCBuZWVkcyB0byBiZSB0dW5lZCBieSB0aGUgdXNlci4KCgojIyBUYXNrcyB7LX0KClNvbHZlIHRoZSBmb2xsb3dpbmcgZXhlcmNpc2VzIHVzaW5nIFIuCgojIyMjIDEuIFZlcmlmeSB0aGF0ICR7XG1hdGhiZnsoWF5UWH19K1xsYW1iZGF7XG1hdGhiZntJfX0pJCBoYXMgcmFuayAkMjAwJCwgZm9yIGFueSAkXGxhbWJkYT4wJCBvZiB5b3VyIGNob2ljZS4gey19Cgo8ZGV0YWlscz48c3VtbWFyeT5Tb2x1dGlvbjwvc3VtbWFyeT4KYGBge3J9Clh0WCA8LSBjcm9zc3Byb2QoWCkKcCA8LSBuY29sKFgpCmxhbWJkYSA8LSAyICMgTXkgY2hvaWNlCgojIENvbXB1dGUgcGVuYWxpemVkIG1hdHJpeApYdFhfbGFtYmRhSSA8LSBYdFggKyAobGFtYmRhICogZGlhZyhwKSkKZGltKFh0WF9sYW1iZGFJKQpxcihYdFhfbGFtYmRhSSkkcmFuayA9PSAyMDAgIyBpbmRlZWQKYGBgCjwvZGV0YWlscz4KCgojIyMjIDIuIENoZWNrIHRoYXQgdGhlIGludmVyc2Ugb2YgJHtcbWF0aGJmeyhYXlRYfX0rXGxhbWJkYXtcbWF0aGJme0l9fSkkIGNhbiBiZSBjb21wdXRlZC4gey19Cgo8ZGV0YWlscz48c3VtbWFyeT5Tb2x1dGlvbjwvc3VtbWFyeT4KYGBge3J9CiMgWWVzLCBpdCBjYW4gYmUgY29tcHV0ZWQgKG5vIGVycm9yKQpYdFhfbGFtYmRhSV9pbnYgPC0gc29sdmUoWHRYX2xhbWJkYUkpCnN0cihYdFhfbGFtYmRhSV9pbnYpCmBgYAo8L2RldGFpbHM+CgoKIyMjIyAzLiBGaW5hbGx5LCBjb21wdXRlICR7XGJvbGRzeW1ib2x7XGhhdHtcYmV0YX19PShcbWF0aGJme1heVFh9fStcbGFtYmRhe1xtYXRoYmZ7SX19KV57LTF9e1xtYXRoYmZ7WF5UWX19JC4gey19Cgo8ZGV0YWlscz48c3VtbWFyeT5Tb2x1dGlvbjwvc3VtbWFyeT4KYGBge3IgcmlkZ2UtYmV0YS1lc3RpbWF0ZXN9CiMjIENhbGN1bGF0ZSByaWRnZSBiZXRhIGVzdGltYXRlcwojIyBVc2UgYGRyb3BgIHRvIGRyb3AgZGltZW5zaW9ucyBhbmQgY3JlYXRlIHZlY3RvcgpyaWRnZV9iZXRhcyA8LSBkcm9wKFh0WF9sYW1iZGFJX2ludiAlKiUgdChYKSAlKiUgWSkKbGVuZ3RoKHJpZGdlX2JldGFzKSAjIG9uZSBmb3IgZXZlcnkgZ2VuZQpzdW1tYXJ5KHJpZGdlX2JldGFzKQpgYGAKCldlIGhhdmUgbm93IG1hbnVhbGx5IGNhbGN1bGF0ZWQgdGhlIHJpZGdlIHJlZ3Jlc3Npb24gZXN0aW1hdGVzLgoKPC9kZXRhaWxzPgoKCgojIFBlcmZvcm1pbmcgcmlkZ2UgYW5kIGxhc3NvIHJlZ3Jlc3Npb24gd2l0aCBgZ2xtbmV0YAoKVGhlIHBhY2thZ2UgKltnbG1uZXRdKGh0dHBzOi8vQ1JBTi5SLXByb2plY3Qub3JnL3BhY2thZ2U9Z2xtbmV0KSogcHJvdmlkZXMgYQpmdW5jdGlvbiBgZ2xtbmV0KClgIHRoYXQgYWxsb3dzIHlvdSB0byBmaXQgYWxsIHRocmVlIHR5cGVzIG9mIHJlZ3Jlc3Npb25zLiBXaGljaAp0eXBlIGlzIHVzZWQsIGNhbiBiZSBkZXRlcm1pbmVkIGJ5IHNwZWNpZnlpbmcgdGhlIGBhbHBoYWAgYXJndW1lbnQuIEZvciBhCl9fcmlkZ2UgcmVncmVzc2lvbl9fLCB5b3Ugc2V0IGBhbHBoYWAgdG8gMCwgYW5kIGZvciBhIF9fbGFzc28gcmVncmVzc2lvbl9fIHlvdQpzZXQgYGFscGhhYCB0byAxLiBPdGhlciBgYWxwaGFgIHZhbHVlcyBiZXR3ZWVuIDAgYW5kIDEgd2lsbCBmaXQgYSBmb3JtIG9mCmVsYXN0aWMgbmV0LiBUaGlzIGZ1bmN0aW9uIGhhcyBzbGlnaHRseSBkaWZmZXJlbnQgc3ludGF4IGZyb20gdGhlIG90aGVyCm1vZGVsLWZpdHRpbmcgZnVuY3Rpb25zLiBUbyBiZSBhYmxlIHRvIHVzZSBpdCwgeW91IGhhdmUgdG8gcGFzcyBhIGB4YCBtYXRyaXggYXMKd2VsbCBhcyBhIGB5YCB2ZWN0b3IsIGFuZCB5b3UgZG9uJ3QgdXNlIHRoZSBmb3JtdWxhIHN5bnRheC4KClRoZSAkXGxhbWJkYSQgcGFyYW1ldGVyLCB3aGljaCBjb250cm9scyB0aGUgInN0cmVuZ3RoIiBvZiB0aGUgcGVuYWx0eSwgY2FuIGJlCnBhc3NlZCBieSB0aGUgYXJndW1lbnQgYGxhbWJkYWAuIFRoZSBmdW5jdGlvbiBgZ2xtbmV0KClgIGNhbiBhbHNvIGNhcnJ5IG91dCBhCnNlYXJjaCBmb3IgZmluZGluZyB0aGUgYmVzdCAkXGxhbWJkYSQgdmFsdWUgZm9yIGEgZml0LiBUaGlzIGNhbiBiZSBkb25lIGJ5CnBhc3NpbmcgbXVsdGlwbGUgdmFsdWVzIHRvIHRoZSBhcmd1bWVudCBgbGFtYmRhYC4gSWYgbm90IHN1cHBsaWVkLCBgZ2xtbmV0YCB3aWxsCmdlbmVyYXRlIGEgcmFuZ2Ugb2YgdmFsdWVzIGl0c2VsZiwgYmFzZWQgb24gdGhlIGRhdGEgd2hlcmVieSB0aGUgbnVtYmVyIG9mCnZhbHVlcyBjYW4gYmUgY29udHJvbGxlZCB3aXRoIHRoZSBgbmxhbWJkYWAgYXJndW1lbnQuIFRoaXMgaXMgZ2VuZXJhbGx5IHRoZQpyZWNvbW1lbmRlZCB3YXkgdG8gdXNlIGBnbG1uZXRgLCBzZWUgYD9nbG1uZXRgIGZvciBkZXRhaWxzLgoKRm9yIGEgdGhvcm91Z2ggaW50cm9kdWN0aW9uIHRvIHRoZSBfX2dsbW5ldF9fIHBhY2thZ2UgYW5kIGVsYXN0aWMgbmV0IG1vZGVscyBpbgpnZW5lcmFsLCBzZWUgdGhlCltnbG1uZXQgaW50cm9kdWN0aW9uIHZpZ25ldHRlXShodHRwczovL2NyYW4uci1wcm9qZWN0Lm9yZy93ZWIvcGFja2FnZXMvZ2xtbmV0L3ZpZ25ldHRlcy9nbG1uZXQucGRmKQoKCiMjIERlbW9uc3RyYXRpb246IFJpZGdlIHJlZ3Jlc3Npb24gey19CgpMZXQncyBwZXJmb3JtIGEgcmlkZ2UgcmVncmVzc2lvbiBpbiBvcmRlciB0byBwcmVkaWN0IGV4cHJlc3Npb24gbGV2ZWxzCm9mIHRoZSBUUklNMzIgZ2VuZSB1c2luZyB0aGUgMjAwIGdlbmUgcHJvYmVzIGRhdGEuIFdlIGNhbiBzdGFydCBieQp1c2luZyBhICRcbGFtYmRhJCB2YWx1ZSBvZiAyLgoKYGBge3IgZ2xtbmV0LXJpZGdlLXJlZ3Jlc3Npb259CmxhbWJkYSA8LSAyCnJpZGdlX21vZGVsIDwtIGdsbW5ldChYLCBZLCBhbHBoYSA9IDAsIGxhbWJkYSA9IGxhbWJkYSkKCiMgaGF2ZSBhIGxvb2sgYXQgdGhlIGZpcnN0IDEwIGNvZWZmaWNpZW50cwpjb2VmKHJpZGdlX21vZGVsKVsxOjEwXQpgYGAKClRoZSBmaXJzdCBjb2VmZmljaWVudCBpcyB0aGUgaW50ZXJjZXB0LCBhbmQgaXMgYWdhaW4gZXNzZW50aWFsbHkgMC4gQnV0CmEgdmFsdWUgb2YgMiBmb3IgJFxsYW1iZGEkIG1pZ2h0IG5vdCBiZSB0aGUgYmVzdCBjaG9pY2UsIHNvIGxldCdzIHNlZSBob3cKdGhlIGNvZWZmaWNpZW50cyBjaGFuZ2Ugd2l0aCBkaWZmZXJlbnQgdmFsdWVzIGZvciAkXGxhbWJkYSQuCgpXZSB3aWxsIGNyZWF0ZSBhICpncmlkKiBvZiAkXGxhbWJkYSQgdmFsdWVzLCBpLmUuIGEgcmFuZ2Ugb2YgdmFsdWVzIHRoYXQgd2lsbCBiZQp1c2VkIGFzIGlucHV0IGZvciB0aGUgYGdsbW5ldGAgZnVuY3Rpb24uIE5vdGUgdGhhdCB0aGlzIGZ1bmN0aW9uIGNhbiB0YWtlIGEKdmVjdG9yIG9mIHZhbHVlcyBhcyBpbnB1dCBmb3IgdGhlIGBsYW1iZGFgIGFyZ3VtZW50LCBhbGxvd2luZyB0byBmaXQgbXVsdGlwbGUKbW9kZWxzIHdpdGggdGhlIHNhbWUgaW5wdXQgZGF0YSBidXQgZGlmZmVyZW50IGh5cGVycGFyYW1ldGVycy4gRm9yIGNvbXB1dGF0aW9uYWwKZWZmaWNpZW55LCBpdCBpcyByZWNvbW1lbmRlZCB0byBzcGVjaWZ5IHRoZSBncmlkIGFzIGEgZGVjcmVhc2luZyBzZXF1ZW5jZS4KCmBgYHtyIHJpZGdlLXJlZ3Jlc3Npb24tZ3JpZC1zZWFyY2h9CmdyaWQgPC0gc2VxKDEwMDAsIDEsIGJ5ID0gLTkpICMgMTAwMCB0byAxIHdpdGggc3RlcHMgb2YgOQpyaWRnZV9tb2RfZ3JpZCA8LSBnbG1uZXQoWCwgWSwgYWxwaGEgPSAwLCBsYW1iZGEgPSBncmlkKQoKIyBQbG90IHRoZSBjb2VmZmljaWVudHMgYWdhaW5zdCB0aGUgKG5hdHVyYWwpIExPRyBsYW1iZGEgc2VxdWVuY2UhCiMgc2VlID9wbG90LmdsbW5ldApwbG90KHJpZGdlX21vZF9ncmlkLCB4dmFyID0gImxhbWJkYSIsIHhsYWIgPSAibG9nKGxhbWJkYSkiKQojIGFkZCBhIHZlcnRpY2FsIGxpbmUgYXQgbGFtYmRhID0gMgp0ZXh0KGxvZyhsYW1iZGEpLCAtMC4wNSwgbGFiZWxzID0gZXhwcmVzc2lvbihsYW1iZGEgPT0gMiksCiAgICAgYWRqID0gLTAuNSwgY29sID0gImZpcmVicmljayIpCmFibGluZSh2ID0gbG9nKGxhbWJkYSksIGNvbCA9ICJmaXJlYnJpY2siLCBsd2QgPSAyKQpgYGAKClRoaXMgcGxvdCBpcyBrbm93biBhcyBhIF9fY29lZmZpY2llbnQgcHJvZmlsZSBwbG90X18sIGVhY2ggY29sb3JlZCBsaW5lCnJlcHJlc2VudHMgYSBjb2VmZmljaWVudCAkXGhhdHtcYmV0YX0kIGZyb20gdGhlIHJlZ3Jlc3Npb24gbW9kZWwgYW5kIHNob3dzIGhvdwp0aGV5IGNoYW5nZSB3aXRoIGluY3JlYXNlZCB2YWx1ZXMgb2YgJFxsYW1iZGEkIChvbiB0aGUgbG9nLXNjYWxlKQpeW05vdGU6IGBsb2coKWAgaW4gUiBpcyB0aGUgX19uYXR1cmFsIGxvZ2FyaXRobV9fIGJ5IGRlZmF1bHQgKGJhc2UgJGUkKSBhbmQgd2UKd2lsbCBhbHNvIHVzZSB0aGlzIG5vdGF0aW9uIGluIHRoZSB0ZXh0IChsaWtlIHRoZSB4LWF4aXMgdGl0bGUgb24gdGhlIHBsb3QgYWJvdmUpLgpUaGlzIG1pZ2h0IGJlIGRpZmZlcmVudCBmcm9tIHRoZSBub3RhdGlvbiB0aGF0IHlvdSdyZSB1c2VkIHRvICgkXGxuKCkkKS4KVG8gdGFrZSBsb2dhcml0aG1zIHdpdGggYSBkaWZmZXJlbnQgYmFzZSBpbiBSIHlvdSBjYW4gc3BlY2lmeSB0aGUgYGJhc2UgPSBgCmFyZ3VtZW50IG9mIGBsb2dgIG9yIHVzZSB0aGUgc2hvcnRoYW5kIGZ1bmN0aW9ucyBgbG9nMTAoeClgIGFuZCBgbG9nMih4KWAgZm9yCmJhc2UgMTAgYW5kIDIsIHJlc3BlY3RpdmVseV0uCgpOb3RlIHRoYXQgZm9yIGhpZ2hlciB2YWx1ZXMgJFxsYW1iZGEkLCB0aGUgY29lZmZpY2llbnQgZXN0aW1hdGVzIGJlY29tZSBjbG9zZXIgdG8gMCwKc2hvd2luZyB0aGUgKnNocmlua2FnZSogZWZmZWN0IG9mIHRoZSByaWRnZSBwZW5hbHR5LgoKU2ltaWxhciB0byB0aGUgUEMgcmVncmVzc2lvbiBleGFtcGxlLCB3ZSBjaG9zZSAkXGxhbWJkYT0yJCBhbmQgdGhlIGdyaWQgcmF0aGVyCmFyYml0cmFyaWx5LiBXZSB3aWxsIHNlZSBzdWJzZXF1ZW50bHkgaG93IHRvIGNob29zZSB0aGUgJFxsYW1iZGEkIHRoYXQgbWluaW1pemVzIHRoZQpwcmVkaWN0aW9uIGVycm9yLgoKCiMgRXhlcmNpc2U6IExhc3NvIHJlZ3Jlc3Npb24KCkxhc3NvIHJlZ3Jlc3Npb24gaXMgYWxzbyBhIGZvcm0gb2YgcGVuYWxpemVkIHJlZ3Jlc3Npb24sIGJ1dCB3ZSBkbyBub3QgaGF2ZSBhbgphbmFseXRpYyBzb2x1dGlvbiBvZiAkXGhhdHt7XGJvbGRzeW1ib2x7XGJldGF9fX0kIGFzIGluIGxlYXN0IHNxdWFyZXMKYW5kIHJpZGdlIHJlZ3Jlc3Npb24uIEluIG9yZGVyIHRvIGZpdCBhIGxhc3NvIG1vZGVsLCB3ZSBvbmNlIGFnYWluIHVzZQp0aGUgYGdsbW5ldCgpYCBmdW5jdGlvbi4gSG93ZXZlciwgdGhpcyB0aW1lIHdlIHVzZSB0aGUgYXJndW1lbnQKYGFscGhhID0gMWAKCgojIyBUYXNrcyB7LX0KCiMjIyMgMS4gUGVyZm9ybSBhIGxhc3NvIHJlZ3Jlc3Npb24gd2l0aCB0aGUgYGdsbW5ldGAgZnVuY3Rpb24gd2l0aCBgWWAgdGhlIHJlc3BvbnNlIGFuZCBgWGAgdGhlIHByZWRpY3RvcnMuIHstfQoKWW91IGNhbiBlaXRoZXIgcHJvdmlkZSBhIGN1c3RvbSBkZXNjZW5kaW5nIHNlcXVlbmNlIG9mICRcbGFtYmRhJCAoYGxhbWJkYWApCnZhbHVlcyBvciBpbnN0ZWFkIHJlbHkgb24gYGdsbW5ldGAncyBkZWZhdWx0IGJlaGF2aW91ciBvZiBjaG9vc2luZyB0aGUgZ3JpZCAKb2YgJFxsYW1iZGEkIHZhbHVlcyBiYXNlZCBvbiB0aGUgZGF0YSAoc2VlIGA/Z2xtbmV0YCBmb3IgbW9yZSBkZXRhaWxzKS4KCjxkZXRhaWxzPjxzdW1tYXJ5PlNvbHV0aW9uPC9zdW1tYXJ5PgpgYGB7ciBnbG1uZXQtbGFzc28tcmVncmVzc2lvbn0KIyBOb3RlIHRoYXQgdGhlIGdsbW5ldCgpIGZ1bmN0aW9uIGNhbiBzdXBwbHkgbGFtYmRhIGF1dG9tYXRpY2FsbHkKIyBCeSBkZWZhdWx0IGl0IHVzZXMgYSBzZXF1ZW5jZSBvZiAxMDAgbGFtYmRhIHZhbHVlcwpsYXNzb19tb2RlbCA8LSBnbG1uZXQoWCwgWSwgYWxwaGEgPSAxKQpgYGAKPC9kZXRhaWxzPgoKCiMjIyMgMi4gTWFrZSB0aGUgY29lZmZpY2llbnQgcHJvZmlsZSBwbG90IGFuZCBpbnRlcnByZXQuIHstfQoKPGRldGFpbHM+PHN1bW1hcnk+U29sdXRpb248L3N1bW1hcnk+CgpgYGB7cn0KcGxvdChsYXNzb19tb2RlbCwgeHZhciA9ICJsYW1iZGEiLCB4bGFiID0gImxvZyhsYW1iZGEpIikKYGBgCgpOb3RlIHRoYXQgdGhlIG51bWJlciBvZiBub24temVybyBjb2VmZmljaWVudHMgaXMgaW5kaWNhdGVkIGF0IHRoZSB0b3Agb2YgdGhlIHBsb3QuCkluIHRoZSBjYXNlIG9mIGxhc3NvLXJlZ3Jlc3Npb24gdGhlIHJlZ3VsYXJpemF0aW9uIGlzIG11Y2ggbGVzcyBzbW9vdGggY29tcGFyZWQKdG8gdGhlIHJpZGdlIHJlZ3Jlc3Npb24sIHdpdGggc29tZSBjb2VmZmljaWVudHMgaW5jcmVhc2luZyBmb3IgaGlnaGVyICRcbGFtYmRhJApiZWZvcmUgc2hhcnBseSBkcm9wcGluZyB0byB6ZXJvLgpJbiBjb250cmFzdCB0byByaWRnZSwgbGFzc28gZXZlbnR1YWxseSBzaHJpbmtzIGFsbCBjb2VmZmljaWVudHMgdG8gMC4KCjwvZGV0YWlscz4KCgojIEV2YWx1YXRpb24gb2YgcHJlZGljdGlvbiBtb2RlbHMgYW5kIHR1bmluZyBoeXBlcnBhcmFtZXRlcnMKCkZpcnN0IHdlIHdpbGwgc3BsaXQgb3VyIG9yaWdpbmFsIGRhdGEgaW4gYSB0cmFpbmluZyBhbmQgdGVzdCBzZXQgdG8gdmFsaWRhdGUgb3VyCm1vZGVsLiBUaGUgdHJhaW5pbmcgc2V0IHdpbGwgYmUgdXNlZCB0byB0cmFpbiB0aGUgbW9kZWwgYW5kIHR1bmUgdGhlCmh5cGVycGFyYW1ldGVycywgd2hpbGUgdGhlIHRlc3Qgc2V0IHdpbGwgYmUgdXNlZCB0byBldmFsdWF0ZSB0aGUKX19vdXQtb2Ytc2FtcGxlX18gcGVyZm9ybWFuY2Ugb2Ygb3VyIGZpbmFsIG1vZGVsLiBJZiB3ZSB3b3VsZCB1c2UgdGhlIHNhbWUgZGF0YQp0byBib3RoIGZpdCBhbmQgdGVzdCB0aGUgbW9kZWwsIHdlIHdvdWxkIGdldCBiaWFzZWQgcmVzdWx0cy4KCkJlZm9yZSB3ZSBiZWdpbiwgd2UgdXNlIHRoZSBgc2V0LnNlZWQoKWAgZnVuY3Rpb24gaW4gb3JkZXIgdG8gc2V0IGEgc2VlZApmb3IgUuKAmXMgcmFuZG9tIG51bWJlciBnZW5lcmF0b3IsIHNvIHRoYXQgd2Ugd2lsbCBhbGwgb2J0YWluIHByZWNpc2VseQp0aGUgc2FtZSByZXN1bHRzIGFzIHRob3NlIHNob3duIGJlbG93LiBJdCBpcyBnZW5lcmFsbHkgZ29vZCBwcmFjdGljZSB0bwpzZXQgYSByYW5kb20gc2VlZCB3aGVuIHBlcmZvcm1pbmcgYW4gYW5hbHlzaXMgc3VjaCBhcyBjcm9zcy12YWxpZGF0aW9uCnRoYXQgY29udGFpbnMgYW4gZWxlbWVudCBvZiByYW5kb21uZXNzLCBzbyB0aGF0IHRoZSByZXN1bHRzIG9idGFpbmVkIGNhbgpiZSByZXByb2R1Y2VkIGF0IGEgbGF0ZXIgdGltZS4KCldlIGJlZ2luIGJ5IHVzaW5nIHRoZSBgc2FtcGxlKClgIGZ1bmN0aW9uIHRvIHNwbGl0IHRoZSBzZXQgb2Ygc2FtcGxlcyBpbnRvIHR3bwpzdWJzZXRzLCBieSBzZWxlY3RpbmcgYSByYW5kb20gc3Vic2V0IG9mIDgwIG9ic2VydmF0aW9ucyBvdXQgb2YgdGhlIG9yaWdpbmFsIDEyMApvYnNlcnZhdGlvbnMuIFdlIHJlZmVyIHRvIHRoZXNlIG9ic2VydmF0aW9ucyBhcyB0aGUgX190cmFpbmluZ19fIHNldC4gVGhlIHJlc3QKb2YgdGhlIG9ic2VydmF0aW9ucyB3aWxsIGJlIHVzZWQgYXMgdGhlIF9fdGVzdF9fIHNldC4KCmBgYHtyIGNyZWF0ZS10cmFpbmluZy1zZXR9CnNldC5zZWVkKDEpCiMgU2FtcGxlIDgwIHJhbmRvbSBJRHMgZnJvbSB0aGUgcm93cyBvZiBYICgxMjAgdG90YWwpCnRyYWluSUQgPC0gc2FtcGxlKG5yb3coWCksIDgwKQoKIyBUcmFpbmluZyBkYXRhCnRyYWluWCA8LSBYW3RyYWluSUQsIF0KdHJhaW5ZIDwtIFlbdHJhaW5JRF0KCiMgVGVzdCBkYXRhCnRlc3RYIDwtIFhbLXRyYWluSUQsIF0KdGVzdFkgPC0gWVstdHJhaW5JRF0KYGBgCgpUbyBtYWtlIGZpdHRpbmcgdGhlIG1vZGVscyBhIGJpdCBlYXNpZXIgbGF0ZXIsIHdlIHdpbGwgYWxzbyBjcmVhdGUgMiBkYXRhLmZyYW1lcwpjb21iaW5pbmcgdGhlIHJlc3BvbnNlIGFuZCBwcmVkaWN0b3JzIGZvciB0aGUgdHJhaW5pbmcgYW5kIHRlc3QgZGF0YS4KCmBgYHtyfQp0cmFpbl9kYXRhIDwtIGRhdGEuZnJhbWUoIlRSSU0zMiIgPSB0cmFpblksIHRyYWluWCkKdGVzdF9kYXRhIDwtIGRhdGEuZnJhbWUoIlRSSU0zMiIgPSB0ZXN0WSwgdGVzdFgpCgojIyBHbGFuY2luZyBhdCB0aGUgZGF0YSBzdHJ1Y3R1cmU6IGZvciB0aGUgZmlyc3QgMTAgY29sdW1ucyBvbmx5CnN0cih0cmFpbl9kYXRhWywgMToxMF0pCmBgYAoKCiMjIE1vZGVsIGV2YWx1YXRpb24KCldlIGFyZSBpbnRlcmVzdGVkIGluIHRoZSBfX291dC1vZi1zYW1wbGVfXyBlcnJvciBvZiBvdXIgbW9kZWxzLAppLmUuIGhvdyBnb29kIG91ciBtb2RlbCBkb2VzIG9uIHVuc2VlbiBkYXRhLgpfX1RoaXMgd2lsbCBhbGxvdyB1cyB0byBjb21wYXJlIGRpZmZlcmVudCAqY2xhc3Nlcyogb2YgbW9kZWxzX18uCkZvciBjb250aW51b3VzIG91dGNvbWVzIHdlIHdpbGwgdXNlIHRoZSBfX21lYW4gc3F1YXJlZCBlcnJvciAoTVNFKV9fCihvciBpdHMgc3F1YXJlLXJvb3QgdmVyc2lvbiwgdGhlIFJNU0UpLgoKVGhlIGV2YWx1YXRpb24gd2lsbCBhbGxvdyB1cyB0byBjb21wYXJlIHRoZSBwZXJmb3JtYW5jZSBvZiBkaWZmZXJlbnQgdHlwZXMgb2YKbW9kZWxzLCBlLmcuIFBDIHJlZ3Jlc3Npb24sIHJpZGdlIHJlZ3Jlc3Npb24gYW5kIGxhc3NvIHJlZ3Jlc3Npb24sIG9uIG91ciBkYXRhLgpIb3dldmVyLCB3ZSBzdGlsbCBuZWVkIHRvIGZpbmQgdGhlIG9wdGltYWwgbW9kZWwgd2l0aGluIGVhY2ggb2YgdGhlc2UgY2xhc3NlcywKYnkgc2VsZWN0aW5nIHRoZSBiZXN0IGh5cGVycGFyYW1ldGVyIChudW1iZXIgb2YgUENzIGZvciBQQyByZWdyZXNzaW9uIGFuZCAkXGxhbWJkYSQKZm9yIGxhc3NvIGFuZCByaWRnZSkuCkZvciB0aGF0IHdlIHdpbGwgdXNlClsqJGskLWZvbGQgQ3Jvc3MgVmFsaWRhdGlvbipdKGh0dHBzOi8vZW4ud2lraXBlZGlhLm9yZy93aWtpL0Nyb3NzLXZhbGlkYXRpb25fKHN0YXRpc3RpY3MpKQpvbiBvdXIgdHJhaW5pbmcgc2V0LgoKCiMjIFR1bmluZyBoeXBlcnBhcmFtZXRlcnMKClRoZSB0ZXN0IHNldCBpcyBvbmx5IHVzZWQgdG8gZXZhbHVhdGUgdGhlICpmaW5hbCogbW9kZWwuClRvIGFjaGlldmUgdGhpcyBmaW5hbCBtb2RlbCwgd2UgbmVlZCB0byBmaW5kIHRoZSBvcHRpbWFsIGh5cGVycGFyYW1ldGVycywKaS5lLiB0aGUgaHlwZXJwYXJhbWV0ZXJzIHRoYXQgYmVzdCBnZW5lcmFsaXplIHRoZSBtb2RlbCB0byB1bnNlZW4gZGF0YS4KV2UgY2FuIGVzdGltYXRlIHRoaXMgYnkgdXNpbmcgKmstZm9sZCBjcm9zcyB2YWxpZGF0aW9uKiAoJENWX2skKSBvbgp0aGUgdHJhaW5pbmcgZGF0YS4KClRoZSAkQ1ZfayQgZXN0aW1hdGVzIGNhbiBiZSBhdXRvbWF0aWNhbGx5IGNvbXB1dGVkIGZvciBhbnkKZ2VuZXJhbGl6ZWQgbGluZWFyIG1vZGVsIChnZW5lcmF0ZWQgd2l0aCBgZ2xtKClgIGFuZCBieSBleHRlbnNpb24gYGdsbW5ldCgpYCkKdXNpbmcgdGhlIGBjdi5nbG0oKWAgZnVuY3Rpb24gZnJvbSB0aGUKKltib290XShodHRwczovL0NSQU4uUi1wcm9qZWN0Lm9yZy9wYWNrYWdlPWJvb3QpKiBwYWNrYWdlLgoKCiMgRXhhbXBsZTogUEMgcmVncmVzc2lvbiBldmFsdWF0aW9uCgpXZSBzdGFydCB3aXRoIHRoZSBQQyByZWdyZXNzaW9uIGFuZCBsb29rIGZvciB0aGUgb3B0aW1hbCBudW1iZXIgb2YgUENzIHRoYXQgbWluaW1pemVzCnRoZSBNU0UgdXNpbmcgJGskLWZvbGQgQ3Jvc3MgdmFsaWRhdGlvbi4KV2UgdGhlbiB1c2UgdGhpcyBvcHRpbWFsIG51bWJlciBvZiBQQ3MgdG8gdHJhaW4gdGhlIGZpbmFsIG1vZGVsIGFuZCBldmFsdWF0ZSBpdApvbiB0aGUgdGVzdCBkYXRhLgoKCiMjIGstZm9sZCBDcm9zcyBWYWxpZGF0aW9uIHRvIHR1bmUgbnVtYmVyIG9mIGNvbXBvbmVudHMKCkNvbnZlbmllbnRseSwgdGhlIGBwY3JgIGZ1bmN0aW9uIGZyb20gdGhlIGBwbHNgIHBhY2thZ2UgaGFzIGFuIGltcGxlbWVudGF0aW9uIGZvcgprLWZvbGQgQ3Jvc3MgVmFsaWRhdGlvbi4gV2Ugc2ltcGx5IG5lZWQgdG8gc2V0IGB2YWxpZGF0aW9uID0gQ1ZgIGFuZCBgc2VnbWVudHMgPSAyMGAKdG8gcGVyZm9ybSAyMC1mb2xkIENyb3NzIFZhbGlkYXRpb24gd2l0aCBQQyByZWdyZXNzaW9uLgpJZiB3ZSBkb24ndCBzcGVjaWZ5IGBuY29tcGAsIGBwY3JgIHdpbGwgc2VsZWN0IHRoZSBtYXhpbXVtIG51bWJlciBvZiBQQ3MgdGhhdCBjYW4KYmUgdXNlZCBmb3IgdGhlIENWLgoKTm90ZSB0aGF0IG91ciB0cmFpbmluZyBkYXRhIGB0cmFpblhgIGNvbnNpc3RzIG9mIDgwIG9ic2VydmF0aW9ucyAocm93cykuCklmIHdlIHBlcmZvcm0gMjAtZm9sZCBDViwgdGhhdCBtZWFucyB3ZSB3aWxsIHNwbGl0IHRoZSBkYXRhIGluIDIwIGdyb3Vwcywgc28KZWFjaCBncm91cCB3aWxsIGNvbnNpc3Qgb2YgNCBvYnNlcnZhdGlvbnMuIEF0IGVhY2ggQ1YgY3ljbGUsIG9uZSBncm91cCB3aWxsIGJlIGxlZnQKb3V0IGFuZCB0aGUgbW9kZWwgd2lsbCBiZSB0cmFpbmVkIG9uIHRoZSByZW1haW5pbmcgZ3JvdXBzLiBUaGlzIGxlYXZlcyB1cyB3aXRoCjc2IHRyYWluaW5nIG9ic2VydmF0aW9ucyBmb3IgZWFjaCBDViBjeWNsZSwgc28gdGhlIG1heGltYWwgbnVtYmVyIG9mIGNvbXBvbmVudHMKdGhhdCBjYW4gYmUgdXNlZCBpbiB0aGUgbGluZWFyIHJlZ3Jlc3Npb24gaXMgNzUuCgpgYGB7ciBwY3Ita0NWfQojIyBTZXQgc2VlZCBmb3IgcmVwcm9kdWNpYmlsaXR5LCBrQ1YgaXMgYSByYW5kb20gcHJvY2VzcyEKc2V0LnNlZWQoMTIzKQoKSyA8LSAyMAoKIyMgVGhlICdZIH4gLicgbm90YXRpb24gbWVhbnM6IGZpdCBZIGJ5IGV2ZXJ5IG90aGVyIHZhcmlhYmxlIGluIHRoZSBkYXRhCnBjcl9jdiA8LSBwY3IoVFJJTTMyIH4gLiwgZGF0YSA9IHRyYWluX2RhdGEsIHZhbGlkYXRpb24gPSAiQ1YiLCBzZWdtZW50cyA9IEspCnN1bW1hcnkocGNyX2N2KQpgYGAKCldlIGNhbiBwbG90IHRoZSAqcm9vdCBtZWFuIHNxdWFyZWQgZXJyb3Igb2YgcHJlZGljdGlvbiogKFJNU0VQKSBmb3IgZWFjaCBudW1iZXIKb2YgY29tcG9uZW50cyBhcyBmb2xsb3dzLl5bTm90ZTogVGhlIHNvbGlkIGJsYWNrIGxpbmUgaW5kaWNhdGVzIHRoZSBjcm9zcy12YWxpZGF0ZWQgUk1TRVAsCndoaWxlIHRoZSBkYXNoZWQgcmVkIGxpbmUgYWRqdXN0cyB0aGUgUk1TRVAgZXN0aW1hdGUgZG93bndhcmRzIHRvIGFjY291bnQgZm9yIHRoZSBmYWN0CnRoYXQgdGhlIFBDUiBpcyB0cmFpbmVkIG9uIG9ubHkgJFxmcmFje2stMX17a30gbl97XHRleHR7dHJhaW59fSA9IDc2JCBpbnN0ZWFkIG9mIHRoZSBmdWxsCiRuX3tcdGV4dHt0cmFpbn19ID0gODAkIG9ic2VydmF0aW9ucy4gU2VlIEVxdWF0aW9uICg1KSBvZgpbKk1ldmlrIGFuZCBDZWRlcmt2aXN0LCAyMDA1Kl0oaHR0cHM6Ly9hbmFseXRpY2Fsc2NpZW5jZWpvdXJuYWxzLm9ubGluZWxpYnJhcnkud2lsZXkuY29tL2RvaS9hYnMvMTAuMTAwMi9jZW0uODg3KQpmb3IgdGhlIGRlZmluaXRpb24gb2YgdGhlIGFkanVzdG1lbnQuIElmICRrJCBpcyByZWxhdGl2ZWx5IGxhcmdlLCBzdWNoIGFzIG91ciAkayA9IDIwJCwKdGhlIGFkanVzdG1lbnQgZG9lcyBub3QgaGF2ZSBhIGxhcmdlIGltcGFjdCBhbmQgdGhlIHNvbGlkIGFuZCBkYXNoZWQgbGluZXMgYXJlIHF1aXRlCnNpbWlsYXIuXQoKYGBge3IgcGNyX2N2LXBsb3R9CnBsb3QocGNyX2N2LCBwbG90dHlwZSA9ICJ2YWxpZGF0aW9uIikKYGBgCgpUaGUgYHBsc2AgcGFja2FnZSBhbHNvIGhhcyBhIGZ1bmN0aW9uIGBzZWxlY3ROY29tcGAgdG8gc2VsZWN0IHRoZSBvcHRpbWFsIG51bWJlciBvZiBjb21wb25lbnRzLgpIZXJlIHdlIHVzZSB0aGUgIm9uZS1zaWdtYSIgbWV0aG9kLCB3aGljaCByZXR1cm5zIHRoZSBsb3dlc3QgbnVtYmVyIG9mIGNvbXBvbmVudHMKZm9yIHdoaWNoIHRoZSBSTVNFIGlzIHdpdGhpbiBvbmUgc3RhbmRhcmQgZXJyb3Igb2YgdGhlIGFic29sdXRlIG1pbmltdW0uClRoZSBmdW5jdGlvbiBhbHNvIGFsbG93cyBwbG90dGluZyB0aGUgcmVzdWx0IGJ5IHNwZWNpZnlpbmcgYHBsb3QgPSBUUlVFYC4KCmBgYHtyIHBjci1vcHRpbWFsLW5jb21wfQpvcHRpbWFsX25jb21wIDwtIHNlbGVjdE5jb21wKHBjcl9jdiwgbWV0aG9kID0gIm9uZXNpZ21hIiwgcGxvdCA9IFRSVUUpCmBgYAoKVGhlIG9wdGltYWwgbnVtYmVyIG9mIGNvbXBvbmVudHMgZm9yIG91ciBtb2RlbCBpcyBgciBvcHRpbWFsX25jb21wYC4KCmBgYHtyIHBjci1vcHRpbWFsLW5jb21wLXByaW50fQpvcHRpbWFsX25jb21wCmBgYAoKCiMjIFZhbGlkYXRpb24gb24gdGVzdCBkYXRhCgpXZSBub3cgdXNlIG91ciBvcHRpbWFsIG51bWJlciBvZiBjb21wb25lbnRzIHRvIHRyYWluIHRoZSBmaW5hbCBQQ1IgbW9kZWwuClRoaXMgbW9kZWwgaXMgdGhlbiB2YWxpZGF0ZWQgb24gYnkgZ2VuZXJhdGluZyBwcmVkaWN0aW9ucyBmb3IgdGhlIHRlc3QgZGF0YSBhbmQKY2FsY3VsYXRpbmcgdGhlIE1TRS4KCldlIGRlZmluZSBhIGN1c3RvbSBmdW5jdGlvbiB0byBjYWxjdWxhdGUgdGhlIE1TRS4KTm90ZSB0aGF0IHRoZXJlIGlzIGFsc28gYW4gYE1TRVBgIGZ1bmN0aW9uIGluIHRoZSBgcGxzYCBwYWNrYWdlIHdoaWNoIGRvZXMgdGhlCnByZWRpY3Rpb24gYW5kIE1TRSBjYWxjdWxhdGlvbiBpbiBvbmUgZ28uCkJ1dCBvdXIgb3duIGZ1bmN0aW9uIHdpbGwgY29tZSBpbiBoYW5keSBsYXRlciBmb3IgbGFzc28gYW5kIHJpZGdlIHJlZ3Jlc3Npb24uCgpgYGB7ciBNU0V9CiMgTWVhbiBTcXVhcmVkIEVycm9yCiMjIG9iczogb2JzZXJ2YXRpb25zOyBwcmVkOiBwcmVkaWN0aW9ucwpNU0UgPC0gZnVuY3Rpb24ob2JzLCBwcmVkKXsKICBtZWFuKChkcm9wKG9icykgLSBkcm9wKHByZWQpKV4yKQp9CmBgYAoKYGBge3IgZmluYWxfcGNyX21vZGVsfQpmaW5hbF9wY3JfbW9kZWwgPC0gcGNyKFRSSU0zMiB+IC4sIGRhdGEgPSB0cmFpbl9kYXRhLCBuY29tcCA9IG9wdGltYWxfbmNvbXApCnBjcl9wcmVkcyA8LSBwcmVkaWN0KGZpbmFsX3Bjcl9tb2RlbCwgbmV3ZGF0YSA9IHRlc3RfZGF0YSwgbmNvbXAgPSBvcHRpbWFsX25jb21wKQoocGNyX21zZSA8LSBNU0UodGVzdFksIHBjcl9wcmVkcykpCmBgYAoKVGhpcyB2YWx1ZSBvbiBpdHMgb3duIGRvZXMgbm90IHRlbGwgdXMgdmVyeSBtdWNoLCBidXQgd2UgY2FuIHVzZSBpdCB0byBjb21wYXJlIG91cgpQQ1IgbW9kZWwgd2l0aCBvdGhlciB0eXBlcyBvZiBtb2RlbHMgbGF0ZXIuCgpGaW5hbGx5LCB3ZSBwbG90IHRoZSBwcmVkaWN0ZWQgdmFsdWVzIGZvciBvdXIgcmVzcG9uc2UgdmFyaWFibGUgKHRoZSBUUklNMzIgZ2VuZSBleHByZXNzaW9uKQphZ2FpbnN0IHRoZSBhY3R1YWwgb2JzZXJ2ZWQgdmFsdWVzIGZyb20gb3VyIHRlc3Qgc2V0LgoKYGBge3IgcGNyLXByZWRwbG90fQpwcmVkcGxvdChmaW5hbF9wY3JfbW9kZWwsIG5ld2RhdGEgPSB0ZXN0X2RhdGEsIGxpbmUgPSBUUlVFKQpgYGAKCgoKIyBFeGVyY2lzZTogZXZhbHVhdGUgYW5kIGNvbXBhcmUgcHJlZGljdGlvbiBtb2RlbHMKCiMjIyMgMS4gUGVyZm9ybSBhIGxhc3NvIHJlZ3Jlc3Npb24gd2l0aCAyMC1mb2xkIENyb3NzIFZhbGlkYXRpb24gb24gdGhlIHRyYWluaW5nIGRhdGEgKGB0cmFpblhgLCBgdHJhaW5ZYCkuIFBsb3QgdGhlIHJlc3VsdHMgYW5kIHNlbGVjdCB0aGUgb3B0aW1hbCAkXGxhbWJkYSQgcGFyYW1ldGVyLiBGaXQgYSBmaW5hbCBtb2RlbCB3aXRoIHRoZSBzZWxlY3RlZCAkXGxhbWJkYSQgYW5kIHZhbGlkYXRlIGl0IG9uIHRoZSB0ZXN0IGRhdGEuIHstfQoKKkhpbnQqOiB1c2UgdGhlIGBjdi5nbG1uZXQoKWAgZnVuY3Rpb24sIGZvciAyMCBmb2xkcyBDViwgc2V0IGBuZm9sZHMgPSAyMGAgYW5kCnRvIHVzZSB0aGUgTVNFIG1ldHJpYyBzZXQgYHR5cGUubWVhc3VyZSA9ICJtc2UiYC4KR28gdG8gYD9jdi5nbG1uZXRgIGZvciBkZXRhaWxzLgoKPGRldGFpbHM+PHN1bW1hcnk+U29sdXRpb248L3N1bW1hcnk+CgpgYGB7ciBsYXNzby1jdn0Kc2V0LnNlZWQoMTIzKQpsYXNzb19jdiA8LSBjdi5nbG1uZXQodHJhaW5YLCB0cmFpblksIGFscGhhID0gMSwKICAgICAgICAgICAgICAgICAgICAgIG5mb2xkcyA9IEssIHR5cGUubWVhc3VyZSA9ICJtc2UiKQpsYXNzb19jdgpwbG90KGxhc3NvX2N2KQpgYGAKCk5vdGUgdGhhdCB3ZSBjYW4gZXh0cmFjdCB0aGUgZml0dGVkIGxhc3NvIHJlZ3Jlc3Npb24gb2JqZWN0IGZyb20gdGhlIENWIHJlc3VsdAphbmQgbWFrZSB0aGUgY29lZmZpY2llbnQgcHJvZmlsZSBwbG90IGFzIGJlZm9yZS4KCmBgYHtyIGxhc3NvLWN2LWNvZWZmaWNpZW50LXByb2ZpbGV9CnBsb3QobGFzc29fY3YkZ2xtbmV0LmZpdCwgeHZhciA9ICJsYW1iZGEiKQpgYGAKCldlIGNhbiBsb29rIGZvciB0aGUgJFxsYW1iZGEkIHZhbHVlcyB0aGF0IGdpdmUgdGhlIGJlc3QgcmVzdWx0LgpIZXJlIHlvdSBoYXZlIHR3byBwb3NzaWJpbGl0aWVzIDoKCjEuIGBsYW1iZGEubWluYDogdGhlIHZhbHVlIG9mICAkXGxhbWJkYSQgdGhhdCBnaXZlcyB0aGUgYmVzdCByZXN1bHQgZm9yIHRoZSBjcm9zc3ZhbGlkYXRpb24uCjIuIGBsYW1iZGEuMXNlYDogdGhlIGxhcmdlc3QgdmFsdWUgb2YgJFxsYW1iZGEkIHN1Y2ggdGhhdCB0aGUgTVNFIGlzIHdpdGhpbiAxIHN0YW5kYXJkIGVycm9yCm9mIHRoZSBiZXN0IHJlc3VsdCBmcm9tIHRoZSBjcm9zcyB2YWxpZGF0aW9uLgoKYGBge3J9Cmxhc3NvX2N2JGxhbWJkYS5taW4KbGFzc29fY3YkbGFtYmRhLjFzZQpgYGAKCldlIHdpbGwgdXNlIGBsYW1iZGEubWluYCBoZXJlIHRvIGZpdCB0aGUgZmluYWwgbW9kZWwgYW5kIGdlbmVyYXRlIHByZWRpY3Rpb25zIG9uIHRoZSB0ZXN0IGRhdGEuCk5vdGUgdGhhdCB3ZSBkb24ndCBhY3R1YWxseSBoYXZlIHRvIHJlZG8gdGhlIGZpdHRpbmcsIHdlIGNhbiBqdXN0IHVzZSBvdXIgZXhpc3RpbmcKYGxhc3NvX2N2YCBvYmplY3QsIHdoaWNoIGFscmVhZHkgY29udGFpbnMgdGhlIGZpdHRlZCBtb2RlbHMgZm9yIGEgcmFuZ2Ugb2YgYGxhbWJkYWAgdmFsdWVzLgpXZSBjYW4gdXNlIHRoZSBgcHJlZGljdGAgZnVuY3Rpb24gYW5kIHNwZWNpZnkgdGhlIGBzYCBhcmd1bWVudCAod2hpY2ggY29uZnVzaW5nbHkgc2V0cyBgbGFtYmRhYCBpbiB0aGlzIGNhc2UpICB0byBtYWtlIHByZWRpY3Rpb25zIG9uIHRoZSB0ZXN0IGRhdGEuCgpgYGB7cn0KbGFzc29fcHJlZHMgPC0gcHJlZGljdChsYXNzb19jdiwgcyA9IGxhc3NvX2N2JGxhbWJkYS5taW4sIG5ld3ggPSB0ZXN0WCkKIyMgQ2FsY3VsYXRlIE1TRQoobGFzc29fbXNlIDwtIE1TRSh0ZXN0WSwgbGFzc29fcHJlZHMpKQpgYGAKPC9kZXRhaWxzPgoKCiMjIyMgMi4gRG8gdGhlIHNhbWUgZm9yIHJpZGdlIHJlZ3Jlc3Npb24uIHstfQoKPGRldGFpbHM+PHN1bW1hcnk+U29sdXRpb248L3N1bW1hcnk+CgpgYGB7ciByaWRnZS1jdn0Kc2V0LnNlZWQoMTIzKQpyaWRnZV9jdiA8LSBjdi5nbG1uZXQodHJhaW5YLCB0cmFpblksIGFscGhhID0gMCwKICAgICAgICAgICAgICAgICAgICAgIG5mb2xkcyA9IEssIHR5cGUubWVhc3VyZSA9ICJtc2UiKQpyaWRnZV9jdgpwbG90KHJpZGdlX2N2KQpgYGAKClNpbmNlIHRoZSBNU0UgaXMgbWluaW1pemVkIGF0IHRoZSBzbWFsbGVzdCBjb25zaWRlcmVkICRcbGFtYmRhID0kIGByIHJpZGdlX2N2JGxhbWJkYS5taW5gLAp3ZSBzaG91bGQgZXh0ZW5kIHRoZSBncmlkIHRvIGluY2x1ZGUgc21hbGxlciB2YWx1ZXMgdGhhbiB0aG9zZSB0aGF0IHdlcmUgY2hvc2VuIGJ5IHRoZQpkZWZhdWx0IHNldHRpbmcgb2YgYGN2LmdsbW5ldCgpYC4gSW50dWl0aXZlbHksIHRoaXMgaXMgYmVjYXVzZSB0aGUgTVNFIG1pZ2h0IGNvbnRpbnVlIHRvCmRlY3JlYXNlIGJleW9uZCB0aGUgbGVmdCBib3VuZGFyeSBvZiB0aGUgcGxvdC4KCmBgYHtyIHJpZGdlLWN2LWFsdH0Kc2V0LnNlZWQoMTIzKQpyaWRnZV9jdiA8LSBjdi5nbG1uZXQodHJhaW5YLCB0cmFpblksIGFscGhhID0gMCwKICAgICAgICAgICAgICAgICAgICAgIG5mb2xkcyA9IEssIHR5cGUubWVhc3VyZSA9ICJtc2UiLAogICAgICAgICAgICAgICAgICAgICAgbGFtYmRhID0gZXhwKHNlcSg3LCAtMiwgYnkgPSAtMC4xKSkpCnJpZGdlX2N2CnBsb3QocmlkZ2VfY3YpCmBgYAoKTm90ZSB0aGF0IHdlIGNhbiBleHRyYWN0IHRoZSBmaXR0ZWQgcmlkZ2UgcmVncmVzc2lvbiBvYmplY3QgZnJvbSB0aGUgQ1YgcmVzdWx0CmFuZCBtYWtlIHRoZSBjb2VmZmljaWVudCBwcm9maWxlIHBsb3QgYXMgYmVmb3JlLgoKYGBge3IgcmlkZ2UtY3YtY29lZmZpY2llbnQtcHJvZmlsZX0KcGxvdChyaWRnZV9jdiRnbG1uZXQuZml0LCB4dmFyID0gImxhbWJkYSIpCmBgYAoKV2UgY2FuIGxvb2sgZm9yIHRoZSAkXGxhbWJkYSQgdmFsdWVzIHRoYXQgZ2l2ZSB0aGUgYmVzdCByZXN1bHQuCkhlcmUgeW91IGhhdmUgdHdvIHBvc3NpYmlsaXRpZXMgOgoKMS4gYGxhbWJkYS5taW5gOiB0aGUgdmFsdWUgb2YgICRcbGFtYmRhJCB0aGF0IGdpdmVzIHRoZSBiZXN0IHJlc3VsdCBmb3IgdGhlIGNyb3NzdmFsaWRhdGlvbi4KMi4gYGxhbWJkYS4xc2VgOiB0aGUgbGFyZ2VzdCB2YWx1ZSBvZiAkXGxhbWJkYSQgc3VjaCB0aGF0IHRoZSBNU0UgaXMgd2l0aGluIDEgc3RhbmRhcmQgZXJyb3IKb2YgdGhlIGJlc3QgcmVzdWx0IGZyb20gdGhlIGNyb3NzIHZhbGlkYXRpb24uCgpgYGB7cn0KcmlkZ2VfY3YkbGFtYmRhLm1pbgpyaWRnZV9jdiRsYW1iZGEuMXNlCmBgYAoKV2Ugd2lsbCB1c2UgYGxhbWJkYS5taW5gIGhlcmUgdG8gZml0IHRoZSBmaW5hbCBtb2RlbCBhbmQgZ2VuZXJhdGUgcHJlZGljdGlvbnMgb24gdGhlIHRlc3QgZGF0YS4KTm90ZSB0aGF0IHdlIGRvbid0IGFjdHVhbGx5IGhhdmUgdG8gcmVkbyB0aGUgZml0dGluZywgd2UgY2FuIGp1c3QgdXNlIG91ciBleGlzdGluZwpgcmlkZ2VfY3ZgIG9iamVjdCwgd2hpY2ggYWxyZWFkeSBjb250YWlucyB0aGUgZml0dGVkIG1vZGVscyBmb3IgYSByYW5nZSBvZiBgbGFtYmRhYCB2YWx1ZXMuCldlIGNhbiB1c2UgdGhlIGBwcmVkaWN0YCBmdW5jdGlvbiBhbmQgc3BlY2lmeSB0aGUgYHNgIGFyZ3VtZW50ICh3aGljaCBjb25mdXNpbmdseSBzZXRzIGBsYW1iZGFgIGluIHRoaXMgY2FzZSkgIHRvIG1ha2UgcHJlZGljdGlvbnMgb24gdGhlIHRlc3QgZGF0YS4KCmBgYHtyIHJpZGdlLXByZWRpY3Rpb25zfQpyaWRnZV9wcmVkcyA8LSBwcmVkaWN0KHJpZGdlX2N2LCBzID0gcmlkZ2VfY3YkbGFtYmRhLm1pbiwgbmV3eCA9IHRlc3RYKQojIyBDYWxjdWxhdGUgTVNFCihyaWRnZV9tc2UgPC0gTVNFKHRlc3RZLCByaWRnZV9wcmVkcykpCmBgYAoKPC9kZXRhaWxzPgoKCiMjIyMgMy4gV2hpY2ggb2YgdGhlIG1vZGVscyBjb25zaWRlcmVkIChQQ1IsIGxhc3NvLCByaWRnZSkgcGVyZm9ybXMgYmVzdD8uIHstfQoKPGRldGFpbHM+PHN1bW1hcnk+U29sdXRpb248L3N1bW1hcnk+CgpCYXNlZCBvbiB0aGUgTVNFLCB0aGUgcmlkZ2UgbW9kZWwgcGVyZm9ybXMgYmVzdCBvbiB0aGUgdGVzdCBkYXRhLgoKYGBge3IsIGVjaG89RkFMU0V9CmtuaXRyOjprYWJsZSgKICBkYXRhLmZyYW1lKAogICAgIk1vZGVsIiA9IGMoIlBDUiIsICJMYXNzbyIsICJSaWRnZSIpLAogICAgIk1TRSIgPSBjKHBjcl9tc2UsIGxhc3NvX21zZSwgcmlkZ2VfbXNlKQogICkKKQpgYGAKPC9kZXRhaWxzPgoKCmBgYHtyLCBjaGlsZD0iX3Nlc3Npb24taW5mby5SbWQifQpgYGAK

Lab 3: Penalized regression techniques for high-dimensional data

High Dimensional Data Analysis practicals

Adapted by Milan Malfait and Leo Fuhrhop

04 Nov 2021
(Last updated: 2025-11-06)

Change log

1 Introduction

1.1 The dataset

1.2 The curse of singularity

2 Principal component regression

2.1 Classic linear regression on PCs

2.2 Using the package `pls`

3 Ridges, Lassos and Elastic Nets

4 Exercise: Verification of ridge regression

Tasks

1. Verify that ${\mathbf{(X^TX}}+\lambda{\mathbf{I}})$ has rank $200$ , for any $\lambda>0$ of your choice.

2. Check that the inverse of ${\mathbf{(X^TX}}+\lambda{\mathbf{I}})$ can be computed.

3. Finally, compute ${\boldsymbol{\hat{\beta}}=(\mathbf{X^TX}}+\lambda{\mathbf{I}})^{-1}{\mathbf{X^TY}}$ .

5 Performing ridge and lasso regression with `glmnet`

Demonstration: Ridge regression

6 Exercise: Lasso regression

Tasks

1. Perform a lasso regression with the `glmnet` function with `Y` the response and `X` the predictors.

2. Make the coefficient profile plot and interpret.

7 Evaluation of prediction models and tuning hyperparameters

7.1 Model evaluation

7.2 Tuning hyperparameters

8 Example: PC regression evaluation

8.1 k-fold Cross Validation to tune number of components

8.2 Validation on test data

9 Exercise: evaluate and compare prediction models

1. Perform a lasso regression with 20-fold Cross Validation on the training data (`trainX`, `trainY`). Plot the results and select the optimal $\lambda$ parameter. Fit a final model with the selected $\lambda$ and validate it on the test data.

2. Do the same for ridge regression.

3. Which of the models considered (PCR, lasso, ridge) performs best?.

Session info

Lab 3: Penalized regression techniques for high-dimensional data

High Dimensional Data Analysis practicals

Adapted by Milan Malfait and Leo Fuhrhop

04 Nov 2021 (Last updated: 2025-11-06)

Change log

1 Introduction

1.1 The dataset

1.2 The curse of singularity

2 Principal component regression

2.1 Classic linear regression on PCs

2.2 Using the package pls

3 Ridges, Lassos and Elastic Nets

4 Exercise: Verification of ridge regression

Tasks

1. Verify that (𝐗𝐓𝐗+λ𝐈){\mathbf{(X^TX}}+\lambda{\mathbf{I}}) has rank 200200, for any λ>0\lambda>0 of your choice.

2. Check that the inverse of (𝐗𝐓𝐗+λ𝐈){\mathbf{(X^TX}}+\lambda{\mathbf{I}}) can be computed.

3. Finally, compute 𝛃̂=(𝐗𝐓𝐗+λ𝐈)−1𝐗𝐓𝐘{\boldsymbol{\hat{\beta}}=(\mathbf{X^TX}}+\lambda{\mathbf{I}})^{-1}{\mathbf{X^TY}}.

5 Performing ridge and lasso regression with glmnet

Demonstration: Ridge regression

6 Exercise: Lasso regression

Tasks

1. Perform a lasso regression with the glmnet function with Y the response and X the predictors.

2. Make the coefficient profile plot and interpret.

7 Evaluation of prediction models and tuning hyperparameters

7.1 Model evaluation

7.2 Tuning hyperparameters

8 Example: PC regression evaluation

8.1 k-fold Cross Validation to tune number of components

8.2 Validation on test data

9 Exercise: evaluate and compare prediction models

1. Perform a lasso regression with 20-fold Cross Validation on the training data (trainX, trainY). Plot the results and select the optimal λ\lambda parameter. Fit a final model with the selected λ\lambda and validate it on the test data.

2. Do the same for ridge regression.

3. Which of the models considered (PCR, lasso, ridge) performs best?.

Session info

04 Nov 2021
(Last updated: 2025-11-06)

2.2 Using the package `pls`

1. Verify that ${\mathbf{(X^TX}}+\lambda{\mathbf{I}})$ has rank $200$ , for any $\lambda>0$ of your choice.

2. Check that the inverse of ${\mathbf{(X^TX}}+\lambda{\mathbf{I}})$ can be computed.

3. Finally, compute ${\boldsymbol{\hat{\beta}}=(\mathbf{X^TX}}+\lambda{\mathbf{I}})^{-1}{\mathbf{X^TY}}$ .

5 Performing ridge and lasso regression with `glmnet`

1. Perform a lasso regression with the `glmnet` function with `Y` the response and `X` the predictors.

1. Perform a lasso regression with 20-fold Cross Validation on the training data (`trainX`, `trainY`). Plot the results and select the optimal $\lambda$ parameter. Fit a final model with the selected $\lambda$ and validate it on the test data.