---
title: "RRRR: Reproduzindo o Resampling com Rsampling para RegressÃµes"
author: "Paulo InÃ¡cio Prado"
date: "Junho de 2015"
output: 
  rmarkdown::html_vignette:
    fig_width: 5
    fig_height: 5
    fig_caption: true
vignette: >
  %\VignetteIndexEntry{RegressÃ£o e Ancova com o Rsampling (PT-BR)}
  %\VignetteEngine{knitr::rmarkdown}
  \usepackage[utf8]{inputenc}
---

```{r setup, echo = FALSE}
knitr::opts_chunk$set(
    collapse=TRUE,
    comment = NA,
    prompt = TRUE
    )
set.seed(42)
```

## InstalaÃ§Ã£o

O Rsampling estÃ¡ no repositÃ³rio oficial de pacotes do R (CRAN).
Para instalÃ¡-lo use

```{r installation CRAN, eval=FALSE}
install.packages("Rsampling")
```

VocÃª pode tambÃ©m instalar versÃ£o de desenvolvimento,
que estÃ¡ no GitHub. Para isso vocÃª vai precisar da funÃ§Ã£o `install_github` do pacote devtools:

```{r installation, eval=FALSE}
library(devtools)
install_github(repo = 'lageIBUSP/Rsampling')
```

Depois de instalar o pacote carregue-o em sua seÃ§Ã£o de R com 

```{r load library}
library(Rsampling)
```

## Exemplos de regressÃ£o

O dataframe `rhyzophora` tem medidas de Ã¡rvores de mangue
em solos lodosos mais e menos instÃ¡veis.

```{r inspecionando objeto rhyzophora}
head(rhyzophora)
summary(rhyzophora)
```
Saiba mais sobre os dados em sua pÃ¡gina de ajuda (`?rhyzophora`).

### HipÃ³tese do estudo

A hipÃ³tese Ã© que Ã¡rvores em solos mais instÃ¡veis
investem mais em estruturas de sustentaÃ§Ã£o.
Uma previsÃ£o Ã© que a relaÃ§Ã£o entre o torque
da Ã¡rvore e o investimento em raÃzes de sustentaÃ§Ã£o
deve ser diferente nos dois tipos de solo.
Para representar o torque foi usada a razÃ£o
entre a a Ã¡rea da copa e do tronco.
O investimento em raÃzes foi expresso em nÃºmero
de raÃzes de sustentaÃ§Ã£o e a Ã¡rea coberta por elas.

Os dados sugerem uma relaÃ§Ã£o positiva entre
a variÃ¡vel de torque e o nÃºmero de raÃzes.
TambÃ©m parece que os pontos das Ã¡rvores amostradas nos dois tipos de solo
separam-se, sugerindo uma relaÃ§Ã£o diferente:

```{r plot rhyzophora, fig.cap = "RelaÃ§Ã£o entre o nÃºmero de raÃzes de sustentaÃ§Ã£o e razÃ£o Ã¡rea da copa / Ã¡rea do tronco em Ã¡rvores de mangue em solos mais e menos instÃ¡veis."}
plot(n.roots ~ canopy.trunk, data=rhyzophora, type="n",
     xlab="Ã¡rea copa / Ã¡rea tronco", ylab="nÃºmero de raÃzes")
points(n.roots ~ canopy.trunk, data=rhyzophora,
       subset=soil.instability=="medium")
points(n.roots ~ canopy.trunk, data=rhyzophora,
       subset=soil.instability=="high", pch=19)
legend("topright", c("MÃ©dia","Alta"), title="Instabilidade do solo", pch=c(1,19))
```

### Embaralhando linhas dentro de estratos

#### HipÃ³tese nula
Para ilustrar randomizaÃ§Ãµes restritas a estratos vamos testar
a hipÃ³tese nula mais bÃ¡sica de que que nÃ£o hÃ¡ relaÃ§Ã£o em nenhum dos
dois tipos de solos.
Simulamos isso embaralhando os valores da variÃ¡vel de torque entre
Ã¡rvores de cada tipo de solo.

#### EstatÃstica de interesse
Temos uma
**estatÃstica de interesse** para cada
solo, que sÃ£o
as inclinaÃ§Ãµes das regressÃµes lineares:

```{r estatistica de interesse rhyzophora}
rhyz.ei <- function(dataframe){
    m1 <- lm(n.roots ~ canopy.trunk, data=dataframe,
             subset=soil.instability=="medium")
    m2 <- lm(n.roots ~ canopy.trunk, data=dataframe,
             subset=soil.instability=="high")
    c(med = coef(m1)[[2]],
      high = coef(m2)[[2]])
}
## Valore observados
rhyz.ei(rhyzophora)
```

#### DistribuiÃ§Ã£o da estatÃstica sob a hipÃ³tese nula

Simulamos a hipÃ³tese nula de ausÃªncia de relaÃ§Ã£o
embaralhando os valores da variÃ¡vel de torque entre
Ã¡rvores do mesmo tipo de solo:

```{r rhyzophora resampling, results="hide"}
rhyz.r <- Rsampling(type = "normal_rand", dataframe = rhyzophora,
                    statistics = rhyz.ei, stratum = rhyzophora$soil.instability,
                        cols = 2, ntrials = 1000)
```

O argumento `stratum = rhyzophora$soil.instability`,
que indica que o embaralhamento da coluna 2 deve ser feito dentro
de cada tipo de solo.

Como hÃ¡ mais de uma estatÃstica de interesse, a funÃ§Ã£o
`Rsampling` retorna uma matriz em cada linha Ã© uma estatÃstica
e as colunas sÃ£o as repetiÃ§Ãµes


```{r rhyzophora resampling results}
rhyz.r[,1:3]
```

Valores iguais ou maiores que as inclinaÃ§Ãµes observadas parecem bem raros na distribuiÃ§Ã£o
de valores sob a hipÃ³tese nula:

```{r rhyzophora distribuicao nula, fig.cap="DistribuiÃ§Ã£o das inclinaÃ§Ãµes da regressÃ£o linear do nÃºmero de raÃzes em funÃ§Ã£o da razÃ£o das Ã¡reas da copa e tronco, em 1000 simulaÃ§Ãµes da hipÃ³tese nula de ausÃªncia de relaÃ§Ã£o. As linhas vermelhas indicam as inclinaÃ§Ãµes observadas. A regiÃ£o de aceitaÃ§Ã£o da hipÃ³tese nula a 5% estÃ¡ em cinza. Em laranja o nÃºmero de valores da distribuiÃ§Ã£o nula maiores que os observados.", fig.width=7.5}
par(mfrow=c(1,2))
dplot(rhyz.r[1,], svalue=rhyz.ei(rhyzophora)[1], pside="Greater",
      main="MÃ©dia instabilidade", xlab="InclinaÃ§Ãµes sob H0")
dplot(rhyz.r[2,], svalue=rhyz.ei(rhyzophora)[2], pside="Greater",
      main="Alta instabilidade", xlab="InclinaÃ§Ãµes sob H0")
par(mfrow=c(1,1))
```
#### DecisÃ£o: rejeitamos a hipÃ³tese nula?

As inclinaÃ§Ãµes observadas para os dois grupos estÃ£o fora da regiÃ£o de aceitaÃ§Ã£o da
hipÃ³tese nula unicaudal [^4] a 5% de significÃ¢ncia. 
Podemos verificar isso com um teste lÃ³gico aplicado a cada estatÃstica de interesse:

```{r rhyzophora teste}
sum(rhyz.r[1,] >= rhyz.ei(rhyzophora)[1])/1000 < 0.05
sum(rhyz.r[2,] >= rhyz.ei(rhyzophora)[2])/1000 < 0.05
```

**ConclusÃ£o:** rejeita-se a hipÃ³tese nula (p < 0,05) nos dois casos.

### ComparaÃ§Ã£o das inclinaÃ§Ãµes

A hipÃ³tese principal do estudo Ã© que a relaÃ§Ã£o
entre torque e sustentaÃ§Ã£o Ã© diferente nos dois tipos de solo.
Supondo que a relaÃ§Ã£o linear existe, ela pode diferir quanto
Ã  inclinaÃ§Ã£o ou intercepto.

#### HipÃ³tese nula
ComeÃ§amos testando a hipÃ³tese nula de que a inclinaÃ§Ã£o
das regressÃµes lineares nÃ£o difere entre solos.

#### EstatÃstica de interesse
A estatÃstica de interesse Ã© a diferenÃ§a entre as
inclinaÃ§Ãµes, que parece pequena:

```{r segunda estatistica de interesse rhyzophora}
rhyz.ei2 <- function(dataframe){
    m1 <- lm(n.roots ~ canopy.trunk, data=dataframe,
             subset=soil.instability=="medium")
    m2 <- lm(n.roots ~ canopy.trunk, data=dataframe,
             subset=soil.instability=="high")
    coef(m1)[[2]] - coef(m2)[[2]]
}
## Valores observados
rhyz.ei2(rhyzophora)
```
#### SimulaÃ§Ã£o da hipÃ³tese nula
Simulamos a nova hipÃ³tese nula embaralhando as Ã¡rvores
entre os tipos de solos (primeira coluna da tabela de dados):

```{r rhyzophora resampling inclinaÃ§Ã£o, results="hide"}
rhyz.r2 <- Rsampling(type = "normal_rand", dataframe = rhyzophora,
                    statistics = rhyz.ei2,
                        cols = 1, ntrials = 1000)
```

#### DecisÃ£o: rejeitamos a hipÃ³tese nula?

Neste caso nÃ£o podemos descartar a hipÃ³tese nula:

```{r rhyzophora 2nd teste}
sum(rhyz.r2 > rhyz.ei2(rhyzophora))/1000 < 0.05
```

### Comparando interceptos

Decidimos aceitar a hipÃ³tese nula de que as inclinaÃ§Ãµes sÃ£o
iguais. A interpretaÃ§Ã£o biolÃ³gica disso Ã© que nos dois tipos de solo
o nÃºmero de raÃzes de sustentaÃ§Ã£o segue a mesma relaÃ§Ã£o de
proporcionalidade
com a variÃ¡vel de torque.

Este fator de proporcionalidade Ã© a inclinaÃ§Ã£o
da regressÃ£o linear aplicada a **todas** as Ã¡rvores,
que estimamos ajustando a regressÃ£o:

```{r inclinaÃ§Ã£o comum rhyzophora}
lm(n.roots ~ canopy.trunk, data=rhyzophora)
```
Ou seja, a cada aumento de 100 unidades da variÃ¡vel de torque
em mÃ©dia
`r round(coef(lm(n.roots ~ canopy.trunk, data=rhyzophora))[[2]]*100,1)`
raÃzes sÃ£o adicionadas.

Note que esta proporcionalidade se mantÃ©m se adicionarmos qualquer
constante. Por isso o modelo linear Ã© expresso por

$$E[Y] = \alpha + \beta X$$

Em que $E[Y]$ Ã© o valor esperado da resposta (nÃºmero de raÃzes),
$\beta$ Ã© a inclinaÃ§Ã£o ou fator de proporcionalidade, e $X$
a variÃ¡vel preditora (torque).
O intercepto $\alpha$ nÃ£o altera a proporcionalidade,
apenas desloca a reta mais para cima ou mais para baixo.

Ou seja, retas com a mesma inclinaÃ§Ã£o mas
interceptos diferentes sÃ£o paralelas.
No nosso caso isso expressaria que
Ã¡rvores com mesmo valor da razÃ£o copa/troco
**sempre** tÃªm mais raÃzes em um dos tipos de solo.

#### HipÃ³tese nula

Nossa hipÃ³tese nula Ã© que os interceptos das regressÃµes
lineares nÃ£o diferem entre os tipos de solo.
Se isso Ã© verdade a regressÃ£o linear ajustada a  todos os dados
deve prever bem os valores da resposta.
Se nÃ£o for verdade os pontos de um tipo de solo tenderÃ£o a ficar abaixo da
reta, enquanto os do outro tipo de solo tenderÃ£o a ficar acima.

JÃ¡ ajustamos essa regressÃ£o acima, e podemos adicionar a reta
ao grÃ¡fico:


```{r plot rhyzophora single regression, fig.cap = "RelaÃ§Ã£o entre o nÃºmero de raÃzes de sustentaÃ§Ã£o e razÃ£o Ã¡rea da copa / Ã¡rea do tronco em Ã¡rvores de mangue em solos mais e menos instÃ¡veis. A reta Ã© a regressÃ£o linear ajustada a todos os pontos."}
plot(n.roots ~ canopy.trunk, data=rhyzophora, type="n",
     xlab="Ã¡rea copa / Ã¡rea tronco", ylab="nÃºmero de raÃzes")
points(n.roots ~ canopy.trunk, data=rhyzophora,
       subset=soil.instability=="medium")
points(n.roots ~ canopy.trunk, data=rhyzophora,
       subset=soil.instability=="high", pch=19)
abline(lm(n.roots ~ canopy.trunk, data=rhyzophora))
legend("topright", c("MÃ©dia","Alta"), title="Instabilidade do solo", pch=c(1,19))
```

Parece que de fato esta regressÃ£o subestima o nÃºmero de raÃzes das
Ã¡rvores amostradas no solo mais instÃ¡vel e faz o oposto para as
Ã¡rvores do solo menos instÃ¡vel. Isso faz com que os resÃduos desta
regressÃ£o sejam positivos para Ã¡rvores do solo instÃ¡vel e negativos
para as outras.

#### EstatÃstica de interesse

Nossa estatÃstica de interesse Ã© a diferenÃ§a
da mÃ©dias dos resÃduos das Ã¡rvores em cada tipo de solo.
Os resÃduos sÃ£o calculados da regressÃ£o aplicada a todos os dados:

```{r terceiraestatistica de interesse rhyzophora}
rhyz.ei3 <- function(dataframe){
    m1 <- lm(n.roots ~ canopy.trunk, data=dataframe)
    res.media <- tapply(resid(m1), dataframe$soil.instability, mean)
    res.media[[1]] - res.media[[2]]
}
## Valores observados
rhyz.ei3(rhyzophora)
```

#### SimulaÃ§Ã£o da hipÃ³tese nula

Simulamos a nova hipÃ³tese nula do mesmo jeito: embaralhando as Ã¡rvores
entre os tipos de solos (primeira coluna da tabela de dados).

```{r rhyzophora resampling intercepto, results="hide"}
rhyz.r3 <- Rsampling(type = "normal_rand", dataframe = rhyzophora,
                    statistics = rhyz.ei3,
                        cols = 1, ntrials = 1000)
```

#### DecisÃ£o: rejeitamos a hipÃ³tese nula?

Descartamos a hipÃ³tese nula:

```{r rhyzophora 3rd teste}
sum(rhyz.r3 > rhyz.ei3(rhyzophora))/1000 < 0.05
```

Portanto hÃ¡ um intercepto para cada tipo de solo.
Podemos estimÃ¡-los incluindo o efeito de solo no ajuste da regressÃ£o [^3]:

```{r rhyzophora ancova}
(rhyz.ancova <- lm(n.roots ~ soil.instability + canopy.trunk  -1,
                   data=rhyzophora))
```

E adicionamos as retas ao grÃ¡fico:

```{r plot rhyzophora ancova, fig.cap = "RelaÃ§Ã£o entre o nÃºmero de raÃzes de sustentaÃ§Ã£o e razÃ£o Ã¡rea da copa / Ã¡rea do tronco em Ã¡rvores de mangue em solos mais e menos instÃ¡veis. As retas sÃ£o regressÃµes lineares de mesma inclinaÃ§Ã£o mas interceptos diferentes para cada tipo de solo."}
cfs <- coef(rhyz.ancova)
plot(n.roots ~ canopy.trunk, data=rhyzophora, type="n",
     xlab="Ã¡rea copa / Ã¡rea tronco", ylab="nÃºmero de raÃzes")
points(n.roots ~ canopy.trunk, data=rhyzophora,
       subset=soil.instability=="medium", col="blue")
points(n.roots ~ canopy.trunk, data=rhyzophora,
       subset=soil.instability=="high", col="red")
abline(cfs[1],cfs[3], col="red")
abline(cfs[2],cfs[3], col="blue")
legend("topright", c("MÃ©dia","Alta"), title="Instabilidade do solo", col=c("blue", "red"))
```

[^3]: Detalhe tÃ©cnico: Acrescentamos o termo `-1` na fÃ³rmula da regressÃ£o para indicar
ao R que queremos as estimativas de cada intercepto. Caso contrÃ¡rio
terÃamos a estimativa de um intercepto e da diferenÃ§a dele em relaÃ§Ã£o
ao outro.

[^4]: Como nÃ£o faz sentido neste caso esperar que o nÃºmero de raÃzes diminua com a variÃ¡vel de torque fizemos um teste unicaudal.