---
title: "RRR: Reproduzindo o Resampling com Rsampling"
author: "Paulo InÃ¡cio Prado"
date: "Outubro de 2015"
output:
  rmarkdown::html_vignette:
    fig_width: 5
    fig_height: 5
    fig_caption: true
vignette: >
  %\VignetteIndexEntry{IntroduÃ§Ã£o ao Rsampling (PT-BR)}
  %\VignetteEngine{knitr::rmarkdown}
  \usepackage[utf8]{inputenc}
---

```{r setup, echo = FALSE}
knitr::opts_chunk$set(
    collapse=TRUE,
    comment = NA,
    prompt = TRUE
    )
set.seed(42)
```

## ApresentaÃ§Ã£o

Este roteiro Ã© uma introduÃ§Ã£o ao pacote **Rsampling**, que reproduz em R as funÃ§Ãµes
do programa *Resampling Stats*
(http://www.resample.com/).

Essas funÃ§Ãµes sÃ£o usadas em um ciclo de trabalho que resume a lÃ³gica
dos testes de significÃ¢ncia:

1. Defina uma estatÃstica de interesse;
2. Defina a hipÃ³tese nula;
3. Obtenha a distribuiÃ§Ã£o da estatÃstica de interesse sob a hipÃ³tese nula;
4. Se a probabilidade da estatÃstica de interesse observada ocorrer sob a hipÃ³tese nula
  Ã© menor do que um valor crÃtico rejeite a hipÃ³tese nula.

A ideia do *Resampling Stats* Ã© facilitar o entendimento dessa lÃ³gica,
fazendo o usuÃ¡rio executar cada um dos passos em um planilha,
com o auxÃlio de algumas macros. Um elemento muito efetivo para este
aprendizado Ã© que a hipÃ³tese nula Ã© simulada por aleatorizaÃ§Ã£o dos dados.
Isso tambÃ©m dÃ¡ muita flexibilidade aos testes que podem ser feitos.
O manual do *Resampling Stats* Ã© uma excelente introduÃ§Ã£o a esta metodologia,
e Ã  lÃ³gica dos testes de significÃ¢ncia [^2].

O objetivo do pacote **Rsampling**
Ã© possibilitar este mesmo treinamento no R.
Assim, privilegiamos fidelidade Ã  lÃ³gica
original e Ã  didÃ¡tica em eventual detrimento de
desempenho computacional.

As seÃ§Ãµes apÃ³s instruÃ§Ãµes de instalaÃ§Ã£o
sÃ£o exemplos de uso mais simples e comuns
do **Rsampling**. Consulte tambÃ©m as pÃ¡ginas
de ajuda do pacote para conhecer todas
as funcionalidades.


## InstalaÃ§Ã£o

O Rsampling estÃ¡ no repositÃ³rio oficial de pacotes do R (CRAN).
Para instalÃ¡-lo use

```{r installation CRAN, eval=FALSE}
install.packages("Rsampling")
```

VocÃª pode tambÃ©m instalar versÃ£o de desenvolvimento,
que estÃ¡ no GitHub. Para isso vocÃª vai precisar da funÃ§Ã£o `install_github` do pacote devtools:

```{r installation, eval=FALSE}
library(devtools)
install_github(repo = 'lageIBUSP/Rsampling')
```

Depois de instalar o pacote carregue-o em sua seÃ§Ã£o de R com 

```{r load library}
library(Rsampling)
```

## Embaralhando dentro de uma coluna para testar diferenÃ§a entre grupos

O dataframe `embauba` tem os dados de presenÃ§a
e ausÃªncia de lianas em embaÃºbas de dois morfotipos (brancas e vermelhas).

```{r inspecionando objeto embauba}
head(embauba)
summary(embauba)
```
Para mais detalhes sobre os dados e o estudo que os produziu consulte a
pÃ¡gina de ajuda (`?embauba`).

### HipÃ³tese do estudo

A hipÃ³tese deste estudo Ã©
que as formigas removem lianas das embaÃºbas onde estÃ£o suas colÃ´nias.
A previsÃ£o Ã© que embaÃºbas vermelhas seriam menos infestadas por lianas do que as
brancas, por abrigarem colÃ´nias de formigas mais frequentemente.
De fato, esta diferenÃ§a Ã© observada nas proporÃ§Ãµes de Ã¡rvores
infestadas na amostra:

```{r proporcao de infestacao por morfo de embauba}
tapply(embauba$with.vines, embauba$morphotype, mean)
```
### HipÃ³tese nula

A hipÃ³tese nula Ã© de que as proporÃ§Ãµes de infestaÃ§Ã£o sÃ£o iguais
na populaÃ§Ã£o de onde vieram as amostras.
Sob esta hipÃ³tese, uma liana tem a mesma chance de estar em uma embaÃºba
branca ou vermelha.
Simulamos a hipÃ³tese nula
embaralhando as presenÃ§as de lianas entre plantas
na tabela de dados.

### EstatÃstica de interesse

A cada simulaÃ§Ã£o temos que calcular nossa
**estatÃstica de interesse**, que Ã© a
a diferenÃ§a de infestaÃ§Ã£o
entre os dois morfos.
Criamos uma funÃ§Ã£o para isso:

```{r estatistica de interesse embaubas}
emb.ei <- function(dataframe){
    props <- tapply(dataframe$with.vines, dataframe$morphotype, mean)
    props[[1]] - props[[2]]
}
## Verificando
emb.ei(embauba)
```
### DistribuiÃ§Ã£o da estatÃstica sob a hipÃ³tese nula

Em seguida fazemos a simulaÃ§Ã£o com a funÃ§Ã£o
`Rsampling`:

```{r embaubas resampling, results="hide"}
emb.r <- Rsampling(type = "normal", dataframe = embauba,
                   statistics = emb.ei, cols = 2, ntrials = 1000)
```
**O que significa este comando?**

* `type = "normal"` escolhe uma randomizaÃ§Ã£o de todos os elementos
		(mais abaixo vocÃª verÃ¡ outros tipos de randomizaÃ§Ã£o).
* `dataframe = embauba` indica a tabela com os dados
* `statistics = emb.ei` indica a funÃ§Ã£o que calcula a(s)
	estatÃstica(s) de interesse da tabela de dados.
* `cols = 2` indica que a randomizaÃ§Ã£o deve ser feita sobre a segunda
  coluna da tabela de dados.
* `ntrials = 1000` indica o nÃºmero de repetiÃ§Ãµes da simulaÃ§Ã£o.

A distribuiÃ§Ã£o das estatÃstica de interesse
na simulaÃ§Ã£o nem incluiu o valor observado:

```{r embaubas distribuicao nula, fig.cap="DistribuiÃ§Ã£o das diferenÃ§as nas proporÃ§Ãµes de embaÃºbas brancas e vermelhas com lianas em 1000 simulaÃ§Ãµes da hipÃ³tese nula de ausÃªncia de diferenÃ§a nas populaÃ§Ãµes amostradas. A linha vermelha indica a diferenÃ§a observada. A regiÃ£o de aceitaÃ§Ã£o da hipÃ³tese nula para 5% de significÃ¢ncia estÃ¡ delimitada em cinza."}
dplot(emb.r, svalue = emb.ei(embauba), pside="Greater",
      main = "DistribuiÃ§Ã£o da estatÃstica de interesse sob H0",
      xlab = "EstatÃstica de interesse")
```


### DecisÃ£o: rejeitamos a hipÃ³tese nula?

Seguindo o padrÃ£o das ciÃªncias biolÃ³gicas,
adotamos o critÃ©rio de rejeitar
a hipÃ³tese nula se a probabilidade
da estatÃstica de interesse sob a hipÃ³tese nula
for menor que 5%.

No grÃ¡fico o que nÃ£o estÃ¡ marcado em cinza sÃ£o os 5%
mais extremos da distribuiÃ§Ã£o da estatÃstica sob a hipÃ³tese nula.
EntÃ£o se a estatÃstica observada estiver na regiÃ£o cinza nÃ£o rejeitamos
a hipÃ³tese nula. Esta Ã© a chamada \emph{regiÃ£o de aceitaÃ§Ã£o} de H0.
Como o valor observado (linha vermelha) estÃ¡ fora da regiÃ£o de aceitaÃ§Ã£o,
podemos rejeitar H0.
VocÃª tambÃ©m pode verificar isso com um teste lÃ³gico no
R:

```{r embaubas teste} 
sum(emb.r >= emb.ei(embauba))/1000 < 0.05
```

**ConclusÃ£o:** rejeita-se a hipÃ³tese nula (p < 0,05).


## Embaralhando dentro de linhas para testar diferenÃ§as dentro de pares

O dataframe `azteca` tem o nÃºmero de formigas *Azteca* sp
recrutadas por extratos aquosos de folhas novas e velhas de
embaÃºbas.

```{r inspecionando objeto azteca}
head(azteca)
summary(azteca)
```
Saiba mais sobre os dados em sua pÃ¡gina de ajuda (`?azteca`).

### HipÃ³tese do estudo

A hipÃ³tese do estudo Ã© que
o recrutamento Ã© mais intenso quando uma
folha nova Ã© danificada.
A previsÃ£o para o experimento Ã©
que o recrutamento por extrato de folhas novas
seja maior, o que ocorreu:

```{r pairplot azteca, fig.cap = "NÃºmero de formigas recrutadas por extratos de folhas novas e velhas de embaÃºbas. Os extratos foram aplicados em pares de folhas prÃ³ximas em embaÃºbas que tinham colÃ´nias de formigas. As linhas ligam folhas do mesmo par experimental."}
splot(azteca$extract.new, azteca$extract.old,
           groups.names=c("Folha nova","Folha velha"),
           ylab="N de formigas recrutadas",
           xlab="Tipo de extrato aplicado")
```

### HipÃ³tese nula

A hipÃ³tese nula Ã© de que o recrutamento provocado pelos estratos
Ã© o mesmo. Note que para controlar outras fontes de variaÃ§Ã£o o
experimento foi pareado.
EntÃ£o para simular a hipÃ³tese nula temos que
embaralhar o nÃºmero de formigas recrutadas **dentro** de cada par de
folhas.

### EstatÃstica de interesse

A cada simulaÃ§Ã£o temos que calcular nossa
**estatÃstica de interesse**, que Ã© a
mÃ©dia da diferenÃ§a das folhas de cada par.
Uma funÃ§Ã£o para isso:

```{r estatistica de interesse azteca}
azt.ei <- function(dataframe){
    diferencas <- with(dataframe, extract.new - extract.old)
    mean(diferencas)
}
## Valor observado
azt.ei(azteca)
```

No experimento o extrato de folhas novas recrutou em mÃ©dia
`r round(azt.ei(azteca),1)` formigas que o extrato de folha velha, em cada par.

### DistribuiÃ§Ã£o da estatÃstica sob a hipÃ³tese nula

Como os pares sÃ£o linhas em nosso dataframe,
simulamos a hipÃ³tese nula embaralhando os valores
dentro de cada linha:

```{r azteca resampling, results="hide"}
azt.r <- Rsampling(type = "within_rows", dataframe = azteca,
                   statistics = azt.ei, cols = 2:3, ntrials = 1000)
```

Mudamos o argumento `type = "within_rows"`, para indicar que
os valores devem ser embaralhados dentro das linhas.
O argumento `cols = 2:3` indica as colunas do dataframe
que tÃªm as contagens.

Uma diferenÃ§a igual ou maior que a observada foi muito rara
na distribuiÃ§Ã£o da estatÃstica de interesse:

```{r azteca distribuicao nula, fig.cap="DistribuiÃ§Ã£o das diferenÃ§as do nÃºmero de formigas recrutadas por extratos de folhas novas e velhas de embaÃºba em pares experimentais, em 1000 simulaÃ§Ãµes da hipÃ³tese nula de ausÃªncia de diferenÃ§a. A linha vermelha indica a diferenÃ§a observada. A regiÃ£o de aceitaÃ§Ã£o da hipÃ³tese nula para 5% de significÃ¢ncia estÃ¡ delimitada em cinza."}
dplot(azt.r, svalue = azt.ei(azteca), pside="Greater",
      main = "DistribuiÃ§Ã£o da estatÃstica de interesse sob H0",
      xlab = "EstatÃstica de interesse")
```

### DecisÃ£o: rejeitamos a hipÃ³tese nula?

Novamente o grÃ¡fico mostra que o valor observado da estatÃstica estÃ¡ fora da regiÃ£o de aceitaÃ§Ã£o da hipÃ³tese nula sob nosso critÃ©rio de significÃ¢ncia (5% de chance de erro).
O mesmo resultado Ã© verificado com o teste lÃ³gico:

```{r azteca teste} 
sum(azt.r >= azt.ei(azteca))/1000 < 0.05
```

**ConclusÃ£o:** rejeita-se a hipÃ³tese nula (p<0,05).

#### Coda: testes unicaudais e bicaudais

AtÃ© agora testamos hipÃ³teses de que um valor **igual ou maior** que o observado
pode ser gerado pela hipÃ³tese nula. Ã‰ um teste **unicaudal** ou **unidirecional**, como
seria tambÃ©m o teste de que um valor igual ou menor pode ser gerado pela hipÃ³tese nula.
Nos testes unicaudais a regiÃ£o de aceitaÃ§Ã£o Ã© toda a distribuiÃ§Ã£o nula exceto seus 5% mais extremos.

Mas pode interessar o teste de que hÃ¡ diferenÃ§as, sem especificar sua direÃ§Ã£o. Por exemplo,
o conhecimento prÃ©vio poderia indicar a hipÃ³tese de que extratos de folhas jovens e velhas devem recrutar
nÃºmeros diferentes de formigas, mas sem a expectativa de qual extrato recrutaria mais. Este Ã© um caso
de teste **bicaudal**, quando a regiÃ£o de aceitaÃ§Ã£o Ã© o centro da distribuiÃ§Ã£o nula, exceto seus
2,5% mais extremos de cada lado:

```{r azteca distribuicao nula bicaudal, fig.cap="DistribuiÃ§Ã£o das diferenÃ§as do nÃºmero de formigas recrutadas por extratos de folhas novas e velhas de embaÃºba em pares experimentais, em 1000 simulaÃ§Ãµes da hipÃ³tese nula de ausÃªncia de diferenÃ§a. A regiÃ£o de aceitaÃ§Ã£o da hipÃ³tese nula para 5% de significÃ¢ncia para teste bicaudal estÃ¡ delimitada em cinza."}
dplot(azt.r, svalue = azt.ei(azteca), pside="Two sided",
      main = "Teste bicaudal",
      xlab = "EstatÃstica de interesse")
```

## AleatorizaÃ§Ã£o com reposiÃ§Ã£o

O dataframe `peucetia` tem os dados de um experimento de escolha de substrato
por aranhas do gÃªnero *Peucetia*.
Vinte e sete aranhas foram mantidas em placas de Petri
cobertas com dois substratos (folhas com e sem tricomas glandulosos).
Em seis inspeÃ§Ãµes a cada placa registrou-se
se cada aranha estava sobre as folhas com tricomas.

```{r inspecionando objeto peucetia}
head(peucetia)
```
Saiba mais sobre os dados em sua pÃ¡gina de ajuda (`?peucetia`).

### HipÃ³tese do estudo

A hipÃ³tese do estudo Ã© que
as aranhas preferem caÃ§ar em plantas
com pelos glandulosos, onde a captura
de presas Ã© mais fÃ¡cil.
A previsÃ£o para o experimento Ã©
que as aranhas devem estar a maior parte
do tempo nas folhas com tricomas.
De fato, a maioria das aranhas esteve
nas folhas com tricomas em 4 ou mais inspeÃ§Ãµes:

```{r barplot peucetia, fig.cap = "NÃºmero de inspeÃ§Ãµes em que as 27 aranhas foram registradas em folhas com tricomas, em um experimento de preferÃªncia por substratos."}
## NÃºmero de inspeÃ§Ãµes em que estava em folha com tricomas
n.insp <- apply(peucetia, 1, sum)
barplot(table(factor(n.insp, levels=0:6)),
        xlab="N de inspeÃ§Ãµes em que estava na folha com tricoma",
        ylab="N de aranhas")

```

### HipÃ³tese nula

A hipÃ³tese nula Ã© de que nÃ£o hÃ¡ preferÃªncia.
Como metade das placas estavam cobertas com cada
tipo de folha, a expectativa nula
Ã© que as aranhas estivessem
na Ã¡rea coberta por folhas com tricomas em metade das inspeÃ§Ãµes,
em mÃ©dia.
Esta expectativa tem a premissa que cada inspeÃ§Ã£o
Ã© um evento independente.

### EstatÃstica de interesse

A cada simulaÃ§Ã£o temos que calcular nossa
**estatÃstica de interesse**, que Ã© a
mÃ©dia do nÃºmero de inspeÃ§Ãµes em que as aranhas estavam sobre folhas com tricomas.
Uma funÃ§Ã£o para isso:

```{r estatistica de interesse peucetia}
peu.ei <- function(dataframe){
    mean(apply(dataframe, 1, sum))
}
## Valor observado
peu.ei(peucetia)
```

As aranhas foram registradas em mÃ©dia `r
round(peu.ei(peucetia),2)`
das 6 inspeÃ§Ãµes na Ã¡rea coberta por folhas com tricomas.

### DistribuiÃ§Ã£o da estatÃstica sob a hipÃ³tese nula

Para simular nossa hipÃ³tese nula criamos um
*data frame* com a mesma estrutura, em que cada
aranha esteja metade das inspeÃ§Ãµes nas folhas com tricomas

```{r peucetia H0}
peu.H0 <- matrix( rep(c(TRUE,FALSE), each = 3),
                 nrow = nrow(peucetia), ncol = ncol(peucetia), byrow=TRUE)
## Converte em data.frame
peu.H0 <- data.frame(peu.H0)
## verificando
head(peu.H0)
```
E agora simulamos a hipÃ³tese nula amostrando
com reposiÃ§Ã£o cada linha [^3]:

```{r peucetia resampling, results="hide"}
peu.r <- Rsampling(type = "within_rows", dataframe = peu.H0,
                   statistics = peu.ei, ntrials = 1000, replace=TRUE)
```

O argumento `replace = TRUE`, indica amostragem com reposiÃ§Ã£o.
No caso isso equivale a sortear uma posiÃ§Ã£o independente
para cada aranha a cada inspeÃ§Ã£o. A probabilidade da aranha estar
na folha com tricomas Ã© 0,5 a cada sorteio.

Uma mÃ©dia igual ou maior que a observada nÃ£o ocorreu
na distribuiÃ§Ã£o da estatÃstica de interesse simulada:


```{r peucetia distribuicao nula, fig.cap="DistribuiÃ§Ã£o do nÃºmero mÃ©dio de inspeÃ§Ãµes em que as aranhas estavam em folhas com tricomas, em 1000 simulaÃ§Ãµes da hipÃ³tese nula de ausÃªncia de preferÃªncia por substrato. A linha vermelha indica a mÃ©dia observada. A regiÃ£o de aceitaÃ§Ã£o da hipÃ³tese nula para 5% de significÃ¢ncia estÃ¡ delimitada em cinza."}
dplot(peu.r, svalue = peu.ei(peucetia), pside="Greater",
      main = "DistribuiÃ§Ã£o da estatÃstica de interesse sob H0",
      xlab = "EstatÃstica de interesse")
```

### DecisÃ£o: rejeitamos a hipÃ³tese nula?

Novamente temos um teste unicaudal, e o valor observado da estatÃstica de interesse nÃ£o
estÃ¡ na regiÃ£o de aceitaÃ§Ã£o da hipÃ³tese nula (5%).
Confirmamos com o teste lÃ³gico do nosso critÃ©rio de significÃ¢ncia:

```{r peucetia teste} 
sum(peu.r >= peu.ei(peucetia))/1000 < 0.05
```

**ConclusÃ£o:** rejeita-se a hipÃ³tese nula (p < 0,05).

## Uma hipÃ³tese nula mais realista?

No exemplo anterior simulamos a hipÃ³tese
nula sorteando uma posiÃ§Ã£o para cada aranha a cada
inspeÃ§Ã£o. A premissa Ã© que a posiÃ§Ã£o da aranha
em uma inspeÃ§Ã£o nÃ£o afeta sua posiÃ§Ã£o nas outras,
ou seja, que as inspeÃ§Ãµes sÃ£o
eventos independentes.

Mas e se hÃ¡ uma correlaÃ§Ã£o temporal na posiÃ§Ã£o das aranhas?
Isso pode acontecer com aranhas que se movem a uma
frequÃªncia menor que o intervalo entre as
inspeÃ§Ãµes. Se isso Ã© verdade, registros seguidos em um
tipo de folha podem indicar apenas tendÃªncia a ficar no
mesmo lugar, e nÃ£o preferÃªncia. Nesse caso a hipÃ³tese
nula deve manter o nÃºmero de inspeÃ§Ãµes em cada tipo
de folha, alterando apenas o tipo.

### HipÃ³tese nula

A proporÃ§Ã£o das inspeÃ§Ãµes em que as aranhas
permanecem em um dos substratos nÃ£o depende do
tipo de substrato (folha com ou sem tricomas).

Portanto a hipÃ³tese nula Ã© sobre a independÃªncia entre nÃºmero
de inspeÃ§Ãµes e tipo de substrato. Simulamos este cenÃ¡rio
embaralhando nÃºmero de ocasiÃµes entre substratos,
para cada aranha. Para isso vamos criar um *data frame*
com nÃºmero de inspeÃ§Ãµes em cada substrato:

```{r peucetia n de inspeÃ§Ãµes}
## N de inspeÃ§Ãµes em folha com tricoma
tric <- apply(peucetia, 1, sum)
## N de inspeÃ§Ãµes em folha lisa
lisa <- apply(peucetia, 1, function(x) sum(x==0))
## Monta o data frame
peu.H0b <- data.frame(tric=tric, lisa = lisa)
## Primeiras linhas
head(peu.H0b)
```


### EstatÃstica de interesse

Uma mesma estatÃstica de interesse pode ser aplicada a
diferentes hipÃ³teses nulas. EntÃ£o mantemos a mesma do
exemplo anterior: mÃ©dia do nÃºmero de inspeÃ§Ãµes em que
as aranhas foram registradas nas folhas com tricomas.

Mas como o *data frame* que serÃ¡ aleatorizado
mudou, criamos uma nova funÃ§Ã£o no R para
calcular a estatÃstica de interesse

```{r peucetia statistics 2}
peu.ei2 <- function(dataframe) mean(dataframe$tric)
## Verificando
peu.ei2(peu.H0b)
```


### DistribuiÃ§Ã£o da estatÃstica de interesse sob a hipÃ³tese nula

Simulamos a hipÃ³tese nula embaralhando as linhas
do *data frame* com nÃºmero de inspeÃ§Ãµes por substrato:

```{r peucetia resampling 2, results="hide"}
peu.r2 <- Rsampling(type = "within_rows", dataframe = peu.H0b,
                   statistics = peu.ei2, ntrials = 1000)
```

A distribuiÃ§Ã£o nula mudou bastante de forma, comparada com a seÃ§Ã£o anterior.
Mas uma mÃ©dia igual ou maior que a observada ainda foi muito rara:

```{r peucetia distribuicao nula 2, fig.cap="DistribuiÃ§Ã£o do nÃºmero mÃ©dio de inspeÃ§Ãµes em que as aranhas estavam em folhas com tricomas, em 1000 simulaÃ§Ãµes da hipÃ³tese nula de ausÃªncia de preferÃªncia por substrato, considerando tendÃªncia das aranhas permanecerem onde estÃ£o. A linha vermelha indica a mÃ©dia observada."}
dplot(peu.r2, svalue = peu.ei2(peu.H0b), pside="Greater",
      main = "DistribuiÃ§Ã£o da estatÃstica de interesse sob H0",
      xlab = "EstatÃstica de interesse")
```

### DecisÃ£o: rejeitamos a hipÃ³tese nula?

O valor observado da estatÃstica de interesse nÃ£o estÃ¡ na regiÃ£o de aceitaÃ§Ã£o.
Aplicando nosso critÃ©rio de significÃ¢ncia:

```{r peucetia teste 2} 
sum(peu.r2 >= peu.ei(peucetia))/1000 < 0.05
```

**ConclusÃ£o:** rejeita-se a hipÃ³tese nula (p < 0,05).


## Zeros estruturais

Em alguns conjuntos de dados hÃ¡ observaÃ§Ãµes com frequÃªncia zero
que sÃ£o considerados impossÃveis de ocorrer ou de se observar. Por exemplo,
o *dataframe* `pielou` tem o nÃºmero de registros de dez
espÃ©cies de pulgÃµes em doze espÃ©cies de plantas do gÃªnero *Solidago*.

```{r pielou inspecionando objeto}
pielou
```

Para saber mais sobre este conjunto de dados consulte a pÃ¡gina de ajuda (`?pielou`).
HÃ¡ vÃ¡rias ocorrÃªncias com frequÃªncia zero.
Vamos simular uma hipÃ³tese nula supondo que
essas frequÃªncias sÃ£o estruturais, ou seja, que indicam
associaÃ§Ãµes inseto-planta que nÃ£o podem ocorrer.

### HipÃ³tese do estudo

Nossa hipÃ³tese de estudo Ã© que hÃ¡ ou houve partilha de recursos entre as espÃ©cies
de pulgÃµes. Neste caso, as associaÃ§Ãµes observadas devem ter resultado em reduÃ§Ã£o da
sobreposiÃ§Ã£o de nichos dos insetos.

### HipÃ³tese nula

Nossa hipÃ³tese nula Ã© que a sobreposiÃ§Ã£o de nicho nÃ£o difere da esperada
caso as ocorrÃªncias dos pulgÃµes nas plantas sejam independentes.

### EstatÃstica de interesse

Esses dados foram usados para exemplificar um cÃ¡lculo de amplitude e sobreposiÃ§Ã£o
de nichos. A expressÃ£o proposta pela autora
para a sobreposiÃ§Ã£o mÃ©dia de nichos Ã© a diferenÃ§a entre
a Ãndice de Brillouin de todos os valores e da soma das colunas da
tabela. O Ãndice de Brillouin Ã© uma medida de diversidade em uma coleÃ§Ã£o de valores $x_i$:

$$H = \frac{1}{N} \log N! \ - \ \frac{1}{N} \sum \log x_i !$$

Onde $N = \sum x_i$. Vamos criar uma funÃ§Ã£o para fazer este cÃ¡lculo

```{r pielou indice de brillouin}
brillouin <- function(x, base=10) {
    N <- sum(x)
    lfactorial(N)/(log(base)*N)  -  sum(lfactorial(x)/log(base))/N
}
```
E entÃ£o criamos um funÃ§Ã£o para o cÃ¡lculos da estatÃstica de interesse

```{r pielou estatistica brillouin}
pielou.ei <- function(dataframe)
    brillouin( dataframe ) - brillouin( apply(dataframe,2,sum) )
```
Cujo valor Ã©

```{r pielou estatistica de interesse}
pielou.ei(pielou)
```

### DistribuiÃ§Ã£o da estatÃstica de interesse sob a hipÃ³tese nula

Para simular nossa hipÃ³tese nula, embaralhamos os nÃºmeros de ocorrÃªncias registradas
de cada espÃ©cie de pulgÃ£o entre as plantas. Com isso mantemos criamos uma situaÃ§Ã£o em que
as hierarquias de preferÃªncia de cada espÃ©cie de pulgÃ£o sÃ£o mantidas, mas tornam-se independentes.
AlÃ©m disso, usamos a opÃ§Ã£o `fix.zeroes = TRUE` para indicar que os valores zero nÃ£o devem
ser embaralhados.

```{r , results="hide"}
pielou.r1 <- Rsampling(type = "within_rows", dataframe = pielou,
                   statistics = pielou.ei, ntrials = 1000, fix.zeroes = TRUE)
```

O valor observado Ã© maior do que a maioria dos valores na distribuiÃ§Ã£o nula. Como nossa
hipÃ³tese Ã© unicaudal (sobreposiÃ§Ã£o observada menor do que o esperado pelo acaso),
o valor observado estÃ¡ na regiÃ£o de aceitaÃ§Ã£o da hipÃ³tese nula.

```{r pielou nula 2, fig.cap="DistribuiÃ§Ã£o da sobreposiÃ§Ã£o mÃ©dia de uso de plantas hospedeiras por espÃ©cies de pulgÃµes, em 1000 simulaÃ§Ãµes da hipÃ³tese nula de independÃªncia das espÃ©cies de inseto pelas plantas. As plantas sem ocorrÃªncia observadas dos pulgÃµes foram consideradas nÃ£o disponÃveis (zeros estruturais). A linha vermelha indica a mÃ©dia observada."}
dplot(pielou.r1, svalue = pielou.ei(pielou), pside="Lesser",
      main = "DistribuiÃ§Ã£o da estatÃstica de interesse sob H0",
      xlab = "EstatÃstica de interesse", xlim=c(0.3,0.6))
```

### DecisÃ£o: rejeitamos a hipÃ³tese nula?

O valor observado da estatÃstica de interesse estÃ¡ na regiÃ£o de aceitaÃ§Ã£o.
Aplicando nosso critÃ©rio de significÃ¢ncia:

```{r  teste 2} 
sum(pielou.r1 <= pielou.ei(pielou))/1000 < 0.05
```

**ConclusÃ£o:** nÃ£o se rejeita a hipÃ³tese nula (p > 0,05).


[^2]: Statistics.com LCC. 2009. Resampling Stats Add-in for Excel Userâ€™s Guide.
http://www.resample.com/content/software/excel/userguide/RSXLHelp.pdf

[^3]: HÃ¡ maneiras mais otimizadas de fazer isso, mas esta reproduz a lÃ³gica de sorteios de uma urna do *Resampling Stats*