---
title: "IntroduÃ§Ã£o ao geocodebr"
date: "`r Sys.Date()`"
output: rmarkdown::html_vignette
code-annotations: hover
urlcolor: blue
vignette: >
  %\VignetteIndexEntry{IntroduÃ§Ã£o ao geocodebr}
  %\VignetteEngine{knitr::rmarkdown}
  \usepackage[utf8]{inputenc}
---

```{r, include = FALSE}
knitr::opts_chunk$set(
  collapse = TRUE,
  comment = "#>",
  eval = identical(tolower(Sys.getenv("NOT_CRAN")), "true"),
  out.width = "100%"
)

# CRAN OMP THREAD LIMIT to avoid CRAN NOTE
Sys.setenv(OMP_THREAD_LIMIT = 2)
```

GeolocalizaÃ§Ã£o refere-se ao ato de encontrar um ponto no espaÃ§o, geralmente
representado por um par de coordenadas, a partir de um determinado endereÃ§o. O
**geocodebr** permite geolocalizar endereÃ§os brasileiros de forma simples e
eficiente, a partir de dados pÃºblicos de endereÃ§os do Brasil. A principal base
de referÃªncia Ã© o Cadastro Nacional de EndereÃ§os para Fins EstatÃsticos (CNEFE),
um conjunto de dados coletado e
[publicado](https://www.ibge.gov.br/estatisticas/sociais/populacao/38734-cadastro-nacional-de-enderecos-para-fins-estatisticos.html)
pelo Instituto Brasileiro de Geografia e EstatÃstica (IBGE) que contÃ©m os
endereÃ§os de mais de 110 milhÃµes de domicÃlios e estabelecimentos do paÃs.

## InstalaÃ§Ã£o

A versÃ£o estÃ¡vel do pacote pode ser baixada do CRAN com o comando a seguir:

```{r, eval = FALSE}
install.packages("geocodebr")
```

Caso prefira, a versÃ£o em desenvolvimento:

```{r, eval = FALSE}
# install.packages("remotes")
remotes::install_github("ipeaGIT/geocodebr")
```

## UtilizaÃ§Ã£o

A principal funÃ§Ã£o do pacote Ã© a `geocode()`, que recebe uma tabela 
(`data.frame`) de endereÃ§os como entrada e retorna a mesma tabela geolocalizada
como saÃda. Para demonstrar o pacote, utilizamos no exemplo abaixo pequeno 
conjunto de dados que contÃ©m endereÃ§os com problemas comuns, como informaÃ§Ãµes 
ausentes e campos digitados incorretamente. 

A geolocalizaÃ§Ã£o desses dados com **{geocodebr}** pode ser feita em apenas dois 
passos:

1. O primeiro passo Ã© usar a funÃ§Ã£o `definir_campos()` para indicar os nomes das 
colunas no seu `data.frame` que correspondem a cada campo dos endereÃ§os. No 
exemplo abaixo, nÃ³s indicamos que coluna que contÃ©m a informaÃ§Ã£o de logradouro se 
chama `"nm_logradouro"`, que a coluna de nÃºmero se chama `"Numero"`, etc. 

obs. Note que as colunas indicando o `"estado"` e `"municÃpio"` sÃ£o obrigatÃ³rias.

```{r}
library(geocodebr)

# leitura de amostra de dados
ends <- read.csv(system.file("extdata/small_sample.csv", package = "geocodebr"))

# definiÃ§Ã£o dos campos de endereÃ§o
campos <- definir_campos(
  estado = "nm_uf",
  municipio = "nm_municipio",
  logradouro = "nm_logradouro",
  numero = "Numero",
  cep = "Cep",
  localidade = "Bairro"
)
```


2. O segundo passo Ã© usar a funÃ§Ã£o `geocode()` para encontrar as coordenadas 
geogrÃ¡ficas dos dados de input.

**Nota:** A funÃ§Ã£o `geocode()` requer que os dados do CNEFE estejam armazenados
localmente. No total, esses dados somam cerca de 3 GB, o que pode fazer com
que a primeira execuÃ§Ã£o da funÃ§Ã£o demore, jÃ¡ que Ã© necessÃ¡rio baixar os dados
para a sua mÃ¡quina. Esses dados, no entanto, sÃ£o salvos de forma persistente,
logo eles sÃ£o baixados uma Ãºnica vez.

```{r}
# geolicalizaÃ§Ã£o
ends_geo <- geocode(
  enderecos = ends, 
  campos_endereco = campos, 
  resultado_completo = FALSE,
  resolver_empates = TRUE,
  resultado_sf = FALSE,
  verboso = FALSE
  )

head(ends_geo)
```


Por padrÃ£o, a tabela de *output* Ã© igual Ã  tabela de input do usuÃ¡rio acrescida de colunas com a latitude e longitude encontradas, bem como de colunas indicando o nÃvel de precisÃ£o dos resultados e o endereÃ§o encontrado. Quando `resultado_completo = TRUE`, o output Ã© acrescido de algumas colunas extras.

Cabe tambÃ©m destacar aqui outros dois argumentos da funÃ§Ã£o `geocode()`:

- `resolver_empates`: serve para indicar se o usuÃ¡rio quer que a funÃ§Ã£o resolva automaticamente casos de empate, i.e. casos que o endereÃ§o de input do usuÃ¡rio 
pode se referir a diferentes localidades na cidade (e.g. logradouros diferentes 
com mesmo nome mas em bairros distintos). Quando `TRUE`, a funÃ§Ã£o resolve os 
empates selecioando os endereÃ§os com maior nÃºmero de visitas do CNEFE. Quando 
`FALSE`, a funÃ§Ã£o retorna todos os resultados indicando os casos empatados na 
coluna 'empate' para que o usuÃ¡rio possa inspecionar cada caso coluna 'endereco_encontrado'.


- `resultado_sf`: quando `TRUE`, o output Ã© retornado como um objeto espacial de classe `sf` simple feature.

As coordendas espaciais do resultado usam o sistema de referÃªncia SIRGAS2000,
padrÃ£o adotado pelo IBGE em todo o Brasil. Cada par de coordenadas encontrado
pode ser classificado conforme o seu grau de precisÃ£o (coluna `precisao`) e os
campos do endereÃ§o utilizados para encontrÃ¡-lo (`tipo_resultado`). A seÃ§Ã£o a
seguir apresenta mais informaÃ§Ãµes sobre essas colunas.


### Grau de precisÃ£o dos resultados

As coordenadas incluÃdas no resultado da `geocode()` sÃ£o calculadas a partir da
mÃ©dia das coordenadas dos endereÃ§os do CNEFE que correspondem a cada um dos
endereÃ§os de *input*. A correspondÃªncia entre os endereÃ§os de entrada e os do
CNEFE pode ser feita com base em diferentes combinaÃ§Ãµes de campos, impactando,
assim, na precisÃ£o do resultado retornado.

No caso mais rigoroso, a funÃ§Ã£o encontra uma correspondÃªncia determinÃstica para
cada um dos campos do endereÃ§o (estado, municÃpio, logradouro, nÃºmero, CEP e
localidade). Pense, por exemplo, em um prÃ©dio com vÃ¡rios apartamentos, cuja
Ãºnica variaÃ§Ã£o no endereÃ§o se dÃ¡ a nÃvel de apartamento: o resultado, nesse
caso, Ã© a mÃ©dia das coordenadas dos apartamentos, que podem diferir
ligeiramente.

Em um caso menos rigoroso, no qual sÃ£o encontradas correspondÃªncias apenas para
os campos de estado, municÃpio, logradouro e localidade, a funÃ§Ã£o calcula as
coordenadas mÃ©dias de todos os endereÃ§os do CNEFE que se encontram na mesma rua
e na mesma localidade. O resultado, portanto, Ã© agregado a nÃvel de rua,
tendendo para a extremidade do logradouro com maior concentraÃ§Ã£o de endereÃ§os.

A coluna `precisao` se refere ao nÃvel de agregaÃ§Ã£o das coordenadas do CNEFE
utilizadas pela `geocode()`. A funÃ§Ã£o sempre retorna o resultado de maior
precisÃ£o possÃvel - ou seja, ela sÃ³ vai procurar endereÃ§os com precisÃ£o
`"numero_aproximado"` (ver a seguir) caso nÃ£o tenha encontrado correspondÃªncia
de precisÃ£o `"numero"`. As coordenadas calculadas podem ser classificadas em
seis diferentes categorias de precisÃ£o:

1. `"numero"` - calculadas a partir de endereÃ§os que compartilham o mesmo
logradouro e nÃºmero;
2. `"numero_aproximado"` - calculadas a partir de endereÃ§os que compartilham o
mesmo logradouro, mas nÃºmero de *input* nÃ£o encontra correspondÃªncia exata no
CNEFE e sua localizaÃ§Ã£o Ã© calculada a partir de uma interpolaÃ§Ã£o espacial;
3. `"logradouro"` - calculadas a partir de endereÃ§os que compartilham o mesmo
logradouro (nÃºmero de *input* estÃ¡ ausente ou Ã© S/N);
4. `"cep"` - calculadas a partir de endereÃ§os que compartilham o mesmo CEP;
5. `"localidade"` - calculadas a partir de endereÃ§os que compartilham a mesma
localidade;
6. `"municipio"` - calculadas a partir de endereÃ§os que compartilham o mesmo
municÃpio.

A coluna `tipo_resultado` fornece informaÃ§Ãµes mais detalhadas sobre os campos de
endereÃ§o utilizados no cÃ¡lculo das coordenadas de cada endereÃ§o de entrada. Cada
categoria Ã© nomeada a partir de um cÃ³digo de quatro caracteres:

- o primeiro, sempre `d` ou `p`, determina se a correspondÃªncia foi feita de
forma determinÃstica (`d`) ou probabilÃstica (`p`) - a segunda opÃ§Ã£o ainda nÃ£o
foi implementada no pacote, mas Ã© planejada em versÃµes futuras;
- o segundo faz menÃ§Ã£o Ã  categoria de `precisao` na qual o resultado foi
classificado (`n` para `"numero"`, `a` para `"numero_aproximado"`, `l` para
`"logradouro"`, `c` para `"cep"`, `b` para `"localidade"` e `m` para
`"municipio"`);
- o terceiro e o quarto designam a classificaÃ§Ã£o de cada categoria dentro de seu
grupo - via de regra, quanto menor o nÃºmero formado por esses caracteres, mais
precisa sÃ£o as coordenadas calculadas.

As categorias de `tipo_resultado` sÃ£o listadas abaixo, junto Ã s categorias de
`precisao` a qual elas estÃ£o associadas:

- precisao `"numero"`
  - `dn01` - logradouro, numero, cep e localidade
  - `dn02` - logradouro, numero e cep
  - `dn03` - logradouro, numero e localidade
  - `dn04` - logradouro e numero
  - `pn01` - logradouro, numero, cep e localidade
  - `pn02` - logradouro, numero e cep
  - `pn03` - logradouro, numero e localidade
  - `pn04` - logradouro e numero

- precisao `"numero_aproximado"`
  - `da01` - logradouro, numero, cep e localidade
  - `da02` - logradouro, numero e cep
  - `da03` - logradouro, numero e localidade
  - `da04` - logradouro e numero
  - `pa01` - logradouro, numero, cep e localidade
  - `pa02` - logradouro, numero e cep
  - `pa03` - logradouro, numero e localidade
  - `pa04` - logradouro e numero

- precisao `"logradouro"` (quando o nÃºmero de entrada estÃ¡ faltando 'S/N')
  - `dl01` - logradouro, cep e localidade
  - `dl02` - logradouro e cep
  - `dl03` - logradouro e localidade
  - `dl04` - logradouro
  - `pl01` - logradouro, cep e localidade
  - `pl02` - logradouro e cep
  - `pl03` - logradouro e localidade
  - `pl04` - logradouro

- precisao `"cep"`
  - `dc01` - municipio, cep, localidade
  - `dc02` - municipio, cep

- precisao `"localidade"`
  - `db01` - municipio, localidade

- precisao `"municipio"`
  - `dm01` - municipio

EndereÃ§os nÃ£o encontrados sÃ£o retornados com latitude, longitude, precisÃ£o e tipo de resultado `NA`.


***Nota:*** As categorias de `tipo_resultado` que comeÃ§am com 'p' utilizam correspondÃªncia probabilÃstica do campo logradouro, enquanto os tipos que comeÃ§am com 'e' utilizam apenas correspondÃªncia determinÃstica. **As categorias de `tipo_resultado` que usam correspondÃªncia probabilÃstica ainda nÃ£o estÃ£o implementados no pacote geocodebr**.


### Cache de dados

Como comentado anteriormente, os dados do CNEFE sÃ£o baixados na primeira vez que
a `geocode()` Ã© executada. Esses dados ficam salvos no *cache* do pacote e nÃ£o
precisam ser baixados novamente. O pacote inclui algumas funÃ§Ãµes que ajudam a
gerenciar o *cache*:

- `listar_pasta_cache()` - retorna o endereÃ§o do *cache* na sua mÃ¡quina, onde os
dados do CNEFE estÃ£o salvos;
- `definir_pasta_cache()` - define uma pasta personalizada para ser usada como
*cache*. Essa configuraÃ§Ã£o Ã© persistente entre diferentes sessÃµes do R;
- `listar_dados_cache()` - lista todos os arquivos armazenados no *cache*;
- `deletar_pasta_cache()` - exclui a pasta de *cache*, bem como todos os
arquivos que estavam armazenados dentro dela.

ApÃ³s rodar o cÃ³digo desta *vignette*, Ã© provÃ¡vel que o seu *cache* esteja
configurado como a seguir:

```{r}
listar_pasta_cache()

listar_dados_cache()
```