---
title: "tidyfståŒ…å®žä¾‹åˆ†æž"
output: rmarkdown::html_vignette
vignette: >
  %\VignetteIndexEntry{chinese_tutorial}
  %\VignetteEngine{knitr::rmarkdown}
  %\VignetteEncoding{UTF-8}
---

```{r, include = FALSE}
knitr::opts_chunk$set(
  collapse = TRUE,
  comment = "#>"
)
```


æˆ‘çš„Rè¯è¨€å°ä¼™ä¼´æœ€è¿‘åˆ†äº«äº†è‡ªå·±ä½¿ç”¨Ræ¥åšå·¥ä¸šçº§æ•°æ®æ¸…æ´—çš„[ç»éªŒ](https://mp.weixin.qq.com/s/NVlCPss32j6Ohdrc9Edx-A)ï¼Œæœ€è¿‘æˆ‘è‡ªå·±åœ¨ä¸æ–æµ‹è¯•æˆ‘çš„æ–°åŒ…tidyfstï¼Œå› æ¤å°±æ‹¿è¿™ä¸ªdata.tableçš„æ¡ˆä¾‹æ¥å°è¯•ä¸€ä¸‹ã€‚

## æµ‹è¯•æ•°æ®æž„é€ 
  æœ¬æ¬¡æµ‹è¯•ï¼Œå°†ä¸ä¼šåŠ è½½data.tableåŒ…ï¼Œä½†æ˜¯å…¶å®žtidyfsté‡Œé¢æ— å¤„ä¸æ˜¯data.tableçš„å…ƒç´ ï¼Œè€Œä¸”ä¹Ÿå¯¼å‡ºäº†å¾ˆå¤šå†…ç½®çš„data.tableå‡½æ•°ï¼Œæ¯”å¦‚as.data.tableå’Œdata.tableã€‚æ‰€ä»¥è¿™äº›ä»£ç åœ¨tidyfstä¸å°±å¯ä»¥è‡ªå¦‚åœ°ä½¿ç”¨ã€‚
```{r}
library(tidyfst)
diamonds <- ggplot2::diamonds
n = 1e5  #å¦‚æžœæƒ³åšå·¥ä¸šçº§æµ‹è¯•ï¼Œå¯ä»¥ç»§ç»å¢žåŠ æ•°é‡
set.seed(2020)
dtranges <- seq.Date(from = as.Date("2011-01-01"),
                     to = as.Date("2020-01-01"),
                     by = 1)
n1 <- sample(nrow(diamonds), n, replace = TRUE)
dat1 <- as.data.table(diamonds[n1, ])
dat1[, "dt"] <- sample(dtranges, n, replace = TRUE)  # å¢žåŠ dtåˆ—
n2 <- sample(nrow(dat1), nrow(dat1)/1000)
dat1[n2, "price"] <- NA # priceåˆ—æž„é€ åƒåˆ†ä¹‹ä¸€ç¼ºå¤±å€¼
dat2 <- data.table(dt = sample(dtranges, min(n/1000, length(dtranges))),
                   price1 = sample(1000, min(n/1000, length(dtranges)), replace = TRUE))

dat3 <- data.table(dt = sample(dtranges, min(n/1000, length(dtranges))),
                   price2 = sample(1000, min(n/1000, length(dtranges)), replace = TRUE))

print(dat1)
```

## åŸºç¡€
### å°æŠ€å·§
åŽé¢çš„åˆ†æžï¼Œç»å¸¸è¦æ ¹æ®æ—¥æœŸè¿›è¡Œè®¡ç®—ã€‚æ‰€ä»¥ï¼Œå…ˆå¯¹æ—¥æœŸè¿›è¡ŒæŽ’åºï¼Œå°±èƒ½å¤Ÿæé«˜è¿è¡Œé€Ÿåº¦ã€‚åœ¨tidyfstä¸ï¼Œå¯ä»¥ä½¿ç”¨`arrange_dt`å‡½æ•°æ¥å¯¹æ•°æ®è¿›è¡ŒåŽŸä½çš„å„ç§æ“ä½œï¼Œå…¶ä¸å°±åŒ…æ‹¬æŽ’åºã€‚
```{r}
dat1 = arrange_dt(dat1,dt)
dat1
```
é‚£ä¹ˆï¼ŒçŽ°åœ¨dat1çš„æ•°æ®å°±æŒ‰ç…§æ—¥æœŸæŽ’å¥½åºäº†ã€‚

### èšåˆ
#### 1.æ±‚æ¯ç§åˆ‡å‰²ç±»åž‹ã€æ¯ç§é¢œè‰²é’»çŸ³çš„å¹³å‡ä»·æ ¼ã€ä¸ä½æ•°ä»·æ ¼ä¸Žæœ€é«˜ä»·æ ¼
åœ¨tidyfstä¸ï¼Œæˆ‘è®¾ç½®äº†ä¸€ä¸ª`sys_time_print`å‡½æ•°ï¼Œå¯ä»¥æ–¹ä¾¿åœ°è¾“å‡º`system.time()`å‡½æ•°è¿”å›žçš„ç»“æžœã€‚
```{r}
sys_time_print({
  r1_1 <- dat1 %>% 
    summarise_dt(
      by = .(cut,color),
      mean_price = mean(price, na.rm = TRUE),
      median_price = median(price, na.rm = TRUE),
      max_price = max(price, na.rm = TRUE)
    )
})
r1_1
```

tidyfstæ˜¯æ°¸è¿œä¸å¯èƒ½æ¯”data.tableå¿«çš„ï¼Œä½†æ˜¯å¦‚æžœä½ è§‰å¾—ä¸Šé¢çš„ä»£ç æ›´å®¹æ˜“æŽŒæ¡ã€æ›´å®¹æ˜“è¯»æ‡‚ï¼Œè€Œåœ¨æ—¥å¸¸å·¥ä½œä¸å¤šèŠ±é›¶ç‚¹å‡ ç§’çš„è¿è¡Œæ—¶é—´æ²¡æœ‰å¤ªå¤§é—®é¢˜ï¼ˆå®žé™…ä¸ŠèŠ‚çœäº†å¤§å®¶çš„äº¤æµæ—¶é—´ï¼Œç”šè‡³å°±æ˜¯èŠ‚çœå°†æ¥è‡ªå·±å†æ¬¡è¯»æ‡‚è‡ªå·±ä»£ç çš„æ—¶é—´ï¼‰ï¼Œtidyfstå°±å€¼å¾—æ‹¥æœ‰ã€‚

#### 2.æ±‚æ¯å¤©æœ€é«˜å‡ºå”®ä»·æ ¼å¯¹åº”çš„é‚£ç¬”è®¢å•

```{r}
sys_time_print({
  r1_2 <- dat1 %>% 
    arrange_dt(dt,-price) %>% 
    drop_na_dt(price) %>% 
    group_dt(
      by = dt,
      head(1)
    )
})
r1_2
```
### join
#### 1.dat1ä¸Ždat2ä»¥dtåˆ—å·¦è¿žæŽ¥
å®žè´¨ä¸Šï¼Œmergeå‡½æ•°å·²ç»ä¼˜åŒ–å¾—å¾ˆå¥½ã€‚tidyfstè®¾è®¡`*_join`ç³»åˆ—å‡½æ•°çš„æ—¶å€™ï¼Œåªæ˜¯ä¸ºäº†ä¸€ç§ä¸ä¸€æ ·çš„è¯æ³•ç»“æž„æ¥å¸®åŠ©å®žçŽ°ä¸åŒçš„è¿žæŽ¥ï¼Œå› ä¸ºå®ƒç¡®å®žæ›´åŠ ç›´è§‚ä¸€äº›ã€‚ä½†æ˜¯å®žè´¨ä¸Šå®ƒè¿˜æ˜¯merge.data.tableå‡½æ•°çš„åŒ…è£…ç‰ˆæœ¬ã€‚
```{r}
sys_time_print({
  r2_1 <- dat1 %>% 
    left_join_dt(dat2,by = "dt")
})
r2_1
```
#### 2.å¤šé‡join
  
```{r}
sys_time_print({
  mymerge <- function(x, y) left_join_dt(x, y, by = "dt")
  r2_2 <- Reduce(mymerge, list(dat1, dat2, dat3))
})
r2_2
```
### é•¿å®½è¡¨è½¬æ¢
#### 1.é•¿è¡¨è½¬å®½è¡¨

```{r}
sys_time_print({
  mean1 <- function(x) mean(x, na.rm = TRUE)
  max1 <- function(x) max(x, na.rm = TRUE)
  r3_1 <-dat1 %>% 
    wider_dt(cut,
             value = c("depth", "price"),
             name = "color",
             fun = list(mean1,max1))
})
r3_1
```

#### 2.å®½è¡¨è½¬é•¿è¡¨

```{r}
sys_time_print({
  r3_2 <-dat1 %>% 
    select_dt(cut,color,x,y,z) %>% 
    longer_dt(cut,color,
              name = "xyz",
              value = "xyzvalue")
})

r3_2 
```

## é«˜é˜¶
### å‘ä¸Š/ä¸‹å¡«å……ç©ºå€¼
å¯¹äºŽå¡«å……ç©ºå€¼æ¥è¯´ï¼Œå¯ä»¥è¿™æ ·æ“ä½œï¼š
```{r}
sys_time_print({
  dat1 %>% fill_na_dt(price) -> dat1
})
dat1

```


### æ·»åŠ åç»´åº¦èšåˆç»“æžœä¸ºæ–°åˆ—

#### 1.ä»¥dat1ä¸ºä¾‹ï¼Œæ·»åŠ ä¸¤åˆ—ï¼Œä¸€åˆ—ä¸ºä»¥cutã€colorèšåˆæ±‚priceçš„å‡å€¼ï¼Œå¦ä¸€åˆ—æ˜¯æ±‚æ ‡å‡†å·®

```{r}

sys_time_print({
  mutate_dt(dat1,
           mean_price = mean(price, na.rm = TRUE),
           sd_price = sd(price, na.rm = TRUE),
           by = .(cut, color))
})

dat1
```

#### 2.ä»¥dat1ä¸ºä¾‹ï¼Œä»¥dtåˆ†ç»„æ·»åŠ ä¸€åˆ—åºå·id
```{r}

sys_time_print({
  dat1 %>% 
  group_dt(
    by = dt,
    mutate_dt(id = seq(.N))
  ) -> dat1
})
dat1
```

### ç§»åŠ¨å‡½æ•°

```{r}

sys_time_print({
  dat1 %>% 
    group_dt(
      by = color,
      mutate_dt(
        MA10_price = frollmean(price, 10),
        MSD10_price = frollapply(price, 10, FUN = sd)
      )
    ) -> dat1
})

dat1
```


## ç³»ç»Ÿå‚æ•°
```{r}
sessionInfo()
```