概要
dplyr
パッケージに含まれるdistinct()
は、指定した列の値が重複する行を削除する関数です。
# 指定した列の値が一意になる行を取得する
distinct(.data, ..., .keep_all = FALSE)
引数 | 指定 | 説明 |
---|---|---|
.data | 必須 | テーブルを指定する |
… | 任意 | 重複を削除する列を指定する 未指定の場合は全ての列が対象になります |
.keep_all | 任意 | 指定外の列をテーブルに残すか否かを指定する デフォルト(FALSE)では指定外の列は削除します |
関連ページ
具体例
## テーブルの作成
tbl <- tibble(
x1 = c('A', 'A', 'B', 'B', 'B'),
x2 = c(1, 2, 3, 4, 5)
)
## テーブルの確認
tbl
# x1 x2
# <chr> <dbl>
# A 1
# A 2
# B 3
# B 4
# B 5
# 1.重複する行を削除する
distinct(tbl, x1)
# x1
# <chr>
# A
# B
# 2.指定外の列を残す(先頭の行のみ取得する)
distinct(tbl, x1, .keep_all = TRUE)
# x1 x2
# <chr> <dbl>
# A 1
# B 3