[리뷰] 혼자 공부하는 R 데이터 분석

입문용으로 주말 날잡고 하루 보기에 좋은 책

Jinhwan Kim
6 min readFeb 17, 2022

--

이번 글은 혼자 공부하는 R 데이터 분석이라는 책의 리뷰입니다.

한빛미디어나는 리뷰어다 활동을 위해서 책을 제공받아 작성했습니다.

이 책을 리뷰하는 저는

  • CRAN에 R package도 개발해서 올려본 경험이 있는 사람
  • 동시에 RPython을 비경험자 대상으로 교육해본 경험이 있는 사람

입니다.

요약

제목처럼 혼자서 R을 활용한 데이터 분석, 시각화의 쌩기초를 배울 수 있는 가이드 도서로는 충분하다고 생각합니다.

그러나 이 책만으로 R이나 데이터 분석, 시각화 중 하나를 마스터 하기에는 내용이 가벼운 편이라 해당 목적으로는 어려울 것 같아요.

교양 도서만큼 가벼운 편은 아니니 주말 하루 잡고 (3~6장만) 따라하는 원데이클래스의 내용 정도를 생각하면 충분할 것 같다고 생각합니다.

권장 독자

데이터 관련 직무로 회사에 입사했는데 이전에 프로그래밍 경험이 없으며 팀에서 Python이 아닌 R을 사용하는 경우입니다. 그 이유는 이 책의 문제가 아니라 구직자의 관점에서 R은 별로 가성비가 좋지 않기 때문인데요. 사실상 프로그래밍 경험이 없이 데이터 관련 직무로 입사를 하긴 이상하니. 조직내에서 데이터 분석쪽으로 커리어 전환을 위해 업무를 경험하고 싶은 경우가 더 맞을 것 같습니다.

혹은 취미로 데이터 분석이란걸 해보고 싶은데 비싼 돈과 시간을 들여서 온라인 강의를 듣긴 조금 그런 경우. 특히 직장인보다는 데이터 분석 쪽을 생각하고 있는 저년차 학생들한테는 좋을 것 같습니다.

이 책의 장점

  • 프로그래밍 언어 이론적인 설명을 넘어서서 실제로 R 개발하는 환경이나 과정들도 잘 설명되어 있습니다. 프로그래밍의 입구컷을 담당하는 부분들을 정말 잘 해결해주고 있어서 입문자들에게는 좋을 것 같아요.
  • Youtube에서 거의 그대로 따라하며 들을 수 있는 수준의 강의들을 제공해 주고 있습니다.(22년 2월 기준 업로드 진행 중)
  • 데이터 분석의 흐름: 읽기-가공-시각화(EDA)-리포트 라는 흐름으로 책을 서술하고 있어서 한번 쭉 따라하면 아 이런 일들을 할 수 있겠구나 라는 걸 생각 해볼 수 있습니다.
  • ggplot2, dplyr, reshape2 , rmarkdown, shiny등 실제 많이 활용되는 패키지들도 개념 설명과 활용 예시를 포함하여 다뤄주고 있습니다.
  • 제목은 “혼공”이지만 공부하기에 동기부여가 있으면 좋은 사람들을 위해 스터디 그룹을 운영하고 있습니다. R은 신간이라 아직 없는 듯 하지만 곧 생길 것 같아요.

개인적으로 아쉬운 점

  • 중간중간 퀴즈들이 있는데 이게 의미가 있는지는 잘 모르겠습니다. 만약 이러한 이론적인 내용의 정답여부를 확인하는 것이 목적이라면 ADsP를 공부하는게 더 좋을 것 같다고 생각해요.
  • 다루는 내용들 중에 내 기준으로는 조금 더 깊게 다뤘어도 좋았을 것 같은데… 싶은 것들이 종종 있습니다. 넣자니 애매하고 안넣자니 아쉬워서 언급 정도만 했다고 생각하면 충분할 것 같은데, 이 부분들에 대해서 참고하면 좋을 자료들을 추천하겠습니다.

7장 프로젝트로 실력 다지기

  • 이 책보다는 데이콘 경진대회 1등 솔루션 책을 보는 걸 더 추천합니다. 아니면 더 다양한 내용들이 있는 캐글이나 데이콘에 가도 좋아요.

8장 데이터 분석 보고서 공유하기

  • Rmarkdown 을 다뤄준 것은 좋지만 그 결과물을 일반적인 데이터 분석 보고서는 회사의 내용들을 다루고 있기 때문에 공개적으로 열려있는 Rpub에 올리기는 어렵다고 생각합니다. 분석 아티클을 개인용 포트폴리오로 쓰기에는 github page 나 노션등이 있으니 여전히 Rpub 에 많은 할당한 것은 아쉬워요. Rmarkdown도 상당히 가볍게 서술되는 수준입니다.

공식 cheatsheet나, 아래 블로그를 참조하면 좋습니다. 참고로 cheatsheet에는 dplyr, ggplot2, shiny 등 책에서 다룬 다른 내용들도 있습니다.

Shiny도 거의 공식 가이드보다 더 가볍게 다루고 있어서 크게 도움이 되진 않는다고 생각합니다. 부록에서 언급한 태블로데이터스튜디오 이상의 BI, 대시보드로 shiny를 꼭 사용해야 한다면, 아래 교육 자료를 보는 것도 추천합니다.

내용

1부: 저는 프로그래밍 경험이 없어요

1장: R 개요 -> 개발 작업환경을 설정할 수 있다.

2~3장: R 문법 -> 기초 R 문법들을 따라하며 배울 수 있다.

2부: 저는 R을 사용해본 적이 없어요

4~5장: txt, csv 등의 데이터를 R에서 읽고, 가공하는 과정을 설명하고 있다.

6장: ggplot2 를 위시한 데이터 시각화

3부: 이런 것도 알면 좋다

7장 ~ 8장: 프로젝트 예시 + 보고서 만들기 (안봐도 됨)

개인의 경험이나 목적에 따라 보면 좋을 것 같습니다.

--

--