Minimal Data Science
닭 잡는데 소 잡는 칼을 사용할 필요는 없다.
라는 말이 있습니다. 제가 처음 이 말을 들었던 것은 삼국지 영걸전이었나… 아무튼 화웅이라는 장수가 관우를 상대하기 위해 여포가 아닌 자신으로도 충분하다 라는 의미로 했던 말인 것 같습니다.
그리고 그 결과는 …
저는 이렇게 목숨을 걸고 까지는 아닙니다만, 여전히 위와 같은 상황을 생각보다 자주 겪곤 합니다.
주어진 문제를 풀기 위해서는 여러가지 방법이 있는데 각각의 방법마다 최적화된 과정과 목적이 조금씩은 다르다는 것이죠.
가령 똑같은 Data Scientist라고 해도, 대기업의 Research 팀에 속해있는 사람과 스타트업의 Data 혹은 Growth 팀에 속해 있는 사람이 하는 일은 다를 것입니다. 물론 양쪽 모두 끊임없이 공부를 해야 한다는 것은 동일합니다.
그런데 저는 최근에 이런 생각을 하기 시작했습니다.
꼭 “Data” 라는 글자를 직함에 달고 있지 않더라도 흔히 말하는 “데이터를 기반으로 한 의사결정”에 필요한 최소한의 기술은 모두가 가지고 있는것이 좋지 않을까?
라는 거죠.
책을 읽어보면, 대부분의 “비데이터 직군”의 경우, 어떤 액션을 하기 위해서 주관적인 경험 혹은 인사이트에 의존하는 경우가 많다라고 합니다 (이것이 잘못되었다는 것은 아닙니다.)
조금 더 진보적으로는 GA나 Tableau 와 같은 상용 BI Tool을 이용해서 데이터를 시각화 하고 이로 부터 인사이트를 확인하다. 정도인 것 같습니다.
이러한 상용툴의 특징은 다양한 기능들이 사용하기 쉽게 제공된다. 라고 생각합니다. 그렇기 때문에 장점은 복잡한 과정을 거치지 않고 “노코드로” 쉽게 쉽게 작업을 할 수 있다는 것이고, 동시에 단점으로는 제공된 것들만 사용 할 수 있다는 것 일 겁니다.
예를 들면 제가 수강생의 과제 첫 제출 점수와 이후 제출 점수를 비교하기 위해 사용했던split violin chart 같은 것들은 조금 어렵다 라는 것이죠.
조금 더 나아간다면 머신러닝이나 딥러닝 모델들을 사용 할 수 도 있을 겁니다. (그렇게 된다면 “Data”라는 타이틀을 달아도 되겠죠)
위에서 설명했던 4단계 “데이터에 대한 성숙도”를 난이도와 인사이트 라는 기준에 대해서 그려보려 했을때 저는 처음에 아래 그림처럼 되지 않을까 라고 생각했습니다. 난이도가 올라가면 올라갈 수록 얻게되는 인사이트의 양도 많아 질 것이다. 라는 거죠.
그러나 이내 곧 아래 그림과 같지 않을까? 라는 생각을 하게 되었습니다. 엄청나게 복잡한 모델을 쓰면 퍼포먼스는 아주 미세하게 (물론 SOTA를 연구하는 분들에게는 0.1%의 가치도 어마어마합니다) 오르지만 정작 그것이 왜 그런지 혹은 그럴 만한 가치가 있는지.. 에 대한 질문까지 모두가 대답할 필요는 없다고 생각했기 때문입니다.
물론 방법 보다 어떤 문제를 풀고자 하는지, 데이터는 어떤 형태를 띄고 있는지 가 더 중요한 질문이라고 생각합니다만, 결론은 우리 모두가 스스로 확인하고자 하는 인사이트를 “그려낼 수는” 있어야 한다 라고 생각을 하게 되었습니다.
저는 어떤 것을 배울때,
그것을 완전히 이해 하는 것이 목적이 아니라, 이에 대한 최소한의 내용과 그것에 관련된 컨텍스트 혹은 찾을 수 있는 인덱스를 내 머리라는 라이브러리에 저장해두자.
라는 관점으로 학습을 했습니다. 그리고 이를 Minimal 이라는 단어로 많이 표현했는데요.
최근 사내에 이런 Minimal한 Data 사용법에 대한 교육 수요가 나날이 증가하고 있어서, 2월에는 러닝데이를 해당 주제를 기반으로 하려고 합니다.
아마 이런 내용이 될 것 같습니다.
- A 크루의 경우는 현재 X, Y, Z라는 데이터를 사용할 수 있다.
- A 크루는 P 라는 문제를 풀고 싶지만, 개념이나 스킬이 부족하다.
- 그래서 나랑 같이 이러이러한 프로세스를 통해서 P라는 문제를
- 이러이러하게 S라는 과정을 거쳐서 풀었고, 그 결과 Q라는 결론을 얻었다.
- 이후로는 R이라는 액션을 취할 예정이다.
모두가 소 잡는 칼을 쓸 필요는 없지만 그래도 치킨 정도는 먹을 수 있는 문화를 위한 결과도 이후에 성공적으로 작성 할 수 있기를 기대하며…