힙한 데이터 프로덕트 만들기

Jinhwan Kim
6 min readNov 7, 2021

데이터를 한번 만들어보는 건 데이터 과학자에게 크게 도움이 된다.

이전 글들에서 대충 눈치를 챘을 수 도 있지만, 나는 요즘 힙한 데이터의 비밀 챌린지 라는 프로젝트를 진행하고 있다. (힙서비를 한 건 아니지만 회사 동료분을 통해 듣게 되었다)

줄여서 “힙데비”라고 표현하는 이 프로젝트의 목적은
8주동안 매주 주어지는 케이스와 질문에 대해서 각자가 고민을 하고 생각과 인사이트를 공유하는 것인데. 데이터의 관점에서 (특히 체감상 메트릭에 더) 많이 집중되어 있다.

아직 진행중이지만 소감을 이야기 하자면 PMB 코스를 더 연장해서 참여하는 기분이다.

문제의 발견

아무튼, 정말 다양한 도메인, 그리고 다양한 업무를 하는 사람들의 다양한 관점에서 동일한 서비스 / 프로덕트를 분석하는 이 인사이트들이 넘쳐나고 있었지만. 슬랙이라는 특성상 휘발되거나, 가독성이 정말 구리다 라는 문제가 있었고

이로 인해 빛을 드러내지 못하는 글들이 너무 많다고 생각하게 되었다.

그래서 나는 이러한 기록들을 개인 노션페이지에 데이터로 남겨두는 작업을 하기로 했다. 이전의 나라면 이런 노가다를 안했겠지만 최근 컨퍼런스에서 봤던 내용을 보고 영감을 받아서 해보기로 했다. (아래 세규님 발표 영상 참조)

목적

풀고자 하는 목적과 그걸 정하는 과정은 이러했다.

인사이트들을 많이 보면 좋다.

모든 것을 다 보기에는 시간이 부족하니 선택과 집중을 해야한다.

선택과 집중의 대상은 내가 관심이 있는 글 혹은 추천을 받은 글이다.

다시 말해,

관심사, 저자, 도메인, 주요 내용, 추천여부와 같은 글들의 Attribute들을 잘 설정해서 기록만 해놓으면 충분히 많은 사람들이 원하는 글에 더 쉽게 접근 할 수 있게 된다.

라고 생각했고.

궁극적으로는 101가지 비즈니스 모델 이야기 책 처럼. N가지 힙한 데이터 이야기 라는 프로덕트를 만들어 내고 싶었다.

문제점 — 위치

어쩌면 개인의 성장을 위한 인사이트를 넘어, 부와 명예까지도 끌어다 줄 수 있는 이러한 데이터 프로덕트를 만들기 위해서 제일 먼저 고민했던 것은 어디에 기록을 할까였다.

  • 기록을 편하게 하는 것
  • 작성된 글에 대한 접근성 및 가독성

도 중요했지만 내가 생각하는 사실상 이 프로덕트의 핵심은 Attribute 였기 때문에 이러한 것을 쉽게 만들고, 또 잘 보여줄 수 있는 것이 필요했다.

이를 잘 해결 할 수 있을 것 같은 솔루션들중 제일 먼저 생각 난 것은 github issue 였지만. 그러나 여러 사람의 참여를 고려했을때 접근과 관리 차원에서 적절하지 않았다. (사용 방법에 대한 이해가 필요, 동시에 해결되어야하는 list가 아님)

차선으로 생각한 것은 노션이었다. 그 이유는 2가지였는데

  1. 힙데비에 참여하는 많은 사람들이 노션으로 챌린지를 작성했음 (익숙)
  2. 노션 의 테이블 기능을 활용하면 충분히 Attributes를 잘 표현할 수 있음

문제점 — 내용

앞서 말했듯, 많은 글들이 노션을 통해 작성되었지만. 이는 모든 글들이 노션을 통해 작성되지는 않았음 또한 의미한다.

특히나, 슬랙의 내용을 노션에 그대로 붙여넣을 경우 이모지나 강조 표기 등 원본에서 표현하고자 하는 내용들이 상당히 많이 훼손 되기 때문에 이 방법을 해결하기가 어려웠다.

왼쪽의 내용은 오른쪽과 같이 표현된다.

이모지를 이미지가 아닌 텍스트 (:이모지:)로 활용하거나, API 를 이용해 작업을 하려고 했지만 이 또한 풀 수 없는 문제들이 있었고 결국… 해결하지 못했다 (대신 일부는 노가다로 복붙을 했는데, 글이 워낙 많아서 나중에는 외부 링크가 있는 글이 아니면 기록하지 않았다 )

문제점 — 시간

챌린지 글들은 일요일에 공지 된 이후, 토요일까지 작성을 해야했다. 즉, 금요일까지 작성된 글들에 비해 토요일에 작성된 글들이 압도적으로 많았고, 더 나아가 기한을 넘어서 제출 되는 글들도 꽤 있었다.

이는 사실 내가 이 기록들을 만들게 한 가장 큰 이유중 하나인데, 금요일까지 작성된 글들은 천천히, 깊게 읽을 수 있지만 토요일 글들은 사실상 읽기가 너무 어려웠기 때문이다.

처음에는 매일 매일 작성된 만큼을 기록에 남기려고 했으나 이와 같은 이슈로 인해 일요일 오후에 일괄적으로 기록하기로 했다. (토요일 밤은 자야함)

초기 프로토타입, 노션에 기록중이다.

종합

이전의 나를 포함하여 꽤 많은 데이터 과학을 하는 사람들은,
테이블 형태의 잘 짜여진 데이터가 있고
이를 긁어서 모델에 대충 넣고 AUC같은 숫자를 파라미터 바꿔가며 뽑아내는 것을 기대한다.

그러나 캐글과 같은 온실속에서 자라난 사람들에게 현실의 데이터는 거의 정글 수준이었고. 앞으로는 온실을 잘 키우는 사람 보다, 정글을 풀어내는 사람들에 대한 수요가 더 늘어나게 될 것 같다 (데이터 엔지니어와는 별도로)

그래서 요즘 단순히 데이터를 분석하고 뜯어보고 지표를 뽑아내는 것을 넘어서서 이를 잘 해낼 수 있도록 데이터를 준비하는 것 자체에도 여러 관심을 가지고 있다보니 사내에서 데이터 프로덕트를 TF형태로 만들게 되었다.

나는 데이터를 분석도 해봤고, 생산도 해봤는데 이는 데이터 프로덕트를 만드는데에 있어서 꽤 유리하다고 생각했다.

한편 이를 구성하는 인프라(HOW)를 만드는 것보다, 목적이나 과정, 방향, 최종 그림 등을 그려내는 것에 조금 더 신경 쓸 수 있다고 생각되어서 (PMB 수료생) 싱글벙글했던 것도 사실이다.

그러나 정작 관련된 내용을 리서치 하는 것이 너무 어려웠기 때문에 (특히 상당히 많은 책 / 아티클들은 인프라를 구성하는 것에 집중하고 있다) 아아아아주 작은, 그러나 내 실생활에 연결되어있고, 임팩트를 만들어 낼 수 있는 스몰데이터 프로덕트를 만들어 내는 것을 연습 할 수 있어서 꽤 좋은 경험이었다.

나중에 8주가 지나 힙데비가 마치게 되면 프로덕트를 공개 할 수 있도록 열심히 프로덕트를 만들어보겠다.

--

--

No responses yet