2021 년 회고

퇴사한다 !!!

Jinhwan Kim
24 min readDec 30, 2021

연말이다. (이틀 남았다!!)

누군가에게는 새해를 준비하는 시간, 누군가에게는 해돋이를 보러 가는 시간. 각자 개개인마다의 연말이 있지만, 그리고 이는 글쓰는 사람들에게는 “회고라는 과제”가 있는 시즌이다.

나는 올 한해 이러이러한 것들을 했다

라고 하며 그동안 썼던 글을 나열하고 전체를 요약하는 정도로 하고 싶었지만, 그러기에는… 몇달 동안 회고를 하지 못했기 때문에

했던 업무 보다는 조금 더 넓은 범위에서

올해의 나, 이 곳에서의 나는 누구였나?

를 시작으로

그래서 앞으로의 나는 어떻게 해야할까?

로 이어지는 회고를 해보고자 한다.

데이터 깎는 애옹쓰

나를 표현하는 여러 말이 있지만, 개인적으로 “데이터 깎는 애옹쓰” 라는 표현이 나는 너무너무 좋다. 진짜 제일 만족스럽다. 정말 이 단어가 제일 좋다. 데이터도 좋고 데이터를 깎는 것도 좋고, 애옹이도 좋아.

우리집 작은 애옹이… 너무 좋아

하지만 이건 지극히 개인의.. 취향이니 내 명함에 담긴 데이터 사이언티스트 를 기준으로 글을 시작하겠다.

우선, 내 스스로 봤을때 명함의 Data Scientist 보다는 하는 업무는 Data Interpreter 가 더 정확한 표현이라고 생각한다.

그렇지만 어쩌다가 데이터 사이언티스트가 되었는가? 를 돌아보자

어쩌다 데이터 사이언티스트

나는 유전체 / 네트워크 데이터 분석(Bioinformatics)으로 PhD를 땄다. 그리고 이후의 계획으로 해외나 연구직, 바이오 쪽 도메인으로는 처음부터 전혀 고려하지 않았다.

왜 Bioinformatics를 선택 했는가. 왜 바이오쪽 도메인은 고려하지 않았는가.를 이야기 하면 더 길어질테니 생략하겠다. (10년이 넘는 시간을 올라가야한다…)

그러다보니 언양에서 있는 시간 동안 데이터를 다루는 것, 그리고 그 결과를 해석하는 것을 꽤 많이 했고, 그러다 보니 구직할때 이를 살릴 수 있는 데이터 직군을 고려했다.

여기서 데이터 애널리스트데이터 사이언티스트 사이에서 많은 혼동과.. 고민을 했는데 SQL퍼널이라는 단어보다는 R모델링이 더 친숙해서 데이터 사이언티스트로 커리어를 시작했다. 다른 포지션들도 그렇긴 하지만 특히나 데이터 직군은 사바사, 팀바팀으로 이를 표현하는 것과 기대하는 것이 다르다 보니 올해 상반기까지 차이를 명확하게 설명하기 어려웠다.

데이터 애널리스트그로스/프로덕트 애널리스트로 표현 하는 것이 이해하기에는 조금 더 좋지 않을까? 라는 생각정도를 가지고 있다.

물론, 당연히 지극히 개인적인 관점이니 다르게 생각할 수 있다.

반박시 님말이 맞음

데이터. 데이터? 데이터!

데이터 사이언티스트는, 데이터로 과학하는 사람, 조금 더 고상하게 표현하면

데이터를 봐서 현실을 해석하고 새로운 것을 만들어 내는 사람

이라고 생각한다.

이 고상한 업무의 시작은 뭘까? 아마 데이터를 본다 일 것이라고 생각한다.

이렇게 중요한, 데이터를 본다는 것에 대해서는 아래와 같은 관점을 가지고 있다.

공포의 포켓몬 실루엣 퀴즈. 현실의 “데이터 문제”는 더 어렵고 복잡하다.

알고 싶은 현상 (실루엣)이 있고, 이미 경험을 통해서 알고 있는 부분도 있지만 (보라색, 주관적 경험) 동시에 이는 상당히 주관적이기도 하다.

이 가장 크고 빠르게 효과를 보이는 경험 은 사람마다 다르다는 문제가 있다.

그리고 알고 싶은 현상이 시대가 지나며 커지고, 복잡해지기도 해서, 이를 더 잘 볼 수 있는 방법으로 데이터 기반 의사결정이라는 것이 등장했다.

그런데, (뇌피셜) “데이터의 사이즈와 스케일, 종류가 달라지면서 생기는 차이”를 제외하면 거의 대부분이 기존의 통계학자들이 했던 것과 유사하다고 생각하며, 이를 풀기 위해서 하드웨어의 발전이라는 순풍을 타고 Machine Learning (ML) 과 Deep Learning (DL) 등의 방법론이 대두되었다.

그러나, 학위논문 쓰면서 느낀 경험에 따르면.

정말 중요하게 파악 해야 하는 이유메커니즘, 사실은 엄청 정교하게 모델을 세우지 않아도 가능하며, 오히려 모델이나 방법론등의 퍼포먼스보다 데이터와 그를 위한 수집 방식 설계가 더 중요하다.

과학자 하면 나오는 이미지가 분석 하는 그림보다 실험 하는 그림이 나오는 이유다. 진짜 실험 (데이터 수집) 방법이 더 중요하다.

그리고 한가지 더 , 회사생활을 하면서 느낀 경험에 의하면.

실생활과 비즈니스의 관점에서는, 이렇게까지 Precise 한 것을 요구 하는 상황 보다 그렇지 않은 상황이 더 많다.

정말 대부분의 경우, “있는 데이터를 시각화 하거나 통계 분석 하는 것” 만으로도 발전을 이루어 낼 수 있다고 믿고 있고, 여기에 추가로 MLDL을 응용할 수 있는 사람이 점점 더 많아진다? 당연히 사회가 발전 할 것이라고 믿는다.

그래서 나는 코드스테이츠 교육팀에 합류하게 되었다. (wewin이라는 비전이 신선하기도 했다)

교육팀을 벗어난 이유

약 8개월 후,교육팀에서 선발팀으로 이동했는데, (회사의 의도는 알 수 없으니) 내가 이동하게 된 이유는 이러하다.

많은 사람들이 기초 통계, 시각화, 수학보다 DL 을 더 중요하게 생각했다. (교육팀의 동료도 마찬가지 였다.)

잠시 딴 이야기) Deep Learning에 대한 개인적 생각

DL이 진짜 Fancy하다 는 것은 나를 포함한 많은 사람들이 동의할 것이다.

하나의 예시로

이전에 이고잉 선생님의 오렌지라는 툴을 이용한 딥러닝 응용 사례를, 따라 만들어 봤던 적이 있다. (만약 DL이 뭔지 잘 모른다면 꼭!!! 들어보길 권장한다)

“손톱을 무는 지 아닌지 를 구분할 수 있는 모델”을 구현하는 것은 정말로 “있어보이는” 어플리케이션의 한 예시라고 생각한다. (칭찬의 표현)

이걸 들었던 당시에는 지금에 비해서도 비즈니스에 대해서 아는 것이 더 없었지만, “DL을 잘 활용하면 정말 세상에 의미있는 것들을 만들어 낼 수 있겠다” 라는 근자감도 생겼다.

구글에 검색하면 쏟아져 나오는 GAN 기반의 그럴싸한 이미지 혹은 음악들을 경험하면서 인간시대의 끝이 도래했다… 라는 생각을 하기도 했다.

DL은 진짜 잠재력이 무궁무진하고 Hot 한 기술이다. Deep learning Engineer 너무 멋져.

그러나 이는 내가 관심 있는 분야가 아니었다.

데이터 해석학 입문이라는 도서를 인용하면, (진짜 좋다 올해의 애옹책 땅땅땅)

데이터 모델링은 크게 이해지향형응용지향형이라는 2가지로 구분 할 수 있다.

이해지향형 모델링은 주어진 상황이 왜 이렇게 되었는지, 메커니즘을 확인하는 것이 주된 목적이고.

응용지향형은 모델을 이용해 더 정확한 성능을 추구하는 것이 주된 목적이다.

더 직관적인 이해를 돕는 책의 예시로는,

구매데이터를 통해서

어떤 고객이 어떤 상품을 왜 구매했을까? 를 알고자 하는 것은 이해지향형이고, 그래서 이 고객에게 어떤 걸 추천하면 좋을까? 를 고민하는 것은 응용지향형이다.

나는 공학박사라는 타이틀을 갖고 있긴 하지만, 했던 연구 (어떤 유전자가 달라서 질병이 생기는 걸까) 나, 개인의 성향 (왜요?가 많음) 을 보면 “이”학적인 부분. 그리고 이해지향형 모델링을 더 선호했다.

그렇기 때문에 정말 멋진 DL을 봐도 다른 사람에 비해서 덜 영감을 받았다고 생각한다. (그러니 Machine Learning Engineer가 아니라, Data Scientist를 달고 있는 게 더 맞지 않을까?)

이어서) 교육팀을 벗어난 이유

아무튼 이야기가 길어지긴 했는데

이러한 “DL이 아닌 지식”을 전달하는 것은 중요하지만 이를 위해 많은 시간을 쏟을 필요는 없었고 의미도 없는 일이었다. 회사나 고객의 입장에서 모두.

그렇기 때문에 교육을 벗어나서 실제로 이를 활용 할 수 있는 것을 고민했고.

회사가 풀고자 했던, (어쩌면 앞으로도 풀려고 할), 사내 데이터를 활용해서 어떤 사람이 잠재력이 있는 사람일까 (회사의 기준으로는 어떤 사람이 취업을 하는 사람일까?) 라는 문제를 풀고 싶었다.

단순히

이 사람 잠재력은 점수로 표현하면 90점입니다. 95% 확률로 보장함

과 같은 응용지향형 모델보다도 더 나아가서

이 사람은 A한 성향과 B한 역량, 그리고 C 등등의 경험들이 있어서 80점 입니다. 그리고 만약 여기서 X를 Y로 바꾸면 95점이 됩니다. 정확도는 70–80% 임.

과 같은 이해지향형 모델링에 기반한 스토리를 만들어 낼 수 있는 선발팀으로의 이동은 지금 와서 보면 당연했다.

선발 팀에서의 경험

새롭게 팀을 구성하게 된 다른 동료 한 분이 열심히 업무를 굴려주신 덕분에

나는 조금 더 “뒷단에서” 기존의 구린 프로세스 재설계. 그리고 여러 역량 진단을 위한 과정 추가, 데이터 분석 등을 했었다. (정말… 이 분 아니었으면 나는 더 오랫동안 해맸을꺼다. 너무 많은 신세를 졌다)

그리고 정말정말 업무를 재밌게 했었다.

(아마 아무도 업무에 대해 몰랐기 때문에) 업무에 마이크로매니징하지 않았고, 그렇게 하지 않아도 방향을 스스로 정해서 결과물들을 충분히 뽑아냈기 떄문이다.

그러다보니 우리와 같은 팀에서 일하고 싶었던 다른 팀 인턴 몇 분과, 이 (나는 재밌는) 삽질을 안쓰럽게 보신 분의 레퍼럴을 토대로, 급격하게 커진 조직에서 필요로 하는 업무들을 잘 진행 해낼 수 있는 팀이 만들어졌다.

이 부분은 우당탕탕이라 안타깝게도 많이 쓸 내용이 없다… (흑흑)

너무 일찍 체감한 한계

내가 업무를 하던 선발팀은 대부분의 데이터를 고객으로부터 직접. 수집해야한다.

조직이 금융기관과 연동이 되어있는 것도 아니고, 마이데이터와 같은 다른 방법으로도 준비 된게 있지 않기 때문이다.

즉, 생년월일과 같이 쉽고 명확한 데이터부터 내가 정말로 이 부트캠프를 통해 커리어 전환을 해내겠다는 의지와 같이 어렵고 복잡한 데이터까지 다양한 데이터를 수집해야 한다는 뜻이다. (단, 여기서 정보 수집의 난이도는 거쳐야 하는 단계들 보다는 수집/측정하는 방법을 기준으로 말한 것이다)

여기서 3가지 문제가 발생했다.

  • 이러한 문항과 설문이 많으면 많을 수록 (대체로) 지원자의 많은 정보를 알 수 있다. 그렇지만 동시에 지원과정의 문항과 설문이 많아 복잡하면 복잡할 수록 지원자의 수는 줄어든다. 극소수의 정예만 선발하기를 우리팀은 원했지만 (어쩌면 교육팀도 ㅋㅋ) 회사의 입장에서는 동의하기 어려운 부분이었다. 즉, 적당한 타협지점이 필요했다.

이는 wewin이라는… 특수한 상황때문이기도 하다.

  • 지원과정에서의 문항과 설문은 심리학 전문가가 목적에 맞추어 정교하게 설계한 문항들이 아니었다. 하나의 예시로, 지원단계중에 있던 문항 중 학습 하는 성향을 확인하는 문항이 있었다. (일종의 MBTI)

우리가 선발을 진행하며 했던 전제들 중 하나는, 특정 성향을 가진 사람이 부트캠프에 잘 적응할 것이고, 이후 취업도 잘할 것이라는 것이었다. 그래서 원래 목적대로라면 해당 성향이 아닌 반대 성향을 갖는 사람을 선발 우선순위에서 배제해야 했지만 전제에 대한 명확한 근거가 없어 그러지는 못했다. (추후에 분석을 통해 확인해 보니, 이러한 성향이었던 사람도 부트캠프를 거치며 다른 성향으로 변화한다는 결론을 얻기는 했다.)

그러다보니 정말 많은 것을 변화시켰고, 이전에 비하면 더 나은 선발 프로세스를 만들어냈지만. 동시에 완성에 가까워지는 것에는 속도가 일찍 느려졌다. (물론 지금은 심리학 전문가도 있다 !!! 너무 좋아 !!!)

마지막으로 선발팀만의 문제라기보단 회사의 다른 팀도 같이 겪는 문제인데,

가장 오랫동안 나를 괴롭혔던 문제는

우리가 하는 실험과 시도의 대부분이 그 결과를 보기까지 시간도 오래걸리고, 오래 걸리는 만큼 중간에 영향을 주는 요인들도 많았다는 것이다.

우리는 이 사람이 정말로 잘 할 것이라고 생각해서 선발을 했지만, 이 사람이 취업을 하기에는 최소한 6개월 이상의 시간 동안 관찰이 필요했고, 그 6개월은 스타트업에겐 이미 많은 것이 바뀌어 있어야 하는 시간이다.

한편, 가정사나 부상 혹은 뜬금없이 유튜브를 통해 얻는 영감과 같은, 정말 정말 아무도 (아마 본인도 몰랐을거다) 예상하지 못했던 요인들로 인해 학업이나 취업으로의 결과가 바뀌는 경우도 있었다.

빨리빨리라는 성향과, 변수를 정말 기피하는 성향의 나에게는. 여러의미로 챌린징한 문제였다.

Again, Data

물론 위에서 말한 것 외에도 머리를 감싸게 하는 문제는 많았지만, 결국 이제는 진짜 진부한 단어인 데이터에 기반한 의사결정이라는 곳으로 다시 돌아가게 되었다. (특히나 데이터 직군이어서 더더욱 그럴 수도 있다고 생각한다.)

이를 위해서는 맨 처음에 말했던 것처럼, 그 어떤 것보다도 좋은 데이터가 먼저 준비 되어 있어야 했다.

그리고 회사의 데이터는 좋은 데이터이지만, 준비된 데이터는 아니었다.

그렇기에 데이터를 통합하고, 인프라와 플랫폼을 만드려는 작업을 했으나, 말할 수 없는 요인으로 인해 결국 엎어졌다. (이때 퇴사에 강한 확신이 생겼다.)

애써서 만들었지만, 엎어진 내용의 일부는 아래와 같다.

조직이 필요로 하지 않는 데이터 직군

이전 문단들에서 꾸준히 드러났겠지만,

나는 하는 업무에 (데이터 사이언티스트로서) 만족하지 못했다.

물론 스타트업이라는 특성상. 진짜 잘 준비된 DW에서 엄청 Tidy 하게 쌓인 로그들을 가져와서 이것저것 느낌표 만들고 그림 그리는 “데이터 깎는” 일만 할 수는 없다는 것을 100% 이해하지만, 내가 처한 현실은 너무… 너무 멀었고 다가올 희망도 없었다.

해당 업무가 중요했다면 사내에서 이를 할 수 있는 상황환경이 되어야 했지만 아무도 이러한 이야기를 하지 않았고, 무엇보다 회사 차원에서도 “우선순위”가 높은 일이 아니었다. (Blame은 절대 아니다. 대부분 각자 발등의 불을 꺼야 했으니)

자연스레, 과연 내가 진짜 데이터 사이언티스트라고 말할 수 있을까? 라는 생각을 했고, 다른 데이터 사이언티스트들은 어떻게 일할까? 를 찾게 되었다.

데이터 엔지니어가 아닌, 데이터 사이언티스트를 개발 직군으로 보는지는 사람마다 주장이 다를 수 있지만 아무튼, 이러한 답을 찾는 과정 중에서 여러 개발 블로그들을 찾고 관련한 수많은 글을 읽게 되었다.

수많은 멘토들이 (비대면, 일방적인 짝멘토임 ㅎㅎ) 하는 우아한 고민들과 github에 있는 수 많은 Awesome-repository들의 내용들에 비하면, 내가 하는 삽질들은 회사 외부에서는 이해하기 어려운 Specific 한 고민들이었고, 그 고민의 결과물과 해결책들 또한 아무도 알아주지 않는 것들이었다.

이제 와서 돌아보니 나는

  • 어떤 모델을 써서 데이터를 풀어야 할까,
  • 수백만개의 데이터를 어떻게 쿼리를 짜야 효율적으로 읽어 올 수 있을까,
  • 그 과정 중에서 전제하는 것은 뭐고 이것의 효과는 어떻게 수치로 볼 수 있을까.
  • 대시보드는 어떤 내용이 들어가야하고, 사용성을 어떻게 고민해야할까.

와 같은 고민을 하고 싶어했다. 그리고 이런 고민을 할때 너무 행복했고.

그러나 현실은 aws보다 typeform을, R보다 Notion을 더 많이 써야했고, 엉망진창으로 쥐어짜서 만든 것은 와아ㅏㅏㅏ 좋네요. 하고 끝인, 후속액션이 없는 공허한 메아리만 만들어 내는 시간들이었다.

아무도 내가 한 것들에 대해서 좋다, 안좋다, 어떤 부분은 어떻게 개선하면 좋겠다. 이런 부분은 이렇게 접근해봐도 좋을 것 같다 이런 이야기를 하지 않았고, (다시 한번, 대부분이 그럴 수 조차도 없는 상황이었고 이를 Blame 하지는 않는다) 이야기를 할 수 있는 사람들은 NFT, Web3 와 같은 “fancy” 한 것에 더 많은 흥미를 보였다.

이것들이 중요하지 않다는 것은 절대 아니니 오해를 하면 곤란하다.

다만, 이 회사는 데이터 업무가 급하지도, 중요하지도 않아서 데이터 직군을 필요로 하지 않았을 뿐이다.

내 기준에서는 큰모험 어쩌면 영웅병이었지만, 회사에서는 달랐던 것 같다.

회사 바깥 이야기

글쓰기로 부터 시작된 세상과의 연결

데이터 플랫폼을 만들때 데이터 사이언티스트데이터 엔지니어의 목소리보다 백엔드 개발자의 목소리가 더 우선되는 회사의 데이터 직군이, 회사 외부에서 만족을 찾으려고 했던 것은 너무나 자연스러운 행동 중 하나라고 생각한다.

진짜 이에 대해서는 할 이야기가 너무 많은데, 우리 고양이들한테 이미 너무 많이 하소연 했으니 더 이상 얘기 하진 않겠다.

나의 징징을 많이 둘어준 애옹이

나의 취미 중 하나는 읽기다. 비록 관심 있는 분야 (혹은 업무에 필요한 분야)에 대해서긴 하지만 아티클이나 , 이전만큼은 아니지만 논문도 가끔 읽었다.

사람에 따라 동의하지 않을 수도 있지만 많은 사람들이 글쓰기를 여러가지 이유로 권장한다. (교보문고에 글쓰기 를 검색하면 수많은 이유들을 볼 수 있다.)

처음에 내가 글을 쓴 것은 그 권장을 따라 내가 했던 일을 정리하고 돌아보는 목적이었다. 글을 지금도 계속 쓰는 걸 보니 효과는 분명히 있었던 것 같다.

그리고 시간이 지나면서 일기를 넘어서서 업무에 관련해서 공부한 개념들을 점차 점차 늘려가긴 했지만, 뭐랄까 우당탕탕이라는 기분에서 자유로워지진 않았다.

그러던 중 글또를 만나게 되었다. 글또에 관한 이야기는 많은 곳에 있다고 생각하기 때문에 굳이 쓰진 않겠다.

어쨌든 글또로 인해서 나는 “진짜” 데이터 직군의 사람들이 어떤 일을 하는지 읽을 수 있었고, 동시에 데이터라는 공통의 관심사를 두고 여러가지 글을 쓰고 을 보거나 스터디를 하는 등. 만족감을 어느 정도 채울 수 있었다.

https://www.facebook.com/groups/geultto

내년 상반기에 또 열리지 않을까 싶은데, 개인적으로는 정말 좋고, 개인의 성향에 안 맞더라도 한번 정도는 해보면 정말 좋을 경험이라고 생각한다.

아무튼 두기수에 걸친 글또를 한번도 빠짐 없이(내 스스로가 대견해…) 참여 하게 되었고 많은 사람들과 이야기를 하게 되었다.

그러다보니 PAP이나 힙데비와 같은 또 다른 커뮤니티로도 인연들이 이어졌고 Product Analytics나 데이터 “활용” 등 내가 마주하지 못했던 여러 방면으로의 경험들을 회사 밖에서 채울 수 있어서 너무 좋았다.

https://www.facebook.com/groups/talkinpap
힙데비! 진짜X3 챌린징했던 8주였다

나처럼 개인의 생각을 쓰는 것을 (귀찮지만) 즐기는 사람이 있는 만큼, 개인의 생각을 다른 사람들이 아는 것을 별로 선호하지 않는 사람들도 있다. 아예 쓰는 것 자체를 선호하지 않는 사람도 있다. 충분히 그럴 수 있다고 생각하고, 이는 옳다 / 그르다의 문제가 아닌 목적과 취향이야기라고 생각하기 때문에 철저하게 내 기준으로 글쓰기에 대한 생각을 풀어보고자 한다. (다시한번, 반박시 님말이 맞음)

글쓰기에 관한 뇌피셜

글쓰기는 쓰는 것에서 시작 되지만, 사람이 읽는 것으로 완성된다고 생각한다.

여기서 사람은 다른 사람이 될 수도 있고, 미래의 본인 이 될 수도 있다. 그리고 글을 읽은 사람에게 영향을 줄 수 있으면 효과적인 글이라고 생각을 한다.

위험하니 뛰지마세요 와 같은 경고글을 예시로 생각해보자.

이미 이전에는 뛰어서 사고가 발생한 경험이 있기 때문에, 이를 경험하지 않은 다른 사람들에게 전달하려는 목적이 있다. 그렇기 때문에 경고를 읽고 뛰지 않아 사고가 안생겼다면 그 목적을 충분히 달성한 글이라고 볼 수 있을 거다.

글쓰기의 목적은 글씨 연습 / 키보드 ASMR을 넘어서, 또 다른 사람에게 하는 비동기적 스토리텔링이라고 생각한다.(특히나 처음 썼던 글을 다시 한번 퇴고 하는 과정에서 “어마어마한 성장이 이뤄진다는 것”을 체감한다)

데이터를 풀어내야하는 사람에게 스토리텔링을 연습하는 것은. Jupyter Notebook 을 위시한 다른 방법들도 있지만 글쓰기는 그 중 가성비가 제일 괜찮은 방법이라고 생각한다.

번외로, 더 급진적으로 (…!) 스토리텔링 역량을 키우고 싶다면 컨퍼런스에 가서 발표 하는 것도 매우 좋은 선택이다. (경험담)

So what?

꽤 길지만. 어쨌든 내가 지난 1년 반 동안 이게 맞는지 아닌지 모르겠다에서 이건 아니다라는 것을 깨닫기까지의 과정을 훑어봤다.

그리고 이러한 생각을 하면서 그럼 도대체 뭐가 맞는 건데? 라는 고민을 하게 되었고. 맞는 건데 라는 질문을 조금 비틀어 뭘 하고 싶은건데? 라는 질문을 스스로에게 해야겠다는 생각을 너무너무너무 많이 느꼈다. 그리고 꽤 오랜 시간의 고민 끝에 얻은 결론은 이러하다.

나는 사람들이 데이터를 활용해서, 의미있는 결과를 만들어 내는 것을 좋아한다.

여기서 사람은 이기도 하고 다른 사람이어도 좋다.

그렇기 때문에 (내가 활용하는 것을 좋아해서) 여러가지 분석들을 했고,

(다른 사람이 활용할 수 있게 되는 것을 좋아해서) 데이터 교육을 했고,

(미래의 나를 포함한 불특정 사람들이 활용 하는것을 좋아해서) 여러 글을 쓰기도 했다.

(다른 사람이 실제로 활용 하게 돕는 것을 좋아해서) 춘식이라는 것을 개발하게 돕기도 했다.

나는 사람들이 데이터를 잘 활용하게 하는 것을 진짜 좋아했다.

데이터를 잘 활용하기 위한 조건

(그 당시엔 인지하지 못했지만, 동료들이 데이터를 잘 활용하는 것을 좋아해서) 데이터 플랫폼을 기획하며 수많은 리서치를 했고, 고민을 했는데 그 결과 중 일부는 이러하다.

데이터의 활용. 이라는 문구에 필요한 핵심요소는

  • 데이터를 사용해 하고자 하는 명확한 목표
  • 원하는 데이터를 잘 수집할 수 있도록 하는 방법 (로깅)
  • 데이터를 담아내고, 제공하는 인프라
  • (당연하게도) 잘 짜여진 데이터
  • 데이터를 해석 / 분석 할 수 있는 스킬
  • 데이터의 중요성을 아는 문화

라고 생각한다. 정확하진 않지만 데이터 기반 의사결정의 흐름 순서와도 조금 비슷해보인다.

땅불바람물마음 가사밖에 모름…

이러한 핵심 요소에 대해서, 거의 모든 기업이 원대한 목표는 있지만, (기가 막힌 데이터 팀이 있지 않은 이상) 수집이나, 인프라, 데이터는 기대하기 어렵고. 많은 사람들은 오히려 스킬에만 너무 집착하고 있다고 생각한다.

자주 하는 말이지만

데이터가 좋으면 Tensorflow가 아닌 엑셀로도 의미 있는 것을 만들어 낼 수 있다.

라고 말하는 만큼. 이중에서 데이터가 진짜X3 제일 중요하다.

아무튼, 내가 좋아하는 일을 하기 위해서는 목표를 제외한 나머지 4개가 있어야 한다는 의미로 나는 해석했다.

조금 더 나아가, 엉망진창이긴 하지만

  • 데이터 분석으로 phD를 땄으니 데이터를 해석, 분석 할 수 있는 스킬은 있다고 봐도 충분 할 것 같고
  • 선발팀에서 한길 사람속을 알기 위해 맨땅에 헤딩을 엄청 많이 했으니 수집에 대한 것도 어느 정도는 안다고 생각한다.

인프라와, 그 안에 잘 담겨 있는 데이터, 그리고 이를 존중하는 곳이 내가 가야 행복한 곳이었다.

이렇게 보니 데이터 사이언티스트라고 말을 해도 될 것 같다.

그건 내 사정이고…

돈 쓰는 것을 좋아한다고 은행이 돈을 마음껏 쓰세요 라고 주지는 않는 것처럼 데이터를 좋아하는 건 알겠는데, 그건 내 사정이다.

즉 , 회사에서 행복하고 싶으면 나 또한 회사의 행복을 채워 줄 수 있어야 하고, 역으로 회사가 나로부터 행복하고 싶으면 회사 또한 나의 행복을 채워줘야 한다. 그게 공정하다. (내 경우 데이터를 통해라는 단어를 붙여야 하지만 모든 직군에 대해서 동일하다고 생각하다)

그럼 나는 저 “꿈의 회사”의 어떤 부분을 채워줄 수 있을까?

다 잘할 수 있음 ! 이런 근거없는 빈말은 아무런 도움이 되지 않기 때문에, 나를 객관적으로 평가하기를 해보자.

선발팀에서 지원자를 평가할 때 가장 많이 했던, 그리고 가장 많이 할 수 밖에 없는 것은 그 사람의 과거의 행동과 결과물을 보는 것이다. (나한테는 마법의 소라고동이 없다)

나는 과연 어떤 것을 했을까?

회사에서의 업무를 기준으로

  • 데이터 과학 교육
  • 팀 빌딩
  • 구린 선발 프로세스 개선
  • 팀내 스터디 진행
  • 데이터 분석 프로젝트 (라이브러리 개발)
  • 데이터 프로덕트 개발 (춘식이)
  • 데이터 통합 기획 (현실로 만들어 내는 것은 실패했다)

외부에서의 활동을 기준으로

  • 데이터 분석 교육
  • 프로그래밍 교육
  • 글또에서 굿즈도 기획해서 귀한… 디자이너를 섭외해서 같이 만듬
  • 컨퍼런스에서 본 외부 사람들 직접 찾아가서 커리어 관련 인터뷰
  • Rconference의 발표자로 참여하면서 기라성 같은 분들에게 영감을 얻고
  • 여러 커뮤니티에서 많은 글을 쓰고, 읽고, 스터디 운영 및 진행
  • 병원이나 지자체와 협업해서 대시보드 개발
  • 다양한 교육에 참여 (수강생으로)

이러한 것들을 했는데, 확실히… 회사 업무보다 밖에서의 활동이 더 다양했고 재미가 있던 것 같다. 이래서 사람들이 부캐부캐 노래를 부르는 것 같기도 하고…

아무튼 들어간 시간들에 비해 이렇게 짧게 짧게 표현 되는 것이 아쉽긴 하지만, 업무던 외부활동이던 다른 사람이 시켜서가 아니라 전부 스스로 만들고, 찾아서 했다는 것에 감탄했고 (Ph.D는 고스톱쳐서 딴게 아니다 ㅋㅋ) 1년 동안 진짜 진짜 알차게 살았던 것 같아서 다시 한번 감탄했다.

나는 가치 없는 사람이 아니었던 것 같다.

Future

나는 앞에서 말했듯 사람이 데이터를 활용하게 할때 행복하다. 정확한 표현은 아니지만, 데이터를 활용할 수 있게 멍석을 깔아주는 사람이 되고 싶다. (인프라를 넘어서서) 그러나 동시에, 이러한 목적을 당장 이루기엔 어렵고 아직 채울 수 있는 부분이 많다고 생각한다.

  • 모바일, 웹페이지 등으로 부터 나온 “빅”데이터를 경험해 본적이 없다.

주식 투자의 이야기인데, 동일한 투자 기법을 가지고 있더라도 개인이 500만원을 굴리는 것과 연기금이 500억을 굴리는 스케일의 차이는 절대 무시 할 수 없다. 데이터도 마찬가지로 스케일로 인해 생기는 문제를 알고 모르고는 정말 중요하다고 생각하는데, 나는 데이터의 스케일이 클 때 어떤 문제가 생기는지 아직 알지 못한다.

  • 데이터 인프라를 활용해본 적이 없다.

위 이야기와 이어지는 내용일 수도 있다. SQL로 테이블을 통째로 가져와 R에서 dplyr로 작업을 하는 정도의 스몰데이터를 다뤄본 것은 데이터 인프라를 활용했다고 하기에는 많이 부족하다.

하둡, 빅쿼리 등을 활용해야만 하는 정말 정말 “큰” 데이터를 다뤄본 적이 없는 것은 스스로를 걱정하게 하는 부분이다.

  • 극히 일부분의 데이터만 경험했다.

유전체 데이터라는 대학원 경험과, 설문 & 문항이라는 코드스테이츠의 경험을 통해 숫자텍스트라는 비정형데이터까지는 해봤지만, 그 외의 이미지오디오, 시계열 혹은 GIS 등 이를 넘어서는 다양한 범위의 데이터는 다뤄보지 못했다.

물론 모든 비정형데이터를 다뤄야 할 필요는 없고, 시간이 주어지면 적응 해낼 수 있다고 생각은 하지만. 그럼에도 불구하고 못해본 것과 얕게라도 해본 것의 차이는 크게만 느껴진다.

  • 데이터 직군과 협업 해본적이 없다.

데이터 사이언티스트는, PM이나 개발자, 디자이너등 다양한 포지션에 비해 혼자 일하는 시간이 조금 더 많을 수는 있지만, 결과를 공유하는 의사결정권자만 협업이 필요한 것은 절대 아니고, 다른 데이터 분석가, 데이터 엔지니어와 같이 협업이 있어야 한다. 아쉽게도 조직에는 데이터 직군이 없었고, (왜 없었는지는 뒤늦게 알았지만) 당연히 이러한 기회가 없었다. 입사할 때부터 적어도 데이터 분석 관련해서는 코드 리뷰를 많이 기대했었기에 이 부분은 많이 아쉽다.

결국 나의 채울 수 있는 부분들은 데이터 팀이 있는 곳을 가면 많은 부분이 시간과 함께 해결 될 수 있는 문제라고 생각한다.

Hello 2022

코드스테이츠 슬랙에는 다양한 문구가 떠돌고 있는데, 그 중 하나는 Work is life이다. 이에 동의하는 사람도 있고, 아닌 사람도 있겠지만 개인적으로 어느 정도는 되면 좋은 말이다. 정도로는 생각한다.

아무튼, 내 work는 지금 당장 조직에 필요하지 않은 것이라는 결론을 위에서 냈고. 이 문구에 의하면 내 life 또한 동시에 두리뭉술해진 것 같다. 속상해.

2022년에 나를 필요로 하는 곳을 찾기도 중요하지만 그 이전에, 마음의 고향 울산에도 한번 가고, 회사가 아닌 진짜 스스로와 고양이를 온종일 돌아볼 수 있는 주말도 가지며 인생에서 처음으로 쉬고 싶다.

이상 겨울 날씨만큼 차갑지만 맑은 회고 끝.

--

--