그것이 알고 싶다. DM
DM.
만약 DM이 Diabetes Mellitus 라고 생각하셨다면, 당신은 경기도 오산입니다. 네 맞습니다 저번 달의 저에게 하는 말입니다.
저는 페북, 인스타 혹은 트위터와 같은 SNS를 하지 않습니다. 그래서 DM이 Direct Message라는걸 몰랐습니다. 별로 부끄럽진 않습니다.
갑자기 전국아싸자랑대회에서 송해 선생님이랑 수상소감 토크 하는 것 처럼 이러한 얘기를 하는 이유는, 최근 코드스테이츠 사내 메신저에서 있었던 이야기를 재구성하기 위함입니다.
사건의 요약은 이러합니다.
- 사내 DM 줄이자.
- 사람들이 말을 듣고 DM을 줄인것 같다. 고맙다.
이 이슈가 왜 중요한지에 대해서 먼저 잠깐 얘기를 했으면 좋습니다.
코드스테이츠를 지탱하는 core value에는 여러가지가 있습니다만. 그 중 하나는 연봉 빼고 모든 정보는 오픈 할 수 있어야 한다로 표현 할 수 있는 Transparency입니다.
즉 자신이 직접 연관 되어 있지 않은 업무라고 해도, privacy의 이슈가 없다면 전 크루들에게 공유 하는것을 기대하는 문화이죠.
이런 의미에서 DM은 상당히 큰 “Anti” core value입니다. 이에 대해서 개인적으로 이 DM이 악의 근원이라고 까진 생각하지는 않지만, 점차 줄여나가야 한다는 것에는 동의합니다.
마치 배라의 스푼처럼, 필요하지만, 없어도 크리티컬한 지장은 없고, 너무 많아지면 문제가 되어버리는 딱 그런 정도의 이슈라고 생각합니다.
다시 돌아와서, 위의 쓰레드는 모두에게 상당히 해피엔딩한 디즈니식 영화가 될 수 있었지만, 매사에 의심을 하는 Data Scientist를 권장하는 저로써는 뭔가 좀 석연찮았습니다.
심성이 삐뚤어져서 그렇습니다. 미안해요 PJ님
특히 가장 제 의심병을 도지게 했던 부분은 아래의 피규어 입니다.
위 그래프는, 슬랙 메신저에서 각 channel 별 ( public, private, DM ) 메시지 퍼센트를 시간에 따라서 그린 차트 입니다. (주기적으로 왔다 갔다 하는 이유는 주말 때문입니다.)
그래프 상으로는 분명히 줄어 들은 것 같긴 한데, 7월 이전의 데이터를 보면 그렇지가 않았습니다. 오히려 7월에 극단적으로 DM이 늘어난게 아닐까 싶었습니다.
역시, 제 그래프깎이 짬에서 나오는 바이브는 틀리지 않았습니다.
정말 유의하게 줄어들었을까? 아마 확실 하진 않지만, 아닐 것 같다 라는 생각이 들었고 싱글벙글한채 원본 데이터를 주워다가 분석해보기로 했습니다.
여기서 잠깐, 개는 똥을 끊을 수 있지만, 저는 R을 끊을 수 없었습니다.
Python을 가르치는 입장이지만,
그건 안 쓰고 R로 분석을 하다니 이 얼마나 모순된 상황이지 않겠어요?
하지만, 익숙하지 않은 것을 어거지로 쓰면서 스트레스를 받는 것보다는
정말 꼭 필요한 이유 (크롤링처럼 R로 하면 구린것)가 아닌 이상 익숙한 R을 통해 분석을 했습니다.
원본 데이터는 추후에 private한 부분을 마스킹 처리 후, 회사와의 상의를 통해 오픈 할 수도, 안 할 수도 있습니다.
제가 슬랙을 통해서 얻을 수 있는 데이터는 2종류가 있었습니다.
하나는 가칭 “member data” 입니다.
이는 workspace에 속해 있는, 크루들에 대한 통계치로
- Name : 이름, ex) 김진환
- What.I.Do : 상메, ex) 아맞다시프티
- Account.type : 슬랙 계정 타입, ex) admin / member
- Account.created : 슬랙 계정 생성일
- Days.active : 조회 기간 동안 슬랙을 연 날 ex) 한달 기준이면 1 ~ 30
- Messages.posted : 조회 기간 동안 작성한 메세지의 수
라는 6가지로 이루어져 있습니다
두번째 데이터는 가칭 “Enterprise data” 입니다.
이는 workspace에 대한 전체적인 데이터를 포함하고 있으며,
- Total membership
- Full.Members
- Guests
- Daily.active.members ( + Weekly)
- Daily.members.posting.messages ( + Weekly)
- Messages.in.public.channels ( + Private / Shared / DM)
- Percent.of.messages..public.channels ( + Private / DM)
- Percent.of.views..public.channels ( + Private / DM)
- Files.uploaded
- Messages.posted.by.members
- Name
- Public.channels..single.workspace
- Messages.posted
- Messages.posted.by.apps
- 로 총 14개의 데이터로 구성되어 있습니다.
대체로 데이터 이름을 통해서 아 이 데이터가 뭘 나타내겠구나 하는 건 알 수 있습니다만, 전부가 그렇진 않았습니다.
다시 생각해보니 데이터에 대한 설명은 제가 하는 것보다 slack 의 공식 문서를 참조하는게 더 좋을 것 같다는 생각이 듭니다. (사실 몇 데이터는 뭐하는 데이터인지 아직도 이해하지 못했습니다, 머쓲)
분석할 데이터가 준비 되었으니,
어떤 인사이트를 확인 하고 싶은지를 정해야 할 시간입니다.
물론 저는 당연히 최근 한달간 DM이 줄었을까. 를 확인 하고 싶었습니다. 이는 사실 엄밀히는 member data로는 확인을 할 수 없었기 때문에 Enterprise data만 들여다 보면 되는 일이었지만 아시다시피 member data가 훨씬 작기 때문에 괜히 member data를 먼저 들여다 보았습니다.
옥상에 널어놨던 빨래가 비를 맞을 것 같습니다.
데이터 전처리를 포함하여, 이후의 내용은 2부를 통해 작성하도록 하겠습니다.