데이터야놀자 2022 후기

후원자가 빵빵한 데이터 컨퍼런스

Jinhwan Kim
8 min readOct 15, 2022

비록 발표자로는 떨어졌지만… 참가자로 데이터야놀자 2022에 참여했다. 티켓팅 공지가 나자마자 했어서 나는 체감하지 못했지만, 티켓이 빨리 매진 되어서 좀 고생한 사람들도 있었다고 한 듯.

https://datayanolja.kr/

데이터야놀자는 “데이터를 다루는 모든 사람들의 축제 라는 모토로 매년 10월에 이뤄지는, 이번에 2년만에 오프라인으로 전환된 “데이터” 컨퍼런스이다.

컨퍼런스는 성수 메가박스 7층을 통으로 빌려서 진행되었고 (wow), 장소의 조명이 조금 어두운 분위기가 있긴 했지만, 꽤 그럴싸했다. (부티크가 이런 건가봄)

세션 진행장소는 리클라이너로 구성됐는데 (다른 곳은 전동식 리클라이너였고 사진 못찍음), 장점은 편하다. 단점은 자리가 적어서 인기 있는 세션은 중간 복도에 앉아야 했다 정도가 있는 것 같다.

아래 시간표처럼 생각보다 타임라인이 빡빡했는데 아무래도 더 많은 발표를, 제한된 2개의 공간에 넣으려다 보니 이렇게 된 게 아닐까 생각한다. (온라인이아닌 오프라인은 생각보다 대관의 문제가 골치 아프다)

공식적인 입장시간은 10시 40분부터였는데, 나는 10시 25분쯤 열려 있길래 먼저 들어갈 수 있었다. 그리고 널찍한 공간에 알차게 박힌 후원사 부스들이 이런 식으로 있었다.

사람도 많음

각 부스에서는 설문조사를 하면 소정의 굿즈를 ( / 스티커 / 쿠키등) 받아갈 수 있었다. 이전 인프콘 에서 늦었다가 줄 천년만년 기다려야 하는 경험이 있었기에 미리미리 여유있게 받으려고 했다. (미리 에코백 챙겨갔는데 잘한 듯)

굿즈+

  1. 아임웹 쿠키는 중간에 오다가 뽀사졌다…
  2. 데이터브릭스는 기모후드집업을 줬다 ㅎㄷㄷ.
  3. 엘라스틱 양말 귀여운 듯 ㅋㅋ
  4. 카카오, 한빛미디어, Class101, NIPA, 공공데이터 는 부스 / 굿즈 없었음

그리고 오전부터 시작된 행사이지만 식사 시간이 따로 없었던만큼, 중간중간 자유롭게 마실 수 있는, 다양한 음료들이 제공되었다. 진짜 대만족 (서브웨이 샌드위치도 있었는데 빠르게 소진되었다.)

발표 세션 요약

아무래도 하고 있는 업무가 업무다보니, 나는 상대적으로 연관이 적은 중간의 1시반~2시반 부분을 쉬는 시간으로 활용했고, 오전 타임을 기준으로 내가 들었던 내용은 이러하다.

아마 이후 영상 녹화본이 공개 될 것 같으니 해당 내용을 직접 듣는게 훨씬 더 권장 되긴 하지만, 각각에 대해 내가 기억나는 대로 대충 대충 요약하면 이러하다.

1. 3D printing + NeRF

  • 자율주행에서 Segmentation이 중요, 이를 위해 라벨링또한 어마어마한 비용이 들어감. 업계 형님 테슬라에서는 영상들을 엄청 모아서 3d 공간을 만들고, 이 안에서 라벨링을 함.
  • 비슷한 걸 해보고 싶었음. 단 너무 크게 할 수는 없으니 친구 동현씨가 엎드려 뻗쳐 하고 있는 이미지를 3d로 구현 하는 것을 목적으로 했고, 이를 위해 동영상 녹화후 이미지 캡쳐 기반으로 데이터 수집. 이후 NeRF 라는 내재적 모델링으로 어케저케 해서 피규어 만듬.
  • 좋은 파라미터 튜닝보다 데이터 수집과 전처리에 신경 썼을때 더 높은 퍼포먼스가 나왔음

2. DataLake (Databricks)

  • 데이터 레이크가 중요해짐. 특히 예측을 위해서 DW가 아닌 DL을 필요로 하는데 (이 부분은 동의하지 않지만) 두 개를 별도로 만들어두면 여러 문제가 생김.
  • Databricks에서 오픈 소스 툴 + 여러개로 만들어 놨으니 좋다 ! 써라 !
  • 추가로 미국 본사에서 근무하시던 개발자 분이 어쩌다 일정이 맞아서 와서 짧은 Q&A 해주셨음.

3. 에어테이블

발표 되게 잘해주셨는데 듣느라 사진을 못찍음
  • 에어테이블 = 구글폼 + 엑셀 + ERD 를 얇게 쓸 수 있는 좋은 툴.
  • Extension 포함한 여러 커스텀 가능한 기능들 있으니 굳이 개발 태우면서 스케일 크게 하지말고 작게 작게 써보는 것 추천.
  • 스케일 커지면 당연히 뻗으니 그땐 DB로 옮기는 것도 고려해보는 것이 필요.
  • 발표 진짜 잘하셔서 에어테이블에서 후원사로 발표하는 줄

4. 맛집 리뷰 정보 챗봇

  • 가짜연구소 에서 데이터 엔지니어링을 공부함. 겸사겸사 배운거 써보고 싶었음 -> 맛집 검색하면 결과가 나오는 챗봇을 만들자 !
  • GCP 좋음. API 있으면 크롤링 하지말고 API 쓰셈. 카카오톡 챗봇 말고 텔레그램 쓰셈.
  • 그리고 API 써도 크롤링 서버는 네이버 구글 카카오 한군데서 돌리지말고 터지는 경우 있을 수 있으니 별도로 만들어서 돌리는게 좋음 (그렇지만 나누자 마자 안터졌다고)
  • 이후 검색 결과를 챗봇으로 텍스트로만 쐈었는데 데이터 프레임을 이미지로 바꿔서 한땀한땀 깎아서 올렸더니 가독성이 좋아졌음.
  • 깃헙에 올려놨음
  • 발표 시작하자마자 동민좌가 샤라웃해줘서 놀램

이후 오후 세션에서 들은 내용은 이러하다.

마찬가지로 내 요약보다는 나중에 올라오게된 세션 영상이 훨씬 더 좋고 정확하다는 것을 다시 이야기 하고, 요약을 적는다.

5. Efficiency-Centric AI (쏘카 자동 운영)

  • AI를 비즈니스 운영에도 활용 할 수 있음. 쏘카의 경우 서비스의 성장으로 인한 운영 비용 문제를 풀기 위해 “자동화” 의 관점으로 이를 활용하는 중.
  • 기존의 Task-Centric은 비즈니스 문제가 생길때마다 데이터를 수집, 모델링, 배포 라는 과정들을 거쳐야 하는데 이러면 모니터링 / 관리가 어렵고, Task의 목적끼리도 유사할 수 있다는 어려움이 있음.
  • 그래서 모든 데이터를 하나의 Large dataset으로 두고, 하나의 모델로 모든 task를 풀도록 하는 design = Efficiency-Centric AI.
  • 이후 검증 + 운영 상에서도 좋았도고 함. 배포는 빅쿼리로 했음.
  • 도메인에 따라 극한의 퍼포먼스보다는 빠른 / 유연함이 중요시 되는 경우 이러한 방식도 나쁘지 않다고 생각함.
  • 아무래도 주제가 주제다보니, 저널 클럽 느낌이었다.

6. 프로덕트 분석가의 회고

  • 업계의 온라인에서 꽤 유명한 분 (글을 쓰는 이 날, 카카오 서버가 터진 바람에 브런치도 같이 터져서 미리보기는 안나옴)
  • 프로덕트 분석이 뭔지, 뭐하는지, 어떤 것들을 알면 더 좋을지 등의 개인적인 회고 내용 (회사 관련 내용은 잘렸다고…)
  • 역시 데이터 분석가는 고양이가 필수인 듯
  • 개인적 생각인데, 데이터 포지션 쪽의 주니어는 이 포지션의 장점 ! 밝은 면 ! 기술 활용 ! 등을 잘 이야기하고 시니어는 이 힘든 점 ! 한계 ! 사람 상대 ! 등을 주로 이야기하는 듯 하다

https://brunch.co.kr/@@m6q

7. 이벤터스

  • 이벤터스에서는 행사 지원을 위해 데이터 활용하고 있어요 ! 많이 사랑해주세요 !
  • 행사 참여자의 참여도를 올리기 위해 Engagement score를 자체로 구성해서 계산하여 고도화에 활용
  • 행사도 다른 업무들과 마찬가지로 목표를 설정하는 것이 제일 중요

이후 세션은 … 배고픔을 못 이기고 탈주 했기 때문에 생략

번외

  • 세션에 대해서는 개인적인 기대와 취향이 맞지 않는 세션들이 많았지만, 굿즈랑 간식을 많이 줬으니 괜찮은 것 같다 !
  • 나는 오전에 입장해서 굿즈를 많이 가져온 케이스, 그러나 만약 오후에 입장했고 세션 취향이 나랑 비슷하다면 이번 행사에는 아쉬움을 많이 느꼈을 듯
  • 대관 장소 + 오프라인 운영은 자원봉사자들이 했다고 표현 하셨지만 아주 스무스한 운영이었다고 생각함.
  • 나를 알아봐주는 분들이… 많아져서 놀랬음 ㅋㅋ
  • 하지만 동시에, 이러한 오프라인 컨퍼런스 행사에서 기존에 알던 지인이 아닌, 알지 못하던 사람과의 새로운 네트워킹을 하는게 가능할까…? 에 대한 질문은 꾸준히 드는 듯.
  • 데이터만큼 넓고 위아래 / 양옆으로 다양한 범위를 이야기 하는 주제도 없고, 동시에 데이터의 효과에 대해서도 극단적으로 갈리는 참 신기한 분야라고 생각한다.

--

--