인과관계란? 그리고 왜 중요할까?

Jinhwan Kim

7 min readOct 4, 2021

99%는 돈이다 돈.

데이터를 활용 하는 것의 목적은 뭘까.

진짜로 돈이다 돈. 부와 명예 그리고 애옹…

데이터를 통해 인사이트를 발견하여 비영리 재단 같은 곳에서 더 나은 세상을 위해 고민 하는 분들도 있으니 1%는 제외했다.

서론

그럼.

“데이터는 어떻게 돈이 될까?”

라는 질문 이전에, 생각을 조금 더 늘려서.

“어떤 것이 돈이 될까?”

라는 질문을 해보자.

어려우면서도 간단한 생각인데

“내가 돈을 지불해서라도 얻을 가치가 있는 것에 사람들은 돈을 쓴다.”

라고 나는 생각한다.

물론 사람마다 가치가 다르기 때문에, 어떤 사람은 대문짝 만한 종이에 파란 점 하나 그린 그림에도 수없이 많은 돈을 태우기도 한다. (공감못함 ㅎ)

데이터를 활용하여, 돈을 만드는 기업의 입장에서는 다른 사람 혹은 다른 기업들은 모르지만 나만 아는 그런 정보에 가치를 두게 될 것이다. 당장 내일 코스피 종가가 1% 올라간다 / 내려간다만 확실하게 알 수 있다면 많은 돈을 낼 투자자들도 널렸는걸.

데이터의 활용

아무튼 이러한 가치가 있는 대부분의 정보들은 -다.라는 일종의 Statement 이다. 조금 전의 예시를 들면 내일 코스피 종가는 1% 올라간다. 와 같이 말이다.

이를 자세히 보면 3가지로 구분 할 수 있는데,

내일

코스피 종가

1% 올라간다.

각각 어떤 조건에서, 무엇이, 어떻게 된다 이다.

이 쯤 되면 육하원칙도 슬그머니 꺼낼 수 있을 것 같다.

언제 누가 왜 어디서 무엇을 어떻게

이 중 언제, 어디서, 무엇을 은 어떤 조건에서로 합칠 수 있다.

누가는 무엇이 가 될 것이고, 어떻게 는 그대로 어떻게로 이어진다.

다른 예시를 들어보자.

어떤 사람들은 민초맛 호빵을 기꺼이 사 먹을 정도로 좋아한다.

이 문장 구조를 약간 바꾸면

민초맛 호빵은 어떠한 조건을 가진 사람들에게 잘 팔린다

로 바꿀 수 있다.

만약 호빵 대장 삼립에서 이 정보를 안다면. 지금쯤 호빵 공장에는 찐한 민초향이 날 것이다. 왜? 돈이 되니까.

결국 A이면 B가 C이다. 혹은 더 줄여서 A이면 B이다. 라는 인사이트를 아는 것만으로도 (잘 활용 할 수 있다는 전제하에) 많은 가치를 만들어 낼 수 있다는 것이다.

그리고 이러한 인사이트 발견을 위해서 데이터 (혹은 기록)을 활용하게 된다.

인사이트 발견의 어려움

대부분의 데이터는, 기록 그 자체 즉, 인사이트 발견을 위해 “설계” 되지 않았기 때문에 이러한 A 이면 B 이다 를 발견하기가 어렵다.

운이 좋아야. A 와 B가 같이 보이는 경향이 있더라 라고 하는 정도만 알 수 있다. (이를 상관관계로 봐도 좋을 것 같다.)

꽤 많은 상황에서 메커니즘을 이해하지 못한채로 응용을 하려하기 때문에 (특히 딥러닝) 이러한 “같이 보이는 현상”과, “유발한 현상”을 완전히 구분하지 못하여 잘못된 의사결정을 하게 된다.

사골처럼 자주 나오는 예시로 아이스크림과 상어가 있는데, 데이터를 봤더니 아래와 같은 그림이 나타났다. 그러니 상어로 인한 피해를 방지하기 위해 아이스크림 판매를 중지해야 한다.와 같은 의사결정을 한다면…

이 둘은 온도 라는 다른 요인에 의해서 영향을 받았다. 즉 A->B 가 아닌 C -> A & C -> B이다.

그렇다면 돈이 되는, A 이면 B이다 라는 인과관계를 확인하는 것은 어떻게 해야할까?

이에 대해선 나중에 다른 글에서 다루기로 하고.

대신 인과관계가 있는 것은 어떤 특징이 있는지를 알아보자

Hills Criteria 혹은 브래드 포드 힐 판정 이라는 특징들인데. (사람이름이다)

인과관계가 확실한 예시 (도라에몽 펀치좌)와 함께 알아보자.

Hills Criteria

Strength: 원인과 결과의 발생은 연관이 있다. 즉, 손이 아팠는데 거의 아플때마다 벽을 쳤었다면 이는 인과관계일 가능성이 높다.
Consistency: 장소, 샘플등에 관계 없이 일관된 결과가 나온다. 나 아닌 다른 사람이 다른 시간에 해도 똑같이 손이 아프다.
Specificity: 원인은 여러개가 아닌 하나의 결과를 유발한다. 즉, 내 손으로 쳤는데 옆 사람 손이 아프진 않는다.
사실 “어려운" 내용인데, 대부분의 원인들은 하나에만 영향을 주기보단 여러개에 동시에 영향을 주기 때문이다. (손으로 치면 어깨도 아플 수 있다.)
Temporality: 결과는 원인 이후에 발생해야한다. 즉, 아직 치지도 않았는데 손이 먼저 아프진 않다.
Biological gradient: 원인과 결과의 강도는 연관이 있다. 즉, 세게 때리면 더 아프다. (1과 비슷해서 헷갈릴 수 있다)
Plausibility: 원인과 결과 사이에 합리적인, 설명 가능한 메커니즘이 있어야 한다. 손으로 벽을 치면 작용 — 반작용 법칙 으로 내 손에도 벽이 입은 충격이 전해져서 아프다.
Coherence: 추정된 원인이 이전과 비슷하다면, 인과관계일 가능성이 높아진다. 개인적으로 이 내용은 뒤에 서술한 9번과 상당히 헷갈린다.
Experiment: 원인을 인위로 주어 실험 했을때 결과를 관찰할 수 있다.
이는 다른 의미로 “어려운” 내용인데, 실생활에서 아주 정밀하게 요인들을 통제하며 실험을 컨트롤 하는 것이 어렵기 때문이다.
Analogy: 이전의 지식, 가설들과 유사/일치 할 수록 인과관계의 가능성이 높아진다. 새끼발가락으로 문을 차면 충격으로 인해 아프다. 와 같은 유사한 지식들과 비슷한 결론을 낼 수 있다.

이처럼 9가지 기준이 있으니 나중에 데이터를 뜯어 봤는데 아 이게 인과관계인지 상관관계 인지 헷갈린다… 라고 하면 한번 체크 해보는 것도 좋을 것 같다.

2가지 더 알아두면 좋은 것이 있는데

첫번째, 이 브래드 포드 힐 선생님께서는 전염병학자였다. (어떤 상태에서 전염병이 활동하는지 역학적 증거를 연구하다보니 기준을 만듬)

2번째, 미국 공중보건국 (정확한 명칭은 조금 다르다)에서는 이 9가지 기준을 5가지로 압축했고 아래와 같다. 만약 원문에 관심이 있다면 12페이지 정도 짧은 내용이니 더 읽어봐도 좋다.