A/B 테스트에서 의미있는 효과 기준 (MDE)을 설정하는 방법

A/B 테스트의 가장 찾기 힘든 파라미터를 알아보기

Jinhwan Kim
10 min readFeb 14, 2022

Notice

이번 글은 제가 작성한 글이 아닌, Facebook에서 Product Growth Analyst로 계신 Dennis Meisner 님의 글을 허락을 받고 번역한 글입니다.

원문 How to set the Minimum Detectable Effect in AB-Tests 는 이 링크 또는 아래를 통해 확인 할 수 있습니다.

This article is not my own writing. but I translated Dennis Meisner’s article who works at Facebook as Product Growth Analyst (Thanks Again for Good article and Permission for translate)

You can read original article How to set the Minimum Detectable Effect in AB-Tests with this link or below.

(Image from Unsplash.com)

“이번 실험의 Minimum Detectable Effect Size는 어느 정도로 정해야 할까요?”

프로덕트 팀과 A/B 테스트를 진행하면서 겪게 되는 골치 아픈 부분 중 하나는 Minimum Detectable Effect (MDE) 값을 정하는 것입니다. 이 MDE라는 단어가 의미하는 것은 뭘까? 부터 이번 실험에 대한 값을 어떤 것으로 정해야 할까? 까지는 많은 헷갈림이 있죠.

이번 글에서는 MDE의 의미와 MDE의 실험 결과에 대한 영향 그리고 적당한 MDE 값을 설정하는 방법에 대해 다뤄보고자 합니다.

Minimum Detectable Effect 는 뭘까요?

역주) 최소 검출가능 효과라고 번역되기도 하는데요, 원어 그대로 사용하겠습니다.

A/B 테스트를 진행하며 얻어야 하는 최소 관측 수 (데이터 혹은 sample size)를 결정하기 위해서, MDE는 반드시 계산되어야 합니다. 동시에 A/B 테스트가 최소 관측 수만큼 진행되기 전까지는, 결과를 분석해서는 안되기도 합니다.

때때로 MDE는 단어의 의미 그대로 감지 할 수 있는 최소의 효과 (Smallest effect possible that can be detected)로 해석되기도 합니다. 그러나 만약 특정 실험의 Effect size가 (정해져야 하는) MDE 보다 작다면, A/B 테스트는 유의미한 결과를 만들어 낼 수 없고, 이는 실험이 false results를 만들어 낼 수 없음을 의미합니다.

MDE는 A/B테스트에서 감지할 수 있는 가능한 가장 작은 “효과”가 아닙니다.

A/B 테스트에는 여러 가지 “우연과 확률에 따른” 불확실한 요소들이 있습니다. 다행히 우리는 유의수준 (level of significance) 과 같은 파라미터를 통해 이 불확실을 어느 정도 제어 할 수 있습니다.

이 파라미터를 통해 실제로는 효과가 없지만, 실험에서 유의한 효과가 있다고 말할 수 있는 확률을 정할 수 있습니다. 실제로 A와 B에서 유의미한 효과가 없었음에도 통계적으로 (우연에 의한) 유의함은 확인할 수 있음을 고려하면, A/B 테스트는 effectMDE보다 작더라도 유의미한 결과를 만들어 낼 수도 있습니다.

또 다른 파라미터는 검정력으로 (level of power), 실제 유의미한 결과가 있을 때 이를 실험을 통해 유의미한 결과를 얻을 확률을 결정합니다.

역주) 이 둘은 AlphaBeta라고도 불리며 이해를 위해 아래의 그림을 첨부합니다.

from https://testview.wordpress.com/tag/significance/

유의수준(significance)과 MDE 를 통해 실험에 필요한 최소한의 샘플 사이즈를 결정 할 수 있습니다. 이를 고려하면 Minimum Detectable Effect의 정의는 아래와 같이 다시 표현될 수 있습니다.

MDE는 특정 확률로 탐지해야 하는 최소 효과 “크기”입니다.

문헌에서는 위 정의에 더 잘 맞는 Minimum reliably Detectable Effect라는 단어로 표현되기도 하는데요. 어쨌든 정리하자면 MDE는 실험에서 우리가 원하는 효과 크기 (effect size)는 아닙니다.

MDE가 왜 중요한가요?

이 질문에 대답하기 위해 한가지 상상을 먼저 해보겠습니다.

나사를 만드는 공장에서, 생산되는 나사의 50%가 저품질이라는 가설을 검증하고 싶다면 몇 개의 나사를 검사해야 할까요? 몇 개가 되든 간에 생산되는 나사의 2%가 저품질인지를 검증할 때보다는 적을 것입니다.

이 생각은 A/B 테스트에도 적용해 볼 수 있습니다. 우리가 확인하고자 하는 효과가 작을수록, 결론을 내기 위해 더 많은 수의 샘플을 수집해야 합니다. 그리고 더 많은 샘플은 실험 시간이 더 길어짐을 의미합니다. (우연히 나타날 수 있는 더 작은 차이를 확인하기 위해서는 더 많은 샘플이 필요합니다.)

MDE를 통한 리스크 및 비용 조절

A/B 테스트는 특정한 (기능, UI 등) 변경에 대한 비즈니스 리스크를 제어하는 방법입니다. 그리고 이 A/B 테스트에는 우리의 일부 고객(대조군)에게 조금은 덜 좋은 경험을 하게 하는 기회비용과 같은, 시간과 연관된 비용이 있습니다. 당연하게도 이 비용은 실험이 길어지면 길어질수록 더 증가합니다.

overpowered test

때때로 MDE를 너무 낮게 설정하는 경우, 우리는 실험에 쓰이는 돈과 시간이라는 비용을 낭비할 수 있습니다.

프로덕트 팀이 웹사이트에서 유망한 MVP를 테스트하고 있다고 상상해볼까요? 기능을 새롭게 변경하기 위해 구현하는 것은 어쩌면 사용자 전환율이 많이 증가하게 할 수도 있습니다. 이는 동시에 개발 작업에 수개월이 필요한 위험한 도전이기도 하죠. 이 경우, 팀에서는 개발에 들어가는 비용을 “뽑아내기 위해” 새로운 기능이 전환율을 5% 이상 높여야 한다고 가정해보겠습니다.

따라서 5%에 비해 낮은 MDE를 설정하는 것은 테스트의 근본적인 원인 (비즈니스의 근본적인 원인이기도 한 매출입니다)을 고려하지 않기도 했지만, 이 MDE를 확인하기 위해 테스트를 오랫동안 해야 하기도 합니다. (이 경우 overpowered 라고 표현합니다)

당연히 A/B 테스트가 유의미한 효과를 잘 감지 할 수 있는지에 대해서 통계적으로 잘 설정되어 있는지도 고려해야 하겠죠.

underpowered test

이번에는 전환율을 높이기 위해 웹사이트의 바로구매 버튼의 문구를 바꾸는 실험을 해본다고 가정해보겠습니다.

이번 실험에서는 전환율이 50% 이상 증가 했을 때 감지 할 수 있도록 A/B 테스트의 power를 설정했다고 가정해보겠습니다. 이제 테스트는 실제로 긍정적인 효과를 나타냈다고 하더라도 유의미한 결론을 내기는 어려울 가능성이 매우 높습니다. (25%의 상승이 있어도 50%라는 기준에 모자라 감지가 어렵습니다) 결국, 변경 사항이 차이를 내지 않는다는 잘못된 결론을 내리고 이전 버전의 바로구매 문구를 계속 사용하게 될 것입니다. (이 경우 underpowered 라고 부릅니다)

적당한 수준의 MDE

위의 예시들로부터 알 수 있듯, 적당한 MDE는 팀의 상황과 실험에 따라 크게 다릅니다. 그렇기 때문에 실험에 연관된 리스크와 비용, 예상되는 결과들로부터 고려해볼 수 있죠. (정해진 MDE 값은 없습니다!)

우리의 실험을 위한 MDE는, 실험을 위한 기능의 구현을 정당화할 수 있는 가장 작은 효과여야만 합니다. 물론 실험을 통해 더 많은 것을 배우기 위해 overpowered test를 만들 수도 있지만 이에 따르는 위험과 기회비용도 같이 고려해야 합니다.

정확한 수치는 어떻게 찾을 수 있을까요? 이는 간단한 ROI (return on investment) 계산을 통해 이뤄집니다. 아래의 매우 매우 간단한 상황을 고려해보겠습니다.

  • 팀에서는 고객이 여행 웹사이트의 결제에서 여행자 보험을 추가하도록 하는 MVP를 검증하고 있습니다.
  • 여행 웹사이트에서는 하루에 2,000개의 예약이 이뤄지고 있습니다. (연간 730,000건)
  • 여행자 보험의 예상 순이익은 사용자당 $3입니다.
  • 완전한 기능 구현은 (개발자의 150시간을 필요로 하며, 인건비를 시간당 $500 라 가정, 다른 기회비용은 제외합니다) $75,000의 비용이 필요합니다.

이러한 수치에 기반하여, 기능의 “손익분기점”을 넘기 위해서는 연간기준으로 약 25,000개의 보험을 판매해야 하며 이는 예약의 3.42% (25000 / 730000) 가 보험을 추가해야 한다는 계산을 할 수 있습니다.

보험 전환율이 실험의 주요 지표일 경우 3.42%가 합리적인 MDE가 될 수 있습니다. 이보다 낮은 값은 실험 기간이 늘기도 하지만 팀에 도움이 되지 않으며 (underpowered) 이보다 너무 높은 값은 기회를 놓칠 수도 있습니다. (overpowered)

요약

많은 A/B 테스트에서 파라미터는 실무상에서 표준으로 쓰이는 값들로 결정됩니다. 가령 유의수준은 (significance level) 95%, 검정력은 (power) 80% 등이죠. 이러한 “기본” 값을 맹목적으로 사용하는 것은 권장되지 않는 행동이지만 합리적인 값을 찾는 과정으로는 괜찮습니다.

아쉽게도 MDE에는 이러한 표준이 없기 때문에, 적절한 MDE 값은 뭘까? 라는 질문은 각각의 A/B 테스트에 대해 계산되어야 합니다. 이는 팀의 모든 구성원이 이러한 파라미터들의 의미와 이를 설정하는 방법들을 알고 있는 것이 더 중요하다는 것을 의미하기도 합니다.

때때로 실험의 기간이 먼저 정해지고 이에 맞춘 MDE를 결정해야 할 수도 있습니다. 실험을 일주일 혹은 특정 동안 하는 데에는 충분한 이유가 있을 수 있습니다.

그러나 이러한 관행은 실험을 over / underpowered로 만들어 비즈니스에 결국 더 큰 위험 혹은 기회비용을 초래할 수도 있습니다. 따라서 가능하면 비즈니스의 상황을 고려하여 먼저 MDE를 결정한 후, 샘플 크기와 실험의 기간을 MDE에 맞추어 설정하는 것이 권장됩니다.

--

--