야구를 조금이라도 볼 줄 아는 사람들은 야구에 통계가 얼마나 중요한 역할을 하고 있는지 잘 알고 있을 것이다. 예를 들어 사람들은 시즌 타율 2할 5푼을 기록하는 타자가 타석에 들어설 때 다소간 긴장의 끈을 놓곤 하지만, 3할을 기록하는 타자가 타석에 들어서면 무언가 일어날 것을 기대하며 손에 땀을 쥐곤 하는 것이다. 그 두 타자 사이에 존재하는 차이는 단 5%의 안타 확률이다. 그 확률은 꽤나 작아 보이지만, 놀랍게도 사람들의 시선을 바꾸고, 경기의 승패를 바꾸며, 두 선수의 인생을 바꿔버리기에 충분한 확률이다.
타율(AVG), 타점(RBI), 홈런(HR), 다승(W), 방어율(ERA), 탈삼진(K) 등의 수치가 사람들을 열광시키기 시작한 지는 100년이 넘는 시간이 흘렀지만 (주 : 위 언급한 수치들은 투타 삼관왕을 언급할 때 평가되는 성적들이다) 그 이외의 수치들에 대해 주목하기 시작한지는 그리 오래되지 않았다. 정확히 말하자면 세이버매트릭스(Sabermatrix)의 아버지 격인 빌 제임스(Bill James)가 1977년부터 매년 자비로 "The Bill James Baseball Abstract" 를 발간하기 시작한 게 일반적으로 알려진 그 시작이다.
(주 : 이전에도 여러 사람들이 이에 대한 직간접적인 연구를 진행하긴 했으나 빌 제임스만큼 가시적인 성과를 내진 못 했었다. 그런 의미에서 빌 제임스는 세이버매트릭스계에서는 경제학의 애덤 스미스와 같은 존재라고 말할 수 있겠다)
물론, 그의 노력이 대중적인 관심으로 이어지기까지는 오랜 시간이 필요했다. 전문가들 사이에서 세이버 매트릭스가 널리 알려지기 시작한 것은 2002년 오클랜드 애슬레틱스의 빌리 빈(Billy Beane) 단장이 그의 이론을 받아들여 적은 비용으로 기록적인 성적을 기록했을 때이며, 보다 대중적으로 알려지게 된 계기는 2011년, '머니볼(Money Ball)'에서 브래드 피트가 열연을 펼친 이후가 되겠다.
(주 : 영화 머니볼은 2003년에 발간된 원작 "Moneyball: The Art of Winning an Unfair Game" 을 기반으로 한다. - 물론 두 작품 모두 2002년 오클랜드 애슬레틱스의 경이적인 성적을 기반으로 만들어졌다 - 개인적인 평을 달자면 영화에서 느꼈던 분위기와 책의 분위기는 사뭇 다르므로 책을 보고 영화도 찾아보는 건 좋지만, 영화를 보고 책을 찾아보는 건 그다지 추천해주고 싶지 않다)
세이버 매트릭스(Sabermatrix)를 쉽게 말하자면 말 그대로 야구 통계학이다. 각종 기록을 분석하고 적절한 추정량을 설정하여 각 선수에 대한 가치를 평가하고자 하며, 더 나아가 선수 개개인 및 팀의 성적까지도 예측하고자 하는 통계학의 응용 분야 중 하나이다.
이를 전문적으로 파고들어가면 일반 대중은 이해하기 힘든 복잡다난한 수치와 공식들이 수도 없이 튀어나오게 되는데, 우선 이 글에서는 영화 머니볼(Money Ball)(2011)의 배경이 된 2002년 오클랜드 애슬레틱스의 사례를 통해 일반인들도 쉽게 이해할 수 있는 간단한 기초적인 추정량들을 설명하여 그 등장 배경과 장점을 알아보고자 한다.
영화 머니볼(2011) 中 |
2002년 당시 빌리 빈 단장이 세이버 매트릭스에 주목하게 된 이유를 살펴보면 오늘날 경제학자들이 문제를 해결하기 위해 사용하는 접근방식과 굉장히 유사하다는 것을 알 수 있다. 오클랜드 애슬래틱스는 시즌을 앞두고 팀 내에서 아주 중요한 역할을 하던 많은 선수를 떠나보내야 했다. 빌리 빈은 그들을 잡고 싶었지만 양키즈나 레드삭스와 같은 빅마켓구단들과의 머니게임에서 이길 수는 없었다. 기본적으로 애슬레틱스는 스몰마켓 구단이다. 많은 돈을 투자할 여력도 없으며 투자해 봐야 수익률이 그다지 좋지 않다. 팀 성적에 관계 없이 관중 동원 능력이 늘 비슷하기 때문이다. 이는 양키즈나 레드삭스와 크게 대조되는 부분인데, 그들의 경우 성적에 따라 관중 동원 능력이 크게 차이나고, 이는 곧 수익률과 직결되므로 매우 중요한 문제가 된다.
영화 머니볼(2011) 中 |
그렇다면 빌리 빈 단장이 해야 할 일은 주어진 한정된 예산으로 최대의 성적을 내는 방법을 찾는 길이었다. 이는 경제학자들의 '주어진 예산 제약 하에서 최대의 효용을 추구하는' 방식과 매우 유사하다. 세이버 매트릭스는 그 방법을 찾기 위한 도구로서 활용되었다. 일차적으로 주목해야 하는 부분은 해당 선수가 얼마만큼의 가치를 지니고 있는가였다. 그 다음으로 주목해야 하는 부분은 현재 보유하고 있는 선수단 중에서 가치 이상으로 연봉을 받고 있는 선수가 누구인지, 그리고 다른 팀 혹은 웨이버 공시 중인 선수들 중에서 가치 이하로 연봉을 받고 있는 선수가 누구인지 파악하는 것이었다. 그래서 과대평가된 선수를 팔아치우고 과소평가된 선수를 사들인다면 적은 비용으로도 충분히 좋은 성적을 낼 수 있다는 것이 기본 발상이었다. 그렇다면 어떤 기준을 들어 과대평가와 과소평가를 가려낼 것인가?
팬들은 스타에 열광하고 그러므로 스타는 비싼 몸값을 받을만한 가치가 있다. 팬들은 왜 스타에 열광하고 그의 플레이를 보기 위해 기꺼이 돈을 지불하는가? 그것은 스타가 응원하는 팀에 승리를 가져다주기 때문이다. 그러므로 스타를 영입한다는 것은 곧 승리를 영입하는 것과 같다.
(주 : 이와 같은 발상으로 등장한 개념이 WAR인데 이에 대해서는 다음 기회에 설명하도록 하겠다)
따라서 스타를 영입할 수 없다면 그 대신 승리를 만들어줄 수 있는 선수를 영입하여 그 선수를 새로운 스타로 만들면 된다. (그리고 그 선수를 발굴해내어 키워낸 후, 팔아서 돈을 벌 수 있다는 건 보너스!) 그렇다면 어떤 선수가 승리를 가져오는가? 득점을 최대화하고 실점을 최소화해주는 선수가 승리를 가져올 것이다. 이를 위해서 2002년 당시 세이버 매트릭스에서 주목했던 부분은 바로 출루율과 장타율이었다. 지금부터는 조금은 전문적인 이야기를 시작해보고자 한다.
출루율(OBP)은 해당 타자가 루상에 출루할 수 있는 확률을 말하는데, 일반적으로 0.400을 넘어가면 훌륭한 출루율을 기록하고 있다고 말할 수 있다. 출루율이 중요한 이유는 득점이 출루로부터 출발하기 때문이다. 올해 추신수의 출루율을 들어 설명하자면, 0.412의 출루율은 (** 2013/08/21까지의 성적 기준) 그가 아웃되지 않고 루상에 나갈 확률이 41.2%란 이야기다.
(주 : 사족을 좀 붙이자면 메이저리그 단일 시즌 역대 최고 출루율은 2004년 배리 본즈(Barry Bonds)(신이 되고자 금지 약물에 손을 댔던 초인)의 0.609)
장타율(SLG)은 해당 타자가 얼마나 멀리 칠수 있는지를 나타내는 지표다. 장타율은 총 루타 수를 타수로 나눠서 계산하는데, 산술적으로 최소 0.000부터 4.000까지의 수치를 지닐 수 있다. 일반적으로 0.500을 넘어가면 훌륭한 장타율을 기록하고 있다고 말할 수 있다. 올해 추신수의 장타율을 들어 설명하자면, 총 447타수(AB)에 들어서 197루타(TB)를 날렸다 ( ** 2013/08/21 까지의 성적 기준 ; 계산법 : Total Bases = 1루타*1 + 2루타*2 + 3루타*3 + 홈런*4) 그러므로 장타율은 TB/AB = 0.441이 된다. 이 스탯이 중요한 이유는 루상에 출루한 주자가 홈까지 들어와서 득점하기 위해서는 멀리 쳐내는 능력이 중요하기 때문이다.
(주 : 또다시 사족을 붙이자면 메이저리그 단일 시즌 역대 최고 장타율은 2001년 배리 본즈(Barry Bonds)의 0.863. 이 시즌이 73홈런으로 단일 시즌 최다 홈런 기록을 세운 시즌이다.)
출루율과 장타율을 합치면 대중적으로 널리 알려진 OPS라는 스탯이 나온다. (OPS = OBP + SLG) 추신수의 2013시즌 성적을 가져와 마지막으로 정리하자면 0.412+0.441 = 0.853이란 수치가 도출된다. (** 2013/08/21 까지의 성적 기준) 일반적으로 OPS의 경우 10할(1.000)을 넘어가면 굉장한 성적을 내고 있다고 평가한다.
(주 : 마지막 사족. 메이저리그 역대 최고 OPS 기록은 2004년 배리 본즈(Barry Bonds)가 가지고 있다. 무려 1.422)
(주 2 : OPS는 초창기적인 개념으로, 이후 wOBA, wRC, wRC+ 등의 조금 더 정교화된 추정량이 등장했으나 이에 대한 계산은 훨씬 더 복잡하므로 설명을 나중으로 미뤄두기로 하겠다)
기존에 타자들을 평가하는 주요 기록은 타율(AVG), 타점(RBI), 홈런(HR)이었다. 그 수치가 높게 나타난 선수들은 좋은 연봉을 받았고, 그렇지 못 한 선수들은 상대적으로 낮은 연봉을 받아야만 했다. 세이버 매트릭스에서는 그 수치들 대신 출루율과 장타율, 그 중에서도 특히 출루율에 더욱 주목함으로서 적은 예산으로 최대의 득점을 올리는 데 주력했다. 출루율은 높지만 타율이나 타점이 낮아서 좋은 평가를 받지 못 하던 선수들을 적극적으로 영입하여 주전으로 기용했고, 타율, 타점이 높지만 출루율과 장타율이 낮은 선수들은 트레이드 카드로 활용하여 출루율이 높은 선수들을 영입해왔다.
타자들을 평가하는 주요 지표가 출루율과 장타율이었다면 반대로 투수들은 얼만큼 적은 주자를 루상에 내보내느냐가 중요 지표가 될 것이다. 그래서 세이버 매트릭스에서 주목했던 부분이 바로 WHIP이다. WHIP는 쉽게 말하자면 이닝 당 출루 허용률로, 1이닝을 소화하면서 몇 번이나 주자를 루상에 내보내느냐를 말한다. 일반적으로 1.00 언저리에 있으면 훌륭한 WHIP를 기록하고 있다고 말할 수 있다. (안타, 볼넷, 사구로 인한 출루만 인정되며, 실책으로 인한 출루는 계산하지 않는다.) 류현진의 2013시즌 성적을 이용하여 설명하자면, 류현진은 1.22의 WHIP를 기록하고 있는데, (** 2013/08/21 까지의 성적 기준, 메이저리그 35위) 이는 1이닝을 소화하면 평균적으로 1.22번 출루를 허용한다는 이야기다.
(주 : 참고로 라이브볼 시대 이후 - 1920년 이후 - 단일 시즌 역대 최저 WHIP 기록은 2000년 페드로 마르티네즈(Pedro Martinez)(라고 쓰고 외계인이라고 읽는다)의 0.74)
다승(W)이나 방어율(ERA)의 경우 투수 개인의 능력도 중요하지만 그보다는 어느 팀에 있느냐에 따라 같은 투구에도 달라질 수 있는 기록이다. 공동생산물(Co-product)의 성격이 강하게 존재하기 때문이다. (물론 이는 타자의 타점(RBI) 역시 마찬가지다) 득점 지원이 많은 팀의 경우 많은 점수를 내줘도 많은 승리를 거둘 수 있었을 것이며, 수비가 좋은 팀에서 투구할 경우 타자한테 많이 맞아나가더라도 더 적은 득점을 허용했을 것이다. 예를 들어 2012시즌 한화 류현진의 경우 결국 10승을 기록하지 못 했지만 그가 10승 이상을 기록한 다른 팀 투수들(e.g. 2012시즌 골든글러브 투수)에 비해 부족하다고 평가하는 사람은 아무도 없다. 방어율 역시 한화가 아닌 다른 팀에 있었다면 훨씬 더 낮은 성적을 기록했을 거라고 생각하는 사람이 상당히 많다. 따라서 다승과 방어율은 투수 개개인을 평가하는 데 완벽한 지표가 될 수 없다.
(주 : 여기서 언급한 WHIP 역시 굉장히 초창기적인 지표로, 이후 더 발전된 개념으로 FIP( ** 흔히 말하는 조정방어율), xFIP, BABIP 등이 고안되었으나 이는 훨씬 복잡한 계산을 요구하므로 설명을 후일로 미뤄두기로 하겠다)
하지만 2002년도 당시만 해도 다승과 방어율이 투수의 가치를 평가하는 데 굉장히 중요한 역할을 하고 있었고, 그렇기에 세이버 매트릭스의 기준으로 저평가 받은 선수들이 많이 있었다. 애슬레틱스는 그런 선수들을 적극적으로 영입하여 적은 비용으로 투자 대비 좋은 성적을 거둘 것을 도모하였다. 그리고 그 결과,
영화 머니볼(2011) 中 |
2002 시즌 아메리칸 리그 성적표 (출처 : mlb.com) |
이는 발상의 전환이 큰 변화를 만들어낸 대표적인 사례였다. 지금까지 사람들이 높은 타점과 많은 홈런에 열광하고 그 선수를 보기 위해 기꺼이 돈을 냈던 이유는 궁극적으로 그 선수가 소속 팀에 승리를 가져다 주기 때문이었다. (물론, 몇몇 선수들의 경우 그렇지 않은 경우도 분명히 있지만 대부분의 선수들은 그렇다) 이는 투수들 역시 마찬가지였다. 그렇다면 승리에 대한 기여도가 연봉 계산에 가장 중요한 역할을 해야 하는 게 마땅한데(** 세이버매트리션들이 이를 나타내주는 추정량으로 고안해낸 것이 바로 WAR이다) 지금까지는 그렇지 않고 표면적인 지표들에 의존하여 선수들의 연봉이 과대 혹은 과소평가 되고 있었다는 것이다. 오클랜드의 2002년 성공은 그 헛점을 제대로 짚고 들어가서 메이저리그 전 구단이 깜짝 놀랄만한 거대한 파장을 만들어 냈다.
오클랜드가 세이버 매트릭스를 이용하여 큰 이슈를 만들어낸 후, 메이저리그 각 구단에서는 그동안 경시해오던 세이버 매트리션들에 대한 시각을 뒤집었다. 대표적으로 보스턴 레드삭스에서는 아얘 세이버 매트릭스의 아버지 빌 제임스를 고문으로 모셔오는가 하면, 빌리 빈에 대한 직접적인 스카웃을 시도하기도 했다. 그 결과 2004년, 1920년부터 이어져 오던 밤비노의 저주를 깨고 월드시리즈 우승을 차지하게 된다.
영화 머니볼(2011) 中 "야구계의 편견과 고정 관념을 까뭉갤 수 있는 사치도 누리게 해주지" -보스턴 구단주 役- |
또, 세이버 매트릭스에 대한 관심이 이어지면서 많은 세이버 매트리션들이 등장했다. http://www.fangraphs.com/ 는 이러한 세이버 매트리션들이 모여서 만들어진 곳인데, 여기서는 어떤 추정량이 개별 선수들에 대한 정확한 가치를 평가해 주는지, 또 어떤 추정량을 고안 해야 앞으로의 성적을 정확히 예측할 수 있는지, 수많은 고민과 토론을 통해 그 답을 구해가고 있다. 세이버매트릭스에서 아직 완벽한 답이란 존재하지 않으며, 각각의 세이버매트리션들마다 각자의 목적을 위해 서로 다른 방법을 이용하여공통의 목표를 향해 나아가고 있다. 또, 최근에는 선수의 나이, 경기를 치른 구장의 특성(파크팩터), 소속 팀의 수비 수준 등 굉장히 여러 가지 요인들이 가미되어, 조금 더 정교화되고 있는 추세다.
(** 주 : 추정량 계산에 가중치와 같은 개념이 들어갈 때 가중치 설정이 모두 주관적일 수밖에 없기 때문에 같은 지표라도 서로 다른 값이 도출되기도 한다)
정리하자면, 위에서 본 바와 같이 세이버매트릭스(Sabermatirix)는 수집된 기록을 바탕으로 하여 적절한 추정량을 고안해냄으로서 1. 선수 영입 및 트레이드에 적절한 정보를 얻으려는 목적 2. 선수 가치 계산을 통해 적절한 연봉을 책정하려는 목적 3. 정교한 추정량을 개발하여 개별 선수 및 팀 성적에 대한 보다 정확한 예측치를 구해내려는 목적 등을 위해 활용되는 통계학의 응용분야이다. 빌리 빈 단장이 오클랜드의 잊지못할 2002년 스토리를 써낸 이후로, 구단주와 야구 전문가들 사이에서 뿐만이 아니라 일반 대중에게까지 널리 알려져, 야구를 보는 재미를 한층 더 가미시켜주는 큰 역할을 하고 있다고 할 수 있겠다.
p.s. 그동안 서너 달 정도 개인적으로 방황 기간을 겪으면서, 경연 활동에 제대로 참여하지 못 한 점 대단히 죄송하게 생각하고 있습니다. 이젠 다시 마음을 다잡고 성실하게 활동에 임하도록 노력하겠습니다.