본문 바로가기
읽기

벌거벗은 통계학 / 찰스 윌런

by mubnoos 2021. 2. 1.
728x90

복잡한 세상을 꿰뚫는 강력한 생각의 도구

 

1그램의 정보가 1톤의 의견보다 무겁다!

 

  • 미적분 수업 시간이 괴로웠던 이유는 수학 탓이 아니었다. 누구도 미적분이 어떤 중요한 의미를 가지고 있는지 제대로 설명해주지 않았기 때문이다.
  • 통계는 DNA테스트에서 어리석은 복권 놀이에 이르기까지 모든 것을 설명하는 데 활용될 수 있다.
  • 무한급수란 일정한 패턴에 따라 무한히 지속되는 수열을 의미한다.
  • 무한한 것을 합하면 유한한 무언가가 된다.

 

 

1장 진실, 거짓, 그리고 탐정

  • 지니계수는 한 나라 안에서 부 혹은 소득이 얼마나 공평하게 나뉘었는지를 0에서 1사이의 숫자로 표시한다.
  • 다만 비교를 위한 도구이다. 만약 한 국가 내의 모든 가구가 동일한 부를 소유하고 있다면 지니계수는 0이다. 반대로 어느 국가에서 한 가구가 그 국가의 모든 부를 소유하고 있다면 지니계수는 1이 된다. 어느 국가의 지니계수가 1에 가까울수록 부의 분배는 더욱 불평등한 상태이다.
  • 미국의 지니계수는 0.45이다.
  • 데이터는 단순히 지식의 원재료일 뿐이다.
  • '미지의 세계'를 추론하기 위해 '알려진 세계'에서 나온 데이터를 사용하는 것이다.

 

 

 

 

2장 메이저리그, 역대 최고의 야구선수는 누구일까?

  • 평균은 이탈값에 민감하다.
  • 중앙값이나 평균은 둘 다 계산이 어렵지 않다. 중요한 것은 특정 상황에서 '중간'을 측정하기 위해 어떤 방법을 사용할지 결정하는 것이다.
  • 표준편차: 데이터가 평균에서 얼마나 흩어져 있는지를 나타내는 척도이다. 다시 말해 관찰값들이 얼마나 널리 퍼져 있는 가를 평가한다.
  • 백분율은 유용하지만 우리를 혼란스럽게 만들 가능성이 있고 심지어 속이기까지 한다.
  • 백분율의 변화는 항상 다른 무언가에 비례한 상대적인 가치이다. 그러므로 비교대상이 무엇인지 잘 파악해야 한다.

 

 

3장 숫자의 함정, 사실을 왜곡하는 아주 교묘한 거짓말들

  • 거짓말에는 세 종류가 있다. 거짓말, 새빨간 거짓말 그리고 통계 - 마크 트웨인
  • 정밀성과 정확성의 차이점
    이 두 단어는 서로 바꾸어 쓸 수 없다. 정밀성은 우리가 무엇인가를 얼마나 정교하게 표현하는지를 의미한다. 통근 거리를 설명할 때 '66.9km'는 '약 60km'보다 정밀하고, '약 60km'는 이른바 '더럽게 먼 길'보다 정밀하다. 당신이 가장 가까운 주유소가 얼마나 멀리 있는지 물었을 때 내가 동쪽으로 2.035km 떨어져 있다고 말한다면 이는 정밀한 대답이다.
  • 정확성은 어떤 수치가 진실과 전반적으로 얼마나 일치하는지를 재는 척도이므로, 정밀하다고 해서 정확하다고 착각하면 위험하다. 답이 정확할 때는 정밀성이 높을수록 더 좋다. 하지만 아무리 정밀해져도 부정확한 것이 정확해지지는 않는다.

 

 

4장 넷플릭스는 내가 좋아하는 영화를 어떻게 찾아낼까?

  • 상관계수는 -1에서 1사이에 있는 숫자이다. 상관관계가 1인 경우 흔히 완벽한 상관관계라고 말하며, 이는 한 변수가 변할 때 다른 변수도 다른 변수도 같은 방향으로 동등하게 변하는 것을 의미한다.
    반대로 상관관계가 -1인 경우는 완전한 음의 상관관계라고 말하며, 이는 한 변수가 변하면 다른 변수가 반대방향으로 동등하게 변하는 것을 의미한다. 
    상관관계가 1이나 -1에 가까울수록 연관성이 커진다. 상관관계가 0이거나 0에 가까우면 SAT점수와 신발사이즈의 관계처럼 변수 사이에 의미 있는 연관성이 없다는 뜻이다.
  • 상관관계가 인과관계를 내포하지 않는다. 

 

 

5장 보증 기간 연장에 돈 쓰지 말라

 

 

 

5½장 몬티 홀의 딜레마 _ 염소와 자동차는 어디에 있을까?

 

 

 

6장 국제 금융 시스템을 망쳐놓은 확률의 달인들

  • 통계는 그것을 사용하는 사람들보다 더 똑똑할 수 없다.
  • 확률은 실수하지 않는다. 확률을 사용하는 사람들이 실수할 뿐이다.

 

 

7장 쓰레기를 넣으면 쓰레기가 나온다

  • 데이터의 조건
    1. 모집단을 대표하는 표본
    2. 비교가능한 것
    3. 없음 '그냥' - 언젠가 이 정보가 쓸모 있을 때가 오리라고 짐작할 뿐이다.
  • 긍정적인 연구 결과는 부정적인 연구 결과보다 출판될 가능성이 높다.

 

 

8장 슈퍼스타, 통계학의 르브론 제임스를 기억하라

 

 

 

9장 왜 교수님은 내가 부정행위를 했다고 생각했을까?

  • 통계는 어떤 사실을 확실히 입증하지는 못한다. 통계적 추론의 힘은 입증하는 데 있는 것이 아니라, 어떤 패턴이나 결과를 관찰한 뒤 확률을 이용하여 가장 그럴듯한 원인을 찾는 데 있다.
  • 통계만으로는 뭔가를 입증할 수 없다.
  • 모든 통계적 추론은 명시적이든 암묵적이든 귀무가설null hypothesis과 함께 시작된다.

 

 

10장 여론을 보다 정확하게 파악하는 방법들

  • 제대로 추출된 표본은 모집단과 비슷하다는 것이 기초적인 통계 원리 중 하나다. 여론조사의 진짜 도전 과제는 다음의 두 가지다. 알맞은 표본을 찾아 연락하는 것, 그리고 대표 집단의 의견을 그 집단에 속한 사람들의 생각을 정확히 반영할 수 있는 방식으로 끌어내는 것이다.

 

 

11장 데이터를 분석하는 기적의 만병통치약

 

 

 

12장 명백한 데이터 앞에서도 논리를 잊지 말라

  • 회귀분석은 두 변수 간의 상관관계만을 말해준다.
  • 회귀분석을 할 때는 언제나 설명변수가 종속변수에 영향을 미칠 뿐 종속변수는 설명변수에 영향을 미치지 않는다는 것을 확실한만한 근거가 있어야 한다.

 

 

13장 하버드에 가면 정말로 인생이 바뀔까?

 

 

 

 

 

mubnoos

728x90