본문 바로가기
읽기

다크 데이터 보이지 않는 데이터가 세상을 지배한다 / 데이비드 핸드

by mubnoos 2024. 5. 7.

 

 

 

 

우리가 ‘모르는’ 데이터는 왜 ‘아는’ 데이터보다 치명적인가?

 

 

 

 

 

1부

 



1장. 다크 데이터: 보이지 않는 것이 이 세계를 만든다

 

ㆍ온갖 유형의 누락된 데이터를 통칭해 '다크 데이터'라 부른다. 다크 데이터는 우리가 볼 수 없게 숨겨져 있는데, 그 때문에 우리는 오해하고 틀린 결론을 내리고 나쁜 결정을 할 우려가 있다. 무지 때문에 판단을 그르칠 수 있다는 뜻이다. 

 

ㆍ다크 데이터와 암흑물질은 작동 방식도 비슷하다. 다크 데이터는 우리한테 보이지 않으며 기록되지도 않지만 우리의 결론, 결정, 행위에 막대한 영향을 끼칠 수 있다. 미지의 것이 숨어 있을 가능성을 우리가 알아 차리지 못한다면 그 결과는 참담하거나 심지어 치명적일 수도 있다. 

 

ㆍ이 책의 목적은 다크 데이터가 어떻게 그리고 왜 생기는지 파헤치는 것이다. 또 다크 데이터의 여러 종류르르 살펴서 그 각각이 발생한 이유도 알아본다. 또한 애초에 다크 데이터가 생기지 않도록 하려면 어떤 조치를 해야 하는지 알아본다. 다크 데이터가 숨겨져 있음을 알아차렸을 때 어떻게 해야 하는지도 알아본다. 마지막으로 우리가 충분히 영리하다면 때로 다크 데이터를 활용할 수 있다는 점을 살펴본다. 

 

ㆍ다크 데이터를 통해 누구나 이득을 얻을 수 있다. 

 

ㆍ'데이터 = 모든 것'

 

ㆍ우리는 측정되지 않은 데이터를 원한다. 

 

ㆍ상관관계란 간단히 말해 두 가지가 함께 달라진다는 뜻이다.  / 인과관계는 하나의 변화가 다른 하나의 변화를 유도하면 그 하나의 변화는 다른 하나를 변화시키는 원인이 된다고 한다. 

 

ㆍ다크 데이터는 보편적인 현상이다. 언제 어디에서든 생길 수 있지만 그 정의상 다크 데이터가 빠져 있다는 것을 우리가 모를 수 있다는 점에서 위험하다. 그렇기에 우리는 언제나 경계 상태를 유지하며 '뭐가 빠졌지?'라고 물어야 한다. 

 

 




 

2장. 다크 데이터 찾아내기: 우리가 모은 것과 모으지 않은 것

ㆍ데이터를 얻는 3가지 방식

1) 관심이 가는 모든 사람 또는 모든 것에 대해 데이터 수집하기

2) 모집단 내의 일부 항목에 대해서 데이터 수집하기

3) 조건 바꾸기

 

ㆍ수집된 데이터는 진실을 드러내어 새로운 세계를 조명해준다. 하지만 데이터 수집 전략은 인간이 고안하고 실시하며, 수집된 데이터도 인간이 해석하고 분석한다. 

 





 

3장. 다크 데이터와 정의: 알고자 하는 것이 정확히 무엇인가?

ㆍ모든 것을 측정할 수는 없다. 

 

 

 



4장. 의도하지 않은 다크 데이터: 말과 행동이 따로 놀 때

ㆍ어디까지 정확해야 하지? 측정은 무한정 정확할 수가 없다. - 누락된 자세한 값은 필연적으로 다크 데이터로 남는다. 

 

ㆍ요약은 필연적으로 다크 데이터를 만든다. 

 

ㆍ인간이니까 생기는 오류

 

ㆍ측정 도구의 한계

 

ㆍ데이터 세트를 통합할 때의 문제



 

 



5장. 게이밍, 피드백, 정보 비대칭

전략적 다크 데이터: 게이밍, 피드백, 정보 비대칭
게이밍: 빈틈을 이용해 이득을 얻다
피드백: 피드백이 데이터를 왜곡시킬 때
정보 비대칭: 중고차 시장에서 무슨 일이 일어났나


 

ㆍ규칙을 조작하는 것과 의도적으로 데이터를 만들어내는 것은 완전히 별개다. 

 

 

 

6장. 고의적 다크 데이터: 사기와 기만

사기의 세계: 핵심은 데이터 숨기기다

온갖 종류의 사기는 모두 정보를 숨기면서 벌어진다. 사기의 종류가 워낙 다종다양하다 보니 사기를 근절하려면 매우 다양한 전략이 많이 필요하다. 세부 기록을 일일이 힘겹게 확인하기(정교한 통계적 방법), 기계학습 및 데이터 마이닝 도구를 통해 비정상적으로 거래하는 전형적인 고객 행동 패턴을 모형화하기, 그리고 특정 종류의 거래가 발생할 때 경보 시스템 발동하기까지 온갖 전략이 필요하다. 다크 데이터에 관한 한 유념해야 할 교훈은 우리에게 이미 익숙한 것이다. ‘어떤 것이 사실이라고 하기엔 너무 좋아 보이면, 사실이 아닐 가능성이 크다.’ 아마도 진실을 숨기고 있을 것이다.

 

 

7장. 다크 데이터와 과학: 발견의 본질

ㆍ과학은 과정이다. 과학은 그저 이미 알려진 사실들의 모음이 아니다. 

 

ㆍ과학은 스스로 고쳐나가는 과정이다. 과학의 핵심은 예측을 데이터와 비교하여 검증하는 것이므로 제안된 이론이 사실과 다르다고 밝혀지면 조만간 기각되거나 수정된다. 

 

ㆍ과학의 자기수정 속성

 

ㆍ진실과 거짓을 구별하는 문제는 아득한 옛날부터 인류의 숙제였다. 정확한 답을 얻기 어려운 문제였기 때문이다. 하지만 데이터의 영역에는 유용한 전략이 하나 있다. 바로 데이터가 어디에서 온 것인지, 누가 데이터를 모았는지, 누가 보고했는지를 추궁하는 것이다. 

 

ㆍ'투명성'은 종종 다크 데이터, 최소한 사기와 속임수 사례에서 발생하는 다크 데이터에 대한 부분적인 해답으로 부각된다. 투명성이라는 개념의 요지는 공개된 것은 어떻게 돌아가느닞 알아보기 쉽다는 것이다. 


요약하자면 과학의 근본적인 과정은 관측된 데이터로 이론을 검증하여, 이론과 데이터가 불일치하면 해당 이론을 버리거나 수정하는 일이다. 하지만 우리는 불일치가 새로운 통찰을 줄 수도 있다는 것을 깨달아야 한다. 만약 이론과 데이터가 일치하지 않으면, 데이터에 오류가 있기 때문일 수 있다. 내가 이 책에서 꼭 전해주고 싶은 말이다. 데이터는 언제나 오류, 측정의 불확실성, 표본 왜곡, 그리고 다른 여러 문제점을 안고 있으며, 따라서 데이터 오류는 실존하는 가능성이라는 것이다. 그래서 과학자들은 정확한 측정 도구를 제작하고 정밀하게 통제된 조건하에서 측정하려고 온갖 노력을 다 기울인다. 측정 대상이 질량, 길이, 시간, 은하 사이의 거리, 지능, 의견, 복지, GDP, 실업, 인플레이션이든 다른 어떤 것이든 간에 말이다. 정확하고 신뢰할 만한 데이터는 제대로 된 과학에 필수적이다.

 

 

 

2부 다크 데이터에 빛을 비추고 이용하는 법

 

8장. 다크 데이터 다루기: 빛을 비추기

 

 

 

9장. 다크 데이터로 이득을 얻는 법 : 질문을 바꿔보자

 

ㆍ다크 데이터에 내포된 모호성을 거꾸로 이용하여 지식을 키우고, 예측을 향상하고, 더 효과적인 행동을 선택하고, 심지어 돈을 절약할 수도 있다. 그러기 위해 우리는 데이터의 일부를 전략적으로 무시하고 의도적으로 숨긴다. 

ㆍ시뮬레이션 : 일어났을 수도 있는 일

 

 

 

10장. 다크 데이터 분류법: 미로 속으로 난 길

 

ㆍ다크 데이터는 무한히 많은 방식으로 생길 수 있다. 우연히 생길 수도 있지만 의도적으로 만들어질 수도 있다. 때때로 사람들은 특정한 방식으로 내용을 표현하여 진리를 감추려고 한다. 경계심을 가지면 감춰진 진실을 찾아낼 수 있는데, 일반적으로 유용한 전략은 데이터를 다른 각도에서 보는 것이다. 

 

ㆍ미래는 다크 데이터의 명백한 원천이다. 미래는 미지의 땅이다. 언제든 뜻밖의 사건이 끼어들어 우리의 앞길을 가로막을 수 있다. 

 

ㆍ우리가 상상력을 키울 수만 있다면 지식을 쌓아 생활 조건을 향상시키고 데이터를 바탕으로 신뢰할 만한 예측을 할 수 있다. 하지만 조심스럽게 걸음을 내디뎌야 한다. 우리는 분석 대상인 데이터 전부를 알지 못하며 알 수도 없다. 데이터가 어디서 어떻게 수집되는지도 마찬가지다. 더군다가 우리가 무엇을 모르는지도 모른다. 우리가 모르는 것이 결정적으로 중요할 수 있기 때문에 우리는 한 가지 실수만으로도 상황을 잘못 이해하거나 틀린 예측을 할 수 있다. 

 

 

 

 

1부 다크 데이터는 어떻게 생겨나고 어떤 결과를 초래하는가

 

 


1장.
 


2장.
 


3장.
 


4장.
 


5장.
 


6장.
 


7장.
 
 
 



2부
다크 데이터에 빛을 비추고 이용하는 법


8장.
 


9장.
 

10장.