본문 바로가기
읽기

보이스 캐처 / 조셉 터로우

by mubnoos 2022. 10. 3.

 

“구글은 사용자가 고른 단어, 음성 패턴(속도, 크기, 고조, 발음, 강약), 동작, 표정, 신체 특징, 몸짓 언어 등에 있는 특징을 탐지하여 사용자의 감정 상태를 추론한다. 만일 누군가 어떤 물건이나 서비스에 관한 이야기에 흥분하면 구글은 청자가 가진 감정 반응을 신호로 사용해 그 순간에 그 사람에게 적합한 상품 정보를 제공할 수 있다.”

 

 

 

 

 

서문|가장 중요한 생체정보: 목소리

ㆍ당신이 가진 목소리는 독특하다. 다른 누구와도 다르다. 그런 목소리를 내는 사람은 오직 당신만 있기에 당신의 목소리는 말할 수 없이 소중하다. 당신이 가진 목소리를 노리기 위해 탄생한 음성인식 산업에도 말이다. 기업은 사람들이 말하고 소리 내는 방식을 수집하는 새로운 정보 산업을 육성하느라 어마어마한 자원과 획기적인 신기술을 투입한다. 여기에는 음성이 생체정보라는 인식이 깔려 있다. 말하자면 업계 종사자들은 당신의 신체 일부를 활용해 당신이 누구인지를 즉각적이고 영구적으로 식별하고 평가할 수 있다고 믿으며, 기업은 성대에서 나는 소리와 어투를 분석해 사람의 감정, 정서, 성격에 관한 정보를 얻는 방법을 개발 중이다. 머지않아 그들은 체중, 신장, 나이, 인종 등 과학자들이 음성에서 드러난다고 믿는 개인적인 특징들을 알아낼지도 모른다. 그렇게 당신의 가치를 책정하고, 그 평가에 기초애 제품을 보여주고, 다른 사람들보다 더 높거나 낮은 할인가를 제시한다. 또 당신이 도움을 원할 때 다른 사람들보다 더 적극적이거나 소극적으로 응대하기도 한다. 기업은 음성 데이터를 활용해 전례 없이 강력한 방식으로 소비자를 차별화하는 시스템을 구축하고 있다. 그런데도 소비자가 자신의 잠재적 위험을 파악하게 해주는 규제와 안정장치는 아직 제대로 마련되지 않은 상황이다. 

 

ㆍ기업은 사람들이 음성인식을 안면인식에 비해 쉽게 내줄 수 있는 생체정보라고 여긴다고 봤지만 우리는 날마다 진행 중인 음성 수집의 윤리적 문제들을 생각해봐야 한다. 우리는 음성 비서와 나눈 대화를 기업이 저장하는 것을 허용해야 할까?

 

 

ㆍ음성인식 산업의 네 가지 기업 전략

1. 개인화의 소용돌이

2. 길들이기식 감시

3. 습관화

4. 체념

 

ㆍ정체성 데이터와 행동 데이터를 결합한 조직은 그렇지 않은 조직을 앞지를 것이다. 

 

규칙에 복종시키는 방식이 아니라면 인간의 행동을 어떻게 규율할 수 있을까? - 피에르 부르디외, 아비투스

 

 

 



1장|우리를 길들이는 AI 비서의 확산

ㆍ한 가지 분명한 사실이 있다. 아마존은 알렉사가 넘길 어마어마한 양의 데이터에 대해 사람들이 걱정하길 바라지 않는다. 아마존은 고객들에게 휴머노이드와 깊은 유대감을 맺도록 했고 집뿐 아니라 자동차, 호텔, 가게 등 어디에서나 기꺼이 알렉사를 이용하게 했다. 이는 결코 우연이 아니다. 길들이기식 감시 전략은 부드러운 여성 목소리로 말하는 알렉사가 이런저런 질문을 해대는 외판원이 아니라 도움을 주는 친구 같은 존재라고 고객에게 주입하고 있기 때문이다. 

 

ㆍAI 알고리즘의 진짜 놀라운 기능은 현상이 아무리 복잡하더라도 충분한 데이터와 컴퓨터 계산 능력만 있으면 기본 패턴을 찾아낼 수 있는 것이다. 

 

ㆍ시리는 2003년 방위고등연구계획국이 비영리 연구기관인 SRI 인터내셔날에 연구비를 지원해 가상 비서를 만들게 한 것이 시초였다. 말하자면 국민 세금으로 기술 개발을 지원한 것이다. 

 

ㆍ"사람의 마음을 움직이는 성격을 만드는 데 그렇게 다채롭게 정의된 매개 요소나 정교한 표현력이 요구되는 건 아닙니다. 사실 아주 피상적인 처리만 해도 개성을 드러내는 데 충분히 강혁한 효과를 낼 수 있어요."

 

ㆍ기업마다 사용하는 재료는 달랐지만, 음성 비서의 성격을 만드는 기본 조리법은 모두 같았다. 우선 음성 비서에 사람 마음을 끄는 인격을 부여한다. 그다음엔 음성 비서에 사용자 데이터를 관리할 능력을 부여하고 사용자가 원하는 일이 되도록 막힘없이 성공적으로 돕게 한다. 마지막으로는 음성 비서를 기기에 장착하여, 업계가 마찰 없는 혜택이라 부르는 미끼로 사용자를 유인하고 될 수 있으면 많은 곳에서 다양한 음성 데이터를 거두어들이게 한다. 

 

 

 




2장|음성 데이터는 얼마나 강력한가

ㆍ음성인식 연구자는 이미 그들이 음성으로 그 사람의 신원, 체형, 나이, 계층, 특정 질병, 특정 감정 및 성격을 식별해낼 수 있다고 주장한다. 또한, 그들은 음성만이 아니라, 말 내용으로 패턴을 이해하는 법을 개발했으며 심지어 때와 장소에 어울리는 음성과 말로 우리를 설득할 수 있다고도 단언한다. 

 

ㆍ구글과 아마존이 가진 의도를 유추하려면 이들 기업이 음성인식 기술이 가진 미래를 통제하기 위해 획득한 특허를 살펴보면 된다. 그 문서는 기기가 사용자 음성을 통해 특수한 개인 데이터를 지속해서 얻고 사용하는 방법에 관한 내용으로 처음부터 끝까지 점철돼 있다. 

 

ㆍ음성 인증에는 다양한 방식이 있겠지만 기본은 같다. 우선 디지털 녹음으로 독특한 음성 특징을 감지하는 음성 모델을 만든다. 그 특징은 말의 리듬, 톤, 속도만이 아니라 화자의 자음과 모음 소리에 반영되는 비강 길이와 형태 같은 성대 특징과도 관련되다. 이 모델은 쌍둥이도 구별하고 목감기에 걸렸거나 훌쩍거리는 소리를 내도 인식할 수 있을 정도로 탄탄하다. 

 

체중이 더 나갈수록 남자는 약간 더 높은 목소리가 나고 여자는 약간 더 낮은 목소리가 난다. 이런 변화는 체중이 호르몬 수준만이 아니라 성대의 특정 치수에 영향을 미치기 때문이다. 연구자는 음성 주파수만으로도 5세 아이의 체중을 어림짐작할 수 있다. 

 

ㆍ통계학적 연구는 음성의 어떤 특징은 사람 키도 7.7센치 오차 내에서 어림짐작 할 수 있음을 보여주었다. 키 큰 사람은 대체로 성대도 더 길고 폐도 더 크기 때문에 목소리가 다르다. 

 

ㆍ음성은 그 사람의 심장 박동 수치도 나타낸다. 그 이유는 아마도 아드레날린 수치 같은 스트레스 증세와 관련이 있을 것이다. 

 

ㆍ음성은 주변 환경을 반영하기도 한다. 예컨대 연구자는 누군가가 움직이면서 말하는지 아니면 정지 상태로 말하는지를 알 수 있다. 

 

ㆍ다크 데이터는 기업이 일상적인 활동을 하면서 수집, 저장했지만 현재는 사용하지 않는 데이터입니다. 

 

ㆍ구글은 음성으로 이윤을 얻는다는 사실을 인정한다. 구글은 개인정보 처리 방침에서 자세한 설명은 피하지만, 자사가 사용자의 '음성 및 오디오 정보'를 분석하여 모든 종류의 상업 광고 활동을 위한 프로파일 작성에 사용할 수 있다고 명시해두고 있다. 

 

ㆍ당신은 음성인식이 하는 판단이 옳다고 생각한다. 

 

 

 



3장|일상에 파고든 음성인식

ㆍ많은 미국인들에게 아마존 프라임 데이는 AI 스피커의 습관이 시작된 날일 것이다. 아마존은 특히 프라임 데이를 활용해 국내외의 가정마다 알렉사 음성 제품을 들이도록 했다. 

 

ㆍ음성인식 기기들의 정착지

1. 집

2. 자동차

3. 호텔

4. 교실

5. 소매업

 

ㆍ아마존과 고글, 두 기업은 고객을 두고 치열하게 경쟁하지만, 공동의 사회적 목표를 위해 서로 협력한다. 사람들이 음성인식 기기를 사도록 유인하고, 기기에 의한 감시를 우려하지 않도록 안심시키고, 언제 어디서나 자신의 음성을 넘기는 걸 습관화하도록 만들면서 말이다. 

 

 




4장|언론은 왜 호의적인가

ㆍ시리가 출시됐을 때 미국 미디어 반응은 트롤리누가 영국에서 발견한 것과 흡사했다. 미디어는 주로 편리함, 효율성, 오락성을 찬양하기 바빴다. 음성인식 기기를 통한 감시를 우려하는 산발적인 목소리는, 일각에서 하는 주장처럼 그리 심각한 문제가 아니라는 관련 기업의 모호한 장담에 파묻히기 일쑤였다. 이런 메시지 충동을 마주한 사람들은 이미 일상에서 필수 부분이 된 기업을 두고 언론이 외치는 부정적인 말에 아예 귀를 막아버렸는지도 모른다. 혼란으로 득을 보는 건 음성 수집 집단이다. 미국인들이 체념하는 심정으로 음성인식 기기를 습관화하도록 주요 언론이 부추기는 환경에서 신뢰라는 문제는 점점 사람들의 관심에서 멀어지고 있다. 

 

ㆍ알렉사는 거의 어디에나 전화를 걸 수 있지만 911은 제외다. 

 

 

 



5장|광고주들의 기대

Q: 신선한 과일이 있는 가장 가까운 슈퍼마켓이 어디야?

A: 여기서 0.8km 거리에 신선한 과일 코너를 갖춘 코스트코가 있지만 1.1km 거리에 있는 월마트가 방금 당신이 좋아하는 사과를 들여놓았습니다. 

 

ㆍ만일 라이벌 기업이 아직 키보드로 입력한 질문에만 최적화 작업을 한다면, 음성 질문에 맞추어 웹 페이지를 최적화할 경우 경쟁에서 크게 앞설 수 있을 것이다. 

 

ㆍ구글은 사용자가 고른 단어, 음성 패턴, 동작, 표정, 신체 특징, 몸짓 언어 등에 있는 특징을 탐지하여 사용자의 감정 상태를 추론한다. 만일 누군가 어떤 물건이나 서비스에 관한 이야기에 흥분하면 구글은 청자가 가진 감정 반응을 신호로 사용해 그 순간에 그 사람에게 적합한 상품 정보를 제공할 수 있다. 

 

 

 




6장|새로운 시대를 위한 제언

ㆍ음성 프로파일링은 새로운 초개인화 시대를 향한 관문이다. 

 

ㆍ앞으로 벌어질 수 있는 결과는 무궁무진하다. 이미 소득, 거주지, 인종과 성별 등 다양한 사실에 근거해 차별적인 제안과 기회를 얻고 있다. 음성 프로파일링은 우리에게 꼬리표를 다는 음험한 수단이다. 

 

ㆍ미래는 어떻게 실현될까? 그 모든 것은 사용자의 허용과 더불어 시작된다. 기업은 음성인식 기술로 고객을 길들이고, 이들 기술에의 습관화를 교묘히 활용하며, 개인화가 어떻게 작동하는지 정확히 설명하지 않음으로써 고객의 수많은 '동의'를 받아낼 것이다. 

 

ㆍ모든 걸 종합해보면 음성 기술의 발전은 현대 사회에서 개인의 자유라는 생각 자체를 헝클어트린다. 음성 기술을 판매하려면 지켜야 할 선택 및 자율성에 관한 규정이 지금은 한둘이 아니다. 하지만 아이러니하게도 음성인식 기술을 사용하렴녀 자신의 신체, 감정, 행동에 관한 귀중한 데이터를 그걸 활용해 당신 행동을 평가하고 통제하고 싶어 하는 기업에 넘겨 줘야만 한다. 

 

ㆍ1974년 제정된 사생활 보호법에 명시된 정당한 정보 활동에 관한 원칙

- 투명성: 개인에게 데이터 사용을 알린다. 

- 개인의 참여: 가능한 개인에게 동의를 받는다. 

- 구체적 목적 명시: 정보를 사용하는 목적을 말한다. 

- 데이터 최소화: 명시한 임무에 필요한 정보만 수집하고 그를 수행하는 일에 꼭 필요한 동안만 그 정보를 보유한다. 

- 사용 제한: 수집한 정보는 오직 그 수집 목적을 위해서만 사용한다. 

- 데이터의 질과 사실성: 정보는 정확하고 적절하게 적시에 수집되며 완전해야 한다. 

- 보안: 유출되거나 허가 없는 접근이 이루어지지 않도록 데이터를 보호한다. 

- 책임 및 감사: 원칙을 따르도록 직원과 협력업체 관계자를 교육한다.