관리 메뉴

PC Geek's

미국 대선 결과를 인공지능이 맞췄고 사람 전문가가 틀렸다더니 본문

기술과 유행/빅데이터

미국 대선 결과를 인공지능이 맞췄고 사람 전문가가 틀렸다더니

관련 기사입니다.

'입'은 속였고 '손'은 정직했다.. 온라인 표심 읽는 빅데이터
서울신문 2016.11.12

  • "2016.4월 20대 국회의원 선거, 6월 영국의 유럽연합(EU) 탈퇴(브렉시트), 이번 미국 대통령 선거는 여론조사의 무덤"
  • "여론조사의 빈자리를 인터넷과 소셜네트워크서비스(SNS)의 빅데이터 분석이 대체할 것이라는 예측"
우종필 세종대 경영학과 교수
  • 현재의 여론조사는 다른 무엇보다 극소수 샘플에 의존하는 한계. 
  • 적은 샘풀과 조사 방식에 보완책이 있지만 보정에 그침.  그리고, 여론조사에서 자신의 의사를 제대로 밝히지 않는 ‘샤이 트럼프’ 현상
  • “유권자의 절대다수가 컴퓨터나 스마트폰으로 접속하는 온라인에서는 굳이 표심을 숨기지 않는다”
  • “이번 미국 대선을 두고 SNS를 분석한 결과 힐러리 클린턴이 도널드 트럼프를 이긴 적은 단 한 번도 없었다”
  • “빅데이터는 세대별, 지역별 지지율을 알아내기 어려운 만큼 전통적인 여론조사와 빅데이터가 공존하는 체제로 가야 한다”
  • “빅데이터도 다른 이슈로 인한 데이터 오류 등 부작용이 생길 수 있는 만큼 여론조사와 병행할 필요가 있다”
한규섭 서울대 언론정보학과 교수
  • 이번 미국 대선 투표 전 여론조사 결과를 취합하면, 클린턴이 약간 앞서는 것으로 여겨겼지만, 정직하게 답하지않은 숨은 표를 약간 가정하면 트럼프 우세.
  • 여기에, 주별 승자독식표를 취합하는 미국 대선의 특성이 결합돼, 클린턴은 총 득표수는 앞섰지만 선거인단 확보는 실패.
  • 샤이 트럼프 현상: 다수의 의견과 자신의 의견이 다를 경우 침묵
    의견을 표현하면 온/오프라인에서 소위 "극딜"을 당할 위혐을 느낄 때, 정치적 의견을 숨기다 투표장에서 행사하는 표. 우리 나라도 대립과 비난이 극심한 만큼 이것이 심한데 과소평가되었음.

소감.
  • 득표수 기준으로 해서 선거가 완전히 기울었다는 판정이 나오지 않고, 투표 결과 경합 후보의 득표수가 근소한 차이일 때는 선거 전 여론 조사와 출구조사는 신뢰도가 떨어진다는 것을 보여줌. 우리 나라는 2012년 선거부터, 다른 나라들은 요즘부터. 우리 나라가 인터넷과 인터넷 커뮤니티가 좀 빠르긴 하다.
  • 샤이 트럼프/샤이 토리 현상은 정말이고 모든 나라에 인터넷시대 전부터 있었음. 하지만 정당불문하고 제풀에 취한 사람들은 통상 무시. 이름을 저렇게 붙여서 그렇지 조금만 생각하면 이것은 인지상정이라고도 볼 수 있는데, 젊은 층에서는 모르거나 과소평가하고, 당 정책을 세우는 사람들은 구세대라 파악이 느림.
  • 샤이 트럼프현상은 온라인에도 있다. 지금은 "SNS자폭"이란 말까지 있으니 사람들이 온라인에선 쉽게 의견을 말하는 건 동서양이 비슷한 모양이다. 하지만 요즘은 페이스북과 구글도 실명사용을 반강요하고 있고, 온라인 활동 이력이 취업과 영업 등 경제생활에 갈수록 큰 영향을 주고 있다. 게다가 온라인상의 아바타를 자신의 일부라고 여기는 경향도 늘고 있어서, 얼마 안 가 온라인 여론 분석에서도 노이즈가 될 가능성이 있다. 하지만 온라인 매체는 아직 검색엔진에 걸리는 데이터는 실명이나 전화번호딱지가 붙어 있지 않으므로 오프라인과는 양상이 다르리라 기대해도 되지 않을까.
  • 빅데이터의 한계를 지목하지만, 요즘 쿠키와 정보제공동의를 받는 각종 이벤트를 활용한 정보가공과, 사기업들이 팔아온 합법 불법 개인정보, 그리고 앞으로 법의 뒷받침을 받아 익명화해 팔 정보를 얕보는 게 아닐까하는 생각이 들었음. 
  • 빅데이터 가공은 궁극적으로 이렇게 갈 가능성이 있지 않을까:
    1. 현실의 인물 A가 있음. 개인정보는 보호받음.
    2. 직접 캐내거나 유통되는 빅데이터를 모아 재구성해 만든 가상인물 B가 있음. 이 가상인물 프로파일은 익명화해 판매됨. 익명화의 정도는 정보의 가격과 직접 연관되니까 관건이 될 것 같다. 예를 들어 홍길동을 홍OO 로 할 지, OOO로 할 지라든가, 집주소를 기초자치단체(논현동이나 강남구)까지 할 것인 지 광역자치단체(서울시)까지 할 것인지라든가가 아닐까. 이런 쪽은 전혀 몰라서 대강 상상으로 적은 것이니 예로 적은 것을 신경쓰지 말고 패스.
    3. 기업의 정보처리 담당자는 B를 자유롭게 사고 팔고 취합해 가공할 수 있게 될 것임. 다른 경로로 입수한 정보, 예를 들어 해킹 후 밀매되거나 통신회사가 유출하거나 판매한 개인정보를 구입해 보정하는 것은 기술적으로 가능하겠지만, 현실의 인믈 A와 매칭한 자료를 생성해 보관하는 것은 금지(그런데, 적고 보니 이 짓을 이미 하고 있지 않나? 공개적으로는 각종 이벤트 하단에 깨알같이 적힌 정보제공 동의 체크박스를 통해서).
    4. A를 보유하고 B를 구입할 수 있는 국가기관은 둘을 링크할 능력이 있고, 법률에 예외처리받으려 하거나 음으로 만들려 할 것이다(우리 나라만이 아니라 아마도 모든 나라의 정보기관이 예산과 기술면에서 가능한 만큼 탐낼 것이다). 하지만 일반 용도로는 법률이 금지하고 법적 증거능력은 인정되지 않거나 특별한 경우에 제한적으로만 인정해야 관련 거래가 금지되지 않겠지.
    5. 회사나 조직은 구입한 정보를 그대로 사용하겠지만, 능력이 되면 한 번 구입한 B를 내부에서 업데이트하려 할 수도 있는데 그런 경우에는 A와 매칭할 키가 되는 것을 건드릴 지 모른다. 예를 들어 커뮤니티 ID나 닉(우리 나라는 회원 10만 명 이상 가입된 곳은 실명제로 가입받을 것이다. 중국같은 인권후진국만이 아니라 요즘은 선진국 정부도 비슷한 걸 하거나 추진하는 데가 있다더라), 이메일과 홈페이지 주소 등.
  • 익명화한 프로파일은 구체적인 정보를 많이 담을수록 현실의 사람에 대응시키기 수월해지는 문제점이 있음.
  • 인터넷 도덕을 높이려고 그러는지, 광고단가를 높이려고 그러는지 몰라도 계정 실명제를 요구하는 회사들이 늘고 있지만, 데이터 마이닝 기술이 발달하면 개인은 반대로 컴맹까지도 인터넷에서 본캐와 부캐를 자연스럽게 가지고 부캐는 마스크를 쓰게 될까? 지금은 현실 본캐, 인터넷 부캐라면 그 때는 현실 본캐, 휴대폰 대표 번호와 연결된 인터넷 본캐, 그리고 인터넷 부캐 말이다.


추가.

미국대선 SNS 오보, 여론조작 기사.

SNS 가짜 게시물에 낚인 사람들…"美대선 판도를 바꿨다"
MBN 2016.11.18

이번 미국 대선의 이야기.
그리고 세계 각국의 사례. 특히 개도국은 SNS를 인터넷 자체로 여기는 사람이 많아서 더 문제가 크고 SNS회사들의 책임이 큼.


이 글과 같은 분류글목록으로 / 최신글목록 이동
Comments
Viewed Posts
Recent Comments
Recent Posts