레모네이드 가게 같은 소규모 단체부터 글로벌 기업에 이르기까지 모든 비즈니스에는 데이터가 반드시 필요합니다. 그러나 데이터를 신뢰하기란 생각보다 쉽지 않습니다. ‘숫자는 거짓말을 하지 않는다’라는 말은 감정이 배제된 진실이나, 편견 혹은 오류가 없어 보이는 데이터에 대한 믿음을 반영합니다. 하지만 인공지능 프로젝트와 이를 실행하는 알고리즘은 사람이 직접 프로그래밍하기 때문에 일관적이지 않으며, 실수와 편견도 존재합니다. 기계는 인간처럼 즉각적으로 문제를 추론할 수 없기 때문에 더욱 그렇습니다.

그래서 ‘데이터 편향’을 인식하고 해소하는 것은 우리 사회를 지키기 위해 반드시 필요한 일이며, AI 기술의 급속한 성장에 따라 더욱 중요한 문제로 여겨지고 있습니다. 알고리즘은 사람들이 어디에서 거주하고 근무하는지, 돈은 얼마나 버는지, 어떤 의료적 조치를 받거나 받지 않는지 등 현실적인 결과를 수반하는 수많은 의사 결정에 이미 많은 영향을 미치고 있습니다.

그렇다면 데이터는 어떻게 오염될까요? 강력하지만 눈에 잘 띄지 않는 이러한 불완전한 요소에 대응하기 위해 어떤 조치를 취해야 할까요?

편향이 미치는 영향
문제 해결은 문제를 이해하는 것에서 시작됩니다. 지난 몇 년간 편향된 데이터가 적용된 사례는 무수히 많았습니다.

연구에 따르면 알고리즘을 채용한 모델은 다양한 방식으로 편향이 생길 수 있다고 합니다. 이력서 스캐닝에 사용되는 자연어 분석에서 음성 인식 및 인공지능 안면 분석에 이르기까지 여러 프로세스에서 발생할 수 있습니다. 고용 시장에서 알고리즘 모델에 대한 의존도가 지속적으로 높아지면서 발생한 다양한 결과는 여러 측면으로 편향된 고용 결과라고 할 수 있습니다.

아프리카계 미국인과 아시아인의 얼굴에서 매우 높은 오탐지 결과를 생성하는 경향과 개인 정보 보호 문제로 불안과 우려가 커지는 가운데 샌프란시스코는 미국 주요 도시로서는 최초로 안면 인식 기술을 금지했습니다.

2019년 한 연구에 따르면 환자를 치료하기 위해 미국 병원에서 널리 사용되는 알고리즘이 아프리카계 미국인을 조직적으로 차별했다고 합니다. 이러한 편향으로 아프리카계 미국인은 건강 상태가 비슷하거나 전반적으로 더 건강한 백인 환자에 비해 치료를 적게 받았고 지출한 총 병원비도 더 적었습니다. 이 알고리즘은 전년도에 발생한 의료 비용을 바탕으로 환자에게 ‘위험 점수’를 부과했습니다. 그러나 의료 시스템 내의 조직적 인종 차별이나, 흑인 공동체의 역사적 배경으로 인한 치료 연기 또는 거부를 반영하지는 않았습니다.

사례는 각기 다르지만 그 영향력은 명확합니다. 컴퓨터의 의사 결정에 ‘공정성’은 반영되지 않습니다. 편향은 다양한 방식으로 머신 러닝 모델에서 발생할 수 있으며 그중 일부는 사회적 편견을 반영하기도 하고 또 다른 일부는 특정 알고리즘이 가진 몇몇 단점에서 비롯되기도 합니다. 모든 모델 설계 단계에서 편향은 발생할 수 있으며 데이터의 수집, 큐레이션, 분석 등에서도 마찬가지입니다.

편향의 유형
모델 설계자의 암묵적 혹은 무의식적 편향은 설계 중인 모델로 너무나도 쉽게 옳습니다. 모델 설계자의 경험과 배경이 자신도 모르는 사이에 프로그램에 영향을 미치기 때문입니다. 이는 편향 없는 알고리즘을 구축하려는 과학자와 엔지니어의 영원한 숙제입니다.

‘표본 편향’은 모집단에서 선택한 무작위 데이터가 모집단의 분포를 정확하게 나타내지 않아 부정확한 통계 결과가 나오는 경우에 발생합니다.

‘시간 편향’은 모델이 시간이 지나면서 발생하는 변동 사항을 반영하지 않아 원래 알고리즘이 잘못된 결론을 내리기 쉬운 경우에 발생합니다.

훈련 데이터 과적용, 극단적 사례, 이상 값 등으로 생긴 다른 종류의 편향이 데이터에 영향을 주어 잘못된 결과를 도출할 수도 있습니다.

올바른 방향으로의 움직임
다행히도 데이터 편향의 심각성이 대두되면서 해결책을 찾고자 하는 많은 노력이 이루어지고 있습니다.

우선 모델을 구축하는 데이터 과학팀이 더 높은 수준의 다양성과 포용성을 갖고 이를 모델에 반영하는 것부터 시작해야 합니다. 인종과 성별, 계급, 그리고 지역에 대한 다양한 관점을 설계팀이 반영한다면 편향이 발생하는 빈도를 줄일 수 있습니다.

클라우데라는 데이터가 우리 사회에 줄 수 있는 영향력을 더욱 깊이 연구하고자 하는 개별 단체에게 투자하고 있습니다. 이는 보다 평등한 컴퓨터 모델의 미래를 만들고자 노력하는 데이터 중심 조직의 출발점이라고 생각합니다.

각 산업과 조직, 그리고 정부는 만연한 알고리즘 편향과 그 위험성에 대해 인식하고 프로세스를 재검토하고 있습니다. 앞서 언급한 차별적 의료 알고리즘은 환자의 치료 결과를 중점을 두어 데이터 제공자와 기업이 더 나은 성과를 내지 않으면 재정적, 법적, 문화적 처벌을 받도록 하고 있습니다.

2021년 4월 연방통상위원회는 편향된 알고리즘을 사용하여 자동화된 의사 결정을 내리는 기업은 연방법을 위반한 것이며 법에 따라 집행될 것이라고 발표했습니다. 법률적 영향력 외에도 잘못된 편향을 포함하는 것으로 보이는 모델을 설계한 기업은 사법기관이 기업의 구조적 문제를 찾기도 전에 고객이 다른 기업으로 떠날 수 있기 때문에 경제적 문제와 더불어 브랜드 명성의 손상을 각오해야 합니다.

2018년 프랑스는 모든 정부 알고리즘을 대중에게 공개하겠다고 약속했습니다. 마찬가지로 2018년부터 시행된 EU의 일반 개인 정보 보호법은 데이터 보호 및 개인 정보 보호에 대한 개인의 권리를 보장하고 있습니다.

미국에서는 알고리즘 편향을 줄이기 위해 2019년 알고리즘 책무성 법안과 소비자 온라인 프라이버시권 법안 등 여러 법안이 상정됐습니다. 경찰 정의법과 안면 인식 및 생체 인식 기술 사용 유예 법은 모두 법률 집행 기관의 안면 인식 기술 사용을 제한하기 위해 만들어졌습니다.

이러한 법안은 모든 이해관계자가 장기적으로 이를 준수하도록 합니다. 설계와 분석, 그리고 책임 단계에 추진력이 더해져 알고리즘 편향이 완화되거나 해소되는 데에 큰 도움이 될 것입니다.

젊은 세대의 데이터 활용 능력이 향상될수록 데이터 편향은 점차 해소될 것입니다. 아이들과 함께 저희 동화책을 읽으시면서 데이터의 중요성과 데이터 편향의 위험성에 대한 이해의 폭을 넓혀 주시기 바랍니다.