보이지 않는 손의 하청망: 데이터 추출 거버넌스와 AI 가치 배분¶
케냐의 2달러 노동은 AI 안전의 생산 조건을 드러낸다¶
2023년 TIME이 보도한 케냐 Sama 계약 구조는 생성형 AI의 안전성이 저임금 데이터 정제 노동을 거쳐 생산되고, 그 노동의 책임과 보상이 하청망 아래로 내려가는 방식을 보여준다. 보도에 따르면 OpenAI는 ChatGPT의 유해성 완화 작업을 위해 Sama를 통해 케냐 노동자들에게 폭력, 혐오, 성적 착취, 자해 관련 텍스트 라벨링을 맡겼고, 노동자들은 시간당 2달러 미만을 받았으며, OpenAI는 Sama에 노동자 1인 작업 시간당 12.50달러를 지급했다. 이 사례는 생성형 AI가 산출하는 매끄러운 안전성의 하층에 정신적 위험, 낮은 교섭력, 계약상 분리, 원청 책임의 희석이 함께 배치되어 있음을 보여준다.
데이터 추출 거버넌스란 데이터의 수집, 선별, 라벨링, 필터링, 평가, 하청 배치, 소유권 귀속, 위험 보상, 이의제기 절차를 함께 조직하는 제도적 장치다. 데이터는 자연 상태의 원료처럼 단순히 발견되는 자원이 아니다. 데이터는 계약, 플랫폼 인터페이스, 작업 지시, 품질 기준, 삭제 규칙, 납품 절차를 통과하면서 기업 자산으로 편입된다. 데이터 정제 노동은 그 편입 과정에서 인간이 수행하는 반복적 판단 작업이며, 노동 가치 배분 구조는 이 작업이 만든 가치와 위험이 임금, 보상, 책임, 권리, 공적 환류의 형태로 누구에게 귀속되는지를 정하는 체계다.
이 글의 중심 명제는 데이터 정제 노동이 생성형 AI 가치 사슬의 하층 인프라이며, 이 노동을 하청망 아래에 배치하는 계약 구조가 AI 가치 배분의 핵심 정치경제 문제를 만든다는 데 있다. 모델의 안전성, 신뢰성, 유해성 감소, 사용자 경험은 데이터 노동자의 판단을 통과해 제품 가치로 전환된다. 그 가치가 모델 소유자와 플랫폼 운영자에게 집중되고, 그 위험이 하청 노동자와 지역 노동시장에 남을 때 데이터 추출 거버넌스는 권한 배분의 문제로 전환된다.
이 문제의식은 「디지털 프롤레타리아: 데이터 노동의 착취 구조와 소외」를 직접 확장한다. 그 글이 데이터 노동자를 AI 시대의 하층 생산 노동으로 읽었다면, 이 글은 그 노동이 어떤 계약 경로를 따라 가치 배분에서 탈락하는지를 묻는다. 같은 데이터 정제 노동도 직접 고용, 장기 계약, 위험수당, 노조 교섭, 원청 책임 아래 놓일 때와 단기 하청, 성과 압박, 계약 불투명성, 외국 법인 구조 아래 놓일 때 서로 다른 제도적 효과를 낳는다.
하청 계약은 위험을 아래로 보내고 권한을 위로 모은다¶
데이터 정제 하청망은 위험과 권한을 서로 다른 방향으로 이동시킨다. 위험은 노동자에게 내려가고, 권한은 모델 소유자와 플랫폼 운영자에게 올라간다. 하청업체는 채용, 근무 지시, 상담 제공, 작업량 관리, 계약 종료 통보를 담당한다. 원청 기업은 데이터 품질 기준, 모델 목적, 안전 정책, 배포 일정, 제품 수익을 통제한다. 이 분리는 법적 책임을 흐리게 만들면서 경제적 통제를 보존한다.
계약의 세분화는 데이터 노동을 관리 가능한 작은 단위로 나누면서 책임의 추적 가능성도 함께 약화한다. 데이터 노동자는 자신이 기여한 모델의 전체 가치 사슬을 보기 어렵고, 하청업체는 원청의 제품 전략과 수익 구조를 통제하기 어렵다. 원청 기업은 직접 고용주 지위를 부담하지 않는 방식으로 작업 결과를 확보한다. 계약은 작업 단위를 작게 만들어 비용을 낮추고, 책임 단위를 작게 만들어 원청의 제도적 노출을 줄인다.
데이터 정제 노동의 특수성은 작업 결과가 제품 내부에 흡수된 뒤 식별 가능성을 잃는다는 데 있다. 공장 노동의 산물은 부품, 조립 공정, 납품 기록, 품질 검사표로 일정하게 추적된다. 데이터 노동의 산물은 모델 가중치, 필터링 규칙, 평가 데이터셋, 강화학습 피드백, 안전 정책의 여러 층으로 분산된다. 기여가 분산될수록 노동의 증거도 약해진다. 증거가 약해질수록 임금 협상, 손해배상, 위험 보상, 사후 감사가 어려워진다.
이 지점에서 데이터 추출은 원자재 추출 경제와 닮은 작동 원리를 갖는다. 중심부 기업은 주변부의 낮은 임금, 약한 교섭력, 불완전한 노동 보호, 외화 소득 기대를 결합해 입력 자원을 확보한다. 주변부 국가는 일자리와 투자 유치라는 명분을 얻지만, 가치 사슬의 상층부인 모델 소유권, 클라우드 인프라, 고객 접점, 과금 체계, 지식재산권은 대체로 중심부 기업에 남는다. 추출의 대상은 인간 판단, 언어 감각, 폭력적 콘텐츠를 견디는 정서적 내구성, 지역 노동시장의 취약성이다.
이 비유는 제도 분석의 출발점으로 기능한다. 데이터 정제 노동은 광산 노동과 구별되는 기술적·계약적 특성을 가진다. 노동자는 원격 또는 사무실 기반 플랫폼을 통해 작업하고, 결과물은 비물질적 데이터셋과 모델 행동으로 흡수된다. 그래서 핵심 질문은 원청 기업이 하청망을 통해 확보한 데이터 노동을 어느 범위까지 자신의 생산 조건으로 공시하고 책임져야 하는가로 이동한다.
자동화의 화면은 노동 과정을 제품 경험으로 접는다¶
자동화는 노동의 위치를 화면 밖으로 이동시키면서 사용자에게 노동이 제거된 것 같은 경험을 제공한다. 생성형 AI 사용자는 프롬프트를 입력하고 즉시 응답을 받는다. 이 경험은 모델이 지식과 판단을 내부에서 독립적으로 생성한다는 감각을 강화한다. 사용자가 보지 못하는 곳에는 데이터 수집자, 라벨러, 콘텐츠 필터링 노동자, 평가자, 안전 정책 작성자, 프롬프트 테스트 노동자, 오류 보고자, 사용자 피드백 분석자가 있다. 자동화의 매끄러움은 이 다층 노동을 하나의 제품 경험으로 접는다.
「의사결정 자동화의 제국: 알고리즘은 어떻게 보이지 않는 통치자가 되는가」는 이 문제를 책임 귀속의 소거 장치로 읽게 한다. 알고리즘 통치의 핵심 효과는 결정의 전제와 입력 노동이 책임 추적 가능한 구조에서 사라지는 데 있다. 데이터 정제 노동도 같은 방식으로 작동한다. 모델의 부드러운 응답은 인간 판단의 축적을 가린 채 나타나고, 모델의 오류는 종종 익명의 데이터 품질 문제나 시스템 한계로 처리된다.
크라우드워크 연구는 이 비가시화가 임금 계산에도 직접 작동한다고 보여준다. Toxtli, Suri, Savage의 연구는 Amazon Mechanical Turk 노동자 100명이 40,903개 작업을 수행하는 과정에서 작업 탐색, 의뢰자와의 소통, 결제 관리 같은 비가시 노동에 하루 시간의 약 33%를 썼다고 추정했다. 이 연구에서 유급 작업 시간만 계산한 중위 시급은 3.76달러였고, 비가시 노동을 포함한 중위 시급은 2.83달러였다. 데이터 노동의 비용은 라벨 하나의 단가 안에 갇히지 않는다. 노동자가 작업을 찾고, 거절당하고, 대기하고, 심리적으로 회복하고, 지급을 확인하는 시간까지 포함해야 실제 비용이 보인다.
온라인 긱 노동의 규모와 보호 공백도 같은 방향을 가리킨다. AP가 보도한 2023년 세계은행 보고서 요약에 따르면 온라인 긱 노동자는 전 세계에서 최대 4억 3,500만 명으로 추정되며, 온라인 긱 노동(Gig Work) 수요는 2016년부터 2023년 1분기까지 41% 증가했다. 같은 보도는 개발도상국에서 온라인 긱 노동이 여성과 청년에게 중요한 소득원이 될 수 있지만, 고용 안정성, 사회보험, 퇴직 보장 같은 기본 보호가 약하다는 점을 지적했다. 이 조건에서 AI 데이터 노동은 글로벌 노동 규율의 시험장이 된다.
자동화의 비가시화는 세 가지 효과를 낳는다. 첫째, 사용자는 모델의 응답 품질을 기업의 기술력으로 인식하고 하층 노동의 기여를 거의 보지 못한다. 둘째, 원청 기업은 안전성과 신뢰성을 제품 가치로 전환하면서 그 안전성을 생산한 위험 노동의 비용을 낮은 계약 단가 안에 묶는다. 셋째, 정책 당국은 모델 배포, 개인정보, 저작권, 안보 위험에는 관심을 기울이면서 데이터 정제 노동을 일반 하청 문제로 밀어내기 쉽다. 이 세 효과가 결합하면 데이터 노동은 AI 가치 사슬의 필수 조건으로 작동하면서도 분배 논의의 주변부에 남는다.
가장 강한 반론은 가치 원천의 복합성을 겨냥한다¶
가장 강한 반론은 데이터 정제 노동이 모델 가치의 필요 조건일 수는 있어도 가치의 주된 원천으로 곧장 인정되기 어렵다는 주장이다. 생성형 AI는 데이터 라벨링만으로 만들어지지 않는다. 모델 아키텍처, 대규모 컴퓨팅 인프라, 연구 인력, 자본 조달, 제품 설계, 배포망, 보안 체계, 법무 비용, 브랜드 신뢰, 사용자 기반이 모두 결합한다. 데이터 노동의 기여를 이유로 모델 수익의 사회적 환류나 원청 책임을 과도하게 넓히면, 기업은 비용 상승을 피하기 위해 자동화를 확대하거나 규제가 약한 지역으로 이전할 수 있다.
이 반론은 노동자 보호가 실제 노동자의 기회를 줄일 수 있다는 우려도 포함한다. 개발도상국의 온라인 데이터 노동은 낮은 임금과 불안정성을 동반하지만, 지역 노동시장 안에서는 접근 가능한 외화 소득 경로로 작동할 수 있다. 높은 원청 책임, 엄격한 공시 의무, 위험가중 보상 규칙이 도입되면 일부 하청 일자리는 사라질 수 있다. 이 경우 노동자는 착취적 일자리의 위험에서 벗어나기 전에 소득원 자체를 잃을 수 있다.
이 반론은 집행 가능성의 문제를 함께 제기한다. 데이터 정제 노동은 여러 국가, 여러 하청업체, 여러 플랫폼, 여러 언어권에 분산된다. 원청 기업은 미국, 유럽, 중국, 한국, 일본의 법인 구조 안에 있고, 하청업체는 케냐, 인도, 필리핀, 베네수엘라, 마다가스카르, 브라질 등 다양한 노동시장에 걸쳐 있을 수 있다. 각국 노동법은 고용관계, 산업재해, 정신적 피해, 단체교섭, 개인정보 처리에 대해 서로 다른 기준을 가진다. 단일한 글로벌 책임 규칙은 제도적 설득력과 집행 장치를 함께 요구한다.
이 반론은 이 글의 중심 명제를 실제로 위협한다. 데이터 노동의 기여를 인정해야 한다는 주장만으로 제도 설계가 완성되지 않는다. 그 기여가 어느 수준의 권리, 보상, 공시, 책임으로 번역되어야 하는지 산정할 수 있어야 한다. 모든 모델 수익을 데이터 노동의 산물로 환원하면 분석은 과장된다. 모든 데이터 노동을 단순 보조 업무로 처리하면 분배 구조는 은폐된다. 따라서 쟁점은 단일 가치 원천의 발견에서 복합 가치 사슬 안의 책임과 보상 배분 기준으로 이동한다.
제도 설계의 단위는 책임 사슬이다¶
반론을 통과한 뒤 남는 결론은 책임 사슬의 재설계다. 데이터 노동자는 모델 전체의 유일한 생산자가 아니다. 데이터 노동은 안전성, 품질, 유해성 감소, 사용 가능성이라는 상업적 가치의 특정 조건을 생산한다. 제도 설계는 노동자가 창출한 조건부 가치를 식별하고, 그 가치와 위험을 계약 밖으로 흘려보내지 않도록 만드는 방향으로 가야 한다.
첫 번째 조건은 데이터 공급망 공시다. 모델 개발사는 데이터 정제와 평가가 수행된 주요 국가, 하청 단계, 작업 유형, 위험 등급, 보상 기준, 이의제기 절차를 일정 범위에서 공개해야 한다. 영업비밀과 보안상 세부 데이터셋을 모두 공개할 필요는 없다. 필요한 것은 노동과 위험의 존재를 지우지 않는 수준의 제도적 가시성이다. 공시가 있어야 노동자, 시민사회, 투자자, 규제기관이 모델의 안전성과 윤리성을 노동 조건과 함께 평가할 수 있다.
두 번째 조건은 원청의 연대책임이다. 원청 기업은 하청업체가 직접 고용주라는 이유만으로 정신적 위험, 임금 체불, 계약 불투명성, 부당 해고, 상담 부실, 작업 기준 변경의 책임에서 완전히 벗어나는 구조를 사용할 수 없어야 한다. 원청은 작업 목적, 데이터 유형, 품질 기준, 납품 일정, 안전 기준을 실질적으로 정한다. 실질적 통제가 존재하는 곳에 최소한의 실질 책임도 배치되어야 한다. 이 책임은 공시, 감사, 구제 절차, 하청계약 기준, 위험 작업 중지권을 포함하는 운영 책임으로 구체화된다.
세 번째 조건은 위험가중 보상이다. 유해 콘텐츠 필터링, 폭력·성착취·혐오·자살·아동학대 관련 데이터 검토, 정치적 선동이나 극단주의 자료 분류는 일반 라벨링과 같은 보상 체계로 묶이기 어렵다. 정신적 위험은 작업 자체의 핵심 투입 요소다. 위험가중 보상은 임금, 사전 고지, 작업 거부권, 작업 순환, 전문 상담, 회복 시간, 장기 심리 치료 접근권, 퇴직 이후 지원을 함께 포함한다. 위험이 수익화되는 곳에는 회복 비용도 함께 배치되어야 한다.
네 번째 조건은 데이터 가치 환류다. 「AI 국민배당은 AI 시대의 생산 원천을 사회적 권리로 번역하는 제도다」가 제기한 핵심은 생산 원천의 사회적 성격을 분배 장치로 번역하는 문제다. 데이터 노동자는 개별 임금만으로 보상받기 어려운 공통 생산 조건에 기여한다. 모델은 개별 라벨의 합에 사회적 언어, 사용자 상호작용, 집합적 피드백, 공적 지식, 노동자의 위험 감내를 결합한다. 이 조건에서 AI 국민배당, 데이터 기여 기금, 모델 매출 연동 사회 환류, 노동자 지원 기금은 가치 사슬의 누락된 비용을 되돌려 배치하는 장치가 된다.
다섯 번째 조건은 이의제기 가능성이다. 데이터 노동자가 작업 내용, 위험 등급, 임금 산정, 계약 종료, 심리 지원, 개인정보 처리, 부당한 성과 평가에 대해 문제를 제기할 수 있는 절차가 있어야 한다. 플랫폼 노동의 핵심 취약성은 일감 배정과 계정 접근이 불투명하게 결정된다는 점이다. 데이터 정제 노동에서도 같은 문제가 발생한다. 노동자가 계약을 잃는 위험을 감수해야만 문제를 제기할 수 있다면, 권리는 문서상 문구로 남는다. 이의제기 가능성은 노동권의 최소 조건이며, 데이터 거버넌스의 검증 장치다.
집행 경로는 노동법·공급망·AI 규제를 결합해야 한다¶
데이터 추출 거버넌스의 집행 경로는 단일 법 영역에 갇히기 어렵다. 노동법은 고용관계, 작업시간, 임금, 산업안전, 단체교섭을 다룬다. 공급망 실사 제도는 원청이 하청망 내부의 인권·노동 위험을 식별하고 완화하도록 압박한다. AI 규제는 데이터, 모델, 배포, 위험관리, 사후 모니터링을 다룬다. 데이터 정제 노동은 이 세 영역이 만나는 지점에 놓인다.
EU의 플랫폼 노동 지침은 직접적인 완성 모델은 아니지만 중요한 설계 원리를 제공한다. Directive (EU) 2024/2831은 플랫폼 노동 조건 개선을 목적으로 하며, 플랫폼 노동의 고용상 지위를 계약 명칭만으로 판단하지 않고 실제 업무 수행과 알고리즘을 통한 조직 방식을 고려하도록 한다. 또한 자동화된 모니터링과 의사결정 시스템이 노동 조건에 영향을 미치는 경우 투명성, 인간 감독, 이의제기 가능성을 요구한다. 이 원리는 데이터 정제 하청망에도 응용될 수 있다. 계약상 독립성의 명칭을 실질 통제의 증거로 보정하고, 명목상 외주를 작업 조직의 실제 권한으로 검증하며, 사후 보상을 사전 공시와 이의제기 가능성에 결합하는 방식이다.
국가 수준의 집행은 유해 콘텐츠 검토를 산업안전과 정신건강 보호의 문제로 분류해야 한다. 폭력, 성착취, 자해, 혐오 자료를 반복적으로 검토하는 작업은 단순 사무 노동과 같은 위험 등급으로 처리되기 어렵다. 고용관계가 직접 고용이든 하청이든, 법은 작업 내용의 위험성과 원청의 실질 통제를 함께 보아야 한다. 정신적 위험을 생산 비용으로 인정할 때 상담, 회복 시간, 작업 거부권, 위험수당, 사후 치료 접근권이 제도 설계의 대상이 된다.
국제 수준의 집행은 최소 기준의 상호 인정을 요구한다. 초국적 AI 기업은 노동 보호가 약한 지역으로 위험 작업을 이전하면서 동일한 제품 안전성을 판매한다. 따라서 데이터 공급망 공시, 위험 작업 분류, 하청계약 기준, 피해 구제 절차는 주요 시장 접근 조건과 연결될 수 있다. 모델을 판매하는 시장이 노동 조건의 정보를 요구하면, 원청 기업은 하청망의 위험을 단순 비용 항목으로 처리하기 어렵다. 집행 가능성은 세계 단일 법전에서 나오지 않고, 주요 시장의 공시 규칙과 조달 기준, 투자 기준, 노동자 구제 절차의 결합에서 나온다.
데이터 추출 거버넌스는 AI 안전의 노동 조건을 제도화한다¶
AI 안전 논의는 모델이 사용자에게 해로운 출력을 내지 않도록 만드는 문제에 집중해 왔다. 이 초점은 필요하다. 모델의 유해성, 편향, 허위 정보, 조작 가능성은 실제 사회적 위험을 만든다. 모델이 안전해지는 과정에서 누가 위험을 먼저 흡수하는지 묻지 않는 안전 논의는 하층 노동을 제도 밖으로 보낸다. 유해 콘텐츠를 보지 않는 사용자의 안전은 유해 콘텐츠를 먼저 본 노동자의 위험과 연결되어 있다.
데이터 추출 거버넌스는 AI 안전의 노동 조건을 제도화하는 이름이어야 한다. 안전한 모델은 안전한 노동 조건과 함께 평가되어야 한다. 데이터 정제 노동의 위험을 낮은 임금, 짧은 계약, 불충분한 상담, 불투명한 하청 구조에 묶어두면 안전의 비용은 가장 약한 주체에게 집중된다. 데이터 공급망 공시, 원청 연대책임, 위험가중 보상, 이의제기 절차, 사회적 환류 장치가 결합하면 안전은 제품 속성에서 제도적 성취로 확장된다.
이 글의 제안은 세 수준에서 작동한다. 기업 수준에서는 데이터 정제 하청망을 공급망 감사의 대상에 포함해야 한다. 국가 수준에서는 온라인 데이터 노동과 유해 콘텐츠 검토를 노동법, 산업안전, 정신건강 보호, 플랫폼 규제의 교차 영역으로 다뤄야 한다. 국제 수준에서는 초국적 AI 기업이 노동 보호가 약한 지역으로 위험 작업을 이전할 때도 최소 공시와 구제 절차를 부담하도록 만드는 기준이 필요하다. 세 수준이 결합될 때 데이터 노동은 권한 배분의 중심 문제가 된다.
AI 가치 배분의 정당성은 모델이 보이지 않게 만든 노동을 제도적으로 다시 보이게 만드는 능력에서 시작된다.
이어 읽기¶
- 디지털 프롤레타리아: 데이터 노동의 착취 구조와 소외 — 데이터 라벨링·필터링 노동을 AI 시대의 하층 생산 노동으로 읽는 직접 연결 글.
- 의사결정 자동화의 제국: 알고리즘은 어떻게 보이지 않는 통치자가 되는가 — 자동화가 노동 과정과 책임 귀속을 비가시화하는 방식을 보강하는 글.
- AI 국민배당은 AI 시대의 생산 원천을 사회적 권리로 번역하는 제도다 — 데이터와 모델 가치가 누구에게 귀속되어야 하는지, 분배정의의 제도적 출구를 제시하는 글.
- 블록체인 영지식 증명의 인식론적 위상
작성 정보¶
초안 작성: GPT · GPT 5.5 · Extended Thinking
검토·개고: ChatGPT · GPT-5.5 Extended Thinking
참고자료¶
- Billy Perrigo, “Exclusive: OpenAI Used Kenyan Workers on Less Than $2 Per Hour to Make ChatGPT Less Toxic”, TIME, 2023.
- Matt O’Brien, “Online gig work is growing rapidly, but workers lack job protections, a World Bank report says”, Associated Press, 2023.
- Carlos Toxtli, Siddharth Suri, Saiph Savage, “Quantifying the Invisible Labor in Crowd Work”, 2021.
- European Parliament and Council of the European Union, Directive (EU) 2024/2831 on improving working conditions in platform work, 2024.
인포그래픽¶

작성일: 2026년 5월 25일