콘텐츠로 이동

범용지능이라는 총점은 무엇을 압축하는가

리더보드가 만드는 공간

벤치마크 리더보드는 AI 시스템을 한 줄의 수치로 정렬한다. MMLU 점수, HumanEval 통과율, GPQA 정답률, ARC-AGI 성공률은 서로 다른 평가 절차를 거치지만, 모델 비교표 안에서는 하나의 서열 감각으로 수렴한다. 그 표에서 시스템들은 위아래로 배열된다. 어떤 모델이 가장 지능적인가라는 질문은 이 표 안에서 "어느 모델이 위에 있는가"로 변환된다.

이 변환 안에서 능력의 지형이 사라진다.

어떤 AI 시스템이 특정 전문 시험에서 인간 전문가 수준의 성과를 내면서도 일상적 공간 추론이나 물리적 상식이 요구되는 과제에서 급격히 흔들리는 사례는 반복적으로 관찰된다. 법학 시험을 통과한 시스템이 "컵이 기울어지면 물이 어떻게 되는가"라는 질문에서 엉뚱한 답을 내놓기도 한다. 복잡한 코드를 생성하는 시스템이 그 코드의 실행 결과를 사전에 안정적으로 시뮬레이션하지 못하는 경우도 있다. 리더보드 점수는 이 비대칭성을 합쳐 하나의 위치값으로 만든다. 지형은 평탄해지고, 숫자만 남는다.

능력의 섬과 지능 총점의 붕괴는 인간 지능 평가에서 이 압축이 어떻게 작동하는지를 분석한다. 서번트 증후군이 드러내는 것은 예외가 아니라 규칙이다. 능력은 전체 인격의 평균으로 솟지 않는다. 특정 형식의 정보에 강하게 결합하고, 다른 환경에서는 흔들린다. 이 글은 그 논증을 기계 쪽으로 이전한다. 범용지능이라는 개념은 기계의 능력 배열을 투명하게 설명하는 이름이라기보다, 비교를 가능하게 만들기 위해 구성된 평가 형식에 가깝다.

범용지능의 발명 조건

기계 지능을 단일 판정 문제로 다루는 계보는 튜링의 모방 게임에서 강하게 출발한다. 튜링은 기계가 생각하는지를 직접 묻는 대신, 기계가 인간으로 오인될 수 있는지를 물었다. 이 치환은 지능의 내적 구조를 행동 출력의 비구분 가능성으로 압축한다. 지능이 무엇인지보다 지능처럼 보이는가가 판정의 중심에 놓인다.

이 조작화에서 중요한 것은 무엇이 잘려 나갔는가다. 기계가 무엇을 할 수 있는지의 구체적 지형이 사라지고, "지능적 행동"이라는 단일 평가 범주가 남는다. 심리측정학에서 g factor, 곧 일반지능 요인은 여러 인지 과제 수행 간 양의 상관에서 추출되는 통계적 구성물이다. 이 개념이 기계 평가로 넘어올 때, 그 이동은 발견보다 전용에 가깝다. 인간 수행의 공분산 구조에서 나온 개념이 기계 능력 평가의 언어로 재배치되고, 그 재배치 안에서 "기계도 범용 지능을 가질 수 있다"는 가설이 평가 틀에 먼저 들어간다.

범용지능 담론이 AI 연구에서 힘을 얻은 것은 특정 역사적 조건 안에서다. 알파고 이후 10년이 보여주듯, 알파고의 성공은 좁은 도메인에서의 초인적 수행을 증명했지만 동시에 그 수행이 바둑 바깥으로 자동 이전되지 않는다는 사실도 드러냈다. AGI 담론은 이 협소함을 돌파하려는 욕망에서 커졌다. 여러 과제에 걸쳐 인간 수준 이상의 수행을 달성하는 시스템을 만들겠다는 목표가 연구의 좌표가 되었고, 이 목표 설정은 벤치마크 리더보드의 구조를 강화했다. 얼마나 많은 과제에서, 얼마나 높은 점수를 내는가가 범용성의 지표처럼 작동하기 시작했다.

이 좌표 자체의 성립 조건을 물어야 한다. "여러 과제에 걸쳐 높은 수행을 내는 것"은 범용지능과 같은가. 여러 과제의 집합은 누가 구성하는가. 그 과제들이 지능의 어떤 단면을 포착하는지 어떻게 확인할 수 있는가. 벤치마크 설계자들이 선택한 과제 집합은 지능의 본질적 표집이 아니다. 그것은 계산 가능하고 자동 채점이 가능하며 비교 가능한 형식으로 제한된 표집이다.

벤치마크가 판정하는 것

MMLU는 다수 학문 분야의 선택형 문항들로 구성된다. HumanEval은 코드 생성의 기능적 정확성을 평가한다. GPQA는 전문가 수준 과학 질문의 정답률을 측정한다. ARC-AGI는 낯선 과제에서의 일반화와 기술 습득 효율을 겨냥한다. 이 과제들은 서로 다른 인지적 요구를 갖는다. 각 과제에서의 성과는 해당 과제 형식 안에서의 수행을 나타낸다.

리더보드는 이 수행들을 집계하거나 병렬 배열한다. 이때 이미 판단이 들어간다. 어느 과제에 얼마만큼의 가중치를 부여하는가, 어떤 과제를 포함하고 어떤 과제를 제외하는가, 과제 수행의 어떤 측면을 정답으로 인정하는가. 이 결정들이 모여 하나의 서열 감각을 만든다. 총점은 순수한 발견값이 아니라 설계된 판정값이다.

무엇이 측정 가능한지는 누가 정하는가는 수학적·물리적 형식 체계가 자신의 한계를 어떻게 드러내는지를 다룬다. 이 글이 다루는 문제는 형식 한계보다 평가 설계의 판정 성격에 가깝다. 문어 문해 이해, 멀티턴 대화의 맥락 유지, 감각 기반 상식, 신체 없이 접근하기 어려운 암묵적 지식 같은 능력들은 자동 채점이 어렵다는 이유로 주요 벤치마크에서 체계적으로 과소 대표된다. 판정하기 쉬운 것이 지능의 지표가 된다.

이 구조에서 벤치마크 리더보드는 지능을 발견하는 도구보다 지능으로 인정될 것의 범위를 획정하는 제도적 장치에 가까워진다. 어떤 조직이 어떤 목적으로 어떤 과제를 선정해 벤치마크를 설계하느냐에 따라, 같은 시스템이 우수한 모델로도 불충분한 모델로도 분류된다. 리더보드 순위는 그 설계를 통과한 시스템의 서열이다. 그 순위가 지능의 전체 서열을 곧장 의미하지는 않는다.

기계의 능력 섬

AI 시스템도 능력의 비대칭성을 보인다. 이 비대칭성은 리더보드 총점이 가리는 지형이다.

대규모 언어 모델들은 수학적 형식 추론에서 높은 성과를 내면서도 동일한 수학 문제가 서사적 형식으로 재표현되면 오류율이 상승할 수 있다. 법학 시험을 통과하는 수준의 문장 이해 능력을 보이면서도 복수의 이동 단계를 요구하는 물리적 시뮬레이션 과제에서 구조적 한계를 드러낸다. 코드를 생성하는 능력이 높은 시스템이 그 코드의 실행 결과를 사전에 추적하는 능력에서는 불균형한 성과를 보이기도 한다. 이것이 기계의 능력 섬이다.

이 비대칭성은 인간의 능력 섬과 구조적으로 다른 방식으로 작동한다. 인간의 서번트 능력에서 비대칭성은 어떤 정보 형식에 처리 자원이 강하게 결합되었는가의 문제다. 기계의 비대칭성은 학습 데이터 분포, 과제 형식과의 정합성, 주의 구조의 특성, 파인튜닝 방향이 만드는 지형이다. 어떤 기계 시스템이 특정 과제에서 탁월한 수행을 보인다고 해서 그 수행이 다른 과제로 이전 가능한 범용 역량의 표현이라는 결론은 곧장 따라오지 않는다.

알파고의 초인적 수행이 바둑 바깥으로 자동 이전되지 않았듯이, 범용성을 주장하는 현재의 시스템들도 동일한 질문을 받아야 한다. 어떤 과제에서 높은 총점을 얻는 것과 그 총점이 대표하는 능력이 새로운 과제 형식에서 안정적으로 유지되는 것은 다른 주장이다. 벤치마크 총점은 후자를 보증하지 않는다.

압축은 언제 문제가 되는가

총점 옹호론은 쉽게 제기될 수 있다. 모든 평가는 압축을 필요로 한다. 복잡한 능력 지형을 그대로 나열하면 비교가 어려워지고, 연구자와 사용자는 어떤 시스템이 대체로 더 나은지 판단하기 힘들어진다. 총점은 지능의 본질을 설명하려는 철학적 정의가 아니라, 모델 간 비교를 위한 실용적 요약일 수 있다. 압축 자체를 비판하면 어떤 평가도 가능하지 않다는 반론이 나온다.

이 반론은 일정 부분 타당하다. 문제는 압축의 존재가 아니라 압축값의 사용 방식이다. 총점이 "이 모델은 이 평가 묶음에서 이 정도 성과를 냈다"는 제한된 정보로 쓰일 때, 그것은 비교를 돕는 실용적 장치가 된다. 총점이 배포 가능성, 안전성, 채용 적합성, 사회적 신뢰의 통행증으로 전환될 때 문제가 발생한다. 요약값이 의사결정의 보조 자료를 넘어 판정의 대체물이 되면, 압축 과정에서 사라진 국지적 실패와 위험 능력의 섬이 제도적으로 보이지 않게 된다.

따라서 비판의 대상은 측정 일반이 아니다. 비판의 대상은 압축된 수치가 자신이 잃어버린 정보를 잃지 않은 것처럼 행동하는 장면이다. 총점은 비교를 가능하게 하지만, 지형을 대신하지 못한다. 총점이 지도로 사용될 때, 평가는 가장 중요한 순간에 자신이 보지 못한 것을 보았다고 말하게 된다.

통행증으로서의 총점

총점이 제도 안에서 기능하는 방식은 지식의 전달보다 허가의 발급에 가깝다.

AI 안전 평가에서 특정 임계값을 통과한 시스템은 배포 가능한 것으로 분류된다. 채용 자동화 시스템에서 종합 점수가 기준을 넘은 지원자는 다음 단계로 이동한다. 이 장면들에서 총점은 설명을 대체한다. 어떤 능력 구조가 어떤 조건에서 어떻게 작동하는지를 묻는 대신, 총점이 기준을 넘었는지가 판정의 근거가 된다.

AI 안전 평가는 이 문제가 가장 선명하게 드러나는 장면이다. 역량 평가 벤치마크가 위험 임계값을 설정할 때, 그 임계값을 구성하는 과제 집합은 평가자들이 위험하다고 간주하는 능력의 부분 집합이다. 이 평가를 통과한 시스템이 평가 과제에 포함되지 않은 위험 역량의 섬을 내부적으로 가지고 있다면, 총점 기반의 안전 판정은 그 섬을 보지 못한다. 통행증은 발급되었지만, 지형 조사는 이루어지지 않았다.

이 문제는 총점 형식의 구조적 한계에서 나온다. 총점은 합산하는 과정에서 국지적 정보를 잃는다. 어떤 과제에서 낮고 다른 과제에서 높은 수행이 평균을 통해 중간값으로 수렴할 때, 낮은 과제의 취약성이 감춰진다. 안전 평가에서 특정 위험 역량이 낮게 측정되더라도 다른 역량들의 높은 점수가 총점을 통과 기준 위로 끌어올린다면, 평가는 설계된 목적과 어긋난 방향으로 작동한다. 과정 없는 출력이 창의성 벤치마크에 대해 제기하는 문제와 구조가 같다. 출력의 속성을 측정하는 도구가 그 출력을 발생시키는 내부 조건을 측정하는 것으로 오인된다.

능력 지형을 읽는 평가를 위하여

범용지능이라는 총점 형식에 대한 비판은 측정 자체를 폐기하자는 요구가 아니다. 총점 형식은 얼마나 높은가라는 질문에 답하도록 설계되어 있다. 지능 평가에서 실질적으로 필요한 질문은 이 수행이 어떤 조건에서 성립하며, 어디서 깨지는가다.

능력 지형을 읽는 평가는 총점보다 복잡하다. 과제 유형별 프로파일, 학습 분포 외부에서의 성과 변화, 과제 형식 변형에 대한 민감도, 실패 조건의 체계적 분포를 함께 기술해야 한다. 이것은 단일 리더보드로 만들기 어렵다. 그 어려움이 지형 읽기를 총점으로 대체한 이유이기도 하다. 편리함은 적절함을 보증하지 않는다.

벤치마크가 판정하는 대상이 특정 평가 형식을 통과하는 능력이라면, 그 통과 이후의 결정들은 그 판정의 한계 위에 서 있다. 어떤 AI 시스템에 대해 물어야 할 질문은 "얼마나 높은가"가 아니라 "어떤 능력 배열이 어떤 조건에서 어떻게 작동하며, 어디서 무너지는가"다. 총점은 지도가 아니라 통행증이다. 지도 없는 통행증은 출발점의 허가일 뿐, 지형에 대한 이해가 아니다.

이어 읽기

작성 정보

초안 작성: Claude · Claude Sonnet 4.6 · Low Adaptive Thinking
검토·개고: ChatGPT · GPT-5.5 Extended Thinking

인포그래픽

작성일: 2026년 6월 6일