
수료율과 만족도만으로는 AI 교육의 효과를 충분히 설명할 수 없다는 인식은 이미 HRD 부서 안에서 보편적입니다. 그리고 다음 분기에는 구성원의 역량 변화를 보여줄 수 있는 지표를 들고 가야 한다는 결심으로 이어지죠.
하지만 그 다음 단계로 넘어가려는 순간 한 가지 질문이 따라옵니다. 그래서 AI 역량이란 정확히 무엇을 측정해야 한다는 걸까요?
가장 핵심적인 문제는 AI 역량이라는 단어의 의미가 너무 넓다는 겁니다. 어떤 구성원은 AI에 대한 강의를 여러 차례 들어 개념을 잘 알지만, 실제 업무에는 거의 적용하지 않습니다. 어떤 구성원은 ChatGPT를 매일 사용해 보고서 초안을 만들지만, 자기가 받은 결과가 왜 그렇게 나왔는지는 설명하지 못합니다. 이런 두 사람의 AI 역량은 같은 선상에 놓고 비교하기 어렵습니다.
AI 역량을 단일 능력이 아니라 여러 영역으로 나누어 보는 시각은 이미 글로벌 표준에 가깝습니다. OECD가 정리한 AI Literacy Framework는 AI 역량을 인지·상호작용·윤리 등 여러 차원에서 다층적으로 정의하고 있고, World Economic Forum의 Future of Jobs Report 2025 역시 AI 관련 핵심 스킬을 단일 항목이 아니라 여러 묶음으로 분류합니다. 어디서 출발하든 결론은 같습니다. AI 역량은 한 가지 항목으로 측정할 수 없다는 것이죠.
그렇다면 무엇을 어떻게 나누어 봐야 할까요? 이 아티클에서는 깊이와 넓이라는 두 축으로 AI 역량의 구조를 정리해보려고 합니다.
깊이는 한 사람이 AI를 어느 수준까지 활용할 수 있는지를 보고, 넓이는 우리 회사가 어떤 항목들로 AI 역량을 정의할 것인지를 정합니다. 이 두 축이 정해질 때, 비로소 다음 질문인 "어떻게 측정할 것인가"로 넘어갈 수 있습니다.
AI 역량을 측정하려는 두 회사가 같은 AI 역량 진단 도구를 도입했다고 가정해 볼게요. 한 회사는 "구성원이 ChatGPT를 어느 수준까지 다루고 있는지"를 보고 싶었습니다. 다른 회사는 "마케팅·재무·R&D 직군별로 AI 역량의 갭이 어디에서 가장 크게 벌어져 있는지"를 보고 싶었죠. 같은 진단 도구가 두 회사 모두에 만족스러운 답을 줄 가능성은 낮습니다. 두 회사가 측정하려는 항목 자체가 다르기 때문입니다.
이 차이를 만들어내는 두 가지 기준이 있습니다.
첫 번째는 깊이에 대한 정의입니다. 구성원이 AI를 어느 수준까지 활용할 수 있어야 한다고 보는가에 대한 정의죠. 개념을 안다는 수준, 도구를 직접 다룬다는 수준, 실제 업무에 적용한다는 수준 중 어디까지를 측정에 포함시킬지를 먼저 정해야 합니다.
두 번째는 넓이에 대한 정의입니다. AI 역량은 한 가지 항목으로 측정되는 단일 능력이 아닙니다. AI에 대한 이해, AI 결과의 검토, 업무 적용 능력 같은 여러 항목이 모여 한 사람의 AI 역량을 만들죠. 그 항목들 중 우리 회사가 어디까지를 측정에 포함시킬지를 정해야 합니다.
이 두 가지 합의 없이 AI 역량 진단 도구를 비교하기 시작하면, 어떤 솔루션을 선택해도 우리 회사가 원하는 답에 도달하기 어렵습니다. 진단 도구의 설계 자체가 깊이와 넓이의 조합에 따라 달라지기 때문입니다. 다음 두 섹션에서 두 축을 차례로 살펴보겠습니다.
같은 ChatGPT 입문 강의를 수료한 두 구성원이 있다고 해볼게요. 한 명은 강의에서 배운 개념을 또렷이 설명할 수 있습니다. 프롬프트가 어떻게 작동하는지, AI가 왜 환각을 일으키는지, 어떤 정보를 입력하면 위험한지를 알고 있죠. 하지만 본인의 보고서는 여전히 처음부터 끝까지 직접 씁니다. 다른 한 명은 매일 ChatGPT를 켜놓고 보고서 초안을 만들지만, 결과물에 들어 있는 사실 오류를 잘 잡아내지 못합니다. 두 사람의 AI 역량은 같은 자리에 있지 않습니다. 단지 다른 자리에 있을 뿐이죠.
두 사람을 가르는 것은 AI를 어떤 수준까지 활용할 수 있느냐의 차이입니다. 구성원이 AI를 어느 수준에서 다루는지를 측정하려면 세 단계로 나누어 보는 방식이 가장 명확합니다.
첫 번째는 안다는 단계입니다. AI가 무엇이고 어떻게 작동하는지, 어떤 리스크가 있는지, 어떤 도구가 어떤 작업에 적합한지를 인지하는 단계죠. 이 수준의 측정은 객관식 퀴즈나 서술형 응답 같은 도구로 비교적 수월하게 이루어집니다. 시중의 상당수 AI 역량 진단 도구가 이 단계에서 멈춥니다.
두 번째는 한다는 단계입니다. AI 도구를 실제로 다루고, 프롬프트를 설계하고, 받은 결과를 이해하는 단계입니다. 이 단계부터는 객관식만으로 측정이 어렵습니다. 구성원이 실제로 도구를 다루는 시뮬레이션 과제나, 주어진 상황에서 프롬프트를 짜는 평가 같은 도구가 필요해지죠.
세 번째는 적용한다는 단계입니다. AI를 자기 업무 흐름에 통합해 산출물을 만들고, 그 산출물의 정확성을 비판적으로 검토하며, 결과에 책임지는 단계입니다. 이 수준의 측정은 실제 업무 산출물, 본인의 평소 업무를 기반으로 한 시뮬레이션, 동료 평가 같은 도구를 통해 이루어집니다. 측정 난이도는 가장 높지만, 조직이 정작 알고 싶은 정보는 대부분 이 단계에 있죠.
우리 조직이 어느 수준의 AI 역량을 필요로 하는지는 내부에서 합의가 되어야 합니다. 다만 AI를 본격적으로 활용하기 시작한 시점이라면, 대부분의 조직이 결국 '실제 업무에 적용한다' 단계까지를 측정하고 싶어하죠.
문제는 적용 단계까지 측정하는 일의 난이도입니다. 객관식 퀴즈만으로는 이 역량이 측정되지 않고, 실제 업무 활용 방식, 시뮬레이션 같은 방식들을 함께 확인해야 합니다. 어디까지 측정할 것인지의 정의가 끝나면, 그 다음 결정은 자연스럽게 어떤 솔루션이 이 단계까지 측정할 수 있느냐의 검토로 이어질 수 있습니다.
깊이가 한 항목 안에서 어느 수준까지 측정할 것인지를 정한다면, 넓이는 어떤 항목들을 진단에 포함시킬 것인지를 정합니다. AI 역량은 한 가지 항목으로 측정되는 단일 능력이 아니기 때문이죠. 여러 스킬들이 모여 한 사람의 AI 역량을 구성합니다.
AI 역량을 정확히 측정하려면 아래와 같은 스킬들을 봐야 합니다.
- AI 기술과 작동 원리에 대한 이해
- AI 산출물의 리스크·편향·민감 데이터에 대한 인식
- 적절한 AI 도구를 골라 쓰는 판단
- 업무에 AI를 어떻게 적용할지에 대한 기획
- AI 도구를 다루는 실행과 프롬프트 상호작용
- AI 산출물의 비판적 검토와 결과에 대한 책임
각 항목은 서로 독립적입니다. 기술과 작동 원리에 강한 구성원이 실제 검토 스킬은 약할 수도 있죠. 그래서 AI 역량은 스킬별로 잘게 나누어 봐야, 한 사람의 강점과 약점을 제대로 파악할 있습니다.
이 항목들 중 우리 회사가 어디까지를 진단에 포함시킬지를 말하는 것이 넓이입니다. 모든 항목을 다 측정할 수도 있고, 우리 회사의 우선순위에 따라 특정 항목에 더 큰 비중을 둘 수도 있죠.
측정할 항목이 정해진 다음에는 누구에게 적용할지를 결정합니다. 전 구성원에게 공통으로 적용할지, 직무별로 가중치를 다르게 줄지를 정해야 합니다. 대부분의 조직은 전 구성원이 공통으로 갖춰야 할 AI 역량부터 측정합니다. 직무 의존도가 특히 높은 회사라면 직무별 가중치를 더할 수 있고요. 다만 어떤 경우든 항목을 먼저 정한 다음 적용 범위가 따라옵니다.
항목이 정해지지 않은 상태에서 진단 솔루션부터 비교를 시작하면 정작 우리 회사가 보고 싶은 항목을 측정하지 못하는 솔루션을 고르게 될 수도 있습니다. 깊이만큼이나 넓이의 정의가 먼저인 이유죠.
구성원이 AI를 어느 수준까지 활용할 수 있어야 하는가, 그리고 그 활용 능력을 어떤 항목으로 나누어 볼 것인가. 깊이와 넓이, 두 가지의 기준점이 정해지면 "무엇을 측정할 것인가"에 대한 답이 완성됩니다.
측정 항목이 분명해지면 그동안 답하기 어려웠던 아래와 같은 질문들에 답할 수 있게 됩니다.
이 질문들은 측정 항목 없이는 답할 수 없습니다. 만족도와 수료율의 한계는 결국 이 질문들에 답하지 못한다는 데 있었죠.
이제 다음 아티클에서는 텔타가 AI 역량을 실제로 어떻게 측정하는지를 살펴보겠습니다.