[대학 교육의 AI 전환] 대규모 글쓰기 평가, 개별 채점의 한계를 넘어서다-조선에듀

[대학 교육의 AI 전환] 대규모 글쓰기 평가, 개별 채점의 한계를 넘어서다

임태성 연구교수 | 계명대학교 학생성공센터

기사입력 2026.04.27 09:00

대학 글쓰기 교육에서 대규모 평가는 여전히 해결되지 않은 문제다. 수백, 수천 명의 글을 읽고 평가해야 하는 상황에서 교수자는 늘 한계에 부딪힌다. 평가의 질을 유지할 것인가, 아니면 운영의 현실을 고려할 것인가. 개별 글을 하나하나 정독하고 피드백을 제공하는 방식은 이상적이지만, 이는 물리적으로 지속 가능하지 않다. 결국 평가 기준은 단순화되고, 피드백은 축소되며, 글쓰기 교육의 밀도는 점차 낮아진다.
이 지점에서 질문을 바꿀 필요가 있다. 즉, “어떻게 더 잘 평가할 것인가”가 아니라, “어떻게 평가를 설계할 것인가”이다. 특히 대규모 교육 상황에서는 평가의 일관성과 확장 가능성을 동시에 확보할 수 있는 구조가 필요하다. 이는 평가를 개별 교수자의 노동에 의존하는 방식에서 벗어나, 평가 결과를 축적하고 비교·분석할 수 있는 구조로 전환할 수 있는가라는 문제로 이어진다.
이러한 문제의식 속에서 계명대학교는 풀리캠퍼스와 함께 2026학년도 기초학력 진단고사에 AI 글쓰기 평가 프로그램을 도입했다. 전체 신입생 약 5,000명 중 약 1,000명이 응시했고, 중복 응답을 제외한 949명의 유효 데이터가 확보되었다. 평가 문항은 ‘4년 후 나에게 쓰는 편지’라는 주제로, 500~600자 분량의 글쓰기 1문항으로 구성되었다. 제한 시간 30분의 온라인 CBT 방식으로 운영된 이 평가는 학생의 사고력과 표현력을 종합적으로 진단하는 데 목적을 두었다.
이번 사례의 핵심은 단순한 자동 채점이 아니다. 자동화는 채점 속도를 높일 수는 있지만, 평가 기준 자체를 정교하게 만들지는 못한다. 계명대학교의 시도는 여기서 한 걸음 더 나아간다. 글을 내용(Content), 구조(Structure), 표현(Expression) 세 영역으로 나누고, 각 영역을 5점 만점 기준으로 세분화하여 점수를 산출하는 구조를 설계했다. 이는 평가를 ‘빠르게 처리하는 것’이 아니라 ‘정확하게 구조화하는 것’에 초점을 맞춘 접근이다.
▲ AI 기반 글쓰기 평가 화면(예시). 내용·구조·표현 영역별로 세분화된 피드백을 제공한다. / 풀리캠퍼스 제공.

첨삭 피드백 역시 같은 방식으로 설계되었다. 영역별 점수와 함께 점수의 근거와 개선 방향이 구체적으로 제시되며, 글 전체를 아우르는 종합 피드백이 제공된다. 여기에 AI 활용 여부를 탐지하는 기능도 포함되어 있어, 학생이 실제로 작성한 글인지에 대한 참고 정보를 제공한다. 이는 단순한 부정행위 탐지를 넘어, 평가 결과를 해석하는 데 있어 신뢰도를 보완하는 장치로 기능한다.
특히 주목할 점은 이 시스템이 완전한 자동화를 지향하지 않는다는 점이다. AI가 산출한 결과는 곧바로 학생에게 전달되지 않는다. 먼저 교수자나 관리자가 이를 검토하고 해석한 뒤 학생에게 전달된다. 기술이 판단을 대체하는 것이 아니라, 분석을 제공하고 최종 판단은 여전히 교육자가 담당하는 구조다. 이는 기술과 교수자의 역할을 분리하는 것이 아니라, 유기적으로 결합하는 방식이라 할 수 있다.
이는 기존의 온라인 설문이나 답안 수집 방식과는 질적으로 다른 변화다. 단순히 답안을 수집하는 수준을 넘어, 학생의 글을 다층적으로 분석하고 이를 데이터로 축적하며, 교수자가 해석 가능한 형태로 제공받는 구조로 전환되었기 때문이다. 평가가 끝나는 지점이 아니라, 시작되는 지점으로 이동한다.
성과는 단순한 수치 이상의 의미를 갖는다. 약 20%의 응시율과 949명의 정제된 데이터는 신입생 글쓰기 수준을 진단하기에 충분한 규모다. 더 중요한 것은 이 데이터가 ‘평균 점수’에 그치지 않는다는 점이다. 내용·구조·표현 영역별 분포를 통해 학생들의 강점과 취약점이 명확히 드러났고, 특정 영역에서 어려움을 겪는 학생군을 조기에 식별할 수 있었다.
이 지점에서 평가는 단순한 기록을 넘어, 개입을 가능하게 하는 ‘근거’로 전환될 수 있다. 예를 들어 구조 영역에서 전반적인 약점이 확인된다면, 이는 개별 학생의 문제가 아니라 교육 설계 차원의 신호로 읽힌다. 아직 직접적인 교육 개입으로 이어지지는 않았지만, 이러한 데이터는 향후 커리큘럼 재구성이나 보충 프로그램 설계를 가능하게 하는 출발점이 된다. 교수자는 더 이상 개별 점수에 머무르지 않고, 집단의 특성을 기반으로 교육 전략을 설계할 수 있는 토대를 확보하게 된다.
결국 이 사례가 보여주는 것은 분명하다. 대규모 글쓰기 평가의 핵심은 ‘자동화’가 아니라 평가 결과를 축적하고 분석해 다시 교육으로 연결하는 구조에 있다. AI는 평가를 대신하는 존재가 아니라, 평가를 구조화하고 확장 가능하게 만드는 도구다. 그리고 교수자는 그 데이터를 바탕으로 교육적 판단을 내리는 주체로서 역할을 재정의한다.
향후 계명대학교는 풀리캠퍼스와의 협력을 통해 이 시스템을 더 고도화할 계획이다. 진단 평가를 넘어 학기 중 형성 평가와 연계하고, 축적된 데이터를 기반으로 맞춤형 피드백과 교육 프로그램을 설계하는 방향으로 확장을 모색하고 있다. 나아가 평가 결과가 교육 개선으로 이어지는 구조를 구축하는 것이 주요 과제로 제시된다.
대규모 글쓰기 평가는 더 이상 감당해야 할 부담이 아니다. 개별 채점의 한계를 넘어서는 순간, 평가는 비로소 교육을 바꾸는 도구가 된다. 계명대학교의 사례는 그 변화가 이미 시작되었음을 보여준다.

ArtCategory();

최신 뉴스