카테고리 없음

평가 기준 설계하기

O3O2 2025. 11. 30. 19:45

AI가 사용자의 영어 문장을 채점한다고 하자. 무엇을 기준으로 몇 점을 줄 것인가?를 정하지 않으면, AI는 매번 다른 기준으로 들쭉날쭉한 점수를 줄 것이다.... 그래서 실제 공인 영어 시험들의 평가 기준을 사용하면 좋을 것 같다는 생각이 들었다. 이를 외국어 학습 앱에 어떻게 적용할 수 있는지 정리해 보겠다.


1. 평가 기준이 왜 필요하지.

1.1 일관성 문제

LLM에게 "이 문장 평가해줘"라고만 하면 같은 문장에서도 오류의 심각성을 멋대로 판단해서 점수의 편차가 크다. 이러면 사용자 입장에서 신뢰할 수 없는 결과가 출력되어 버린다.

 

1.2 수준별 차등 평가

같은 문장에 대해서라도 사용자의 수준에 따라 기준이 달라야 한다. 초등학생과 대학생을 같은 기준으로 평가할 수 없다. 사용자 같은 문장에 대한 평가가 필요하다.


2. 국제 공인 평가 기준 조사

내가 프롬프트를 작성하는 것보다 세계적으로 인정받는 영어 평가 기준들을 살펴보고 응용하거나 사용하는 편이 좋을 것 같다.

2.1 CEFR (유럽공통참조기준)

Common European Framework of Reference for Languages

유럽연합에서 만든 언어 능력 평가 기준으로, 전 세계적으로 가장 널리 사용된다.

등급 수준 설명

A1 Beginner 기초적인 표현, 자기소개 가능
A2 Elementary 일상적인 표현, 간단한 정보 교환
B1 Intermediate 익숙한 주제에 대해 간단한 문장 생성
B2 Upper-Intermediate 복잡한 텍스트 이해, 유창한 대화
C1 Advanced 암묵적 의미 파악, 유연한 언어 사용
C2 Proficiency 거의 원어민 수준

 

특징:

  • "무엇을 할 수 있는가"(Can-do statements) 중심
  • 읽기, 쓰기, 듣기, 말하기 모두 포괄
  • 긍정적인 성취 기술 (못하는 것이 아닌 할 수 있는 것 기술)

 

2.2 TOEFL iBT Writing Rubric

Test of English as a Foreign Language

미국 ETS에서 주관하는 시험으로, 대학/대학원 입학에 사용된다.

Writing 평가 기준 (0-5점):

점수 기준

5 주제에 효과적으로 응답, 잘 조직됨, 적절한 설명과 예시, 일관성 있음, 문법/어휘 오류 거의 없음
4 주제에 적절히 응답, 대체로 잘 조직됨, 적절한 설명, 일관성 있음, 사소한 문법 오류
3 주제에 부분적으로 응답, 조직에 약간의 문제, 설명 부족, 간헐적 비일관성, 눈에 띄는 오류
2 주제와 연결 약함, 조직 불량, 설명 매우 부족, 심각한 오류로 의미 전달 방해
1 주제와 거의 무관, 조직 없음, 이해 어려움
0 응답 없음 또는 주제와 완전히 무관

 

특징:

  • Task Response (과제 응답) 중시
  • Development (전개) 평가
  • Organization (구성) 평가
  • Language Use (언어 사용) 평가

 

2.3 IELTS Writing Band Descriptors

International English Language Testing System

영국, 호주, 캐나다 등에서 널리 사용되는 시험이다.

Writing 평가 4가지 기준:

기준 설명 비중

Task Achievement 과제 요구사항 충족도 25%
Coherence & Cohesion 논리적 흐름, 연결어 사용 25%
Lexical Resource 어휘의 다양성과 정확성 25%
Grammatical Range & Accuracy 문법 다양성과 정확성 25%

 

Band 점수 예시 (9점 만점):

Band Task Achievement Grammar

9 완벽하게 충족 오류 거의 없음
7 충분히 충족 복잡한 구조 사용, 간헐적 오류
5 부분적 충족 제한된 구조, 빈번한 오류
3 거의 미충족 매우 제한적, 심각한 오류

 

특징:

  • 4가지 기준 균등 평가 (각 25%)
  • Band 0.5 단위 세분화
  • 분석적 채점 (각 기준별 개별 점수)

 

2.4 ESL/WIDA Writing Rubric

World-class Instructional Design and Assessment

주로 초중등 ESL(English as a Second Language) 학습자 평가에 사용된다.

6단계 평가:

Level 이름 특징

1 Entering 그림, 단어 수준의 응답
2 Emerging 구, 짧은 문장
3 Developing 확장된 문장, 관련 아이디어
4 Expanding 복잡한 문장, 구체적 어휘
5 Bridging 다양한 문장 구조, 학술적 어휘
6 Reaching 원어민에 근접한 수준

 

특징:

  • 학습자 중심의 긍정적 기술
  • 발전 단계를 명확히 구분
  • 초보자에게 친화적인 기준

3. 우리 앱에 적용하기

3.1 사용자 수준 정의

조사한 기준들을 참고하여 우리 앱의 3단계 수준을 정의했다.

앱 수준 CEFR 대응 대상 평가 초점

Beginner A1-A2 초등~중학생 의미 전달, 기본 문법
Intermediate B1-B2 고등학생 정확성, 자연스러움
Advanced C1-C2 대학생, TOEFL/IELTS 준비생 정밀성, 관용적 표현

3.2 평가 항목 설계

IELTS의 4가지 기준을 참고하되, 우리 앱의 "번역 평가"에 맞게 수정했다.

IELTS 원본 기준:

  1. Task Achievement (과제 충족)
  2. Coherence & Cohesion (일관성)
  3. Lexical Resource (어휘)
  4. Grammatical Range & Accuracy (문법)

우리 앱 적용 기준:

  1. Meaning (의미 전달) ← Task Achievement
  2. Grammar (문법) ← Grammatical Accuracy
  3. Word Usage (단어 활용) ← Lexical Resource
  4. Naturalness (자연스러움) ← Coherence 일부

"Coherence & Cohesion"은 긴 글에서 중요하지만, 단문 번역에서는 "Naturalness"로 대체했다.

3.3 수준별 점수 기준

각 수준별로 점수 분포를 다르게 설계했다.

Beginner (관대한 평가):

90-100: 의미 전달 성공, 학습 단어 사용
70-89:  의미 전달됨, 사소한 오류
50-69:  부분적으로 맞음
0-49:   다시 시도 필요

 

→ ESL/WIDA의 긍정적 피드백 철학 적용

Intermediate (균형 잡힌 평가):

90-100: 정확하고 자연스러움
75-89:  좋지만 약간 어색
60-74:  의미는 통하지만 오류 있음
0-59:   개선 필요

 

→ IELTS Band 5-7 수준 기준 적용

Advanced (엄격한 평가):

90-100: 네이티브 수준, 관용적 표현
80-89:  우수하지만 미세한 어색함
65-79:  좋지만 세련미 부족
0-64:   고급 수준 미달

→ TOEFL 4-5점 / IELTS Band 7+ 기준 적용

 

3.4 가중치 설계

수준에 따라 평가 항목의 가중치도 다르게 적용했다.

항목 Beginner Intermediate Advanced

Meaning 40% 30% 25%
Grammar 20% 30% 25%
Word Usage 25% 25% 25%
Naturalness 15% 15% 25%

 

설계 근거:

  • Beginner: 의미 전달이 가장 중요. 문법 오류는 관대하게.
  • Intermediate: 의미와 문법 균형. 정확성 강조.
  • Advanced: 자연스러움(Naturalness)의 비중 증가. 원어민다운 표현 요구.

4. 프롬프트에 반영하기

설계한 평가 기준을 LLM 프롬프트에 녹여야 한다.

4.1 수준별 프롬프트 예시

Beginner 프롬프트:

[초급 평가 기준 - ESL 학습자 기준]

평가 철학: 의미 전달이 핵심. 문법 오류는 관대하게. 격려하는 피드백.

점수 기준:
- 90-100: 의미 정확하게 전달, 학습 단어 올바르게 사용
- 70-89: 의미는 전달됨, 사소한 오류 있음
- 50-69: 부분적으로 맞음
- 0-49: 다시 시도 필요

가중치: 의미(40%), 단어(25%), 문법(20%), 자연스러움(15%)
피드백: 한국어로, 잘한 점 먼저 언급 후 개선점 제시

 

Advanced 프롬프트:

[고급 평가 기준 - TOEFL/IELTS 7+ 수준]

평가 철학: 네이티브 수준의 정확성과 자연스러움 요구.

점수 기준:
- 90-100: 관용적 표현, 정확한 문법, 적절한 어조
- 80-89: 우수하지만 미세한 어색함
- 65-79: 유능하지만 세련미 부족
- 0-64: 고급 수준 미달

가중치: 의미(25%), 문법(25%), 단어(25%), 자연스러움(25%)
피드백: 구체적인 개선 포인트와 대안 표현 제시

4.2 실제 적용 결과

같은 문장을 수준별로 평가한 결과:

입력 문장: "이 지역은 자원이 풍부하다" 사용자 번역: "This area has many resources." 학습 단어: abundant

수준 점수 피드백

Beginner 78점 "문장을 잘 완성했어요! 'abundant'를 사용하면 더 좋아요: 'This area is abundant in resources.'"
Intermediate 65점 "의미는 전달되지만 학습 단어 'abundant'를 사용하지 않았습니다. 'This area is abundant in resources'로 표현해보세요."
Advanced 52점 "학습 단어 미사용, 표현이 단순함. 'This region is abundant in natural resources' 또는 'Resources abound in this area'가 더 자연스럽습니다."

같은 번역인데 수준에 따라 점수와 피드백이 달라진다!


5. 평가 기준 설계 시 고려사항

5.1 긍정적 피드백의 중요성

CEFR과 WIDA 모두 **"할 수 있는 것"**을 기술한다. "틀렸다"가 아닌 "이렇게 하면 더 좋다"로 표현해야 학습 동기가 유지된다.

❌ 나쁜 피드백:

"문법 오류가 심각합니다. 주어-동사 일치를 모릅니다."

✅ 좋은 피드백:

"의미가 잘 전달됐어요! 'She go'를 'She goes'로 바꾸면 완벽해요."

5.2 명확한 점수 기준

"대충 70점" 같은 모호한 기준은 안 된다. 프롬프트에 구체적인 점수 범위와 조건을 명시해야 LLM이 일관되게 채점한다.

5.3 문화적 고려

영국식 vs 미국식 영어 차이도 고려해야 한다.

colour (영국) = color (미국)
travelled (영국) = traveled (미국)

우리 앱에서는 둘 다 정답으로 처리하기로 했다.


6. 정리

조사한 기준 우리 앱에 적용한 것

CEFR A1-C2 등급 3단계 수준 (Beginner/Intermediate/Advanced)
IELTS 4가지 평가 기준 Meaning, Grammar, Word Usage, Naturalness
TOEFL 0-5점 스케일 0-100점 스케일로 확장
WIDA 긍정적 피드백 철학 격려하는 한국어 피드백

 

핵심:

  1. 공인 시험 기준을 참고하되, 앱 특성에 맞게 수정
  2. 수준별로 평가 초점과 관대함 정도를 다르게 설정
  3. 프롬프트에 구체적인 점수 기준과 가중치 명시
  4. 긍정적이고 건설적인 피드백 제공

참고 자료: