AI가 사용자의 영어 문장을 채점한다고 하자. 무엇을 기준으로 몇 점을 줄 것인가?를 정하지 않으면, AI는 매번 다른 기준으로 들쭉날쭉한 점수를 줄 것이다.... 그래서 실제 공인 영어 시험들의 평가 기준을 사용하면 좋을 것 같다는 생각이 들었다. 이를 외국어 학습 앱에 어떻게 적용할 수 있는지 정리해 보겠다.
1. 평가 기준이 왜 필요하지.
1.1 일관성 문제
LLM에게 "이 문장 평가해줘"라고만 하면 같은 문장에서도 오류의 심각성을 멋대로 판단해서 점수의 편차가 크다. 이러면 사용자 입장에서 신뢰할 수 없는 결과가 출력되어 버린다.
1.2 수준별 차등 평가
같은 문장에 대해서라도 사용자의 수준에 따라 기준이 달라야 한다. 초등학생과 대학생을 같은 기준으로 평가할 수 없다. 사용자 같은 문장에 대한 평가가 필요하다.
2. 국제 공인 평가 기준 조사
내가 프롬프트를 작성하는 것보다 세계적으로 인정받는 영어 평가 기준들을 살펴보고 응용하거나 사용하는 편이 좋을 것 같다.
2.1 CEFR (유럽공통참조기준)
Common European Framework of Reference for Languages
유럽연합에서 만든 언어 능력 평가 기준으로, 전 세계적으로 가장 널리 사용된다.
등급 수준 설명
| A1 | Beginner | 기초적인 표현, 자기소개 가능 |
| A2 | Elementary | 일상적인 표현, 간단한 정보 교환 |
| B1 | Intermediate | 익숙한 주제에 대해 간단한 문장 생성 |
| B2 | Upper-Intermediate | 복잡한 텍스트 이해, 유창한 대화 |
| C1 | Advanced | 암묵적 의미 파악, 유연한 언어 사용 |
| C2 | Proficiency | 거의 원어민 수준 |
특징:
- "무엇을 할 수 있는가"(Can-do statements) 중심
- 읽기, 쓰기, 듣기, 말하기 모두 포괄
- 긍정적인 성취 기술 (못하는 것이 아닌 할 수 있는 것 기술)
2.2 TOEFL iBT Writing Rubric
Test of English as a Foreign Language
미국 ETS에서 주관하는 시험으로, 대학/대학원 입학에 사용된다.
Writing 평가 기준 (0-5점):
점수 기준
| 5 | 주제에 효과적으로 응답, 잘 조직됨, 적절한 설명과 예시, 일관성 있음, 문법/어휘 오류 거의 없음 |
| 4 | 주제에 적절히 응답, 대체로 잘 조직됨, 적절한 설명, 일관성 있음, 사소한 문법 오류 |
| 3 | 주제에 부분적으로 응답, 조직에 약간의 문제, 설명 부족, 간헐적 비일관성, 눈에 띄는 오류 |
| 2 | 주제와 연결 약함, 조직 불량, 설명 매우 부족, 심각한 오류로 의미 전달 방해 |
| 1 | 주제와 거의 무관, 조직 없음, 이해 어려움 |
| 0 | 응답 없음 또는 주제와 완전히 무관 |
특징:
- Task Response (과제 응답) 중시
- Development (전개) 평가
- Organization (구성) 평가
- Language Use (언어 사용) 평가
2.3 IELTS Writing Band Descriptors
International English Language Testing System
영국, 호주, 캐나다 등에서 널리 사용되는 시험이다.
Writing 평가 4가지 기준:
기준 설명 비중
| Task Achievement | 과제 요구사항 충족도 | 25% |
| Coherence & Cohesion | 논리적 흐름, 연결어 사용 | 25% |
| Lexical Resource | 어휘의 다양성과 정확성 | 25% |
| Grammatical Range & Accuracy | 문법 다양성과 정확성 | 25% |
Band 점수 예시 (9점 만점):
Band Task Achievement Grammar
| 9 | 완벽하게 충족 | 오류 거의 없음 |
| 7 | 충분히 충족 | 복잡한 구조 사용, 간헐적 오류 |
| 5 | 부분적 충족 | 제한된 구조, 빈번한 오류 |
| 3 | 거의 미충족 | 매우 제한적, 심각한 오류 |
특징:
- 4가지 기준 균등 평가 (각 25%)
- Band 0.5 단위 세분화
- 분석적 채점 (각 기준별 개별 점수)
2.4 ESL/WIDA Writing Rubric
World-class Instructional Design and Assessment
주로 초중등 ESL(English as a Second Language) 학습자 평가에 사용된다.
6단계 평가:
Level 이름 특징
| 1 | Entering | 그림, 단어 수준의 응답 |
| 2 | Emerging | 구, 짧은 문장 |
| 3 | Developing | 확장된 문장, 관련 아이디어 |
| 4 | Expanding | 복잡한 문장, 구체적 어휘 |
| 5 | Bridging | 다양한 문장 구조, 학술적 어휘 |
| 6 | Reaching | 원어민에 근접한 수준 |
특징:
- 학습자 중심의 긍정적 기술
- 발전 단계를 명확히 구분
- 초보자에게 친화적인 기준
3. 우리 앱에 적용하기
3.1 사용자 수준 정의
조사한 기준들을 참고하여 우리 앱의 3단계 수준을 정의했다.
앱 수준 CEFR 대응 대상 평가 초점
| Beginner | A1-A2 | 초등~중학생 | 의미 전달, 기본 문법 |
| Intermediate | B1-B2 | 고등학생 | 정확성, 자연스러움 |
| Advanced | C1-C2 | 대학생, TOEFL/IELTS 준비생 | 정밀성, 관용적 표현 |
3.2 평가 항목 설계
IELTS의 4가지 기준을 참고하되, 우리 앱의 "번역 평가"에 맞게 수정했다.
IELTS 원본 기준:
- Task Achievement (과제 충족)
- Coherence & Cohesion (일관성)
- Lexical Resource (어휘)
- Grammatical Range & Accuracy (문법)
우리 앱 적용 기준:
- Meaning (의미 전달) ← Task Achievement
- Grammar (문법) ← Grammatical Accuracy
- Word Usage (단어 활용) ← Lexical Resource
- Naturalness (자연스러움) ← Coherence 일부
"Coherence & Cohesion"은 긴 글에서 중요하지만, 단문 번역에서는 "Naturalness"로 대체했다.
3.3 수준별 점수 기준
각 수준별로 점수 분포를 다르게 설계했다.
Beginner (관대한 평가):
90-100: 의미 전달 성공, 학습 단어 사용
70-89: 의미 전달됨, 사소한 오류
50-69: 부분적으로 맞음
0-49: 다시 시도 필요
→ ESL/WIDA의 긍정적 피드백 철학 적용
Intermediate (균형 잡힌 평가):
90-100: 정확하고 자연스러움
75-89: 좋지만 약간 어색
60-74: 의미는 통하지만 오류 있음
0-59: 개선 필요
→ IELTS Band 5-7 수준 기준 적용
Advanced (엄격한 평가):
90-100: 네이티브 수준, 관용적 표현
80-89: 우수하지만 미세한 어색함
65-79: 좋지만 세련미 부족
0-64: 고급 수준 미달
→ TOEFL 4-5점 / IELTS Band 7+ 기준 적용
3.4 가중치 설계
수준에 따라 평가 항목의 가중치도 다르게 적용했다.
항목 Beginner Intermediate Advanced
| Meaning | 40% | 30% | 25% |
| Grammar | 20% | 30% | 25% |
| Word Usage | 25% | 25% | 25% |
| Naturalness | 15% | 15% | 25% |
설계 근거:
- Beginner: 의미 전달이 가장 중요. 문법 오류는 관대하게.
- Intermediate: 의미와 문법 균형. 정확성 강조.
- Advanced: 자연스러움(Naturalness)의 비중 증가. 원어민다운 표현 요구.
4. 프롬프트에 반영하기
설계한 평가 기준을 LLM 프롬프트에 녹여야 한다.
4.1 수준별 프롬프트 예시
Beginner 프롬프트:
[초급 평가 기준 - ESL 학습자 기준]
평가 철학: 의미 전달이 핵심. 문법 오류는 관대하게. 격려하는 피드백.
점수 기준:
- 90-100: 의미 정확하게 전달, 학습 단어 올바르게 사용
- 70-89: 의미는 전달됨, 사소한 오류 있음
- 50-69: 부분적으로 맞음
- 0-49: 다시 시도 필요
가중치: 의미(40%), 단어(25%), 문법(20%), 자연스러움(15%)
피드백: 한국어로, 잘한 점 먼저 언급 후 개선점 제시
Advanced 프롬프트:
[고급 평가 기준 - TOEFL/IELTS 7+ 수준]
평가 철학: 네이티브 수준의 정확성과 자연스러움 요구.
점수 기준:
- 90-100: 관용적 표현, 정확한 문법, 적절한 어조
- 80-89: 우수하지만 미세한 어색함
- 65-79: 유능하지만 세련미 부족
- 0-64: 고급 수준 미달
가중치: 의미(25%), 문법(25%), 단어(25%), 자연스러움(25%)
피드백: 구체적인 개선 포인트와 대안 표현 제시
4.2 실제 적용 결과
같은 문장을 수준별로 평가한 결과:
입력 문장: "이 지역은 자원이 풍부하다" 사용자 번역: "This area has many resources." 학습 단어: abundant
수준 점수 피드백
| Beginner | 78점 | "문장을 잘 완성했어요! 'abundant'를 사용하면 더 좋아요: 'This area is abundant in resources.'" |
| Intermediate | 65점 | "의미는 전달되지만 학습 단어 'abundant'를 사용하지 않았습니다. 'This area is abundant in resources'로 표현해보세요." |
| Advanced | 52점 | "학습 단어 미사용, 표현이 단순함. 'This region is abundant in natural resources' 또는 'Resources abound in this area'가 더 자연스럽습니다." |
같은 번역인데 수준에 따라 점수와 피드백이 달라진다!
5. 평가 기준 설계 시 고려사항
5.1 긍정적 피드백의 중요성
CEFR과 WIDA 모두 **"할 수 있는 것"**을 기술한다. "틀렸다"가 아닌 "이렇게 하면 더 좋다"로 표현해야 학습 동기가 유지된다.
❌ 나쁜 피드백:
"문법 오류가 심각합니다. 주어-동사 일치를 모릅니다."
✅ 좋은 피드백:
"의미가 잘 전달됐어요! 'She go'를 'She goes'로 바꾸면 완벽해요."
5.2 명확한 점수 기준
"대충 70점" 같은 모호한 기준은 안 된다. 프롬프트에 구체적인 점수 범위와 조건을 명시해야 LLM이 일관되게 채점한다.
5.3 문화적 고려
영국식 vs 미국식 영어 차이도 고려해야 한다.
colour (영국) = color (미국)
travelled (영국) = traveled (미국)
우리 앱에서는 둘 다 정답으로 처리하기로 했다.
6. 정리
조사한 기준 우리 앱에 적용한 것
| CEFR A1-C2 등급 | 3단계 수준 (Beginner/Intermediate/Advanced) |
| IELTS 4가지 평가 기준 | Meaning, Grammar, Word Usage, Naturalness |
| TOEFL 0-5점 스케일 | 0-100점 스케일로 확장 |
| WIDA 긍정적 피드백 철학 | 격려하는 한국어 피드백 |
핵심:
- 공인 시험 기준을 참고하되, 앱 특성에 맞게 수정
- 수준별로 평가 초점과 관대함 정도를 다르게 설정
- 프롬프트에 구체적인 점수 기준과 가중치 명시
- 긍정적이고 건설적인 피드백 제공
참고 자료: