지난 블로그 포스팅에서는 생성 AI 또는 LLM의 성능을 평가하기 위해서 어떤 평가 지표 (벤치마크) 방법들이 있는지에 대해서 알아보았습니다.
생성 AI/LLM 성능 평가 지표 (벤치마크) 방법
지금까지 인공지능 또는 LLM이 만들어지는 과정, 사용 사례 등에 대해서 깊게 알아보았습니다. 모든 제품들에는 성능과 품질을 확인하는 기준이 있는데요, 그렇다면 이렇게 만들어진 LLM은 어떤
hope2solveproblems.com
이번 블로그 포스팅에서는 각 방법들의 주요 벤치마크와 그 역할들에 대해서 자세히 알아가 보도록 하겠습니다.
주요 벤치마크와 그 역할
LLM 분야에서의 벤치마크란 특정 태스크, 태스크 수행을 위한 데이터 셋, 수행능력을 평가하는 메트릭(Accuracy, F1 스코어, 부적절 발언 발생률 등)을 포함하는 평가의 틀을 말합니다.
작업은 QA, 요약, 번역 등 다양하며, 데이터 셋도 이에 대응하는 자연어 데이터 셋이 준비되어 있습니다. 또, 최근에는 LLM의 진실성, 안전성, 공평성 등 평가 관점에 초점을 맞춘 벤치마크도 다수 제안되고 있습니다.
이러한 벤치마크는 특정 사용 사례에 적합한 모델을 선택할 때의 지침이 됩니다. 통상적으로 벤치마크는 다음과 같은 3개 카테고리로 분류됩니다. 각각의 설명과 그 벤치마크의 내용의 예를 소개합니다.
Core-knowledge benchmarks
Core-knowledge benchmarks는 사전 학습이 끝난 LLM의 기초가 되는 능력을 측정하는 벤치마크 클러스터입니다. LLM이 얼마나 범용적인 지식을 보유하고 제로샷/퓨샷 조건에서 어느 정도 작업을 수행할 수 있는지 평가할 수 있습니다.
난이도는 낮은 설계이며 도메인에 특화되어 있어 비즈니스에 적용할 수 있는지의 측정이라기보다는 그 전제가 되는 LLM의 기본적인 이해력 측정에 적합합니다.
MMLU (Massive Multitask Language Understanding)
고등학교 수준부터 전문 수준까지를 묻는 문제가 많이 모아지고 있습니다. 인문과학에 관한 태스크에서는, 고교 레벨의 역사, 국제법, 법학의 데이터 세트가 준비되어 있으며, 평가는 주로 Accuracy가 이용되고 있습니다.
GLUE (General Language Understanding Evaluation)
기본적인 언어 이해 능력을 넓게 측정하기 위해 설계된 벤치마크입니다. 영화 리뷰 데이터를 이용한 감정의 2치 분류나, 뉴스 표제문을 이용한 유사성 평가 등 복수의 태스크를 포함하고 있습니다.
평가는 Accuracy, F1 스코어, 매튜스 상관계수, 스피어 맨의 순위 상관계수 등 태스크 별로 다양한 지표가 사용되고 있습니다.
Instruction-following benchmarks
Instruction-following benchmarks는 Instruction tuning(지시에 따라 작업을 수행하도록 학습시키는 방법) 된 LLM의 능력을 측정하는 벤치마크 클러스터로, 오픈 엔드에서 다양한 작업 프롬프트가 이용되고 있습니다. 벤치마크의 난이도는 3가지 중 중앙에 위치합니다.
SUPER-NATURALINSTRUCTIONS
분류, 텍스트 작성, 시퀀스 태그 지정, 문법 오류 수정 등 76가지 작업, 55개 언어, 총 1,616개의 자연어 처리 작업을 커버하고 미지의 작업에 대한 적응 능력을 평가하는 벤치마크입니다.
평가 지표로는 ROUGE-L이 이용되고 있습니다.
Conversational benchmarks
Conversational benchmarks는 챗봇 LLM의 대화 능력을 측정하는 벤치마크 클러스터입니다. 이러한 벤치마크 작업에서는 복잡하고 다양한 답변을 요구하고 있으며, 다른 카테고리와 비교하여 최고 난이도입니다.
고객 챗봇 개발 등에서는 이러한 벤치마크에서의 검증이 도움이 될 것입니다.
MT-bench
80개의 멀티 턴(여러 번의 대화를 주고받음) 질문을 고려한 벤치마크입니다. 프롬프트로는 라이팅, 롤플레이, 수학, 코딩, 추론 등 총 8개 카테고리가 있으며, 각각 10개의 멀티 턴 질문으로 구성되어 있습니다. 평가는 주로 1-10의 10단계 평가가 이용되고 있습니다.
Rakuda Benchmark
역사, 사회, 정치, 지리에 관한 일본어로의 40개 오픈 퀘스천이 포함된 벤치마크입니다. 어떤 LLM의 출력이 최적인지를 페어 비교를 통해 다른 평가용 LLM이 평가합니다.
평가는 모델의 상대적인 순위를 매기는 데 사용되는 Brandley-Terry model에 의한 Eloscore가 이용되고 있습니다.
이번 블로그 포스팅에서는 업계에서 많이 사용되고 있는 벤치마크들과 그 역할에 대해서 자세히 알아보았습니다.
다음 블로그 포스팅에서는 벤치마크가 비즈니스에 어떻게 기여하는지, 그리고 벤치마크의 문제와 한계점에 대해서도 알아보도록 하겠습니다.
'인공지능 (AI)' 카테고리의 다른 글
Encoder-Decoder 네트워크의 활용 사례 (0) | 2025.02.12 |
---|---|
생성 AI/LLM 성능 평가 지표 (벤치마크) 활용과 문제 (0) | 2025.02.11 |
생성 AI/LLM 성능 평가 지표 (벤치마크) 방법 (0) | 2025.02.09 |
Encoder-Decoder 네트워크의 개념, 정의 (0) | 2025.01.04 |
전이 학습의 개념, 장단점, 활용 사례 (2) | 2025.01.03 |