생성형 AI 성능평가지표 리서치/벤치마킹 | Notion

💡 KAIST FLASK 논문 분석을 통한 HyperCLOVA 평가지표 벤치마킹 및 기획

Untitled

분석 개요

종합 평가결과

평가 데이터셋 생성

공통 평가기준

Model-based : LLM 모델 평가

Human-based : 레이블러들의 리커트 척도 평가

Takeaways : 연구 의의 및 활용방안

네이버 CLOVA X Skill 정성평가 적용