💡 KAIST FLASK 논문 분석을 통한 HyperCLOVA 평가지표 벤치마킹 및 기획
분석 개요
종합 평가결과
평가 데이터셋 생성
공통 평가기준
Model-based : LLM 모델 평가
Human-based : 레이블러들의 리커트 척도 평가
Takeaways : 연구 의의 및 활용방안
네이버 CLOVA X Skill 정성평가 적용