LLM 평가 프레임 워크를 제공하는 갈릴레오 AI 에서 현존 최고 LLM들의 할루미네이션 평가를 진행해서 순위를 발표했습니다. 이 평가는 작년 11월에도 있었는데요. 그때는 Open AI의 Chat GPT 4가 휩쓸었었죠. 이번 평가에서는 순위가 뒤바뀐것들이 많았습니다. 벤치마크의 기준은 다음과 같습니다. "새로운 지수는 22개의 주요 모델이 주어진 컨텍스트에 얼마나 잘 부합하는지를 평가하여 개발자가 가격과 성능의 균형을 맞출 때 정보에 입각한 결정을 내릴 수 있도록 지원합니다. 저희는 1,000~100,000개의 토큰을 입력한 상위 LLM을 대상으로 엄격한 테스트를 실시하여 짧은, 중간, 긴 컨텍스트 길이에서 얼마나 잘 작동하는지에 대한 질문에 답했습니다." 다음 3가지로 컨텍스트 길이가 다..