본문 바로가기

IT/개발

미스트랄 라지2 출시 개요 (Mistral Large 2, Llama 3.1 능가)

반응형

메타의 라마 3.1 405B 모델 출시 하루만에 유럽 인공지능(AI) 스타트업 미스트랄 AI가 플래그십 대형언어모델(LLM) '라지(Large)'의 신규 버전을 공개해버렸습니다.

 

라지 2 모델은 1230억개(123B)의 매개변수로, 12만8000 토큰의 컨텍스트 창을 제공하지만 라마 3.1 중 가장 큰 모델(405B)에 비해 매개변수가 3분의 1도 안 되는 크기라고 합니다. (라고는 해도 무지하게 큰 모델입니다)

 

하지만 이미지를 이해하거나 입력할 수 있는 멀티모달 기능은  Llama 3.1 처럼 제공하지 않습니다. 

 

어찌되었건 간에 초대형 모델들이 마구 쏟아져 나오는군요. 

 

연구 및 비상업적 용도로 사용 및 수정할 수 있는 Mistral Research 라이선스이지만 자체 배포가 필요한 상업적 용도로 미스트랄 라지 2를 사용하려면 미스트랄에 문의하여 미스트랄 상업용 라이선스를 취득해애 한다고 합니다. 

 

(1) 코드 및 추론 기능 

 

Codestral 22B와 Codestral Mamba 대한 경험을 바탕으로 미스트랄 라지 2를 매우 많은 양의 코드로 학습시켰으며 GPT-4o, 클로드 3 오퍼스, 라마 3 405B와 같은 주요 모델과 동등한 성능을 발휘합니다.

 

 

 

결과를 보니 대부분 2위네요. 역시 GPT-4o는 대단하긴 합니다. 

코드 생성 벤치마크 휴먼 이밸(HumanEval) 및 휴먼 이밸 플러스를 보니 라지 2는 'GPT-4o'에 이어 2위네요

클로드 3.5 소네트와 클로드 3 오퍼스, 라마 3.1은 넘어선 결과입니다. 

 

(2) 다국어 지원

 

미스트랄 라지 2는 영어, 프랑스어, 독일어, 스페인어, 이탈리아어, 포르투갈어, 네덜란드어, 러시아어, 중국어, 일본어, 한국어, 아랍어, 힌디어에서 뛰어난 성능을 발휘한다고 발표했습니다.

 

아래는 이전 미스트랄 라지, 라마 3.1 모델 및 코히어의 커맨드 R+와 비교한 다국어 MMLU 벤치마크에서 미스트랄 라지 2의 성능 결과입니다.

 

 

Azure AI Studio, Amazon Bedrock, IBM watsonx.ai에 이어 Vertex AI에서도 Mistral AI의 베스트 모델을 사용할 수 있다고 합니다. 

 

반응형