미스트랄 AI는 인공지능(AI) 제품을 판매하는 프랑스 기업

미스트랄 AI는 인공지능(AI) 제품을 판매하는 프랑스 기업입니다.

2023년 4월 메타플랫폼과 구글 딥마인드의 전 직원들이 설립했습니다.

회사는 2023년 10월에 3억 8500만 유로를 모금했으며 2023년 12월에는 20억 달러 이상의 가치를 평가했습니다.

오픈 소스 소프트웨어의 기본적인 중요성과 독점 모델에 대한 대응을 인용하여 오픈 소스 대규모 언어 모델을 생산합니다.

2023년 12월 현재 2개의 모델이 출시되었으며, 가중치로 제공됩니다. 또 다른 프로토타입 "Mistral Media"는 API를 통해서만 사용할 수 있습니다.

미스트랄 AI는 2023년 4월 아서 멘쉬(Arthur Mensch), 기욤 램플(Guillaume Lample), 티모테 라크루아(Timothée Lacroix)가 공동 설립했습니다.아서 멘쉬는 미스트랄 AI를 공동 설립하기 전에 구글의 인공지능 연구소인 구글 딥마인드에서, 기욤 램플과 티모티 라크루아는 메타 플랫폼에서 근무했습니다.

2023년 6월, 이 스타트업은 미국 펀드 라이트스피드 벤처 파트너스, 에릭 슈미트, 자비에 닐, JCDecaux를 포함한 투자자들과 함께 1억 500만 유로(1억 1,700만 달러)의 첫 번째 모금을 진행했습니다. 그런 다음 파이낸셜 타임즈는 평가액을 2억 4천만 유로, 즉 약 2억 6천 7백만 달러로 추정합니다.

2023년 9월 27일, 이 회사는 자사의 언어 처리 모델인 "미스트랄 7B"를 무료 아파치 2.0 라이선스로 사용할 수 있도록 했습니다. 이 모델은 70억 개의 매개 변수를 가지고 있어 경쟁 모델에 비해 작은 크기입니다.

2023년 12월 10일, 미스트랄 AI는 두 번째 모금의 일환으로 3억 8500만 유로(4억 2800만 달러)를 모금했다고 발표했습니다. 이 자금 조달에는 캘리포니아 펀드 Andreessen Horowitz, BNP Paribas 및 소프트웨어 출판사 Salesforce가 포함되어 있습니다.

2023년 12월 11일, 이 회사는 467억 개의 파라미터를 가진 "Mixtral 8x7B" 모델을 출시했지만 전문가 아키텍처가 혼합된 덕분에 토큰당 129억 개만 사용했습니다. 이 모델은 5개 언어(프랑스어, 스페인어, 이탈리아어, 영어 및 독일어)를 마스터하고 개발자들의 테스트에 따르면 메타의 "LAMA 270B" 모델보다 성능이 뛰어납니다. "Mixtral 8x7B Instruct"라는 지침을 따르도록 훈련된 버전도 제공됩니다.

2024년 2월 26일, 마이크로소프트는 빠르게 진화하는 인공지능 산업에서 입지를 확장하기 위해 회사와 새로운 파트너십을 발표했습니다. 이번 계약에 따라 미스트랄의 풍부한 언어 모델은 마이크로소프트의 애저 클라우드에서 사용할 수 있으며, 다국어 대화형 비서 "르챗"은 ChatGPT 스타일로 출시될 예정입니다.

미스트랄 7B는 트랜스포머 아키텍처를 사용하는 7.3B 파라미터 언어 모델입니다. 2023년 9월 27일 비트토렌트 자석 링크와 [14]허깅 페이스를 통해 정식 발매. 이 모델은 아파치 2.0 라이선스로 출시되었습니다. 릴리스 블로그 게시물은 이 모델이 테스트된 모든 벤치마크에서 LLaMA 213B를 능가하며 테스트된 많은 벤치마크에서 LLaMA 34B와 동등하다고 주장했습니다.

미스트랄 7B는 LLaMA와 유사한 아키텍처를 사용하지만 주의 메커니즘이 약간 변경되었습니다. 특히 더 빠른 추론을 위한 GQA(Grouped-query-attention)와 더 긴 시퀀스를 처리하기 위한 SWA(Sliding Window Attention)를 사용합니다.

SWA(Sliding Window Attention)는 더 긴 시퀀스에 대한 계산 비용과 메모리 요구 사항을 줄여줍니다. 슬라이딩 윈도우 어텐션에서 각 토큰은 4096개 토큰의 "슬라이딩 윈도우"에 있는 이전 레이어의 고정된 개수의 토큰에만 참여할 수 있으며, 총 컨텍스트 길이는 32768개 토큰입니다. 추론 시 캐시 가용성이 감소하여 지연 시간이 길어지고 처리량이 줄어듭니다. 이러한 문제를 완화하기 위해 Mistral 7B는 롤링 버퍼 캐시를 사용합니다.

미스트랄 7B는 표준 주의 메커니즘의 변형인 그룹화된 쿼리 주의(GQA)를 사용합니다. 모든 숨겨진 상태에 대한 주의를 계산하는 대신 숨겨진 상태 그룹에 대한 주의를 계산합니다.

기본 모델과 "지시" 모델이 모두 출시되었으며 나중에는 채팅 스타일 프롬프트를 따라 추가 튜닝을 받았습니다. 미세 조정된 모델은 시연용으로만 사용되며 가드레일이나 조정 기능이 내장되어 있지 않습니다.

Mixtral 8x7B[편집하다]Mistral의 첫 번째 모델과 마찬가지로 Mixral 8x7B는 2023년 12월 9일 BitTorrent를 통해 출시되었으며, 이후 Hugging Face와 블로그 게시물이 이틀 후에 출시되었습니다.

이전 미스트랄 모델과 달리 Mixral 8x7B는 전문가 아키텍처가 희소하게 혼합되어 있습니다. 이 모델에는 8개의 서로 다른 "전문가" 그룹이 있으므로 모델에 총 46.7B개의 사용 가능한 매개 변수를 제공합니다. 각 단일 토큰은 12개만 사용할 수 있습니다.9B 매개변수, 따라서 12의 속도와 비용을 제공합니다.9B 매개변수 모델이 발생합니다.

미스트랄 AI의 테스트에 따르면 이 모델은 대부분의 벤치마크에서 LLaMA 70B와 GPT-3.5를 모두 능가합니다.[

미스트랄 7B 및 믹스트랄 8x7B와 달리 미스트랄 미디엄은 미스트랄 API를 통해서만 제공되는 폐쇄형 소스 프로토타입입니다. MT-Bench에서 8.6점을 받아 영어, 프랑스어, 이탈리아어, 독일어, 스페인어, 코드 등 다양한 언어로 교육받고 있습니다.[22] LMSys ELO Arena 벤치마크에서 Claude 이상, GPT-4 이하의 성능을 보이는 Mistral의 최고 성능의 대형 언어 모델입니다.

미스트랄 미디어의 매개변수 수와 아키텍처는 미스트랄이 이에 대한 공개 정보를 발표하지 않았기 때문에 알 수 없습니다.