Das Mistral AI-Team freut sich, Mistral 7B vorzustellen, ein Sprachmodell mit 7,3 Milliarden Parametern, das in allen Benchmarks besser abschneidet als die Llama-Modelle. Es nutzt fortschrittliche Techniken wie Gruppierte Abfrageaufmerksamkeit (GQA) und Gleitende Fensteraufmerksamkeit (SWA) für schnellere Inferenz und bessere Handhabung längerer Sequenzen.