Audiocraft ist eine PyTorch-Bibliothek für die Forschung im Bereich der Audiogenerierung mit Hilfe von Deep Learning. Derzeit enthält sie den Code für MusicGen, ein hochmodernes, steuerbares Text-zu-Musik-Modell.
Audiocraft stellt den Code und die Modelle für MusicGen bereit, ein einfaches und steuerbares Modell zur Musikgenerierung. MusicGen ist ein einstufiges autoregressives Transformer-Modell, das mit einem 32kHz EnCodec-Tokenizer und 4 Codebüchern trainiert wurde, die mit 50 Hz abgetastet werden. Im Gegensatz zu bestehenden Methoden wie MusicLM erfordert MusicGen keine selbstüberwachte semantische Repräsentation und generiert alle 4 Codebücher in einem Durchlauf. Durch die Einführung einer kleinen Verzögerung zwischen den Codebüchern zeigen wir, dass wir sie parallel vorhersagen können, wodurch nur 50 autoregressive Schritte pro Sekunde Audio erforderlich sind. Schauen Sie sich unsere Beispiel-Seite an oder testen Sie die verfügbare Demo!
Insgesamt haben wir 20.000 Stunden lizenzierter Musik verwendet, um MusicGen zu trainieren. Konkret stützen wir uns auf einen internen Datensatz von 10.000 hochwertigen Musiktiteln sowie auf die Musikdaten von ShutterStock und Pond5.
Kommentare