Swissbert (MLM für Schwiitzerdütsch)

Von Neuromancer, 2. Juli 2023

SwissBERT ist ein maskiertes Sprachmodell zur Verarbeitung von schweizbezogenem Text. Es wurde auf mehr als 21 Millionen schweizerischen Nachrichtenartikeln trainiert, die aus Swissdox@LiRI abgerufen wurden.

SwissBERT ist ein Transformer-Encoder mit Sprachadaptern in jeder Schicht. Es gibt einen Adapter für jede Landessprache der Schweiz. Die anderen Parameter im Modell werden unter den vier Sprachen geteilt. SwissBERT basiert auf X-MOD, das mit Sprachadaptern in 81 Sprachen vortrainiert wurde. Für SwissBERT haben wir Adapter für die Landessprachen der Schweiz - Deutsch, Französisch, Italienisch und Rätoromanisch Grischun - trainiert. Zusätzlich haben wir ein schweizspezifisches Subword-Vokabular verwendet.

Kommentare