SwissBERT ist ein maskiertes Sprachmodell zur Verarbeitung von schweizbezogenem Text. Es wurde auf mehr als 21 Millionen schweizerischen Nachrichtenartikeln trainiert, die aus Swissdox@LiRI abgerufen wurden.
SwissBERT ist ein Transformer-Encoder mit Sprachadaptern in jeder Schicht. Es gibt einen Adapter für jede Landessprache der Schweiz. Die anderen Parameter im Modell werden unter den vier Sprachen geteilt. SwissBERT basiert auf X-MOD, das mit Sprachadaptern in 81 Sprachen vortrainiert wurde. Für SwissBERT haben wir Adapter für die Landessprachen der Schweiz - Deutsch, Französisch, Italienisch und Rätoromanisch Grischun - trainiert. Zusätzlich haben wir ein schweizspezifisches Subword-Vokabular verwendet.
Kommentare