Eosc/norbert

From Nordic Language Processing Laboratory

Revision as of 19:45, 16 September 2020 by Andreku (talk | contribs)

(diff) ← Older revision | Latest revision (diff) | Newer revision → (diff)

Jump to: navigation, search

Contents

1 Working Notes for Norwegian BERT-Like Models
2 Available Text Corpora
3 Preprocessing and Tokenization
4 Evaluation

Working Notes for Norwegian BERT-Like Models

Available Text Corpora

Preprocessing and Tokenization

SentencePiece library finds 157 unique characters in Norwegian Wikipedia dump.

Evaluation

Do we have available Norwegian test sets for typical NLP tasks to evaluate our NorBERT?

Retrieved from "http://wiki.nlpl.eu/index.php?title=Eosc/norbert&oldid=1066"