Difference between revisions of "Eosc/NorBERT3 corpus"

Revision as of 15:50, 21 October 2022

We plan to create two versions of the training corpus:

baseline (as is)
Wikipedia+NCC+NAK multiplied by two to match the C4 size (oversampling quality data)

Starting with 50K, following NorBERT-2. May be later experiment with other values.

The size of NBDigital is 662M tokens. Should we use it? It probably overlaps a lot with NCC.

How should we split training corpora: one sentence per line, one paragraph per line, one document per line?

A: BERT assumes that there is one sentence per line.

Revision as of 14:37, 21 October 2022 (view source) Andreku (talk \| contribs) (→‎To Decide) ← Older edit		Revision as of 15:50, 21 October 2022 (view source) Andreku (talk \| contribs) (→‎To Decide) Newer edit →
Line 16:		Line 16:

	How should we split training corpora: one sentence per line, one paragraph per line, one document per line?		How should we split training corpora: one sentence per line, one paragraph per line, one document per line?
		+
		+	A: BERT assumes that there is one sentence per line.