widget:
- text: Dem har sökt upp de för att prata.
example_title: De/dem exempel 1
- text: Jag såg de komma runt hörnet och gå i riktning mot dem byggnaderna.
example_title: De/dem exempel 2
Demformer
Demformer är en modell som har tränats på att skilja mellan de
och dem
i svenska meningar. Modellen kan testas direkt i panelerna till höger under Hosted Inference API genom att skriva en mening och trycka på Compute.
Träningsdata
Demformer har tränats på meningar från Europarlamentet och svenskspråkiga Wikimedia. Dessa hämtades från OPUS. Källorna valdes ut för att de antogs ha ett korrekt språkbruk.
Endast meningar innehållandes de
eller dem
-- eller bägge två -- behölls i konstruktionen av träningsdataset. I tabellen nedan återfinns beskrivande statistik över antalet meningar som behölls från respektive dataset, samt frekvenser över förekomsten av de/dem
.
Datakälla | Meningar | # De | # Dem | De/Dem ratio |
---|---|---|---|---|
Europaparl sv.txt.gz | 495836 | 461305 | 53726 | 8.57x |
Wikimedia sv.txt.gz | 626486 | 598371 | 38649 | 15.48x |
Vid träningen av Demformer introducerades slumpmässiga substitioner, där de
eller dem
byttes ut mot den motsatta formen. Modellen utmanades sedan att klassificera huruvida ett givet ord tillhörde ett av följande kategorier
ord
(alla bakgrundsord som inte är de/dem tillhör denna kategori)DE
DEM
Innan observationerna skickades in till modellträning byttes de
ut mot dem
med 47 procent sannolikhet, medan dem
byttes till de
i 40 procent av fallen.
Träffsäkerhet/Accuracy
Demformer utvärderades på ett valideringsset bestående av 5000 meningar från samma datakälla (svenska wiki + europaparlamentet) som modellen tränats på. Slumpmässiga fel introducerades för att utmana modellen. 47 procent av förekommande de
i ursprungsmeningarna ändrades till dem
, medan 40 procent av förekommande dem
ändrades till de
. Tabellen nedan visar att Demformer är väldigt träffsäker. De få "felaktiga" prediktioner som modellen outputtar är nästan samtliga de/dem som
-konstruktioner med bisatser. Dessa är egentligen inte att anse som felaktiga, eftersom båda formerna är accepterade.
Accuracy | |
---|---|
de | 99.5% |
dem | 96.6% |