--- widget: - text: "Dem har sökt upp de för att prata." example_title: "De/dem exempel 1" - text: "Jag såg de komma runt hörnet och gå i riktning mot dem byggnaderna." example_title: "De/dem exempel 2" --- ## Demformer Demformer är en modell som har tränats på att skilja mellan `de` och `dem` i svenska meningar. Modellen kan testas direkt i panelerna till höger under **Hosted Inference API** genom att skriva en mening och trycka på **Compute**. ## Träningsdata Demformer har tränats på meningar från Europarlamentet och svenskspråkiga Wikimedia. Dessa hämtades från [OPUS](https://opus.nlpl.eu/). Källorna valdes ut för att de antogs ha ett korrekt språkbruk. Endast meningar innehållandes `de` eller `dem` -- eller bägge två -- behölls i konstruktionen av träningsdataset. I tabellen nedan återfinns beskrivande statistik över antalet meningar som behölls från respektive dataset, samt frekvenser över förekomsten av `de/dem`. | Datakälla | Meningar | # De | # Dem | De/Dem ratio | | ----------- | ----------- | ------- | ------- | ------------ | | [Europaparl sv.txt.gz](https://opus.nlpl.eu/download.php?f=Europarl/v8/mono/sv.txt.gz) | 495836 | 461305 | 53726 | 8.57x | | [Wikimedia sv.txt.gz](https://opus.nlpl.eu/download.php?f=wikimedia/v20210402/mono/sv.txt.gz) | 626486 | 598371 | 38649 | 15.48x | Vid träningen av Demformer introducerades slumpmässiga substitioner, där `de` eller `dem` byttes ut mot den motsatta formen. Modellen utmanades sedan att klassificera huruvida ett givet ord tillhörde ett av följande kategorier 1. **`ord`** (alla bakgrundsord som inte är de/dem tillhör denna kategori) 2. **`DE`** 3. **`DEM`** Innan observationerna skickades in till modellträning byttes `de` ut mot `dem` med 47 procent sannolikhet, medan `dem` byttes till `de` i 40 procent av fallen. ## Träffsäkerhet/Accuracy Demformer utvärderades på ett valideringsset bestående av 5000 meningar från samma datakälla (svenska wiki + europaparlamentet) som modellen tränats på. Slumpmässiga fel introducerades för att utmana modellen. 47 procent av förekommande `de` i ursprungsmeningarna ändrades till `dem`, medan 40 procent av förekommande `dem` ändrades till `de`. Tabellen nedan visar att Demformer är väldigt träffsäker. De få "felaktiga" prediktioner som modellen outputtar är nästan samtliga `de/dem som`-konstruktioner med bisatser. Dessa är egentligen inte att anse som felaktiga, eftersom [båda formerna är accepterade](https://www4.isof.se/cgi-bin/srfl/visasvar.py?sok=dem%20som&svar=79718&log_id=705355). | | Accuracy | | ----------- | ----------- | | de | 99.5\% | | dem | 96.6\% |