Korpuslingvistik – Wikipedia
Korpuslingvistik kallas metoden att använda en korpus, en stor samling språkliga data, för språkstudier.[1] Termen myntades först på 1980-talet, men metoden började användas flera årtionden dessförinnan. En svensk pionjär på 1960-talet var Sture Allén med Nusvensk frekvensordbok.
Korpus
[redigera | redigera wikitext]En korpus är en stor samling språkliga data, det kan röra sig om (transkriberat) talat eller tecknat språk, eller skriven text. Det finns olika sätt att definiera en korpus, men vanligen lagras en korpus elektroniskt med syfte att vara representativ för språket i fråga.
En korpus kan vara synkron eller diakron. Det vanliga är att en korpus har en bestämd (finit) storlek, men det finns också korpusar/korpora som växer med tiden, kallade monitorkorpusar. En korpus kan innehålla mer än ett språk, och kallas då parallellkorpus eller jämförbar korpus. En parallellkorpus är i allmänhet också en översättningskorpus, det vill säga att den innehåller texter på ett språk som kopplas samman med översättningar till ett annat språk och vice versa.
Tidiga korpusar var ofta noggrant viktade så att man valde texter från en noga genomtänkt blandning av genrer, till exempel både skönlitteratur och många olika sorters facklitteratur, och texter av många olika författare. Ett exempel på en sådan korpus som framställts i Sverige är Uppsalakorpusen, som innehåller en miljon ord. Idag är de flesta korpusar för språkvetenskaplig forskning betydligt större. Korpusar används bland annat för att ta fram ordböcker.
Man kan också tala om det material som ligger till grund för en viss artikel eller avhandling som en korpus.
Exempel på korpusar:
- En stor mängd svenska korpusar finns tillgängliga genom "Korp" i Språkbanken vid Göteborgs universitet[2]
- SUC[3]
- Svensk teckenspråkskorpus [4] vid Stockholms universitet
- Europarl[5]
- British National Corpus[6]
- Uppsalakorpusen[7]
- Tjeckiska nationalkorpusen[8]
Ett exempel på en svensk forskare inom korpuslingvistik är Sture Allén.[9]
Referenser
[redigera | redigera wikitext]Noter
[redigera | redigera wikitext]- ^ http://sprakteknologi.se/vad-aer-sprakteknologi/lexikon/korpusar Arkiverad 20 december 2007 hämtat från the Wayback Machine., läst 26 februari 2009.
- ^ http://spraakbanken.gu.se/, läst den 18 april 2018.
- ^ ”Arkiverade kopian”. Arkiverad från originalet den 4 augusti 2010. https://web.archive.org/web/20100804212751/http://www.ling.su.se/staff/sofia/suc/suc.html. Läst 26 februari 2009., läst 26 februari 2009.
- ^ https://teckensprakskorpus.su.se/#/, läst den 24 mars 2020.
- ^ http://www.statmt.org/europarl/, läst 26 februari 2009.
- ^ http://www.natcorp.ox.ac.uk/, läst 26 februari 2009.
- ^ ”Arkiverade kopian”. Arkiverad från originalet den 23 maj 2009. https://web.archive.org/web/20090523210240/http://www.slaviska.uu.se/ryska/corpus.html. Läst 2 juni 2009., läst 2 juni 2009.
- ^ ”Tjeckiska nationalkorpusen”. Arkiverad från originalet den 16 juni 2019. https://web.archive.org/web/20190616163438/https://www.korpus.cz/. Läst 19 november 2019. (Tryck på "English" uppe till höger.) Innehåller bland annat Intercorp, en parallellkorpus med bland annat svensk skönlitteratur översatt till tjeckiska. Läst den 20 april 2018.
- ^ ”Personal”. Göteborgs universitet. 14 januari 2009. Arkiverad från originalet den 12 juni 2018. https://web.archive.org/web/20180612135948/https://svenska.gu.se/om-oss/personal?userId=xjosof&userName=Sofie%20Johansson%20Kokkinakis#tabContentAnchor2. Läst 7 juni 2018.
Allmänna källor
[redigera | redigera wikitext]- McEnery, T., Xiao, R., Tono Y. 2006. Corpus-Based Language Studies – an advanced resource book