En finlandssvensk textkorpus
A Finland Swedish Text Corpus (FISC)
Institutionen för nordiska språk och nordisk litteratur
Helsingfors universitet
Januari 1995
Sammanställd av Mirja Saari, Jan Lindström, Hannu Aarnitukia
1. Projektets namn, forskare och syfte
Namn: En finlandssvensk textkorpus
A Finland Swedish Text Corpus, FISC
Placering: Institutionen för nordiska språk och nordisk litteratur,
Helsingfors universitet
Tid: 1.8.1991 - 31.12.1994
Projektledare: Prof. Mirja Saari
Referensgrupp: Prof. Fred Karlsson, Institutionen för allmän
språkvetenskap samt
byråchef FL Mikael Reuter, Forskningscentralen för
de inhemska språken
Forskare: FL Jan Lindström, FL Juhani Birn, FM Hannu Aarnitukia,
FM Maria Hägglund
Forskningsbiträde: Fil. stud. Annika Salervo
Datalingvistisk expertis: FK Kari Pitkänen
Syfte: Projektet syftar till en kartläggning av modernt
finlandssvenskt språkbruk i skrift. Detta sker genom
uppläggning av en datorbaserad textkorpus bestående av
tidningsmaterial, myndighetstexter, skönlitteratur samt
övrig icke-fiktiv prosa; i ett senare skede kan
materialet utökas. Samtidigt som FISC-korpusen möjliggör
granskningen av speciellt finlandssvenska språkdrag är korpusen
också av stort allmänsvenskt intresse. Ett samarbete med ett
motsvarande projekt vid Institutionen för lingvistik vid
Stockholms universitet har etablerats, vilket ger möjligheter
till direkta jämförelser med det sverigesvenska språkbruket.
Korpusen bereder vidare material som kan utnyttjas vid
utarbetningen av datoriserade lingvistiska analysprogram, i
synnerhet en ny version av SWETWOL-programmet.
2. Bakgrund
Behovet av en datorbaserad finlandssvensk textsamling har redan under en
längre tid varit akut. Dels är ett dylikt underlag nödvändigt för den praktiska
språkvården i Finland, dels ger ett ADB-baserat material goda möjligheter för
språkforskning av teoretiskt intresse inom ett språksamfund som Finland. Den
finlandssvenska särutvecklingen har i brist på systematiskt uppgjorda
materialsamlingar kunnat beskrivas i ytterst blygsam utsträckning. Många
uttalanden om finlandssvenska tycks grunda sig på lösa antaganden, vilket
ibland kommer till uttryck i laddade insändare i tidningsspalterna. Forskarna
för sin del har saknat underlag för en saklig debatt i frågan. Det är allmänt
känt att skillnaderna gentemot svenskan i Sverige är många, men hur
genomgående de är i ord- och frasförrådet, syntaxen och semantiken samt
själva språkbruket finns det inga uppgifter om. FISC-korpusen kartlägger
speciellt läget hos det skrivna svenska språket i Finland. Skriftspråket är
ett viktigt forskningsobjekt, emedan det är en central offentlig mönster-
bildareinom ett språksamfund.
I teoretiskt avseende är svenska språket i Finland på många sätt värt att
undersöka, eftersom det trots sin minoritetsställning i århundraden har varit
landets officiella språk. Jämfört med de flesta minoritetsspråk i Europa kan
man därför vänta sig en utveckling som skiljer sig från ett mönster där
utgångspunkterna varit andra. Bl.a. har ett särskilt finlandssvenskt riksspråk
utvecklats, och man utgår ifrån att det i Åbo långt in på 1700-talet inte var
mer provinsiellt än i städerna i Sverige i allmänhet (Ahlbäck 1971). Vid
1800-talets början tycks en särutveckling träda in, och mot slutet av
århundradet och i början av 1900-talet var man ytterst medveten och orolig
över situationen (Solstrand-Pipping 1989). I dag ökar utvecklingstakten för
varje år, trots aktiva insatser från den finlandssvenska språkvården. Det
finska inflytandet är väldigt på alla områden inom språkbruket. Detta
inflytande syns först och tydligast i det talade språket. Det finns få
undersökningar om hur utvecklingen fortgår i det skrivna språket.
Utan aktiva forskningsinsatser är det omöjligt att komma åt den
finlandssvenska särutvecklingen. De möjligheter som en ADB-baserad textkorpus
erbjuder forskarna är dock hoppingivande. Vi stävar efter att FISC-korpusen
skall motsvara följande förväntningar (enligt Svartvik, 1992a:8-9):
* FISC utgör ett underlag för mera objektiva uttalanden om språket än
enbart introspektiva iakttagelser.
* den inför möjligheten till verifiering i den språkvetenskapliga
metodiken.
* den ger information om variabelfrekvenser i olika register.
* den ger information om det gängse finlandssvenska språkbruket i
skrift. Denna information kan utnyttjas inom språkvård, utbildning,
översättning, ordboksarbete m.m.
* den ger en mera fullständig bild (total accountability) av
lingvistiska företeelser i stället för enskilda iakttagelser i
isolation.
* den kan användas av olika forskare samtidigt eller genom tiden som
en gemensam materialbas. Lingvistiska analyser som baserar sig på
gemensamt material är bättre jämförbara.
* den kan fungera som ett underlag i språkvetenskapliga studier för
forskare som inte har svenska som modersmål och som sålunda inte
kan lita på sin intuition vid inhämtandet av data.
FISC-korpusen befinner sig rent fysiskt i en UNIX-värddator på institutionen
för allmän språkvetenskap vid Helsingfors universitet. Alla som har tillgång
till Telnet-nätverket eller har ett modem och som har ansökt om rättighet att
använda en UNIX-värddator och FISC kan nå korpusen via sin persondator. FISC
kan sålunda användas även utanför landets gränser. Nedanstående figur
illustrerar korpusens befintlighet.
FISC-korpusen skall bli allmänt tillgänglig som en resurs och inspirations-
källa i forskningen i finlandssvenska. Färdiga delar av korpusen har redan
använts i begränsad utsträckning inom forskning, språkvård, studier och
programutveckling. I februari 1995 kan en kärnkorpus om en planenlig
omfattning på ca 2,5 miljoner löpord anses föreligga färdig och öppen (enligt
avtal) till alla intresserade i forskargemenskapen.
3. Beskrivning av FISC-projektet
Tanken om sammanställningen av en finlandssvensk textkorpus aktualiserades
i juni 1991, då en assistentur vid Institutionen för nordiska språk och nordisk
litteratur blev ledig och för läsåret 1991-92 kunde besättas med en person, FM
Hannu Aarnitukia, som var väl förtrogen med datorer. Behovet av en textkorpus
hade visserligen redan under en längre tid känts akut, men arbetet hade av
olika orsaker inte kunnat förverkligas.
Initiativet till en finlandssvensk textkorpus togs hösten 1985 då
Föreningen för nordisk filologi r.f. anordnade ett seminarium i Lammi för att
lägga upp ett handlingsprogram för en dylik korpus. Den ADB-baserade korpusen
skulle utgöra det empiriska underlag som en systematisk kartläggning av
finlandssvenskan skulle kunna byggas på. Vid seminariet gav professor Fred
Karlsson riktlinjerna för diskussionen om metodfrågor.
När möjligheter för arbetet inom Nordica hade öppnats, sammankallade prof.
Mirja Saari prof. Fred Karlsson och FL Mikael Reuter, byråchef vid Forsknings-
centralen för de inhemska språken, till ett möte som snart efterföljdes av
flera möten under vilka riktlinjerna för projektet utstakades. Gruppen som
också i det fortsatta arbetet har fungerat som en referensgrupp, enades om de
grundläggande principerna för projektet. Korpusen läggs upp för forsknings-
ändamål och för praktiskt språkvårdsarbete. Det är sålunda först och
främst forskare och språkvårdare som kommer att använda den. Följande
principer för FISC-korpusen har kunnat fastslås inom FISC-gruppen:
* Korpusen bör innehålla en sammansättning av olika texttyper.
* Korpusen bör bestå av hela, sammanhängande texter snarare än av
textblock representerande en viss genre. (I detta avseende blir FISC
ingen "idealkorpus", jfr Brown.)
* Den geografiska härkomsten av texterna ska vara mångsidig.
* FISC kommer att bestå av en kärnkorpus om ca 2,5 miljoner ord och
större, ostrukturerade avdelningar i vilka material senare kan
införas.
* De i kärnkorpusen ingående texterna bör vara publicerade under
90-talet.
* Texterna ska bli strukturellt och i viss mån även innehållsligt
kodade.
Den slutgiltiga versionen av korpusen ska vara taggad i enlighet med
internationella principer (TEI).
* Texterna bör vara korrekturlästa men icke-manipulerade, dvs. språk-
och tryckfel som funnits i texternas originalversion rättas inte
(förutom textfiler som är avsedda för maskinella grammatiska
analyser).
I följande "projektdagbok" beskrivs arbetet med FISC-korpusen steg för steg
från startskedet hösten 1991 till kompletteringen av kärnkorpusen vintern 1995.
3.1 Startskedet: planering och sammanställning av tidningskorpusen
(1.8.1991-31.7.1992)
Inom sin tjänstgöring vid Nordica är tf. assistenterna FM Hannu Aarnitukia och
fil. stud. Eva Hannus sysselsatta med projektet. Vid sidan av andra uppgifter
för de in tidningsmaterial (Hufvudstadsbladet) i den aktuella textkorpusen.
Institutionens sommarpraktikant fil. stud. Annika Salervo för in material ur
Vasabladet. Ekonomiskt har arbetet fått extra stöd av Svenska Litteratursäll-
skapet i Finland r.f. som i juni 1991 beviljat ett mindre anslag för initial-
kostnader (10.000,-). Tack vare detta kan Aarnitukia företa en forskningsresa
och bekanta sig med SUC-projektet vid Institutionen för lingvistik, Stockholms universitet. I detta planeringsmöte deltog bl.a. Gunnel Källgren och Benny
Brodda från institutionen för lingvistik.
Under den aktuella perioden granskas förutsättningarna för uppläggningen
av textkorpusen, dvs. kontakter med de viktigaste svenskspråkiga tidningarna
och förlagen etableras och möjligheterna att i korpusen inkludera material som
representerar myndighetstexter (lagar, författningar och andra administrativa
texter) undersöks. Också underlaget för automatisk analys av texterna utreds.
Under läsåret 1991-92 överförs ett tidningsmaterial på 1 miljon ord på
dator. Detta består av en textmassa på 700 000 ord ur Hufvudstadsbladet och 300
000 ord ur Vasabladet. Valet av material sammanhänger med att de två
tidningarna har det största läsarunderlaget inom Svenskfinland och vidare med
att en viss geografisk spridning härmed kan anses föreligga. Det överförda
materialet kontrollkörs och förses med icke-lingvistiska taggar (uppgifter om
texten, gränser för de olika tidningsartiklarna, stycken, meningar, satser,
markering av bildtexter osv.) och föreligger sålunda färdigt för användning.
3.2 Första projektåret: strukturen etableras
(1.8-31.12.1992)
FM Hannu Aarnitukia och FK (FL/93) Jan Lindström arbetar som heltidsanställda
forskare inom projektet 1.8.-31.12.92, tack vare särskilda forskningsmedel från
Helsingfors universitet. För 1993 beviljar universitetet endast en forskarlön, som går till Aarnitukia, medan Lindström under samma år utför sitt projekt-
arbete inom en tf. assistentur vid Nordica. Aarnitukia slutar dock på egen
begäran som forskare 30.6.93. I hans ställe anställs fil.stud. Annika Salervo
som forskningsbiträde 1.9.-31.12.93; hon har redan under vårterminen 1993
arbetat inom projektet (timarvoden), samt FL Juhani Birn som forskare
1.11.-31.12.93. (forskningsstipendium). Som datalingvistisk expert avlönas
fil.stud. Kari Pitkänen (timarvoden).
Den nya perioden inleds med ett besök av forskargruppen kring SUC-
korpusen vid Stockholms universitet. Ett gemensamt seminarium för SUC och
FISC anordnas vid Helsingfors universitet 25-26.8.1992. Under de två
seminariedagarna diskuteras principer för korpusarnas uppläggning, taggning
samt utvecklingen av programvaror. Närvarande vid mötet är Mirja Saari, Hannu
Aarnitukia, Jan Lindström och Eva Hannus från FISC, Gunnel Källgren, Benny
Brodda och Gunnar Eriksson från SUC, samt Fred Karlsson, Kimmo Koskenniemi
och Kari Pitkänen från institutionen för allmän språkvetenskap och Mikael
Reuter från Forskningscentralen för de inhemska språken. Mötet anses fylla en
viktig funktion och representanterna för SUC inbjuder FISC-medarbetarna till
Stockholm 1993.
Inom FISC definieras riktlinjerna för arbetsgången ytterligare. Det anses
väsentligt att införa i korpusen en fjärde textkategori utöver de tre tidigare
planerade textkategorierna, dvs. tidningsspråk, skönlitteratur, myndighets-
texter. Den fjärde kategorin man enas om skall bestå av olika slag av sak-
texter (icke-fiktiv prosa). Med denna textkategori kan man infånga många
sådana genrer som också kommer att ingå i SUC-korpusen. Det blir också uppen-
bart att den skönlitterära delen i korpusen bör utvidgas något vad gäller
kvantitet, från åtta verk till tolv.
Under höstterminen 1992 anordnar projektet två intensivkurser i
användningen av FISC-korpusen vid Nordica. Både personalen och drygt 20
studenter (två seminariegrupper) deltar i kursen som ges av Hannu Aarnitukia
och Kari Pitkänen.
Prof. Mirja Saari håller sitt seminarium inom fördjupade studier med FISC-
korpusen som utgångspunkt. De flesta deltagarna skriver sin seminarieuppsats
utgående från materialet och en del fortsätter med arbetet i sin pro gradu-
avhandling.
Aarnitukia och Lindström presenterar FISC-projektet vid symposiet Svenskan
i Finland 2 vid Jyväskylä universitet 6.11.1992. Föredraget publiceras i en
konferensvolym i september 1993 (se bilaga 1).
* Utökning av korpusen (1992-1993).
Under läsåret 1992-93 införs ett skönlitterärt material på drygt 600 000 ord. I
praktiken innebär detta 12 verk. Härmed är hela den planerade skönlitterära
avdelningen fullbordad. De införda verken är skrivna av kända finlandssvenska
författare som representerar olika delar av Svenskfinland. Materialet har
publicerats under 1990-talet, i enlighet med projektets ursprungliga planer.
Det överförda materialet har korrekturlästs och försetts med icke-lingvistiska taggar (jfr tidningsmaterialet) och föreligger färdigt för användning.
Också avdelningarna myndighetstexter och saktexter har försetts med
material, även om arbetet inte är fullbordat. I kategorin myndighetstexter
ingår lagtexter bestående av ca 290 000 ord (se bilaga 2). Materialet är dock
icke-kontrollerat och icke-taggat. Därtill har offentliga utredningar från
länsstyrelsen i Nylands län och undervisningsministeriet (ungefär 40 000 ord)
förts in. Dessa texter är korrekturlästa och försedda med icke-lingvistiska
taggar. I kategorin saktexter ingår en memoarbok från det finlandssvenska
litterära kulturlivet samt en politisk debattbok som innehåller uppsatser av
ett trettiotal kända finlandssvenskar. Materialet (ca 120 000 ord) är korrek-
turläst och taggat, men vissa upphovsrättsliga frågor angående texternas
användning i korpusen måste ytterligare utredas.
3.3 Andra projektåret: presentationer och utredningar
(1.1-31.12.1993)
Tyngdpunkten i det praktiska korpusarbetet ligger på överföringen av det
skönlitterära materialet till datorläsbar text. I praktiken innebär detta att
de utvalda verken scannas in en och en, emedan texten inte kan erhållas i
diskettform. Scannade texter innehåller förhållandevis många fel som måste
rättas till genom att manuellt korrekturläsa texterna.
I mars 1993 inleder projektet arbetet med att kontakta rättsinnehavarna
till de i korpusen ingående texterna. Söderström & C:o Förlags AB ställer sig
positivt och förmedlar kontakten till sina författare. Avtal om den juridiska
rätten att nyttja texterna för forskningsändamål undertecknas härefter med 13
författare. Ett avtal kommer till stånd också med Hufvudstadsbladet samt med
Folkhälsan.
Aarnitukia och Lindström testar hypoteserna för sina egna forsknings-
uppgifter i form av pilotundersökningar. Samtidigt får man erfarenhet av hur
den datorhjälpta metoden kan tillämpas för forskningsändamål. Resultaten av
pilotundersökningarna presenteras vid Nordicas högre seminarier under hösten
1992 och våren 1993. Lindström presenterar de grundläggande tankarna och
pilotundersökningarna för sin doktorsavhandling i en uppsats i The New Courant
1/1993, tidskrift på institutionen för engelsk filologi, Helsingfors universi-
tet.
Aarnitukia och Lindström utarbetar en engelskspråkig informationsbroschyr
om FISC-projektet. Projektet låter trycka en upplaga på 200 exemplar.
Aarnitukia och Lindström deltar i ett seminarium om Datalingvistik och
datorstöd vid Göteborgs universitet i 22-23.4. Det stora svenska ADB-
korpusprojektet Språkbanken är beläget i Göteborg och kontakt med prof. Martin
Gellerstam etableras. FISC presenteras under seminariet och seminariedeltagarna
tilldelas FISC-broschyren.
Medarbetarna i FISC-projektet (Saari, Lindström, Salervo och Pitkänen)
deltar 16-17.8.93 i ett symposium vid Stockholms universitet som samarbets-
partnern SUC har anordnat. Det aktuella läget för de två projekten utreds och
gemensamma problem diskuteras, särskilt frågan om taggning och
förenhetligandet av korpusarna. Internationella kontakter planeras.
Jan Lindström lägger fram de grundläggande hypoteserna för sin avhandling
(som hämtar sitt material från FISC) vid konferensen Svenskans beskrivning 20
i Umeå i december 1993.
I augustiþseptember utarbetar Lindström och Salervo en manual för
användningen av FISC-korpusen. Manualen presenterar korpusens filuppläggning
och olika sökningsalternativ från radkonkordanser till frekvenslistor,
elektronisk post och dataöverföring. Manualen ges ut med projektmedel som ett
häfte på 35 sidor i oktober 1993 (bilaga 4).
3.4 Tredje projektåret: korpusen tar sin slutgiltiga form
(1.1-31.12.1994)
* Forskarna
Enligt planerna fortsätter FL Jan Lindström som forskare i FISC inom ett
förordnande som tf. assistent vid Nordica. I stället för FM Hannu Aarnitukia
som lämnat projektet 30.6.93 anställs FL Juhani Birn som forskare i projektet
fr.o.m. 1.1.1994. Så som under de föregående åren, fortsätter FK Kari
Pitkänen som projektets datalingvistiska expert med timarvode.
Vid sidan av uppgifterna att bygga upp FISC-korpusen arbetar FL Jan
Lindström arbeta på sin doktorsavhandling om ikonicitet. I sin studie utgår han
från korpusen och de möjligheter till automatisk databehandling av texter som
den erbjuder. Vid utgången av projekttiden (dec. 1994) föreligger stommen till
ett första manuskript till avhandlingen Repetera är mera: upprepning,
intensifiering, ikonicitet färdig.
FL Juhani Birn är ny som forskare inom FISC, men han har under en längre
tid varit verksam vid institutionen för allmän språkvetenskap, HU. Under 1994
arbetar han vid sidan av de mer allmänna FISC-uppgifterna med automatiska
sökprogram för syntaktiskt definierade enheter (SWETWOL), enligt de riktlinjer
som utstakats av Fred Karlsson (1990) inom English Constraint Grammar.
Juhani Birn lämnar projektet 31.7.1994 för återgå till institutionen för
allmän språkvetenskap (HU). Han fortsätter dock med utvecklingsarbetet kring
SWETWOL och är således indirekt kopplad till FISC-projektet.
Birn ersätts av FM Maria Hägglund för den resterande projekttiden
1.8þ31.12.1994. Den centrala uppgiften för Hägglund är att delta i kodningen
av befintliga FISC-texter. Hon bidrar till projektet också genom att anskaffa
mera material till avdelningen "allmänna myndighetstexter" där de kvantitativa
planerna inte helt uppnåtts. I januariþfebruari 1995 ska Hägglund skriva en
framställning om den TEI-enliga taggningen i FISC-korpusen. Artikeln ska ingå i
en planerad FISC-monografi.
* Införing av material
Eftersom projektet syftar i första hand till en uppläggning av själva
korpusen, är en utökning av materialet samt kodning av befintligt material
den viktigaste uppgiften för forskarna. Avdelningarna saktext och myndighets-
text kompletteras i stort sett enligt planerna. I praktiken innebär detta
införing av ett material om ca 400 000 ord. En del av texterna erhålls i
maskinläsbar form, men man måste också föra in texter genom scanning. Detta
moment i projektet fortsätter ända till december 1994.
Kodningen av det omfattande lagspråksmaterialet (närmare 300 000 ord) tar
en relativt lång tid i anspråk. Momentet påbörjas på vårterminen 1994 och
slutförs i början av höstterminen 1994.
* Uppdatering av taggning
Innan korpusen föreligger färdig måste taggningen, dvs. texternas kodning
förenhetligas med de internationella rekommendationerna i samtliga textfiler.
FISC ansluter sig till riktlinjerna enligt SUC (Källgren 1994) och TEI (Text
Encoding Initiative). Momentet inleds först efter att allt planerat material
förts in i kärnkorpusen; kodkonverteringen sker i december 1995 och fort-
sätter i januari 1995. I samband med konverteringen kontrolleras texterna än
en gång och vissa taggar läggs till, t.ex. för direkt anföring och utländska
lån. Processen är arbetsam, men den framskrider väl.
Varje text i korpusen ska inledas med en allmän standardiserad
beskrivning, en s.k. TEI-header. Jan Lindström utarbetar en fast modell för
FISC utgående från TEI-rekommendationen P3 (Burnard-Sperbeg-McQueen 1994) i
december 1994.
* Övrig forskning
Projektet har under läsåret 1993-94 berett material för forskning utanför
projektgruppen. Som det ovan framgått används FISC-texterna av
samarbetspartnern SUC i Stockholm och Umeå som underlag för utvecklandet
av automatiska analysprogram. En annan nära partner utgör Forskningscentralen
för de inhemska språken där forskarna dagligen utnyttjar korpusen i sitt
språkvårds- och ordboksarbete.
För närvarande används FISC-texterna för två avhandlingar. FL Christina
Melin-Köpilä (Åbo; Uppsala universitet) har dem som jämförelsematerial i sin
doktorsavhandling över finlandismer hos skönlitterära författare, och FK
Sirpaliisa Kylliäinen (Nordica) baserar sin licentiatavhandling, en
kontrastiv studie mellan sverigesvenskt och finlandssvenskt tidningsspråk,
på material ur FISC respektive SUC. Avhandlingen kommer att föreligga färdig
under år 1995. FK Leena Murtovaara har skrivit sin pro-graduavhandling (1994)
med utgångspunkt i FISC-materialet.
Material ur FISC-korpusen har använts i en del mindre studier. FD Ingegerd
Nyström och FL Mikael Reuter föreläste om finlandssvenskt prepositionsbruk
respektive användningen av orden 'finsk' och 'svensk' i Sverige och Finland vid
symposiet Svenskan i Finland 3 vid Helsingfors universitet i oktober 1995. De
baserade undersökningarna på FISC-tidningskorpusen som jämfördes med ett
motsvarande sverigesvenskt material. Föredragen kommer att publiceras i en
konferensvolym våren 1995.
Ytterligare kan nämnas att prof. Mirja Saari har utnyttjat korpusen för
sin forskning under 1994. Studier i ordfrekvenser utifrån FISC-tidnings-
korpusen har gjorts av Charlotte von Hertzen (Helsingfors universitet), Elsie
Wijk-Andersson (Uppsala universitet) och Sonja Vinquist (Vasa universitet).
Forskningsbiträde Maria Mannil i projektet Svenska samtal i Helsingfors
(Nordica & Svenska social- och kommunalhögskolan) har studerat förekomsten
av interjektionen hej i FISC-materialet.
Enligt protokollet har 41 forskare och studenter t.o.m. januari 1995
skaffat sig rätten att använda FISC-korpusen. De flesta användarna är
naturligtvis koncentrerade kring Helsingfors universitet, dvs. Nordica och
institutionen för allmän språkvetenskap. Flera progradu-skribenter arbetar
med FISC-korpusen som utgångspunkt. Det finns ett avsevärt antal registrerade
användare på Forskningscentralen för de inhemska språken. Korpusen används i
viss utsträckning också på institutioner för svenska språket vid övriga
universitet i Finland (Åbo Akademi, Vasa, Joensuu) och i Sverige (Stockholm,
Uppsala, Umeå).
* Undervisning
Ordlistor hämtade ur FISC-korpusen har använsts vid utarbetandet av läromedel
för muntlig färdighet i svenska vid Nordica. FISC erbjuder också en tillgång
vid korrigering av översättningsövningar genom att man kan kontrollera
konstruktionernas förekomst i autentiskt språkbruk.
* Införing av talspråksmaterial
FISC skall ursprungligen innehålla enbart skrivet material från 1990-talet, men
i olika sammanhang har också frågan om en talspråkskorpus kommit upp.
Forskningen i talad svenska har varit ett av tyngdpunktsområdena vid Nordica
under de senaste två decennierna, men någon databas har trots allt inte
existerat. När det gäller beskrivningen av svenskan i Finland kan det talade
språket inte förbises. Även om man kan anta att det skrivna FISC-materialet
kommer att avslöja systematiska skillnader mellan språkbruket i Sverige och
Finland, förefaller det rimligt att skillnaderna i ännu högre grad gäller det
talade språket. Införingen av talspråksmaterial i FISC är därför väl motiverad.
Komplettering med talspråksmaterial är motiverad också ur en inter-
nationell synvinkel. Den stora brittiska nationalkorpusen BNC ska innehålla
10 % talspråksmaterial, medan den största delen kommer från skrivna källor
(Leech 1994). En liknande fördelning i FISC vore bra möjlig.
Utökningen av FISC med utskrifter av talat språk skall enligt planerna inte
medföra några extra kostnader. Ett samarbete med projektet Svenska samtal i
Helsingfors (1991-94), bekostat av Finlands Akademi och lett av FD Anne-Marie
Londen (Nordica, Svenska social- och kommunalhögskolan) har gjort det möjligt
att ett antal transkriptioner i datorläsbar form kostnadsfritt kan föras in i
korpusen. För närvarande planeras inte några egna insatser för utökningen av
talspråksmaterialet. Två radiosamtal ur SAM-materialet har provisoriskt förts
in i en speciell avdelning i FISC (ca 30 000 ord). Kodningen av talspråks-
materialet är emellertid problematisk på ASCII-basis, och på denna punkt har
vi ännu inte slagit fast några fasta riktlinjer.
* Informationsbroschyr
FL Jan Lindström utarbetar en svenskspråkig informationsbroshyr om FISC-
projektet. Broshyren bygger på den modell som gjorts av Aarnitukia & Lindström
1993 och den trycks i 200 exemplar (se bilaga 4).
3.5 Slutskedet och facit
(1.1.1995-28.2.1995)
Några nödvändiga justeringar med märkningen av korpusen måste utföras. Den
egentliga projekttiden utgår 31.12.1994, men resterande medel kan föras över
till 1995. FM Hannu Aarnitukia, som varit med om att starta projektet, avlönas
till en final tvåmånadsperiod 1.1.1995þ28.2.1995 för att dela ansvaret för
kodningen av myndighetstexter med FL Jan Lindström. FM Maria Hägglund har
lämnat projektet planenligt 31.12.1994.
Aarnitukia ska ytterligare se till att dagstidningarna i korpusen (Hbl,
Vbl) får en genrekodning, t.ex. för ledare, inrikes- och utrikesreportage,
ekonomi, kultur och sport. Med hjälp av koderna kan en enskild forskare vid
behov sammanställa en tillfällig "korpus" þ t.ex. texter i genren inrikes-
reportage þ och analysera bara en dylik specifik del ur dagstidningarna.
I slutet av februari 1995 ska den enhetligt kodade kärnkorpusen konver-
teras till lämpliga tekniska analysformat. I det s.k. snt-formatet ska en
grafisk mening s.a.s. bli en enhetligt löpande rad. På så sätt störs inte de
automatiska sökningarna (t.ex. konkordansprogrammen) av radbrytningar inom en
mening. Ett annat viktigt format är s.k. preprocessed files där varje led
förekommer på en egen rad; texten läses m.a.o. från upp till ner. Detta
format används vid utarbetningen av ordlistor samt som input till det morfo-
logiska analysprogrammet SWETWOL. Filkonverteringen kräver BETA-programmering
som utförs i samråd med FK Kari Pitkänen, Institutionen för allmän språkveten-
skap (se Karlsson & Koskenniemi 1990).
Efter utsatt projekttid (januari 1995) kan det konstateras att FISC-projektet
nått till planerad omfattning såväl kvantitativt som kvalitativt:
* Kärnkorpusen omfattar planenligt ca 2,5 miljoner ord. Kategorin
"övriga myndighetstexter" blir något mindre än planerat, men i
saktext blir omfattningen större.
* Korpusen är en sammansättning av flera texttyper och genrer (a
general purpose corpus). Texterna har tagits med som helheter.
* Texterna visar en viss geografisk variation i det svenska Finland
(t.ex. med avseende på tidningarna och de skönlitterära författarna),
men i stort sett finns det en koncentration på huvudstadsregionen.
Detta beror delvis på att de riksomfattande ämbetsverken þ som
levererat material till delen myndighetstext þ finns i Helsingfors.
* Korpustexterna är märkta i enlighet med TEI-principer. Märkningen
är i första rummet strukturell, men går även in på innehållsliga
faktorer på vissa punkter (t.ex. funktionen hos citationstecken).
* De elektroniska texterna har gått igenom flera manuella granskningar
där man kunnat eliminera fel i texternas form. Man kan dock inte
anse korpusen vara helt felfri. Med användarnas medverkan kan
resterande mindre fel rättas i den takt de observeras.
3.6 Sammanfattning: seminarier, presentationer, publikationer
* Seminarier
- Stockholms universitet, institutionen för lingvistik:
FM Hannu Aarnitukia redogör för FISC-projektet, ht 1991.
- Nordica: fördjupade studier för grundexamen, prof. Mirja Saari, 1992þ1993.
Under seminariet behandlades grammatiska frågor utgående från
materialet i FISC-korpusen.
- Nordica: högre seminariet, FM Hannu Aarnitukia & FK Eva Hannus, vt 1992.
Presentation av FISC-projektet, speciellt tidningsgenren.
- Nordica: Nordister från universitet i Bergen, vt 1992.
Presentation av korpusen, FM Hannu Aarnitukia.
- Göteborgs universitet, Språkdata, vt 1993:
Seminarium om Datalingvistik och datorstöd vid Göteborgs
universitet.
- Lunds universitet, vt 1993:
Presentation av FISC-projektet, prof. Mirja Saari.
* Konferenser
- Jyväskylä universitet: Svenskan i Finland 2, ht 1992.
Föredrag av FM Hannu Aarnitukia & FK Jan Lindström.
- Umeå universitet: Svenskans beskrivning 20, ht 1993.
Föredrag av FL Jan LIndström.
- Helsingfors universitet: Svenskan i Finland 3, ht 1994:
Demonstration av FL Jan Lindström & FK Kari Pitkänen.
* Kurser
- Nordica, ht 1992:
Två kurser i användningen av FISC-korpusen, FM Hannu Aarnitukia
& FK Kari Pitkänen. Sammanlagt 50 deltagare.
- Forskningscentralen för de inhemska språken, vt 1994 och ht 1994:
Kurs i användningen av FISC-korpusen för språkvårdarna, FL Jan
Lindström.
- Helsingfors universitet, institutionen för allmän språkvetenskap, ht 1994.
Deltagande i kurs i SGML/TEI-märkning, FM Hannu Aarnitukia, FM
Maria Hägglund, FL Jan Lindström. Kursledare prof. Kimmo
Koskenniemi.
* Arbetsseminarier
- Helsinfors universitet, institutionen för allmän språkvetenskap, vt 1992:
Deltagare:
Representanter för alla språkinstitutioner med korpusprojekt,
sammankallare prof. Kimmo Koskenniemi.
- Nordica, augusti 1992, seminarium med företrädare för SUC-projektet:
Deltagare:
doc. Gunnel Källgren, FK Gunnar Eriksson, prof. Benny Brodda
(Stockholms universitet)
prof. Mirja Saari, FM Hannu Aarnitukia, FK Jan Lindström, fil.stud.
Eva Hannus; prof. Fred Karlsson, prof. Kimmo Koskenniemi, FL
Mikael Reuter, fil.stud. Kari Pitkänen.
(Helsingfors universitet, Forskningscentralen för de inhemska
språken)
- Stockholms universitet, augusti 1993, seminarium med företrädare för SUC-
projektet:
Deltagare:
doc. Gunnel Källgren, FK Gunnar Eriksson, prof. Benny Brodda,
språkkonsult Britt Hartmann (Stockholms universitet)
prof. Mirja Saari, FL Jan Lindström, fil.stud. Annika Salervo,
fil.stud. Kari Pitkänen.
(Helsingfors universitet)
- Stockholms universitet, december 1994, möte med företrädare för SUC &
FISC:
Deltagare:
doc. Gunnel Källgren, prof. Mirja Saari.
* Publikationer
Aarnitukia, Hannu. 1993. En finlandssvensk textkorpus. Korridorbladet,
ämnesföreningen Saga vid institutionen för nordiska språk och
nordisk litteratur, Helsingfors universitet.
Aarnitukia, Hannu & Lindström, Jan. 1992, 1994. Broschyr om FISC-korpusen,
engelsk version; svensk version av J. Lindström 1994.
Aarnitukia Hannu & Lindström Jan. 1993. En finlandssvensk textkorpus. I:
Veikko Muittari & Matti Rahkonen (utg.), Svenskan i Finland 2.
Meddelanden från institutionen för nordiska språk vid Jyväskylä
universitet. 1-17.
Lindström, Jan. 1993-1994. Fiscarns berättelser. Korridorbladet,
ämnesföreningen Saga vid institutionen för nordiska språk och
nordisk litteratur, Helsingfors universitet.
Lindström, Jan. 1994. Repetition som ikon. Tre analogier mellan form och
innehåll. Utkommer i Svenskans beskrivning 20. Umeå.
Lindström, Jan. 1995. En mjuk introduktion till FISC-korpusen. Utkommer i
Svenskan i Finland 3. Meddelanden från institutionen för nordiska
språk och nordisk litteratur. Helsingfors universitet.
Lindström Jan & Salervo Annika. 1993. Manual för En finlandssvensk textkorpus
(FISC). Version 1.0. Institutionen för nordiska språk och nordisk
litteratur, Helsingfors universitet.
Saari, Mirja. 1992. FISC - En finlandssvensk textbank på dator. Universitas
Helsingiensis 3/1992.
4. Presentation av FISC-kärnkorpusen
4.1 Korpusens sammansättning
Det textmaterial som ingår i FISC-korpusen har utkommit under 1990-talet i
Finland. Detta är utgångsläget för texternas "finlandssvenskhet". Trots att man
inom projektet är medveten om att författarna till de böcker som tagits med i
korpusen är finlandssvenska och att man kan förmoda att texter som produceras
av finlandssvenska organ är skrivna av finlandssvenskar, är situationen något
problematisk i tidningstext och i mången saktext. Det framgår inte alltid om en
skribent har svenska som modersmål eller inte, om en text är en översättning
eller inte, eller om den är översatt av en finlandssvensk. Men betraktar man
texterna ur ett funktionellt perspektiv, är dessa problem inte centrala.
Texterna kan anses som finlandssvenska, eftersom de publicerats i Finland och
är avsedda för den svenskspråkiga allmänheten i Finland. FISC har dock
koncentrerat sig på texter, som med stor sannolikhet representerar genuint
finlandssvenskt språkbruk.
Korpusen har utvidgats stegvis. Arbetet inleddes med att bygga upp en
delkorpus som består av enbart tidningstexter (ur Hufvudstadsbladet och
Vasabladet). Efter detta fullbordades en avdelning som består av skönlitterära
verk, sammanlagt 12 romaner eller novellsamlingar. Tidningsmaterialet inne-
håller en miljon löpande ord, den skönlitterära avdelningen drygt 600 000 ord.
De resterande delarna av korpusen utgörs av myndighetstexter, dvs. texter
som cirkulerar inom det offentliga förvaltningslivet samt en del av Finlands
lag, och saktexter, dvs. icke-fiktiv prosa. Saktextmaterialet överskrider
400 000 löpord och det består av 16 textfiler. Textfilerna är dels enskilda
verk (biografi, vetenskap, samhällsdebatt), dels sammanställda av kortare ut-
redningar och broschyrer. Delar av Finlands lag utgör huvudparten av myndig-
hetstexterna. I denna delkorpus ingår 52 lagar eller förordningar, vilket är
i ordantal ca 300 000. En mera varierad sammanställning av förvaltningstexter
i samma delkorpus omfattar drygt 100 000 ord.
Den ovan presenterade textsamlingen kan betraktas som en kärnkorpus i
FISC. De ingående fyra kategorierna innehåller i stort sett samma genrer som
utgör basis för SUC-korpusen. I förhållande till SUC är kärnkorpusen i FISC
mera omfattande med 2,5 miljoner ord. Tanken bakom en kärnkorpus är att den
är en bestående, oförändrad del av hela korpusen, som dock med tiden kommer att
förlora i aktualitetsvärde. Därför är det skäl att hålla portarna öppna för
friare intagning av nya texter till korpusen. Dessa uppdateringar av
materialet kan utföras när helst det anses vara nödvändigt. Men med en
bestående kärnkorpus garanterar man möjligheten att jämföra FISC-materialet
med andra samtida kärnkorpusar (som SUC) och att senare i tiden kontrastera
dem med dagsaktuella texter. Kärnkorpusen kommer också att bli den mest
kodade delen i textsamlingen. Den erbjuder m.a.o. mera information än senare,
mindre behandlade delar.
FISC-korpusen är lagrad i en UNIX-värd som ett arkiv i en hierarkisk struktur, som
påminner om hierarkin t.ex. i vanliga ADB-system. På den högsta nivån är själva
FISC-arkivet, för UNIX-värdarna på institutionen för allmän språkvetenskap
innehåller också många andra korpusar än bara FISC. På följande nivå kommer
fyra huvudkataloger som representerar de fyra textkategorierna i FISC:
tidningstext, skönlitteratur, saktext, myndighetstext. Dessa har vidare tre
subkataloger som innehåller de egentliga textfilerna i tre olika format för
olika behov. Hierarkin illustreras nedan:
FISC
H1 H2 H3 H4
S1 S2 S3 S1 S2 S3 S1 S2 S3 S1 S2 S3
filer filer filer filer
På samma sätt som i vanliga ADB-system, manifesterar sig den hierarkiska
strukturen i en sökvägssyntax: FISC/H1/S1/fil. Med hjälp av sökvägssystemet
kommer man åt och opererar med enskilda kataloger och filer.
I en mindre korpus, t.ex. Brown, finns det ofta s.a.s. många mindre prov
på olika genrer och skribenter, för att det sampel korpusen representerar
ska vara tillräckligt mångsidigt. I Brown är varje enskild text en arbiträr
snutt på ca 2.000 löpord. I större korpusar har man inte nödvändigtvis något
behov av att klippa av texterna; i synnerhet om man är mera intresserad av
materialet som text än som ord är en sammanställning av korta sampel rentav
otillfredsställande (Gellerstam 1992). Inom FISC har en helhetsprincip
följts. För det första garanterar korpusens omfång på 2,5 miljoner ord en
relativt stor variation vad gäller t.ex. skribenter, genrer, ämnesområden
osv. För det andra har utgångspunkten varit att bygga upp snarare en modern
korpus av typ textbank än en s.k. idealkorpus (Gellerstam 1992). De texter þ
eller snarare kanske medier þ som finns i korpusen, ingår i princip som hel-
heter. Tidningstexterna består av hela nummer av en given tidning, de skön-
litterära texterna består av hela böcker, saktexterna utgörs likaså av hela
trycksaker och myndighetstexterna är sammansatta av enskilda, men i sig
fullständiga utredningar, protokoll, cirkulär m.m. Det enda undantaget utgör
lagarna bland myndighetstext. Av naturliga skäl kan inte hela Finlands lag
ingå i FISC, utan en sammansättning av enskilda lagar eller förordningar.
FISC-korpusen definieras tidsligt som "modernt". Allt material har
kommit ut under 1990-talet, det mesta 1991þ1992. En detaljerad lista över
texterna i korpusen finns i bilaga 2.
4.2 Märkning av korpusen
Då det gäller märkningen av korpusen har vi valt att förse texterna med ett
moderat antal taggar. Denna hållning till märkningen avviker radikalt från de
principer som SUC följer (Källgren 1990). Detta beror mest på olika utgångs-
punkter i korpusens uppläggningsarbete. SUC strävar efter att koda ordklasserna
och -formerna i hela kärnkorpusen, som sålunda får en stor mängd lexikal och
grammatisk information. Den första leveransversionen av FISC innehåller däremot
inte några grammatiska taggar. Materialet i FISC är löpande och mycket i enlig-
het med originaltexterna. Ett sådant material lämpar sig för illustrativa
konkordanssökningar, där en oavbrutet löpande textrad utgör den relevanta
enheten. SWETWOL-programmet kan dock användas provisoriskt för inhämtning
av grammatisk information. Vi har inte ansett det vara ändamålsenligt att
bereda en bestående version av korpusen med en fulländad taggning. Det är dock
tänkbart att utarbeta en sådan i ett senare skede.
De taggar som alltid följer med i FISC är närmast textstrukturella
(eller icke-lingvistiska) med information om källor, stycke- och kapitel-
gränser, rubrik-, ingress- och bildtexter, direkta anföringar, citat o.s.v.
Men därtill har vissa typografiskt markerade delar i text fått funktionella
tolkningskoder. Vi har t.ex. tagit ställning till användningen av citations-
tecken, som ibland kan markera icke-ordagrann bemärkelse, icke-normenlig
språkform, utländskt lån m.m. Vi följer i taggningen en internationell TEI-
standard (Text Encoding Initiative) som i sin tur bygger på en allmännare
SGML-märkning (Standard Generalised Markup Language, ISO 8879). SGML-märkning
innebär att man kan behålla all ursprunglig textuell information oberoende av
övergångar till olika ordbehandlare, datorer, operativsystem, nätverk osv.
(se Sperberg-McQueen & Burnard, 1990).
5.1 Samarbetspartnern SUC (Stockholm - Umeå Corpus)
För sammanställningen av den finlandssvenska textkorpusen har Stockholm þ
Umeå korpusen (SUC) särskilt intresse. Den finlandssvenska korpusen byggs
nämligen upp ett nära samarbete med forskargruppen vid Stockholms universitet.
Korpusarna blir dock inte identiska spegelbilder av varandra, vilket vore
slöseri av resurserna.
Forskargruppen kring SUC består av programmerande datalingvister och leds
av doc. Gunnel Källgren. SUC-projektet har inletts år 1989 och korpusen kommer
enligt planerna att föreligga färdig 1994þ1995. Samarbetet nyttjar både SUC och
FISC t.ex på följande områden:
* Språkliga jämförelser.
Korpusarna består av jämförbart samtida material. SUC och FISC
utgör sålunda en kontrastiv materialbas för undersökningar av
språklig variation mellan Sverige och Finland.
* Möjligheter till samordning.
Teoretiska och praktiska synpunkter kring projekten kan diskuteras,
t.ex. frågorna kring upphovsmannarätt och korpusarnas tillgänglighet
samt samordningen av taggningsprinciper. Diskussioner har förts
under ömsesidiga forskarbesök i Helsingfors och Stockholm.
* Utbyte av know-how.
Vid sidan av den praktiska samordningen kompletterar projekten
varandra också på det tekniska planet. Datalingvisterna i Stockholm
och Umeå utvecklar mjukvaror som lämpar sig för datoriserade
lingvistiska analyser. Mycket av detta arbete bygger på det
morfologiska analysprogrammet SWETWOL.
* Uppläggningen i SUC
Följande 12 genrer ingår i SUC-korpusen (Källgren 1990):
Reportage
Ledare
Recensioner
Arbete och fritid
Populärvetenskap
Biografier, essäer
Diverse; huvudsakligen
myndighetstexter
Lärda och vetenskapliga skrifter
Skönlitteratur
Läromedel
Barnlitteratur
Ungdomslitteratur
I slutskedet kommer SUC att bestå av två delar: en mindre kärnkorpus på ca. 1
miljon ord och en större mera ostrukturerad del på ca. 20 milj. ord.
Principerna för SUC:s kärnkorpus är följande (Källgren a.a.):
* Kärnkorpusen omfattar 1 miljon ord (500 block om ca. 2000 ord
vardera). Textblocken tas från olika genrer enligt de principer som
har använts vid uppbyggandet av Brown och LOB.
* Texterna har ett standardiserat fysiskt format.
* Varje ord är morfologiskt och syntaktiskt entydigt taggat.
* Kärnkorpusen är manuellt korrekturläst så att taggningen är
konsekvent.
5.2 Metodiska synpunkter på FISC
FISC har en filosofi som i grund och botten är metodisk. Mera teoretiska
aspekter på FISC förverkligas i framtiden. Mycket av det teoretiska kommer
att kretsa kring arbetet med SWETWOL, som är ett analysprogram för svenska
texter (Karlsson 1992). Institutionen för allmän språkvetenskap vid Helsingfors
universitet har sedan FISC-projektets första stadier använt sig av material ur
korpusen för att testa analysprogrammet.
Den metodiska filosofin går ut på att korpusen erbjuder forskarna till-
gång till ett omfattande material som representerar genuint språkbruk. Nu-
förtiden anses det rätt allmänt även inom lingvistiken att vetenskapligt
adekvat forskning mera ska bygga på empiriskt verifierbart data än på in-
tuition, även om den senare inte behöver uteslutas. Arbetet med Svenska
Akademiens nya grammatik (SAG) är ett exempel på nyttjandet av korpusmetoden
vid sidan om mer traditionella metoder (Hellberg 1992).
Men bara för tjugo år sedan ansåg de flesta lingvister att deras språkliga
intuition låg till grund för forskningen. Då det gäller korpus kontra in-
tuition finns det tre skolor. En av dem betonar starkt intuitionens betydelse. Konstruerade systemsatser har använts i mycket grammatiskt arbete, men man
bör vara medveten om att den intuitiva metoden åtföljs av en del riskfaktorer. Man kan inte vara säker på hur "naturligt" eller "grammatikaliskt" material
man kommer på, eftersom data är konstruerade. Den andra skolan hävdar att
lingvisten inte kan lita på sin egen intuition utan att man skall bygga sina
uttalanden enbart på i verkligheten förekommande språkmaterial. Den tredje
skolan står mellan dessa två ytterligheter och betonar att både korpusar och
intuition är nödvändiga. De är två metoder som inte utesluter varandra utan
kompletterar och griper in i varandra (se Chafe, 1992).
Korpusens struktur bestämmer i stor utsträckning vilka slags under-
sökningar som är möjliga. Den första stora vattendelaren går mellan korpusar
som består av talat resp. skrivet språk. Det vanliga är att en korpus består
av antingen talat eller skrivet material. Korpusarna kan vidare indelas i två
stora grupper på basis av sammansättningen av genrer. Det finns å ena sidan
korpusar som består av ett stort urval olika genrer (general-purpose
corpora), de bildar m.a.o. ett tvärsnitt av språket i allmänhet, å andra
sidan specialkorpusar som koncentrerar sig på ett begränsat område (text-type
specific corpora). FISC-korpusen innehåller drygt 2,5 miljoner ord i från
fyra huvudsakliga källor: tidningstext, skönlitteratur, saktext, myndighets-
text. Korpusen är sålunda i sin helhet "för allmänna ändamål" men i detalj
kan man koncentrera sig på fyra specifika texttyper. Detta visar FISC
korpusens mångsidighet i forskning.
I dagens läge kan det diskuteras om 2,5 miljoner löpord utgör en
"omfattande" korpus; det beror på vad man jämför med. Alla ADB-korpusarnas
moder, den amerikanska Brown-korpusen från början av 1960-talet, innehåller
en miljon ord; detta var "mycket" då datorerna ännu hade låg arbetskapacitet.
Ett av de största senaste korpusprojekten, British National Corpus (BNC),
kommer att omfatta 100 miljoner ord (Quirk 1992); även om det här är en enorm
mängd, är det trots allt ett sampel av språkbruket. Och det finns flera svenska
textbanker - snarare kanske än korpusar - som består av flera miljoner ord var,
t.ex. Press 87 omfattar ca fyra miljoner ord (Gellerstam 1992). Men det finns
inte så många finländska textkorpusar, och i synnerhet ingen finlandssvensk
korpus, som kan konkurrera med FISC-korpusens omfattning.
Korpusens storlek kan också tas i kvalitativ betraktelse: Hur mycket
information erbjuder den? Det är en allmänt godkänd princip att dagens korpusar
ska kodas - eller taggas, så som man säger i korpus-sammanhang þ enligt
fasta internationella principer åtminstone på någon elementär nivå; en så
kallad TEI-märkning håller på att etablera sig ('Text Encoding Initiative',
se Burnard & Sperberg-McQueen 1994). En korpus med en mycket ingående
taggning, som tar hänsyn till både textuella och grammatiska drag, kan inte
av rimliga skäl ha någon större kvantitativ omfattning. Samarbetspartnern
Stockholm - Umeå Corpus (SUC) ska sammanställa en korpus som är strukturerad
enligt Browns ideal och består således av en miljon löpord (Källgren 1990).
Men den relativt begränsade omfattningen kan försvaras med att SUC är mycket
fullständigt taggad vad gäller ordklass och form och också textuell nivå. BNC
kommer likaledes att ha en välkodad kärna på ca två miljoner ord, medan den
resterande mängden på 98 miljoner ord får en mindre detaljrik behandling
(Leech 1994). Ser man på ett smakprov på flera europeiska korpusar i den s.k.
ECI-samlingen kan man se att de flesta korpusarna är mycket kursivt kodade,
vanligen bara med en tagg för styckegränser och kanske rubriker. De flesta
större svenska textbanker är inte noggrannt kodade och ännu mindre i enlighet
med TEI. Svårigheten med taggningen är förstås att det kräver mycket manuellt
arbete, dvs. att man faktiskt läser igenom texterna och samtidigt sätter ut
en given kod på rätt plats eller rättar till en preliminär automatisk kodning.
För närvarande kan FISC-korpusen anses vara medeltaggad. Den har en rätt
ingående textuell kodning med taggar för kapitel-, avsnitts- och styckegränser,
anföringar av olika slag, bildtexter, listor osv. Drag av mera lingvistisk
natur har också markerats, så som ord eller uttryck som är dialektala eller
arkaistiska, eller som är främmande element i svenskan, t.ex. finska ord. Det
är klart att en sådan taggningsnivå redan ökar korpusens användbarhet av-
sevärt. De textuella koderna gör texterna lättare att tolka i en ASCII-form
där den grafiska layouten går förlorad. Man kan också lättare hitta olika
delar i en text beroende på vad man är intresserad av. I bästa fall får man
fram sådan information i ett par sekunder, som annars skulle ta en lång tid
att excerpera; t.ex. en lista över rubrikerna, skribenterna, ingresserna i
tiotals dagstidningar.
Fastän det treåriga projektprogrammet nu är avslutat, behöver det inte
innebära något slut på utvecklingen och utökningen av FISC-korpusen. Ingenting
hindrar oss att betrakta den nuvarande tämligen välkodade korpusen som en
kärna, som i likhet med BNC kan utökas med stora mängder av mindre behandlat
material; också SUC ska kompletteras på detta sätt. Man kan också lika väl gå
djupare i kodningen och tagga kärnan grammatiskt, till stor del med hjälp den
typ av maskinell analys som SWETWOL kan utföra.
Men det är skäl att poängtera att FISC-korpusen redan i nuläget är en unik
och inspirerande informationskälla till svenskan i dagens Finland och till-
räcklig för många slags analyser: konkordanssökningar, excerperingar av olika
typer, frekvensberäkningar osv. Och i en forstsatt motivering för användningen av FISC i forskningen kan det konstateras, att genom en existerande korpus
slipper den enskilda forskaren mödan att samla in eget material. I projektet
har vi fått uppleva att det inte är så enkelt att få tag på ADB-formaterade
texter - något som kan verka otroligt i dag. Tidningarna och bokförlagen är
inte alltför tillmötesgående, eftersom moderna texter är skyddade av upphovs-
mannarätt. Det räcker inte heller vanligtvis att man bara för in texter i sin
dator och börjar undersöka. Texterna behöver olika typer av behandling: av-
stavningar och onödiga luckor ska raderas, radformatet borde helst vara
kontinuerligt, korrektur ska läsas speciellt på skannade texter osv. Och sist
men inte minst måste man ha tillgång till lämpliga verktyg för att kunna ut-
föra sökningar i materialet.
5.3 FISC i forskning
FISC-korpusen öppnar vida vyer för forskningen i (finlands)svenskt språkbruk.
Den kan utnyttjas som källa för information inom varierande forskningsfält.
T.ex. för följande ändamål lämpar sig FISC särskilt väl:
* Språkforskning:
- korpusen utgör en materialbas för avhandlingar och uppsatser.
* Språkvård:
- korpusen kartlägger naturligt språkbruk.
* Lexikologi/lexikografi
- som ovan.
* Datalingvistik:
- korpusen bereder material som datoriserade analysmodeller av
svenska språket kan byggas och prövas på.
* Undervisning:
- korpusen kan utnyttjas i seminarieundervisning och som
materialkälla i pro gradu- och postgraduala studier. Korpusen bereder
också material för utarbetningen av läromedel.
Under projektets gång har färdiga delar av korpusen använts för praktiskt taget
alla de ovan uppräknade syftena.
Grundid`n i datorstödd lingvistik är att man först låter en maskin göra
sökningar i ett för människan oöverskådligt stort material. Resultatet av dessa
föranalyser ger data, som är mer relevanta för ett givet ändamål och som
rimligen kan tolkas av den enskilda forskaren. Låt oss anta, att vi är intres-
serade av språket i rubrikerna i dagstidningar. I stället för att själva
granska ett antal tidningar och antingen klippa ut rubrikerna eller anteckna
dem, kan vi låta ett UNIX-program göra jobbet. På några sekunder får vi en
lista över rubrikerna i 20 nummer av Hufvudstadsbladet.
Fördelarna med den datorstödda metoden är alltså uppenbara.
Det finns i UNIX många små program (s.k. filters) som ensamt eller i
kombination med varandra är nyttiga vid lingvistiska analyser. Dessa program
kan visa, kombinera, sortera, konvertera, excerpera och beräkna data. Ett
enskilt program räcker t.ex. för excerperingen av de rubrikrader som visades
ovan. Utarbetningen av ord- och frekvenslistor förutsätter däremot att man
kombinerar olika program som sorterar och räknar. Institutionen för allmän
språkvetenskap har också tillgängliggjort program som anger resultaten i
klassisk konkordansform med rad- eller meningsbasis. Varje användare av
UNIX-värddatorer får en s.k. hemkatalog där man kan spara och vidare behandla
resultaten av sina excerperingar. Det är också möjligt att kopiera resultaten
i sin persondator och behandla dem där; dataöverföringen görs via
FTP-programmet (eng. 'file transfer protocol').
Operationerna med programmen och indata är i och för sig enkla och
logiska. Det finns m.a.o. ingen orsak att vara rädd för UNIX. Men det stora
problemet är förstås, hur man ska komma i gång utan tidigare erfarenhet. Det
tar sin tid innan man vänjer sig vid sökvägarna och kommandosyntaxen.
Speciellt med hänsyn till FISC har vi utarbetat en liten manual där det
redogörs för de vanligaste funktionerna (Lindström & Salervo 1993); se bilaga
4.
Det allra enklaste sättet att komma i gång med sökningar av typ konkordans
är att ty sig till ett menybaserat användargränssnitt till FISC-korpusen.
"Menyn", som liknar ett s.k. gopher, har utvecklats i samarbete med institu-
tionen för allmän språkvetenskap, och den är unik för FISC. Arbetsproceduren
går framåt stegvis genom att man först loggar in (som vanligt), startar
menyn, väljer data, väljer program, anger sökargument, varefter resultatet
man kan spara eller låta bli visas. Allt detta sker s.a.s. interaktivt så att
man för varje steg anger en siffra som motsvarar något av de alternativ som
visas på bildskärmen. Menyns startruta ser ut så här (i en provversion):
fisc-shell version 0.5, rw 24 Nov 1994
You can use files in the following corpuses:
1. hbl (Hufvudstadsbladet)
2. vbl (Vasabladet)
3. lit (misc. literature)
4. previous menu
5. exit
Your choice ?
Menyn lämpar sig bäst för tillfälliga användare, som snabbt vill slå upp
något ord eller uttryck men inte vill fördjupa sig i mer avancerade funktioner.
5.4 Tillgång till FISC-korpusen
En viktig aspekt på FISC är att korpusen nås och hanteras genom UNIX-
operativsystemet. I UNIX-handböcker brukar man påpeka att UNIX inte bara är
namnet på en typ av ADB-operativsystem. UNIX är namnet på en global kultur
som inbegriper datornätverk, elektronisk post och en hel del programvaror
(t.ex. Hahn 1994). I denna kultur finns inbyggt ett ideal om samarbete insti-
tutioner emellan, enskilda användare emellan samt en vilja att dela med sig
resurser genom det globala nätverket. Grundid`n med FISC är densamma þ att
bereda tillgång till material och verktyg för alla som har intresse för och
nytta av dem.
Så som allmänt i UNIX, bereds tillgången med vissa förbehåll. Man utgår
ifrån att UNIX-folket är ärligt, men samtidigt vill man skydda systemet mot
illvilliga personer. Därför förutsätter tillgången till UNIX-system att var
och en blir registrerad som användare och får ett eget lösenord med vilket
man loggar in i en UNIX-dator. FISC-korpusen kan nås genom UNIX-värdar på
institutionen för allmän språkvetenskap vid Helsingfors universitet; de är
maskiner med namn som t.ex. waltari eller polva. Den som ska ha tillgång till
FISC ska alltså ansöka om ett lösen till någon av dessa UNIX-värdar samt
skriva på ett avtal med FISC-projektet.
Tillgången till UNIX förutsätter inte någon speciell teknisk utrustning.
Det vanliga är att man har en persondator med något kommunikationsprogram
(t.ex. Telnet) och att datorn är kopplad till ett nätverk (Internet). Person-
datorn kan i princip vara hur enkel som helst, eftersom arbetet utförs av
den avancerade UNIX-värden, medan persondatorn emulerar en enkel terminal.
Alla universitet och större forskningsenheter har fasta kabelanslutningar
till nätverk. Ett fast nätverk är det snabbaste och pålitligaste sättet att
komma åt de UNIX-datorer som har hand om FISC-korpusen. Det föreligger så-
ledes inga kostnader för den enskilda användaren i en akademisk gemenskap.
Det är också möjligt att kontakta UNIX-värden t.ex. hemifrån med modem via
en telefonlinje.
6. Sammanfattning
Sammanställningen av en finlandssvensk textkorpus kan betraktas som en
milstolpe för förutsättningarna att beskriva svenskan i Finland. Den nuvarande
korpusen om ca 2,5 miljoner löpord kan bli en kärna för en i framtiden utökad
nationalkorpus i det svenska Finland. En dylik textbas är en nödvändighet för
språkvården, och för forskningen ger den vida vyer tack vare möjligheterna att
behandla stora textmängder på ett snabbt och tillförlitligt sätt. Tillsvidare
har beskrivningar kunnat ges endast punktvis.
På det teoretiska planet ger projektet möjligheter till väsentliga
bidrag för diskussionen om konsekvenserna av språkkontaktfenomen. Den offi-
ciella ställningen av svenska språket i Finland kan visserligen anses ha en
bevarande effekt på språket, men å andra sidan finns det tecken på att den
finlandssvenska särutvecklingen pågår med ökad och ohejdad fart. Vilka nivåer
är det som berörs? Traditionellt har man talat om syntaktisk och semantisk
interferens på det strukturella planet, men inom nyare pragmatiskt inriktad
forskning har den sociokulturella kontexten i allt högre grad lyfts fram. Den
kommunikativa nivån kommer härmed att bli central, vilket i och för sig kan
låta självklart, men i verkligheten har pragmatiska aspekter bara under en
kort tid haft ett utrymme inom språkbeskrivningen.
FISC-korpusen kommer att kunna utnyttjas av alla intresserade forskare
både inom och utanför institutionen för nordiska språk och litteratur
(Nordica) vid Helsingfors universitet. Bl.a. med tanke på internationali-
seringen av universiteten är det väsentligt att en institution som Nordica
kan bereda studiemöjligheter för forskare inom ett område som institutionen
deklarerat som ett av sina tyngdpunktsområden, nämligen svenskan i Finland
och konsekvenserna av tvåspråkigheten.
7. Litteratur
Aarnitukia Hannu & Lindström Jan. 1993. En finlandssvensk textkorpus. I: Veik-
ko Muittari & Matti Rahkonen (utg.), Svenskan i Finland 2. Meddelanden
från institutionen för nordiska språk vid Jyväskylä universitet. 1-17.
Ahlbäck, Olav. 1971. Svenskan i Finland. 2:a uppl. Skrifter utg. av Nämnden
för svensk språkvård 15. Stockholm
Burnard, L. & SperbergþMcQueen, C.M. (utg.). 1994. Guidelines for Electronic
Encoding and Interchange (P3). Chicago: Text Encoding Initiative.
Chafe, Wallace. 1992. The importance of corpus linguistics to understanding
the nature of language. I: Svartvik, Jan (utg.), 1992b.
ECI. 1994. European Corpus Initiative. Multilingual Corpus I. CD-ROM.
Association for Computational Linguistics, European chapter.
Gellerstam, Martin. 1992. Modern Swedish Text Corpora. I: Svartvik, Jan 1992b
(utg.), 1992b. 149-163.
Hahn, H. 1994. Open Computing Unix Unbound. Berkeley: Osborne McGraw-Hill.
Hellberg, S. 1992. Using corpus data in the Swedish Academy Grammar. I:
Svartvik, Jan 1992b (utg.). 311-331.
Karlsson, Fred. 1990. Constraint Grammar as a Framework for Parsing Running
Text. I: Karlgren, Hans (ed.) Papers presented to the 13th Inter-
national Conference on Computational Linguistics, Vol. 3, Helsinki.
Karlsson, Fred. 1992. SWETWOL: A comprehensive morphological analyzer for
Swedish. Nordic Journal of Linguistics 1.
Karlsson, Fred & Koskenniemi, Kimmo. 1990. BETA-ohjelma kielentutkijan apu-
välineenä. Helsinki: Yliopistopaino.
Koskenniemi, Kimmo. 1983. Two-level morphology: A general computational model
for wordform recognition and production. Publications of Department of
General Linguistics, University of Helsinki.
Källgren, Gunnel. 1990. Storskaligt korpusarbete på dator. En presentation
av SUC-korpusen. I: Thelander, Mats m.fl. (red.), Svenskans beskrivning
18. Lund: Lund University Press. 201-212.
Källgren, Gunnel. 1994. Manual for TEI conformant mark-up of the SUC (draft).
Opublicerat manuskript. Stockholms universitet.
Leech, G. 1994. Föreläsning given vid forskarseminariet på institutionen för
allmän språkvetenskap 16.11.1994. Helsingfors universitet.
Lindström J. & Salervo A. 1993. Manual för En finlandssvensk textkorpus
(FISC). Version 1.0. Institutionen för nordiska språk och nordisk
litteratur, Helsingfors universitet.
Pitkänen, Kari. 1992. SWETWOL/Major changes in 1992. Kompendium; Research
Unit for Computational Linguistics, University of Helsinki.
Protokoll fört vid Föreningens för nordisk filologi Lammiseminarium
15-16.11.1985.
Quirk, Randolph. 1992. On corpus principles and design. I: Svartvik, Jan
(red.) 1992b.
Reuter, Mikael. 1986. Några tankar om finlandismer. Meddelanden från
Institutionen för nordiska språk och nordisk litteratur vid Helsingfors
universitet. Serie B, nr 10. Helsingfors.
Saari, Mirja. 1991. Interaktionsstrategier i Helsingfors. Några iakttagelser
av hur artighet realiseras i finska, finlandssvenska och sverigesvenska '
samtal. I: Berge, K.L. & Kotsinas, U-B. (utg.), Storstadsspråk och
storstadskultur i Norden. Meddelanden från Institutionen för nordiska
språk vid Stockholms universitet MINS 34. Stockholm. 200-212.
Sinclair, John. 1991. Corpus, Concordance, Collocation. Oxford.
Solstrand-Pipping, Helena. 1989. Om finlandismerna i Fänrik Ståls sägner.
Folkmålsstudier 32.
Svartvik, Jan. 1986. For Nelson Francis. ICAME Journal 10. 8-9.
Svartvik, Jan. 1992a. Corpus linguistics comes of age. I: Svartvik, Jan
1992b (utg.), 1992b. 7-13.
Svartvik, Jan. 1992b. Directions in corpus linguistics. Trends in
linguistics: Studies and
Monographs 65. Berlin: Mouton de Gruyter.