En finlandssvensk textkorpus
A Finland Swedish Text Corpus (FISC)

Institutionen för nordiska språk och nordisk litteratur
Helsingfors universitet
Januari 1995



Sammanställd av Mirja Saari, Jan Lindström, Hannu Aarnitukia

1. Projektets namn, forskare och syfte

Namn: En finlandssvensk textkorpus
A Finland Swedish Text Corpus, FISC

Placering: Institutionen för nordiska språk och nordisk litteratur,
Helsingfors universitet

Tid: 1.8.1991 - 31.12.1994

Projektledare: Prof. Mirja Saari

Referensgrupp: Prof. Fred Karlsson, Institutionen för allmän språkvetenskap samt byråchef FL Mikael Reuter, Forskningscentralen för de inhemska språken

Forskare: FL Jan Lindström, FL Juhani Birn, FM Hannu Aarnitukia, FM Maria Hägglund

Forskningsbiträde: Fil. stud. Annika Salervo

Datalingvistisk expertis: FK Kari Pitkänen

Syfte: Projektet syftar till en kartläggning av modernt finlandssvenskt språkbruk i skrift. Detta sker genom uppläggning av en datorbaserad textkorpus bestående av tidningsmaterial, myndighetstexter, skönlitteratur samt övrig icke-fiktiv prosa; i ett senare skede kan materialet utökas. Samtidigt som FISC-korpusen möjliggör granskningen av speciellt finlandssvenska språkdrag är korpusen också av stort allmänsvenskt intresse. Ett samarbete med ett motsvarande projekt vid Institutionen för lingvistik vid Stockholms universitet har etablerats, vilket ger möjligheter till direkta jämförelser med det sverigesvenska språkbruket. Korpusen bereder vidare material som kan utnyttjas vid utarbetningen av datoriserade lingvistiska analysprogram, i synnerhet en ny version av SWETWOL-programmet.

2. Bakgrund

Behovet av en datorbaserad finlandssvensk textsamling har redan under en längre tid varit akut. Dels är ett dylikt underlag nödvändigt för den praktiska språkvården i Finland, dels ger ett ADB-baserat material goda möjligheter för språkforskning av teoretiskt intresse inom ett språksamfund som Finland. Den finlandssvenska särutvecklingen har i brist på systematiskt uppgjorda materialsamlingar kunnat beskrivas i ytterst blygsam utsträckning. Många uttalanden om finlandssvenska tycks grunda sig på lösa antaganden, vilket ibland kommer till uttryck i laddade insändare i tidningsspalterna. Forskarna för sin del har saknat underlag för en saklig debatt i frågan. Det är allmänt känt att skillnaderna gentemot svenskan i Sverige är många, men hur genomgående de är i ord- och frasförrådet, syntaxen och semantiken samt själva språkbruket finns det inga uppgifter om. FISC-korpusen kartlägger speciellt läget hos det skrivna svenska språket i Finland. Skriftspråket är ett viktigt forskningsobjekt, emedan det är en central offentlig mönster- bildareinom ett språksamfund.

I teoretiskt avseende är svenska språket i Finland på många sätt värt att undersöka, eftersom det trots sin minoritetsställning i århundraden har varit landets officiella språk. Jämfört med de flesta minoritetsspråk i Europa kan man därför vänta sig en utveckling som skiljer sig från ett mönster där utgångspunkterna varit andra. Bl.a. har ett särskilt finlandssvenskt riksspråk utvecklats, och man utgår ifrån att det i Åbo långt in på 1700-talet inte var mer provinsiellt än i städerna i Sverige i allmänhet (Ahlbäck 1971). Vid 1800-talets början tycks en särutveckling träda in, och mot slutet av århundradet och i början av 1900-talet var man ytterst medveten och orolig över situationen (Solstrand-Pipping 1989). I dag ökar utvecklingstakten för varje år, trots aktiva insatser från den finlandssvenska språkvården. Det finska inflytandet är väldigt på alla områden inom språkbruket. Detta inflytande syns först och tydligast i det talade språket. Det finns få undersökningar om hur utvecklingen fortgår i det skrivna språket.

Utan aktiva forskningsinsatser är det omöjligt att komma åt den finlandssvenska särutvecklingen. De möjligheter som en ADB-baserad textkorpus erbjuder forskarna är dock hoppingivande. Vi stävar efter att FISC-korpusen skall motsvara följande förväntningar (enligt Svartvik, 1992a:8-9):

* FISC utgör ett underlag för mera objektiva uttalanden om språket än enbart introspektiva iakttagelser.

* den inför möjligheten till verifiering i den språkvetenskapliga metodiken.

* den ger information om variabelfrekvenser i olika register.

* den ger information om det gängse finlandssvenska språkbruket i skrift. Denna information kan utnyttjas inom språkvård, utbildning, översättning, ordboksarbete m.m.

* den ger en mera fullständig bild (total accountability) av lingvistiska företeelser i stället för enskilda iakttagelser i isolation.

* den kan användas av olika forskare samtidigt eller genom tiden som en gemensam materialbas. Lingvistiska analyser som baserar sig på gemensamt material är bättre jämförbara.

* den kan fungera som ett underlag i språkvetenskapliga studier för forskare som inte har svenska som modersmål och som sålunda inte kan lita på sin intuition vid inhämtandet av data.

FISC-korpusen befinner sig rent fysiskt i en UNIX-värddator på institutionen för allmän språkvetenskap vid Helsingfors universitet. Alla som har tillgång till Telnet-nätverket eller har ett modem och som har ansökt om rättighet att använda en UNIX-värddator och FISC kan nå korpusen via sin persondator. FISC kan sålunda användas även utanför landets gränser. Nedanstående figur illustrerar korpusens befintlighet.

FISC-korpusen skall bli allmänt tillgänglig som en resurs och inspirations- källa i forskningen i finlandssvenska. Färdiga delar av korpusen har redan använts i begränsad utsträckning inom forskning, språkvård, studier och programutveckling. I februari 1995 kan en kärnkorpus om en planenlig omfattning på ca 2,5 miljoner löpord anses föreligga färdig och öppen (enligt avtal) till alla intresserade i forskargemenskapen.

3. Beskrivning av FISC-projektet

Tanken om sammanställningen av en finlandssvensk textkorpus aktualiserades i juni 1991, då en assistentur vid Institutionen för nordiska språk och nordisk litteratur blev ledig och för läsåret 1991-92 kunde besättas med en person, FM Hannu Aarnitukia, som var väl förtrogen med datorer. Behovet av en textkorpus hade visserligen redan under en längre tid känts akut, men arbetet hade av olika orsaker inte kunnat förverkligas.

Initiativet till en finlandssvensk textkorpus togs hösten 1985 då Föreningen för nordisk filologi r.f. anordnade ett seminarium i Lammi för att lägga upp ett handlingsprogram för en dylik korpus. Den ADB-baserade korpusen skulle utgöra det empiriska underlag som en systematisk kartläggning av finlandssvenskan skulle kunna byggas på. Vid seminariet gav professor Fred Karlsson riktlinjerna för diskussionen om metodfrågor.

När möjligheter för arbetet inom Nordica hade öppnats, sammankallade prof. Mirja Saari prof. Fred Karlsson och FL Mikael Reuter, byråchef vid Forsknings- centralen för de inhemska språken, till ett möte som snart efterföljdes av flera möten under vilka riktlinjerna för projektet utstakades. Gruppen som också i det fortsatta arbetet har fungerat som en referensgrupp, enades om de grundläggande principerna för projektet. Korpusen läggs upp för forsknings- ändamål och för praktiskt språkvårdsarbete. Det är sålunda först och främst forskare och språkvårdare som kommer att använda den. Följande principer för FISC-korpusen har kunnat fastslås inom FISC-gruppen:

* Korpusen bör innehålla en sammansättning av olika texttyper.

* Korpusen bör bestå av hela, sammanhängande texter snarare än av textblock representerande en viss genre. (I detta avseende blir FISC ingen "idealkorpus", jfr Brown.)

* Den geografiska härkomsten av texterna ska vara mångsidig.

* FISC kommer att bestå av en kärnkorpus om ca 2,5 miljoner ord och större, ostrukturerade avdelningar i vilka material senare kan införas.

* De i kärnkorpusen ingående texterna bör vara publicerade under 90-talet.

* Texterna ska bli strukturellt och i viss mån även innehållsligt kodade. Den slutgiltiga versionen av korpusen ska vara taggad i enlighet med internationella principer (TEI).

* Texterna bör vara korrekturlästa men icke-manipulerade, dvs. språk- och tryckfel som funnits i texternas originalversion rättas inte (förutom textfiler som är avsedda för maskinella grammatiska analyser).

I följande "projektdagbok" beskrivs arbetet med FISC-korpusen steg för steg från startskedet hösten 1991 till kompletteringen av kärnkorpusen vintern 1995.

3.1 Startskedet: planering och sammanställning av tidningskorpusen (1.8.1991-31.7.1992)

Inom sin tjänstgöring vid Nordica är tf. assistenterna FM Hannu Aarnitukia och fil. stud. Eva Hannus sysselsatta med projektet. Vid sidan av andra uppgifter för de in tidningsmaterial (Hufvudstadsbladet) i den aktuella textkorpusen. Institutionens sommarpraktikant fil. stud. Annika Salervo för in material ur Vasabladet. Ekonomiskt har arbetet fått extra stöd av Svenska Litteratursäll- skapet i Finland r.f. som i juni 1991 beviljat ett mindre anslag för initial- kostnader (10.000,-). Tack vare detta kan Aarnitukia företa en forskningsresa och bekanta sig med SUC-projektet vid Institutionen för lingvistik, Stockholms universitet. I detta planeringsmöte deltog bl.a. Gunnel Källgren och Benny Brodda från institutionen för lingvistik.

Under den aktuella perioden granskas förutsättningarna för uppläggningen av textkorpusen, dvs. kontakter med de viktigaste svenskspråkiga tidningarna och förlagen etableras och möjligheterna att i korpusen inkludera material som representerar myndighetstexter (lagar, författningar och andra administrativa texter) undersöks. Också underlaget för automatisk analys av texterna utreds.

Under läsåret 1991-92 överförs ett tidningsmaterial på 1 miljon ord på dator. Detta består av en textmassa på 700 000 ord ur Hufvudstadsbladet och 300 000 ord ur Vasabladet. Valet av material sammanhänger med att de två tidningarna har det största läsarunderlaget inom Svenskfinland och vidare med att en viss geografisk spridning härmed kan anses föreligga. Det överförda materialet kontrollkörs och förses med icke-lingvistiska taggar (uppgifter om texten, gränser för de olika tidningsartiklarna, stycken, meningar, satser, markering av bildtexter osv.) och föreligger sålunda färdigt för användning.

3.2 Första projektåret: strukturen etableras (1.8-31.12.1992)

FM Hannu Aarnitukia och FK (FL/93) Jan Lindström arbetar som heltidsanställda forskare inom projektet 1.8.-31.12.92, tack vare särskilda forskningsmedel från Helsingfors universitet. För 1993 beviljar universitetet endast en forskarlön, som går till Aarnitukia, medan Lindström under samma år utför sitt projekt- arbete inom en tf. assistentur vid Nordica. Aarnitukia slutar dock på egen begäran som forskare 30.6.93. I hans ställe anställs fil.stud. Annika Salervo som forskningsbiträde 1.9.-31.12.93; hon har redan under vårterminen 1993 arbetat inom projektet (timarvoden), samt FL Juhani Birn som forskare 1.11.-31.12.93. (forskningsstipendium). Som datalingvistisk expert avlönas fil.stud. Kari Pitkänen (timarvoden).

Den nya perioden inleds med ett besök av forskargruppen kring SUC- korpusen vid Stockholms universitet. Ett gemensamt seminarium för SUC och FISC anordnas vid Helsingfors universitet 25-26.8.1992. Under de två seminariedagarna diskuteras principer för korpusarnas uppläggning, taggning samt utvecklingen av programvaror. Närvarande vid mötet är Mirja Saari, Hannu Aarnitukia, Jan Lindström och Eva Hannus från FISC, Gunnel Källgren, Benny Brodda och Gunnar Eriksson från SUC, samt Fred Karlsson, Kimmo Koskenniemi och Kari Pitkänen från institutionen för allmän språkvetenskap och Mikael Reuter från Forskningscentralen för de inhemska språken. Mötet anses fylla en viktig funktion och representanterna för SUC inbjuder FISC-medarbetarna till Stockholm 1993.

Inom FISC definieras riktlinjerna för arbetsgången ytterligare. Det anses väsentligt att införa i korpusen en fjärde textkategori utöver de tre tidigare planerade textkategorierna, dvs. tidningsspråk, skönlitteratur, myndighets- texter. Den fjärde kategorin man enas om skall bestå av olika slag av sak- texter (icke-fiktiv prosa). Med denna textkategori kan man infånga många sådana genrer som också kommer att ingå i SUC-korpusen. Det blir också uppen- bart att den skönlitterära delen i korpusen bör utvidgas något vad gäller kvantitet, från åtta verk till tolv.

Under höstterminen 1992 anordnar projektet två intensivkurser i användningen av FISC-korpusen vid Nordica. Både personalen och drygt 20 studenter (två seminariegrupper) deltar i kursen som ges av Hannu Aarnitukia och Kari Pitkänen.

Prof. Mirja Saari håller sitt seminarium inom fördjupade studier med FISC- korpusen som utgångspunkt. De flesta deltagarna skriver sin seminarieuppsats utgående från materialet och en del fortsätter med arbetet i sin pro gradu- avhandling.

Aarnitukia och Lindström presenterar FISC-projektet vid symposiet Svenskan i Finland 2 vid Jyväskylä universitet 6.11.1992. Föredraget publiceras i en konferensvolym i september 1993 (se bilaga 1).

* Utökning av korpusen (1992-1993).

Under läsåret 1992-93 införs ett skönlitterärt material på drygt 600 000 ord. I praktiken innebär detta 12 verk. Härmed är hela den planerade skönlitterära avdelningen fullbordad. De införda verken är skrivna av kända finlandssvenska författare som representerar olika delar av Svenskfinland. Materialet har publicerats under 1990-talet, i enlighet med projektets ursprungliga planer. Det överförda materialet har korrekturlästs och försetts med icke-lingvistiska taggar (jfr tidningsmaterialet) och föreligger färdigt för användning.

Också avdelningarna myndighetstexter och saktexter har försetts med material, även om arbetet inte är fullbordat. I kategorin myndighetstexter ingår lagtexter bestående av ca 290 000 ord (se bilaga 2). Materialet är dock icke-kontrollerat och icke-taggat. Därtill har offentliga utredningar från länsstyrelsen i Nylands län och undervisningsministeriet (ungefär 40 000 ord) förts in. Dessa texter är korrekturlästa och försedda med icke-lingvistiska taggar. I kategorin saktexter ingår en memoarbok från det finlandssvenska litterära kulturlivet samt en politisk debattbok som innehåller uppsatser av ett trettiotal kända finlandssvenskar. Materialet (ca 120 000 ord) är korrek- turläst och taggat, men vissa upphovsrättsliga frågor angående texternas användning i korpusen måste ytterligare utredas.

3.3 Andra projektåret: presentationer och utredningar (1.1-31.12.1993)

Tyngdpunkten i det praktiska korpusarbetet ligger på överföringen av det skönlitterära materialet till datorläsbar text. I praktiken innebär detta att de utvalda verken scannas in en och en, emedan texten inte kan erhållas i diskettform. Scannade texter innehåller förhållandevis många fel som måste rättas till genom att manuellt korrekturläsa texterna.

I mars 1993 inleder projektet arbetet med att kontakta rättsinnehavarna till de i korpusen ingående texterna. Söderström & C:o Förlags AB ställer sig positivt och förmedlar kontakten till sina författare. Avtal om den juridiska rätten att nyttja texterna för forskningsändamål undertecknas härefter med 13 författare. Ett avtal kommer till stånd också med Hufvudstadsbladet samt med Folkhälsan.

Aarnitukia och Lindström testar hypoteserna för sina egna forsknings- uppgifter i form av pilotundersökningar. Samtidigt får man erfarenhet av hur den datorhjälpta metoden kan tillämpas för forskningsändamål. Resultaten av pilotundersökningarna presenteras vid Nordicas högre seminarier under hösten 1992 och våren 1993. Lindström presenterar de grundläggande tankarna och pilotundersökningarna för sin doktorsavhandling i en uppsats i The New Courant 1/1993, tidskrift på institutionen för engelsk filologi, Helsingfors universi- tet.

Aarnitukia och Lindström utarbetar en engelskspråkig informationsbroschyr om FISC-projektet. Projektet låter trycka en upplaga på 200 exemplar.

Aarnitukia och Lindström deltar i ett seminarium om Datalingvistik och datorstöd vid Göteborgs universitet i 22-23.4. Det stora svenska ADB- korpusprojektet Språkbanken är beläget i Göteborg och kontakt med prof. Martin Gellerstam etableras. FISC presenteras under seminariet och seminariedeltagarna tilldelas FISC-broschyren.

Medarbetarna i FISC-projektet (Saari, Lindström, Salervo och Pitkänen) deltar 16-17.8.93 i ett symposium vid Stockholms universitet som samarbets- partnern SUC har anordnat. Det aktuella läget för de två projekten utreds och gemensamma problem diskuteras, särskilt frågan om taggning och förenhetligandet av korpusarna. Internationella kontakter planeras.

Jan Lindström lägger fram de grundläggande hypoteserna för sin avhandling (som hämtar sitt material från FISC) vid konferensen Svenskans beskrivning 20 i Umeå i december 1993.

I augustiþseptember utarbetar Lindström och Salervo en manual för användningen av FISC-korpusen. Manualen presenterar korpusens filuppläggning och olika sökningsalternativ från radkonkordanser till frekvenslistor, elektronisk post och dataöverföring. Manualen ges ut med projektmedel som ett häfte på 35 sidor i oktober 1993 (bilaga 4).

3.4 Tredje projektåret: korpusen tar sin slutgiltiga form (1.1-31.12.1994)

* Forskarna

Enligt planerna fortsätter FL Jan Lindström som forskare i FISC inom ett förordnande som tf. assistent vid Nordica. I stället för FM Hannu Aarnitukia som lämnat projektet 30.6.93 anställs FL Juhani Birn som forskare i projektet fr.o.m. 1.1.1994. Så som under de föregående åren, fortsätter FK Kari Pitkänen som projektets datalingvistiska expert med timarvode.

Vid sidan av uppgifterna att bygga upp FISC-korpusen arbetar FL Jan Lindström arbeta på sin doktorsavhandling om ikonicitet. I sin studie utgår han från korpusen och de möjligheter till automatisk databehandling av texter som den erbjuder. Vid utgången av projekttiden (dec. 1994) föreligger stommen till ett första manuskript till avhandlingen Repetera är mera: upprepning, intensifiering, ikonicitet färdig.

FL Juhani Birn är ny som forskare inom FISC, men han har under en längre tid varit verksam vid institutionen för allmän språkvetenskap, HU. Under 1994 arbetar han vid sidan av de mer allmänna FISC-uppgifterna med automatiska sökprogram för syntaktiskt definierade enheter (SWETWOL), enligt de riktlinjer som utstakats av Fred Karlsson (1990) inom English Constraint Grammar.

Juhani Birn lämnar projektet 31.7.1994 för återgå till institutionen för allmän språkvetenskap (HU). Han fortsätter dock med utvecklingsarbetet kring SWETWOL och är således indirekt kopplad till FISC-projektet.

Birn ersätts av FM Maria Hägglund för den resterande projekttiden 1.8þ31.12.1994. Den centrala uppgiften för Hägglund är att delta i kodningen av befintliga FISC-texter. Hon bidrar till projektet också genom att anskaffa mera material till avdelningen "allmänna myndighetstexter" där de kvantitativa planerna inte helt uppnåtts. I januariþfebruari 1995 ska Hägglund skriva en framställning om den TEI-enliga taggningen i FISC-korpusen. Artikeln ska ingå i en planerad FISC-monografi.

* Införing av material

Eftersom projektet syftar i första hand till en uppläggning av själva korpusen, är en utökning av materialet samt kodning av befintligt material den viktigaste uppgiften för forskarna. Avdelningarna saktext och myndighets- text kompletteras i stort sett enligt planerna. I praktiken innebär detta införing av ett material om ca 400 000 ord. En del av texterna erhålls i maskinläsbar form, men man måste också föra in texter genom scanning. Detta moment i projektet fortsätter ända till december 1994.

Kodningen av det omfattande lagspråksmaterialet (närmare 300 000 ord) tar en relativt lång tid i anspråk. Momentet påbörjas på vårterminen 1994 och slutförs i början av höstterminen 1994.

* Uppdatering av taggning

Innan korpusen föreligger färdig måste taggningen, dvs. texternas kodning förenhetligas med de internationella rekommendationerna i samtliga textfiler. FISC ansluter sig till riktlinjerna enligt SUC (Källgren 1994) och TEI (Text Encoding Initiative). Momentet inleds först efter att allt planerat material förts in i kärnkorpusen; kodkonverteringen sker i december 1995 och fort- sätter i januari 1995. I samband med konverteringen kontrolleras texterna än en gång och vissa taggar läggs till, t.ex. för direkt anföring och utländska lån. Processen är arbetsam, men den framskrider väl.

Varje text i korpusen ska inledas med en allmän standardiserad beskrivning, en s.k. TEI-header. Jan Lindström utarbetar en fast modell för FISC utgående från TEI-rekommendationen P3 (Burnard-Sperbeg-McQueen 1994) i december 1994.

* Övrig forskning

Projektet har under läsåret 1993-94 berett material för forskning utanför projektgruppen. Som det ovan framgått används FISC-texterna av samarbetspartnern SUC i Stockholm och Umeå som underlag för utvecklandet av automatiska analysprogram. En annan nära partner utgör Forskningscentralen för de inhemska språken där forskarna dagligen utnyttjar korpusen i sitt språkvårds- och ordboksarbete.

För närvarande används FISC-texterna för två avhandlingar. FL Christina Melin-Köpilä (Åbo; Uppsala universitet) har dem som jämförelsematerial i sin doktorsavhandling över finlandismer hos skönlitterära författare, och FK Sirpaliisa Kylliäinen (Nordica) baserar sin licentiatavhandling, en kontrastiv studie mellan sverigesvenskt och finlandssvenskt tidningsspråk, på material ur FISC respektive SUC. Avhandlingen kommer att föreligga färdig under år 1995. FK Leena Murtovaara har skrivit sin pro-graduavhandling (1994) med utgångspunkt i FISC-materialet.

Material ur FISC-korpusen har använts i en del mindre studier. FD Ingegerd Nyström och FL Mikael Reuter föreläste om finlandssvenskt prepositionsbruk respektive användningen av orden 'finsk' och 'svensk' i Sverige och Finland vid symposiet Svenskan i Finland 3 vid Helsingfors universitet i oktober 1995. De baserade undersökningarna på FISC-tidningskorpusen som jämfördes med ett motsvarande sverigesvenskt material. Föredragen kommer att publiceras i en konferensvolym våren 1995.

Ytterligare kan nämnas att prof. Mirja Saari har utnyttjat korpusen för sin forskning under 1994. Studier i ordfrekvenser utifrån FISC-tidnings- korpusen har gjorts av Charlotte von Hertzen (Helsingfors universitet), Elsie Wijk-Andersson (Uppsala universitet) och Sonja Vinquist (Vasa universitet). Forskningsbiträde Maria Mannil i projektet Svenska samtal i Helsingfors (Nordica & Svenska social- och kommunalhögskolan) har studerat förekomsten av interjektionen hej i FISC-materialet.

Enligt protokollet har 41 forskare och studenter t.o.m. januari 1995 skaffat sig rätten att använda FISC-korpusen. De flesta användarna är naturligtvis koncentrerade kring Helsingfors universitet, dvs. Nordica och institutionen för allmän språkvetenskap. Flera progradu-skribenter arbetar med FISC-korpusen som utgångspunkt. Det finns ett avsevärt antal registrerade användare på Forskningscentralen för de inhemska språken. Korpusen används i viss utsträckning också på institutioner för svenska språket vid övriga universitet i Finland (Åbo Akademi, Vasa, Joensuu) och i Sverige (Stockholm, Uppsala, Umeå).

* Undervisning

Ordlistor hämtade ur FISC-korpusen har använsts vid utarbetandet av läromedel för muntlig färdighet i svenska vid Nordica. FISC erbjuder också en tillgång vid korrigering av översättningsövningar genom att man kan kontrollera konstruktionernas förekomst i autentiskt språkbruk.

* Införing av talspråksmaterial

FISC skall ursprungligen innehålla enbart skrivet material från 1990-talet, men i olika sammanhang har också frågan om en talspråkskorpus kommit upp. Forskningen i talad svenska har varit ett av tyngdpunktsområdena vid Nordica under de senaste två decennierna, men någon databas har trots allt inte existerat. När det gäller beskrivningen av svenskan i Finland kan det talade språket inte förbises. Även om man kan anta att det skrivna FISC-materialet kommer att avslöja systematiska skillnader mellan språkbruket i Sverige och Finland, förefaller det rimligt att skillnaderna i ännu högre grad gäller det talade språket. Införingen av talspråksmaterial i FISC är därför väl motiverad.

Komplettering med talspråksmaterial är motiverad också ur en inter- nationell synvinkel. Den stora brittiska nationalkorpusen BNC ska innehålla 10 % talspråksmaterial, medan den största delen kommer från skrivna källor (Leech 1994). En liknande fördelning i FISC vore bra möjlig.

Utökningen av FISC med utskrifter av talat språk skall enligt planerna inte medföra några extra kostnader. Ett samarbete med projektet Svenska samtal i Helsingfors (1991-94), bekostat av Finlands Akademi och lett av FD Anne-Marie Londen (Nordica, Svenska social- och kommunalhögskolan) har gjort det möjligt att ett antal transkriptioner i datorläsbar form kostnadsfritt kan föras in i korpusen. För närvarande planeras inte några egna insatser för utökningen av talspråksmaterialet. Två radiosamtal ur SAM-materialet har provisoriskt förts in i en speciell avdelning i FISC (ca 30 000 ord). Kodningen av talspråks- materialet är emellertid problematisk på ASCII-basis, och på denna punkt har vi ännu inte slagit fast några fasta riktlinjer.

* Informationsbroschyr

FL Jan Lindström utarbetar en svenskspråkig informationsbroshyr om FISC- projektet. Broshyren bygger på den modell som gjorts av Aarnitukia & Lindström 1993 och den trycks i 200 exemplar (se bilaga 4).

3.5 Slutskedet och facit (1.1.1995-28.2.1995)

Några nödvändiga justeringar med märkningen av korpusen måste utföras. Den egentliga projekttiden utgår 31.12.1994, men resterande medel kan föras över till 1995. FM Hannu Aarnitukia, som varit med om att starta projektet, avlönas till en final tvåmånadsperiod 1.1.1995þ28.2.1995 för att dela ansvaret för kodningen av myndighetstexter med FL Jan Lindström. FM Maria Hägglund har lämnat projektet planenligt 31.12.1994.

Aarnitukia ska ytterligare se till att dagstidningarna i korpusen (Hbl, Vbl) får en genrekodning, t.ex. för ledare, inrikes- och utrikesreportage, ekonomi, kultur och sport. Med hjälp av koderna kan en enskild forskare vid behov sammanställa en tillfällig "korpus" þ t.ex. texter i genren inrikes- reportage þ och analysera bara en dylik specifik del ur dagstidningarna.

I slutet av februari 1995 ska den enhetligt kodade kärnkorpusen konver- teras till lämpliga tekniska analysformat. I det s.k. snt-formatet ska en grafisk mening s.a.s. bli en enhetligt löpande rad. På så sätt störs inte de automatiska sökningarna (t.ex. konkordansprogrammen) av radbrytningar inom en mening. Ett annat viktigt format är s.k. preprocessed files där varje led förekommer på en egen rad; texten läses m.a.o. från upp till ner. Detta format används vid utarbetningen av ordlistor samt som input till det morfo- logiska analysprogrammet SWETWOL. Filkonverteringen kräver BETA-programmering som utförs i samråd med FK Kari Pitkänen, Institutionen för allmän språkveten- skap (se Karlsson & Koskenniemi 1990).

Efter utsatt projekttid (januari 1995) kan det konstateras att FISC-projektet nått till planerad omfattning såväl kvantitativt som kvalitativt:

* Kärnkorpusen omfattar planenligt ca 2,5 miljoner ord. Kategorin "övriga myndighetstexter" blir något mindre än planerat, men i saktext blir omfattningen större.

* Korpusen är en sammansättning av flera texttyper och genrer (a general purpose corpus). Texterna har tagits med som helheter.

* Texterna visar en viss geografisk variation i det svenska Finland (t.ex. med avseende på tidningarna och de skönlitterära författarna), men i stort sett finns det en koncentration på huvudstadsregionen. Detta beror delvis på att de riksomfattande ämbetsverken þ som levererat material till delen myndighetstext þ finns i Helsingfors.

* Korpustexterna är märkta i enlighet med TEI-principer. Märkningen är i första rummet strukturell, men går även in på innehållsliga faktorer på vissa punkter (t.ex. funktionen hos citationstecken).

* De elektroniska texterna har gått igenom flera manuella granskningar där man kunnat eliminera fel i texternas form. Man kan dock inte anse korpusen vara helt felfri. Med användarnas medverkan kan resterande mindre fel rättas i den takt de observeras.

3.6 Sammanfattning: seminarier, presentationer, publikationer

* Seminarier

- Stockholms universitet, institutionen för lingvistik:

FM Hannu Aarnitukia redogör för FISC-projektet, ht 1991.
- Nordica: fördjupade studier för grundexamen, prof. Mirja Saari, 1992þ1993.

Under seminariet behandlades grammatiska frågor utgående från materialet i FISC-korpusen.

- Nordica: högre seminariet, FM Hannu Aarnitukia & FK Eva Hannus, vt 1992.

Presentation av FISC-projektet, speciellt tidningsgenren.

- Nordica: Nordister från universitet i Bergen, vt 1992.

Presentation av korpusen, FM Hannu Aarnitukia.

- Göteborgs universitet, Språkdata, vt 1993: Seminarium om Datalingvistik och datorstöd vid Göteborgs universitet.

- Lunds universitet, vt 1993:

Presentation av FISC-projektet, prof. Mirja Saari.

* Konferenser

- Jyväskylä universitet: Svenskan i Finland 2, ht 1992.

Föredrag av FM Hannu Aarnitukia & FK Jan Lindström.

- Umeå universitet: Svenskans beskrivning 20, ht 1993.
Föredrag av FL Jan LIndström.

- Helsingfors universitet: Svenskan i Finland 3, ht 1994:

Demonstration av FL Jan Lindström & FK Kari Pitkänen.

* Kurser

- Nordica, ht 1992:

Två kurser i användningen av FISC-korpusen, FM Hannu Aarnitukia & FK Kari Pitkänen. Sammanlagt 50 deltagare.

- Forskningscentralen för de inhemska språken, vt 1994 och ht 1994:

Kurs i användningen av FISC-korpusen för språkvårdarna, FL Jan Lindström.

- Helsingfors universitet, institutionen för allmän språkvetenskap, ht 1994.

Deltagande i kurs i SGML/TEI-märkning, FM Hannu Aarnitukia, FM Maria Hägglund, FL Jan Lindström. Kursledare prof. Kimmo Koskenniemi.

* Arbetsseminarier

- Helsinfors universitet, institutionen för allmän språkvetenskap, vt 1992:

Deltagare: Representanter för alla språkinstitutioner med korpusprojekt, sammankallare prof. Kimmo Koskenniemi.

- Nordica, augusti 1992, seminarium med företrädare för SUC-projektet:

Deltagare: doc. Gunnel Källgren, FK Gunnar Eriksson, prof. Benny Brodda (Stockholms universitet) prof. Mirja Saari, FM Hannu Aarnitukia, FK Jan Lindström, fil.stud. Eva Hannus; prof. Fred Karlsson, prof. Kimmo Koskenniemi, FL Mikael Reuter, fil.stud. Kari Pitkänen. (Helsingfors universitet, Forskningscentralen för de inhemska språken)

- Stockholms universitet, augusti 1993, seminarium med företrädare för SUC- projektet:

Deltagare: doc. Gunnel Källgren, FK Gunnar Eriksson, prof. Benny Brodda, språkkonsult Britt Hartmann (Stockholms universitet) prof. Mirja Saari, FL Jan Lindström, fil.stud. Annika Salervo, fil.stud. Kari Pitkänen. (Helsingfors universitet)

- Stockholms universitet, december 1994, möte med företrädare för SUC & FISC:

Deltagare: doc. Gunnel Källgren, prof. Mirja Saari.

* Publikationer

Aarnitukia, Hannu. 1993. En finlandssvensk textkorpus. Korridorbladet, ämnesföreningen Saga vid institutionen för nordiska språk och nordisk litteratur, Helsingfors universitet.

Aarnitukia, Hannu & Lindström, Jan. 1992, 1994. Broschyr om FISC-korpusen, engelsk version; svensk version av J. Lindström 1994.

Aarnitukia Hannu & Lindström Jan. 1993. En finlandssvensk textkorpus. I: Veikko Muittari & Matti Rahkonen (utg.), Svenskan i Finland 2. Meddelanden från institutionen för nordiska språk vid Jyväskylä universitet. 1-17.

Lindström, Jan. 1993-1994. Fiscarns berättelser. Korridorbladet, ämnesföreningen Saga vid institutionen för nordiska språk och nordisk litteratur, Helsingfors universitet.

Lindström, Jan. 1994. Repetition som ikon. Tre analogier mellan form och innehåll. Utkommer i Svenskans beskrivning 20. Umeå.

Lindström, Jan. 1995. En mjuk introduktion till FISC-korpusen. Utkommer i Svenskan i Finland 3. Meddelanden från institutionen för nordiska språk och nordisk litteratur. Helsingfors universitet.

Lindström Jan & Salervo Annika. 1993. Manual för En finlandssvensk textkorpus (FISC). Version 1.0. Institutionen för nordiska språk och nordisk litteratur, Helsingfors universitet.

Saari, Mirja. 1992. FISC - En finlandssvensk textbank på dator. Universitas Helsingiensis 3/1992.

4. Presentation av FISC-kärnkorpusen

4.1 Korpusens sammansättning

Det textmaterial som ingår i FISC-korpusen har utkommit under 1990-talet i Finland. Detta är utgångsläget för texternas "finlandssvenskhet". Trots att man inom projektet är medveten om att författarna till de böcker som tagits med i korpusen är finlandssvenska och att man kan förmoda att texter som produceras av finlandssvenska organ är skrivna av finlandssvenskar, är situationen något problematisk i tidningstext och i mången saktext. Det framgår inte alltid om en skribent har svenska som modersmål eller inte, om en text är en översättning eller inte, eller om den är översatt av en finlandssvensk. Men betraktar man texterna ur ett funktionellt perspektiv, är dessa problem inte centrala. Texterna kan anses som finlandssvenska, eftersom de publicerats i Finland och är avsedda för den svenskspråkiga allmänheten i Finland. FISC har dock koncentrerat sig på texter, som med stor sannolikhet representerar genuint finlandssvenskt språkbruk.

Korpusen har utvidgats stegvis. Arbetet inleddes med att bygga upp en delkorpus som består av enbart tidningstexter (ur Hufvudstadsbladet och Vasabladet). Efter detta fullbordades en avdelning som består av skönlitterära verk, sammanlagt 12 romaner eller novellsamlingar. Tidningsmaterialet inne- håller en miljon löpande ord, den skönlitterära avdelningen drygt 600 000 ord.

De resterande delarna av korpusen utgörs av myndighetstexter, dvs. texter som cirkulerar inom det offentliga förvaltningslivet samt en del av Finlands lag, och saktexter, dvs. icke-fiktiv prosa. Saktextmaterialet överskrider 400 000 löpord och det består av 16 textfiler. Textfilerna är dels enskilda verk (biografi, vetenskap, samhällsdebatt), dels sammanställda av kortare ut- redningar och broschyrer. Delar av Finlands lag utgör huvudparten av myndig- hetstexterna. I denna delkorpus ingår 52 lagar eller förordningar, vilket är i ordantal ca 300 000. En mera varierad sammanställning av förvaltningstexter i samma delkorpus omfattar drygt 100 000 ord.

Den ovan presenterade textsamlingen kan betraktas som en kärnkorpus i FISC. De ingående fyra kategorierna innehåller i stort sett samma genrer som utgör basis för SUC-korpusen. I förhållande till SUC är kärnkorpusen i FISC mera omfattande med 2,5 miljoner ord. Tanken bakom en kärnkorpus är att den är en bestående, oförändrad del av hela korpusen, som dock med tiden kommer att förlora i aktualitetsvärde. Därför är det skäl att hålla portarna öppna för friare intagning av nya texter till korpusen. Dessa uppdateringar av materialet kan utföras när helst det anses vara nödvändigt. Men med en bestående kärnkorpus garanterar man möjligheten att jämföra FISC-materialet med andra samtida kärnkorpusar (som SUC) och att senare i tiden kontrastera dem med dagsaktuella texter. Kärnkorpusen kommer också att bli den mest kodade delen i textsamlingen. Den erbjuder m.a.o. mera information än senare, mindre behandlade delar. FISC-korpusen är lagrad i en UNIX-värd som ett arkiv i en hierarkisk struktur, som påminner om hierarkin t.ex. i vanliga ADB-system. På den högsta nivån är själva

FISC-arkivet, för UNIX-värdarna på institutionen för allmän språkvetenskap innehåller också många andra korpusar än bara FISC. På följande nivå kommer fyra huvudkataloger som representerar de fyra textkategorierna i FISC: tidningstext, skönlitteratur, saktext, myndighetstext. Dessa har vidare tre subkataloger som innehåller de egentliga textfilerna i tre olika format för olika behov. Hierarkin illustreras nedan:

FISC

H1 H2 H3 H4

S1 S2 S3 S1 S2 S3 S1 S2 S3 S1 S2 S3

filer filer filer filer



På samma sätt som i vanliga ADB-system, manifesterar sig den hierarkiska strukturen i en sökvägssyntax: FISC/H1/S1/fil. Med hjälp av sökvägssystemet kommer man åt och opererar med enskilda kataloger och filer.

I en mindre korpus, t.ex. Brown, finns det ofta s.a.s. många mindre prov på olika genrer och skribenter, för att det sampel korpusen representerar ska vara tillräckligt mångsidigt. I Brown är varje enskild text en arbiträr snutt på ca 2.000 löpord. I större korpusar har man inte nödvändigtvis något behov av att klippa av texterna; i synnerhet om man är mera intresserad av materialet som text än som ord är en sammanställning av korta sampel rentav otillfredsställande (Gellerstam 1992). Inom FISC har en helhetsprincip följts. För det första garanterar korpusens omfång på 2,5 miljoner ord en relativt stor variation vad gäller t.ex. skribenter, genrer, ämnesområden osv. För det andra har utgångspunkten varit att bygga upp snarare en modern korpus av typ textbank än en s.k. idealkorpus (Gellerstam 1992). De texter þ eller snarare kanske medier þ som finns i korpusen, ingår i princip som hel- heter. Tidningstexterna består av hela nummer av en given tidning, de skön- litterära texterna består av hela böcker, saktexterna utgörs likaså av hela trycksaker och myndighetstexterna är sammansatta av enskilda, men i sig fullständiga utredningar, protokoll, cirkulär m.m. Det enda undantaget utgör lagarna bland myndighetstext. Av naturliga skäl kan inte hela Finlands lag ingå i FISC, utan en sammansättning av enskilda lagar eller förordningar.

FISC-korpusen definieras tidsligt som "modernt". Allt material har kommit ut under 1990-talet, det mesta 1991þ1992. En detaljerad lista över texterna i korpusen finns i bilaga 2.

4.2 Märkning av korpusen

Då det gäller märkningen av korpusen har vi valt att förse texterna med ett moderat antal taggar. Denna hållning till märkningen avviker radikalt från de principer som SUC följer (Källgren 1990). Detta beror mest på olika utgångs- punkter i korpusens uppläggningsarbete. SUC strävar efter att koda ordklasserna och -formerna i hela kärnkorpusen, som sålunda får en stor mängd lexikal och grammatisk information. Den första leveransversionen av FISC innehåller däremot inte några grammatiska taggar. Materialet i FISC är löpande och mycket i enlig- het med originaltexterna. Ett sådant material lämpar sig för illustrativa konkordanssökningar, där en oavbrutet löpande textrad utgör den relevanta enheten. SWETWOL-programmet kan dock användas provisoriskt för inhämtning av grammatisk information. Vi har inte ansett det vara ändamålsenligt att bereda en bestående version av korpusen med en fulländad taggning. Det är dock tänkbart att utarbeta en sådan i ett senare skede.

De taggar som alltid följer med i FISC är närmast textstrukturella (eller icke-lingvistiska) med information om källor, stycke- och kapitel- gränser, rubrik-, ingress- och bildtexter, direkta anföringar, citat o.s.v. Men därtill har vissa typografiskt markerade delar i text fått funktionella tolkningskoder. Vi har t.ex. tagit ställning till användningen av citations- tecken, som ibland kan markera icke-ordagrann bemärkelse, icke-normenlig språkform, utländskt lån m.m. Vi följer i taggningen en internationell TEI- standard (Text Encoding Initiative) som i sin tur bygger på en allmännare SGML-märkning (Standard Generalised Markup Language, ISO 8879). SGML-märkning innebär att man kan behålla all ursprunglig textuell information oberoende av övergångar till olika ordbehandlare, datorer, operativsystem, nätverk osv. (se Sperberg-McQueen & Burnard, 1990).

5.1 Samarbetspartnern SUC (Stockholm - Umeå Corpus)

För sammanställningen av den finlandssvenska textkorpusen har Stockholm þ Umeå korpusen (SUC) särskilt intresse. Den finlandssvenska korpusen byggs nämligen upp ett nära samarbete med forskargruppen vid Stockholms universitet. Korpusarna blir dock inte identiska spegelbilder av varandra, vilket vore slöseri av resurserna.

Forskargruppen kring SUC består av programmerande datalingvister och leds av doc. Gunnel Källgren. SUC-projektet har inletts år 1989 och korpusen kommer enligt planerna att föreligga färdig 1994þ1995. Samarbetet nyttjar både SUC och FISC t.ex på följande områden:

* Språkliga jämförelser. Korpusarna består av jämförbart samtida material. SUC och FISC utgör sålunda en kontrastiv materialbas för undersökningar av språklig variation mellan Sverige och Finland.

* Möjligheter till samordning. Teoretiska och praktiska synpunkter kring projekten kan diskuteras, t.ex. frågorna kring upphovsmannarätt och korpusarnas tillgänglighet samt samordningen av taggningsprinciper. Diskussioner har förts under ömsesidiga forskarbesök i Helsingfors och Stockholm.

* Utbyte av know-how. Vid sidan av den praktiska samordningen kompletterar projekten varandra också på det tekniska planet. Datalingvisterna i Stockholm och Umeå utvecklar mjukvaror som lämpar sig för datoriserade lingvistiska analyser. Mycket av detta arbete bygger på det morfologiska analysprogrammet SWETWOL.

* Uppläggningen i SUC

Följande 12 genrer ingår i SUC-korpusen (Källgren 1990):

Reportage
Ledare
Recensioner
Arbete och fritid
Populärvetenskap
Biografier, essäer
Diverse; huvudsakligen
myndighetstexter
Lärda och vetenskapliga skrifter
Skönlitteratur
Läromedel
Barnlitteratur
Ungdomslitteratur


I slutskedet kommer SUC att bestå av två delar: en mindre kärnkorpus på ca. 1 miljon ord och en större mera ostrukturerad del på ca. 20 milj. ord. Principerna för SUC:s kärnkorpus är följande (Källgren a.a.):

* Kärnkorpusen omfattar 1 miljon ord (500 block om ca. 2000 ord vardera). Textblocken tas från olika genrer enligt de principer som har använts vid uppbyggandet av Brown och LOB.

* Texterna har ett standardiserat fysiskt format.

* Varje ord är morfologiskt och syntaktiskt entydigt taggat.

* Kärnkorpusen är manuellt korrekturläst så att taggningen är konsekvent.

5.2 Metodiska synpunkter på FISC

FISC har en filosofi som i grund och botten är metodisk. Mera teoretiska aspekter på FISC förverkligas i framtiden. Mycket av det teoretiska kommer att kretsa kring arbetet med SWETWOL, som är ett analysprogram för svenska texter (Karlsson 1992). Institutionen för allmän språkvetenskap vid Helsingfors universitet har sedan FISC-projektets första stadier använt sig av material ur korpusen för att testa analysprogrammet.

Den metodiska filosofin går ut på att korpusen erbjuder forskarna till- gång till ett omfattande material som representerar genuint språkbruk. Nu- förtiden anses det rätt allmänt även inom lingvistiken att vetenskapligt adekvat forskning mera ska bygga på empiriskt verifierbart data än på in- tuition, även om den senare inte behöver uteslutas. Arbetet med Svenska Akademiens nya grammatik (SAG) är ett exempel på nyttjandet av korpusmetoden vid sidan om mer traditionella metoder (Hellberg 1992).

Men bara för tjugo år sedan ansåg de flesta lingvister att deras språkliga intuition låg till grund för forskningen. Då det gäller korpus kontra in- tuition finns det tre skolor. En av dem betonar starkt intuitionens betydelse. Konstruerade systemsatser har använts i mycket grammatiskt arbete, men man bör vara medveten om att den intuitiva metoden åtföljs av en del riskfaktorer. Man kan inte vara säker på hur "naturligt" eller "grammatikaliskt" material man kommer på, eftersom data är konstruerade. Den andra skolan hävdar att lingvisten inte kan lita på sin egen intuition utan att man skall bygga sina uttalanden enbart på i verkligheten förekommande språkmaterial. Den tredje skolan står mellan dessa två ytterligheter och betonar att både korpusar och intuition är nödvändiga. De är två metoder som inte utesluter varandra utan kompletterar och griper in i varandra (se Chafe, 1992).

Korpusens struktur bestämmer i stor utsträckning vilka slags under- sökningar som är möjliga. Den första stora vattendelaren går mellan korpusar som består av talat resp. skrivet språk. Det vanliga är att en korpus består av antingen talat eller skrivet material. Korpusarna kan vidare indelas i två stora grupper på basis av sammansättningen av genrer. Det finns å ena sidan korpusar som består av ett stort urval olika genrer (general-purpose corpora), de bildar m.a.o. ett tvärsnitt av språket i allmänhet, å andra sidan specialkorpusar som koncentrerar sig på ett begränsat område (text-type specific corpora). FISC-korpusen innehåller drygt 2,5 miljoner ord i från fyra huvudsakliga källor: tidningstext, skönlitteratur, saktext, myndighets- text. Korpusen är sålunda i sin helhet "för allmänna ändamål" men i detalj kan man koncentrera sig på fyra specifika texttyper. Detta visar FISC korpusens mångsidighet i forskning.

I dagens läge kan det diskuteras om 2,5 miljoner löpord utgör en "omfattande" korpus; det beror på vad man jämför med. Alla ADB-korpusarnas moder, den amerikanska Brown-korpusen från början av 1960-talet, innehåller en miljon ord; detta var "mycket" då datorerna ännu hade låg arbetskapacitet. Ett av de största senaste korpusprojekten, British National Corpus (BNC), kommer att omfatta 100 miljoner ord (Quirk 1992); även om det här är en enorm mängd, är det trots allt ett sampel av språkbruket. Och det finns flera svenska textbanker - snarare kanske än korpusar - som består av flera miljoner ord var, t.ex. Press 87 omfattar ca fyra miljoner ord (Gellerstam 1992). Men det finns inte så många finländska textkorpusar, och i synnerhet ingen finlandssvensk korpus, som kan konkurrera med FISC-korpusens omfattning.

Korpusens storlek kan också tas i kvalitativ betraktelse: Hur mycket information erbjuder den? Det är en allmänt godkänd princip att dagens korpusar ska kodas - eller taggas, så som man säger i korpus-sammanhang þ enligt fasta internationella principer åtminstone på någon elementär nivå; en så kallad TEI-märkning håller på att etablera sig ('Text Encoding Initiative', se Burnard & Sperberg-McQueen 1994). En korpus med en mycket ingående taggning, som tar hänsyn till både textuella och grammatiska drag, kan inte av rimliga skäl ha någon större kvantitativ omfattning. Samarbetspartnern Stockholm - Umeå Corpus (SUC) ska sammanställa en korpus som är strukturerad enligt Browns ideal och består således av en miljon löpord (Källgren 1990). Men den relativt begränsade omfattningen kan försvaras med att SUC är mycket fullständigt taggad vad gäller ordklass och form och också textuell nivå. BNC kommer likaledes att ha en välkodad kärna på ca två miljoner ord, medan den resterande mängden på 98 miljoner ord får en mindre detaljrik behandling (Leech 1994). Ser man på ett smakprov på flera europeiska korpusar i den s.k. ECI-samlingen kan man se att de flesta korpusarna är mycket kursivt kodade, vanligen bara med en tagg för styckegränser och kanske rubriker. De flesta större svenska textbanker är inte noggrannt kodade och ännu mindre i enlighet med TEI. Svårigheten med taggningen är förstås att det kräver mycket manuellt arbete, dvs. att man faktiskt läser igenom texterna och samtidigt sätter ut en given kod på rätt plats eller rättar till en preliminär automatisk kodning.

För närvarande kan FISC-korpusen anses vara medeltaggad. Den har en rätt ingående textuell kodning med taggar för kapitel-, avsnitts- och styckegränser, anföringar av olika slag, bildtexter, listor osv. Drag av mera lingvistisk natur har också markerats, så som ord eller uttryck som är dialektala eller arkaistiska, eller som är främmande element i svenskan, t.ex. finska ord. Det är klart att en sådan taggningsnivå redan ökar korpusens användbarhet av- sevärt. De textuella koderna gör texterna lättare att tolka i en ASCII-form där den grafiska layouten går förlorad. Man kan också lättare hitta olika delar i en text beroende på vad man är intresserad av. I bästa fall får man fram sådan information i ett par sekunder, som annars skulle ta en lång tid att excerpera; t.ex. en lista över rubrikerna, skribenterna, ingresserna i tiotals dagstidningar.

Fastän det treåriga projektprogrammet nu är avslutat, behöver det inte innebära något slut på utvecklingen och utökningen av FISC-korpusen. Ingenting hindrar oss att betrakta den nuvarande tämligen välkodade korpusen som en kärna, som i likhet med BNC kan utökas med stora mängder av mindre behandlat material; också SUC ska kompletteras på detta sätt. Man kan också lika väl gå djupare i kodningen och tagga kärnan grammatiskt, till stor del med hjälp den typ av maskinell analys som SWETWOL kan utföra.

Men det är skäl att poängtera att FISC-korpusen redan i nuläget är en unik och inspirerande informationskälla till svenskan i dagens Finland och till- räcklig för många slags analyser: konkordanssökningar, excerperingar av olika typer, frekvensberäkningar osv. Och i en forstsatt motivering för användningen av FISC i forskningen kan det konstateras, att genom en existerande korpus slipper den enskilda forskaren mödan att samla in eget material. I projektet har vi fått uppleva att det inte är så enkelt att få tag på ADB-formaterade texter - något som kan verka otroligt i dag. Tidningarna och bokförlagen är inte alltför tillmötesgående, eftersom moderna texter är skyddade av upphovs- mannarätt. Det räcker inte heller vanligtvis att man bara för in texter i sin dator och börjar undersöka. Texterna behöver olika typer av behandling: av- stavningar och onödiga luckor ska raderas, radformatet borde helst vara kontinuerligt, korrektur ska läsas speciellt på skannade texter osv. Och sist men inte minst måste man ha tillgång till lämpliga verktyg för att kunna ut- föra sökningar i materialet.

5.3 FISC i forskning

FISC-korpusen öppnar vida vyer för forskningen i (finlands)svenskt språkbruk. Den kan utnyttjas som källa för information inom varierande forskningsfält. T.ex. för följande ändamål lämpar sig FISC särskilt väl:

* Språkforskning: - korpusen utgör en materialbas för avhandlingar och uppsatser.

* Språkvård: - korpusen kartlägger naturligt språkbruk.

* Lexikologi/lexikografi - som ovan.

* Datalingvistik: - korpusen bereder material som datoriserade analysmodeller av svenska språket kan byggas och prövas på.

* Undervisning: - korpusen kan utnyttjas i seminarieundervisning och som materialkälla i pro gradu- och postgraduala studier. Korpusen bereder också material för utarbetningen av läromedel.

Under projektets gång har färdiga delar av korpusen använts för praktiskt taget alla de ovan uppräknade syftena.

Grundid`n i datorstödd lingvistik är att man först låter en maskin göra sökningar i ett för människan oöverskådligt stort material. Resultatet av dessa föranalyser ger data, som är mer relevanta för ett givet ändamål och som rimligen kan tolkas av den enskilda forskaren. Låt oss anta, att vi är intres- serade av språket i rubrikerna i dagstidningar. I stället för att själva granska ett antal tidningar och antingen klippa ut rubrikerna eller anteckna dem, kan vi låta ett UNIX-program göra jobbet. På några sekunder får vi en lista över rubrikerna i 20 nummer av Hufvudstadsbladet.

Fördelarna med den datorstödda metoden är alltså uppenbara.

Det finns i UNIX många små program (s.k. filters) som ensamt eller i kombination med varandra är nyttiga vid lingvistiska analyser. Dessa program kan visa, kombinera, sortera, konvertera, excerpera och beräkna data. Ett enskilt program räcker t.ex. för excerperingen av de rubrikrader som visades ovan. Utarbetningen av ord- och frekvenslistor förutsätter däremot att man kombinerar olika program som sorterar och räknar. Institutionen för allmän språkvetenskap har också tillgängliggjort program som anger resultaten i klassisk konkordansform med rad- eller meningsbasis. Varje användare av UNIX-värddatorer får en s.k. hemkatalog där man kan spara och vidare behandla resultaten av sina excerperingar. Det är också möjligt att kopiera resultaten i sin persondator och behandla dem där; dataöverföringen görs via FTP-programmet (eng. 'file transfer protocol').

Operationerna med programmen och indata är i och för sig enkla och logiska. Det finns m.a.o. ingen orsak att vara rädd för UNIX. Men det stora problemet är förstås, hur man ska komma i gång utan tidigare erfarenhet. Det tar sin tid innan man vänjer sig vid sökvägarna och kommandosyntaxen. Speciellt med hänsyn till FISC har vi utarbetat en liten manual där det redogörs för de vanligaste funktionerna (Lindström & Salervo 1993); se bilaga 4.

Det allra enklaste sättet att komma i gång med sökningar av typ konkordans är att ty sig till ett menybaserat användargränssnitt till FISC-korpusen. "Menyn", som liknar ett s.k. gopher, har utvecklats i samarbete med institu- tionen för allmän språkvetenskap, och den är unik för FISC. Arbetsproceduren går framåt stegvis genom att man först loggar in (som vanligt), startar menyn, väljer data, väljer program, anger sökargument, varefter resultatet man kan spara eller låta bli visas. Allt detta sker s.a.s. interaktivt så att man för varje steg anger en siffra som motsvarar något av de alternativ som visas på bildskärmen. Menyns startruta ser ut så här (i en provversion):

fisc-shell version 0.5, rw 24 Nov 1994

You can use files in the following corpuses:

1. hbl (Hufvudstadsbladet)
2. vbl (Vasabladet)
3. lit (misc. literature)
4. previous menu
5. exit

Your choice ?

Menyn lämpar sig bäst för tillfälliga användare, som snabbt vill slå upp något ord eller uttryck men inte vill fördjupa sig i mer avancerade funktioner.

5.4 Tillgång till FISC-korpusen

En viktig aspekt på FISC är att korpusen nås och hanteras genom UNIX- operativsystemet. I UNIX-handböcker brukar man påpeka att UNIX inte bara är namnet på en typ av ADB-operativsystem. UNIX är namnet på en global kultur som inbegriper datornätverk, elektronisk post och en hel del programvaror (t.ex. Hahn 1994). I denna kultur finns inbyggt ett ideal om samarbete insti- tutioner emellan, enskilda användare emellan samt en vilja att dela med sig resurser genom det globala nätverket. Grundid`n med FISC är densamma þ att bereda tillgång till material och verktyg för alla som har intresse för och nytta av dem.

Så som allmänt i UNIX, bereds tillgången med vissa förbehåll. Man utgår ifrån att UNIX-folket är ärligt, men samtidigt vill man skydda systemet mot illvilliga personer. Därför förutsätter tillgången till UNIX-system att var och en blir registrerad som användare och får ett eget lösenord med vilket man loggar in i en UNIX-dator. FISC-korpusen kan nås genom UNIX-värdar på institutionen för allmän språkvetenskap vid Helsingfors universitet; de är maskiner med namn som t.ex. waltari eller polva. Den som ska ha tillgång till FISC ska alltså ansöka om ett lösen till någon av dessa UNIX-värdar samt skriva på ett avtal med FISC-projektet.

Tillgången till UNIX förutsätter inte någon speciell teknisk utrustning. Det vanliga är att man har en persondator med något kommunikationsprogram (t.ex. Telnet) och att datorn är kopplad till ett nätverk (Internet). Person- datorn kan i princip vara hur enkel som helst, eftersom arbetet utförs av den avancerade UNIX-värden, medan persondatorn emulerar en enkel terminal. Alla universitet och större forskningsenheter har fasta kabelanslutningar till nätverk. Ett fast nätverk är det snabbaste och pålitligaste sättet att komma åt de UNIX-datorer som har hand om FISC-korpusen. Det föreligger så- ledes inga kostnader för den enskilda användaren i en akademisk gemenskap. Det är också möjligt att kontakta UNIX-värden t.ex. hemifrån med modem via en telefonlinje.

6. Sammanfattning

Sammanställningen av en finlandssvensk textkorpus kan betraktas som en milstolpe för förutsättningarna att beskriva svenskan i Finland. Den nuvarande korpusen om ca 2,5 miljoner löpord kan bli en kärna för en i framtiden utökad nationalkorpus i det svenska Finland. En dylik textbas är en nödvändighet för språkvården, och för forskningen ger den vida vyer tack vare möjligheterna att behandla stora textmängder på ett snabbt och tillförlitligt sätt. Tillsvidare har beskrivningar kunnat ges endast punktvis.

På det teoretiska planet ger projektet möjligheter till väsentliga bidrag för diskussionen om konsekvenserna av språkkontaktfenomen. Den offi- ciella ställningen av svenska språket i Finland kan visserligen anses ha en bevarande effekt på språket, men å andra sidan finns det tecken på att den finlandssvenska särutvecklingen pågår med ökad och ohejdad fart. Vilka nivåer är det som berörs? Traditionellt har man talat om syntaktisk och semantisk interferens på det strukturella planet, men inom nyare pragmatiskt inriktad forskning har den sociokulturella kontexten i allt högre grad lyfts fram. Den kommunikativa nivån kommer härmed att bli central, vilket i och för sig kan låta självklart, men i verkligheten har pragmatiska aspekter bara under en kort tid haft ett utrymme inom språkbeskrivningen.

FISC-korpusen kommer att kunna utnyttjas av alla intresserade forskare både inom och utanför institutionen för nordiska språk och litteratur (Nordica) vid Helsingfors universitet. Bl.a. med tanke på internationali- seringen av universiteten är det väsentligt att en institution som Nordica kan bereda studiemöjligheter för forskare inom ett område som institutionen deklarerat som ett av sina tyngdpunktsområden, nämligen svenskan i Finland och konsekvenserna av tvåspråkigheten.

7. Litteratur

Aarnitukia Hannu & Lindström Jan. 1993. En finlandssvensk textkorpus. I: Veik- ko Muittari & Matti Rahkonen (utg.), Svenskan i Finland 2. Meddelanden från institutionen för nordiska språk vid Jyväskylä universitet. 1-17.

Ahlbäck, Olav. 1971. Svenskan i Finland. 2:a uppl. Skrifter utg. av Nämnden för svensk språkvård 15. Stockholm

Burnard, L. & SperbergþMcQueen, C.M. (utg.). 1994. Guidelines for Electronic Encoding and Interchange (P3). Chicago: Text Encoding Initiative.

Chafe, Wallace. 1992. The importance of corpus linguistics to understanding the nature of language. I: Svartvik, Jan (utg.), 1992b.

ECI. 1994. European Corpus Initiative. Multilingual Corpus I. CD-ROM. Association for Computational Linguistics, European chapter.

Gellerstam, Martin. 1992. Modern Swedish Text Corpora. I: Svartvik, Jan 1992b (utg.), 1992b. 149-163.

Hahn, H. 1994. Open Computing Unix Unbound. Berkeley: Osborne McGraw-Hill.

Hellberg, S. 1992. Using corpus data in the Swedish Academy Grammar. I: Svartvik, Jan 1992b (utg.). 311-331.

Karlsson, Fred. 1990. Constraint Grammar as a Framework for Parsing Running Text. I: Karlgren, Hans (ed.) Papers presented to the 13th Inter- national Conference on Computational Linguistics, Vol. 3, Helsinki.

Karlsson, Fred. 1992. SWETWOL: A comprehensive morphological analyzer for Swedish. Nordic Journal of Linguistics 1.

Karlsson, Fred & Koskenniemi, Kimmo. 1990. BETA-ohjelma kielentutkijan apu- välineenä. Helsinki: Yliopistopaino.

Koskenniemi, Kimmo. 1983. Two-level morphology: A general computational model for wordform recognition and production. Publications of Department of General Linguistics, University of Helsinki.

Källgren, Gunnel. 1990. Storskaligt korpusarbete på dator. En presentation av SUC-korpusen. I: Thelander, Mats m.fl. (red.), Svenskans beskrivning 18. Lund: Lund University Press. 201-212.

Källgren, Gunnel. 1994. Manual for TEI conformant mark-up of the SUC (draft). Opublicerat manuskript. Stockholms universitet.

Leech, G. 1994. Föreläsning given vid forskarseminariet på institutionen för allmän språkvetenskap 16.11.1994. Helsingfors universitet.

Lindström J. & Salervo A. 1993. Manual för En finlandssvensk textkorpus (FISC). Version 1.0. Institutionen för nordiska språk och nordisk litteratur, Helsingfors universitet.

Pitkänen, Kari. 1992. SWETWOL/Major changes in 1992. Kompendium; Research Unit for Computational Linguistics, University of Helsinki.

Protokoll fört vid Föreningens för nordisk filologi Lammiseminarium 15-16.11.1985.

Quirk, Randolph. 1992. On corpus principles and design. I: Svartvik, Jan (red.) 1992b.

Reuter, Mikael. 1986. Några tankar om finlandismer. Meddelanden från Institutionen för nordiska språk och nordisk litteratur vid Helsingfors universitet. Serie B, nr 10. Helsingfors.

Saari, Mirja. 1991. Interaktionsstrategier i Helsingfors. Några iakttagelser av hur artighet realiseras i finska, finlandssvenska och sverigesvenska ' samtal. I: Berge, K.L. & Kotsinas, U-B. (utg.), Storstadsspråk och storstadskultur i Norden. Meddelanden från Institutionen för nordiska språk vid Stockholms universitet MINS 34. Stockholm. 200-212.

Sinclair, John. 1991. Corpus, Concordance, Collocation. Oxford.

Solstrand-Pipping, Helena. 1989. Om finlandismerna i Fänrik Ståls sägner. Folkmålsstudier 32.

Svartvik, Jan. 1986. For Nelson Francis. ICAME Journal 10. 8-9.

Svartvik, Jan. 1992a. Corpus linguistics comes of age. I: Svartvik, Jan 1992b (utg.), 1992b. 7-13.

Svartvik, Jan. 1992b. Directions in corpus linguistics. Trends in linguistics: Studies and

Monographs 65. Berlin: Mouton de Gruyter.
Nordicas ingångssida