Illustrerad etymologi
Bloggens läsare har säkert märkt att jag ofta använder Oxford English Dictionary för att illustrera ords historia. En av denna ordboks många fördelar är att varje uppslagsords etymologi, d.v.s. dess ursprung och betydelseutveckling, anges utförligt där så är möjligt. Emellertid är Oxford English Dictionary inte allmänt tillgänglig: man måste antingen betala för tjänsten eller tillhöra en organisation som gör detsamma. Annars är man hänvisad till onlinekällor som Online Etymology Dictionary, som förvisso är mycket värdefulla men inte granskats lika noggrant.
Nu finns det dock en ganska underhållande – och fritt tillgänglig! – tillämpning av den etymologiska informationen i Oxford English Dictionary som är värd ett besök (tack till min kollega Dan McIntyre för länken!). Den gigantiska ordboken förkortas ofta OED, och webbplatsen heter OED Text Annotator. Här kan man mata in en engelsk text på max 500 ord och snabbt få kortfattad information om vilket språk varje ord i texten kommer ifrån (baserat på OED:s etymologiska databas). Texten ska helst vara ifrån 1750 eller senare, antagligen för att variationer i stavning i tidigare engelska texter kan ställa till problem för algoritmerna (men de jobbar på detta!).
När man matat in sin text får man, förutom en etymologisk etikett till varje ord och information om ordets frekvens och ordklasstillhörighet, ett diagram som visar dels vilka källspråk som dominerar i texten, dels hur gamla orden i texten är. Jag roade mig med att mata in de första 500 orden från Jane Austens roman Stolthet och fördom (Pride and Prejudice, 1813) och från en språkvetenskaplig analys av språket i samma roman från 2009 (Fischer-Starke 2009).
De två diagrammen som trillade ut finns nedan; jag har valt att visa varje ords tidigaste möjliga ursprung här (ett lånord från franskan som i sin tur kommer från latinet visas därmed t.ex. som latinskt i bilderna), men detta går att ändra manuellt för den intresserade. Ju vanligare ordet är i dagens engelska, desto högre upp placeras det i diagrammet; cirklarnas storlek visar hur vanliga orden är bland de 500 som matats in.


Här är diagrammet för Pride and Prejudice.

Och här är diagrammet för Fischer-Starke (2009).
Till stor del är diagrammen tämligen lika. Till att börja med är nästan alla av de vanligaste orden funktionsord som anger olika grammatiska relationer i satser: artiklar som the, konjunktioner som and, prepositioner som of och verb som ofta fungerar som hjälpverb, t.ex. be. De är också gemensamma germanska ord vars rötter står att finna i det germanska urspråket.
Vidare präglas tiden före normandernas invasion av England år 1066 (den grå delen av diagrammen) av ett nästan helt germanskt ordförråd (de blå cirklarna). Notera att även lånord från fornnordiska är blåfärgade: till den kategorin hör bl.a. pronomen som they och their, som ersatte de fornengelska formerna efter att vikingar i stor skala hade bosatt sig i nordöstra England. Efter 1066 däremot ser vi en uppsjö av lånord från latinet (röda cirklar), men många av dessa lånades in via franskan och skulle ha varit rosa i stället om diagrammen hade visat varifrån engelskan faktiskt lånade in dem snarare än deras ursprungliga historia.
Det kan se lite förvånande ut att ordet its inte uppträder förrän mot slutet av 1500-talet. Det beror dock på att man använde formen his som possessivt pronomen inte bara för he utan även för it fram till dess.
Vissa skillnader kan vi dock identifiera mellan bilderna. Till att börja med finns det givetvis en mängd ord från Fischer-Starke (2009) som Austen inte kunde ha använt eftersom de inte fanns i språket år 1813; hit hör t.ex. stylistic och decode. Men även före 1813 kan man skönja några olikheter. Först märker man kanske närvaron av ett antal grekiska lånord (gula cirklar) i den akademiska artikeln, med ord som analysis och syntax. Detta bruk av grekiska ord kännetecknar akademisk engelska inom många discipliner: grekiska har varit en rik källa till vetenskapliga lånord sedan renässansen, men många av dem är ovanliga i dagligt tal. Austen har också rent allmänt en betydligt större andel germanska ord jämfört med ord från latinet; hennes diagram är mer blått och mindre rött i jämförelse med det för Fischer-Starke (2009). Även detta är helt normalt: i vetenskaplig engelska förekommer fler lånord från framför allt latin och franska än de flesta romanförfattare har användning för.
Experimentera gärna själva med att mata in era favorittexter i annotatorn och se hur de kan skilja sig åt. Och varför inte mata in någon av era egna engelskspråkiga texter? Då kan ni bokstavligt talat få se var ni fick allt ifrån!
Källförteckning
Fischer-Starcke, Bettina. 2009. ”Keywords and Frequent Phrases of Jane Austen’s Pride and Prejudice: A Corpus-Stylistic Analysis”. International Journal of Corpus Linguistics 14(4), 492–523.