|
View:
New views
2 Messages
—
Rating Filter:
Alert me
|
|
|
Analyse af danske wikipedia-artikler.Hej Wikipedianere, Jeg var med til WikiSym i Odense i august. I den forbindelse lavede jeg en statistisk analyse af forfattere og deres bidrag til artiklerne som et forsøg på at gruppere de enkelte artikler og forfattere automatisk - uden anvendelse af katagorier. Måske har det almindelige interesse? Blandt de grupper jeg fandt er for eksempel: 2. Islam, Diskussion:Danskfront.dk, Muhammed, Danskfront.dk, ... 3. Sønderjyllands Amt, Roskilde Amt, Birkerød Kommune, ... 7. Eliaskirken, Holeby Kirke, Enghave Kirke, ... 13. FC København, Erik Bo Andersen, Zinedine Zidane, Badminton En zippet HTML-fil med flere grupper er tilgængelig fra: http://www2.imm.dtu.dk/pubdb/views/publication_details.php?id=4748 (enkodning har jeg ikke fået rettet, så de danske bogstaver mangler). Der er også en PDF-fil med en ganske kort beskrivelse af proceduren på siderne 7-8. Jeg har anonymiseret de grupperede forfattere, dog er siderne med bruger diskussioner ikke anonymiseret. Jeg håber det er ok. Kommentarer modtages gerne mvh Finn (fnielsen) ____________________________________________________________________ Finn Aarup Nielsen, IMM DTU, Denmark Lundbeck Foundation Center for Intergrated Molecular Brain Imaging http://www.imm.dtu.dk/~fn/ http://nru.dk/people/fnielsen/ ____________________________________________________________________ _______________________________________________ WikiDA-l mailing list WikiDA-l@... http://mail.wikipedia.org/mailman/listinfo/wikida-l |
|
|
Re: Analyse af danske wikipedia-artikler.Finn Aarup Nielsen wrote:
> Jeg var med til WikiSym i Odense i august. I den forbindelse > lavede jeg en statistisk analyse af forfattere og deres bidrag > http://www2.imm.dtu.dk/pubdb/views/publication_details.php?id=4748 På sidan 6 i PDF-en: "Structured fields are important. Templates, infoboxes? SemanticWikipedia or Wikidata may be interesting." Ett annat intressant lästips är "Analyzing and Visualizing the Semantic Coverage of Wikipedia and Its Authors", http://arxiv.org/abs/cs.IR/0512085 På svenska Wikipedia finns ett WikiProjekt för strukturering, där jag (LA2) försöker diskutera de här ämnena (med mig själv?), http://sv.wikipedia.org/wiki/Wikipedia:Projekt_strukturering Jag lagade nyligen ett Perl-script för att extrahera infobox-anrop (templates, skabeloner) från XML-dumpen av Wikipedia. Se http://meta.wikimedia.org/wiki/User:LA2/Extraktor Dumpen av danska Wikipedia av 4 augusti är 118 megabytes XML efter dekompression. Mitt script skriver ut en text om 7 megabytes, som dokumenterar vilka artiklar som anropar vilka skabeloner (templates) med vilka parametrar. Det är 49114 anrop som görs från 30401 artiklar till 3676 olika skabeloner med totalt 108581 parametrar, eller i medeltal 2,21 parametrar per anrop. En av de mest brukade skabelonerna är infoboxen "Sogn" med 2213 anrop, som i artikeln [[Ballerup Sogn]] ser ut så här: {{Sogn|sogn=Ballerup Sogn |stift=[[Helsingør Stift]] |provsti=[[Ballerup-Værløse Provsti]] |pastorat=[[Ballerup Pastorat]] |kirke=[[Skovvejskirken]]<br>[[Ballerup Kirke]] |kommune=[[Ballerup Kommune]] |medlemmer=11124 |årmedlemmer=2004 |indbyggere=14259 |årindbyggere=2004 }} Med data från mitt script kan jag lätt få fram att parametern "stift" till skabelon:Sogn har följande värden och antal förekomster: 327 [[Århus Stift]] 320 [[Roskilde Stift]] 302 [[Aalborg Stift]] 283 [[Viborg Stift]] 234 [[Fyens Stift]] 222 [[Ribe Stift]] 163 [[Haderslev Stift]] 147 [[Helsingør Stift]] 109 [[Københavns Stift]] 104 [[Lolland-Falsters Stift]] -- Lars Aronsson (lars@...) Aronsson Datateknik - http://aronsson.se _______________________________________________ WikiDA-l mailing list WikiDA-l@... http://mail.wikipedia.org/mailman/listinfo/wikida-l |
| Free Forum Powered by Nabble | Forum Help |