Analyse af danske wikipedia-artikler.

View: New views
2 Messages — Rating Filter:   Alert me  

Analyse af danske wikipedia-artikler.

by Finn Aarup Nielsen :: Rate this Message:

Reply to Author | View Threaded | Show Only this Message



Hej Wikipedianere,


Jeg var med til WikiSym i Odense i august. I den forbindelse lavede jeg en
statistisk analyse af forfattere og deres bidrag til artiklerne som et
forsøg på at gruppere de enkelte artikler og forfattere automatisk - uden
anvendelse af katagorier. Måske har det almindelige interesse?

Blandt de grupper jeg fandt er for eksempel:

2. Islam, Diskussion:Danskfront.dk, Muhammed, Danskfront.dk, ...

3. Sønderjyllands Amt, Roskilde Amt, Birkerød Kommune, ...

7. Eliaskirken, Holeby Kirke, Enghave Kirke, ...

13. FC København, Erik Bo Andersen, Zinedine Zidane, Badminton


En zippet HTML-fil med flere grupper er tilgængelig fra:

http://www2.imm.dtu.dk/pubdb/views/publication_details.php?id=4748

(enkodning har jeg ikke fået rettet, så de danske bogstaver mangler). Der
er også en PDF-fil med en ganske kort beskrivelse af proceduren på siderne
7-8.

Jeg har anonymiseret de grupperede forfattere, dog er siderne med bruger
diskussioner ikke anonymiseret. Jeg håber det er ok.


Kommentarer modtages gerne



mvh
Finn (fnielsen)


____________________________________________________________________

              Finn Aarup Nielsen, IMM DTU, Denmark
 Lundbeck Foundation Center for Intergrated Molecular Brain Imaging
   http://www.imm.dtu.dk/~fn/      http://nru.dk/people/fnielsen/
____________________________________________________________________


_______________________________________________
WikiDA-l mailing list
WikiDA-l@...
http://mail.wikipedia.org/mailman/listinfo/wikida-l

Re: Analyse af danske wikipedia-artikler.

by Lars Aronsson :: Rate this Message:

Reply to Author | View Threaded | Show Only this Message

Finn Aarup Nielsen wrote:

> Jeg var med til WikiSym i Odense i august. I den forbindelse
> lavede jeg en statistisk analyse af forfattere og deres bidrag

> http://www2.imm.dtu.dk/pubdb/views/publication_details.php?id=4748

På sidan 6 i PDF-en: "Structured fields are important. Templates,
infoboxes? SemanticWikipedia or Wikidata may be interesting."

Ett annat intressant lästips är "Analyzing and Visualizing the
Semantic Coverage of Wikipedia and Its Authors",
http://arxiv.org/abs/cs.IR/0512085

På svenska Wikipedia finns ett WikiProjekt för strukturering, där
jag (LA2) försöker diskutera de här ämnena (med mig själv?),
http://sv.wikipedia.org/wiki/Wikipedia:Projekt_strukturering


Jag lagade nyligen ett Perl-script för att extrahera infobox-anrop
(templates, skabeloner) från XML-dumpen av Wikipedia.  Se
http://meta.wikimedia.org/wiki/User:LA2/Extraktor

Dumpen av danska Wikipedia av 4 augusti är 118 megabytes XML efter
dekompression.  Mitt script skriver ut en text om 7 megabytes, som
dokumenterar vilka artiklar som anropar vilka skabeloner
(templates) med vilka parametrar.  Det är 49114 anrop som görs
från 30401 artiklar till 3676 olika skabeloner med totalt 108581
parametrar, eller i medeltal 2,21 parametrar per anrop.

En av de mest brukade skabelonerna är infoboxen "Sogn" med 2213
anrop, som i artikeln [[Ballerup Sogn]] ser ut så här:

  {{Sogn|sogn=Ballerup Sogn
  |stift=[[Helsingør Stift]]
  |provsti=[[Ballerup-Værløse Provsti]]
  |pastorat=[[Ballerup Pastorat]]
  |kirke=[[Skovvejskirken]]<br>[[Ballerup Kirke]]
  |kommune=[[Ballerup Kommune]]
  |medlemmer=11124
  |årmedlemmer=2004
  |indbyggere=14259
  |årindbyggere=2004
  }}

Med data från mitt script kan jag lätt få fram att parametern
"stift" till skabelon:Sogn har följande värden och antal
förekomster:

    327 [[Århus Stift]]
    320 [[Roskilde Stift]]
    302 [[Aalborg Stift]]
    283 [[Viborg Stift]]
    234 [[Fyens Stift]]
    222 [[Ribe Stift]]
    163 [[Haderslev Stift]]
    147 [[Helsingør Stift]]
    109 [[Københavns Stift]]
    104 [[Lolland-Falsters Stift]]



--
  Lars Aronsson (lars@...)
  Aronsson Datateknik - http://aronsson.se
_______________________________________________
WikiDA-l mailing list
WikiDA-l@...
http://mail.wikipedia.org/mailman/listinfo/wikida-l
LightInTheBox - Buy quality products at wholesale price!