Wikipedia:Personendaten

Personendaten sind spezielle Metadaten, die in Artikeln über Personen aufgenommen werden, damit sie daraus automatisch extrahiert und weiterverarbeitet werden können. Sie bestehen aus einer Reihe von Datenfeldern wie beispielsweise Name, Geburtstag und Kurzbeschreibung einer Person.

Bearbeitungsstand: Im August 2014 gab es in über 540.000 Biografie-Artikeln (mehr als 30 % der deutschsprachigen Wikipedia) Personendaten.

Diese Seite hier enthält Wartungslisten zu den Personendaten. Für technische Hinweise und Anleitungen zur Verwendung siehe Hilfe:Personendaten.

Geschichte der Personendaten

Ohne einheitliche Formatierung bei Artikeln über Personen ist es sehr schwer, Daten über Personen aus den Artikeln zu extrahieren. Bei der Konvertierung für die erste Wikipedia-CD wurden halbautomatisch über 25.000 Personennamen nach den Regeln für die alphabetische Katalogisierung lemmatisiert und als allernotwendigste Teile eines Personendatensatzes Name, Kurzbeschreibung, Geburtsdatum, Geburtsort, Sterbedatum und Sterbeort ausgezeichnet.

Im Vorfeld der Erstellung der zweiten CD wurden die Personendaten in der heutigen Form eingeführt, damit die Daten zum einen nicht für jede CD erneut erstellt werden müssen und zum anderen auch für andere Projekte genutzt werden können. Die Einbindung begann im Dezember 2004. Directmedia, der Ersteller der Wikipedia-CD, unterstützte das Projekt im Januar 2005 mit einer „Tagging Party“.

Nach der deutschsprachigen Wikipedia hat Ende Dezember 2005 auch die englischsprachige Ausgabe diese Art von Metadaten eingeführt, dort trugen 2012 über eine Million Artikel das Template:Persondata.

Eine wichtige Anwendung war die Wikipedia-DVD, die Personendaten lassen sich aber auch anderweitig nutzen, beispielsweise zur Erstellung von Geburtstagslisten oder für eine Personensuche.

Zusätzlich werden seit 2005 Personenartikel mit wichtigen Personendatenbanken verknüpft. Anfangs wurde die Personennamendatei erschlossen, wodurch Wikipedia-Links im Online-Katalog der DNB realisiert wurden. Seit 2009 werden mit der Vorlage:Normdaten weitere Datenbanken wie die Authorities der Library of Congress[1] einbezogen.

Mit dem 2012 gestarteten Wikidata-Projekt steht seit rund 2013 eine weitere Software zur Wikimedia-weit zentralisierten Speicherung von Personendaten zur Verfügung, deren Befüllung allerdings vollständig unabhängig von den Personendaten in der deutschsprachigen Wikipedia abläuft. Die Daten aus der Personendaten-Vorlage haben bei Wikidata grob folgende analoge Felder:

Ein automatischer Abgleich der Daten in Wikidata mit den Personendaten oder ein automatischer Bezug von Daten von Wikidata wird nicht durchgeführt. Es gibt ferner keine Bestrebungen, die doppelte Datenhaltung in der deutschsprachigen Wikipedia zu beenden. In der englischsprachigen Wikipedia wurden die Personendaten dagegen durch ein Meinungsbild im Mai 2015 abgeschafft und bis Juli 2016 vollständig zurückgebaut.

Arbeiten mit den Personendaten

Extraktion der Personendaten

Die Extraktion der Personendaten und GND-Links ist entweder aus einer SQL-Datenbank oder direkt aus dem XML-Dump möglich. Weiteres steht auf der Unterseite Datenextraktion.

Herunterladen der Personendaten

Ein tagesaktueller Dump aller Personendaten lässt sich unter toolforge:persondata herunterladen.

Abfragen und Auswerten von Personendaten

Wartung der Personendaten

Die Wartung der vorhandener Personendaten erfolgt mit Hilfe einiger Skripts. Es gibt einige Wartungslisten, bei denen die Personendaten möglicherweise verbesserungswürdig sind. Bitte entfernt abgearbeitete Artikel. Beim Neueintragen von Fehlerlisten gebt bitte das Datum des Datenbankdumps und ggf. das benutzte SQL-Statement an. Allgemeine Auswertungen der Personendaten werden unter Wikipedia:Personendaten/Auswertung gesammelt.

Sonstiges

Weitere Verwendungen

Die genaue Anzahl der Verwender und das Spektrum der Verwendung der Personendaten ist nicht zu ermitteln. Jeder kann sich die Daten aus einem Dump extrahieren und nutzen, ohne dass es jemand mitbekommt. Die oben genannten Beispiele haben alle einen direkten Bezug zur deutschsprachigen Wikipedia. Falls noch weitere Verwender bekannt sind, sollten sie nachstehend eingetragen werden.

  • Die Liste der Biografien wird durch PD automatisch befüllt
  • PD können zum Abgleich mit Personeneinträgen an anderen Stellen genutzt werden (in Vergangenheit z. B. nützlich für die Bundesarchiv-Kooperation)
  • Das PD-Tool (siehe oben) wird verwendet, um runde Geburtstage zu finden, die auf der Hauptseite bekanntgemacht werden

Statistik

Die folgende Tabelle gibt die zahlenmäßige Entwicklung der biografischen Artikel in Wikipedia wieder:

DatumArtikelGND, Typ p[2]Prozent GND
7. Sep. 200556.25814.50626 %
27. Nov. 200564.87515.47624 %
11. Dez. 200567.94615.69723 %
12. Feb. 200679.53217.32823 %
20. März 200686.83018.06921 %
20. Apr. 200690.63619.15221 %
5. Juni 200695.53419.97721 %
3. Aug. 2006101.73721.56921 %
5. Nov. 2006116.01524.13021 %
30. Nov. 2006120.28524.79221 %
2. Apr. 2007145.76028.18919 %
28. Apr. 2007152.64529.10619 %
24. Mai 2007157.56130.98920 %
1. Juli 2007163.44431.46219 %
9. Okt. 2007178.73438.83022 %
17. Dez. 2007187.45240.05921 %
21. Feb. 2008197.44643.10322 %
23. Jan. 2011365.366141.12939 %
4. Mai 2011381.465147.92039 %
19. Dez. 2011413.136165.84740 %
7. Juli 2012440.722184.83242 %
1. Aug. 2013467.863221.22147 %
21. Okt. 2014548.317251.68946 %
30. Juni 2015577.884273.99447 %
11. Jan. 2020811.827384.09647 %

Weitere Informationen

Einzelnachweise

  1. authorities.loc.gov
  2. Bis Ende April 2012 PND.