Wikipedia Diskussion:Technische Wünsche/Topwünsche/Bestimmung der Hauptautoren eines Artikels

Zu Prioritäten und Desideraten bei der Umsetzung

Danke zunächst für die Darstellung von Vorlauf und Problemerwägungen beim Anlauf von 2013. Es ist überfällig und sehr zu begrüßen, dass WMDE auf der Basis eines vollkommen eindeutigen Autorenvotums nun in die Realisierung einer aussagekräftigen Anzeigefunktion von Hauptautoren unmittelbar beim Artikel einsteigt. Perfektheitsansprüche sind dabei, jedenfalls vorerst, zurückzustellen. Wichtig ist ein zügiger Einstieg, an dem dann nachgefeilt werden kann. Entscheidend für verbesserte Kommunikationsprozesse und Wikipedia-Binnenkultur ist die Identifizierbarkeit der Hauptautoren im engeren Sinne. Glatt hinzunehmen sind Ungenauigkeiten oder Teilausfälle im unteren Prozentbereich. Meinungsbilderwägungen sind in diesem Stadium eher kontraproduktiv. Wenn ein sinnvolles Angebot unter Angabe von Fehlermargen implantiert ist, können Interessenten immer noch ein Meinungsbild initiieren.

Der aktuelle Tool-Doppler bei den Seiteninformationen (1. "Statistik" + 3. "Hauptautoren") ist auch schon besser als gar nichts, aber erstens viel zu abgelegen und zweitens auch inhaltlich eine Hauptautorenanzeige unter "ferner liefen". Mit dem WikiHistory-Tool, solange es lief, und Schnarks Artikelstatistiktool, das zusätzlich die jeweils aktuellen Autorentextanteile wortgenau angibt, sind ja nützliche Orientierungsmuster vorhanden. Vorhandene Abweichungen bei den Prozentangaben für die Hauptautoren sind undramatisch und teils leicht erklärbar: Das derzeitige Artikel-Statistik Tool bei den Seiteninformationen gibt anscheinend nicht die aktuellen Textanteile wieder, sondern ist auf Erfassung aller je eingegebenen Textanteile angelegt. Wenn solche Vorgaben dargelegt sind, können Irritationen bereits im Vorfeld aufgefangen werden. -- Barnos (Post) 08:58, 12. Aug. 2017 (CEST)Beantworten

Hallo Barnos! Die Seitenstruktur hat sich noch mal geändert: Aus einer Seite für drei Wünsche wurden drei Seiten für je einen: [1] [2] [3] Weil dein Kommentar am besten zu diesem Wunsch passt, ziehe ich ihn hierhin um. Wenn du das anders siehst, gib gern ein Zeichen oder setze ihn an die richtige Stelle.
Außerdem Danke für deine Hinweise. Wir arbeiten uns noch durch die verschiedenen Wünsche und melden uns zu diesem, wenn wir hier angekommen sind. -- Viele Grüße, Johanna Strodt (WMDE) (Diskussion) 14:19, 22. Aug. 2017 (CEST)Beantworten

Hauptautorenermittlung nicht wirklich brauchbar

Hallo, ich habe das Tool mal in den Artikeln Max Frisch, Wolfgang Borchert und Draußen vor der Tür ausprobiert, und die Haupautorenangaben (Top 10 nach hinzugefügtem Text) sind völlig irreführend:

  • Es wird anscheinend bei jedem einzelnen Edit die Menge der hinzugefügten Bytes gezählt. Damit sind die Eingangskontrolleure, die Vandalismus zurücksetzen (insbesondere völlige Seitenleerungen), immer automatisch die Hauptautoren, nicht diejenigen, die die Artikel wirklich geschrieben haben.
  • Die Prozentangaben beziehen sich anscheinend auf die Menge aller jemals hinzugefügten Bytes, die ein Vielfaches des aktuellen Artikels sein können.
  • Eine komplexere Ermittlung, die vom aktuellen Artikel ausgehend die Textbeiträge zuordnet, findet nicht statt. Wer 100kb Unsinn in den Artikel schreibt, wird so vermutlich automatisch statistischer Hauptautor, auch wenn er sofort revertiert wird.

Also in der derzeitigen sehr einfachen Ausführung aus meiner Sicht leider überhaupt kein Ersatz für Tools wie Benutzer:APPER/WikiHistory oder Benutzer:Schnark/js/artikel-statistik. Gruß --Magiers (Diskussion) 10:32, 19. Okt. 2017 (CEST)Beantworten

Oh. Damit wäre das Tool tatsächlich unbrauchbar... Gruß, --Gnom (Diskussion) 11:38, 19. Okt. 2017 (CEST)Beantworten
In der Tat – zur ergänzenden Beweisführung im Auszug die Kopie dessen, was ich eben auf meiner Benutzerdisk als Antwort hinterlegt habe:
Offensichtlich ist das Tool nicht darauf angelegt, die Autoren der jeweils aktuellen Lemmaversion zu erfassen, sondern listet alle je damit beschäftigten Bearbeiter mit ihren Edits. Das kann ich anhand einer kürzlich abgeschlossenen Überarbeitung höchst augenfällig belegen:
  • Das neue X-Tool gibt für Medienpädagogik nach der unspezifischen und im gemeinten Kontext lediglich ablenkenden „allgemeinen Übersicht“ unter „Top-Bearbeiter“ zunächst die nach Menge geordneten individuellen Edit-Anzahlen und erst danach die Autorenabfolge gemäß jeweils hinzugefügter Textmenge (schon das wäre umgekehrt deutlich aufschlussreicher).
  • Im vorliegenden Zusammenhang interessant ist lediglich der Textmengenvergleich. Danach wird Rossm007 mit 31,6 Prozent Textmenge an erster Stelle geführt, während ich selbst mit 26,7 Prozent angesetzt bin. Danach werden 8 weitere Bearbeiter mit Textanteilen jeweils im einstelligen Prozentbereich aufgeführt. Nimmt man hingegen das bei diesem Lemma mit überschaubarer Versionsgeschichte noch gut ladbare Benutzer:Schnark/js/artikel-statistik-Tool, das die aktuellen Autoren-Textanteile farbig markiert, ergibt sich ein gänzlich anderes Bild. Da liegt mein Anteil bei 85 Prozent und der von Rossm007 so wie der der acht weiteren gelisteten Bearbeiter bei einem Prozent.
  • Die Erklärung der krassen Abweichung ist in diesem Fall ganz einfach: Dieser Edit von Rossm007 wurde als Summe vieler vorher bereits en bloc zurückgesetzter Edits neuerlich komplett verworfen und zurückgesetzt. Erst danach begann eine vollständige Überarbeitung des Lemmas meinerseits.
Unabhängig von irgendeiner inhaltlichen Stellungnahme in Sachen dieses Lemmas und seiner Versionsgeschichte ergibt sich für die Aussage-Qualität dieses X-Tools: Was und in welcher Qualität auch immer in jedem beliebigen Lemma irgendwann einmal editiert wird oder worden ist – ob behalten, verworfen oder auch von vornherein unbrauchbar: Ist’s nur reichlich, führt es in der Autoren-Statistik u. U. bis ganz nach vorn. Das ist es also leider nicht, was wir gut brauchen können.
-- Barnos (Post) 12:39, 19. Okt. 2017 (CEST) / -- Barnos (Post) 12:43, 19. Okt. 2017 (CEST)Beantworten
Nachtrag: Noch etwas hat mich irritiert, und zwar umseitig am Inhalt der Umsetzungsbegründung: Viele Autorinnen und Autoren wollten ausdrücklich nicht am Artikel genannt werden. Zur Klarstellung: Eine Namensliste war nicht das Ziel der Übung, sondern ganz unten neben dem Link zur Abrufstatistik ein entsprechender Link zu den am sinnvollsten ansprechbaren Autoren der aktuellen Lemmafassung. Gegen ein sinnvolles Arbeitsmittel sollte doch wohl nichts eingewendet werden in einem Projekt, in dem jeder sein Recht auf Anonymität selbst bewirtschaftet. -- Barnos (Post) 13:09, 19. Okt. 2017 (CEST)Beantworten

@Magiers, Gnom, Barnos: Danke für euer Feedback. Wenn man über die Hauptautoren eines Artikels spricht, stellt sich in der Tat die Frage, was die Kriterien sind, um sie zu ermitteln.

  • Ist es der Anteil eines Autors an der aktuellen Textversion?
  • Sind es die Beiträge eines Autors an allen bisherigen Textversionen, auch wenn sich diese Beiträge im aktuellen Text nicht mehr wiederfinden?
  • Sind es die Edits, die den qualitativ wertvollsten Anteil zum Artikel geleistet haben?
  • Ist es die Menge der Bearbeitungen eines Autors?

Darüber kann man durchaus kontrovers diskutieren und im Wunsch war es nicht genau spezifiziert. Bei der Recherche zu einem ähnlichen Wunsch („Anzeige der Autorennamen“) im Jahr 2015 sind wir schon einmal zu dem Ergebnis gekommen, dass die korrekte Berechnung von Textanteilen technisch für uns nicht machbar ist. Hiermit haben sich bereits viele beschäftigt, und auch die besten Verfahren liefern noch fehlerhafte Ergebnisse. D.h., Tools wie WikiHistory sollten nur von erfahrenen Autoren genutzt werden, die wissen, dass die ausgegebenen Werte nur als grobe Orientierung genutzt werden können und auch mal völlig falsch sein können. Entschuldigt bitte, dass diese Info auf der Vorderseite fehlte. Ich habe sie jetzt ergänzt.

Das Page Info Tool zeigt zzt. nur die Werte, die verlässlich angezeigt werden können: Das sind die Bytes per Autor, und das sind die Edits per Autor. Hier werden zum einen Bot-Edits nicht einberechnet, zum anderen wird ein Edit, der direkt revertiert wird, abgezogen: Der oben beschriebene Vandalismus-Edit fließt also nicht mit in die Berechnung ein. Es gibt eine Dokumentation zu Page History (in englischer Sprache), in der es genauer beschrieben ist. Trotzdem bedürfen auch diese Werte natürlich einer Interpretation und des Wissens um die Hintergründe.

Was wir machen können, ist beim Community Tech Team nachzufragen, ob Textanteile als weiterer Aspekt im Tool Page History abgebildet werden könnten, auch wenn sie nur grobe Orientierungswerte sind. Sobald ich dazu mehr weiß, gebe ich hier und auf der Vorderseite ein Update.

Ich hoffe, damit weitergeholfen zu haben. -- Viele Grüße, Johanna Strodt (WMDE) (Diskussion) 14:26, 19. Okt. 2017 (CEST)Beantworten

Also ich muss zugeben, dass ich mich mit den technischen Wünschen zu diesem Punkt und die Entwicklung des Tools nicht näher beschäftigt habe, aber das ganz allgemeine Infragestellen des Begriffs Hauptautor fällt weit hinter das zurück, was m.E. bisher schon in der Community Konsens war (siehe z.B. die Seite WP:Hauptautoren und die oben genannten Tools, die aus meiner Sicht schon recht verlässlich vom aktuellen Artikel ausgehend Textanteile zuordnen und damit Hauptautoren ermitteln konnten/können). Die Relativierung des Begriffs ist nur Wasser auf die Mühlen derjenigen, die ohnehin die Arbeit der Autoren an einem Artikel relativeren/entwerten wollen (siehe auch Benutzer:Magiers/Wer hat Angst vorm Hauptautor? oder Benutzer:Magiers/Wem gehören die Artikel?). Die Überschrift im Kurier "Technische Wünsche: Wunsch #4 erfüllt" finde ich dann jedenfalls ziemlich optimistisch formuliert. Gruß --Magiers (Diskussion) 15:45, 19. Okt. 2017 (CEST)Beantworten
Nein, von Wunscherfüllung kann nicht wirklich die Rede sein, mögen auch gute Absichten und bereits investierte Arbeit dankbar vermerkt werden: Das Vorliegende ist leider ein Irrläufer. Wenn es in der Sache nun also sinnvoller weitergehen soll – und das sollte es mit einiger Dringlichkeit! – dann können wir auch mit den vorderseitigen vier Fragen ein wenig aufräumen. Wer eine gewichtete Autorenanzeige als nötiges Hilfs- und Arbeitsmittel versteht, z. B. auch für Neueinsteiger in die Wikipedia, und ernst nimmt, dem wird sofort einleuchten, dass allein die jeweils aktuelle Fassung für die Orientierung wichtig ist und also die darin bestehende Textmengenverteilung auf die diversen Autoren, gewiss nicht der Editcounter und selbstverständlich auch nicht eine Edit-Qualitätsunterscheidung (denn wer sollte darüber urteilen, erlaube ich mir mal rhetorisch anzufragen; solche Kriterien ins Spiel zu bringen, kann nur darauf hinauslaufen, etwas unmöglich zu machen). Glück auf also, liebe Entwickler, für die nächste Runde! -- Barnos (Post) 17:07, 19. Okt. 2017 (CEST)Beantworten
Hallo Magiers. Nochmal danke für deine Rückmeldungen und die Links. Der Hintergrund unserer Fragen, woran sich die Ermittlung der Hauptautoren festmacht, ist folgender: Funktionen werden immer auch für die internationalen Wikimedia-Projekte entwickelt. D.h. verschiedene Blickwinkel auf eine Funktion müssen berücksichtigt werden. In Gesprächen mit Nutzern aus unterschiedlichen Wikipedia-Communities wurde deutlich, dass durchaus umstritten ist, nach welchen Kriterien Hauptautoren ermittelt werden. Mit unseren Fragen wollten wir diese Perspektiven abbilden; Partei zu ergreifen oder einen Diskurs zu befeuern war nicht unsere Absicht. -- Viele Grüße, Johanna Strodt (WMDE) (Diskussion) 17:24, 19. Okt. 2017 (CEST)Beantworten
Hallo Barnos, ich bin gerade in einen Bearbeitungskonflikt mit dir geraten. Meine Antwort an dich dauert noch ein wenig. -- Viele Grüße, Johanna Strodt (WMDE) (Diskussion) 17:24, 19. Okt. 2017 (CEST)Beantworten
Hallo Barnos, hier bin ich wieder. Danke für deine Einschätzung. Oben habe ich ja angeboten, beim Community Tech Team nachzufragen, ob auch Textanteile noch im Tool Page History abgebildet werden könnten (aber eben nur als grobe Orientierungswerte). Ich melde mich an dieser Stelle wieder, wenn wir eine Antwort haben. -- Viele Grüße, Johanna Strodt (WMDE) (Diskussion) 17:45, 19. Okt. 2017 (CEST)Beantworten

Hallo, vielen Dank für die Arbeit, ...aber... zunächst finde ich es verwirrend, das de.wiki gar nicht angeboten wird. Muss manuell geändert werden. Die Apper Statistik war am Artikel kurz und schnell. Hier muss eine weitere Seite aufgesucht werden, ist schon umständlich, Lemma kopieren, einsetzen, usw. Es gibt ein Skript "Artikelstatistik" welches eine Auswertung nach Autoren, eingefärbt darstellt, das ist dann doch hilfreicher. Gruss --Itti 19:42, 19. Okt. 2017 (CEST)Beantworten

Hallo Itti, den Schritt, de.wikipedia.org manuell auszuwählen, kann man einsparen, wenn man von den Seiteninformationen aus nicht auf https://xtools.wmflabs.org/articleinfo?uselang=de verlinkt, sondern auf https://xtools.wmflabs.org/articleinfo/de.wikipedia?uselang=de. Die Links auf den Seiteninformationen werden nach meinem Wissen durch Communitymitglieder gesetzt. -- Viele Grüße, Johanna Strodt (WMDE) (Diskussion) 13:51, 25. Okt. 2017 (CEST)Beantworten
Ich muss jetzt wirklich mal herbe Kritik an WMDE äußern: Zum einen halte ich es für fragwürdig, wenn WMDE freudig meldet, ein Wunsch sei erfüllt werden, während kein WMDEler sich je mit dem Wunsch intensiver auseinandergesetzt hat. Neben der schlichten Tatsache, dass nicht WMDE den Wunsch erfüllt hat, (woran arbeitet ihr gerade eigentlich wirklich aktiv?) kommt noch dazu, dass der Wunsch an sich nicht erfüllt hat: Die WMF hat da ein in der Praxis unbrauchbares „Tool“ zusammengebastelt, was völlig untauglich ist, um die Autorenanteile in einem Artikel zu bestimmen. Der Wunsch der Community war, dass WikiHistory oder eine bessere Variante des Skriptes umgesetzt wird, kein grobes Gerüst was irgendwelche Bytezahlen verrechnet. Ein solches Tool würde die tatsächlichen Autorenanteile in der aktuellen Version berechnen – was wie eigentlich alle sich einig sind das einzig sinnvolle ist – und direkt im Artikel anzeigen. Dass das ziemlich gut geht, haben WikiHistory und Schnarks Artikel-Statistik bewiesen, die zudem ehrenamtlich entwickelt wurden.
Mit Verlaub, aber die Behauptung, dieser Wunsch sei erfüllt, ist einfach Unfug. --MGChecker – (📞| 📝| Bewertung) 21:06, 19. Okt. 2017 (CEST)Beantworten
Zwar ist es erfreulich, dass es das Programm zur Erfüllung der technischen Wünsche der Wikipedianer gibt, aber in diesem Fall finde ich das Ergebnis doch wirklich sehr enttäuschend. Warum soll die WMDE, die meines Wissens über einen Jahreshaushalt von mehreren Millionen Euro verfügt, nicht in der Lage sein, ein Tool zur Verfügung zu stellen, dass eine einigermaßen korrekte Berechnung von Textanteilen ermöglicht, wenn ehrenamtliche Entwickler dies - eben mit Wikihistory - geschafft haben? Der Standard, den WikiHistory lieferte, war völlig ausreichend und hat die Community zufriedengestellt. Das jetzt angebotene Tool liefert dagegen in vielen Fällen unbrauchbare Ergebnisse. Es ist hier schon gesagt worden: Jemand, der irgendwann einmal völligen Unsinn in einen Artikel reingestellt hat, der sofort revertiert wurde, erscheint bei Page History evtl. als der Autor mit dem größten Textanteil, weil der von ihm hinzugefügte Unsinnstext eben am längsten war. Das ist keine Lösung für das Problem, das hier von den Wikipedianern beschrieben wurde. Als mich WMDE 2015 in ihrem Blog "Freies Wissen und Wissenschaft" fragte, was getan werden könnte, um mehr Wissenschaftler zu motivieren, sich ehrenamtlich als Wikipedia-Autorinnen zu betätigen, habe ich geantwortet, dass sich dies nur über eine bessere Sichtbarmachung der Autorschaft erreichen ließe. Damals gab es Wikihistory noch. Da dieses Tool nicht mehr existiert, sollte WMDE eiligst brauchbaren Ersatz schaffen. Brauchbar ist ein Tool nur dann, wenn es den Anteil der einzelnen Autors an der aktuellen Textversion berechnet. Das ist bei Page History nicht der Fall.--PaFra (Diskussion) 23:08, 19. Okt. 2017 (CEST)Beantworten
+1. Habe mich kurz gefreut, als ich die Wunscherfüllungsmeldung las, die sich dann leider nicht als solche herausstellte. Es gibt eine ganze Reihe Benutzer, die sich Benutzer:APPER/WikiHistory zurückwünschen, und etwas vergleichbares hatte ich erwartet bzw. erhofft. --Alraunenstern۞ 11:53, 20. Okt. 2017 (CEST)Beantworten

Schade, ein Schritt rückwärts. Hab das mal an Requiem (Mozart) ausprobiert. WikiHistory weist mich korrekt als Hauptautor aus, der weitaus größte Teil der aktuellen Textversion geht direkt auf mich zurück. PageHistory billigt mir zwar die meisten Edits zu, bei "Textanteil" hat jedoch Pittimann Rang 1. Das geht praktisch ausschließlich auf diesen Edit zurück, einen (lobenswerten) Vandalismusrevert. Wenn man mit dem Tool messen will, wer die Haupt-Urheber des Artikels sind, ist der Versuch ganz offensichtlich gescheitert.--Mautpreller (Diskussion) 12:29, 20. Okt. 2017 (CEST)Beantworten

+1 Sorry, in der Form ist es völlig unbrauchbar. Habe nun auch einige Versuche unternommen. Zudem dieses https://xtools.wmflabs.org/adminscore Spielzeug]. Was soll so etwas? Ist an euch z.B. das letzte Urteil eines Bundesdeutschen Gerichtes bzgl. "Pranger" vorbeigegeangen? Die WMF sitzt in den USA, doch die Gesetze der Bundesrepublik gelten. --Itti 12:34, 20. Okt. 2017 (CEST)Beantworten
Hallo @Itti: Da wir auch anderweitig negative Resonanz zum Tool Adminscore gehört haben wir dem Community Tech Team der WMF vier Verbesserungen vorgeschlagen: phab:T179508 (die Berechnung des Account-Alters ist fehlerhaft) phab:T179763 (Fehlende Dokumentation und Transparenz des Tools) phab:T179764 (Nicht eine Person auf diese Scores begrenzen sondern die öffentliche Datengrundlage anzeigen) und phab:T178662 (das ganze nicht als "worthy" sondern als "ready" bezeichnen.). Ich hoffe das geht auch für dich in die richtige Richtung. Du kannst natürlich gerne die Tickets kommentieren oder weitere anlegen. -- Grüße, Michael Schönitzer (WMDE) (Diskussion) 02:36, 7. Nov. 2017 (CET)Beantworten
Es fällt im Übrigen noch ein weiteres Problem auf: Die Tortengrafik und die tabellaische Aufstellung unterscheiden sich erheblich. In der Tortengrafik erscheint bei "hinzugefügtem Text" Peter200 an der Spitze vor Pittimann, Ttbya und mir. In der Tabelle tauchen weder Peter200 noch Ttbya überhaupt auf, wenn man sie nach "hinzugefügtem Text" sortiert. Es handelt sich natürlich wieder um schlichte Vandalismusreverts. Das liegt einfach daran, dass sie eine geringere Editzahl aufweisen und daher nicht zu den zwanzig aktivsten Bearbeitern gehören. Das Tool ist völlig unbrauchbar für jeden denkbaren Zweck.--Mautpreller (Diskussion) 12:57, 20. Okt. 2017 (CEST)Beantworten
Die Dokumentation enthält übrigens einen sehr schwerwiegenden Irrtum: "Added text refers to any positive addition of content that was not reverted with the next edit. This is because users who fight vandalism (for instance) will otherwise appear to have added a lot of content to a page, when in actuality they just undid an edit that removed a lot of content. Going by edits that weren’t reverted, we have a better idea of the users who made meaningful contributions." Das ist in sich völlig unlogisch. Damit werden zwar unmittelbar zurückgesetzte Edits aus der Berechnung ausgeschlossen, aber eben gerade nicht das Zurücksetzen dieser Edits. Deswegen passiert genau das, was angeblich vermieden werden soll: Vandalismusbekämpfer erscheinen als Hauptautoren.--Mautpreller (Diskussion) 13:06, 20. Okt. 2017 (CEST)Beantworten

Noch mal ein äußerst schlichtes Beispiel: Den Artikel Alleinunterhalter habe ich angelegt. Er hat 2.120 Bytes und genau 12 Edits in der Versionsgeschichte, ist also äußerst überschaubar. Die ersten vier Edits sind von mir. Dann kommt ein Edit von Urgelein, der Überschriften einfügte und den Begriff "One-Man-Show" einführte, dann einer von !Bikkit !, der noch One-Woman-Show hinzufügte. Es folgt eine Rücksetzung beider Edits von mir und ein weiterer Edit (+67), in dem ich die von Urgelein und ! Bikkit ! eingebrachten Begriffe wieder aufnahm. Dann ein Kategorienedit (ohne sichtbare Veränderung) von Informationswiedergutmachung, ein Vandalenedit und schließlich dessen Rücksetzung durch Logograph. Mehr gabs nicht. Die Analyse zeigt ohne weiteres: Der gesamte Artikel stammt von mir. Es gibt überhaupt nur zwei andere inhaltliche Beiträge zum Artikel (Urgelein und ! Bikkit !), von denen ist jeweils genau ein Wort geblieben.

WikiHistory repräsentiert das angemessen. Für mich 97,9%, Urgelein und ! Bixit ! werden als ganz geringfügige Koautoren genannt (0,7 bzw. 0,6%), außerdem IWG wegen seines Kategorienedits. Alle anderen 0,0%. Passt. PageHistory hingegen kann nicht unterscheiden. Das Programm kapiert nicht, dass von Urgeleins und ! Bikkit !s Änderungen jeweils genau ein Wort erhalten geblieben ist und dass Urgeleins versuchte Überschriftengliederung umgehend zurückgesetzt wurde. Es nennt daher Urgelein als Zweitautor mit 4,8%, während ! Bikkit ! sich mit 0,8% begnügen muss. Dass der IP-Edit ein Vandalenedit war und umgehend zurückgesetzt wurde, kapiert es auch nicht, die IP kriegt immerhin 1%. Warum eigentlich? Selbst bei einer so überschaubaren VG liefert das neue Tool nur Mist. Überhaupt kein Vergleich mit WikiHistory.--Mautpreller (Diskussion) 23:44, 20. Okt. 2017 (CEST)Beantworten

Ich habe mir mal angeguckt was die API zu diesem Artikel auspuckt: hier. Müsste eigentlich funktionieren, wenn man den blauen Button oben, rechts anklickt. Ich denke das sind die Daten auf denen man den Algorithmus laufen lässt. Man müsste erst die Texte aufbereiten und dann die Diffs ermitteln. Ich hatte mir wegen eines Algorithmus Gedanken gemacht und ich glaube das Schwierigste ist zu erkennen ob man eine Verschiebung und einen Revert vor sich hat, weil man damit nicht zum Autor des diffs wird. Ist schon eine Arbeit für einige Wochen, wobei ein Profi-Programmierer natürlich schneller ist. --Goldzahn (Diskussion) 15:53, 21. Okt. 2017 (CEST)Beantworten
Interessant finde ich vor allem, dass PageHistory weit schlechter arbeitet als WikiHistory. Woran liegt das wohl? Ich vermute, dass das kein Detailproblem ist, sondern der ganze Ansatz komplett verfehlt ist (siehe unten: während WikiHistory, wie der Autor selbst angibt, Unschärfen in Kauf nimmt und so zu einem vernünftigen Ergebnis kommt, haben die PageHistory-Programmierer nur "unter der Lampe" gesucht, so dass zwar Exaktes, aber völlig Unbrauchbares herauskommt).--Mautpreller (Diskussion) 16:25, 21. Okt. 2017 (CEST)Beantworten
Naja, ich nehme mal an dass die Antwort auf APPERs Hinweisseite zu finden ist. Er vergleicht die aktuelle Version zu jeder alten Version, was das neue Tool augenscheinlich nicht tut. Dafür ist die Auswertung mit APPER’s Tool halt irre aufwändig – möglicherweise zu aufwändig, so dass der Server aussteigt. Du musst entweder für jede Version eine Auswertung vorhalten (i.e. ~170M Datensätze für dewiki), oder die Auswertung bei jeder Anfrage neu durchführen (mit APPERs WindowsProgramm braucht Dein Requiem-Artikel für einen Komplettdurchlauf gut fünf Minuten, und ich gehe davon aus dass mein Rechner wesentlich mehr Resourcen zur Auswertung zur Verfügung stellt als der Toolserver). Leider sind die Quellcodes soweit weggeschlossen, dass man sie sich nicht anschauen kann (sehr ungewöhnlich auf dem Toolserver), und deshalb mein Kommentar leider recht spekulativ bleiben muss. —MisterSynergy (Diskussion) 16:52, 21. Okt. 2017 (CEST)Beantworten
Das ist natürlich gut möglich. Es hieße, dass die PageHistory-Programmierer den Aufwand an Serverleistung minimieren wollten. Leider ist das nicht zielführend, weil das Tool ohne den Vergleich aller alten Versionen mit der aktuellen Version keine aussagekräftigen Ergebnisse liefern kann.--Mautpreller (Diskussion) 16:58, 21. Okt. 2017 (CEST)Beantworten
Ich glaube der eigentliche Code ist gar nicht zeitaufwendig, wenn ich aber z.B. an den Artikel Deutschland denke, der aktuell 200 kB Text hat, dann graust es mir. Im würde nicht die aktuelle Version mit jeder alten Version vergleichen, sondern von aktuell nach hinten gehen. Irgendwann kann man aufhören, wenn man den kompletten Text den Autoren zuweisen kann, oder man kann auch schon vorher aufhören, wenn deutlich ist wer Hauptautor ist. Schließlich ist ja nicht die Prozentzahl das wichtige Ergebnis, sondern die Benennung eines Autors als Hauptautor. Ich denke, beim Gang nach hinten kann man ziemlich viel optimieren, weil bei manchen Textstellen der Autor schon bekannt ist und man bei diesen Textteilen deshalb nicht mehr nach diffs Ausschau halten muss. Also, man segmentiert den aktuellen Text und schaut nur noch in den Segmenten nach diffs, die noch unbekannte Textstellen haben. Mir ist noch eingefallen, dass man bevor man einen diff macht, erst eine Prüfsumme eines Segmentes berechnet, weil die meisten edits nur ganz wenig im Text ändern. Wichtig erscheint mir auch gute Test zu schreiben. --Goldzahn (Diskussion) 18:11, 21. Okt. 2017 (CEST)Beantworten
<quetsch> Das funktioniert so nicht. Du musst immer gucken, wann ein Text das erste Mal im Artikel eingefügt wurde; er kann aber zwischendurch auch längere Zeit mal entfernt worden sein. Wenn müsstest du den Vergleich anders herum, von der ältesten zur neusten Version, durchgehen, um brauchbare Ergebnisse zu erzielen. --MGChecker – (📞| 📝| Bewertung) 21:52, 21. Okt. 2017 (CEST)Beantworten
Per Tests müsste man heraus finden ob der Ansatz fehlerhaft ist oder nicht, ehe man viel Zeit aufwendet. Ich hatte bei neu nach alt an einen Lichtstrahl gedacht, der von Buchstabe zu Buchstabe über den Text streicht und da in der history aufscheint, wo der aktuell sichtbare Text vom Autor eingefügt wurde. Die weiter dahinter liegenden Versionen kann man dann ignorieren. Anders bei alt nach neu, wo man tatsächlich alle Versionen durchgehen muss. Da so weit ich das sehe keiner von uns tatsächlich das Ding programmiert, bleibt Unklar ob das so tatsächlich funktioniert. Jedenfalls gefällt mir die Theorie, die Praxis ist dann leider oft ganz anderes (So viel Programmier-Erfahrung habe ich schon gesammelt). --Goldzahn (Diskussion) 23:34, 21. Okt. 2017 (CEST)Beantworten
Teuer sind wohl vor allem viele Versionen und viel Wiki-Quellcode in den Versionen. Bei dem von Dir skizzierten Vorgehen läufst Du Gefahr, den echten „Hauptautor“ zum Beispiel durch Vandalismus+Revert aus dem Auge zu verlieren. Deshalb macht APPER das ja überhaupt erst so aufwändig…
Hat eigentlich mal jemand mit APPER gesprochen, ob er einen zweiten Maintainer wünscht oder zulassen würde? Für die Personendaten gibt es ja bereits solche eine Lösung. —MisterSynergy (Diskussion) 18:20, 21. Okt. 2017 (CEST)Beantworten
Ich bin nur Hobby-Programmierer aber ich habe bei Wikidata die Erfahrung gemacht, dass man mit Abkürzungen ziemlich viel Zeit sparen kann und z.B. die Lua-Module sind sehr zeitkritisch. Ich würde z.B. versuchen einen Revert über den Edit-Kommentar festzustellen. Das ist in keiner Standardbibliothek enthalten, aber bei uns könnte das massig Zeit sparen. --Goldzahn (Diskussion) 18:59, 21. Okt. 2017 (CEST)Beantworten
Ich versteh gar nichts vom Programmieren, kann nur sagen: Ein Rollback-Edit dürfte nie für eine Hauptautorenbestimmung tauglich sein, ebenso ein Edit, der dieselbe Zeichenzahl mit umgekehrtem Vorzeichen hat wie einer kurz zuvor. Komplizierter sind schon Edits, die mehrere frühere revertieren (sehr häufig) oder mit größerem zeitlichem Abstand revertieren. Außerdem möchte ich Dir widersprechen, Goldzahn: In sehr vielen Fällen ist eine Grundstruktur in den ältesten Edits angelegt, die zwar ausgebaut wird, aber nicht mehr grundlegend modifiziert. Meist wird man daher gerade die ältesten Edits brauchen. Ich hab den Eindruck, eine Art Fuzzy Logic, die mit Wahrscheinlichkeiten operiert, ist hier brauchbarer als eine ingenieurmäßig saubere Lösung.--Mautpreller (Diskussion) 20:46, 21. Okt. 2017 (CEST)Beantworten
Ich habe irgendwann mal gelernt, dass es beim Programmieren zwei Tätigkeiten gibt: Die eine ist die des Architekten, der eine Vision / einen Plan des Gebäudes hat und dann gibt es die Bauarbeiter, die das Ding bauen. Ist beim Programmieren genauso.
Du hast recht, bei älteren Artikeln dürften die Hauptautoren ganz weit hinten in der history zu finden sein. Ich gucke mir eigentlich auch immer die History so an, dass ich schaue wo große Datenmengen über mehrere Edits hinweg dazu kommen. Eigentlich würde es Sinn machen diese Info auch zu nutzen. Vielleicht darf man sich nicht linear von aktuell nach hinten vorarbeiten? Also nicht nur eine Segmentierung in einer Artikelversion, sondern auch eine Segmentierung der history. Man könnte dann die kleinen edits als einen edit ohne Autor zusammenfassen und muss sich nur auf die großen edits konzentrieren. Vielleicht kann man so die Topautoren herausfinden ohne überhaupt ein diff zweier Artikelversionen zu machen? Ich habe gesehen, man kann sich von der Mediawiki-Software auch die Größe der Artikelversion anzeigen lassen, also müsste es möglich sein recht schnell eine Liste möglicher Hauptautoren aufzustellen. Dann segmentiert man die history nach diesen Kandidaten und fasst alle anderen edits zu edits ohne Autor zusammen. Man kann so die zu betrachtenden diffs von hunderten zu nur noch wenige reduzieren, wobei dann halt die kleinen edits in der Auswertung nicht angezeigt werden können. Anschließend beginnt dann die Arbeit an den diff-Segmenten innerhalb eines history-Segmentes, um die Prozentzahlen der Kandidaten zu ermitteln. Ich glaube, deine Idee würde massig viel Zeit sparen.
Na ja, mal schauen was WMDE machen wird. --Goldzahn (Diskussion) 23:05, 21. Okt. 2017 (CEST)Beantworten
Ich befürchte fast nichts, weil der Wunsch ja erfüllt und sowieso überhaupt nicht umsetzbar ist… Aber ich hoffe wirklich, dass ich mich da täusche. --MGChecker – (📞| 📝| Bewertung) 23:57, 21. Okt. 2017 (CEST)Beantworten

Verlässlichkeit

Im Kurier-Artikel hieß es: "Bei Funktionen, die in die Software der Wikimedia-Projekte (Mediawiki) integriert sind, besteht der Anspruch, dass diese zuverlässig funktionieren und korrekte Werte anzeigen." Wenn ich das richtig verstehe, soll das heißen: Wir brauchen einen Algorithmus, der keine Näherungswerte, sondern exakte Werte produziert. Stimmt meine Interpretation, dann liegt hier der Hund begraben. Exakte Werte zur Hauptautorschaft sind aus prinzipiellen Gründen nicht möglich. Dazu müsste die Software den Artikel verstehen, das kann sie nicht. Die exakten Werte, die das Tool produziert, sind sinnlos. Es kann überhaupt nur um Näherungen gehen, also um Heuristiken, halbwegs akzeptable Indikatoren, die einigermaßen brauchbare Schlüsse zulassen. PageHistory erinnert mich an den alten Witz, dass jemand seinen verlorenen Schlüssel unter der Laterne sucht. Er hat ihn zwar ganz woanders verloren, aber dort ist es dunkel und man kann nichts sehen.--Mautpreller (Diskussion) 14:42, 20. Okt. 2017 (CEST)Beantworten

Das gilt vielleicht für eine Ermittlung von Textanteilen, Prozentzahlen etc. Man kann aber natürlich durchaus zu jeder Textpassage ermitteln, von welchem Urheber sie stammt, wie das Tools wie Benutzer:Schnark/js/artikel-statistik oder Benutzer:Flominator/WikiBlame machen. Das ist ja eigentlich urheberrechtlich auch notwendig, und wenn das in Einzelfällen nicht verlässlich klappt (z.B. bei Versionslöschungen) ist das vermutlich urheberrechtlich durchaus problematisch. Also aus meiner Sicht macht man es sich hier mit der Behauptung, es sei keine verlässliche Zuordnung von Texten zu Autoren möglich, schlicht zu einfach. Wenn die Versionsgeschichte nicht ausreicht, korrekte Zuordnungen nachträglich zu ermitteln, dann könnte man die detaillierte Urheberschaft einzelner Textanteile ja auch mit jedem Edit in einer Datenbank abspeichern, wie das bei Bildern ja auch ganz selbstverständlich ist. Wenn man Fotografen in derselben Art behandeln würde wie Autoren (es ist uns leider nicht möglich, zu jedem Foto anzugeben, von wem es stammt, Du wirst nur summarisch bei einem Konglomerat von 100 Fotos mitgenannt), würde kaum noch jemand seine (und zwar unzweifelhaft "seine") Fotos für das Projekt spenden wollen. --Magiers (Diskussion) 15:22, 20. Okt. 2017 (CEST)Beantworten
Für eine Textpassage ist das sicher möglich. Das Problem dürfte schlicht sein, dass menschliches Handeln das ganz untheoretisch ohne weiteres schafft. Es ist überhaupt nicht schwierig, substanzielle Erweiterungen oder Neukonzeptionen von belanglosem Hin-und-her, Formatanpassungen oder kleineren Korrekturen zu unterscheiden. Zumindest diese Software kann das selbst dann nicht, wenn man sie mit der Nase drauf stößt.--Mautpreller (Diskussion) 16:12, 20. Okt. 2017 (CEST)Beantworten
Meine Vision, die natürlich das, was mit dem aktuellen Tool im besten Fall möglich wäre, weit übersteigt, wäre ja eigentlich, dass man zu jeder markierten Textpassage eine Metaebene öffnen kann, in der unter anderem Informationen zum jeweiligen Autor, aber auch der Beleg abgelegt sind. Auch unser Belegsystem ist ja in Wahrheit ganz unzulänglich und trägt der Veränderbarkeit unserer Artikel (jeder kann in eine belegte Aussage beliebige unbelegte Inhalte einfügen) gar nicht Rechnung. --Magiers (Diskussion) 17:26, 20. Okt. 2017 (CEST)Beantworten
DER Aspekt zum unzulänglichen Belegsystem ist ein Volltreffer! --Felistoria (Diskussion) 23:07, 21. Okt. 2017 (CEST)Beantworten

Antwort

Hallo an alle Mitlesenden, zunächst mal danke für die Diskussion. Hier und im Kurier wurden einige Fragen gestellt, die ich gerne gebündelt beantworten möchte. Leider schaffe ich es heute nicht. Ich melde mich hier am Montag wieder mit einer ausführlichen Antwort. -- Allen ein schönes Wochenende, Johanna Strodt (WMDE) (Diskussion) 15:19, 20. Okt. 2017 (CEST)Beantworten

Für mich bleibt zu hoffen, Johanna, dass man Dich mit der Beantwortung dieser komplexen Problemkonstellation nicht allein lässt. Hier sind gewiss mehr WMDE-Zuständige und -Verantwortliche gefordert, für eine brauchbare Lösung zu sorgen. Dir auch ein gutes Wochenende wünschend -- Barnos (Post) 16:27, 20. Okt. 2017 (CEST)Beantworten
Hallo an alle, ich wollte mich heute mit einer ausführlichen Antwort melden. Weil ich noch auf eine Information warte, verzögert sich die Antwort allerdings noch etwas. Heute wird es leider nichts mehr, aber ich melde mich in Kürze wieder. -- Viele Grüße, Johanna Strodt (WMDE) (Diskussion) 15:08, 23. Okt. 2017 (CEST)Beantworten


Hallo an alle. Wie angekündigt melde ich mich nochmal:

Mit der Anzeige von Autoren nach der Metrik „Textanteile“ hat sich das Team in der Vergangenheit bereits ausführlich auseinandergesetzt. Damals gab es schon mal einen sehr ähnlichen Wunsch, der aus technischen und inhaltlichen Gründen abgelehnt werden musste.

Ein Team der Wikimedia Foundation hat nun das Tool Page History neu geschrieben, das bereits viele Funktionen des WikiHistory-Tools enthält – eine super Chance, den für uns sonst schwer erfüllbaren Wunsch von der 2017er Umfrage doch zu erfüllen. Bisher umfasst Page History akkurate Daten, die erste Anhaltspunkte zu den Hauptautoren geben können: Anzahl an Bearbeitungen und Bytes. Die Diskussion hier hat gezeigt, dass die von Page History bereitgestellten Metriken zur Ermittlung der Hauptautoren für einige nicht ausreichen, sondern dass die Metrik „Anteile am aktuellen Artikeltext“ fehlt, auch wenn sie nur eine grobe Orientierung geben kann. Danke für diese Rückmeldung. Der Grund dafür, dass Page History bislang keine Textanteile enthält, ist nicht etwa, dass die WMF schlechte Arbeit geleistet hätte, sondern dass das dortige Entwicklerteam in der internationalen Umfrage 2016 den Auftrag bekommen hatte, die bestehenden Xtools neu zu schreiben. Textanteile waren auch in den ursprünglichen Xtools nicht enthalten.
Der Wunsch, Textanteile auch in Page History darzustellen, wurde an das Team Community Tech, das die Xtools neu geschrieben hat, herangetragen. Ob das möglich ist, wird zzt. geprüft. Sobald wir Näheres dazu wissen, wird dazu auf der Vorderseite dieses Wunsches informiert. Bereits jetzt klar ist, wie vorne beschrieben, dass eine Umsetzung in Form einer Anzeige direkt am Artikel nicht möglich sein wird. Darüber hinaus müsste man sich Gedanken machen, wie man vermittelt, dass die Zahlen nur Näherungswerte sind.

Abschließend möchte ich noch mal auf die Wunschliste selbst eingehen, weil in einigen Beiträgen Fragen dazu mitgeschwungen sind: Die Projekte auf der Liste werden von vielen umgesetzt – vom Team Technische Wünsche bei WMDE, aber auch von Teams der WMF und von ehrenamtlichen Entwicklerinnen und Entwicklern. Wer an was arbeitet, kann man auf Wikipedia:Technische_Wünsche/Topwünsche in der Spalte „Status“ sehen. Das Projekt Technische Wünsche möchte viel erreichen, und das geht nur mit vielen. Ebenfalls auf Wikipedia:Technische_Wünsche/Topwünsche kann man, im Abschnitt „In Arbeit“, erkennen, welche Wünsche sich in Entwicklung befinden und wo es Blocker gibt, die die Entwicklung verzögern. Folgende Wünsche werden aktuell vom Entwicklerteam der WMDE bearbeitet:

  • Änderungen im Text bei Abschnittsverschiebung anzeigen
  • Technisch sauberes Verschieben von Dateien nach Commons unter Beibehaltung der Versionsgeschichte und des Benutzernamens
  • Spezialisierte Suche
  • Dazu kommt die Wartung von bereits umgesetzten Projekten sowie das Beheben von Fehlern beim Zwei-Spalten-Bearbeitungskonflikt, der sich derzeit im Beta-Test befindet.

Darüber hinaus besteht die Arbeit an einem Wunsch nicht nur aus Programmierung, sondern zu großen Teilen auch aus Koordination und Kommunikation. Zzt. werden Vorarbeiten zu weiteren Wünschen gemacht: Hierzu gehören Recherche, Einholen von Feedback, erste Entwürfe für eine mögliche Umsetzung, Koordination mit WMF oder freiwilligen Entwicklerinnen und Entwicklern.

Viele Grüße, Johanna Strodt (WMDE) (Diskussion) 12:23, 25. Okt. 2017 (CEST)Beantworten

Liebe Johanna, diese Antwort lässt leider den entscheidenden Punkt offen: In dieser Form ist das Tool zur Ermittlung von Hauptautoren prinzipiell ungeeignet, und das gilt nicht nur "für einige", sondern ganz generell. Beispiele für geradezu grotesk irreführende Ergebnisse wurden auf dieser Seite mehrfach geliefert. Hauptautoren können mit dem Tool nicht ermittelt werden. Das APPER-Tool kann das mit hinreichender Genauigkeit, das PageHistory-Tool kann es nicht. Auf den "Seiteninformationen" findet sich ein Link zu "Hauptautoren", der zu PageHistory führt. Dieser Link sollte umgehend entfernt werden, weil das Tool zwar einiges kann, aber eben gerade keine Hauptautoren zu bestimmen vermag.--Mautpreller (Diskussion) 14:22, 25. Okt. 2017 (CEST)Beantworten
Hallo Mautpreller, die hier auf der Seite genannten Beispiele haben verdeutlicht, dass die Metriken, die Page History zzt. anbietet, nicht als hilfreich eingeschätzt werden, um Hauptautoren zu ermitteln. Deswegen läuft gerade die Anfrage, ob die Darstellung von Textanteilen in das Tool aufgenommen werden kann. Wenn das ginge, wäre Page History geeignet, um Hauptautoren zu ermitteln, oder nicht? -- Viele Grüße, Johanna Strodt (WMDE) (Diskussion) 15:01, 25. Okt. 2017 (CEST) Beantworten
(nach Bearbeitungskonflikt:) Hallo Johanna, die Antwort fällt leider alles andere als zufriedenstellend aus. Und das gilt auch für den thematisch allein relevanten ersten Absatz, in dem, wenn ich recht sehe, überhaupt kein neuer Stand mitgeteilt wird. Stattdessen entnehme ich, dass an der bereits erteilten Auskunft zu besagtem X-Tool festgehalten wird und Besseres in absehbarer Zeit nicht zu erwarten steht – entgegen allen oben erbrachten deutlichen Hinweisen darauf, dass dieses allgemeine Statistik-Tool die gewünschten Auskünfte nicht erteilt, sondern sie z. T. grob verfälscht. Die Antwort lässt also nicht einmal erkennen, dass der besagte technische Wunsch überhaupt richtig erfasst wurde. Und so bleibt einstweilen nur zu rekapitulieren, was wir nun anscheinend nicht bekommen sollen:
  • einen stabil laufenden Ersatz für das WikiHistory-Tool, das die Textmengen-Anteile der Hauptautoren in der jeweils aktuellen Version größenordnungsmäßig erfasst (und sich als gewichtete Autorenanzeige darauf auch beschränkt);
  • einen Link ‹Autoren› unten auf jeder Wikipedia-Artikelseite (neben dem zur Abrufstatistik), der zu diesem Tool hinführt und die gewichtete Autorenanzeige binnen kurzer Ladezeit anzeigt.
Dass so etwas WMDE-seitig nicht machbar sei, nachdem es ja über lange Zeit durch die Eigeninitiative eines einzelnen Wikipedianers bereits gelaufen war, lässt sich für mich nicht glaubwürdig darstellen. Der Hinweis, dass es sich bei den Angaben nicht um exakte, sondern um Näherungswerte handelt, könnte problemlos in eine knappe Tool-Einführung aufgenommen werden. Das hinderte überhaupt niemanden an der sinnvollen Nutzung des Tools als Kommunikations- und Arbeitshilfe. -- Barnos (Post) 14:27, 25. Okt. 2017 (CEST)Beantworten
Also ich kann die Position von WMF und WMDE durchaus gut verstehen. Die Hauptautoreneigenschaft ist prinzipiell nicht scharf definierbar, und seit mehr als 16 Jahren hat man das nicht ausgewertet. Wieso sollte man sich plötzlich einmischen und mit einem am Ende immer diskutablen Algorithmus Position beziehen? Die haben sich schon viel zu oft die Finger mit inhaltlichen Einmischungen verbrannt, als dass die diesen Fehler nochmal machen müssten.
Wenn Du APPERs Funktion wiederhaben möchtest, wirst Du weiter ein Tool betreiben müssen. Immerhin ist Wikimedia so offen, dass die Community Zugang zu allen notwendigen Zahlen hat – was alles andere als selbstverständlich ist. Die Hauptautoren sind dann zwar nicht “officially approved by the Wikimedia Foundation”, aber das ist vielleicht auch wirklich besser so… —MisterSynergy (Diskussion) 15:42, 25. Okt. 2017 (CEST)Beantworten
eigener Beitrag entfernt. --Magiers (Diskussion) 19:10, 25. Okt. 2017 (CEST)Beantworten
Bedauerlicher Kommentar, aber da steht er nun. Es gibt keinen „Kreuzzug“ von meiner Seite, und die Unmöglichkeit der exakten Hauptautorenbestimmung habe ich auch nicht verschuldet. Mach mich also bitte nicht dafür an, dass ich hier auf die immensen Schwierigkeiten Eurer Wünsche hinweise. —MisterSynergy (Diskussion) 18:03, 25. Okt. 2017 (CEST)Beantworten
Hallo Barnos, noch läuft die Anfrage, ob sich Textanteile in Page History integrieren lassen. Den Diskussionen hier war zu entnehmen, dass das die Metrik ist, die in Page History noch fehlt. Ob sie sich integrieren lässt, wird nun geprüft. Bis das geschehen ist, kann ich noch nichts Neues mitteilen. Sollte das gehen, hätte man einen stabil laufenden Ersatz für das WikiHistory-Tool.
Das in diesem Wunsch beschriebene Problem lautet, dass man als erfahrener Wikipedianer die Hauptautoren eines Artikels ermitteln will, um bei Problemen jemanden gezielt ansprechen zu können. Autorenangaben unter den Artikeln ist ein anderer, wenn auch ähnlicher, Wunsch aus der Umfrage 2017.
Zu deinem Einwand, dass WMDE ja auch ein WikiHistory bauen könnte: Einige Dinge sind mit Tools durchaus einfacher möglich als mit integrierten Lösungen. Beispielsweise gibt es weniger Performanceprobleme. Auch die Akzeptanz einer Funktion spielt eine Rolle: Als Tool ist eine Funktion weniger sichtbar; würde die WikiHistory-Funktionalität in MediaWiki eingebaut, würden es deutlich mehr Nutzende sehen, und von Gesprächen mit Leuten aus anderen Communitys wissen wir, dass einige damit nicht einverstanden wären.
Bei unserer eigenen Entwicklungsarbeit versuchen wir, soweit wie möglich auf das Bauen/Verbessern von Helferlein/Tools zu verzichten, aus mehreren Gründen:
* In die Software integrierte Lösungen sind für mehr Menschen nutzbar und auf lange Sicht viel einfacher zu warten.
* Als Softwareentwicklungsteam möchten wir unsere eigene Arbeit auf das fokussieren, was nur schwer von Ehrenamtlichen gebaut werden kann. Integrierte Lösungen müssen international nutzbar sein, viele Millionen Zugriffe erlauben und dementsprechend viele Review- und Testprozesse durchlaufen. Darum ist das Programmieren solcher Lösungen für ehrenamtliche Entwicklerinnen und Entwickler schwieriger oder zu zeitaufwendig. Für ein angestelltes Team ist das deutlich leichter umzusetzen. Viele Grüße, Johanna Strodt (WMDE) (Diskussion) 15:51, 25. Okt. 2017 (CEST)Beantworten
Über integrierte Lösungen kann ich mangels technischen Know-hows schwerlich mitdiskutieren, Johanna; für mich bleibt lediglich festzuhalten, dass der besagte Wunsch nicht erfüllt wird. Das betrifft aber viele andere auch, die selbst sich zu äußern die Möglichkeit haben. Was dieses unspezifische X-Tool betrifft, sollte Mautprellers richtigem Hinweis zu den Seiteninformationen gefolgt werden. Hätte ich seinerzeit bei der Installierung des Links durchgeblickt, würde ich diese irreführende Doppelverlinkung auch nicht befürwortet haben. -- Barnos (Post) 16:53, 25. Okt. 2017 (CEST)Beantworten
Ja, wenn diese Metrik (gut) implementiert wäre, könnte das Tool zur Ermittlung von Hauptautoren brauchbar sein. So ist es das nicht, es ist zu diesem Zweck unbrauchbar. Deswegen würde ich gern den Link "Hauptautoren" auf den Seiteninformationen löschen, denn so wird etwas versprochen, was nicht eingelöst wird. Im Übrigen hat die Messung der hinzugefügten Bytes einen klar erkennbaren Fehler. Es werden zwar sofort zurückgesetzte Edits ausgeschlossen, nicht aber die Rücksetzung selbst. Das heißt: Wenn ein Vandale den gesamten Seiteninhalt löscht und ein Vandalismusbekämpfer diesen Edit zurücksetzt, wird der gesamte Textumfang dem Vandalismusbekämpfer als Autor zugerechnet. Es ist doch klar, dass das widersinnig ist und den Anforderungen des Wunsches vollkommen zuwiderläuft.--Mautpreller (Diskussion) 18:14, 25. Okt. 2017 (CEST)Beantworten
Der Link bei den „Seiteninformationen“ wird per MediaWiki:Pageinfo-footer definiert. Per Adminanfrage kannst Du das sicherlich optimieren lassen. —MisterSynergy (Diskussion) 18:20, 25. Okt. 2017 (CEST)Beantworten
Das heißt, ein de-Admin könnte die Anzeige des Links "Hauptautoren" in der de-wp abschalten? Das Tool bleibt ja unter "Statistik" zugänglich. Verstehe ich das richtig?--Mautpreller (Diskussion) 18:23, 25. Okt. 2017 (CEST)Beantworten
Ja. —MisterSynergy (Diskussion) 18:55, 25. Okt. 2017 (CEST)Beantworten
Dazu braucht es anscheinend nicht mal Admin-Rechte. Bitte sehr. --Magiers (Diskussion) 18:55, 25. Okt. 2017 (CEST)Beantworten
Doch, braucht es. Ich kann nur den Quelltext lesen, dort steht dann drüber: „Du bist aus dem folgenden Grund nicht berechtigt, die Seite zu bearbeiten: Diese Seite enthält Text für die Benutzeroberfläche der Software und ist geschützt, um Missbrauch vorzubeugen. Du kannst auf der Diskussionsseite oder auf Wikipedia:Administratoren/Anfragen Änderungen vorschlagen.“ Glaube das gilt für den Mediawiki-Namensraum grundsätzlich so. —MisterSynergy (Diskussion) 18:59, 25. Okt. 2017 (CEST)Beantworten
Na, dann habe ich für meinen eingefügten Kommentar wenigstens auch Admin-Rechte missbraucht. Mag das ein weniger verärgerter Kollege wieder ändern. --Magiers (Diskussion) 19:10, 25. Okt. 2017 (CEST)Beantworten
Danke, kann so bleiben.--Mautpreller (Diskussion) 19:49, 25. Okt. 2017 (CEST)Beantworten

@Mister Synergy: Du sagst, die Hauptautorschaft sei "prinzipiell nicht scharf definierbar". Da stimme ich Dir mit einer Einschränkung zu: Sie ist auf jeden Fall nicht auf statistischem Weg akkurat definierbar. APPERs Bemerkungen zu seinem Tool machen das ja auch sehr klar. Die Leistung, einen Text auf das Wichtige "einzudampfen", zum Beispiel wird auch von WikiHistory nicht erfasst, obwohl sie für das Konzept der Autorschaft fraglos von Bedeutung ist. Andererseits ist in den meisten Fällen die Autorschaft überhaupt nicht fraglich. Wo es einen oder wenige Hauptautoren gibt, wird wohl kaum ein Mensch, der die Versionsgeschichte prüft, Probleme mit der Identifizierung haben. Problematisch ist das nur bei "Schwarm"-Artikeln, die eine Art Flickenteppich bilden. Und diese Erkenntnis lässt sich m.E. auch statistisch nachbilden. Ich weiß nicht, woher die Behauptung kommt, die „funktionierenden“ Tools seien oft sehr ungenau (ca 80% Genauigkeit) und selbst die besten akademischen Verfahren lägen noch in einem von 20 Fällen daneben, ich bezweifle es.

Für den Zweck, schnell erkennen zu können, wer der Hauptautor eines Artikels ist, damit man bei Problemen jemanden gezielt ansprechen kann, sind jedenfalls nicht die problematischen "Schwarmartikel" entscheidend, sondern diejenigen, bei denen die Autorschaft im Grunde klar erkennbar wäre, aber nirgends ausgewiesen ist, so dass man sich mühsamst durch die Versionsgeschichte klicken muss. Dies lässt sich m.E., wie WikiHistory zeigt, ohne weiteres technisch umsetzen. PageHistory hingegen bestimmt die Hauptautoren auch dort systematisch falsch.--Mautpreller (Diskussion) 11:14, 26. Okt. 2017 (CEST)Beantworten

Das Entscheidende sind ja auch nicht die Prozentzahlen. Das Entscheidende ist: Ist das ein Artikel, der substanziell im Wesentlichen auf einen oder wenige Hauptautoren zurückgeht? Wenn ja, wer sind diese Autoren? Oder ist das ein Artikel, bei dem Hauptautorschaft letztlich nicht klar erkennbar ist? Die Antworten auf diese Fragen sind für den Zweck wesentlich, dass man "jemanden bei Problemen gezielt ansprechen kann". Sie sind auch für einen anderen Zweck wesentlich, der in der Diskussion genannt wurde: Ausweisung der Autorschaft als Credit (hier erfassen sie den Aspekt der Entwicklung des Artikelinhalts, nicht die Putz- und Formatierungsarbeiten, nicht die Koordination und Diskussion und Reviewtätigkeit, also "nur" eine wichtige, m.E. entscheidende Teilleistung). Und schließlich sind sie auch für einen dritten Zweck wesentlich: wenn ein Leser wissen will, ob ein Artikel auf dem Mist einer einzelnen Person oder einer kleinen Gruppe gewachsen ist oder als Flickenteppich auf einen "Schwarm" von Autoren zurückgeht. --Mautpreller (Diskussion) 11:37, 26. Okt. 2017 (CEST)Beantworten
(nach BK) Ich will einmal etwas weiter ausholen: mein Hauptproblem mit dieser quantitativen Art der Hauptautorenermittlung ist, dass sie sich allein auf die aktuell sichtbaren Buchstaben eines Artikels bezieht (so jedenfalls der Wunsch, und APPERs Tool leistet das weitgehend), aber alle anderen hilfreichen Beiträge zum Erreichen des aktuellen Artikelzustandes ignoriert. Ein Text besteht einfach aus mehr als der simplen aktuellen Aneinanderreihung von Buchstaben oder Wörtern, das gilt für kollaborativ erstellte Texte mit Versionsgeschichten umso mehr. Du deutest ein paar Probleme mit der Analyse von APPERs Tool schon an, ich möchte die Liste ignorierter oder problematischer (im Sinne der Auswertung) Aktionen einmal erweitern:
  • Schwarmartikel
  • Jede Art von Kürzungen
  • Umstrukturierungen von Halbsätzen, Sätzen und Absätzen (was überhaupt nicht einfach nachzuverfolgen ist, keine Ahnung ob APPERs Tool das überhaupt kann)
  • Auftreiben von Quellen, die dann jemand anderes auswertet
  • Änderungen, die viel Wikisyntax beinhalten
  • Auf einer Diskussionsseite kollaborativ erarbeitete Änderungen, die von einem Autoren dann umgesetzt werden
  • Mglw. in Zukunft auch: von anderen Projekten eingebundene Informationen
  • Sicher noch mehr…
Einen Hauptautoren zeichenweise auszuwerten geht meines Erachtens nur dann, wenn es nur einen einzigen Autoren gibt. Eine jede Änderung eines weiteren Benutzers am existierenden Text basiert letztlich auf dem vorhandenen Textmaterial (und selten auch auf der Versionsgeschichte eines Artikels), so dass zumindest im nähreren Umfeld der getätigten Änderung des weiteren Benutzers die Hauptautorenschaft nicht mehr bitweise quantitativ runtergebrochen werden kann. Bei Schwarmartikeln ist das ganz deutlich, ich finde aber dass das für jede Schwarmgröße gilt (i.e. auch für einen „Schwarm“ von zwei Benutzern, von denen einer einen Text schreibt und der zweite eine kleine Korrektur vornimmt). Damit meine ich nicht, dass es keinen „Hauptautor“ mehr gibt, sobald es mehr als einen beteiligten Benutzer gibt – die rein quantitative bitweise Analyse des aktuellen Textes gibt dann aber eine Präzision vor, die praktisch nicht existiert und von vielen arg vereinfachenden Annahmen ausgeht. Ich mag solche Vereinfachungen nicht.
Daher ziehe ich es tatsächlich vor, entweder die Versionsgeschichte, oder den Versionsblätterer, oder einfache Auswertungen wie die PageHistory zur Ermittlung eines relevanten Ansprechpartners zu benutzen. Selbst bei umfangreicheren Versionsgeschichten ist der Aufwand dann überschaubar, denn diese Tools oder Funktionen bieten bereits eine Menge Informationen über die beteiligten Benutzer und ich muss mich nicht auf eine automatisierte algorithmische Auswertung verlassen, deren Quellcode ich nie gesehen oder verstanden habe. —MisterSynergy (Diskussion) 12:00, 26. Okt. 2017 (CEST)Beantworten
Mr Synergy, das ist ja alles schön und gut. Autorschaft ist aber meines Erachtens immer das aktuelle Schaffen, also Schreiben des Werks. Das ist eine Teilfunktion, meines Erachtens eine entscheidende, nicht das Gesamt der Arbeit an dem Artikel. Ideen, Quellensuche, Kollaboration usw. usf. sind andere Funktionen, die damit gerade nicht zusammenfallen (obwohl sie es können), sie können grundsätzlich nicht für diese Teilfunktion berücksichtigt werden. Man kann m.E. sehr klar sagen: eine Bestimmung des Hauptautors erfasst genau das, wer den Artikel in seiner aktuellen Form geschrieben hat, und nichts anderes. Das aber ist nur möglich durch die Bestimmung der Textanteile an der aktuellen Version.--Mautpreller (Diskussion) 12:27, 26. Okt. 2017 (CEST)Beantworten
Die Alternative zu einer statistischen Auswertung ist übrigens meines Erachtens eine Artikelnotiz, die schlicht von den beteiligten Benutzern verfasst wird. Also eine Notiz, die sagt: Dieser Artikel wurde im Wesentlichen geschrieben von XXX. In den meisten Fällen, in denen eine solche Notiz gewünscht wird, wird die Hauptautorschaft überhaupt nicht strittig sein.--Mautpreller (Diskussion) 12:33, 26. Okt. 2017 (CEST)Beantworten
Ein Drittes noch: Ich kann gut verstehen, dass Du eine Darstellung in unangemessener Präzision kritisierst und Dich nicht auf einen Dir unbekannten und nicht einsehbaren Algorithmus verlassen willst. Eine vorgespiegelte Präzision ist überhaupt nicht nötig, die wichtigsten Aussagen, die ein solches Tool treffen sollte, sind nicht auf Präzision angewiesen. Es würde genügen, wenn eindeutige Fälle bedient werden (was die sehr große Mehrheit der Fälle betreffen dürfte). Nicht zustimmen kann ich Dir darin, dass die Auswertungen von PageHistory in diesem Punkt hilfreich sind. Sie sind in diesem Punkt (nur in diesem) im Gegenteil grob verfälschend. Unter anderem deshalb, weil sie eine unangemessene Präzision vorspiegeln.--Mautpreller (Diskussion) 12:49, 26. Okt. 2017 (CEST)Beantworten

Noch ein Beispiel

Egmont (Goethe) ist ein klassisches Beispiel für zwei Hauptautoren mit deutlich unterschiedlichen Gewichten. Die Basisstruktur und bei weitem der größte Anteil stammt von Notorox, ich habe einen begrenzten Teil geändert und erweitert. WikiHistory zeigt zunächst die Anteile am Text mit ausreichender Zuverlässigkeit. Man kann auch zeigen, was in etwa von wem ist. PageHistory hingegen bietet ein falsches Bild. Chrissie ist keine Hauptautorin, sie hat lediglich eine große Streichung von Notorox' Text nach einigem Hin und Her revertiert. Sie würde mit Sicherheit nicht mal beanspruchen, Autorin eines großen Textteils zu sein, sondern vielmehr nur, eine ihrer Ansicht nach unmotivierte Streichung rückgängig gemacht zu haben. Wollte man sich darüber einigen, wer den Text geschrieben hat, wäre das überhaupt nicht schwierig.--Mautpreller (Diskussion) 14:07, 29. Okt. 2017 (CET)Beantworten

Die Geschäfte des Herrn Julius Caesar wiederum ist ein klassisches Beispiel eines Hauptautors ("Hobsbawm"). Auch dies zeigt WikiHistory zuverlässig genug, PageHistory verdunkelt die korrekten Zusammenhänge ganz erheblich.

Die Funktion müsste bei "Cäsar" mindestens leisten, eine sehr klare Hauptautorenschaft von Hobsbawm zu zeigen, ohne ins Gewicht fallende Beiträge anderer; bei "Egmont" eine primäre Hauptautorschaft von Notrox und eine sekundäre von mir, mit geringen Beiträgen anderer. Prozentzahlen wären nicht erforderlich. Maximal könnte sie leisten, bei "Egmont" zusätzlich zu zeigen, für welchen Teil wer Haupautor ist. PageHistory bedient nicht mal das minimale Ziel.--Mautpreller (Diskussion) 14:16, 29. Okt. 2017 (CET)Beantworten

APPER’s WikiHistory geht nicht mehr …

… wirklich nicht? Ich habe das Skript heute noch einmal aktiviert, und es zeigt mir in bekannter Weise die Beitragsanteile der wichtigsten Autoren an. Die Toolforge-Seite scheint auch ohne Probleme zu laufen, nur das WikiHistory-Windowsprogramm möchte ich gerade nicht ausprobieren. Einziges Manko: die Daten sind nicht ganz frisch, es fehlen augenscheinlich Versionen ungefähr des letzten halben Jahres. Da könnte man sicher versuchen nachzuschauen, wo es klemmt.

Übersehe ich etwas, das wirklich nicht mehr geht? Oder ist die allgemeine Auffassung, das Tool sei kaputt, mit dem systematischen Fehlen der jüngsten Versionen verbunden? (Mir ist klar, dass eine größere Lösung gewünscht ist – aber darum solls hier nicht gehen.) —MisterSynergy (Diskussion) 17:32, 20. Okt. 2017 (CEST)Beantworten

Es ist der Stand von vor ein paar Monaten. Alle Änderungen die danach gekommen sind, werden nicht angezeigt. Selbiges gilt für Artikel nach diesem Datum. Viele Grüße --Itti 17:33, 20. Okt. 2017 (CEST)Beantworten
Siehe hier (und dort verlinkte Seiten). Das Tool ist schon seit gut einem Jahr down... --Gretarsson (Diskussion) 18:32, 20. Okt. 2017 (CEST)Beantworten
Zwischenzeitlich muss es aktiv gewesen sein. Für Mautprellers Requiem (Mozart) wird beispielsweise eine Version vom 7. März 2017 ausgewertet. —MisterSynergy (Diskussion) 18:42, 20. Okt. 2017 (CEST)Beantworten
Woran kann ich das sehen? --Gretarsson (Diskussion) 18:56, 20. Okt. 2017 (CEST)Beantworten
Das WikiHistory-Javascript läd unter der Titelzeile im ANR eine Liste mit den wichtigsten Autoren. Wenns nicht die neueste Version ist, dann steht da am Ende „(Daten für eine ältere Version)“ mit mouseover-Popup „Version 163347429 vom 7. März 2017 (8 neuere Versionen)“ (bei Requiem (Mozart)). —MisterSynergy (Diskussion) 20:07, 20. Okt. 2017 (CEST)Beantworten
Danke, Das Mouseover-Popup war mir tatsächlich nie aufgefallen... --Gretarsson (Diskussion) 20:16, 20. Okt. 2017 (CEST)Beantworten

Es geht wieder und wer auch immer das Tool repariert hat: DANKE ein lächelnder Smiley  --Itti 11:51, 31. Okt. 2017 (CET)Beantworten

*aufzeig* und ein ganz lieber User hat mich unterstützt. --Wurgl (Diskussion) 13:12, 31. Okt. 2017 (CET)Beantworten

Klasse, dass Du das Tool wieder repariert hast, Wurgl! Und jetzt? Sind wir damit zufrieden, wenn das Tool wieder sein Versteck bei den Seiteniformationen sowie bei interessierten Benutzern im Javascript findet? Oder sollte/müsste es nicht eigentlich an einer prominenteren Stelle präsentiert werden? Gruß --Magiers (Diskussion) 12:59, 1. Nov. 2017 (CET)Beantworten

wikicolor

Hier im aktuellen enwiki-Signpost wird ein Tool namens „wikicolor“ inklusive einigen Hintergrundinformationen und Paperverweisen vorgestellt, welches anscheinend ähnliche Funktionalität aufweist wie WikiHistory. Ich habe es nicht getestet und plane das auch nicht zu tun, aber es mag für den einen oder anderen hier eine interessante Beobachtung sein. —MisterSynergy (Diskussion) 16:19, 24. Nov. 2017 (CET)Beantworten

Wegen "Blame Tools"

Recht weit am Ende, bei Verwandte_Anliegen wird ein Tool vorgestellt, welches Textstellen einem Autor zuordnen kann. Das downloadbare Executable von WikiHistory kann sowas ebenfalls. Allerdings habe ich mich mit dem Teil der Analyse noch überhaupt nicht beschäftigt, es kann daher noch etwas langsam sein und es kann sogar sein, dass es gar nicht mehr(?) funktioniert. Freiwillige vor!

Kurz noch zu Wikihistory in der Version als Javascript mit dem Serverprozess im Hintergrund: Die Geschwindigkeit ist so ziemlich an der Grenze des Machbaren, ich hab da einiges an Hirnschmalz zur Beschleunigung eingebaut. Der Analyseteil ist ziemlich genau so schnell, wie das Abholen der Daten und läuft parallel zu diesem. Selbst wenn ich beim Analysieren noch Zeit rausholen kann ist der Effekt ziemlich genau Null, weil das Teil dann entsprechend länger auf das WP-API wartet bzw. wegen maxlag warten muss.

WikiHistory ist momentan für Deutsch, Englisch und die kleinen nds (Plattdeutsch) und als (Alemannisch) eingerichtet, auf weitere Sprachen ist es innerhalb kurzer Zeit erweiterbar soferne die Oberfläche in Englisch oder Deutsch verstanden wird. (Bei bestimmten asiatischen Schriften könnte es aber problematisch werden.) Anpassungen der Sprache (und teilweise der Ausgabeformate wie Dezimalpunkt/-komma; Uhrzeit/Datum etc.) sind auch kein großer Aufwand, aber da brauch ich jemanden der der entsprechenden Sprache mächtig ist (auch hier: von rechts nach links geschriebene Schriften könnten auch deutlichen Mehraufwand bedeuten). Aber sowas wie Spanisch/Französisch/etc. ist schnell eingerichtet. --Wurgl (Diskussion) 12:54, 22. Jan. 2018 (CET)Beantworten