„Webalizer“ – Versionsunterschied

[ungesichtete Version][gesichtete Version]
Inhalt gelöscht Inhalt hinzugefügt
Keine Bearbeitungszusammenfassung
P. Birken (Diskussion | Beiträge)
Englischen Text raus
Zeile 23: Zeile 23:
; Hit
; Hit
* Jeder [[Hypertext Transfer Protocol|HTTP]]-Zugriff durch den Webbrowser des Nutzers wird als ein Hit bzw. Zugriff gezählt. Dabei können HTTP-Zugriffe auch für nicht vorhandene Inhalte anfallen, die aber trotzdem als Zugriff mitgezählt werden. Wenn beispielsweise eines von fünf durch den Webbrowser des Nutzers angeforderten Bildern fehlt, zählt der Webserver trotzdem sechs Zugriffe (Hits), von denen fünf als erfolgreich (die [[Hypertext Markup Language|HTML]]-Datei und vier Bilder) und einer als fehlgeschlagener Zugriff (der für das fehlende Bild) aufgezeichnet werden.
* Jeder [[Hypertext Transfer Protocol|HTTP]]-Zugriff durch den Webbrowser des Nutzers wird als ein Hit bzw. Zugriff gezählt. Dabei können HTTP-Zugriffe auch für nicht vorhandene Inhalte anfallen, die aber trotzdem als Zugriff mitgezählt werden. Wenn beispielsweise eines von fünf durch den Webbrowser des Nutzers angeforderten Bildern fehlt, zählt der Webserver trotzdem sechs Zugriffe (Hits), von denen fünf als erfolgreich (die [[Hypertext Markup Language|HTML]]-Datei und vier Bilder) und einer als fehlgeschlagener Zugriff (der für das fehlende Bild) aufgezeichnet werden.
<!--
<dl>
<dt>URL</dt>
<dd><p>A Uniform Resource Locator ([[Uniform Resource Locator|URL]]) uniquely identifies the resource requested by the user's browser.</p></dd>

<dt>Hit</dt>
<dd><p>Each [[HTTP]] request submitted by the browser is counted as one hit. Note that HTTP requests may be submitted for non-existent content, in which case they still will be counted. For example, if one of the five image files referred by the example page mentioned above is missing, the web server will still count six HTTP requests, but in this case, five will be marked as successful (one [[HTML]] file and four images) and one as a failed request (the missing image)</p></dd>

<dt>Page</dt>
<dd><p>A page is a successful HTTP request for a resource that constitutes primary website's content. Pages are usually identified by a file extension (e.g. .html, .php, .asp, etc) or by a missing extension, in which case the subject of the HTTP request is considered a directory and the default page for this directory is served.</p></dd>

<dt>File</dt>
<dd><p>Each successful HTTP request is counted as a file.</p></dd>

<dt>Visitor</dt>
<dd><p>A visitor is the actual person browsing the website. A typical website serves content to anonymous visitors and cannot associate visitors with the actual person browsing the website. Visitor identification may be based on their [[Internet Protocol|IP]] address or an [[HTTP cookie]]. The former approach is simple to implement, but results in all visitors browsing the same website from behind a firewall counted as a single visitor. The latter approach requires special configuration of the web server (i.e. to log HTTP cookies) and is more expensive to implement. Note that neither of the approaches identifies the actual person browsing the website and neither provides 100% accuracy in determining that the same visitor has visited the website again.</p></dd>

<dt>Visit</dt>
<dd><p>A visit is a series of HTTP requests submitted by a visitor with the maximum time between requests not exceeding a certain amount configured by the webmaster, which is typically set at 30 minutes. For example, if a visitor requested page A, then in 10 minutes page B and then in 40 minutes page C, then this visitor has generated two visits, one when pages A and B were requested and another when the page C was requested.

<dt>Host</dt>
<dd><p>In general, a host is the visitor's machine running the browser. Hosts are often identified by IP addresses or domain names. Those web traffic analysis tools that use IP addresses to identify visitors use the words hosts, domain names and IP addresses interchangeably.</p></dd>

<dt>User Agent</dt>
<dd><p>User agent is a synonym for a web browser.</p></dd>
</dl>

In order to illustrate the difference between hits, pages and files, let's consider a user requesting an HTML file referring to five images, one of which is missing. In this case the web server will log six hits (i.e. one successful for the HTML file itself and four for successfully retrieved images and one for the missing image), five files (i.e. five successful HTML requests) and one page (i.e. the HTML file).

== Log File Types ==

The Webalizer analyzes web server log files, extracting such items as client's IP addresses, URL paths, processing times, user agents, referrers, etc and grouping them in order to produce HTML reports.

Web servers log HTTP traffic using different file formats. Most popular file formats are [[Common Log Format|CLF]], the [http://httpd.apache.org/docs/2.2/mod/mod_log_config.html#formats Apache Custom Log Format] and [http://www.w3.org/TR/WD-logfile.html W3C Extended Log File Format]. CLF is the less informative log format and should be used only when there are no other options. An example of a CLF log line is shown below.

<pre>192.168.1.20 - - [26/Dec/2006:03:09:16 -0500] "GET HTTP/ 1.1" 200 1774</pre>

Apache Custom Log Format can be customized to log most HTTP parameters, including request processing time and the size of the request itself. The format of a custom log is controlled by the format line. A typical Apache log format configuration is shown below.

<pre>LogFormat "%a %l \"%u\" %t %m \"%U\" \"%q\" %p %>s %b %D \"%{Referer}i\" \"%{User-Agent}i\"" my_custom_log
CustomLog logs/access_log my_custom_log</pre>

Microsoft's Internet Information Services (IIS) web server logs HTTP traffic in W3C Extended Log File Format. Similarly to Apache Custom Log format, IIS logs may be configured to capture such extended parameters as request processing time. W3C extended logs may be recognized by the presence of one or more format lines, such as the one shown below.

<pre>#Fields: date time s-ip cs-method cs-uri-stem cs-uri-query s-port cs-username c-ip cs(User-Agent) cs(Referer) sc-status sc-bytes cs-bytes time-taken</pre>

The original version of The Webalizer can process CLF log files, as well as [[HTTP proxy]] log files produced by [[Squid cache|Squid]] servers. Other log file formats are usually converted to CLF in order to be analyzed. Some of the forks listed in the External Links section below are capable of processing IIS and Apache log files without having to convert them to CLF first.

== Command Line ==

The Webalizer is a command line application and is launched from the [[Operating System|OS]] shell prompt. A typical command is shown below.

<pre>webalizer -p -F clf -n en.wikipedia.org -o reports logfiles/access_log</pre>

This command instructs The Webalizer to analyze the log file access_log, run in the incremental mode (-p), interpret the log as a CLF log file (-F), use the domain name en.wikipedia.org for report links (-n) and produce the output subdirectory of the current directory.

Use the -h option to see the complete list of command line options.

== Configuration ==

Besides the command line options, The Webalizer may be configured through parameters of a configuration file. By default, The Webalizer reads the file webalizer.conf and interprets each line as a processing instruction. Alternatively, a user-specified file may be provided using the -c option.

For example, if the webmaster would like to ignore all requests made from a particular group of hosts, he or she can use the IgnoreSite parameter to discard all log records with the IP address matching the specified pattern:

<pre>IgnoreSite 192.168.0.*</pre>

There are over one hundred available configuration parameters, which make The Webalizer a highly-configurable web traffic analysis application. For a complete list of configuration parameters please refer to the README file shipped with every source or binary distribution.
-->


== Auswertungen ==
== Auswertungen ==

Version vom 19. August 2008, 22:02 Uhr

Webalizer
Basisdaten

Entwickler Bradford L. Barrett
Erscheinungsjahr 1997
Aktuelle Version 2.20-01
(12. Juli 2008)
Betriebssystem Windows, Linux, Solaris, Irix, OS/2, FreeBSD, Mac OS X, BeOS, OpenVMS u. a.
Programmier­sprache C
Kategorie Statistik-Software
Lizenz GPL
deutschsprachig ja
webalizer.org
Datei:Webalizer daily usage 20061014 for movingtofreedom dot org.png
Beispiel einer Webalizer Grafik

Beim Webalizer handelt es sich um eine GPL-Applikation, die mittels Auswertung von Zugriffs- und Auslastungs-Protokolldateien Website-Analysen erstellt (Protokolldateianalyse). Der Webalizer ist auch heute noch ein beliebtes Webserver-Administrations-Tool. Angeregt wurde das Projekt im Jahre 1997 durch Bradford L. Barrett. Die vom Webalizer generierten Statistiken enthalten üblicherweise folgende Informationen: Anfragen, Besuche, Verweise, Länder der Besucher und Menge der ausgelieferten Daten. Diese Statistiken können sowohl grafisch als auch textuell betrachtet werden und sind auf unterschiedlichen Zeitskalen (Stunden, Tage, Monate, Jahre) dargestellt.

Übersicht

Die Protokolldateianalyse einer Webseite wird durch Gruppierung und Zusammenfassung verschiedener, vom Webserver während des Benutzerzugriffs in Protokolldateien aufgezeichneter Daten erzeugt. Dabei werden meistens die folgenden Parameter verwendet und ausgewertet:

URL
Hit
  • Jeder HTTP-Zugriff durch den Webbrowser des Nutzers wird als ein Hit bzw. Zugriff gezählt. Dabei können HTTP-Zugriffe auch für nicht vorhandene Inhalte anfallen, die aber trotzdem als Zugriff mitgezählt werden. Wenn beispielsweise eines von fünf durch den Webbrowser des Nutzers angeforderten Bildern fehlt, zählt der Webserver trotzdem sechs Zugriffe (Hits), von denen fünf als erfolgreich (die HTML-Datei und vier Bilder) und einer als fehlgeschlagener Zugriff (der für das fehlende Bild) aufgezeichnet werden.

Auswertungen

Webalizer produziert standardmäßig zwei verschiedene Auswertungen, einen Jahresüberblick und eine detaillierte Monatsauswertung für jeden ausgewerteten Monat.

Der Jahresüberblick enthält Informationen über die Anzahl von Seitenzugriffen (hits), Datei- und Seitenabrufe (file and page requests), zugreifende Rechner (hosts) sowie die Anzahl ihrer Zugriffe (visits), sowie den täglichen Durchschnitt dieser Werte für jeden Monat. Zu der Auswertung gehört auch eine graphische Jahreszusammenfassung.

Jede der Monatsauswertungen wird als einzelne HTML-Seite aufgebaut, die zum einen eine monatliche Übersicht der genannten Werte (Gesamtanzahl der Hits, File/Page Requests, Visits, Hosts, etc.), zum anderen eine tägliche Zusammenfassung dieser Werte für jeden Tag des Monats, eine stundenweise Zusammenfassung für jede Stunde jedes Tages, eine Übersicht nach den abgerufenen Seiten mit ihrer URL, eine nach ihrer IP-Adresse gegliederte Übersicht der zugreifenden Rechner, eine Übersicht über Anfangs- und Ausstiegs-URL, aus der die am meisten verwendeten Einstiegs- und End-URL's des Servers ersichtlich sind, eine Referrer-Übersicht, aus der die URL's der Seiten zu ersehen sind, von denen aus der der Zugriff bzw. die Weiterleitung erfolgt ist, eine Übersicht über die verwendeten Suchbegriffe, eine Übersicht über die für den Zugriff verwendeten Webbrowser sowie eine Übersicht über die Länder, aus denen der Zugriff auf die Webseiten erfolgt ist. Jede der vorstehend beschriebenen Standard-HTML-Auswertungen benennt die zwanzig häufigsten Einträge für jeden auszuwertenden Parameter, beispielsweise die zwanzig am häufigsten aufgerufenen Seiten (URLs). Die Zahl der tatsächlich aufgeführten Zeilen in jeder dieser Auswertungen lässt sich über die Konfiguration beeinflussen. Webalizer lässt sich auch so konfigurieren, das er separate Auswertungen für jeden Parameter erzeugt, die beispielsweise jeden einzelnen Nutzer der Website oder alle angeforderten URL-Adressen aufführen.

Zusätzlich zu den in HTML generierten Berichten kann der Webalizer auch so konfiguriert werden, dass er durch Kommata begrenzte Dateien (CSV) erzeugt, die alle in einem Bericht verwendeten Daten in reiner Textform enthalten. Diese Dateien kann man in Tabellenkalkulationsprogramme oder Datenbanken einlesen und dort weiter auswerten.

Sprachunterstützung

Statistische Auswertungen in HTML können in mehr als 30 Sprachen erzeugt werden, dazu gehören: Vereinfachtes Chinesisch, Dänisch, Deutsch, Englisch, Estnisch, Finnisch, Französisch, Galizisch, Griechisch, Indonesisch, Isländisch, Italienisch, Japanisch, Katalanisch, Koreanisch, Kroatisch, Litauisch, Malaiisch, Niederländisch, Norwegisch, Polnisch, Portugiesisch (auch für Brasilien), Rumänisch, Russisch, Schwedisch, Serbisch, Slowakisch, Slowenisch, Spanisch, Tschechisch, Türkisch, Ukrainisch, Ungarisch.

Um Berichte in einer anderen Sprache zu erzeugen, muss ein spezielles Webalizer Binary für diese Sprache kompiliert werden.

Kritikpunkte

  • Die Entwicklung des Webalizers wurde 2002 eingestellt, es gibt allerdings verschiedene weiterentwickelte Versionen der Software von anderen Herstellern.
  • Die erzeugten Statistiken unterscheiden nicht zwischen menschlichen Nutzern einer Website und automatisierten Zugriffen beispielsweise durch Suchmaschinenroboter. Die daraus resultierenden Berichte weisen dann natürlich zu hohe Zugriffszahlen aus, verglichen mit den nur durch menschliche Nutzer erzeugten Zugriffen.
  • Die ausgewiesenen Zugriffszahlen werden auch durch Downloadmanager verfälscht, die die Downloads von der Website in Teilen vornehmen. Jeder Zugriff mit dem Status 206 „Partial Content“ wird als separater Zugriff gezählt.
  • Es gibt keine Auswertung für Abfragebegriffe, dynamisch erzeugte Webseiten, z. B. PHP-Seiten mit Argumenten, können nicht separat ausgewiesen werden.

Alternativen