Ungültiger HTML Code: Sollte uns das interessieren?
Um Webseiten zu optimieren soll man unter anderem darauf achten, validen HTML Code zu schreiben. Das macht es häufig einfacher, Seiten für alle Browser gleich aussehen zu lassen, und Browser zeigen fehlerfreie Seiten auch eine Millisekunde schneller an wenn keine Fehlerkorrekturen und Workarounds im Browser angewendet werden müssen. Ich weiß nicht ob es noch mehr Vorteile gibt die man so hört wenn es um fehlerfreien HTML Code geht. Um mal zu schauen wie viele Fehler große Webseiten im Schnitt haben habe ich ein kleines Script geschrieben dass die TOP 10.000 Webseiten mit dem W3C Validator untersucht.
Auf der Alexa-TopSites-Seite gibt es eine csv-Datei mit den Top 1.000.000 Webseites. Die Ergebnisse:
Durchschnittlich haben die Top 10.000 Seiten 136 Errors und 63 Warnings, was ich ziemlich hoch finde, ich hätte vielleicht mit 10-20 gerechnet im Schnitt. Um herauszufinden ob die Anzahl der Fehler mit der Bekanntheit abnimmt hier noch einige Zwischenwerte:
Ränge | Errors | Warnings |
---|---|---|
1-100 | 187 | 61 |
101-500 | 121 | 53 |
501-1000 | 119 | 62 |
1001-5000 | 141 | 67 |
5001-10000 | 133 | 61 |
TLD | Anzahl | Errors | Warnings |
---|---|---|---|
com | 5267 | 144.5667 | 68.4139 |
net | 403 | 136.4764 | 38.5856 |
ru | 295 | 148.2203 | 53.5288 |
de | 256 | 107.8477 | 59.1992 |
org | 244 | 66.1680 | 31.1516 |
jp | 184 | 94.0978 | 33.2337 |
cn | 180 | 252.7833 | 105.2111 |
fr | 120 | 132.3500 | 121.5083 |
it | 98 | 161.2653 | 81.4388 |
uk | 95 | 95.5368 | 74.4737 |
pl | 88 | 56.1477 | 21.7045 |
br | 87 | 93.0575 | 81.7586 |
in | 54 | 76.8333 | 19.8704 |
es | 54 | 93.1111 | 28.1852 |
edu | 51 | 17.5098 | 11.4706 |
nl | 41 | 110.6098 | 85.0732 |
tv | 41 | 150.9268 | 48.7073 |
au | 39 | 106.9231 | 54.4359 |
gov | 39 | 33.9487 | 18.9487 |
ir | 35 | 113.6000 | 42.3429 |
ca | 34 | 180.3529 | 107.6765 |
cz | 33 | 19.7576 | 9.0303 |
mx | 29 | 106.6897 | 60.1034 |
info | 28 | 119.7857 | 76.9286 |
gr | 22 | 188.7727 | 32.0909 |
tr | 22 | 198.2273 | 110.1364 |
ro | 21 | 110.0000 | 64.9048 |
se | 21 | 49.8571 | 26.1905 |
no | 20 | 106.0000 | 31.5000 |
vn | 20 | 134.2500 | 93.8500 |
be | 20 | 93.4000 | 36.3000 |
tw | 19 | 216.4737 | 87.6842 |
ua | 18 | 86.5000 | 28.0000 |
hu | 18 | 44.3333 | 35.6111 |
eu | 17 | 42.4706 | 9.8824 |
ch | 17 | 78.5294 | 42.4118 |
at | 16 | 39.1875 | 13.1250 |
kr | 16 | 389.4375 | 165.3750 |
cc | 16 | 71.3125 | 15.7500 |
pt | 15 | 172.7333 | 49.0667 |
za | 15 | 82.4000 | 28.6667 |
il | 14 | 535.0714 | 429.1429 |
me | 14 | 98.5714 | 11.5714 |
id | 13 | 235.3077 | 32.6154 |
to | 12 | 203.5000 | 12.4167 |
us | 12 | 29.3333 | 8.1667 |
my | 12 | 294.5000 | 151.5833 |
sk | 12 | 111.6667 | 72.1667 |
cl | 11 | 96.1818 | 34.7273 |
ar | 11 | 111.3636 | 41.3636 |
Die meisten Fehler insgesamt unter den Top 10.000 hat airliners.net mit satten 11.010 Errors, gefolgt von bubblebox.com, yingjiesheng.com und askmefast.com mit jeweils über 5000 Errors. Komplett fehlerfrei ist beispielsweise die Seite von mozilla.org. Insgesamt sind nur 383 Seiten ohre Errors, das sind 3,8%.
Nicht immer sollte man auf eine 100% fehlerfreie Seite pochen, Google hat auf seiner wichtigsten Seite, der Suchmaske, auch Fehler, Google begründet das in einem Video mit der Datenmenge die man durch diese Fehler sparen kann. Anstatt brav um jedes Attribut Anführungszeichen zu setzen werden diese einfach weggelassen, um auch noch die letzten 500 Byte zu sparen.
<body id=gsr bgcolor=#ffffff text=#222222
Google ist es also wichtiger die Datenmenge zu reduzieren als fehlerfreien HTML-Code zu schreiben. Natürlich hat Google aber nur so weit „optimiert“ dass die Seite trotzdem noch in allen (mobilen) Browsern funktioniert. Aber generell empfiehlt Google fehlerfreie Webseiten zu erstellen.
Sind eure Webseiten fehlerfrei, achtet ihr auf Fehlerfreiheit soweit es geht, oder ist euch das nicht wichtig?
Tolle Untersuchung! Danke.
Damit lässt sich sicher argumentieren, wenn mal wieder von Fehlerfreiheit gesprochen wird, ohne auf die Sinnhaftigkeit im konkreten Fall einzugehen.
Christian
17 Okt 11 at 10:47
Sehr interessante Auswertung. Danke dafür!
IcyT
17 Okt 11 at 10:49
Meine Erfahrung bisher ist, dass wenn hinter einer Website ein CMS steht, das dem Benutzer die Möglichkeit gibt, in einem WYSIWYG-Editor wie CKEditor oder TinyMCE Text einzugeben, dann wird über kurz oder lang ungültiges HTML auf der Seite stehen. Sei es über die Zwischenablage aus Word eingefügt *schauder* oder durch merkwürdige andere Verrenkungen.
Deshalb benutze ich auch kein XHTML strict mehr 😉
Gabriel
17 Okt 11 at 10:51
Eine Webseite muss Fehlerfrei sein. Schon allein aus dem Grund, da wir die Fachleute sind und es unser Anspruch sein sollte Fachgerechte und Fehlerfreie Seiten zu erzeugen. Es gibt genug HTML Pfuscher die einfach mal schnell schnell privat oder für ihren Verein übers Wochenende was zusammen basteln.
Wenn man schon gut verdient, dann sollte das Produkt auch einwandfrei sein!
Außerdem ist eine Fehlerfreie Seite schon mal ein erster Anhaltspunkt um gute von Schlechten Firmen zu unterscheiden.
T-Rex
17 Okt 11 at 11:07
Ich bin da geteilter Meinung.
Ist doch toll wenn die Browser so klug sind und das korrigieren können? Im Ende ist doch der Sinn von Technik das sie das leben von Menschen bequemer macht? Wenn das Amt von einem auf jede kleine Formalität besteht, obwohl es aus dem Umständen („Context“) entsprechend völlig unnötit ist, rege ich mich ja auch berechtigter Weise auf?
Also, warum nicht denn „/“ im BR-Tag oder das schließende LI-Tag weg lassen wenn die Technik es doch wunderbar regelt? Also gerade im kleinen sehe ich das eher differenziert.
Gut, geht es mir um Performance ist es noch mal eine neue Diskussion. Aber da sieht man auch an dem genannten Beispiel von Google das es so auch nicht so einfach oder eindeutig zu beantworten ist.
Florian Heinze
17 Okt 11 at 11:31
Also wenn ich eine Seite erstelle, komme ich je nach Umfang meistens auf 0 bis 3 Fehler und die korrigiere ich dann von Hand. Wenn man nicht gerade google ist, sollte man auch drauf achten, wegen Performance, Seo und wegen der Tussis. 🙂
Oliver
17 Okt 11 at 13:49
Wofür brauchen wir dann einen Standard, bzw W3C überhaupt noch?
Jan
18 Okt 11 at 09:46
In HTML5 darf man ganz offiziell unter bestimmten Voraussetzungen die Anführungszeichen um die Attribute herum weglassen. Fehlerfrei ist die Google-Suchseite deshalb noch lange nicht.
Interessantes Thema. Danke.
Jörg
20 Okt 11 at 12:42
Also Fehlerfrei ist und bleibt meiner Meinung nach wichtig. Denn sollte sich einmal irgendwas ändern, oder eine der im Browser sogennanten „Hilfen“ wegfallen oder Dinge anders interpretieren, so ist man mit Fehlerfreiem Design immernoch auf der sicheren Seite, oder meint ihr nicht?
Maximilian
20 Okt 11 at 13:30
Fehlerfrei ist ja schön und gut, aber man muss sich immer im Klaren darüber sein, dass das auch nur eine Maschine ist und nur das überprüfen kann was auch in der Maschine hinterlegt ist.
Hier werden viele Fehler (z.B. wai-aria) angezeigt die eigentlich keine Fehler, sondern Standards, sind.
Man sollte seinen Quelltext klar validieren, aber valide heißt letzenendes nur „du beherrscht die Rechtschreibung und hast keine grammatikalischen Fehler“.
Chris
20 Okt 11 at 15:57
Immer auf Fehlerfreiheit zu pochen ohne Rücksicht auf Verluste, finde ich wenig konstruktiv. Man sollte immer das Ziel im Auge behalten. Da geht es um die bekannte 20/80-Regel (Die letzten 20% benötigen 80% der Arbeit). Was ist erstrebenswert, unter Aufwendung von Stunden die letzten 3 Warnungen zu beseitigen..?
Marc
20 Okt 11 at 18:06
Stunden? Was schreibst Du denn für „Spaghetticode“? 😛
Oliver
20 Okt 11 at 18:40
Ich gebe Chris recht. Wichtig ist die Beherrschung der Rechtschreibung. Leider gibt es keine richtigen Validatoren, die HTML wie Zusätze WIA-ARIA nicht erkennen bzw. validieren.
Ich bin aber auch der Meinung, dass man eine Webseite durch vernünftige Struktur und Anwendung einiger Kniffe mit korrekten HTML Code performant bekommt. Hier wäre der Google Page Speed Test ein Stichwort. Dort werden die wichtigsten Performance Tricks analysiert.
Sven
20 Okt 11 at 21:23
Das mit den Stunden war natürlich überspitzt 🙂 Es ging mir nur darum, die Problematik zu verdeutlichen.
Marc
22 Okt 11 at 20:45
[…] Ungültiger HTML Code: Sollte uns das interessieren? | PHP Gangsta – Der PHP Blog mit Praxisbe… Tags: Admin, Admin Panel, attachment, aufklappboxen, click and drop, CSS3, custom meta boxes, development, Dropbox, File, files, HTML, HTML5, Interface, JavaScript, keychain, ma, metabox, ohne, options panel, OS X, PHP, resize, Settings, smashing magazine feed, sync, Tabs, Template, templating, Tips, Tutorial, Web, Webdesign, webdevelopment, WordPress | Permalink Dir hat der Artikel gefallen? Dann abonniere doch den RSS-Feed! Tweet […]
Linkhub – Woche 42-2011
25 Okt 11 at 13:00
Eine Auswertung mit Fehlerzahl im Vergleich zur Anzahl der Zeichen wäre noch interessant. Startseiten von den Großen sind ja häufig auch deutlich größer als die von Blogs o.ä.
Otto
25 Okt 11 at 23:14
Personal Goals
Ungültiger HTML Code: Sollte uns das interessieren? | PHP Gangsta – Der PHP Blog mit Praxisbezug
Personal Goals
6 Jan 24 at 09:46