Ich wollte eine eigene Seite entwerfen, die aus der Webseite von Robert Spencer http://thereligionofpeace.com (die etwas andere Islam-Webseite) die Tabelle mit den im Namen Allahs verübten Anschlägen extrahiert. Nur für diese Tabelle interessierte ich mich an dieser Stelle, nicht für den Rest der Webseite. Da die Tabelle laufend aktualisiert wird, ist es nichts mit einer simplen Copy-Paste-Lösung.
Ein Blick in den fürchterlichen Quellcode (als Generator wird MSHTML 8.00.6001.19046 angegeben, vielleicht hat irgendein Office-Konverter diesen Quelltext angerichtet) zeigt, dass die gesuchte Tabelle unter der ID tbl11 firmiert.
Ein kleines Perl-Script schafft Abhilfe. Unter Verwendung von HTML::Parser benötigt des Script nur 2.8 KB, um den Request auszuführen, den missratenen Quelltext auf das <table>-Element mit der ID tbl1 zu durchsuchen und das von diesem Element aufgespannte HTML-Fragment auszugeben. Der Einfachheit verlasse ich mich darauf, dass Herr Spencer bei dieser Dokumentstruktur bleibt. Dann weiss ich, dass das Ergebnis eigentlich auch als XML-Dokument durchgehen kann. So setze ich noch eine Präambel und ein XSL-Stylesheet voran, in das ich die fixen Anteile der anzuzeigenden Seite schreibe. Das Ergebnis ist hier zu betrachten: