Just because it's:

UTF Byte Order Mark entfernen

August 7th, 2008

Ja, richtig. Es geht wieder um Zeichensatz-Hassle. Neulich habe ich im Office UTF-8 kodierte XML Templates zugeschickt bekommen, die durch PHP ans Tageslicht gebracht werden sollten. Dabei ergab sich das Problem, dass das Byte Order Mark nicht ordentlich im Browser ankam.

Ich habe nach einer Lösung für Linux gesucht, um Dateien vom den sogenannten BOM zu befreien. Fündig geworden bin ich hier. Das Perl Script erledigt den Job quick & dirty aber dafür effektiv.

Es funktioniert im übrigen nur mit UTF-8 BOMs. Aber anhand der Tabelle unter “Bytefolgen der BOM in verschiedenen Zeichenkodierungen” auf http://de.wikipedia.org/wiki/Byte_Order_Mark lässt sich das Script recht schnell auch für andere UTF Varianten umschreiben.

Leave a Reply