NAME
html2pdbtxt - HTML zu Doc-Text Umwandler für Palm Pilots
ÜBERSICHT
html2pdbtxt
[ -bZeichen ] [ -tTitel ] [
-uURL ] Datei.htm [ Datei.txt ]
html2pdbtxt -v
BESCHREIBUNG
html2pdbtxt wandelt HTML- in Textdateien um, die für eine weitere Umwandlung in eine Doc(4)-Datei mittels txt2pdbdoc(1) geeignet sind. Wenn kein Dateiname für die Textdatei angegeben wird, erfolgt die Ausgabe des Textes auf die Standardausgabe.
HTML
Tags
Folgende HTML-Tags (und die entsprechenden End-Tags) werden
erkannt: ADDRESS, A NAME,
BLOCKQUOTE, BR, CENTER,
DIV, DL, DT, H1,
H2, H3, H4, H5,
H6, OL, OPTION, PRE,
P, SELECT, SCRIPT,
STYLE, TABLE, TITLE, UL.
Es wird versucht, die Attribute so gut wie möglich in
die Vorgaben des Doc(4)-Formats umzusetzen, das im
wesentlichen Klartext ist. Der Text des
ALT-Attributs (meist in IMG-Tags) wird zwischen
Klammern in den Text eingebettet. [so z. B.]. Alle anderen
HTML-Tags werden entfernt.
Zeichen
Umschreibungen für HTML-Zeichen und numerische Zeichen
(dezimal und hexadezimal) werden in ihren Wert im
Zeichensatz ISO 8859-1 (Latin 1) umgewandelt, damit sie
korrekt im Pilot erscheinen. Zum Beispiel: aus
’’résumé’’ wird
’’resume’’ mit einem betonten
’e’.
Dokumenttitel
Wenn nicht schon mit der Option -t angegeben, wird
die HTML-Datei nach den Tags <TITLE> und
</TITLE> durchsucht und, wenn gefunden, wird
der Titel in die erste Zeile des erzeugten Textes
gesetzt.
Lesezeichen
Lesezeichen werden in den erzeugten Text immer dort
eingesetzt, wo ein
<A NAME="..."> Tag in der
HTML-Datei gefunden wurde.
OPTIONEN
-b Zeichen
Angabe der Zeichenfolge, die als Lesezeichen-Kennung verwendet wird. Standard ist (*). (Siehe BESONDERHEITEN.)
-t Titel |
Angabe des Dokumenttitels, der in die erste Zeile des erzeugten Textes eingesetzt wird und Titel, die in der HTML-Datei zwischen <TITLE> ... </TITLE> Tags gefunden wurden, überschreibt. | ||
-u URL |
Angabe der URL von der die HTML-Datei angeblich stammt; sie wird in die Zeile nach dem Titel des erzeugten Textes eingesetzt. | ||
-v |
Schreibt die Versionsnummer von html2pdbtxt auf die Standardausgabe und beendet sich. |
BEISPIEL
Umwandlung einer HTML-Datei in Doc:
html2pdbtxt -u http://www.wonderland.org/ alice.html alice.txt txt2pdbdoc "’head -1 alice.txt’" alice.txt alice.pdb
BESONDERHEITEN
1. |
Einige Doc-Leseprogramme haben eine ’’Funktion’’, beim Suchen nach der Lesezeichenkennung diese Zeichenfolge überall im Text zu erkennen, nicht nur am Zeilenanfang. | ||
2. |
Bei einigen Doc-Leseprogrammen darf die Lesezeichenkennung nicht das Zeichen > enthalten, weil es als Endezeichen der Kennung verwendet wird, z. B. <->> wird lediglich als Folge - erkannt. | ||
3. |
Nummerierte Listen (mit dem Tag OL) werden als unnummerierte Listen umgesetzt (wie mit dem Tag UL), weil es so kompliziert wäre, dass es richtig ausgewertet werden müsste, statt nur eine einfache Ersetzung auszuführen. |
SIEHE AUCH
pdbtxt2html(1), txt2pdbdoc(1), doc(4), pdb(4)
International Standards Organization. ’’ISO 8859-1: Information Processing -- 8-bit single-byte coded graphic character sets -- Part 1: Latin alphabet No. 1.’’ 1987.
World Wide Web Consortium. ’’Character entity references in HTML 4.0.’’ HTML 4.0 Specification, http://www.w3.org/
AUTOR
Paul J. Lucas
<pauljlucas [AT] mac.com>
Deutsche Übersetzung: Erik Schanze
<eriks [AT] debian.org>