textutil: Das Tool für doc | html | txt | rtf | rtfd | wordml | webarchiv
by frank
Textutil ist ein schönes Beispiel dafür was beim Mac OS X Tiger so alles unter der Haube schlummert. Damit kann man so eben mal auf einen Rutsch z.B. aus diversen .txt-Dateien eine .doc-Datei machen. Oder eine .html-Datei in .txt umwandeln. Oder sich ein par Infos zu den .Dateien anzeigen lassen, ohne sie alle zu öffnen.
Ich schreibe unter anderem gerne auf meiner Alphasmart Dana im Zug Artikel für den Textservice. Die speichere ich direkt auf einer SD-Card (leider unterstützt das Palm-Os/Programm nur Latin1). Wenn ich jetzt einen fertigen Artikel in eine Word-Datei mit der Schrift Arial in 12 pt konvertieren will, stecke ich die SD-Card in meinen USB-Kartenleser und gebe im Terminal folgendes ein:
textutil -convert doc -inputencoding latin1 -font Arial -fontsize 12 /Volumes/SDCard/Pfad/zur/Datei.txt
Soll die Datei woanders abgelegt werden, kann ich auch -output ~/Desktop/NeueDatei.doc hinzufügen, um die Datei z.B. auf dem Schreibtisch ablegen zu lassen.
Hier ein paar weitere Beispiele, einige von mir, andere aus den manpages:
Von .doc zu .html
textutil -convert html -encoding latin1 /Pfad/zur/datei.doc
Von latin1 codierter .html-Datei zu utf-8 codierter .txt-Datei
textutil -convert txt -inputencoding latin1 -encoding utf-8 /Pfad/zur/datei.html
Informationen über foo.rtf abrufen
textutil -info foo.rtf
Alle .rtf-Dateien im aktuellen Verzeichnis laden und als einzige index.html-Datei mit dem Titel “Several Files” ausgeben.
textutil -cat html -title "Several Files" -output index.html *.rtf
Comments
hallo…
ich hätte hierzu noch eine kleine bescheide frage.
Wen ich *.doc Datein in *.txt umwandel (was nach dieser Anleitung, super uns schnell funktioniert) habe ich das Problem mit Umlauten, Intigrierten Links und Zeilenumbrüchen.
Kann man da was machen?
Hier mal ein Textauszug, als Beisiel:
DOC-Datei:
001 “Wir sprechen von Randgruppen – und welcher Rand ist damit gekennzeichnet? Der Rand des Produktionsprozesses natürlich. Die Vokabel erfaßt die Alten, die Asozialen, die Hilflosen, die Konsum- oder Produktionsverweigerer in dem Augenblick, wo sie, eben vom gesellschaftlichen Bulldozer erfaßt, an den Rand des zivilisatorischen Müllbergs geschoben werden.”
002 “Recycling’ wurde zu einem florierenden Geschäft. Die Industrie konnte weiter in Massen produzieren, nur standen jetzt überall Sammelbehälter rum.”
…..
TXT-DATEI
001 “Wir sprechen von HYPERLINK “minderh.html”Randgruppen – und welcher Rand ist damit gekennzeichnet? Der Rand des Produktionsprozesses natürlich. Die Vokabel erfaßt die Alten, die AHYPERLINK “sozial.html”sozialen, die HYPERLINK “armut.html”Hilflosen, die HYPERLINK “konsum.html”Konsum- oder Produktionsverweigerer in dem Augenblick, wo sie, eben vom HYPERLINK “society.html”gesellschaftlichen Bulldozer erfaßt, an den Rand des zivilisatorischen Müllbergs geschoben werden.”
002 “HYPERLINK “natur.html”Recycling’ wurde zu einem florierenden HYPERLINK “profit.html”Geschäft. Die Industrie konnte weiter in Massen produzieren, nur standen jetzt überall Sammelbehälter rum.”
Hmm, vielleicht probierst Du mal, die .doc Dateien erst in .html und diese dann in .txt umzuwandeln?
Probleme mit Umlauten liegen an der Codierung des Textes. Da würde ich mal mit den verschiedenen -encoding Einstellungen latin1 oder utf-8 rumprobieren.