curiosus002 (curiosus002) wrote,
curiosus002
curiosus002

Вдруг кому понадобится

Массовое преобразование файлов html в txt. Все тэги и скрипты при этом игнорируются. Нашел здесь. Как скачать много html файлов, все знают. А вот для дальнейшей работы с текстами может быть удобнее, чтобы эти тексты были в формате txt. Мне например, понадобилось, чтобы сделать из множества маленьких файликов html, книгу в формате fb2. Нужно, чтобы в системе был установлен браузер lynx.
#!/bin/sh
# h2t, convert all htm and html files of a directory to text

for file in `ls *.htm`
do
new=`basename $file htm`
lynx -dump $file > ${new}txt
done
#####
for file in `ls *.html`
do
new=`basename $file html`
lynx -dump $file > ${new}txt
done

Вот этот скрипт сделал все меньше, чем за минуту. Скопировать текст в любимый текстовый редактор, сохранить без расширения, под любым названием. Я сохранил как "html-convert". Потом даем ему права исполняемого файла, копируем в папку с файлами html и запускаем в терминале.
$ cd ~/Folder-with-your-htmls
$ ./html-convert
Tags: linux, pro memoria, компьютерное
Subscribe
  • Post a new comment

    Error

    Anonymous comments are disabled in this journal

    default userpic

    Your reply will be screened

    Your IP address will be recorded 

  • 4 comments