Локальная копия gentoo-wiki
kostik87 10 ноября, 2011 - 21:36
Вследствие недавней не доступности http://en.gentoo-wiki.com/ решил получить для себя локальную копию руководств, написал скрипт для получиения списка руководств и их скачивания.
en.gentoo-wiki.com
#!/bin/sh DIR="/tmp/wiki" [ ! -d "$DIR" ] && mkdir "$DIR" TMP1=""$DIR"/wiki.tmp" TMP2=""$DIR"/wiki.categories_list" wget -qO- "http://en.gentoo-wiki.com/wiki/Special:Categories" > $TMP1 cat "$TMP1" | grep "<li><a.*/w" | sed s/.*'href="'// | sed s/'<\/a>'.*// | sed s/'\"'.*\>/' \"'/ | sed s/'$'/'\"'/ > "$TMP2" cat "$TMP2" | while read name do a=${name/* \"/\"} b=${a//\"/} c=${b//\// } wget -qO- "http://en.gentoo-wiki.com${name/ \"*/}" > "$TMP1" mkdir -p "wiki/""$c""" cat "$TMP1" | grep "<li><a.*/w" | sed s/.*'href="'// | sed s/'<\/a>'.*// | sed s/'\"'.*\>/' \"'/ | sed s/'$'/'\"'/ > "wiki/""$c""/links" done cd wiki find * -maxdepth 0 -type d | while read name do cat "$name/links" | while read name1 do a=${name1/* \"/\"} b=${a//\"/} c=${b//\// } wget -e robots=off "http://en.gentoo-wiki.com${name1/ \"*/}" -O """$name"/"$c".html"" done done
ru.gentoo-wiki.com
http://pastebin.com/SJSJcPnE
И не большой скрипт для чистки от не нужного содержания скачанных страниц:
find * -type f -name *.html | while read name ; do a=`cat """$name""" | grep -v "Jump to" | sed s/'\[<a.*<\/a>\]'// | tee /tmp/wiki/wiki.tmp | grep -n "Retrieved from" | sed s/\:.*//` ; cat /tmp/wiki/wiki.tmp | head -n $((a+4)) > """$name""" ; echo "</body></html>" >> """$name""" ; done
Выполнять в директории wiki, скрипт чистки написан только для английской wiki, но посмотрев код страницы вы сможете легко внести изменения и для русских страниц.
Но есть ещё некоторые ошибки в работе и похорошему нужно ещё дописывать, если кому будет интересно и полезно и захочет внести изменения буду рад.
»
- Для комментирования войдите или зарегистрируйтесь
http://en.gentoo-wiki.com/wik
http://en.gentoo-wiki.com/wiki/Gentoo_Linux_Wiki:Backup
Мне не нужна sql база,
Мне не нужна sql база, которую нужно ещё подключать, разворачивать cms wiki и прочее, мне нужны скачанные страницы, которые легко открыть где угодно, без лишнего мусора.
Html страницы прекрасно открываются где угодно и занимают не много места, всего 16 мегабайт.
русская версия
http://gentoo-wiki.com/backup/ru.sql.gz
Мой ответ предыдущему оратору
Мой ответ предыдущему оратору так же относится и к вам.
К тому же архив с базой сейчас не доступен, проверили бы хотя бы сначала.
Старая песня о главном
Даёшь w.g.r!!!
:wq
--
Live free or die
Что это значит ?
Что это значит ?
А ты не в теме?
wiki.gentoo.ru
(со "своими" админами)
:wq
--
Live free or die
Ну в таком случае либо
Ну в таком случае либо http://gentoo.ru/wiki/, но мало вероятно, или тогда всё же
http://wiki.gentoo.org/ ;)
А чем http://gentoo.ru/wiki
А чем http://gentoo.ru/wiki мало вероятно, или лучше чем http://wiki.gentoo.ru ?
kostik87 написал(а): Мой
только что проверил - архив доступен