перекодирование дампа
KarpOffHome 7 декабря, 2008 - 03:06
доброго времени суток.
у меня возникла проблема с кодировкой дампа, не могу сообразить как из непонятных букв (Глав) получить русские :) подскажите, будьте любезны
»
- Для комментирования войдите или зарегистрируйтесь
А что за база, и чем дамп
А что за база, и чем дамп делаешь?
.
Я в mcview такие буквы вижу, когда utf-8 текст по F4 (Hex->Text->Hex) переключаю.
У меня, кстати, ru_RU.UTF-8
Мой вариант ответа такой - у тебя уже всё нормально,
перекодировать не надо,просто ты не тем смотришь.
(Ведь ты же не указал, ЧЕМ ты смотришь? А надо бы)
Попробуй nano, vim, mcview, cat, less и даже kwrite и kate. :-)
это дамп базы данных, как и
это дамп базы данных, как и кто делал я не в курсе такая мне в руки попала, но если я правильно понял, то делали ее phpmyadmin.
пробовал открывать всеми выше указанными редакторами, результата нет :(
что делать ума не приложу. такие буквицы я как то видел в консоли при выводе кириллических сообщений в консоли, после выхода из иксов
скрытный секс :)
locale
Да у тебя локаль недопилена.
А пока что нам поможет hexdump
например, те 4 буквы, что ты написал, это "длав"
их hexdump: b4d0 bbd0 b0d0 b2d0
Если я угадал, настраивай локаль
не не "как то" это не значит
не не "как то" это не значит в настоящем времени и на настоящей системе, давно было это как то, и в RedHat :)
по hexdump, все не читаемые слова имеют вид типа "c3 ?? c2 ?? c3 ??" все в таком духе
скрытный секс :)
.
а разве hexdump может выдать "вопросики"? Он же пишет только [0-9a-f]. что-то тут не то
мне нужно больше информации + /usr/bin/hexdump :
http://paste.org.ru/?73lue7 + http://paste.org.ru/?z9esxd
но не более :-)
друг конечно нет :) это я к
друг конечно нет :) это я к примеру, к тому что повторяются часто определенные комбинации, ну а если реальный пример, то вот :)
Обо Мне
0000000 90c3 bec5 90c3 b1c2 90c3 bec2 c320 c590
0000010 c393 c290 c3bd c290 00b5
скрытный секс :)
.
Уточнение: вам хотелось бы вместо Обо Мне
видеть ├Р┼╛├ ┬▒├Р┬╛ ├Р┼У├Р┬╜├Р┬╡
так?
Если файл текстовый то можно
Если файл текстовый то можно попробовать открыть при помощи oowriter или даже лучше оперой, они знают много кодировок и есть шанс что угадают, а если нет то методом научного тыка подберете. Я так если не знаю что за кодировка то всегда при помощи opera открываю.
Зы: вот еще куча етой странности:
http://www.google.ru/search?hl=ru&q=%C3%90%C5%BE%C3%90%C2%B1%C3%90%C2%BE+%C3%90%C5%93%C3%90%C2%BD%C3%90%C2%B5&btnG=%D0%9F%D0%BE%D0%B8%D1%81%D0%BA+%D0%B2+Google&lr=&aq=f&oq=
есть ли возможность как таковая :(
к сожалению не совсем то что хотел бы видеть :)
вообще реально оный бред перевести в читаемые кириллические буквы.
пробовал открывать oowrite и opera, результата нет. по моему это проблема не совсем кодировки. тут стоит вопрос не выбора нужной кодировки, а возможности конвертации из "не пойми что" в кириллические буквы. хотя сперва нужно понять возможно ли это вообще :)
скрытный секс :)
.
ну enca говорит
Universal transformation format 8 bits; UTF-8
Surrounded by/intermixed with non-text data
Doubly-encoded to UTF-8 from ISO-8859-5
Шанс есть. От тебя нужна ссылка на 10 Кб дампа.
Для попытки :-)
вот имеющийся в моем
вот имеющийся в моем распоряжении дамп http://www.filehoster.ru/files/bv3874
скрытный секс :)
.
Doubly-encoded to UTF-8 from maccyr
Уже кое-что :-)
это да, но как все же
это да, но как все же переконвертировать, у меня ни чего не вышло :(
скрытный секс :)
.
Я поставил пакет app-text/recode
Эти "c390" очень похожи на твой случай (см hexdump dump.sql | grep 90c3 )
без "-С" hexdump работает по-другому, см man
Мысль такая - построить таблицу соответствий всех символов (А-Яа-я)
по аналогии с щ->c29dc3ab, Щ->c390c2a9
и раскодировать твой дамп. Чуть попожже я на python что-нибудь напишу
мда :) по команде enca -x
мда :)
по команде enca -x latin1 dump.sql частично все же преобразуется в русские слова
скрытный секс :)
.
Признаю - я пошёл не в том направлении.
Моя таблица ничего бы не восстановила.
А enca -x latin1 dump.sql у меня говорит
enca: Iconv conversion error on `/tmp/encaWuibEj0T': Invalid or incomplete multibyte or wide character
Trying to recover... succeeded.
ваша таблица сделала бы тоже
ваша таблица сделала бы тоже самое что и enca
как мне кажется дамп был взят из базы с установленной кодировкой latin1, а кривость перекодирования происходит из-за несостыковки таблиц символов, потому как в MySQL latin имеет несколько коллекций, и на сколько я знаю шведская идет по умолчанию
теперь осталось как нибудь воспроизвести эти самые коллекции :)))
скрытный секс :)
поставь enca и скорми ей.
поставь enca и скорми ей. только забекапь его сначала.