Использование sed для преобразования шестнадцатеричных символов в файл дампа postgresql

Question

Использование sed для преобразования шестнадцатеричных символов в файл дампа postgresql

Я работаю над переносом нескольких баз данных с сервера Postgresql 8.3 на сервер Postgresql 8.4. До сих пор это работало нормально, но одна база доставила мне некоторые неприятности. База данных указана в кодировке Unicode на 8.3-сервере, но каким-то образом клиентской программе удалось внедрить в нее некоторые недопустимые данные Unicode.

Когда я делаю обычный дамп и восстановление, используя пользовательский формат postgres, новый сервер не принимает его, жалуясь на ошибки юникода.

Мой план состоит в том, чтобы сделать простой текстовый дамп базы данных, а затем использовать sed, чтобы заменить недопустимые символы ничем (они не нужны). Но как заставить sed работать с шестнадцатеричными / двоичными значениями в файле?

2

postgresql sed

Источник

Bernt 13 сен '10 в 09:01

6 ответов

Другие вопросы по тегам postgresql sed

Peter Eisentraut 25 дек '10 в 06:01 2010-12-25 06:01 · Answer 1 · 2010-12-25 06:01

Типичным решением является использование iconv -c,

1

Источник

Peter Eisentraut 25 дек '10 в 06:01

xzilla 01 апр '11 в 15:39 2011-04-01 15:39 · Answer 2 · 2011-04-01 15:39

Согласно ответу Питера, использование iconv является типичным решением, которое большинство людей используют для очистки неверных данных. Если вы хотите провести некоторый анализ данных заранее (и, возможно, очистить их в исходной базе данных), вы можете использовать следующий https://github.com/xzilla/utf8checker чтобы найти место возникновения проблемы.

Bernt 17 сен '10 в 12:47 2010-09-17 12:47 · Answer 3 · 2010-09-17 12:47

Коллега указал мне в сторону Perl:

cat databasedump.sql | perl -pi -e 's / \ xc3 \ xa9 // g;' > fixeddatabasedump.sql

Хорошо, так что это не sed, но, по крайней мере, синтаксис более или менее такой же.

0

Источник

Bernt 17 сен '10 в 12:47

Chen Levy 13 сен '10 в 11:14 2010-09-13 11:14 · Answer 4 · 2010-09-13 11:14

Согласно бинарной замене sed на stackoverflow, лучшая ставка, которую вы видели, - это пройти hexdump:

hexdump input | sed -e "..." | xxd -r -p output

0

Источник

Chen Levy 13 сен '10 в 11:14

Dennis Williamson 13 сен '10 в 17:59 2010-09-13 17:59 · Answer 5 · 2010-09-13 17:59

Это лишит всех персонажей, которые находятся за пределами диапазона 0x32 (пробел) в 0x7e (Тильда):

someprog | LANG=C sed 's/[\x00-\x31\x7f-\xff]//g'

Вы можете использовать другие диапазоны символов, чтобы быть более избирательным.

0

Источник

Dennis Williamson 13 сен '10 в 17:59

charlesbridge 01 апр '11 в 15:45 2011-04-01 15:45 · Answer 6 · 2011-04-01 15:45

tr -d '[:xdigit:]' < old_database > new_database также может работать.
tr -d удаляет только '[:xdigit:]' шестнадцатеричные символы

0

Источник

charlesbridge 01 апр '11 в 15:45