Найти - Пользователи
Полная версия: Заморочки pdftk
Начало » Python для новичков » Заморочки pdftk
1
Innocent
Здравствуйте.
Известная утилита pdftk может выцеплять и записывать метаданные из PDF-документа в текстовый файл. При этом русскоязычные метаданные выводятся в этот текстовый файл в виде цифровых кодов. Латинские буквы выводятся нормально. Пример:

InfoKey: Keywords
InfoValue: ПРОБА

Кодами в данном случае выведено русское слово ПРОБА. Последующая смена кодировки этого текстового файла ни к чему не приводит, так как &#1055;&#1056;&#1054;&#1041;&#1040; воспринимаются уже не как коды, а как набор символов, одинаковый для всех кодировок (код < 128).

Поэтому моя задача - преобразовать эти коды в нормальный читабельный вид. Посему несколько вопросов:
1. Что это за кодировка такая, в которой каждый символ кириллицы кодируется семью знаками? Например П это &#1055;
Как я понимаю, это способ отображения юникода?
2. Как бы поудобнее и побыстрее преобразовать такие коды в русский текст (чтобы не писать питоновский модуль, который будет парсить последовательно по 7 символов кода, преобразуя их в символ кириллицы)? Есть ли линуксовые утилиты, которые этим занимаются?
igor.kaist
Ээээ… П это П?? Или форум съедает.. Заверни в тег code, дай нормальный пример..
Innocent
Да, форум съедает.
Попробовал обернуть в тег code - не помогло. Выводится то же самое. Поэтому в кодах ставлю подчёркивание после амперсанта между символами:

Здравствуйте.
Известная утилита pdftk может выцеплять и записывать метаданные из PDF-документа в текстовый файл. При этом русскоязычные метаданные выводятся в этот текстовый файл в виде цифровых кодов. Латинские буквы выводятся нормально. Пример:

InfoKey: Keywords
InfoValue: &_#1055;&_#1056;&_#1054;&_#1041;&_#1040;

(Без подчёркиваний)
Кодами в данном случае выведено русское слово ПРОБА. Последующая смена кодировки этого текстового файла ни к чему не приводит, так как &_#1055;&_#1056;&_#1054;&_#1041;&_#1040; воспринимаются уже не как коды, а как набор символов, одинаковый для всех кодировок (код < 128).

Поэтому моя задача - преобразовать эти коды в нормальный читабельный вид. Посему несколько вопросов:
1. Что это за кодировка такая, в которой каждый символ кириллицы кодируется семью знаками? Например &_#1055; это П
Как я понимаю, это способ отображения юникода?
2. Как бы поудобнее и побыстрее преобразовать такие коды в русский текст (чтобы не писать питоновский модуль, который будет парсить последовательно по 7 символов кода, преобразуя их в символ кириллицы)? Есть ли линуксовые утилиты, которые этим занимаются?
This is a "lo-fi" version of our main content. To view the full version with more information, formatting and images, please click here.
Powered by DjangoBB