2014-11-01

Виртуальная библиотека Gallica - попробуем разобраться

В виртуальной библиотеке Gallica (Франция) выложены многие тысячи сканов документов хорошего качества. Однако, эти сканы (300 dpi) невозможно скачать с портала напрямую. По ссылке на скачивание выдаётся уменьшенный JPEG, что вряд ли устроит коллекционера... Можно посмотреть исходный скан (зелёная кнопка с лупой слева вверху), но здесь картинка порезана скриптом на куски. Что же делать? Возьмём для примера интересную бумажную модель Пеллерина №903 (1902 год).


Pellerin & Cie, imp.-édit.
Imagerie d'Epinal
Moyennes constructions
N° 903
La croix du chemin: tire-lire
1 est. : gravure sur bois en coul. ; 30 x 40 cm
France, 1902

Строка ключей скрипта выглядит так:

http://gallica.bnf.fr/proxy?method=R&ark=btv1b550017014.f1&l=6&r=0,0,2900,1700

  • method=R - метод работы скрипта. "R" даёт часть скана, "M" даёт размер скана и число масштабирования;
  • ark=btv1b550017014.f1 - код скана в БД портала;
  • l=6 - масштаб показа скана, может быть от 1(маленькая картинка) до 6(исходный размер);
  • r=0,0,2900,1700 - координаты левого верхнего угла фрагмента и его размер (сначала высота, потом ширина). Максимальные размеры фрагмента - 2900 на 1700 точек (найдены подбором);
  • s=2500,1920 - вместо предыдущего ключа может быть этот, тогда выдаётся полная картинка, но увы, ограничение примерно до 2200 точек по любой стороне.
Зная это, можно получить все фрагменты скана исходного размера 300 dpi:
Можно написать свой простой скрипт (например на PHP), который бы автоматически склеивал эти фрагменты в исходный скан. Но я "для себя" склеиваю эти фрагменты в фотошопе.

2 комментария:

  1. Спасибо за информацию по моделям. Вот только зачем такие ухищрения, если с этого сайта можно скачать в PDF формате, а не в JPEG, причем скачивается полное изображение вполне приемлемого качества (оно идет в документе PDF третьей страницей - две первые содержат каталожную информацию). Я экспортировал из PDF-файла в JPG (300dpi) и результирующие файлы получались размером примерно 5700х4500 пикселей. В качестве примера вот ссылка на один мой такой скан https://drive.google.com/file/d/0BzFnAZIF8BPMQ09SNzRwUTJqYzQ/view?usp=sharing

    ОтветитьУдалить
    Ответы
    1. Увы, не всё так просто (а то бы я не заморачивался). В PDF-формате сайт отдаёт не исходные, а довольно неприятно обработанные сканы. Это видно на Вашем примере при увеличении - JPG-артефакты. Кроме того, в документе размер скана чуть меньше, чем выдаётся скриптом портала в нарезке.
      Насколько я понимаю, и скрипт для экрана, и скрипт для создания PDF-файла работают с внутренней БД портала, содержащей никак не обработанные JPEG. Но если для экрана эти файлы просто режутся на куски, не трогая пиксели, то для документа PDF они дополнительно ужимаются.

      Удалить