Открытая библиотека/Тест/Методические пособия/Специфика работы библиотек с цифровым контентом
Информационные объекты современной электронной библиотеки могут быть представлены в ней несколькими способами. Это обусловлено тем, что электронные библиотеки должны обладать рядом принципиально важных достоинств, среди которых широкие возможности по работе с информацией и, в первую очередь, возможность проводить информационные поиски. Последнее является особенно ценным в науке, образовании и других сферах деятельности, где требуется работа с большими объемами информации. При этом большое значение имеет качество представления информации: для любого учёного, исследователя или юриста, принципиально важным условием является отсутствие искажений в предоставляемой пользователю публикации.
Вместе с тем, понятно, что такой объект как «книга» представляет собой достаточно сложное образование, несущее в себе больше информации, чем содержится в её основном тексте. Для специалистов в ряде случаев состав, структура издания и некоторые сопроводительные тексты имеют даже большее значение, чем основной текст книги.
В отличие от традиционных библиотек, в электронных читатель обращается не к печатному изданию, а к его электронному образу, который получается в результате обработки этого издания. Достаточно часто в реально работающих электронных библиотеках электронные образы не в полной мере соответствуют воспроизводимому оригиналу, а именно: пропадают фрагменты текста, искажаются формулы и таблицы, привносятся грамматические ошибки. Все это снижает доверие пользователя как к предоставляемой ему таким образом информации, так и к самой электронной библиотеке. В результате этого может происходить сокращение количество читателей электронных книг, и подрываться доверие к самому понятию — электронные библиотеки. Таким образом, может оказаться, что затраты на создание и ведение электронных библиотек, являющиеся, как правило, весьма значительными, могут оказаться оказываются неоправданными.
Поэтому одной из существенных задач, стоящих перед разработчиками и создателями как электронной библиотеки, так и электронных копий бумажных книг, является точность воспроизведения в ней исходной информации.
Можно считать, что существует три основных способа представления информации в электронных библиотеках и в электронных книгах: графический, символьный и комбинированный.
В первом случае печатное издание представляется в виде совокупности графических образов страниц, что обеспечивает высокую точность воспроизведения оригинала. При этом отсутствует многие возможности по работе с текстами; в частности, нельзя проводить лексический поиск. Графическое представление информации реализуется на основе форматов pdf, djvu, jpg и др.
При символьном способе напечатанный текст воспроизводится как последовательность алфавитно-цифровых знаков той или иной кодовой системы, например, Unicode. Это позволяет оперировать с произвольными, заранее не определенными фрагментами представленного текста, что, в свою очередь, позволяет реализовать разнообразные функциональные возможности. Однако при символьном представлении возникают серьезные проблемы, во-первых, с визуализацией отдельных фрагментов, например, математических или химических формул, а, во-вторых, с точным воспроизведением исходного оригинала. Для решения этих проблем используются языки разметки, таблицы стилей, системы преобразований, применение которых заметно повышает сложность подготовки информации. К сожалению, эти методы не позволяют преодолевать некоторые трудности. При символьном способе представления информации используются такие форматы как html, TEX, fb2.
Стремление к устранению противоречия между точностью воспроизведения информации и реализацией функциональных возможностей привело к созданию комбинированного способа представления информации в электронной форме. Суть этого способа заключается в том, что в информационной системе (электронной библиотеке) информация представляется как в графическом, так и в символьном виде. При этом возможны два варианта. В первом — оба вида представления доставляются одним файлом (например, pdf, djvu ). Во втором, многофайловом варианте два представления доставляются двумя разными способами: графический образ представлен в виде комплекта изображений страниц в формате jpg, а текстовый образ — в виде единого текстового файла, возможно, в формате html. Между файлами, входящими в многофайловое представление, устанавливается определённая связь, которая существенна для навигации и отображения в графическом образе фрагментов текста, найденных в результате поиска. Достоинства комбинированного способа представления информации очевидны: с одной стороны, пользователь получает точный (графический) образ оригинального издания, с другой — имеются основания для реализации важных функциональных возможностей на базе символьного представления.
Во втором и третьем способах представления информации наиболее трудоемкой является операция вычитки распознанного текста, поскольку она требует ручного труда квалифицированных специалистов и занимает достаточно много времени по любым действующим нормам. В случае символьного представления, она играет принципиальную роль и требует особой тщательности, так как именно этот текст представляет оригинал. В случае комбинированного представления, требования к вычитке могут быть заметно ослаблены — читатель получает точный графический образ оригинала; влияние же отдельных ошибок на результаты лексического поиска не столь велико, как может показаться.
Таким образом, можно сделать вывод, что наиболее дешевым способом представления является графический, наиболее дорогим символьный, комбинированный способ занимает промежуточное положение.
Можно отметить, что в настоящее время именно этот подход в массовом масштабе используется компанией Google при формировании своей электронной библиотеки. В этом проекте компания сотрудничает с крупнейшими библиотеками США и Европы. С момента создания электронной библиотеки Google в 2005 году по этой технологии обработано свыше 25 млн изданий (по данным на октябрь 2015).
Таким образом, можно сделать вывод, что в современной электронной библиотеке информация должна представляться следующим образом. Оригинальное издание должно быть представлено в графическом виде, например в формате jpg. Текст издания должен быть представлен в символьном виде, например в формате html с минимальной разметкой и упрощенной вычиткой. Между графическим и символьным образами текста устанавливается однозначная связь, например, посредством специального индексного файла. Связь эта формируется в процессе создания электронной книги.
При этом следует отметить, что классификация объектов электронных библиотек, отличается большим разнообразием, чем классификация объектов традиционной бумажной библиотеки.
Информационные объекты электронной библиотеки можно классифицировать по виду информации и по форме исходного оригинала.
В электронной библиотеке могут быть представлены электронные образы книг или иных текстовых документов, а также изобразительные, аудио и видео материалы.
При этом текстовая информация является основной составляющей информационного фонда электронной библиотеки, во всяком случае в большинстве случаев. Основными источниками текстовой информации являются книги, брошюры, журналы, газеты, диссертации и авторефераты диссертаций, нормативные документы, классификаторы, архивные документы, описи архивных фондов, биографические статьи, справки и некоторые другие материалы. Все эти объекты должны быть объектами атрибутного поиска. Подавляющее их большинство должно участвовать в лексическом поиске, исключение составляют отдельные публикации и архивные документы, не допускающие распознавания и представляемые факсимильно в виде изображений, например рукописные тексты.
Изобразительная информация, представляемая в электронной библиотеке, подразделяется на три категории. К первой относится изображения, являющиеся неотъемлемой составляющей публикуемых изданий. Ко второй — иллюстративный материал, содержащийся в издании и подготовленный, как правило, не титульным автором этого издания. К третьей категории относятся изображения, являющиеся самостоятельными документами: графические и живописные произведения, фотографии, относящиеся к тематике электронной библиотеки.
Аудио и видеоинформация может быть представлена фонограммами, фильмами, в том числе анимационными и видеозаписями, являющимися самостоятельными произведениями. Это могут быть, например, записи лекций, выступлений, экспериментов и учебные материалы.
|