Категории

Блог
Справочная литература
- Справочники
- Энциклопедии
- Прочая справочная литература
- Руководства
- Словари
Научные и научно-популярные книги
- Шпаргалки
- Ботаника
- Экология
- Биохимия
- О животных
- Государство и право
- Рефераты
- Математика
- Зарубежная публицистика
- Транспорт, военная техника
- Педагогика
- География
- Зоология
- География
- Ветеринария
- Зарубежная психология
- Астрология
- История
- Психология
- Деловая литература
- Политика
- Прочая научная литература
- Религиоведение
- Химия
- Радиотехника
- Архитектура
- Техническая литература
- Юриспруденция
- Науки: разное
- Любовные романы
- Психология, личное
- Медицина
- Научпоп
- Науки о космосе
- Беременность, ожидание детей
- Языкознание
- Детская психология
- Физика
- История Европы
- Культурология
- Социология
- Психотерапия
- Образовательная литература
- Биология
- Воспитание детей, педагогика
- Альтернативная медицина
- Учебники
- Литературоведение
- Филология
- Иностранные языки
- Обществознание
Проза
- Антисоветская литература
- Семейный роман/Семейная сага
- Новелла
- Юмор
- Феерия
- Сентиментальная проза
- Современная проза
- Классическая проза
- Повести
- Советская классическая проза
- Русская классическая проза
- Историческая проза
- Русская современная проза
- Контркультура
- Зарубежная современная проза
- Проза
- Зарубежная классика
- О войне
- Эпистолярная проза
- Магический реализм
- Разное
- Рассказы
- Афоризмы
- Очерки
- Эссе
Фантастика и фэнтези
- Ироническое фэнтези
- Ненаучная фантастика
- Романтическое фэнтези
- Бизнес
- Альтернативная история
- Научная Фантастика
- Социально-психологическая
- Фэнтези
- Юмористическая фантастика
- Космическая фантастика
- Разная фантастика
- Русское фэнтези
- Ужасы и Мистика
- Боевая фантастика
- Попаданцы
- Киберпанк
- LitRPG
- Городская фантастика
- Сказочная фантастика
- Мистика
- Эпическая фантастика
- Детективная фантастика
- Героическая фантастика
- Историческое фэнтези
- Разное фэнтези
- Боевое фэнтези
- Зарубежная фантастика
- Технофэнтези
- Иностранное фэнтези
- Любовное фэнтези
- Историческая фантастика
- Романтическая фантастика
- Городское фентези
- Книги магов
- Космоопера
- Ироническая фантастика
- Социально-философская фантастика
- Стимпанк
- Постапокалипсис
Любовные романы
- Фемслеш
- Любовно-фантастические романы
- Современные любовные романы
- Короткие любовные романы
- Остросюжетные любовные романы
- Исторические любовные романы
- Эротика
- love
- Зарубежные любовные романы
- Роман
- Прочие любовные романы
- Слеш
- Порно
Детская литература
- Школьные учебники
- Детская познавательная и развивающая литература
- Детские детективы
- Книга-игра
- Книги для подростков
- Детская проза
- Сказка
- Учебная литература
- Прочая детская литература
- Детская образовательная литература
- Детская фантастика
- Детские остросюжетные
- Детские приключения
- Детский фольклор
- Книги для дошкольников
- Детские стихи
- Зарубежные детские книги
- Внеклассное чтение
Религия и духовность
- Религия: окультизм
- Хиромантия
- Религия: протестантизм
- Религия: ислам
- Индуизм
- Религия
- Прочая религиозная литература
- Эзотерика
- Самосовершенствование
- Религия: христианство
- Язычество, паганизм
- Православие
- Буддизм
- Зарубежная религиозная литература и эзотерика
- Религии: разное
- Религия: иудаизм
Юмор
- Комедия
- Сатира
- Юмористическая проза
- Юмористическое фэнтези
- Прочий юмор
- Юмористические стихи
- Драматургия
- Анекдоты
Детективы и Триллеры
- Юридический триллер
- Зарубежные боевики
- Детектив
- Классический детектив
- Криминальный детектив
- Крутой детектив
- Полицейский детектив
- Триллер
- Боевик
- Шпионский детектив
- Иронический детектив
- Исторический детектив
- Иностранный детектив
- Политический детектив
- Маньяки
Поэзия, Драматургия
- Верлибры
- в стихах
- Палиндромы
- Водевиль
- Мистерия
- Экспериментальная поэзия
- Визуальная поэзия
- Басни
- Эпическая поэзия
- Зарубежная поэзия
- Поэзия
- Драматургия
- Драма
- Трагедия
- Лирика
- Песенная поэзия
- Сценарии
- Театр
- Киносценарии
- Кино, театр
Бизнес
- Работа с клиентами
- Кадровый менеджмент
- Ораторское искусство / риторика
- Личная эффективность
- Менеджмент
- Государственное и муниципальное управление
- Зарубежная деловая литература
- Переговоры
- Делопроизводство, офис
- Корпоративная культура, бизнес
- Управление, подбор персонала
- Менеджмент и кадры
- Маркетинг, PR, реклама
- Финансы
- Бизнес
- О бизнесе популярно
- Экономика
- Малый бизнес
- Тайм-менеджмент
- Бухучет и аудит
- Поиск работы
- Ценные бумаги и инвестиции
- Краткое содержание
- Банковское дело
- Продажи
- Личные финансы
- Интернет-бизнес
Разная литература
- Отраслевые издания
- Начинающие авторы
- Подростковая литература
- Зарубежная прикладная литература
- Шахматы
- Недвижимость
- Спецслужбы
- Пословицы, поговорки
- Культура и искусство
- Современная литература
- Истории из жизни
- Прочее
- Периодические издания
- Фанфик
- Гиды, путеводители
- Военное
- Военная техника, оружие
- Современная зарубежная литература
- Литература 19 века
- Музыка, танцы
- Военная история
- Газеты и журналы
- Зарубежная образовательная литература
- Кино
- Визуальные искусства
- Музыка, музыканты
- Авто и ПДД
- Великолепные истории
- Изобразительное искусство, фотография
- Боевые искусства
- Цитаты из афоризмов
- Готические новеллы
Компьютеры и Интернет
- Компьютерное "железо"
- Программирование
- Прочая околокомпьтерная литература
- Программы
- Интернет
- Базы данных
- Программное обеспечение
Документальные книги
- Биографии и Мемуары
- Публицистика
- Прочая документальная литература
- Критика
- Искусство и Дизайн
- Военная документалистика
Домоводство, Дом и семья
- Домашнее хозяйство
- Охота
- Ремонт в квартире
- Интерьеры
- Рыбалка
- Спорт
- Эротика, Секс
- Кулинария
- Здоровье
- Прочее домоводство
- Сад и огород
- Хобби и ремесла
- Развлечения
- Домашние животные
- Семейная психология
- Сделай сам
- Дом, семья
- Отдых / туризм
Приключения
- Зарубежные приключения
- Вестерн
- Прочие приключения
- Путешествия и география
- Исторические приключения
- Морские приключения
- Приключения про индейцев
- Природа и животные
Старинная литература
- Зарубежная старинная литература
- Прочая старинная литература
- Европейская старинная литература
- Мифы. Легенды. Эпос
- Античная литература
- Фольклор
- Древнерусская литература
- Древневосточная литература

Меню

Самые читаемые

Мачеха Золушки - попаданка - Мария Максонова

Десерт для мажора и Лисёны - Маргарита Аланина

30 золотых за истинную - Наталья Дорофеева

Мы сгорим вместе. Сводные. - Маргарита Аланина

RUSBOOK.SU » Компьютеры и Интернет » Программирование » Фундаментальные алгоритмы и структуры данных в Delphi - Джулиан Бакнелл

Фундаментальные алгоритмы и структуры данных в Delphi - Джулиан Бакнелл

Читать онлайн Фундаментальные алгоритмы и структуры данных в Delphi - Джулиан Бакнелл

Шрифт:

Интервал:

Закладка:

Сделать

1 ... 100 101 102 103 104 105 106 107 108 ... 119

Перейти на страницу:

Сжатие с использованием словаря

Вплоть до 1977 года, основные усилия в области исследования алгоритмов сжатия концентрировались вокруг алгоритмов кодирования с минимальной избыточностью, подобных алгоритмам Шеннона-Фано или Хаффмана, и были посвящены либо преобразованию их в динамические (чтобы таблица кодов не являлась частью сжатого файла), либо повышению быстродействия, уменьшению объема используемой памяти или увеличению эффективности. Затем неожиданно два израильских исследователя, Якоб Зив (Jacob Ziv) и Абрахам Лемпель (Abraham Lempel), представили принципиально иной метод сжатия и положили начало исследованиям в совершенно другом направлении. Их основная идея заключалась в кодировании не отдельных символов, а строк символов. Они задались целью использовать словарь ранее встречавшихся в сжимаемом файле фраз для кодирования последующих фраз.

Предположим, что имеется обычный словарь какого-либо языка. Каждое встречающееся в данном текстовом файле слово должно быть представлено в словаре. Если бы и программа сжатия, и программа восстановления имели доступ к электронной версии этого словаря, кодирование отдельных слов в текстовом файле можно было бы выполнить путем указания номера страницы и номера слова на этой странице. Вполне можно было считать, что 2-байтового целочисленного значения окажутся достаточно для хранения номеров страниц (найдется не особенно много словарей, содержащих более 65536 страниц), а байта должно быть достаточно для хранения номера слова на странице (как и в предыдущем случае, обычно на одной странице словаря приводится определение не более 256 слов). Следовательно, независимо от реальной длины слова в текстовом файле, оно замещалось бы тремя байтами. Понятно, что сжатие коротких слов, таких как "в", "из", "на" и тому подобных, приводило бы к увеличению размера сжатых данных, а не к уменьшению, однако большинство слов содержит три и больше букв. Поэтому, как правило, общий размер сжатого файла должен быть меньше размера исходного файла.

Описание сжатия LZ77

В основе алгоритма, разработанного Зивом и Лемпелем, лежит сжатие с использованием строк словаря. Однако вместо того, чтобы использовать статический, заранее сгенерированный словарь, предложенный ими алгоритм генерирует словарь "на лету", на основе данных, которые программа сжатия уже встретила во входном файле. А вместо использования номеров страниц и слов они предложили выводить значения расстояния и длины. Работа алгоритма выполняется следующим образом: в ходе считывания входного файла предпринимается попытка сопоставить набор символов в текущей позиции с чем-либо уже встречавшимся во входном файле. При обнаружении совпадения вычисляется расстояние совпадающей строки от текущей позиции и количество совпадающих байтов (длина). В случае обнаружения нескольких совпадений выбирается самое длинное из них.

Рассмотрим краткий пример. Предположим, что мы выполняем сжатие предложения:

a cat is a cat is a cat

Первый символ "а" не совпадает ни с одной уже встречавшейся строкой (да просто потому, что ни одна строка еще не встречалась!), поэтому мы выводим его в существующем виде в сжатый поток битов. Это же следовало бы сделать с последующим пробелом и символом "с". Следующий символ "а" совпадает с предшествующим символом "а", но на этом соответствие заканчивается. Мы не можем сопоставить никакие другие строки. Примем правило, что прежде чем делать что-нибудь другое, необходимо устанавливать соответствие не менее чем для трех символов. Поэтому мы выводим в выходной поток символ "а", а также символы "t", пробел, "i", "s" и пробел. Текущую ситуацию можно представить следующим образом:

-------+

a cat is I a cat is a cat

-------+^

где встретившиеся символы заключены в рамку (в программировании такую рамку называют скользящим окном (sliding window)), а текущая позиция обозначена знаком вставки ( ^ ).

Теперь становится действительно интересно. Набор символов "a cat is" в текущей позиции совпадает со строкой, уже встречавшейся ранее. Совпадающая строка начинается за девять символов до текущей позиции, причем совпадают девять символов. Поэтому можно вывести пару значений расстояние/длина, которые в данном случае представлены строкой < 9,9> (или определенной последовательностью битов), в выходной файл, а затем продвинуться на девять символов. Теперь текущее состояние можно представить следующим образом:

---------------+

a cat is a cat is I a cat

---------------+^

Но теперь снова набор символов в текущей позиции можно сопоставить с уже встречавшейся строкой. Можно сопоставить пять символов с пятью символами, расположенными либо на 9, либо на 18 символов раньше. Выберем первую возможность, <9,5>. В результате окончательно сжатый поток будет выглядеть следующим образом:

a cat is < 9,9> < 9,5>

Восстановление этого потока битов также не представляет особой сложности. В процессе восстановления мы строим буфер восстановленных символов, позволяющий декодировать пары значений расстояние/длина или коды. Литеральные символы в сжатом потоке выводятся в восстановленный поток в том виде, каком они записаны.

Первые девять символов в сжатом потоке являются литеральными, поэтому они выводятся в восстановленный поток в существующем виде. Одновременно создается буфер (называемый скользящим окном). На этом этапе буфер выглядит следующим образом:

--------+

a cat is I

--------+

Следующий код в сжатом потоке - пара расстояние/длина, <9,9>. Это означает, что нужно "вывести девять символов, расположенные в буфере в девяти байтах от его конца". Этими девятью символами являются "a cat is", поэтому они выводятся в восстановленный поток и добавляются в буфер. Иначе говоря, скользящее окно приобретает вид:

---------------+

a cat is a cat is |

---------------+

И снова, следующий код в сжатом потоке - пара расстояние/длина, < 9,5>. Уверен, что читатели без труда смогут выполнить декодирование, используя описанный буфер.

При рассмотрении этого небольшого примера мы по существу не нуждались в словаре, как таковом. Мы всего лишь воспользовались своим воображением для отыскания наиболее длинной строки в ранее просмотренном наборе символов. На практике ранее просмотренные фразы (или лексемы) нужно было бы добавлять в словарь (который в действительности представляет собой хеш-таблицу), а затем просматривать лексему в текущей позиции этого словаря и пытаться устанавливать соответствие с ранее встречавшимися символами.

Между прочим, определение буфера ранее встречавшихся символов как "скользящего окна" означает, что при попытке найти возможное соответствие рассматриваются только n байт. Обычно n равно 4 или 8 Кб (используемый в программе PKZIP алгоритм Deflate (понижения порядка) может использовать скользящее окно размером до 32 Кб). При перемещении текущей позиции вперед скользящее окно перемещается вперед по уже просмотренным данным. Возникает вопрос, зачем это делается? Почему бы не использовать весь ранее просмотренный текст? Ответ на этот вопрос обусловлен общей структурой текста. В общем случае считываемый и записываемый текст подчиняются так называемому правилу локальности ссылок (locality of reference). Это означает, что, как правило, в текстовом файле более вероятно совпадение близко расположенных символов, а не расположенных вдали друг от друга. Например, в романе описываемые действующие лица и места протекания событий обычно группируются в главы или разделы глав. В то же время часто используемые слова и фразы типа "и", "в" и "он сказал" могут встречаться в любом месте романа.

Для других текстов, таких как учебные пособия, подобные этому, также характерна локальность ссылок. Поэтому согласно правилу локальности ссылок имеет смысл ограничить объем ранее встречавшегося текста, просматриваемого с целью установки соответствия между строками. Еще одна веская причина ограничения размера скользящего окна связана с необходимостью замедлить сжатие с увеличением объема просматриваемого текста.

Теперь рассмотрим, как выполняется кодирование пары значений расстояние/ длина. До сих пор мы не обращали на это внимание, однако целесообразно сжимать их как можно больше. Если скользящее окно охватывает последние 4 Кб текста, значение расстояния можно закодировать 12 битами (2(^12^) как раз и составляет 4 Кб). Если максимальную длину проверяемых и сопоставляемых строк ограничить 15 символами, это значение можно закодировать 4 битами, а пару расстояние/длина - двумя полными байтами. Можно было бы использовать также окно с размером равным 8 Кб и максимум семь сопоставляемых символов, и при этом длина кода по-прежнему не превышала бы 2 байтов. Сжатый поток можно рассматривать как поток байтов, а не как явно более сложный поток битов, который мы использовали при генерировании кодов минимальной длины. Кроме того, если длину кодов значений расстояние/длина ограничить 2 байтами, можно сжимать строки, содержащие, по меньшей мере, три символа и совпадающие с какими-то уже встречавшимися строками, при этом не обращать внимания на совпадения одного или двух символов, поскольку сжиматься они не будут.

1 ... 100 101 102 103 104 105 106 107 108 ... 119

Перейти на страницу:

На этой странице вы можете бесплатно скачать Фундаментальные алгоритмы и структуры данных в Delphi - Джулиан Бакнелл торрент бесплатно.

Пожаловаться на ошибку