Реферат: Алгоритм Кнута-Морриса-Пратта

Алгоритм Кнута — Морриса — Пратта

Алгоритм Кнута-Морриса-Пратта (КМП)получает на вход слово

X=x[1]x[2]…x[n]

и просматривает его слева направо букваза буквой, заполняя при этом массив натуральных чисел l[1]… l[n], где

l[i]=длинаслова l(x[1]… х[i])

(функция l определена в предыдущемпункте). Словами: l[i] есть длина наибольшего начала слова x[1]...x[i],одновременно являющегося его концом.

Какое отношение все это имеетк поиску подслова?

Другими словами, как использоватьалгоритм КМП для определения того, является ли слово A подсловом слова B?

Решение

.Применим алгоритм КМП к слову A#B, где # — специальная буква, не встречающаясяни в A, ни в B. Слово A является подсловом слова B тогда и только тогда, когдасреди чисел в массиве l будет число, равное длине слова A.

Описать алгоритм заполнениятаблицы l[1]...l[n].

Решение

.Предположим, что первые i значений l[1]...l[i] уже найдены. Мы читаем очереднуюбукву слова (т.е. x[i+1]) и должны вычислить l[i+1].

Другими словами, нас интересуют начала Zслова

x[1]...x[i+1,

одновременно являющиеся его концами -изних нам надо брать самое длинное. Откуда берутся эти начала? Каждое из них (несчитая пустого) получается из некоторого слова Z' приписыванием буквы x[i+1].Слово Z' является началом и

концом слова x[1]...x[i]. Однако нелюбое слово, являющееся началом и концом слова x[1]...x[i], годится — надо,чтобы за ним следовала буква x[i+1].

Получаем такой рецепт отыскания слова Z. Рассмотрим все начала словаx[1]...x[i], являющиеся одновременно его концами. Из них выберем подходящие — те, за которыми идет буква x[i+1]. Из подходящих выберем самое длинное.Приписав в его конец х[i+1], получим искомое слово Z. Теперь поравоспользоваться сделанными нами приготовлениями и вспомнить, что все слова, являющиесяодновременно началами и концами данного слова, можно получить повторнымиприменениями к нему функции l из предыдущего раздела.

Вот что получается:

i:=1; 1[1]:=0;

{таблицаl[1]..l[i] заполнена правильно}

while i<> n do begin

len:= l[i]

{len — длинаначала слова x[1]..x[i], которое является

его концом;все более длинные начала оказались

неподходящими}

while(x[len+1]<>х[i+1]) and (len>0) do begin

{начало неподходит, применяем к нему функцию l}

len:=l[len];

end;

{нашлиподходящее или убедились в отсутствии}

ifx[len+1]=x[i+1] do begin

{х[1]..x[len]- самое длинное подходящее начало}

l[i+1]:=len+1;

end else begin

{подходящихнет}

l[i+1]:= 0;

end;

i:=i+1;

end;

Доказать, что число действийв приведенном только что алгоритме не превосходит Cn для некоторой константы C.

Решение

.Это не вполне очевидно: обработка каждой очередной буквы может потребоватьмногих итераций во внутреннем цикле. Однако каждая такая итерация уменьшает lenпо крайней мере на 1, и в этом случае l[i+1] окажется заметно меньше l[i]. Сдругой стороны, при увеличении i на единицу величина l[i] может возрасти неболее чем на 1, так что часто и сильно убывать она не может — иначе убывание небудет скомпенсировано возрастанием.

Более точно, можно записать неравенство

l[i+1]<l [i] — (число итераций на i-м шаге)+1

или

(число итераций на i-м шаге)<= l[i]-l[i+1]+1

Остается сложить эти неравенства по всемi и получить оценку

сверху для общего числа итераций.

Будем использовать этоталгоритм, чтобы выяснить, является ли слово X длины n подсловом слова Y длиныm. (Как это делать с помощью специального разделителя #, описано выше.) Приэтом число действий будет не более C(n+m}, и используемая память тоже.Придумать, как обойтись памятью не более Cn (что может быть существенно меньше,если искомый образец короткий, а слово, в котором его ищут — длинное).

Решение

.Применяем алгоритм КМП к слову А#В. При этом: вычисление значений l[1],...,l[n] проводим для слова X длины n и запоминаем эти значения. Дальше мы помнимтолько значение l[i] для текущего i — кроме него и кроме таблицы

l[1]...l[n], нам для вычислений ничегоне нужно.

На практике слова X и Y могут не находиться подряд, поэтому просмотрслова X и затем слова Y удобно оформить в виде разных циклов. Это избавляеттакже от хлопот с разделителем.

Написать соответствующийалгоритм (проверяющий, является ли слово X=x[1]...x[n] подсловом словаY=y[1]...y[m]

Решение

.Сначала вычисляем таблицу l[1]...l[n]как раньше. Затем пишем такую программу:

j:=0; len:=0;

{len — длинамаксимального качала слова X, одновременно

являющегося концом слова y[1]..j[j]}

while(len<>n) and (j<>m) do begin

while(x[len+1]<>у[j+1]) and (len>0) do begin

{начало неподходит, применяем к нему функцию l}

len: = l[len];

end;

{нашлиподходящее или убедились в отсутствии}

ifx[len+1]=y[j+1] do begin

{x[1]..x[len]- самое длинное подходящее начало}

len:=len+1;

end else begin

{подходящихнет}

len:=0;

end;

j:=j+1;

end;

{если len=n,слово X встретилось; иначе мы дошли до конца

слова Y, так ине встретив X}

Алгоритм Бойера — Мура

Этот алгоритм делает то, что на первый взгляд кажется невозможным: втипичной ситуации он читает лишь небольшую часть всех букв слова, в которомищется заданный образец. Как так может быть? Идея проста. Пусть, например, мыищем образец abcd. Посмотрим на четвертую букву слова: если, к примеру, этобуква e, то нет никакой необходимости читать первые три буквы. (В самом деле, вобразце буквы e нет, поэтому он может начаться не раньше пятой буквы.)

Мы приведем самый простой вариант этого алгоритма, который негарантирует быстрой работы во всех случаях. Пусть x[1]… х[n] — образец,который надо искать. Для каждого символа s найдем самое правое его вхождение вслово X, то есть наибольшее k, при котором х[k]=s. Эти сведения будем хранить вмассиве pos[s]; если символ s вовсе не встречается, то нам будет удобноположить pos[s]=0 (мы увидим дальше, почему).

Как заполнить массив pos?

Решение.

положить все pos[s] равными 0

for i:=1 to ndo begin

pos[x[i]]:=i;

end;

В процессе поиска мы будем хранить впеременной last номер буквы в слове, против которой стоит последняя букваобразца. Вначале last=n (длина образца), затем last постепенно увеличивается.

last:=n;

{всепредыдущие положения образца уже проверены}

<img src="/cache/referats/495/image002.gif" v:shapes="_x0000_s1026">whilelast<= m do begin {слово не кончилось}

<img src="/cache/referats/495/image003.gif" v:shapes="_x0000_s1027"> if x[m]<>y[last] then begin{последние буквы разные}

last:=last+(n-pos[y[last]]);

{n — pos[y[last]] — это минимальныйсдвиг образца,

при котором напротив y[last]встанет такая же

буква в образце. Если такойбуквы нет вообще,

то сдвигаем на всю длинуобразца}

end else begin

если нынешнееположение подходит, т.е. если

x[i]… х[n]=y[last-n+1]..y[last],

то сообщить о совпадении;

last:=last+1;

end;

end;

Знатоки рекомендуют проверку совпаденияпроводить справа налево, т.е. начиная с последней буквы образца (в которойсовпадение заведомо есть). Можно также немного сэкономить, произведя вычитание заранееи храня не pos[s], а n-pos[s],

т.е. число букв в образце справа отпоследнего вхождения буквы Возможны разные модификации этого алгоритма.Например, можно строку

last:=last+i

заменить на

last:=last+(n-u),

где u — координата второго справавхождения буквы x[n] в образец.

Какпроще всего учесть это в программе

Решение. При построении таблицы posнаписать

for i:=1 ton-1 do...

(далее как раньше), а в основнойпрограмме вместо

last:=last+1

написать

last:=last+n-pos[y[last]];

Приведенный упрощенный вариант алгоритмаБойера-Мура в некоторых случаях требует существенно больше n действий (числодействий порядка mn), проигрывая алгоритму Кнута-Морриса-Пратта.

Примерситуации, в которой образец не входит в слово, но алгоритму требуетсяпорядка mn действий, чтобы это установить.

Решение

.Пусть образец имеет вид baaa… aa, а само слово состоит только из букв а.Тогда на каждом шаге несоответствие выясняется лишь в последний момент.

Настоящий (не упрощенный) алгоритмБойера-Мура гарантирует, что число действий не превосходит C(m+n) в худшемслучае. Он использует идеи, близкие к идеям алгоритма Кнута-Морриса-Пратта.Представим себе, что мы сравнивали образец со входным словом, идя справаналево. При этом некоторый кусок Z (являющийся концом образца) совпал, а затемобнаружилось различие: перед Z в образце стоит не то, что во входном слове. Чтоможно сказать в этот момент о

входном слове? В нем обнаружен фрагмент,равный Z, а перед ним стоит не та буква, что в образце. Эта информация можетпозволить сдвинуть образец на несколько позиций вправо без риска пропустить еговхождение. Эти сдвиги следует вычислить заранее для каждого конца Z нашегообразца. Как говорят знатоки, все это (вычисление таблицы сдвигов и ееиспользование) можно уложить в C(m+ n) действий.

Алгоритм Рабина

Этот алгоритм основан на простой идее. Представим себе, что в словедлины m мы ищем образец длины n. Вырежем окошечко размера n и будем двигать егопо входному слову. Нас интересует, не совпадает ли слово в окошечке с заданным

образцом. Сравнивать по буквам долго.Вместо этого фиксируем некоторую функцию, определенную на словах длины n. Еслизначения этой функции на слове в окошечке и на образце различны, то совпадениянет. Только если значения одинаковы, нужно проверять совпадение по буквам.

В чем выигрыш при таком подходе. Казалось бы, ничего — ведь чтобывычислить значение функции на слове в окошечке, все равно нужно прочесть всебуквы этого слова. Так уж лучше их сразу сравнить с образцом. Тем не менеевыигрыш возможен, и вот за счет чего. При сдвиге окошечка слово не меняетсяполностью, а лишь добавляется буква в конце и убирается в начале. Хорошо бы,чтобы по этим данным можно было рассчитать, как меняется функция.

Привести пример

удобной для вычисления функции.

Решение

.Заменим все буквы в слове и образце их номерами, представляющими собой целыечисла. Тогда удобной функцией является сумма цифр. (При сдвиге окошечка нужнодобавить новое число и вычесть пропавшее.)

Для каждой функции существуют слова, к которым она применима плохо. Затодругая функция в этом случае может работать хорошо. Возникает идея: надозапасти много функций и в начале работы алгоритма выбирать из них случайную. (Тогда враг, желающий подгадить нашемуалгоритму, не будет знать, с какой именно функцией ему бороться.)

Привести пример семейства удобныхфункций.

Решение

.Выберем некоторое число p (желательно простое, смотри далее) и некоторый вычетx по модулю p. Каждое слово длины n будем рассматривать как последовательностьцелых чисел (заменив буквы кодами). Эти числа будем рассматривать каккоэффициенты многочлена степени n-1 и вычислим значение этого многочлена помодулю p в точке x. Это и будет одна из функций семейства (для каждой пары p иx получается, таким образом, своя функция). Сдвиг окошка на 1 соответствуетвычитанию старшего члена (хn-1 следует вычислить заранее), умножениюна x и добавлению свободного члена.

Следующее соображение говорит в пользу того, что совпадения не слишкомвероятны. Пусть число p фиксировано и к тому же простое, а X и Y — дваразличных слова длины n. Тогда им соответствуют различные многочлены (мыпредполагаем, что коды всех букв различны — это возможно, если p больше числабукв алфавита). Совпадение значений функции означает, что в точке x эти дваразличных многочлена совпадают, то есть их разность обращается в 0. Разностьесть многочлен степени n-1 и имеет не более n-1 корней. Таким образом, если имного меньше p, то случайному x мало шансов попасть в неудачную точку.

еще рефераты

Еще работы по программированию, базе данных

Реферат по программированию, базе данных

Динамические объекты

29 Августа 2013

Реферат по программированию, базе данных

Информатика

29 Августа 2013

Реферат по программированию, базе данных

Распознавание речи

29 Августа 2013

Реферат по программированию, базе данных

Взаимодействия с ЭВМ на естественном языке

29 Августа 2013