一、KMP算法
KMP 是一個(gè)解決模式串在文本串是否出現(xiàn)過,如果出現(xiàn)過,較早出現(xiàn)的位置的經(jīng)典算法。
Knuth-Morris-Pratt 字符串查找算法,簡稱為 “KMP 算法”,常用于在一個(gè)文本串 S 內(nèi)查找一個(gè)模式串 P 的出現(xiàn)位置,這個(gè)算法由Donald Knuth、Vaughan Pratt、James H. Morris 三人于 1977 年聯(lián)合發(fā)表,故取這 3 人的姓氏命名此算法。
KMP 方法算法就利用之前判斷過的信息,通過一個(gè) next 數(shù)組,保存模式串中前后最長公共子序列的長度,每次回溯時(shí),通過 next 數(shù)組找到,前面匹配過的位置,省去了大量的計(jì)算時(shí)間。
KMP算法可以在時(shí)間復(fù)雜度為O(m+n)的時(shí)間數(shù)量級(jí)上完成模式匹配操作。
其不同點(diǎn)在于,在匹配失敗之后,不需要回溯i指針,而是利用已經(jīng)“部分匹配”的結(jié)果,將模式串T向右滑動(dòng)盡可能遠(yuǎn)的距離。KMP 算法用了一種聰明的辦法,當(dāng)發(fā)現(xiàn)字符串不匹配的時(shí)候,并不會(huì)從頭開始比較,因?yàn)橹耙呀?jīng)匹配成功的字符可以給我們提供一些有用的信息,利用這個(gè)信息我們可以將子串移動(dòng)到某個(gè)位置,并從這個(gè)位置直接開始比較,它的時(shí)間復(fù)雜度降到2個(gè)字符串的長度之和。
延伸閱讀:
二、字符串的前綴和后綴
首先我們需要知道字符串的前綴和后綴:
對(duì)于字符串 ababc 來說,它的前綴有 [a,ab,aba,abab],也就是以字符串名列前茅個(gè)字符作為開頭,同時(shí)不包括最后一個(gè)字符的所有子串,同理它的后綴有 [c,bc,abc,babc],也就是以字符串最后一個(gè)字符作為結(jié)尾,同時(shí)不包括名列前茅個(gè)字符的所有字串。
了解了這個(gè),我們?cè)賮碚f什么是字符串的最長公共前后綴,說白了,也就是前綴和后綴這 2 個(gè)集合中的相同部分,同時(shí)取最長的那個(gè),就是這個(gè)字符串的最長公共前后綴。顯然,在這個(gè)例子中,ababc 是沒有公共前后綴的。但是對(duì)于 abab,它的前綴和后綴分別是 [a,ab,aba] 和 [b,ab,bab],那么它的最長公共前后綴就是 ab。