前缀是指从串首开始到某个位置 i 结束的一个特殊子串。字符串 S 的以 i结尾的前缀表示为
\begin{array}{c} prefix(S,i) = S[0..i] \end{array}
真前缀指除了 S 本身的 S 的前缀。
后缀是指从某个位置 i 开始到整个串末尾结束的一个特殊子串。字符串 S的从 i 开头的后缀表示为
\begin{array}{c} suffix(S,i) = S[i..|S|-1] \end{array}
真后缀指除了 S 本身的 S 的后缀。
给定一个长度为 n的字符串 s,其前缀函数定义为一个长度为 n的数组\pi。其中 \pi[i] 含义为:
\begin{array}{c} \pi[i] = max\{k_j\} \end{array}
\begin{array}{c} \pi[i] = 0 \end{array}
对于字符串 s 和 0 \lt p \leq |s|,若 s[i] = s[i+p] 对于所有i \in [0, |s|-p-1] 成立,则称 p 是 s 的周期。
对于字符串 s和 0 \leq r \lt |s|,若s 长度为r 的前缀和长度为r 的后缀相等,就称 s 长度为r 的前缀(后缀)是 s 的 border 。
【注】易知前缀函数 \pi[i] 对应的就是字符串 s[0..i]的最长 border 的长度。
根据前缀函数的定义我们可以发现,相邻的前缀函数值至多增加 1 ,故可以得到字符串 s 的前缀函数的计算公式:
\begin{array}{c} \pi[i] = \pi[i-1] + 1 \end{array}
\begin{array}{c} \pi[i] = \begin{cases} 0 & if \ s[i] \ne s[j] \\ j + 1 & if \ s[i] = s[j] \end{cases} \end{array}
【注】计算字符串的前缀函数的思想和 KMP 算法中计算字符串失配数组的思想非常相似。
前缀函数可以用来实现 KMP 算法,思路为:拼接模式串 s 和主串 t,得到 S = s + \# + t,\# 为不在 s 和 t中出现的字符。设
\begin{array}{c} m = |s| \\ n = |t| \end{array}
计算拼接后的字符串 S 的前缀函数,当出现 i \gt m \wedge \pi[i] = m时,说明此时模式串匹配上了主串的子串 t_{i-2m} \cdots t_{i-m-1}。
整个算法时间复杂度为 O(n+m) 。
根据上文中给出的性质,可以很容易求出字符串 s 的字符串周期 & border。假设 |s| = m,则可以在 O(m)时间内求出 s 的所有周期 & border。
ll ans[MAXN]; // 对应长度的前缀在字符串中出现的次数
void getAns(ll m) {
// ans[0] 没有实际意义
for(ll i = 0; i < m; ++i) ++ans[pi[i]];
for(ll i = m-1; i; --i) ans[pi[i-1]] += ans[i];
for(ll i = 0; i <= m; ++i) ++ans[i];
}
ll ans[MAXN]; // 对应长度的前缀在字符串中出现的次数
void getAns(ll m, ll n) {
// ans[0] 没有实际意义
// 只统计字符串 t 中的
for(ll i = m+1; i < n+m+1; ++i) ++ans[pi[i]];
for(ll i = m; i; --i) ans[pi[i-1]] += ans[i];
}
给定字符串 s,其长度|s| = m,计算 s 中不同的子串的数目。
【注】从头部添加、头部移除或尾部移除后计算不同子串的思想类似。
根据上文的性质可知,如果计算出 s 的前缀函数之后,s的最小周期为k = n - \pi[n-1]。由字符串的周期的定义可知,最后字符串 s删去每段周期长度的字符串后,剩余的最后一段字符串长度不一定是 k。故如果k | n,则 k即是t 的长度,否则不存在一个有效的压缩,即 t的长度为 n。
#include <bits/stdc++.h>
using namespace std;
#ifndef _PREFIXFUNCTION_
#define _PREFIXFUNCTION_
#define ll int
#define MAXN 1000005
// 前缀函数
struct PrefixFunction {
ll cnt; // 字符串的 border(或周期)个数
ll pi[MAXN]; // 前缀函数
ll border[MAXN]; // border 长度数组(从大到小)
ll period[MAXN]; // 周期数组(从小到大)
PrefixFunction(): cnt(0) {}
// 计算前缀函数
void getPi(char *str, ll n) {
pi[0] = 0;
ll i = 1, j = pi[i-1];
while(i < n) {
if(str[i] == str[j]) {
pi[i++] = j++ + 1;
} else if(!j) {
pi[i++] = j;
} else {
j = pi[j-1];
}
}
}
// 计算所有 border 的长度
void getBorder(ll n) {
ll count = 0;
ll j = pi[n-1];
while(j) {
border[count++] = j;
j = pi[j-1];
}
cnt = count;
}
// 计算所有周期
void getPeriod(ll n) {
ll count = 0;
ll j = pi[n-1];
while(j) {
period[count++] = n - j;
j = pi[j-1];
}
cnt = count;
}
};
#endif