正規表現とオートマトン

正規表現は、Automaton と同じ言語であることが期待される。つまり、

　正規表現から、それと同じ language を受け付ける Automaton 　Automaonから、それと同じ language を受け付ける正規表現

を作ればよい。

ε遷移と非決定性オートマトンの合成による方法

教科書にはこの方法が記述されている。

文字の入力がなくても状態遷移が可能であるとすると、オートマトンの組合せが楽になる。

文字を消費しない遷移を ε遷移と言う。ε遷移可能な状態をまとめて一つの状態と見れば、ε遷移のないNFAに変換できる。

そして、それを subset construction で DFA にすれば良い。

実際に、M-Concat などで合成を実行することができる。

しかし、もう少し直接的な方法も存在する。

微分法

ある正規表現を考えた時に、それを

　　空列を受け付けるかどうか　　個々の文字列を一文字受け付けたらどうなるか

と考える。

まず空列を受け付けるかどうか判定する。

    empty? : Regex  Σ → Bool
    empty?  ε       = true
    empty?  φ       = false
    empty? (x *)    = true
    empty? (x & y)  = empty? x /\ empty? y
    empty? (x || y) = empty? x \/ empty? y
    empty? < x >    = false

正規表現の変形を実行する

    derivative :  Regex  Σ → Σ → Regex  Σ
    derivative ε s = φ
    derivative φ s = φ
    derivative (x *) s with derivative x s
    ... | ε = x *
    ... | φ = φ
    ... | t = t & (x *)
    derivative (x & y) s with empty? x
    ... | true with derivative x s | derivative y s
    ... | ε | φ = φ
    ... | ε | t = y || t
    ... | φ | t = t
    ... | x1 | φ = x1 & y
    ... | x1 | y1 = (x1 & y) || y1
    derivative (x & y) s | false with derivative x s 
    ... | ε = y
    ... | φ = φ
    ... | t = t & y
    derivative (x || y) s with derivative x s | derivative y s
    ... | φ | y1 = y1
    ... | x1 | φ = x1
    ... | x1 | y1 = x1 || y1
    derivative < x > s with eq? x s
    ... | yes _ = ε
    ... | no  _ = φ

ここで、

     eq? : (x y : Σ) → Dec (x ≡ y)

があることを使っている。

これの繰り返しで選れる正規表現の集合を data を使って表現できる。

    data regex-states (x : Regex  Σ ) : Regex  Σ → Set where
        unit   : regex-states x x
        derive : { y : Regex  Σ } → regex-states x y → (s : Σ)  → regex-states x ( derivative y s )
    record Derivative (x : Regex  Σ ) : Set where
        field
           state : Regex  Σ
           is-derived : regex-states x state

これを状態にして Automaton を構成できる。

    regex→automaton : (r : Regex   Σ) → Automaton (Derivative r) Σ
    regex→automaton r = record { δ = λ d s → record { state = derivative (state d) s 
            ; is-derived = derive-step d s} ; aend = λ d → empty? (state d) }  where
        derive-step : (d0 : Derivative r) → (s : Σ) → regex-states r (derivative (state d0) s)
        derive-step d0 s = derive (is-derived d0) s

実際に match を実行するには以下のようにする。

    regex-match : (r : Regex   Σ) →  (List Σ) → Bool
    regex-match ex is = accept ( regex→automaton ex ) record { state =  ex ; is-derived = unit } is

ここではいくつかの問題が残っている。

　　生成される状態は有限か? (つまり微分法は停止するのか)

停止するかどうかに関係なく、regex-match は具体的な有限文字列に対して実行可能である。

ただし、Agda では具体的ではない文字列も用意できる。

    微分法で定義した Automaton は、正規表現でしていされた言語に一致するのか?

これも証明する必要がある。

オートマトンから正規表現を生成する

状態遷移の条件を正規表現した一般化オートマトンを考える。

普通のオートマトンから始めて、状態を組み合わせて遷移条件を正規表現にしていく。

状態が一つになったら正規表現が得られる。

実際の正規表現エンジン

grep のソースコード

Boyer-Moore Search

固定文字列を検索するなら、正規表現よりも高速な手法がある。

例えば、engine を検索するとする。

　　6文字目がeでなければ、先頭の文字列からengineであることはない

なので、6文字見なくてもだめなことはわかる。しかし、7文字目からengineを探すと、

　　xxxxxn 　　the engine

を見落とす可能性がある。つまり、

　　6文字目が検索文字列に含まれる文字列だと途中からマッチする可能性がある

何文字目からマッチする可能性があるかは、あらかじめ調べることができる。

　　e 6文字目　　n 2文字目　　g 3文字目　　i 4文字目　　? 7文字目

これを繰り返せば良い。

　　.*engine

をDFAに変換して探す場合とどれくらい速度が違うか調べてみよう。

複数文字列に対する Boyer-Moore Search

問題6.1 正規表現の決定性オートマトンへの変換

例題