Compiler Construction Lecture 11/18

先週の復習

インタプリタとコンパイラの構造

まず、大ざっぱなインタプリタの構造を見てみよう。

コンパイラは実行の代わりにcode genration (コード生成)をおこなう。

インタプリタでも最初の方法では、例えば、loop (繰り返し)とかがあっても、その度ごとにtokenize, parse をおこなう必要がある。これはうれしくない。そこで、一旦結果をintermediate code (中間コード)に落とすことも良く行われている。

実際のコンパイラは、より複雑な構造をしている。

簡単なインタプリタ

とりあえず、簡単なインタプリタを作って見よう。簡単な四則演算(+,-,*,/,>) そして、一文字の変数(variable)への代入(assignemt)と参照(reference) だけを持つとする。例えば、以下のような式を計算できる。

1
1+2 // expr
2*3
1+(2*3)
1+2*3
3*2-3
1+10*10
(2+1030/2)-2
(255*07)+256
0+(1+(2+(3+(4+(5+(6+(7+8)))))))-(0+(1+(2+(3+(4+(5+(6+(7+8))))))))
100/10
a=1*3
b=2*3
a+b
a=(b=3*2)
a> 1
b
b> a

Tokenizer 字句解析

まず、単語の切り分けをおこなう。このルールは簡単で、

数字の続き
一文字の英字
その他の記号((+,-,*,/,>)

[0-9][0-9]*
[a-zA-Z]
[()=+-*/> ]

Tokenizer は、通常、そのtokenの型(type)と値(value)を返す。 token.c

実際には、適当な状態遷移(state transition)を作ってやれば良い。より複雑な例は、また、あとで見ることにしよう。

このプログラムでは、token()を呼びだすことにより以下ようにtypeとvalue が返る。

value 数値や変数に対応する値が入る大域変数
last_token tokenの型が入る。token()は、この型を返す。
- 'v' ... 変数
- '0' ... 数値 (int)
- '*'など ... その他のtoken

例えば、 (2+1030/a)-2 という式は以下のように分解される。

Parser 構文解析

式の構造を考えて見れば、構文解析も簡単である。式はいくつかの tokenのまとまりが、入れ子になった構造をしている。

この入れ子構造は、式を考えた時に実はruleとして既に頭の中にできているものである。これらのruleは、grammer rule (文法規則)と呼ばれる。grammer を表すのに、ここでは以下のような記号を使う。

expression :  arithmetic '=' expression
           |  arithmetic '>' expression
           |  arithmetic;    
arithmetic :  multiply '-' arithmetic
           |  multiply '+' arithmetic
           |  multiply;
multiply   :  term '*' multiply
           |  term '/' multiply;
           |  term;
term       :  VARIABLE | VALUE
           |  '(' expression ')';

parser は、このルールにだいたい対応したものを作れば良い。勝手な文法を作っても、このようなもので表されるならば、必ず、プログラムで構文解析できることはわかっている。(このような文法はCFG context free grammar と呼ばれている) しかし、効率的に構文解析できるとは限らない。また、このようにして記述された文法には曖昧さがあることもわかっている。つまり、一つの文を複数の方法で解釈できることもある。例えば、この部分を手助してくれるcompiler compilerとしてyaccというのがUnixにある。しかし、yacc は記述された文法をすべてプログラムに変換してくれるわけではない。また、yacc は曖昧な部分は指摘するが、勝手に解釈してしまう。

ここでは、手軽で、効率も良い構文解析である、Recursive Descent (再帰下降法) というのを用いる。これは、構文規則を、再帰呼び出しをおこなう関数に対応させる。呼びだされる規則が、その場で決まるように文法を作れば非常に効率の良い構文解析手法となる。一般的にいって、ほとんどの文法は、同等な決定的な文法に変換できる。しかし、Recursive Descentでは解析できないCFGの文法を考えることもできる。そのような文法も、文法規則の選択のやり直しを行うことにより構文解析することができる。しかし、それは文法を複雑にし、構文解析に必要な表や領域を拡大し、構文解析の手間も増やしてしまう。

Execution 実行

Recursive Descent は、式の評価に向いている。何故なら再帰呼び出しした関数が返す値を、そのまま式の値とすれば良いからである。常に、tokenは、一つ先読みすることにする。(このように一つ先読みを行うRecursive Descentで解析される文法をLL(1)と呼んでいる) するとtermの部分は以下のようにすれば良い。

int
term () 
{
    int d;
    token();                 /* token を一つ読む */
    switch(last_token) {
    case '0':                /* 数値だったら */
        d = value;           /* 値は value に入っている */
        token();             /* token を 一つ先読みして */
        return d;            /* その数値を返す。value は破壊される */
    ....
    }
}

このtermを使ってmultiplyは、

int
mexpr()
{
    int d;                 
    d = term();             /* term をまず計算する */
    switch(last_token) {    /* 先読みした結果が */
    case '*':               /* * だったら */
        d *= mexpr();       /* その先はmexprだから、それを計算して */
        return d;           /* それを d に掛けて、それを返す */
    ...
    }
}

int
mexpr()
{
    int d;                 
    d = term();             /* term をまず計算する */
    while(last_token!=EOF) {
	switch(last_token) {    /* 先読みした結果が */
	case '*':               /* * だったら */
	    d *= term();        /* どうせtermが呼ばれるので、それを呼びだす */
	    break;              /* d を持って、もう一度、*があるかどうか見る */
	...
	}
    }
}

全体のプログラムは、 s-calc.c のようになる。

s-input.txt に入力が用意してあるので、

% s-calc <  s-input.txt | more

実行の様子

この方法での実行では、変数dが特殊な役割を果たしている。この変数は、再帰呼び出しの途中での中間結果を保持していることになる。例えば、 a=2として、(2+1030/a)-2 を考えて見よう。再帰呼び出しの数だけ、 dが存在する。

                               d  d  d  d  d  d  d  d
     expr()                    ? 
     | aexpr()                 ?  ? 
     | | mexpr()               ?  ?  ? 
(    | | | term()              ?  ?  ?  ? 
     | | | | expr()            ?  ?  ?  ?  ?  
     | | | | | aexpr()         ?  ?  ?  ?  ?  ? 
     | | | | | | mexpr()       ?  ?  ?  ?  ?  ?  ?
2    | | | | | | | term()      ?  ?  ?  ?  ?  ?  ?  2
     | | | | | | |             ?  ?  ?  ?  ?  ?  2
+    | | | | | | aexpr()       ?  ?  ?  ?  ?  2  ? 
     | | | | | | | mexpr()     ?  ?  ?  ?  ?  2  ?  ?
1030 | | | | | | | | term()    ?  ?  ?  ?  ?  2  ?  ? 1030
     | | | | | | | | |         ?  ?  ?  ?  ?  2  ?  1030
/    | | | | | | | | mexpr()   ?  ?  ?  ?  ?  2  1030 ?
a    | | | | | | | | | term()  ?  ?  ?  ?  ?  2  1030 2
     | | | | | | | | |         ?  ?  ?  ?  ?  2  515
     | | | | | | | |           ?  ?  ?  ?  ?  517 
     | | | | | | |             ?  ?  ?  ?  517 
     | | | | | |               ?  ?  ?  517 
     | | | | |                 ?  ?  517 
     | | | |                   ?  517 
)-   | | aexpr()               ?  517  ?
     | | | mexpr()             ?  517  ?  ? 
2    | | | | term()            ?  517  ?  ?  2
     | | | |                   ?  517  ?  2
     | | |                     ?  517  2
     | |                       ?  515
     |                         515

? を省略すれば、木をたどりながら計算をする時に「とっておく必要のある値」がなにかがはっきりわかる。これは実際 stack をとっておく場所に使っている。Recursive call(再帰呼び出し)自身がstackを使って実現されているので、これはある意味では自明なことである。

(
2        2
+        2
1030     2      1030
/        2      1030
a        2      1030     2    =a
         2      515           =1030/2
)-       517                  =515+2
2        517    2
         515                  =517-2

これを手順で示すと、

(
2        2をしまう          2
+                           2
1030     1030をしまう       2    1030
/                           2    1030
a        aをしまう          2    1030   2  =a
         1030/2を計算       2    515       =1030/2
)-       515+2を計算        517            =515+2
2        2をしまう          517  2
         517-2を計算        515            =517-2

実際、6809の命令を使えば、

** (
        LDD   #2          2をload
        PSHS    D         それをしまう
** 2+
        LDD   #1030       1030 をload
        PSHS    D         それをしまう
** 1030/
        LDD    0,Y        a を呼びだす
        LDX    ,S++       stack から取り出したものをXに
        EXG    D,X        割り算の仕様に合わせてD,Xを交換
        LBSR   _DIVIDE    D = D/X
        ADDD   ,S++       今の値と、stackの先頭を足す。stackは一つ減る
        PSHS   D          それをしまう
** a)-
        LDD   #2          2をload
        SUBD ,S++         今の値と、stackの先頭から引く
        NEGA              引き算の順序が違うので負の数をとっている
        NEGB
        SBCA #0           これで負の数がとれた
        LBSR print

問題1

以下の式を木に変換して見よ。さらに、 6809の命令に落として見よ。

1+(3-2)
0+(1+(2+3))-(0+(1+(2+3)))

宿題1

s-calc.c の若干の改良を試みる。あとでコンパイラに書き換えることを前提にいくつかの機能をつけ加えて見よう。

termとして8進数や16進数 (楽勝)
-1 や -a (楽勝)
AND(&)やOR(|)の計算 (楽勝)
<<,>> などの算術シフト (楽勝)
Cの三項演算子a?b:c (コンパイルは難しい)
配列 (宣言を別にするのが簡単だろう)
手続き呼び出し (入力テキストをすべて取っておく必要がある)
浮動小数点 (全体的な改良が必要になる。すべの数を小数点で計算するのが楽だろう)

来週までに、実行結果と、変更した主要な部分をメールにして、 Compiler Construction Lecture 11/16 のSubjectを付けて kono@ie.u-ryukyu.ac.jp までメールすること。

Kono's home page http://bw-www.ie.u-ryukyu.ac.jp/~kono/