中文国产日韩欧美视频,午夜精品999,色综合天天综合网国产成人网,色综合视频一区二区观看,国产高清在线精品,伊人色播,色综合久久天天综合观看

總結(jié)

優(yōu)文網(wǎng)>范文庫>總結(jié)> 詞法分析小結(jié) -總結(jié)

我要投稿投訴建議

詞法分析小結(jié) -總結(jié)

時(shí)間：2024-11-23 11:38:53 總結(jié) 我要投稿

相關(guān)推薦

詞法分析小結(jié) -總結(jié)

詞法分析是編譯器工作的第一階段，它的工作就是從輸入（源代碼）中取得token，以作為parser（語法分析）的輸入，一般在詞法分析階段都會把一些無用的空白字符（white space，即空格、tab和換行）以及注釋剔除，以降低下一步分析的復(fù)雜度，詞法分析器一般會提供一個(gè)gettoken()這樣的方法，parser可以在做語法分析時(shí)調(diào)用詞法分析器的這個(gè)方法來得到下一個(gè)token，所以詞法分析器并不是一次性遍歷所有源代碼，而是采取這種on-demand的方式：只在parser需要時(shí)才工作，并且每次只取一個(gè)token，

詞法分析小結(jié)

。

詞法分析小結(jié) -總結(jié)

token和lexeme
　　首先，token不等于lexeme。token和lexeme的關(guān)系就類似于面向?qū)ο笳Z言中“類”和“實(shí)例”（或“對象”）之間的關(guān)系，這個(gè)用中文不知該如何解釋才好，比如語言中的變量a和b，它們都屬于同一種token：identifier，而a的lexeme是”a”，b則是”b”，而每個(gè)關(guān)鍵字都是一種token。token可以附帶有一個(gè)值屬性，例如變量a，當(dāng)調(diào)用詞法分析器的gettoken()時(shí)，會返回一個(gè)identifier類型的token，這個(gè)token帶有一個(gè)屬性“a”，屬性可以是多樣的，例如表示數(shù)字的token可以帶有一個(gè)表示數(shù)字值的屬性，它是整型的。

如下代碼：

int age = 23;

int count = 50;

可以依次提取出8個(gè)token：int(值為”int”)，id(值為”age”)，assign(值為”=”)，number(值為整型數(shù)值23)，int(值為”int”)，id(值為”count”)，assign(值為”=”)，number(值為50)

正則表達(dá)式
　　正則表達(dá)式可以用來描述字符串模式，例如我們可以用digit+來表示number的token，其中digit表示單個(gè)數(shù)字（這里說正則表達(dá)式并不完全和實(shí)現(xiàn)的正則引擎所識別的正則表達(dá)式等價(jià)，這里只是為了描述問題而已）。

然而像c語言的的多行注釋，用正則表達(dá)式來描述就比較麻煩，此時(shí)更傾向于直接用有窮自動機(jī)（finite automaton）來描述，因?yàn)橛盟鼇砻枋龇浅Ｖ庇^且很容易。

有窮自動機(jī)(finite automata)
　　有窮自動機(jī)也稱為有限狀態(tài)機(jī)，狀態(tài)在輸入字符的作用下發(fā)生遷移，因此，它可以用來識別token，也因此，我們只要畫得出fa，之后再用代碼實(shí)現(xiàn)這個(gè)fa，那詞法分析器也就差不多弄好了。

有窮自動機(jī)分確定性（dfa）和非確定性（nfa）兩種，如果對于同一個(gè)輸入，只會有一個(gè)確定的狀態(tài)遷移路線，也就是只有一個(gè)確定的“下一狀態(tài)”，那就是dfa，否則就是nfa。

因?yàn)閐fa對于同一個(gè)輸入只有一個(gè)確定的下一狀態(tài)，所以詞法分析器當(dāng)然優(yōu)先采用它，那nfa拿來干嘛用呢？nfa用來做描述用時(shí)更方便，我們可以非常迅速地畫出一個(gè)識別token的nfa圖，但要想直接畫出個(gè)dfa那要動不少腦筋。

根據(jù)正則表達(dá)式構(gòu)建nfa
　　如上所述，nfa更容易畫出，那我們就先研究nfa，在定義token時(shí)，我們可以用正則表達(dá)式來描述它，因?yàn)檎齽t表達(dá)式干這行很合適，例如一個(gè)digit+就可以描述數(shù)字，多方便。因此，我們需要根據(jù)正則表達(dá)式畫出與之等價(jià)的nfa。而這個(gè)算法非常簡單，就是tompson’s construction，這個(gè)書上寫得很清楚了。

將nfa轉(zhuǎn)化成dfa（nfa的確定化）
　　對于計(jì)算機(jī)來說，面對同一個(gè)輸入，如果有多個(gè)下一狀態(tài)，那計(jì)算機(jī)就不清楚要轉(zhuǎn)到哪個(gè)狀態(tài)，所以我們期望能從正則表達(dá)式得到dfa，而不是nfa，因?yàn)檫@樣將來編程實(shí)現(xiàn)時(shí)比較自然（同一輸入有確定的一個(gè)下一狀態(tài)），而幸運(yùn)的是，每個(gè)nfa都可以轉(zhuǎn)化成dfa。為什么nfa可以轉(zhuǎn)化成dfa？因?yàn)閒a(finite automata)中的狀態(tài)都是我們自己畫的，只要fa能正確的識別token，那就ok了，也就是，如果nfa和dfa都可以達(dá)到一樣的效果：識別token，那其它的我們就不管了。

而nfa確定化的本質(zhì)，就是將原來多個(gè)狀態(tài)改用一個(gè)狀態(tài)來表示，新狀態(tài)其實(shí)是一個(gè)狀態(tài)集，比如nfa中狀態(tài)s1在輸入a下可以到達(dá)s2和s3，那么，在dfa中，就把s2和s3合起來認(rèn)為是一個(gè)狀態(tài)。還有一個(gè)問題是nfa中的空轉(zhuǎn)換（?輸入），如果s1在?輸入下可以到達(dá)s2，就表示s1可以無條件地轉(zhuǎn)移到s2，那s1和s2自然可以合并起來作為dfa中的一個(gè)狀態(tài)，于是nfa轉(zhuǎn)dfa的算法也就好理解了。但首先得先定義下空閉包（?-closure）：

?-closure: 狀態(tài)s的?-closure即s經(jīng)過?轉(zhuǎn)換可以到達(dá)的狀態(tài)集，s的?-closure永遠(yuǎn)都會包含s自身，

總結(jié)

《詞法分析小結(jié)》(http://www.szmdbiao.com)。一個(gè)狀態(tài)集的?-closure即該狀態(tài)集中各狀態(tài)的?-closure的集合。

nfa確定化算法(subset construction)：

從開始狀態(tài)開始，計(jì)算它的?-closure，得到狀態(tài)集set1，然后考察set1在某個(gè)輸入a的作用下會遷移到哪些狀態(tài)，把這些狀態(tài)集中到一起，再求這個(gè)集合的?-closure，得到set2，這樣我們就可以畫兩個(gè)圈，一個(gè)標(biāo)上set1，另一個(gè)標(biāo)上set2，然后畫條從set1到set2的線把這兩圓連起來，在線上標(biāo)上a，這樣dfa的一部分就畫好了，然后我們再考察set1在其它輸入下可以達(dá)到的狀態(tài)集的?-closure，同樣畫圈連線，以此類推，最后的時(shí)候，把包含了原nfa中終結(jié)狀態(tài)（final state或acceptin state）的dfa狀態(tài)（在轉(zhuǎn)換后的dfa中，每個(gè)狀態(tài)都是包含了一個(gè)或多個(gè)原nfa中的狀態(tài)）標(biāo)記為終結(jié)狀態(tài)。

最小化dfa狀態(tài)數(shù)
　　由一個(gè)正則表達(dá)式，可以構(gòu)建出一個(gè)等價(jià)的nfa，然后nfa又可以確定化成dfa，似乎到此事情搞完了，但事實(shí)證明（有時(shí)也可以顯然地發(fā)現(xiàn)），最終構(gòu)成的這dfa似乎有些復(fù)雜，有些狀態(tài)好像很冗余，呃，是的，dfa是可以最小化的。

最小化dfa狀態(tài)數(shù)算法的思想是，在開始時(shí)，假設(shè)是最完美的情況，整個(gè)dfa只有兩個(gè)狀態(tài)，一個(gè)終結(jié)狀態(tài)，一個(gè)開始（難道不能有只有一種狀態(tài)的情況么？如果原dfa中存在非終結(jié)狀態(tài)，當(dāng)然就不能，非終結(jié)態(tài)怎么可以和終結(jié)態(tài)合并�。�(dāng)然，這是假設(shè)，不是真的，所以這個(gè)算法，就是在這個(gè)完美的假設(shè)下，對假設(shè)進(jìn)一步考察，如果發(fā)現(xiàn)有些狀態(tài)不能合并，那就分出來吧，這樣重復(fù)考察，直到發(fā)現(xiàn)沒有狀態(tài)會不能合并時(shí)，就做完了，此時(shí)不也正是最優(yōu)解么。

嗯，就是這個(gè)，所以一開始，我們把所有非終結(jié)狀態(tài)用一個(gè)袋子包起來，看成是一個(gè)狀態(tài)，把所有終結(jié)狀態(tài)也用另一袋子包起來，也看成是一個(gè)狀態(tài)，注意，別把原dfa中各狀態(tài)間的連線給扯斷了。然后，我們抽出其中一個(gè)袋子，考察其中的各個(gè)狀態(tài)，我們準(zhǔn)備好所有的可能輸入，然后逐個(gè)拿出來測試，如果該袋子中的所有狀態(tài)在某個(gè)輸入a下達(dá)到的狀態(tài)正好都在這個(gè)袋子中，那就說明，這個(gè)袋子中的這些狀態(tài)“在目前看來”是可以合并的，也就是說，如果在所有的可能輸入的作用下，袋子中的狀態(tài)達(dá)到的新狀態(tài)正好也都是這個(gè)袋子中的狀態(tài)，那它們就可以合并。而如果，在某個(gè)輸入a下，袋子中的一部分狀態(tài)會轉(zhuǎn)移到同一袋子中的其它狀態(tài)，而有幾個(gè)叛徒，假設(shè)是s1和s2，竟然在輸入a下會遷移到其它袋子中的狀態(tài)，那就說明s1和s2是不可以和其它轉(zhuǎn)移到同一袋子中的狀態(tài)合并的，于是，我們就把s1和s2裝成一個(gè)新袋子，從原袋子中分出來，當(dāng)然，現(xiàn)在還是假設(shè)s1和s2可以合并，所以才把它們裝一起，究竟真的可不可以合并呆會還要再考察。考察完輸入a，還要接著考察其它的可能輸入。如果在考察完一個(gè)袋子后，發(fā)現(xiàn)所有狀態(tài)在a輸入下都可以轉(zhuǎn)移到本袋子中的狀態(tài)，那么最后的dfa它們就被合并成一個(gè)狀態(tài)，并且在a輸入下，它有一個(gè)到自身的狀態(tài)遷移。

實(shí)現(xiàn)詞法分析器
　　對于一個(gè)token，比如用來表示數(shù)字的token：num，我們可以用正則表達(dá)式描述它，然后畫出nfa，再將nfa轉(zhuǎn)化成dfa，再最小化dfa的狀態(tài)，但是我們的詞法分析器是不是分析一個(gè)token，所以我們要把所有類型的token的dfa合并成一個(gè)dfa，這樣，這個(gè)dfa也就可以識別語言的所有token了，如果在某一連串的輸入下，dfa達(dá)不到終結(jié)狀態(tài)，那就說明源代碼有錯(cuò)誤了。

我用c#實(shí)現(xiàn)了一個(gè)用于《compiler construction: principles and practice》中tiny語言的詞法分析器，tiny語言有關(guān)鍵字：if, then, else, end, repeat, until, read, write，有操作符+，-，*，/，=，<，(，)，;，:=（全角逗號不算，是文章的分隔符）這10個(gè)，然后其余的token有number (一或多個(gè)數(shù)字)和identifier(一或多個(gè)字母)，其dfa如下圖：

上面這張圖和《編譯原理及實(shí)踐》中的一樣，其中的帶中括號的輸入說明這個(gè)輸入是lookahead的，在匹配成功后是要重新放回輸入流中的，比如識別num時(shí)，如果發(fā)現(xiàn)個(gè)非digit的，那就說明識別到了一個(gè)number，但是最后識別的那個(gè)非digit字符是要放回輸入流的，因?yàn)樗糁乱淮巫R別。

其中從start到done的那個(gè)other，指所有非white space，非{，非letter，非digit，也非:的字符，它有可能是合法的+, *, /這些，也可能是不合法的其它輸入，如#號。因此，done這個(gè)狀態(tài)只是說本次gettoken已經(jīng)結(jié)束，狀態(tài)機(jī)是有可能因?yàn)椴缓戏ǖ妮斎攵M(jìn)入done狀態(tài)的。究竟從start到done是因?yàn)楹戏ǖ�，�?號導(dǎo)致的，還是由不合法的如#號導(dǎo)致的，將在代碼中實(shí)現(xiàn)判斷，但可以肯定的是，不管是+號還是#號作用于start狀態(tài)，都會進(jìn)入done狀態(tài)。

【詞法分析小結(jié) -總結(jié)】相關(guān)文章：

分析評議階段小結(jié)02 -總結(jié)08-11

分析評議階段個(gè)人小結(jié) -總結(jié)08-24

國土資源局先進(jìn)性教育分析評議階段工作小結(jié) -總結(jié)08-02

國土資源局先進(jìn)性教育分析評議階段工作小結(jié) -總結(jié)07-21

軍訓(xùn)小結(jié)范文 -總結(jié)09-23

學(xué)期小結(jié)范文 -總結(jié)06-08

客房工作小結(jié) -總結(jié)07-22

黨課學(xué)習(xí)小結(jié) -總結(jié)07-31

個(gè)人小結(jié) -總結(jié)07-29

晚會工作小結(jié) -總結(jié)08-05