- dalsza praca nad zlepianiem segmentów (dodanie automatu, który ją obsługuje, j…

…eszcze trzeba tylko zacząć go właściwie używać) git-svn-id: svn://svn.nlp.ipipan.waw.pl/morfeusz/morfeusz@92 ff4e3ee1-f430-4e82-ade0-24591c43f1fd

- dalsza praca nad zlepianiem segmentów (dodanie automatu, który ją obsługuje, j…
…eszcze trzeba tylko zacząć go właściwie używać) git-svn-id: svn://svn.nlp.ipipan.waw.pl/morfeusz/morfeusz@92 ff4e3ee1-f430-4e82-ade0-24591c43f1fd
Michał Lenart
1 parent 38b37844
Showing 19 changed files with 381 additions and 81 deletions
CMakeLists.txt
doc/fileFormat.odt
input/segmenty.dat
morfeusz/CMakeLists.txt
morfeusz/Morfeusz.cpp
morfeusz/Morfeusz.hpp
morfeusz/Tagset.cpp
morfeusz/fsa/const.cpp
morfeusz/fsa/const.hpp
morfeusz/fsa/fsa.hpp
morfeusz/fsa/fsa_impl.hpp
morfeusz/fsa/simplefsa_impl.hpp
morfeusz/fsa/state_impl.hpp
morfeusz/fsa/test_recognize.cpp
morfeusz/segrules/SegrulesDeserializer.cpp
morfeusz/segrules/SegrulesDeserializer.hpp
morfeusz/segrules/segrules.cpp
morfeusz/segrules/segrules.hpp
nbproject/configurations.xml
@@ -43,6 +43,11 @@ if (&quot;${INPUT_TAGSET}&quot; STREQUAL &quot;&quot;)
    set (INPUT_TAGSET ${PROJECT_SOURCE_DIR}/input/polimorf.tagset)
 endif ()
  
+# SEGMENT_RULES_FILE
+if ("${SEGMENT_RULES_FILE}" STREQUAL "")
+   set (SEGMENT_RULES_FILE ${PROJECT_SOURCE_DIR}/input/segmenty.dat)
+endif ()
+
 message ("Will use ${INPUT_DICTIONARY} as default input dictionary and ${INPUT_TAGSET} as tagset")
  
 # TARGET_DIR
+[options]
+aggl=permissive strict isolated
+praet=split composite
+
+[combinations]
+#define wsz_interp (interp|kropka|dywiz)*
+
+#define moze_interp(segmenty) wsz_interp segmenty wsz_interp
+
+# Segmenty występujące samodzielnie:
+#
+# domyślny typ segmentu samodzielnego:
+moze_interp(samodz)
+
+# segment samotny, który nie dopuszcza nawet znaku interpunkcyjnego po
+# sobie
+samotny
+
+# przeszlik pojedynczy w formie nieaglutynacyjnej, np. „gniótł”:
+moze_interp(praet_sg_na)
+
+# przeszlik pojedynczy w formie niezróżnicowanej aglutynacyjnie, np. „czytał”:
+moze_interp(praet_sg)
+
+# przeszlik mnogi, np. „czytali”:
+moze_interp(praet_pl)
+
+# partykuła „by”:
+moze_interp(by)
+
+# inne segmenty, które dopuszczają po sobie aglutynant,
+# np. „powininna”, „czyżby”:
+moze_interp(z_aglt)
+
+# forma przymiotnikowa (dopuszcza adja):
+moze_interp(adj)
+
+# dywiz (jako samodzielny segment jest tyko błędnym użyciem w funkcji
+# myślnika, ale trzeba to dopuścić):
+dywiz
+
+#ifdef isolated
+adja
+#endif
+
+
+# Połączenia z aglutynantami:
+#
+#ifdef split
+# Czas przeszły:
+# np. „gniotł·am”
+moze_interp( praet_sg_agl aglsg )
+# np. „czytał·em”
+moze_interp(praet_sg aglsg)
+# np. „czytali·ście”
+moze_interp(praet_pl aglpl)
+
+# Tryb warunkowy:
+# np. „gniótł·by”
+moze_interp(praet_sg_na by)
+# np. „czytało·by”
+moze_interp(praet_sg by)
+# np. „gnietli·by”
+moze_interp(praet_pl by)
+# np. „gniótł·by·ś”
+moze_interp(praet_sg_na by aglsg)
+# np. „czytał·by·m”
+moze_interp(praet_sg by aglsg)
+# np. „gnietli·by·śmy”
+moze_interp(praet_pl by aglpl)
+#else
+moze_interp(praetcond)
+#endif
+# np. „by·ś”
+moze_interp(by aglsg)
+# np. „by·ście”
+moze_interp(by aglpl)
+
+# np. „gdyby·m”
+moze_interp(z_aglt aglsg)
+# np. „gdyby·ście”
+moze_interp(z_aglt aglpl)
+
+# To jest dużo za dużo, ale tytułem eksperymentu:
+#ifdef permissive
+moze_interp(samodz aglsg)
+moze_interp(samodz aglpl)
+#endif
+
+# Złożone formy przymiotnikowe
+# np. „biało·-·czerwony”
+moze_interp( (adja dywiz)+ adj )
+# poniższe załatwione przez + powyżej:
+# # np. „niebiesko·-·biało·-·czerwona”
+# adja dywiz adja dywiz adj interp?
+# # itd. (zatrzymujemy się pragmatycznie na 5 członach)
+# adja dywiz adja dywiz adja dywiz adj interp?
+# adja dywiz adja dywiz adja dywiz adja dywiz adj interp?
+
+# Stopień najwyższy:
+# np. „naj·zieleńszy”, „naj·mądrzej”
+moze_interp( naj> adj_sup )
+
+# Formy „zanegowane” gerundiów i imiesłowów:
+# np. „nie·czytanie”, „nie·przeczytany”, „nie·czytający”:
+moze_interp( nie> negat )
+
+# Przyimki akceptujące krótką formę „-ń”
+moze_interp(z_on_agl)
+# np. „do·ń”
+moze_interp(z_on_agl on_agl)
+
+# Liczba zapisana jako ciąg cyfr:
+moze_interp( dig>* dig )
+
+# Formacje prefiksalne
+#### trzeba wydzielić odpowiednie samodze!
+# rzeczownikowe i przymiotnikowe
+# np. „euro·sodoma”, „e-·papieros”, „euro·sodomski”, „bez·argumentowy”
+moze_interp( prefs samodz )
+# czasownikowe np. „po·nakapywać”
+moze_interp( prefv samodz )
+
+# Apozycje z dywizem
+# np. „kobieta-prezydent”
+moze_interp( samodz dywiz samodz )
+# poniższe do sprawdzenia, najwyraźniej obecne w tekstach, skoro wprowadziliśmy:
+# ?
+adj dywiz adj
+# ?
+adj dywiz samodz
+# ?
+samodz dywiz adj
+
+[segment types]
+naj
+nie
+prefs
+prefv
+dig
+adja
+adj
+adj_sup
+negat
+on_agl
+z_on_agl
+samotny
+interp
+aglsg
+aglpl
+praetcond
+praet_sg_agl
+praet_sg_na
+praet_sg
+praet_pl
+samodz
+
+[tags]
+naj	naj
+nie	nie
+prefs	prefs
+prefv	prefv
+dig	dig
+adja	adja
+adj	adj:%:pos
+adj_sup	adj:%:sup
+adj_sup	adv:sup
+negat	ger:%:neg
+negat	pact:%:neg
+negat	ppas:%:neg
+on_agl	ppron3:sg:gen.acc:m1.m2.m3:ter:nakc:praep
+z_on_agl	prep:%
+samotny	brev:pun
+samotny	brev:npun
+samotny	intrj
+interp	interp
+aglsg	aglt:sg:%
+aglpl	aglt:pl:%
+praetcond	cond:%
+praetcond	praet:%:pri:%
+praetcond	praet:%:sec:%
+praetcond	praet:%:ter:%
+praet_sg_agl	praet:sg:%:agl
+praet_sg_na	praet:sg:%:nagl
+praet_sg	praet:sg:%
+praet_pl	praet:pl:%
+praet_sg	winien:sg:%
+praet_pl	winien:pl:%
+samodz		%
+
+[lexemes]
+z_aglt	aby:comp
+z_aglt	bowiem:comp
+by	by:qub
+z_aglt	by:comp
+z_aglt	cóż:subst
+z_aglt	czemu:adv
+z_aglt	czyżby:qub
+z_aglt	choćby:comp
+z_aglt	chociażby:comp
+z_aglt	dlaczego:adv
+z_aglt	dopóki:comp
+z_aglt	dopóty:conj
+z_aglt	gdyby:comp
+z_aglt	gdzie:qub
+z_aglt	gdzie:adv
+z_aglt	jakby:comp
+z_aglt	jakoby:comp
+z_aglt	kiedy:adv
+z_aglt	kiedy:comp
+z_aglt	tylko:qub
+z_aglt	żeby:comp
+dywiz	-:interp
+kropka	.:interp
@@ -2,7 +2,7 @@
 ########## generate default dictionary data #################
 add_custom_command (
         OUTPUT "${INPUT_DICTIONARY_CPP}"
-        COMMAND python ${PROJECT_SOURCE_DIR}/fsabuilder/buildfsa.py --analyzer -i "${INPUT_DICTIONARY}" -o "${INPUT_DICTIONARY_CPP}" "--tagset-file=${INPUT_TAGSET}" --cpp --serialization-method=SIMPLE
+        COMMAND python ${PROJECT_SOURCE_DIR}/fsabuilder/buildfsa.py --analyzer -i "${INPUT_DICTIONARY}" -o "${INPUT_DICTIONARY_CPP}" "--tagset-file=${INPUT_TAGSET}" "--segments-file=${SEGMENT_RULES_FILE}" --cpp --serialization-method=SIMPLE
         DEPENDS "${INPUT_DICTIONARY}"
         COMMENT "Building default dictionary C++ file"
 )
@@ -35,7 +35,9 @@ set(SRC_FILES
     charset/CharsetConverter.cpp
     charset/CaseConverter.cpp
     charset/caseconv.cpp
-    charset/conversion_tables.cpp)
+    charset/conversion_tables.cpp
+    segrules/segrules.cpp
+    segrules/SegrulesDeserializer.cpp)
  
 set(INCLUDE_FILES 
     const.hpp 
@@ -17,6 +17,7 @@
 #include "charset/CharsetConverter.hpp"
 #include "charset/charset_utils.hpp"
 #include "charset/CaseConverter.hpp"
+#include "segrules/segrules.hpp"
 #include "const.hpp"
  
 // TODO - konstruktor kopiujący działający Tak-Jak-Trzeba
@@ -29,56 +30,6 @@ static Deserializer&lt;vector&lt;InterpsGroup&gt; &gt;* initializeAnalyzerDeserializer() {
     return deserializer;
 }
  
-static FSA<vector<InterpsGroup > > *initializeAnalyzerFSA(const string& filename) {
-    cerr << "initialize FSA" << endl;
-    return FSA < vector < InterpsGroup > > ::getFSA(filename, *initializeAnalyzerDeserializer());
-}
-
-//static FSA<vector<MorphInterpretation > > *initializeSynthFSA(const string& filename, const SynthDeserializer& deserializer) {
-//    cerr << "initialize synth FSA" << endl;
-//    return FSA < vector < EncodedGeneratorInterpretation > > ::getFSA(filename, deserializer);
-//}
-//
-//static CharsetConverter* getCharsetConverter(MorfeuszCharset charset) {
-//    cerr << "initialize charset converter for " << charset << endl;
-//    static CharsetConverter* utf8Converter = new UTF8CharsetConverter();
-////    static CharsetConverter* utf16LEConverter = new UTF16CharsetConverter(UTF16CharsetConverter::UTF16CharsetConverter::LE);
-////    static CharsetConverter* utf16BEConverter = new UTF16CharsetConverter(UTF16CharsetConverter::Endianness::BE);
-//    static CharsetConverter* iso8859_2Converter = new ISO8859_2_CharsetConverter();
-//    static CharsetConverter* windows1250Converter = new Windows_1250_CharsetConverter();
-//    static CharsetConverter* cp852Converter = new CP852_CharsetConverter();
-//    switch (charset) {
-//        case UTF8:
-//            return utf8Converter;
-//        case ISO8859_2:
-//            return iso8859_2Converter;
-//        case CP1250:
-//            return windows1250Converter;
-//        case CP852:
-//            return cp852Converter;
-//        default:
-//            throw MorfeuszException("invalid charset");
-//    }
-//}
-//
-//static Tagset* initializeTagset(const string& filename) {
-//    cerr << "initialize tagset" << endl;
-//    static Tagset* tagset = new Tagset(readFile<unsigned char>(filename.c_str()));
-//    return tagset;
-//}
-//
-//static Tagset* initializeTagset(const unsigned char* data) {
-//    cerr << "initialize tagset" << endl;
-//    static Tagset* tagset = new Tagset(data);
-//    return tagset;
-//}
-//
-//static CaseConverter* initializeCaseConverter() {
-//    cerr << "initialize case converter" << endl;
-//    static CaseConverter* cc = new CaseConverter();
-//    return cc;
-//}
-
 static MorfeuszOptions createDefaultOptions() {
     MorfeuszOptions res;
     res.caseSensitive = true;
@@ -88,7 +39,9 @@ static MorfeuszOptions createDefaultOptions() {
  
 Morfeusz::Morfeusz()
 : env(Tagset(DEFAULT_FSA), Tagset(DEFAULT_SYNTH_FSA), DEFAULT_MORFEUSZ_CHARSET),
-analyzerFSA(FSAType::getFSA(DEFAULT_FSA, *initializeAnalyzerDeserializer())),
+analyzerPtr(DEFAULT_FSA),
+analyzerFSA(FSAType::getFSA(analyzerPtr, *initializeAnalyzerDeserializer())),
+segrulesFSA(createSegrulesFSA(analyzerPtr)),
 isAnalyzerFSAFromFile(false),
 generator(DEFAULT_SYNTH_FSA, env),
 options(createDefaultOptions()) {
@@ -98,30 +51,35 @@ options(createDefaultOptions()) {
 void Morfeusz::setAnalyzerFile(const string& filename) {
     if (this->isAnalyzerFSAFromFile) {
         delete this->analyzerFSA;
+        delete this->segrulesFSA;
+        delete this->analyzerPtr;
     }
-    this->analyzerFSA = initializeAnalyzerFSA(filename);
+    this->analyzerPtr = readFile<unsigned char>(filename.c_str());
+    this->analyzerFSA = FSA< vector<InterpsGroup> > ::getFSA(analyzerPtr, *initializeAnalyzerDeserializer());
+    this->segrulesFSA = createSegrulesFSA(analyzerPtr);
     this->isAnalyzerFSAFromFile = true;
 }
  
 Morfeusz::~Morfeusz() {
     if (this->isAnalyzerFSAFromFile) {
         delete this->analyzerFSA;
+        delete this->segrulesFSA;
+        delete this->analyzerPtr;
     }
 }
  
 void Morfeusz::analyzeOneWord(
-        const char*& inputData,
+        const char*& inputStart,
         const char* inputEnd,
         int startNodeNum,
         std::vector<MorphInterpretation>& results) const {
-    while (inputData != inputEnd
-            && isEndOfWord(this->env.getCharsetConverter().peek(inputData, inputEnd))) {
-        this->env.getCharsetConverter().next(inputData, inputEnd);
+    while (inputStart != inputEnd
+            && isEndOfWord(this->env.getCharsetConverter().peek(inputStart, inputEnd))) {
+        this->env.getCharsetConverter().next(inputStart, inputEnd);
     }
-    const char* wordStart = inputData;
     vector<InterpretedChunk> accum;
     FlexionGraph graph;
-    const char* currInput = inputData;
+    const char* currInput = inputStart;
     doAnalyzeOneWord(currInput, inputEnd, accum, graph);
     if (!graph.empty()) {
         InterpretedChunksDecoder interpretedChunksDecoder(env);
@@ -136,10 +94,11 @@ void Morfeusz::analyzeOneWord(
             srcNode++;
         }
         //        graph.getResults(*this->tagset, results);
-    } else if (wordStart != currInput) {
-        this->appendIgnotiumToResults(string(wordStart, currInput), startNodeNum, results);
     }
-    inputData = currInput;
+    else if (inputStart != inputEnd) {
+        this->appendIgnotiumToResults(string(inputStart, currInput), startNodeNum, results);
+    }
+    inputStart = currInput;
 }
  
 void Morfeusz::doAnalyzeOneWord(
@@ -68,7 +68,9 @@ private:
             int startNodeNum,
             std::vector<MorphInterpretation>& results) const;
     Environment env;
+    const unsigned char* analyzerPtr;
     FSAType* analyzerFSA;
+    FSA<unsigned char>* segrulesFSA;
     bool isAnalyzerFSAFromFile;
     Generator generator;
 //    const CharsetConverter* charsetConverter;
@@ -30,8 +30,9 @@ static void readTags(const unsigned char*&amp; currPtr, vector&lt;string&gt;&amp; tags) {
     }
 }
  
-Tagset::Tagset(const unsigned char* fsaData) {
-    const unsigned char* currPtr = fsaData + ADDITIONAL_DATA_OFFSET;
+Tagset::Tagset(const unsigned char* ptr) {
+    uint32_t fsaSize = htonl(*reinterpret_cast<const uint32_t*>(ptr + FSA_DATA_SIZE_OFFSET));
+    const unsigned char* currPtr = ptr + FSA_DATA_OFFSET + fsaSize + 4;
     readTags(currPtr, this->tags);
     readTags(currPtr, this->names);
 }
@@ -2,9 +2,9 @@
 #include "const.hpp"
  
 extern const uint32_t MAGIC_NUMBER = 0x8fc2bc1b;
-extern const uint8_t VERSION_NUM = 9;
+extern const uint8_t VERSION_NUM = 10;
  
 extern const unsigned int VERSION_NUM_OFFSET = 4;
 extern const unsigned int IMPLEMENTATION_NUM_OFFSET = 5;
-extern const unsigned int ADDITIONAL_DATA_SIZE_OFFSET = 6;
-extern const unsigned int ADDITIONAL_DATA_OFFSET = 10;
+extern const unsigned int FSA_DATA_SIZE_OFFSET = 6;
+extern const unsigned int FSA_DATA_OFFSET = 10;
@@ -15,8 +15,8 @@ extern const uint8_t VERSION_NUM;
  
 extern const unsigned int VERSION_NUM_OFFSET;
 extern const unsigned int IMPLEMENTATION_NUM_OFFSET;
-extern const unsigned int ADDITIONAL_DATA_SIZE_OFFSET;
-extern const unsigned int ADDITIONAL_DATA_OFFSET;
+extern const unsigned int FSA_DATA_SIZE_OFFSET;
+extern const unsigned int FSA_DATA_OFFSET;
  
 #endif	/* CONST_HPP */
  
@@ -81,11 +81,12 @@ private:
 template <class T>
 class SimpleFSA : public FSA<T> {
 public:
-    SimpleFSA(const unsigned char* ptr, const Deserializer<T>& deserializer);
+    SimpleFSA(const unsigned char* ptr, const Deserializer<T>& deserializer, bool isTransducer=false);
     virtual ~SimpleFSA();
 protected:
     void proceedToNext(const char c, State<T>& state) const;
 private:
+    bool isTransducer;
 };
  
 template <class T>
@@ -167,6 +168,10 @@ public:
      * For non-accepting states is throws an exception.
      */
     T getValue() const;
+    
+    unsigned char getLastTransitionValue() const;
+    
+    void setLastTransitionValue(unsigned char val);
  
     /**
      * Get the size (in bytes) of this state's value.
@@ -191,6 +196,7 @@ private:
     bool sink;
     T value;
     long valueSize;
+    unsigned char lastTransitionValue;
 };
  
 class FSAException : public std::exception {
@@ -78,9 +78,9 @@ FSA&lt;T&gt;* FSA&lt;T&gt;::getFSA(const unsigned char* ptr, const Deserializer&lt;T&gt;&amp; deserial
  
     uint8_t implementationNum = *(ptr + IMPLEMENTATION_NUM_OFFSET);
  
-    uint32_t additionalDataSize = ntohl(*(reinterpret_cast<const uint32_t*>(ptr + ADDITIONAL_DATA_SIZE_OFFSET)));
+//    uint32_t additionalDataSize = ntohl(*(reinterpret_cast<const uint32_t*>(ptr + ADDITIONAL_DATA_SIZE_OFFSET)));
  
-    const unsigned char* startPtr = ptr + ADDITIONAL_DATA_OFFSET + additionalDataSize;
+    const unsigned char* startPtr = ptr + FSA_DATA_OFFSET;
     switch (implementationNum) {
         case 0:
             return new SimpleFSA<T>(startPtr, deserializer);
@@ -88,6 +88,8 @@ FSA&lt;T&gt;* FSA&lt;T&gt;::getFSA(const unsigned char* ptr, const Deserializer&lt;T&gt;&amp; deserial
             return new CompressedFSA1<T>(startPtr, deserializer);
         case 2:
             return new CompressedFSA2<T>(startPtr, deserializer);
+        case 128:
+            return new SimpleFSA<T>(startPtr, deserializer, true);
         default:
             std::ostringstream oss;
             oss << "Invalid implementation number: " << versionNum << ", should be: " << VERSION_NUM;
@@ -22,8 +22,8 @@ struct StateData {
 //#pragma pack(pop)   /* restore original alignment from stack */
  
 template <class T>
-SimpleFSA<T>::SimpleFSA(const unsigned char* ptr, const Deserializer<T>& deserializer)
-: FSA<T>(ptr, deserializer) {
+SimpleFSA<T>::SimpleFSA(const unsigned char* ptr, const Deserializer<T>& deserializer, bool isTransducer)
+: FSA<T>(ptr, deserializer), isTransducer(isTransducer) {
 }
  
 template <class T>
@@ -56,7 +56,8 @@ void SimpleFSA&lt;T&gt;::proceedToNext(const char c, State&lt;T&gt;&amp; state) const {
     StateData stateData = decodeStateData(fromPointer);
     const unsigned char* foundTransition = fromPointer + transitionsTableOffset;
     bool found = false;
-    for (unsigned int i = 0; i < stateData.transitionsNum; i++, foundTransition += 4) {
+    unsigned int increment = this->isTransducer ? 5 : 4;
+    for (unsigned int i = 0; i < stateData.transitionsNum; i++, foundTransition += increment) {
         if ((char) *foundTransition == c) {
             found = true;
             break;
@@ -76,6 +77,9 @@ void SimpleFSA&lt;T&gt;::proceedToNext(const char c, State&lt;T&gt;&amp; state) const {
         } else {
             state.setNext(offset);
         }
+        if (isTransducer) {
+            state.setLastTransitionValue(*(foundTransition + 4));
+        }
     }
 }
  
@@ -58,6 +58,16 @@ unsigned long State&lt;T&gt;::getValueSize() const {
 }
  
 template <class T>
+unsigned char State<T>::getLastTransitionValue() const {
+    return this->lastTransitionValue;
+}
+
+template <class T>
+void State<T>::setLastTransitionValue(unsigned char val) {
+    this->lastTransitionValue = val;
+}
+
+template <class T>
 State<T>::~State() {
  
 }
@@ -24,8 +24,7 @@ void doTest(const FSA&lt;char*&gt;&amp; fsa, const char* fname) {
         vector<string> splitVector(split(line, '\t'));
         string key = splitVector[0];
  
-        //        cerr << "test " << key << endl;
-
+        cerr << "test " << key << endl;
         char* value2;
         validate(fsa.tryToRecognize(key.c_str(), value2), "Failed to recognize " + key);
     }
+/* 
+ * File:   SegrulesDeserializer.cpp
+ * Author: mlenart
+ * 
+ * Created on 25 luty 2014, 16:16
+ */
+
+#include "SegrulesDeserializer.hpp"
+
+SegrulesDeserializer::SegrulesDeserializer() {
+}
+
+long SegrulesDeserializer::deserialize(const unsigned char* ptr, unsigned char& object) const {
+    object = *ptr;
+}
+
+SegrulesDeserializer::~SegrulesDeserializer() {
+}
+
+/* 
+ * File:   SegrulesDeserializer.hpp
+ * Author: mlenart
+ *
+ * Created on 25 luty 2014, 16:16
+ */
+
+#ifndef SEGRULESDESERIALIZER_HPP
+#define	SEGRULESDESERIALIZER_HPP
+
+#include "../fsa/fsa.hpp"
+
+class SegrulesDeserializer: public Deserializer<unsigned char> {
+public:
+    SegrulesDeserializer();
+    long deserialize(const unsigned char* ptr, unsigned char& object) const;
+    virtual ~SegrulesDeserializer();
+private:
+
+};
+
+#endif	/* SEGRULESDESERIALIZER_HPP */
+
+
+#include "SegrulesDeserializer.hpp"
+#include "segrules.hpp"
+#include "../fsa/fsa.hpp"
+
+FSA<unsigned char>* createSegrulesFSA(const unsigned char* analyzerPtr) {
+    static SegrulesDeserializer deserializer;
+    return new SimpleFSA<unsigned char>(analyzerPtr, deserializer, true);
+}
+/* 
+ * File:   segrules.hpp
+ * Author: mlenart
+ *
+ * Created on 25 luty 2014, 16:35
+ */
+
+#ifndef SEGRULES_HPP
+#define	SEGRULES_HPP
+
+#include "../fsa/fsa.hpp"
+
+FSA<unsigned char>* createSegrulesFSA(const unsigned char* analyzerPtr);
+
+#endif	/* SEGRULES_HPP */
+
@@ -26,6 +26,10 @@
         <in>test_recognize.cpp</in>
         <in>test_speed.cpp</in>
       </df>
+      <df name="segrules">
+        <in>SegrulesDeserializer.cpp</in>
+        <in>segrules.cpp</in>
+      </df>
       <in>Environment.cpp</in>
       <in>FlexionGraph.cpp</in>
       <in>Generator.cpp</in>
@@ -35,7 +39,6 @@
       <in>MorphInterpretation.cpp</in>
       <in>Tagset.cpp</in>
       <in>const.cpp</in>
-      <in>exceptions.hpp</in>
       <in>morfeusz_analyzer.cpp</in>
       <in>morfeusz_generator.cpp</in>
       <in>test_recognize_dict.cpp</in>
@@ -181,6 +184,23 @@
           </undefinedList>
         </ccTool>
       </folder>
+      <folder path="0/segrules">
+        <ccTool>
+          <incDir>
+            <pElem>build</pElem>
+            <pElem>morfeusz</pElem>
+            <pElem>build/morfeusz</pElem>
+          </incDir>
+          <preprocessorList>
+            <Elem>__PIC__=2</Elem>
+            <Elem>__pic__=2</Elem>
+            <Elem>libmorfeusz_EXPORTS</Elem>
+          </preprocessorList>
+          <undefinedList>
+            <Elem>__GCC_HAVE_DWARF2_CFI_ASM=1</Elem>
+          </undefinedList>
+        </ccTool>
+      </folder>
       <folder path="build">
         <ccTool>
           <incDir>
@@ -418,8 +438,6 @@
         <ccTool>
         </ccTool>
       </item>
-      <item path="morfeusz/exceptions.hpp" ex="false" tool="3" flavor2="0">
-      </item>
       <item path="morfeusz/fsa/const.cpp" ex="false" tool="1" flavor2="4">
         <ccTool>
           <incDir>
@@ -479,6 +497,17 @@
           </incDir>
         </ccTool>
       </item>
+      <item path="morfeusz/segrules/SegrulesDeserializer.cpp"
+            ex="false"
+            tool="1"
+            flavor2="4">
+        <ccTool>
+        </ccTool>
+      </item>
+      <item path="morfeusz/segrules/segrules.cpp" ex="false" tool="1" flavor2="4">
+        <ccTool>
+        </ccTool>
+      </item>
       <item path="morfeusz/test_recognize_dict.cpp" ex="false" tool="1" flavor2="4">
         <ccTool>
           <incDir>