upodabnianie syntezy do analizy

git-svn-id: svn://svn.nlp.ipipan.waw.pl/morfeusz/morfeusz@113 ff4e3ee1-f430-4e82-ade0-24591c43f1fd

upodabnianie syntezy do analizy
git-svn-id: svn://svn.nlp.ipipan.waw.pl/morfeusz/morfeusz@113 ff4e3ee1-f430-4e82-ade0-24591c43f1fd
Michał Lenart
1 parent 00e66248
Showing 22 changed files with 457 additions and 297 deletions
CMakeLists.txt
fsabuilder/buildfsa.py
fsabuilder/morfeuszbuilder/fsa/common.py
fsabuilder/morfeuszbuilder/fsa/convertinput.py
fsabuilder/morfeuszbuilder/fsa/encode.py
fsabuilder/morfeuszbuilder/fsa/serializer.py
fsabuilder/morfeuszbuilder/segrules/rulesParser.py
fsabuilder/morfeuszbuilder/tagset/segtypes.py
input/segmenty.dat
input/segmenty1.dat
morfeusz/CMakeLists.txt
morfeusz/EncodedInterpretation.hpp
morfeusz/Environment.cpp
morfeusz/Environment.hpp
morfeusz/Generator.cpp
morfeusz/InterpretedChunksDecoder.hpp
morfeusz/Morfeusz.cpp
morfeusz/Morfeusz.hpp
morfeusz/MorphDeserializer.cpp
morfeusz/const.hpp
@@ -47,7 +47,7 @@ endif ()
  
 # SEGMENT_RULES_FILE
 if ("${SEGMENT_RULES_FILE}" STREQUAL "")
-   set (SEGMENT_RULES_FILE "${PROJECT_SOURCE_DIR}/input/segmenty.dat")
+   set (SEGMENT_RULES_FILE "${PROJECT_SOURCE_DIR}/input/segmenty1.dat")
 endif ()
  
 message ("Will use ${INPUT_DICTIONARIES} as default dictionary input, ${INPUT_TAGSET} as tagset and ${SEGMENT_RULES_FILE} as segmentation rules")
@@ -137,8 +137,8 @@ def _parseOptions():
     for filename in opts.inputFiles:
         _checkOpen(filename, 'r')
     _checkOpen(opts.outputFile, 'w')
+    _checkOption(opts.segmentsFile, parser, "Segment rules file is missing")
     if opts.analyzer:
-        _checkOption(opts.segmentsFile, parser, "Segment rules file is missing")
         _checkOpen(opts.segmentsFile, 'r')
  
     if not opts.serializationMethod.upper() in [SerializationMethod.SIMPLE, SerializationMethod.V1, SerializationMethod.V2]:
@@ -161,9 +161,9 @@ def _readPolimorfInput4Analyzer(inputFiles, tagset, encoder, segmentRulesManager
     for entry in convertinput.PolimorfConverter4Analyzer(tagset, encoder, 'utf8', segmentRulesManager, trimSupneg).convert(_concatFiles(inputFiles)):
         yield entry
  
-def _readPolimorfInput4Generator(inputFiles, tagset, encoder):
+def _readPolimorfInput4Generator(inputFiles, tagset, encoder, segmentRulesManager):
     logging.info('reading generator data from %s', str(inputFiles))
-    for entry in convertinput.PolimorfConverter4Generator(tagset, encoder, 'utf8').convert(_concatFiles(inputFiles)):
+    for entry in convertinput.PolimorfConverter4Generator(tagset, encoder, 'utf8', segmentRulesManager).convert(_concatFiles(inputFiles)):
         yield entry
  
 def _readTrainData(trainFile):
@@ -201,10 +201,10 @@ def buildAnalyzerFromPoliMorf(inputFiles, tagset, segmentRulesManager, trimSupne
     _printStats(fsa)
     return fsa
  
-def buildGeneratorFromPoliMorf(inputFiles, tagset):
+def buildGeneratorFromPoliMorf(inputFiles, tagset, segmentRulesManager):
     encoder = encode.Encoder4Generator()
     fsa = FSA(encoder, tagset)
-    inputData = _readPolimorfInput4Generator(inputFiles, tagset, encoder)
+    inputData = _readPolimorfInput4Generator(inputFiles, tagset, encoder, segmentRulesManager)
     for word, data in inputData:
         fsa.addEntry(word, data)
     fsa.close()
@@ -227,14 +227,14 @@ def main(opts):
  
     logging.info('reading tagset from %s', opts.tagsetFile)
     tagset = Tagset(opts.tagsetFile)
+    rulesType = rulesParser.RulesParser.PARSE4ANALYZER if opts.analyzer else rulesParser.RulesParser.PARSE4GENERATOR
+    segmentRulesManager = rulesParser.RulesParser(tagset, rulesType).parse(opts.segmentsFile)
+    segmentationRulesData = segmentRulesManager.serialize()
  
     if opts.analyzer:
-        segmentRulesManager = rulesParser.RulesParser(tagset).parse(opts.segmentsFile)
-        additionalData = segmentRulesManager.serialize()
         fsa = buildAnalyzerFromPoliMorf(opts.inputFiles, tagset, segmentRulesManager, opts.trimSupneg)
     else:
-        fsa = buildGeneratorFromPoliMorf(opts.inputFiles, tagset)
-        additionalData = bytearray()
+        fsa = buildGeneratorFromPoliMorf(opts.inputFiles, tagset, segmentRulesManager)
  
     if opts.trainFile:
         logging.info('training with '+opts.trainFile+' ...')
@@ -248,9 +248,9 @@ def main(opts):
                   }[opts.serializationMethod](fsa)
  
     if opts.cpp:
-        serializer.serialize2CppFile(opts.outputFile, generator=opts.generator, additionalData=additionalData)
+        serializer.serialize2CppFile(opts.outputFile, generator=opts.generator, segmentationRulesData=segmentationRulesData)
     else:
-        serializer.serialize2BinaryFile(opts.outputFile, additionalData=additionalData)
+        serializer.serialize2BinaryFile(opts.outputFile, segmentationRulesData=segmentationRulesData)
  
     logging.info('total FSA size (in bytes): '+str(fsa.initialState.reverseOffset))
 #     {
@@ -67,11 +67,12 @@ class Interpretation(object):
  
 class Interpretation4Generator(object):
  
-    def __init__(self, orth, base, tagnum, namenum):
+    def __init__(self, orth, base, tagnum, namenum, typenum):
         self.lemma = base
         self.orth = EncodedFormWithPrefix(base, orth)
         self.tagnum = tagnum
         self.namenum = namenum
+        self.typenum = typenum
  
     def getSortKey(self):
         return (
@@ -81,10 +81,11 @@ class PolimorfConverter4Analyzer(object):
  
 class PolimorfConverter4Generator(object):
  
-    def __init__(self, tagset, encoder, inputEncoding='utf8'):
+    def __init__(self, tagset, encoder, inputEncoding, segmentRulesManager):
         self.tagset = tagset
         self.encoder = encoder
         self.inputEncoding = inputEncoding
+        self.segmentRulesManager = segmentRulesManager
  
     # we do it the ugly way (parse to plain text) because it is way more memory-efficient
     def _partiallyParseLines(self, inputLines):
@@ -94,10 +95,11 @@ class PolimorfConverter4Generator(object):
             if base:
                 tagnum = self.tagset.getTagnum4Tag(tag)
                 namenum = self.tagset.getNamenum4Name(name)
-                yield '%s %s %d %d' % (
+                typenum = self.segmentRulesManager.lexeme2SegmentTypeNum(base, tagnum)
+                yield '%s %s %d %d %d' % (
                                    orth.encode(self.inputEncoding), 
                                    base.encode(self.inputEncoding), 
-                                   tagnum, namenum)
+                                   tagnum, namenum, typenum)
             else:
                 logging.warn('Ignoring line: %s', line.strip())
  
@@ -109,10 +111,11 @@ class PolimorfConverter4Generator(object):
         for line in inputLines:
             line = line.decode(self.inputEncoding).strip(u'\n')
             if line:
-                orth, base, tagnum, namenum = line.split(u' ')
+                orth, base, tagnum, namenum, typenum = line.split(u' ')
                 tagnum = int(tagnum)
                 namenum = int(namenum)
-                yield (base, Interpretation4Generator(orth, base, tagnum, namenum))
+                typenum = int(typenum)
+                yield (base, Interpretation4Generator(orth, base, tagnum, namenum, typenum))
  
     def convert(self, inputLines):
         return _mergeEntries(self._reallyParseLines(self._sortLines(self._partiallyParseLines(inputLines))))
@@ -114,7 +114,7 @@ class MorphEncoder(Encoder):
         assert type(interpsList) == frozenset
         for interp in sorted(interpsList, key=lambda i: i.getSortKey()):
             res.extend(self._encodeTypeNum(interp.typenum))
-            res.extend(self._encodeEncodedForm(interp.lemma, withCasePattern=True))
+            res.extend(self._encodeEncodedForm(interp.lemma, withCasePattern=True, withPrefix=False))
             res.extend(self._encodeTagNum(interp.tagnum))
             res.extend(self._encodeNameNum(interp.namenum))
         del interpsList
@@ -133,6 +133,7 @@ class Encoder4Generator(Encoder):
         res.append(firstByte)
         assert type(interpsList) == frozenset
         for interp in sorted(interpsList, key=lambda i: i.getSortKey()):
+            res.extend(self._encodeTypeNum(interp.typenum))
             res.extend(self._encodeEncodedForm(interp.orth, withCasePattern=False, withPrefix=True))
             res.extend(self._encodeTagNum(interp.tagnum))
             res.extend(self._encodeNameNum(interp.namenum))
@@ -24,7 +24,7 @@ class Serializer(object):
     def getVersion(self):
         return 10
  
-    def serialize2CppFile(self, fname, generator, additionalData):
+    def serialize2CppFile(self, fname, generator, segmentationRulesData):
         res = []
 #         self.fsa.calculateOffsets(sizeCounter=lambda state: self.getStateSize(state))
         res.append('\n')
@@ -37,8 +37,8 @@ class Serializer(object):
             res.append('extern const unsigned char DEFAULT_FSA[] = {')
         res.append('\n')
         for byte in self.fsa2bytearray(
-                                       additionalData=self.serializeTagset(self.fsa.tagset),
-                                       moreAdditionalData=additionalData):
+                                       tagsetData=self.serializeTagset(self.fsa.tagset),
+                                       segmentationRulesData=segmentationRulesData):
             res.append(hex(byte));
             res.append(',');
         res.append('\n')
@@ -47,16 +47,16 @@ class Serializer(object):
         with open(fname, 'w') as f:
             f.write(''.join(res))
  
-    def serialize2BinaryFile(self, fname, additionalData):
+    def serialize2BinaryFile(self, fname, segmentationRulesData):
         with open(fname, 'wb') as f:
             f.write(self.fsa2bytearray(
-                                       additionalData=self.serializeTagset(self.fsa.tagset),
-                                       moreAdditionalData=additionalData))
+                                       tagsetData=self.serializeTagset(self.fsa.tagset),
+                                       segmentationRulesData=segmentationRulesData))
  
     def getStateSize(self, state):
         raise NotImplementedError('Not implemented')
  
-    def fsa2bytearray(self, additionalData=bytearray(), moreAdditionalData=bytearray()):
+    def fsa2bytearray(self, tagsetData, segmentationRulesData):
         res = bytearray()
         res.extend(self.serializePrologue())
         fsaData = bytearray()
@@ -66,7 +66,7 @@ class Serializer(object):
             fsaData.extend(self.state2bytearray(state))
         res.extend(htonl(len(fsaData)))
         res.extend(fsaData)
-        res.extend(self.serializeEpilogue(additionalData, moreAdditionalData))
+        res.extend(self.serializeEpilogue(tagsetData, segmentationRulesData))
         return res
  
     def _serializeTags(self, tagsMap):
@@ -104,20 +104,20 @@ class Serializer(object):
  
         return res
  
-    def serializeEpilogue(self, additionalData, moreAdditionalData):
+    def serializeEpilogue(self, tagsetData, segmentationRulesData):
         res = bytearray()
-        additionalDataSize = len(additionalData) if additionalData else 0
-        moreAdditionalDataSize = len(moreAdditionalData) if moreAdditionalData else 0
-        res.extend(htonl(additionalDataSize))
+        tagsetDataSize = len(tagsetData) if tagsetData else 0
+        segmentationDataSize = len(segmentationRulesData) if segmentationRulesData else 0
+        res.extend(htonl(tagsetDataSize))
  
         # add additional data itself
-        if additionalDataSize:
-            assert type(additionalData) == bytearray
-            res.extend(additionalData)
+        if tagsetDataSize:
+            assert type(tagsetData) == bytearray
+            res.extend(tagsetData)
  
-        if moreAdditionalDataSize:
-            assert type(moreAdditionalData) == bytearray
-            res.extend(moreAdditionalData)
+        if segmentationDataSize:
+            assert type(segmentationRulesData) == bytearray
+            res.extend(segmentationRulesData)
         return res
  
     def state2bytearray(self, state):
@@ -13,8 +13,13 @@ from morfeuszbuilder.segrules import rulesNFA
  
 class RulesParser(object):
  
-    def __init__(self, tagset):
+    PARSE4GENERATOR = 1
+    PARSE4ANALYZER = 2
+    
+    def __init__(self, tagset, rulesType):
         self.tagset = tagset
+        assert rulesType in (RulesParser.PARSE4GENERATOR, RulesParser.PARSE4ANALYZER)
+        self.rulesType = rulesType
  
     def _getKey2Defs(self, segtypesConfigFile):
         res = {}
@@ -29,7 +34,7 @@ class RulesParser(object):
  
     def parse(self, filename):
  
-        segtypesConfigFile = configFile.ConfigFile(filename, ['options', 'combinations', 'tags', 'lexemes', 'segment types'])
+        segtypesConfigFile = configFile.ConfigFile(filename, ['options', 'combinations', 'generator combinations', 'tags', 'lexemes', 'segment types'])
         key2Defs = self._getKey2Defs(segtypesConfigFile)
         segtypesHelper = segtypes.Segtypes(self.tagset, segtypesConfigFile)
  
@@ -47,7 +52,8 @@ class RulesParser(object):
             nfa = rulesNFA.RulesNFA()
             if not firstNFA:
                 firstNFA = nfa
-            combinationEnumeratedLines = segtypesConfigFile.enumerateLinesInSection('combinations')
+            section = 'combinations' if self.rulesType == RulesParser.PARSE4ANALYZER else 'generator combinations'
+            combinationEnumeratedLines = segtypesConfigFile.enumerateLinesInSection(section)
             combinationEnumeratedLines = list(preprocessor.preprocess(combinationEnumeratedLines, defs, filename))
             for rule in self._doParse(combinationEnumeratedLines, segtypesHelper, filename):
 #                 print rule
@@ -83,7 +89,10 @@ class RulesParser(object):
         unaryRule = atomicRule ^ zeroOrMoreRule ^ oneOrMoreRule
         oneOfRule = delimitedList(unaryRule, delim='|')
         complexRule = unaryRule ^ oneOfRule
-        concatRule = OneOrMore(complexRule)
+        if self.rulesType == RulesParser.PARSE4ANALYZER:
+            concatRule = OneOrMore(complexRule)
+        else:
+            concatRule = ZeroOrMore(shiftOrthRule) + tagRule
         rule << concatRule
  
         tagRule.setParseAction(lambda string, loc, toks: self._createNewTagRule(toks[0], False, lineNum, line, segtypesHelper))
@@ -15,6 +15,7 @@ class Segtypes(object):
  
         self.filename = segrulesConfigFile.filename
  
+        self.segtypes = set()
         self.segtype2Segnum = {}
         self.segnum2Segtype = {}
         self.patternsList = []
@@ -22,6 +23,7 @@ class Segtypes(object):
         self._tagnum2Segnum = {}
         self._lemmaTagnum2Segnum = {}
  
+        self._readSegtypes(segrulesConfigFile)
         self._readLexemes(segrulesConfigFile)
         self._readTags(segrulesConfigFile)
         self._indexSegnums()
@@ -32,6 +34,20 @@ class Segtypes(object):
         if not cond:
             raise exceptions.ConfigFileException(self.filename, lineNum, msg)
  
+    def _readSegtypes(self, segrulesConfigFile):
+        for lineNum, line in segrulesConfigFile.enumerateLinesInSection('segment types'):
+            assert type(line) == unicode
+            self._validate(
+                           u'Segment type must be a single word', 
+                           lineNum,
+                           re.match(r'^\w+$', line))
+            self._validate(
+                           u'Segment type already defined: "%s"' % line, 
+                           lineNum,
+                           line not in self.segtypes)
+            self.segtypes.add(line)
+                
+    
     def _readTags(self, segrulesConfigFile):
         gotWildcardPattern = False
         for lineNum, line in segrulesConfigFile.enumerateLinesInSection('tags'):
@@ -42,6 +58,10 @@ class Segtypes(object):
                            len(splitLine) == 2)
             segtype, pattern = splitLine
             self._validate(
+                           u'Undeclared segment type: "%s"' % segtype,
+                           lineNum,
+                           segtype in self.segtypes)
+            self._validate(
                            u'Segment type must be a lowercase alphanumeric with optional underscores',
                            lineNum,
                            re.match(r'[a-z_]+', segtype))
@@ -78,6 +98,10 @@ class Segtypes(object):
         for lineNum, line in segrulesConfigFile.enumerateLinesInSection('lexemes'):
             segtype, pattern = line.strip().split('\t')
             self._validate(
+                           u'Undeclared segment type: "%s"' % segtype,
+                           lineNum,
+                           segtype in self.segtypes)
+            self._validate(
                            u'Segment type must be a lowercase alphanumeric with optional underscores',
                            lineNum,
                            re.match(r'[a-z_]+', segtype))
@@ -111,7 +111,7 @@ moze_interp(z_on_agl)
 moze_interp(z_on_agl on_agl)
  
 # Liczba zapisana jako ciąg cyfr:
-moze_interp( dig )
+moze_interp( dig>* dig )
  
 # Formacje prefiksalne
 #### trzeba wydzielić odpowiednie samodze!
@@ -154,6 +154,10 @@ moze_interp( fin dywiz li)
 #moze_interp( praet_sg_na li)
 #moze_interp( fin li)
  
+[generator combinations]
+prefs> nomina
+nomina
+
 [segment types]
 naj
 nie
@@ -164,6 +168,8 @@ dig
 adja
 adj
 adj_sup
+adj_com
+fin
 negat
 on_agl
 z_on_agl
@@ -176,8 +182,42 @@ praet_sg_agl
 praet_sg_na
 praet_sg
 praet_pl
+z_aglt
+by
+li
+nomina
+adjectiva
+verba_imperf
+dywiz
+kropka
 samodz
  
+[lexemes]
+z_aglt	aby:comp
+z_aglt	bowiem:comp
+by	by:qub
+li	li:qub
+z_aglt	by:comp
+z_aglt	cóż:subst
+z_aglt	czemu:adv
+z_aglt	czyżby:qub
+z_aglt	choćby:comp
+z_aglt	chociażby:comp
+z_aglt	dlaczego:adv
+z_aglt	dopóki:comp
+z_aglt	dopóty:conj
+z_aglt	gdyby:comp
+z_aglt	gdzie:qub
+z_aglt	gdzie:adv
+z_aglt	jakby:comp
+z_aglt	jakoby:comp
+z_aglt	kiedy:adv
+z_aglt	kiedy:comp
+z_aglt	tylko:qub
+z_aglt	żeby:comp
+dywiz	-:interp
+kropka	.:interp
+
 [tags]
 naj	naj
 nie	nie
@@ -221,29 +261,3 @@ verba_imperf	inf:imperf
 verba_imperf	imps:imperf
 verba_imperf	impt:%:imperf
 samodz		%
-
-[lexemes]
-z_aglt	aby:comp
-z_aglt	bowiem:comp
-by	by:qub
-li	li:qub
-z_aglt	by:comp
-z_aglt	cóż:subst
-z_aglt	czemu:adv
-z_aglt	czyżby:qub
-z_aglt	choćby:comp
-z_aglt	chociażby:comp
-z_aglt	dlaczego:adv
-z_aglt	dopóki:comp
-z_aglt	dopóty:conj
-z_aglt	gdyby:comp
-z_aglt	gdzie:qub
-z_aglt	gdzie:adv
-z_aglt	jakby:comp
-z_aglt	jakoby:comp
-z_aglt	kiedy:adv
-z_aglt	kiedy:comp
-z_aglt	tylko:qub
-z_aglt	żeby:comp
-dywiz	-:interp
-kropka	.:interp
@@ -9,19 +9,22 @@ praet=split composite
  
 dig>* dig
 (adja dywiz)+ adj
-#dig!>+
-#dig!> dig!> dig!>
 naj> adj_sup
  
+[generator combinations]
+
 [segment types]
 naj
 nie
 prefs
 prefv
+prefa
 dig
 adja
 adj
 adj_sup
+adj_com
+fin
 negat
 on_agl
 z_on_agl
@@ -34,6 +37,14 @@ praet_sg_agl
 praet_sg_na
 praet_sg
 praet_pl
+z_aglt
+by
+li
+nomina
+adjectiva
+verba_imperf
+dywiz
+kropka
 samodz
  
 [tags]
@@ -2,13 +2,13 @@
 ########## generate default dictionary data #################
 add_custom_command (
         OUTPUT "${INPUT_DICTIONARY_CPP}"
-        COMMAND python ${PROJECT_SOURCE_DIR}/fsabuilder/buildfsa.py --analyzer --input-files="${INPUT_DICTIONARIES}" -o "${INPUT_DICTIONARY_CPP}" "--tagset-file=${INPUT_TAGSET}" "--segments-file=${SEGMENT_RULES_FILE}" --cpp --serialization-method=V1 --trim-supneg
+        COMMAND python ${PROJECT_SOURCE_DIR}/fsabuilder/buildfsa.py --analyzer --input-files="${INPUT_DICTIONARIES}" -o "${INPUT_DICTIONARY_CPP}" --tagset-file="${INPUT_TAGSET}" --segments-file="${SEGMENT_RULES_FILE}" --cpp --serialization-method=V1 --trim-supneg
         DEPENDS "${INPUT_DICTIONARY}"
         COMMENT "Building default dictionary C++ file"
 )
 add_custom_command (
         OUTPUT "${INPUT_SYNTH_DICTIONARY_CPP}"
-        COMMAND python ${PROJECT_SOURCE_DIR}/fsabuilder/buildfsa.py --generator --input-files="${INPUT_DICTIONARIES}" -o "${INPUT_SYNTH_DICTIONARY_CPP}" "--tagset-file=${INPUT_TAGSET}" --cpp --serialization-method=V1
+        COMMAND python ${PROJECT_SOURCE_DIR}/fsabuilder/buildfsa.py --generator --input-files="${INPUT_DICTIONARIES}" -o "${INPUT_SYNTH_DICTIONARY_CPP}" --tagset-file="${INPUT_TAGSET}" --segments-file="${SEGMENT_RULES_FILE}" --cpp --serialization-method=V1
         DEPENDS "${INPUT_DICTIONARY}"
         COMMENT "Building default dictionary C++ file"
 )
@@ -16,17 +16,18 @@
 /*
  * Lemma in a compressed format (as in an automaton)
  */
-struct EncodedLemma {
+struct EncodedForm {
     int suffixToCut;
     std::string suffixToAdd;
     std::vector<bool> casePattern;
+    std::string prefixToAdd;
 };
  
 /*
  * Internal representation of an interpretation - with lemma encoded
  */
 struct EncodedInterpretation {
-    EncodedLemma lemma;
+    EncodedForm value;
     unsigned char type;
     int tag;
     int nameClassifier;
@@ -6,21 +6,57 @@
  */
  
 #include "Environment.hpp"
+#include "InterpretedChunksDecoder.hpp"
+#include "MorphDeserializer.hpp"
 #include "exceptions.hpp"
  
+//class InterpretedChunksDecoder4Analyzer;
+//class InterpretedChunksDecoder4Generator;
+
+static Deserializer<vector<InterpsGroup> >* initializeDeserializer() {
+    static Deserializer < vector < InterpsGroup > > *deserializer
+            = new MorphDeserializer();
+    return deserializer;
+}
+
+static SegrulesFSA* getDefaultSegrulesFSA(const map<SegrulesOptions, SegrulesFSA*>& map) {
+    SegrulesOptions opts;
+    opts["aggl"] = "isolated";
+    opts["praet"] = "split";
+    return (*(map.find(opts))).second;
+}
+
+static void deleteSegrulesFSAs(std::map<SegrulesOptions, SegrulesFSA*>& fsasMap) {
+    for (
+            std::map<SegrulesOptions, SegrulesFSA*>::iterator it = fsasMap.begin();
+            it != fsasMap.end();
+            ++it) {
+        delete it->second;
+    }
+    fsasMap.clear();
+}
+
 Environment::Environment(
-        const Tagset& analyzerTagset,
-        const Tagset& generatorTagset,
-        MorfeuszCharset charset)
+        MorfeuszCharset charset,
+        MorfeuszProcessorType processorType,
+        const unsigned char* fsaFileStartPtr)
 : currentCharsetConverter(getCharsetConverter(charset)),
         utf8CharsetConverter(),
         isoCharsetConverter(),
         cp1250CharsetConverter(),
         cp852CharsetConverter(),
-        analyzerTagset(analyzerTagset),
-        generatorTagset(generatorTagset),
-        caseConverter() {
-
+        caseConverter(),
+        tagset(fsaFileStartPtr),
+        fsaFileStartPtr(fsaFileStartPtr),
+        fsa(FSAType::getFSA(fsaFileStartPtr, *initializeDeserializer())),
+        segrulesFSAsMap(createSegrulesFSAsMap(fsaFileStartPtr)),
+        currSegrulesFSA(getDefaultSegrulesFSA(segrulesFSAsMap)),
+        isFromFile(false),
+        chunksDecoder(
+            processorType == ANALYZER
+            ? (InterpretedChunksDecoder*) new InterpretedChunksDecoder4Analyzer(*this)
+            : (InterpretedChunksDecoder*) new InterpretedChunksDecoder4Generator(*this))
+         {
 }
  
 const CharsetConverter* Environment::getCharsetConverter(MorfeuszCharset charset) const {
@@ -39,6 +75,12 @@ const CharsetConverter* Environment::getCharsetConverter(MorfeuszCharset charset
 }
  
 Environment::~Environment() {
+    delete this->fsa;
+    if (this->isFromFile) {
+        deleteSegrulesFSAs(this->segrulesFSAsMap);
+        delete this->fsaFileStartPtr;
+    }
+    delete this->chunksDecoder;
 }
  
 void Environment::setCharset(MorfeuszCharset charset) {
@@ -49,22 +91,38 @@ const CharsetConverter&amp; Environment::getCharsetConverter() const {
     return *this->currentCharsetConverter;
 }
  
-void Environment::setAnalyzerTagset(const Tagset& tagset) {
-    this->analyzerTagset = tagset;
+const CaseConverter& Environment::getCaseConverter() const {
+    return this->caseConverter;
 }
  
-const Tagset& Environment::getAnalyzerTagset() const {
-    return this->analyzerTagset;
+void Environment::setTagset(const Tagset& tagset) {
+    this->tagset = tagset;
 }
  
-void Environment::setGeneratorTagset(const Tagset& tagset) {
-    this->generatorTagset = tagset;
+const Tagset& Environment::getTagset() const {
+    return this->tagset;
 }
  
-const Tagset& Environment::getGeneratorTagset() const {
-    return this->generatorTagset;
+void Environment::setFSAFile(const std::string& filename) {
+    if (this->isFromFile) {
+        delete this->fsa;
+        deleteSegrulesFSAs(this->segrulesFSAsMap);
+        delete this->fsaFileStartPtr;
+    }
+    this->fsaFileStartPtr = readFile<unsigned char>(filename.c_str());
+    this->fsa = FSA< vector<InterpsGroup> > ::getFSA(fsaFileStartPtr, *initializeDeserializer());
+    this->segrulesFSAsMap = createSegrulesFSAsMap(this->fsaFileStartPtr);
+    this->isFromFile = true;
 }
  
-const CaseConverter& Environment::getCaseConverter() const {
-    return this->caseConverter;
+const SegrulesFSA& Environment::getCurrentSegrulesFSA() const {
+    return *(this->currSegrulesFSA);
+}
+
+const FSAType& Environment::getFSA() const {
+    return *(this->fsa);
+}
+
+const InterpretedChunksDecoder& Environment::getInterpretedChunksDecoder() const {
+    return *(this->chunksDecoder);
 }
@@ -8,28 +8,44 @@
 #ifndef ENVIRONMENT_HPP
 #define	ENVIRONMENT_HPP
  
+#include <vector>
+
+class InterpretedChunksDecoder;
+
 #include "charset/CaseConverter.hpp"
 #include "charset/CharsetConverter.hpp"
+#include "fsa/fsa.hpp"
+#include "segrules/segrules.hpp"
 #include "const.hpp"
 #include "Tagset.hpp"
+//#include "InterpretedChunksDecoder.hpp"
+#include "InterpsGroup.hpp"
  
+typedef FSA< std::vector<InterpsGroup > > FSAType;
  
 class Environment {
 public:
     Environment(
-            const Tagset& analyzerTagset, 
-            const Tagset& generatorTagset,
-            MorfeuszCharset charset);
+            MorfeuszCharset charset, 
+            MorfeuszProcessorType morfeuszProcessor, 
+            const unsigned char* fileStartPtr);
+    
     void setCharset(MorfeuszCharset charset);
+    
     const CharsetConverter& getCharsetConverter() const;
  
-    void setAnalyzerTagset(const Tagset& tagset);
-    const Tagset& getAnalyzerTagset() const;
+    const CaseConverter& getCaseConverter() const;
  
-    void setGeneratorTagset(const Tagset& tagset);
-    const Tagset& getGeneratorTagset() const;
+    void setTagset(const Tagset& tagset);
+    const Tagset& getTagset() const;
  
-    const CaseConverter& getCaseConverter() const;
+    void setFSAFile(const std::string& filename);
+    
+    const SegrulesFSA& getCurrentSegrulesFSA() const;
+    
+    const FSAType& getFSA() const;
+    
+    const InterpretedChunksDecoder& getInterpretedChunksDecoder() const;
  
     virtual ~Environment();
 private:
@@ -38,9 +54,16 @@ private:
     const ISO8859_2_CharsetConverter isoCharsetConverter;
     const Windows_1250_CharsetConverter cp1250CharsetConverter;
     const CP852_CharsetConverter cp852CharsetConverter;
-    Tagset analyzerTagset;
-    Tagset generatorTagset;
     const CaseConverter caseConverter;
+    Tagset tagset;
+    
+    const unsigned char* fsaFileStartPtr;
+    const FSAType* fsa;
+    std::map<SegrulesOptions, SegrulesFSA*> segrulesFSAsMap;
+    const SegrulesFSA* currSegrulesFSA;
+    bool isFromFile;
+    
+    const InterpretedChunksDecoder* chunksDecoder;
  
     const CharsetConverter* getCharsetConverter(MorfeuszCharset charset) const;
 };
@@ -75,7 +75,7 @@ void Generator::decodeRes(
                 decodedOrth, lemma,
                 egi.tag,
                 egi.nameClassifier,
-                env.getAnalyzerTagset(),
+                env.getTagset(),
                 env.getCharsetConverter());
         result.push_back(mi);
     }
@@ -8,6 +8,9 @@
 #ifndef INTERPSGROUPDECODER_HPP
 #define	INTERPSGROUPDECODER_HPP
  
+#include <string>
+#include <vector>
+
 #include "charset/CharsetConverter.hpp"
 #include "EncodedInterpretation.hpp"
 #include "InterpretedChunk.hpp"
@@ -20,50 +23,75 @@ public:
  
     InterpretedChunksDecoder(const Environment& env)
     : env(env) {
-
     }
  
-    template <class OutputIterator>
-    OutputIterator decode(
+    virtual void decode(
             unsigned int startNode,
             unsigned int endNode,
             const InterpretedChunk& interpretedChunk,
-            OutputIterator out) {
-        string orth;
-        string lemmaPrefix;
+            std::vector<MorphInterpretation>& out) const = 0;
+    
+    virtual ~InterpretedChunksDecoder() {}
+
+protected:
+    
+    void convertPrefixes(const InterpretedChunk& interpretedChunk, std::string& originalForm, std::string& decodedForm) const {
         for (unsigned int i = 0; i < interpretedChunk.prefixChunks.size(); i++) {
             const InterpretedChunk& prefixChunk = interpretedChunk.prefixChunks[i];
-            orth += env.getCharsetConverter().toString(prefixChunk.originalCodepoints);
-            lemmaPrefix += convertLemma(
+            originalForm += env.getCharsetConverter().toString(prefixChunk.originalCodepoints);
+            decodeForm(
                     prefixChunk.lowercaseCodepoints,
-                    prefixChunk.interpsGroup.interps[0].lemma);
+                    prefixChunk.interpsGroup.interps[0].value,
+                    decodedForm);
         }
+    }
+    
+    virtual void decodeForm(
+            const std::vector<uint32_t>& orth,
+            const EncodedForm& form,
+            std::string& res) const = 0;
+
+    const Environment& env;
+};
+
+class InterpretedChunksDecoder4Analyzer : public InterpretedChunksDecoder {
+
+public:
+    InterpretedChunksDecoder4Analyzer(const Environment& env): InterpretedChunksDecoder(env) {}
+
+    void decode(
+            unsigned int startNode,
+            unsigned int endNode,
+            const InterpretedChunk& interpretedChunk,
+            std::vector<MorphInterpretation>& out) const {
+        string orth;
+        string lemma;
+        convertPrefixes(interpretedChunk, orth, lemma);
         orth += env.getCharsetConverter().toString(interpretedChunk.originalCodepoints);
         for (unsigned int i = 0; i < interpretedChunk.interpsGroup.interps.size(); i++) {
             const EncodedInterpretation& ei = interpretedChunk.interpsGroup.interps[i];
-            string lemma = lemmaPrefix + convertLemma(
+            decodeForm(
                     interpretedChunk.lowercaseCodepoints,
-                    ei.lemma);
-            *out = MorphInterpretation(
+                    ei.value,
+                    lemma);
+            out.push_back(MorphInterpretation(
                     startNode, endNode,
                     orth, lemma,
                     ei.tag,
                     ei.nameClassifier,
-                    env.getAnalyzerTagset(),
-                    env.getCharsetConverter());
-            ++out;
+                    env.getTagset(),
+                    env.getCharsetConverter()));
         }
-        return out;
     }
  
-private:
+protected:
  
-    string convertLemma(
+    void decodeForm(
             const vector<uint32_t>& orth,
-            const EncodedLemma& lemma) {
-        string res;
+            const EncodedForm& lemma,
+            string& res) const {
         for (unsigned int i = 0; i < orth.size() - lemma.suffixToCut; i++) {
-            uint32_t cp = 
+            uint32_t cp =
                     (i < lemma.casePattern.size() && lemma.casePattern[i])
                     ? env.getCaseConverter().toTitle(orth[i])
                     : orth[i];
@@ -75,10 +103,56 @@ private:
             uint32_t cp = UTF8CharsetConverter().next(suffixPtr, suffixEnd);
             env.getCharsetConverter().append(cp, res);
         }
-        return res;
     }
+};
  
-    const Environment& env;
+class InterpretedChunksDecoder4Generator : public InterpretedChunksDecoder {
+
+public:
+    InterpretedChunksDecoder4Generator(const Environment& env): InterpretedChunksDecoder(env) {}
+
+    void decode(
+            unsigned int startNode,
+            unsigned int endNode,
+            const InterpretedChunk& interpretedChunk,
+            std::vector<MorphInterpretation>& out) const {
+        string orth;
+        string lemma;
+        convertPrefixes(interpretedChunk, lemma, orth);
+        lemma += env.getCharsetConverter().toString(interpretedChunk.originalCodepoints);
+        for (unsigned int i = 0; i < interpretedChunk.interpsGroup.interps.size(); i++) {
+            const EncodedInterpretation& ei = interpretedChunk.interpsGroup.interps[i];
+            decodeForm(
+                    interpretedChunk.originalCodepoints,
+                    ei.value,
+                    orth);
+            out.push_back(MorphInterpretation(
+                    startNode, endNode,
+                    orth, lemma,
+                    ei.tag,
+                    ei.nameClassifier,
+                    env.getTagset(),
+                    env.getCharsetConverter()));
+        }
+    }
+
+private:
+
+    void decodeForm(
+            const vector<uint32_t>& lemma,
+            const EncodedForm& orth,
+            string& res) const {
+        res += orth.prefixToAdd;
+        for (unsigned int i = 0; i < lemma.size() - orth.suffixToCut; i++) {
+            env.getCharsetConverter().append(lemma[i], res);
+        }
+        const char* suffixPtr = orth.suffixToAdd.c_str();
+        const char* suffixEnd = suffixPtr + orth.suffixToAdd.length();
+        while (suffixPtr != suffixEnd) {
+            uint32_t cp = UTF8CharsetConverter().next(suffixPtr, suffixEnd);
+            env.getCharsetConverter().append(cp, res);
+        }
+    }
 };
  
 #endif	/* INTERPSGROUPDECODER_HPP */
@@ -24,12 +24,6 @@
  
 using namespace std;
  
-static Deserializer<vector<InterpsGroup> >* initializeAnalyzerDeserializer() {
-    static Deserializer < vector < InterpsGroup > > *deserializer
-            = new MorphDeserializer();
-    return deserializer;
-}
-
 static MorfeuszOptions createDefaultOptions() {
     MorfeuszOptions res;
     res.caseSensitive = true;
@@ -37,95 +31,74 @@ static MorfeuszOptions createDefaultOptions() {
     return res;
 }
  
-static SegrulesFSA* getDefaultSegrulesFSA(const map<SegrulesOptions, SegrulesFSA*>& map) {
-    SegrulesOptions opts;
-    opts["aggl"] = "isolated";
-    opts["praet"] = "split";
-    return (*(map.find(opts))).second;
-}
-
 Morfeusz::Morfeusz()
-: env(Tagset(DEFAULT_FSA), Tagset(DEFAULT_SYNTH_FSA), DEFAULT_MORFEUSZ_CHARSET),
-analyzerPtr(DEFAULT_FSA),
-analyzerFSA(FSAType::getFSA(analyzerPtr, *initializeAnalyzerDeserializer())),
-segrulesFSAsMap(createSegrulesFSAsMap(analyzerPtr)),
-currSegrulesFSA(getDefaultSegrulesFSA(segrulesFSAsMap)),
-isAnalyzerFSAFromFile(false),
-generatorPtr(DEFAULT_SYNTH_FSA),
-isGeneratorFSAFromFile(false),
-generator(generatorPtr, env),
+: analyzerEnv(DEFAULT_MORFEUSZ_CHARSET, ANALYZER, DEFAULT_FSA),
+generatorEnv(DEFAULT_MORFEUSZ_CHARSET, GENERATOR, DEFAULT_SYNTH_FSA),
 options(createDefaultOptions()) {
  
 }
  
-static void deleteSegrulesFSAs(std::map<SegrulesOptions, SegrulesFSA*>& fsasMap) {
-    for (
-            std::map<SegrulesOptions, SegrulesFSA*>::iterator it = fsasMap.begin();
-            it != fsasMap.end();
-            ++it) {
-        delete it->second;
-    }
-    fsasMap.clear();
-}
-
 void Morfeusz::setAnalyzerFile(const string& filename) {
-    if (this->isAnalyzerFSAFromFile) {
-        delete this->analyzerFSA;
-        deleteSegrulesFSAs(this->segrulesFSAsMap);
-        delete this->analyzerPtr;
-    }
-    this->analyzerPtr = readFile<unsigned char>(filename.c_str());
-    this->analyzerFSA = FSA< vector<InterpsGroup> > ::getFSA(analyzerPtr, *initializeAnalyzerDeserializer());
-    this->segrulesFSAsMap = createSegrulesFSAsMap(analyzerPtr);
-    this->isAnalyzerFSAFromFile = true;
+    this->analyzerEnv.setFSAFile(filename);
+    //    if (this->isAnalyzerFSAFromFile) {
+    //        delete this->analyzerFSA;
+    //        deleteSegrulesFSAs(this->analyzerSegrulesFSAsMap);
+    //        delete this->analyzerPtr;
+    //    }
+    //    this->analyzerPtr = readFile<unsigned char>(filename.c_str());
+    //    this->analyzerFSA = FSA< vector<InterpsGroup> > ::getFSA(analyzerPtr, *initializeAnalyzerDeserializer());
+    //    this->analyzerSegrulesFSAsMap = createSegrulesFSAsMap(analyzerPtr);
+    //    this->isAnalyzerFSAFromFile = true;
 }
  
 void Morfeusz::setGeneratorFile(const string& filename) {
-    if (this->isGeneratorFSAFromFile) {
-        delete this->generatorPtr;
-    }
-    this->generatorPtr = readFile<unsigned char>(filename.c_str());
-    this->generator.setGeneratorPtr(generatorPtr);
+    this->generatorEnv.setFSAFile(filename);
+    //    if (this->isGeneratorFSAFromFile) {
+    //        delete this->generatorPtr;
+    //    }
+    //    this->generatorPtr = readFile<unsigned char>(filename.c_str());
+    //    this->generator.setGeneratorPtr(generatorPtr);
 }
  
 Morfeusz::~Morfeusz() {
-    if (this->isAnalyzerFSAFromFile) {
-        delete this->analyzerFSA;
-        deleteSegrulesFSAs(this->segrulesFSAsMap);
-        delete this->analyzerPtr;
-    }
+    //    if (this->isAnalyzerFSAFromFile) {
+    //        delete this->analyzerFSA;
+    //        deleteSegrulesFSAs(this->analyzerSegrulesFSAsMap);
+    //        delete this->analyzerPtr;
+    //    }
 }
  
-void Morfeusz::analyzeOneWord(
+void Morfeusz::processOneWord(
+        const Environment& env,
         const char*& inputStart,
         const char* inputEnd,
         int startNodeNum,
         std::vector<MorphInterpretation>& results) const {
     while (inputStart != inputEnd
-            && isEndOfWord(this->env.getCharsetConverter().peek(inputStart, inputEnd))) {
-        this->env.getCharsetConverter().next(inputStart, inputEnd);
+            && isEndOfWord(env.getCharsetConverter().peek(inputStart, inputEnd))) {
+        env.getCharsetConverter().next(inputStart, inputEnd);
     }
     vector<InterpretedChunk> accum;
     FlexionGraph graph;
     const char* currInput = inputStart;
-    SegrulesFSA* segrulesFSA = this->currSegrulesFSA;
-    doAnalyzeOneWord(currInput, inputEnd, accum, graph, segrulesFSA->initialState);
+    const SegrulesFSA& segrulesFSA = env.getCurrentSegrulesFSA();
+    doProcessOneWord(env, currInput, inputEnd, segrulesFSA.initialState, accum, graph);
     if (!graph.empty()) {
-        InterpretedChunksDecoder interpretedChunksDecoder(env);
+        const InterpretedChunksDecoder& interpretedChunksDecoder = env.getInterpretedChunksDecoder();
         int srcNode = startNodeNum;
         for (unsigned int i = 0; i < graph.getTheGraph().size(); i++) {
             vector<FlexionGraph::Edge>& edges = graph.getTheGraph()[i];
             for (unsigned int j = 0; j < edges.size(); j++) {
                 FlexionGraph::Edge& e = edges[j];
                 int targetNode = startNodeNum + e.nextNode;
-                interpretedChunksDecoder.decode(srcNode, targetNode, e.chunk, back_inserter(results));
+                interpretedChunksDecoder.decode(srcNode, targetNode, e.chunk, results);
             }
             srcNode++;
         }
         //        graph.getResults(*this->tagset, results);
     }
     else if (inputStart != inputEnd) {
-        this->appendIgnotiumToResults(string(inputStart, currInput), startNodeNum, results);
+        this->appendIgnotiumToResults(env, string(inputStart, currInput), startNodeNum, results);
     }
     inputStart = currInput;
 }
@@ -139,109 +112,82 @@ static inline void doShiftOrth(InterpretedChunk&amp; from, InterpretedChunk&amp; to) {
     from.orthWasShifted = true;
 }
  
-void Morfeusz::doAnalyzeOneWord(
+void Morfeusz::doProcessOneWord(
+        const Environment& env,
         const char*& inputData,
         const char* inputEnd,
+        SegrulesState segrulesState,
         vector<InterpretedChunk>& accum,
-        FlexionGraph& graph,
-        SegrulesState segrulesState) const {
-    //    cerr << "doAnalyzeOneWord " << inputData << endl;
-    bool endOfWord = inputData == inputEnd;
+        FlexionGraph& graph) const {
+        cerr << "doAnalyzeOneWord " << inputData << endl;
+    bool endOfProcessing = inputData == inputEnd;
     const char* currInput = inputData;
-    uint32_t codepoint = endOfWord ? 0 : this->env.getCharsetConverter().next(currInput, inputEnd);
+    uint32_t codepoint = endOfProcessing ? 0 : env.getCharsetConverter().next(currInput, inputEnd);
     //    UnicodeChunk uchunk(*(this->charsetConverter), *(this->caseConverter));
     vector<uint32_t> originalCodepoints;
     vector<uint32_t> lowercaseCodepoints;
  
-    StateType state = this->analyzerFSA->getInitialState();
+    StateType state = env.getFSA().getInitialState();
  
-    while (!isEndOfWord(codepoint)) {
-        uint32_t lowerCP = this->env.getCaseConverter().toLower(codepoint);
+    while (!endOfProcessing) {
+        if (isEndOfWord(codepoint)) {
+            endOfProcessing = true;
+        }
+        cerr << "not end of word '" << string(currInput) << "'" << endl;
+        uint32_t lowerCP = env.getCaseConverter().toLower(codepoint);
         originalCodepoints.push_back(codepoint);
         lowercaseCodepoints.push_back(lowerCP);
         feedState(state, lowerCP, UTF8CharsetConverter());
-        codepoint = currInput == inputEnd ? 0 : this->env.getCharsetConverter().peek(currInput, inputEnd);
-        if (!isEndOfWord(codepoint)) {
-            if (state.isAccepting()) {
-                vector<InterpsGroup> val(state.getValue());
-                for (unsigned int i = 0; i < val.size(); i++) {
-                    InterpsGroup& ig = val[i];
-                    //                    newSegrulesState.proceedToNext(ig.type);
-                    //                    this->currSegrulesFSA->proceedToNext(ig.type, segrulesStates, newSegrulesStates);
-                    set<SegrulesState> newSegrulesStates;
-                    currSegrulesFSA->proceedToNext(ig.type, segrulesState, newSegrulesStates);
-                    for (
-                            set<SegrulesState>::iterator it = newSegrulesStates.begin();
-                            it != newSegrulesStates.end();
-                            it++) {
-                        SegrulesState newSegrulesState = *it;
-                        //                        bool shiftOrth = newSegrulesState.getLastTransitionValue() == 1;
-                        //                        bool shiftOrthSameType = newSegrulesState.getLastTransitionValue() == 2;
-                        InterpretedChunk ic = {
-                            inputData,
-                            originalCodepoints, 
-                            lowercaseCodepoints, 
-                            ig, 
-                            newSegrulesState.shiftOrthFromPrevious, 
-                            false,
-                            vector<InterpretedChunk>()
-                        };
-                        if (!accum.empty() && accum.back().shiftOrth) {
-                            doShiftOrth(accum.back(), ic);
-                        }
-                        accum.push_back(ic);
-                        const char* newCurrInput = currInput;
-                        doAnalyzeOneWord(newCurrInput, inputEnd, accum, graph, newSegrulesState);
-                        accum.pop_back();
-                    }
-                }
-            }
-
-            this->env.getCharsetConverter().next(currInput, inputEnd);
-        }
-    }
-    //    cerr << "end of word" << endl;
-    // we are at the end of word
-    if (state.isAccepting()) {
-        vector<InterpsGroup > val(state.getValue());
-        for (unsigned int i = 0; i < val.size(); i++) {
-            InterpsGroup& ig = val[i];
-            //            cerr << "currInput=" << currInput << endl;
-            //            cerr << "type=" << (int) ig.type << endl;
-            set<SegrulesState> newSegrulesStates;
-            currSegrulesFSA->proceedToNext(ig.type, segrulesState, newSegrulesStates);
-            for (
-                    set<SegrulesState>::iterator it = newSegrulesStates.begin();
-                    it != newSegrulesStates.end();
-                    it++) {
-                SegrulesState newSegrulesState = *it;
-                if (newSegrulesState.accepting) {
+        codepoint = currInput == inputEnd ? 0 : env.getCharsetConverter().peek(currInput, inputEnd);
+        if (state.isAccepting()) {
+            cerr << "accepting" << endl;
+            vector<InterpsGroup> val(state.getValue());
+            for (unsigned int i = 0; i < val.size(); i++) {
+                InterpsGroup& ig = val[i];
+                set<SegrulesState> newSegrulesStates;
+                env.getCurrentSegrulesFSA().proceedToNext(ig.type, segrulesState, newSegrulesStates);
+                for (
+                        set<SegrulesState>::iterator it = newSegrulesStates.begin();
+                        it != newSegrulesStates.end();
+                        ++it) {
+                    SegrulesState newSegrulesState = *it;
                     InterpretedChunk ic = {
-                        inputData, 
-                        originalCodepoints, 
-                        lowercaseCodepoints, 
-                        ig, 
-                        newSegrulesState.shiftOrthFromPrevious, 
+                        inputData,
+                        originalCodepoints,
+                        lowercaseCodepoints,
+                        ig,
+                        newSegrulesState.shiftOrthFromPrevious,
                         false,
-                        vector<InterpretedChunk>()};
+                        vector<InterpretedChunk>()
+                    };
                     if (!accum.empty() && accum.back().shiftOrth) {
                         doShiftOrth(accum.back(), ic);
                     }
                     accum.push_back(ic);
-                    graph.addPath(accum);
+                    if (isEndOfWord(codepoint)) {
+                        cerr << "end of word inside " << currInput <<endl;
+                        if (newSegrulesState.accepting)
+                            graph.addPath(accum);
+                    }
+                    else {
+                        const char* newCurrInput = currInput;
+                        doProcessOneWord(env, newCurrInput, inputEnd, newSegrulesState, accum, graph);
+                    }
                     accum.pop_back();
                 }
             }
         }
     }
+    cerr << "end of word " << currInput << endl;
     inputData = currInput;
 }
  
 void Morfeusz::appendIgnotiumToResults(
+        const Environment& env,
         const string& word,
         int startNodeNum,
         std::vector<MorphInterpretation>& results) const {
-    MorphInterpretation interp = MorphInterpretation::createIgn(startNodeNum, word, env.getAnalyzerTagset(), env.getCharsetConverter());
+    MorphInterpretation interp = MorphInterpretation::createIgn(startNodeNum, word, env.getTagset(), env.getCharsetConverter());
     results.push_back(interp);
 }
  
@@ -258,7 +204,7 @@ void Morfeusz::analyze(const string&amp; text, vector&lt;MorphInterpretation&gt;&amp; results)
     const char* inputEnd = input + text.length();
     while (input != inputEnd) {
         int startNode = results.empty() ? 0 : results.back().getEndNode();
-        this->analyzeOneWord(input, inputEnd, startNode, results);
+        this->processOneWord(this->analyzerEnv, input, inputEnd, startNode, results);
     }
 }
  
@@ -271,12 +217,18 @@ ResultsIterator Morfeusz::generate(const string&amp; text) const {
 }
  
 void Morfeusz::generate(const string& text, vector<MorphInterpretation>& results) const {
-    this->generator.generate(text, results);
+    const char* input = text.c_str();
+    const char* inputEnd = input + text.length();
+    while (input != inputEnd) {
+        int startNode = results.empty() ? 0 : results.back().getEndNode();
+        this->processOneWord(this->generatorEnv, input, inputEnd, startNode, results);
+    }
 }
  
 void Morfeusz::setCharset(MorfeuszCharset charset) {
     this->options.encoding = charset;
-    this->env.setCharset(charset);
+    this->analyzerEnv.setCharset(charset);
+    this->generatorEnv.setCharset(charset);
 }
  
 ResultsIterator::ResultsIterator(vector<MorphInterpretation>& res) {
@@ -33,7 +33,6 @@
 class Morfeusz;
 class ResultsIterator;
  
-typedef FSA< std::vector<InterpsGroup > > FSAType;
 typedef State< std::vector<InterpsGroup > > StateType;
  
 class Morfeusz {
@@ -102,33 +101,38 @@ public:
     friend class ResultsIterator;
 private:
  
-    void analyzeOneWord(
+    void processOneWord(
+            const Environment& env,
             const char*& inputData,
             const char* inputEnd,
             int startNodeNum,
             std::vector<MorphInterpretation>& result) const;
  
-    void doAnalyzeOneWord(
+    void doProcessOneWord(
+            const Environment& env,
             const char*& inputData,
             const char* inputEnd,
+            SegrulesState segrulesState,
             std::vector<InterpretedChunk>& accum,
-            FlexionGraph& graph,
-            SegrulesState segrulesState) const;
+            FlexionGraph& graph) const;
  
     void appendIgnotiumToResults(
+            const Environment& env,
             const std::string& word,
             int startNodeNum,
             std::vector<MorphInterpretation>& results) const;
-    Environment env;
-    const unsigned char* analyzerPtr;
-    FSAType* analyzerFSA;
-    std::map<SegrulesOptions, SegrulesFSA*> segrulesFSAsMap;
-    SegrulesFSA* currSegrulesFSA;
-    bool isAnalyzerFSAFromFile;
-    
-    const unsigned char* generatorPtr;
-    bool isGeneratorFSAFromFile;
-    Generator generator;
+    Environment analyzerEnv;
+    Environment generatorEnv;
+//    const unsigned char* analyzerPtr;
+//    FSAType* analyzerFSA;
+//    std::map<SegrulesOptions, SegrulesFSA*> analyzerSegrulesFSAsMap;
+//    SegrulesFSA* currAnalyzerSegrulesFSA;
+//    bool isAnalyzerFSAFromFile;
+//    
+//    const unsigned char* generatorPtr;
+//    FSAType* generatorFSA;
+//    bool isGeneratorFSAFromFile;
+//    Generator generator;
  
     MorfeuszOptions options;
 };
@@ -23,7 +23,7 @@ MorphDeserializer::MorphDeserializer() {
 MorphDeserializer::~MorphDeserializer() {
 }
  
-static void deserializeLemma(const unsigned char*& ptr, EncodedLemma& lemma) {
+static void deserializeLemma(const unsigned char*& ptr, EncodedForm& lemma) {
     // XXX uważać na poprawność danych
     lemma.suffixToCut = *ptr;
     ptr++;
@@ -64,7 +64,7 @@ static void deserializeLemma(const unsigned char*&amp; ptr, EncodedLemma&amp; lemma) {
 static void deserializeInterp(const unsigned char*& ptr, EncodedInterpretation& interp) {
     interp.type = *ptr;
     ptr++;
-    deserializeLemma(ptr, interp.lemma);
+    deserializeLemma(ptr, interp.value);
     interp.tag = ntohs(*(reinterpret_cast<const uint16_t*>(ptr)));
     ptr += 2;
     interp.nameClassifier = *ptr;
@@ -18,6 +18,11 @@ enum MorfeuszCharset {
     CP852
 };
  
+enum MorfeuszProcessorType {
+    GENERATOR,
+    ANALYZER
+};
+
 extern const MorfeuszCharset DEFAULT_MORFEUSZ_CHARSET;
  
 extern const unsigned char SHIFT_ORTH_NODE;
@@ -88,8 +88,6 @@ FSA&lt;T&gt;* FSA&lt;T&gt;::getFSA(const unsigned char* ptr, const Deserializer&lt;T&gt;&amp; deserial
             return new CompressedFSA1<T>(startPtr, deserializer);
         case 2:
             return new CompressedFSA2<T>(startPtr, deserializer);
-        case 128:
-            return new SimpleFSA<T>(startPtr, deserializer, true);
         default:
             std::ostringstream oss;
             oss << "Invalid implementation number: " << versionNum << ", should be: " << VERSION_NUM;
@@ -106,20 +106,14 @@
         </makeTool>
       </makefileType>
       <item path="../default_fsa.cpp" ex="false" tool="1" flavor2="4">
-        <ccTool flags="1">
-        </ccTool>
       </item>
       <item path="../default_synth_fsa.cpp" ex="false" tool="1" flavor2="4">
-        <ccTool flags="1">
-        </ccTool>
       </item>
       <item path="build/default_fsa.cpp" ex="false" tool="1" flavor2="4">
       </item>
       <item path="build/default_synth_fsa.cpp" ex="false" tool="1" flavor2="4">
       </item>
       <item path="build/morfeusz/java/swigJAVA.cpp" ex="false" tool="1" flavor2="4">
-        <ccTool flags="1">
-        </ccTool>
       </item>
       <item path="build/morfeusz/morfeuszJAVA_wrap.cxx"
             ex="false"
@@ -414,26 +408,18 @@
         </ccTool>
       </item>
       <item path="morfeusz/charset/CaseConverter.cpp" ex="false" tool="1" flavor2="4">
-        <ccTool flags="1">
-        </ccTool>
       </item>
       <item path="morfeusz/charset/CharsetConverter.cpp"
             ex="false"
             tool="1"
             flavor2="4">
-        <ccTool flags="1">
-        </ccTool>
       </item>
       <item path="morfeusz/charset/caseconv.cpp" ex="false" tool="1" flavor2="4">
-        <ccTool flags="1">
-        </ccTool>
       </item>
       <item path="morfeusz/charset/conversion_tables.cpp"
             ex="false"
             tool="1"
             flavor2="4">
-        <ccTool flags="1">
-        </ccTool>
       </item>
       <item path="morfeusz/const.cpp" ex="false" tool="1" flavor2="4">
         <ccTool flags="1">
@@ -522,12 +508,8 @@
             ex="false"
             tool="1"
             flavor2="4">
-        <ccTool flags="1">
-        </ccTool>
       </item>
       <item path="morfeusz/segrules/segrules.cpp" ex="false" tool="1" flavor2="4">
-        <ccTool flags="1">
-        </ccTool>
       </item>
       <item path="morfeusz/test_recognize_dict.cpp" ex="false" tool="1" flavor2="4">
         <ccTool flags="0">