sensowniejsze sortowanie wychodzących przejść.

git-svn-id: svn://svn.nlp.ipipan.waw.pl/morfeusz/morfeusz@6 ff4e3ee1-f430-4e82-ade0-24591c43f1fd

sensowniejsze sortowanie wychodzących przejść.
git-svn-id: svn://svn.nlp.ipipan.waw.pl/morfeusz/morfeusz@6 ff4e3ee1-f430-4e82-ade0-24591c43f1fd
Michał Lenart
1 parent a22a7344
Showing 4 changed files with 54 additions and 26 deletions
fsabuilder/fsa/buildfsa.py
fsabuilder/fsa/fsa.py
fsabuilder/fsa/serializer.py
fsabuilder/fsa/state.py
@@ -11,7 +11,7 @@ import codecs
 import encode
 import convertinput
 from fsa import FSA
-from serializer import SimpleSerializerWithStringValues
+from serializer import SimpleSerializer
 from visualizer import Visualizer
 from optparse import OptionParser
  
@@ -26,6 +26,10 @@ class InputFormat():
     POLIMORF = 'POLIMORF'
     PLAIN = 'PLAIN'
  
+class FSAType():
+    MORPH = 'MORPH'
+    SPELL = 'SPELL'
+
 def parseOptions():
     """
     Parses commandline args
@@ -39,9 +43,12 @@ def parseOptions():
                         dest='outputFile',
                         metavar='FILE',
                         help='path to output file')
+    parser.add_option('-t', '--fsa-type',
+                        dest='fsaType',
+                        help='result FSA type - MORPH (for morphological analysis) or SPELL (for simple spell checker)')
     parser.add_option('--input-format',
                         dest='inputFormat',
-                        help='input format - ENCODED or POLIMORF')
+                        help='input format - ENCODED, POLIMORF or PLAIN')
     parser.add_option('--output-format',
                         dest='outputFormat',
                         help='output format - BINARY or CPP')
@@ -53,14 +60,30 @@ def parseOptions():
  
     opts, args = parser.parse_args()
  
-    if None in [opts.inputFile, opts.outputFile, opts.outputFormat, opts.inputFormat]:
+    if None in [opts.inputFile, opts.outputFile, opts.outputFormat, opts.inputFormat, opts.fsaType]:
         parser.print_help()
         exit(1)
     if not opts.outputFormat.upper() in [OutputFormat.BINARY, OutputFormat.CPP]:
-        print >> sys.stderr, 'output format must be one of ('+str([OutputFormat.BINARY, OutputFormat.CPP])+')'
+        logging.error('output format must be one of ('+str([OutputFormat.BINARY, OutputFormat.CPP])+')')
+        parser.print_help()
         exit(1)
     if not opts.inputFormat.upper() in [InputFormat.ENCODED, InputFormat.POLIMORF, InputFormat.PLAIN]:
-        print >> sys.stderr, 'input format must be one of ('+str([InputFormat.ENCODED, InputFormat.POLIMORF])+')'
+        logging.error('input format must be one of ('+str([InputFormat.ENCODED, InputFormat.POLIMORF, InputFormat.PLAIN])+')')
+        parser.print_help()
+        exit(1)
+    if not opts.fsaType.upper() in [FSAType.MORPH, FSAType.SPELL]:
+        logging.error('input format must be one of ('+str([InputFormat.ENCODED, InputFormat.POLIMORF])+')')
+        parser.print_help()
+        exit(1)
+    if opts.inputFormat.upper() == FSAType.MORPH \
+        and not opts.inputFormat.upper() in [InputFormat.ENCODED, InputFormat.POLIMORF]:
+        logging.error('input format for morph analysis FSA must be one of ('+str([InputFormat.ENCODED, InputFormat.POLIMORF])+')')
+        parser.print_help()
+        exit(1)
+    if opts.inputFormat.upper() == FSAType.SPELL \
+        and not opts.inputFormat.upper() in [InputFormat.PLAIN]:
+        logging.error('input format for simple spelling FSA must be '+InputFormat.PLAIN)
+        parser.print_help()
         exit(1)
     return opts
  
@@ -85,7 +108,7 @@ if __name__ == &#39;__main__&#39;:
     opts = parseOptions()
     encoder = encode.Encoder()
     fsa = FSA(encoder)
-    serializer = SimpleSerializerWithStringValues()
+    serializer = SimpleSerializer()
  
     inputData = {
                  InputFormat.ENCODED: readEncodedInput(opts.inputFile),
@@ -96,9 +119,12 @@ if __name__ == &#39;__main__&#39;:
     logging.info('feeding FSA with data ...')
     fsa.feed(inputData)
     logging.info('states num: '+str(fsa.getStatesNum()))
-    if opts.outputFormat == 'CPP':
-        serializer.serialize2CppFile(fsa, opts.outputFile)
-    else:
-        serializer.serialize2BinaryFile(fsa, opts.outputFile)
+    
+    {
+     OutputFormat.CPP: serializer.serialize2CppFile,
+     OutputFormat.BINARY: serializer.serialize2BinaryFile
+     }[opts.outputFormat](fsa, opts.outputFile)
+    
     if opts.visualize:
         Visualizer().visualize(fsa)
+
@@ -22,11 +22,12 @@ class FSA(object):
         self.initialState = state.State()
         self.register = register.Register()
  
-    def tryToRecognize(self, word):
-        return self.decodeData(self.initialState.tryToRecognize(self.encodeWord(word)))
+    def tryToRecognize(self, word, addFreq=False):
+        return self.decodeData(self.initialState.tryToRecognize(self.encodeWord(word), addFreq))
  
     def feed(self, input):
  
+        allWords = []
         for n, (word, data) in enumerate(input, start=1):
             assert data is not None
             if type(data) in [str, unicode]:
@@ -38,9 +39,13 @@ class FSA(object):
             assert self.tryToRecognize(word) == data
             if n % 10000 == 0:
                 logging.info(word)
+            allWords.append(word)
  
         self.initialState = self._replaceOrRegister(self.initialState, self.encodeWord(word))
         self.encodedPrevWord = None
+        
+        for w in allWords:
+            self.tryToRecognize(w, True)
  
     def getStatesNum(self):
         return self.register.getStatesNum()
@@ -54,7 +54,8 @@ class SimpleSerializer(Serializer):
         return 1 + 4 * len(state.transitionsMap.keys()) + self.getDataSize(state)
  
     def getDataSize(self, state):
-        raise NotImplementedError('Not implemented')
+        assert type(state.encodedData) == bytearray or not state.isAccepting()
+        return len(state.encodedData) if state.isAccepting() else 0
  
     def state2bytearray(self, state):
         res = bytearray()
@@ -77,17 +78,10 @@ class SimpleSerializer(Serializer):
     def _transitionsData2bytearray(self, state):
         res = bytearray()
         # must sort that strange way because it must be sorted according to char, not unsigned char
-        for byte, nextState in sorted(state.transitionsMap.iteritems(), key=lambda (c, _): c if (c >= 0 and c < 128) else c - 256):
+        for byte, nextState in sorted(state.transitionsMap.iteritems(), key=lambda (_, state): -state.freq):
             res.append(byte)
             offset = nextState.offset
             res.append(offset & 0x0000FF)
             res.append((offset & 0x00FF00) >> 8)
             res.append((offset & 0xFF0000) >> 16)
         return res
-
-class SimpleSerializerWithStringValues(SimpleSerializer):
-    
-    def getDataSize(self, state):
-        assert type(state.encodedData) == bytearray or not state.isAccepting()
-        return len(state.encodedData) if state.isAccepting() else 0
-        
 \ No newline at end of file
@@ -11,6 +11,7 @@ class State(object):
  
     def __init__(self):
         self.transitionsMap = {}
+        self.freq = 0
         self.encodedData = None
         self.reverseOffset = None
         self.offset = None
@@ -21,7 +22,9 @@ class State(object):
     def hasNext(self, byte):
         return byte in self.transitionsMap
  
-    def getNext(self, byte):
+    def getNext(self, byte, addFreq=False):
+        if addFreq:
+            self.freq += 1
         return self.transitionsMap.get(byte, None)
  
     def getRegisterKey(self):
@@ -30,11 +33,11 @@ class State(object):
     def isAccepting(self):
         return self.encodedData is not None
  
-    def tryToRecognize(self, word):
+    def tryToRecognize(self, word, addFreq=False):
         if word:
-            nextState = self.getNext(word[0])
+            nextState = self.getNext(word[0], addFreq)
             if nextState:
-                return nextState.tryToRecognize(word[1:])
+                return nextState.tryToRecognize(word[1:], addFreq)
             else:
                 return False
         else:
@@ -42,7 +45,7 @@ class State(object):
  
     def dfs(self, alreadyVisited):
         if not self in alreadyVisited:
-            for _, state in sorted(self.transitionsMap.iteritems()):
+            for _, state in sorted(self.transitionsMap.iteritems(), key=lambda (_, state): -state.freq):
                 for state1 in state.dfs(alreadyVisited):
                     yield state1
             alreadyVisited.add(self)