Small patch to fix DOCX functionality

fsecada01 · fsecada01 · commit 0de893fc901a · 2019-11-24T17:29:20.000-05:00
diff --git a/.gitignore b/.gitignore
@@ -2,3 +2,4 @@ build/
 dist/
 TextSpitter.egg-info/
 v */
+git_push.bat
diff --git a/TextSpitter/core.py b/TextSpitter/core.py
@@ -15,8 +15,8 @@ def PdfFileRead(file):
     those characters get filtered out.'''
 
     try:
-        with file.open().read() as f:
-            pdf_file = fitz.Document(stream=f, filetype='pdf')
+        with file.open() as f:
+            pdf_file = fitz.Document(stream=f.read(), filetype='pdf')
             raw_text = [ele.getText('text') for ele in pdf_file]
             text = ''.join(raw_text)
     # else:
@@ -29,8 +29,8 @@ def PdfFileRead(file):
 
 
 def DocxFileRead(file):
-    with file.open().read() as f:
-        f_stream = BytesIO(f)
+    with file.open() as f:
+        f_stream = BytesIO(f.read())
         document = Document(f_stream)
         raw_text = [p.text for p in document.paragraphs]
         text = '\n'.join(raw_text)
diff --git a/TextSpitter/main.py b/TextSpitter/main.py
@@ -17,7 +17,7 @@ def file_load(self):
             if file_type == file_types_tup[0]:
                 text = PdfFileRead(self.name)
             elif file_type == file_types_tup[1]:
-                text = DocxFileRead(self.text)
+                text = DocxFileRead(self.name)
             # elif file_type == file_types_tup[2]:
             #     text = DocFileRead(self.text)
             else: