Spaces:

retopara
/

ragflow

Build error

zhichyu commited on Nov 12, 2024

Commit

22fe41e

1 Parent(s): 6afa2cc

Rework logging (#3358)

Unified all log files into one.

### What problem does this PR solve?

Unified all log files into one.

### Type of change

- [x] Refactoring

This view is limited to 50 files because it contains too many changes. See raw diff

Files changed (50) hide show

agent/canvas.py +5 -7
agent/component/arxiv.py +2 -3
agent/component/baidu.py +2 -4
agent/component/base.py +7 -7
agent/component/bing.py +2 -3
agent/component/categorize.py +3 -3
agent/component/duckduckgo.py +2 -2
agent/component/github.py +2 -2
agent/component/google.py +3 -3
agent/component/googlescholar.py +4 -4
agent/component/keyword.py +2 -2
agent/component/pubmed.py +2 -2
agent/component/relevant.py +2 -1
agent/component/retrieval.py +2 -1
agent/component/rewrite.py +2 -1
agent/component/wikipedia.py +2 -4
agent/component/yahoofinance.py +3 -2
agent/settings.py +0 -16
api/apps/__init__.py +5 -10
api/apps/canvas_app.py +2 -1
api/apps/llm_app.py +2 -1
api/apps/sdk/dataset.py +1 -1
api/apps/user_app.py +7 -7
api/db/db_models.py +8 -11
api/db/db_utils.py +0 -6
api/db/init_data.py +14 -16
api/db/operatioins.py +0 -21
api/db/services/dialog_service.py +10 -13
api/db/services/document_service.py +4 -4
api/db/services/file_service.py +5 -4
api/db/services/llm_service.py +17 -17
api/ragflow_server.py +14 -18
api/settings.py +0 -17
api/utils/api_utils.py +4 -3
api/utils/log_utils.py +25 -287
deepdoc/parser/pdf_parser.py +25 -24
deepdoc/parser/resume/entities/corporations.py +9 -3
deepdoc/parser/resume/step_two.py +20 -15
deepdoc/vision/operators.py +2 -2
deepdoc/vision/recognizer.py +2 -1
deepdoc/vision/seeit.py +2 -1
deepdoc/vision/t_recognizer.py +5 -2
graphrag/claim_extractor.py +3 -4
graphrag/community_reports_extractor.py +4 -7
graphrag/index.py +3 -2
graphrag/mind_map_extractor.py +3 -3
intergrations/chatgpt-on-wechat/plugins/ragflow_chat.py +3 -3
rag/app/book.py +2 -1
rag/app/email.py +2 -2
rag/app/laws.py +3 -3

agent/canvas.py CHANGED Viewed

@@ -14,14 +14,12 @@
 #  limitations under the License.
 #
 import json
-import traceback
 from abc import ABC
 from copy import deepcopy
 from functools import partial
 from agent.component import component_class
 from agent.component.base import ComponentBase
-from agent.settings import flow_logger, DEBUG
 class Canvas(ABC):
     """
@@ -189,7 +187,7 @@ class Canvas(ABC):
                 if cpn.component_name == "Answer":
                     self.answer.append(c)
                 else:
-                    if DEBUG: print("RUN: ", c)
                     cpids = cpn.get_dependent_components()
                     if any([c not in self.path[-1] for c in cpids]):
                         continue
@@ -199,7 +197,7 @@ class Canvas(ABC):
         prepare2run(self.components[self.path[-2][-1]]["downstream"])
         while 0 <= ran < len(self.path[-1]):
-            if DEBUG: print(ran, self.path)
             cpn_id = self.path[-1][ran]
             cpn = self.get_component(cpn_id)
             if not cpn["downstream"]: break
@@ -219,7 +217,7 @@ class Canvas(ABC):
                             self.get_component(p)["obj"].set_exception(e)
                             prepare2run([p])
                             break
-                    traceback.print_exc()
                     break
                 continue
@@ -231,7 +229,7 @@ class Canvas(ABC):
                         self.get_component(p)["obj"].set_exception(e)
                         prepare2run([p])
                         break
-                traceback.print_exc()
                 break
         if self.answer:

 #  limitations under the License.
 #
 import json
 from abc import ABC
 from copy import deepcopy
 from functools import partial
 from agent.component import component_class
 from agent.component.base import ComponentBase
+from api.utils.log_utils import logger
 class Canvas(ABC):
     """
                 if cpn.component_name == "Answer":
                     self.answer.append(c)
                 else:
+                    logger.debug(f"Canvas.prepare2run: {c}")
                     cpids = cpn.get_dependent_components()
                     if any([c not in self.path[-1] for c in cpids]):
                         continue
         prepare2run(self.components[self.path[-2][-1]]["downstream"])
         while 0 <= ran < len(self.path[-1]):
+            logger.debug(f"Canvas.run: {ran} {self.path}")
             cpn_id = self.path[-1][ran]
             cpn = self.get_component(cpn_id)
             if not cpn["downstream"]: break
                             self.get_component(p)["obj"].set_exception(e)
                             prepare2run([p])
                             break
+                    logger.exception("Canvas.run got exception")
                     break
                 continue
                         self.get_component(p)["obj"].set_exception(e)
                         prepare2run([p])
                         break
+                logger.exception("Canvas.run got exception")
                 break
         if self.answer:

agent/component/arxiv.py CHANGED Viewed

@@ -16,9 +16,8 @@
 from abc import ABC
 import arxiv
 import pandas as pd
-from agent.settings import DEBUG
 from agent.component.base import ComponentBase, ComponentParamBase
 class ArXivParam(ComponentParamBase):
     """
@@ -65,5 +64,5 @@ class ArXiv(ComponentBase, ABC):
             return ArXiv.be_output("")
         df = pd.DataFrame(arxiv_res)
-        if DEBUG: print(df, ":::::::::::::::::::::::::::::::::")
         return df

 from abc import ABC
 import arxiv
 import pandas as pd
 from agent.component.base import ComponentBase, ComponentParamBase
+from api.utils.log_utils import logger
 class ArXivParam(ComponentParamBase):
     """
             return ArXiv.be_output("")
         df = pd.DataFrame(arxiv_res)
+        logger.debug(f"df: {str(df)}")
         return df

agent/component/baidu.py CHANGED Viewed

@@ -13,14 +13,12 @@
 #  See the License for the specific language governing permissions and
 #  limitations under the License.
 #
-import random
 from abc import ABC
-from functools import partial
 import pandas as pd
 import requests
 import re
-from agent.settings import DEBUG
 from agent.component.base import ComponentBase, ComponentParamBase
 class BaiduParam(ComponentParamBase):
@@ -64,6 +62,6 @@ class Baidu(ComponentBase, ABC):
             return Baidu.be_output("")
         df = pd.DataFrame(baidu_res)
-        if DEBUG: print(df, ":::::::::::::::::::::::::::::::::")
         return df

 #  See the License for the specific language governing permissions and
 #  limitations under the License.
 #
 from abc import ABC
 import pandas as pd
 import requests
 import re
 from agent.component.base import ComponentBase, ComponentParamBase
+from api.utils.log_utils import logger
 class BaiduParam(ComponentParamBase):
             return Baidu.be_output("")
         df = pd.DataFrame(baidu_res)
+        logger.debug(f"df: {str(df)}")
         return df

agent/component/base.py CHANGED Viewed

@@ -17,14 +17,14 @@ from abc import ABC
 import builtins
 import json
 import os
-from copy import deepcopy
 from functools import partial
-from typing import List, Dict, Tuple, Union
 import pandas as pd
 from agent import settings
-from agent.settings import flow_logger, DEBUG
 _FEEDED_DEPRECATED_PARAMS = "_feeded_deprecated_params"
 _DEPRECATED_PARAMS = "_deprecated_params"
@@ -361,13 +361,13 @@ class ComponentParamBase(ABC):
     def _warn_deprecated_param(self, param_name, descr):
         if self._deprecated_params_set.get(param_name):
-            flow_logger.warning(
                 f"{descr} {param_name} is deprecated and ignored in this version."
             )
     def _warn_to_deprecate_param(self, param_name, descr, new_param):
         if self._deprecated_params_set.get(param_name):
-            flow_logger.warning(
                 f"{descr} {param_name} will be deprecated in future release; "
                 f"please use {new_param} instead."
             )
@@ -403,7 +403,7 @@ class ComponentBase(ABC):
         return cpnts
     def run(self, history, **kwargs):
-        flow_logger.info("{}, history: {}, kwargs: {}".format(self, json.dumps(history, ensure_ascii=False),
                                                               json.dumps(kwargs, ensure_ascii=False)))
         try:
             res = self._run(history, **kwargs)
@@ -463,7 +463,7 @@ class ComponentBase(ABC):
             reversed_cpnts.extend(self._canvas.path[-2])
         reversed_cpnts.extend(self._canvas.path[-1])
-        if DEBUG: print(self.component_name, reversed_cpnts[::-1])
         for u in reversed_cpnts[::-1]:
             if self.get_component_name(u) in ["switch", "concentrator"]: continue
             if self.component_name.lower() == "generate" and self.get_component_name(u) == "retrieval":

 import builtins
 import json
 import os
 from functools import partial
+from typing import Tuple, Union
 import pandas as pd
 from agent import settings
+from api.utils.log_utils import logger
 _FEEDED_DEPRECATED_PARAMS = "_feeded_deprecated_params"
 _DEPRECATED_PARAMS = "_deprecated_params"
     def _warn_deprecated_param(self, param_name, descr):
         if self._deprecated_params_set.get(param_name):
+            logger.warning(
                 f"{descr} {param_name} is deprecated and ignored in this version."
             )
     def _warn_to_deprecate_param(self, param_name, descr, new_param):
         if self._deprecated_params_set.get(param_name):
+            logger.warning(
                 f"{descr} {param_name} will be deprecated in future release; "
                 f"please use {new_param} instead."
             )
         return cpnts
     def run(self, history, **kwargs):
+        logger.info("{}, history: {}, kwargs: {}".format(self, json.dumps(history, ensure_ascii=False),
                                                               json.dumps(kwargs, ensure_ascii=False)))
         try:
             res = self._run(history, **kwargs)
             reversed_cpnts.extend(self._canvas.path[-2])
         reversed_cpnts.extend(self._canvas.path[-1])
+        logger.debug(f"{self.component_name} {reversed_cpnts[::-1]}")
         for u in reversed_cpnts[::-1]:
             if self.get_component_name(u) in ["switch", "concentrator"]: continue
             if self.component_name.lower() == "generate" and self.get_component_name(u) == "retrieval":

agent/component/bing.py CHANGED Viewed

@@ -16,9 +16,8 @@
 from abc import ABC
 import requests
 import pandas as pd
-from agent.settings import DEBUG
 from agent.component.base import ComponentBase, ComponentParamBase
 class BingParam(ComponentParamBase):
     """
@@ -81,5 +80,5 @@ class Bing(ComponentBase, ABC):
             return Bing.be_output("")
         df = pd.DataFrame(bing_res)
-        if DEBUG: print(df, ":::::::::::::::::::::::::::::::::")
         return df

 from abc import ABC
 import requests
 import pandas as pd
 from agent.component.base import ComponentBase, ComponentParamBase
+from api.utils.log_utils import logger
 class BingParam(ComponentParamBase):
     """
             return Bing.be_output("")
         df = pd.DataFrame(bing_res)
+        logger.debug(f"df: {str(df)}")
         return df

agent/component/categorize.py CHANGED Viewed

@@ -17,7 +17,7 @@ from abc import ABC
 from api.db import LLMType
 from api.db.services.llm_service import LLMBundle
 from agent.component import GenerateParam, Generate
-from agent.settings import DEBUG
 class CategorizeParam(GenerateParam):
@@ -34,7 +34,7 @@ class CategorizeParam(GenerateParam):
         super().check()
         self.check_empty(self.category_description, "[Categorize] Category examples")
         for k, v in self.category_description.items():
-            if not k: raise ValueError(f"[Categorize] Category name can not be empty!")
             if not v.get("to"): raise ValueError(f"[Categorize] 'To' of category {k} can not be empty!")
     def get_prompt(self):
@@ -77,7 +77,7 @@ class Categorize(Generate, ABC):
         chat_mdl = LLMBundle(self._canvas.get_tenant_id(), LLMType.CHAT, self._param.llm_id)
         ans = chat_mdl.chat(self._param.get_prompt(), [{"role": "user", "content": input}],
                             self._param.gen_conf())
-        if DEBUG: print(ans, ":::::::::::::::::::::::::::::::::", input)
         for c in self._param.category_description.keys():
             if ans.lower().find(c.lower()) >= 0:
                 return Categorize.be_output(self._param.category_description[c]["to"])

 from api.db import LLMType
 from api.db.services.llm_service import LLMBundle
 from agent.component import GenerateParam, Generate
+from api.utils.log_utils import logger
 class CategorizeParam(GenerateParam):
         super().check()
         self.check_empty(self.category_description, "[Categorize] Category examples")
         for k, v in self.category_description.items():
+            if not k: raise ValueError("[Categorize] Category name can not be empty!")
             if not v.get("to"): raise ValueError(f"[Categorize] 'To' of category {k} can not be empty!")
     def get_prompt(self):
         chat_mdl = LLMBundle(self._canvas.get_tenant_id(), LLMType.CHAT, self._param.llm_id)
         ans = chat_mdl.chat(self._param.get_prompt(), [{"role": "user", "content": input}],
                             self._param.gen_conf())
+        logger.debug(f"input: {input}, answer: {str(ans)}")
         for c in self._param.category_description.keys():
             if ans.lower().find(c.lower()) >= 0:
                 return Categorize.be_output(self._param.category_description[c]["to"])

agent/component/duckduckgo.py CHANGED Viewed

@@ -16,8 +16,8 @@
 from abc import ABC
 from duckduckgo_search import DDGS
 import pandas as pd
-from agent.settings import DEBUG
 from agent.component.base import ComponentBase, ComponentParamBase
 class DuckDuckGoParam(ComponentParamBase):
@@ -62,5 +62,5 @@ class DuckDuckGo(ComponentBase, ABC):
             return DuckDuckGo.be_output("")
         df = pd.DataFrame(duck_res)
-        if DEBUG: print(df, ":::::::::::::::::::::::::::::::::")
         return df

 from abc import ABC
 from duckduckgo_search import DDGS
 import pandas as pd
 from agent.component.base import ComponentBase, ComponentParamBase
+from api.utils.log_utils import logger
 class DuckDuckGoParam(ComponentParamBase):
             return DuckDuckGo.be_output("")
         df = pd.DataFrame(duck_res)
+        logger.debug("df: {df}")
         return df

agent/component/github.py CHANGED Viewed

@@ -16,8 +16,8 @@
 from abc import ABC
 import pandas as pd
 import requests
-from agent.settings import DEBUG
 from agent.component.base import ComponentBase, ComponentParamBase
 class GitHubParam(ComponentParamBase):
@@ -57,5 +57,5 @@ class GitHub(ComponentBase, ABC):
             return GitHub.be_output("")
         df = pd.DataFrame(github_res)
-        if DEBUG: print(df, ":::::::::::::::::::::::::::::::::")
         return df

 from abc import ABC
 import pandas as pd
 import requests
 from agent.component.base import ComponentBase, ComponentParamBase
+from api.utils.log_utils import logger
 class GitHubParam(ComponentParamBase):
             return GitHub.be_output("")
         df = pd.DataFrame(github_res)
+        logger.debug(f"df: {df}")
         return df

agent/component/google.py CHANGED Viewed

@@ -16,8 +16,8 @@
 from abc import ABC
 from serpapi import GoogleSearch
 import pandas as pd
-from agent.settings import DEBUG
 from agent.component.base import ComponentBase, ComponentParamBase
 class GoogleParam(ComponentParamBase):
@@ -85,12 +85,12 @@ class Google(ComponentBase, ABC):
                  "hl": self._param.language, "num": self._param.top_n})
             google_res = [{"content": '<a href="' + i["link"] + '">' + i["title"] + '</a>    ' + i["snippet"]} for i in
                           client.get_dict()["organic_results"]]
-        except Exception as e:
             return Google.be_output("**ERROR**: Existing Unavailable Parameters!")
         if not google_res:
             return Google.be_output("")
         df = pd.DataFrame(google_res)
-        if DEBUG: print(df, ":::::::::::::::::::::::::::::::::")
         return df

 from abc import ABC
 from serpapi import GoogleSearch
 import pandas as pd
 from agent.component.base import ComponentBase, ComponentParamBase
+from api.utils.log_utils import logger
 class GoogleParam(ComponentParamBase):
                  "hl": self._param.language, "num": self._param.top_n})
             google_res = [{"content": '<a href="' + i["link"] + '">' + i["title"] + '</a>    ' + i["snippet"]} for i in
                           client.get_dict()["organic_results"]]
+        except Exception:
             return Google.be_output("**ERROR**: Existing Unavailable Parameters!")
         if not google_res:
             return Google.be_output("")
         df = pd.DataFrame(google_res)
+        logger.debug(f"df: {df}")
         return df

agent/component/googlescholar.py CHANGED Viewed

@@ -15,9 +15,9 @@
 #
 from abc import ABC
 import pandas as pd
-from agent.settings import DEBUG
 from agent.component.base import ComponentBase, ComponentParamBase
 from scholarly import scholarly
 class GoogleScholarParam(ComponentParamBase):
@@ -58,13 +58,13 @@ class GoogleScholar(ComponentBase, ABC):
                     'pub_url'] + '"></a> ' + "\n author: " + ",".join(pub['bib']['author']) + '\n Abstract: ' + pub[
                                                    'bib'].get('abstract', 'no abstract')})
-            except StopIteration or Exception as e:
-                print("**ERROR** " + str(e))
                 break
         if not scholar_res:
             return GoogleScholar.be_output("")
         df = pd.DataFrame(scholar_res)
-        if DEBUG: print(df, ":::::::::::::::::::::::::::::::::")
         return df

 #
 from abc import ABC
 import pandas as pd
 from agent.component.base import ComponentBase, ComponentParamBase
 from scholarly import scholarly
+from api.utils.log_utils import logger
 class GoogleScholarParam(ComponentParamBase):
                     'pub_url'] + '"></a> ' + "\n author: " + ",".join(pub['bib']['author']) + '\n Abstract: ' + pub[
                                                    'bib'].get('abstract', 'no abstract')})
+            except StopIteration or Exception:
+                logger.exception("GoogleScholar")
                 break
         if not scholar_res:
             return GoogleScholar.be_output("")
         df = pd.DataFrame(scholar_res)
+        logger.debug(f"df: {df}")
         return df

agent/component/keyword.py CHANGED Viewed

@@ -18,7 +18,7 @@ from abc import ABC
 from api.db import LLMType
 from api.db.services.llm_service import LLMBundle
 from agent.component import GenerateParam, Generate
-from agent.settings import DEBUG
 class KeywordExtractParam(GenerateParam):
@@ -58,5 +58,5 @@ class KeywordExtract(Generate, ABC):
                             self._param.gen_conf())
         ans = re.sub(r".*keyword:", "", ans).strip()
-        if DEBUG: print(ans, ":::::::::::::::::::::::::::::::::")
         return KeywordExtract.be_output(ans)

 from api.db import LLMType
 from api.db.services.llm_service import LLMBundle
 from agent.component import GenerateParam, Generate
+from api.utils.log_utils import logger
 class KeywordExtractParam(GenerateParam):
                             self._param.gen_conf())
         ans = re.sub(r".*keyword:", "", ans).strip()
+        logger.info(f"ans: {ans}")
         return KeywordExtract.be_output(ans)

agent/component/pubmed.py CHANGED Viewed

@@ -18,8 +18,8 @@ from Bio import Entrez
 import re
 import pandas as pd
 import xml.etree.ElementTree as ET
-from agent.settings import DEBUG
 from agent.component.base import ComponentBase, ComponentParamBase
 class PubMedParam(ComponentParamBase):
@@ -65,5 +65,5 @@ class PubMed(ComponentBase, ABC):
             return PubMed.be_output("")
         df = pd.DataFrame(pubmed_res)
-        if DEBUG: print(df, ":::::::::::::::::::::::::::::::::")
         return df

 import re
 import pandas as pd
 import xml.etree.ElementTree as ET
 from agent.component.base import ComponentBase, ComponentParamBase
+from api.utils.log_utils import logger
 class PubMedParam(ComponentParamBase):
             return PubMed.be_output("")
         df = pd.DataFrame(pubmed_res)
+        logger.debug(f"df: {df}")
         return df

agent/component/relevant.py CHANGED Viewed

@@ -18,6 +18,7 @@ from api.db import LLMType
 from api.db.services.llm_service import LLMBundle
 from agent.component import GenerateParam, Generate
 from rag.utils import num_tokens_from_string, encoder
 class RelevantParam(GenerateParam):
@@ -70,7 +71,7 @@ class Relevant(Generate, ABC):
         ans = chat_mdl.chat(self._param.get_prompt(), [{"role": "user", "content": ans}],
                             self._param.gen_conf())
-        print(ans, ":::::::::::::::::::::::::::::::::")
         if ans.lower().find("yes") >= 0:
             return Relevant.be_output(self._param.yes)
         if ans.lower().find("no") >= 0:

 from api.db.services.llm_service import LLMBundle
 from agent.component import GenerateParam, Generate
 from rag.utils import num_tokens_from_string, encoder
+from api.utils.log_utils import logger
 class RelevantParam(GenerateParam):
         ans = chat_mdl.chat(self._param.get_prompt(), [{"role": "user", "content": ans}],
                             self._param.gen_conf())
+        logger.info(ans)
         if ans.lower().find("yes") >= 0:
             return Relevant.be_output(self._param.yes)
         if ans.lower().find("no") >= 0:

agent/component/retrieval.py CHANGED Viewed

@@ -22,6 +22,7 @@ from api.db.services.knowledgebase_service import KnowledgebaseService
 from api.db.services.llm_service import LLMBundle
 from api.settings import retrievaler
 from agent.component.base import ComponentBase, ComponentParamBase
 class RetrievalParam(ComponentParamBase):
@@ -80,7 +81,7 @@ class Retrieval(ComponentBase, ABC):
         df = pd.DataFrame(kbinfos["chunks"])
         df["content"] = df["content_with_weight"]
         del df["content_with_weight"]
-        print(">>>>>>>>>>>>>>>>>>>>>>>>>>\n", query, df)
         return df

 from api.db.services.llm_service import LLMBundle
 from api.settings import retrievaler
 from agent.component.base import ComponentBase, ComponentParamBase
+from api.utils.log_utils import logger
 class RetrievalParam(ComponentParamBase):
         df = pd.DataFrame(kbinfos["chunks"])
         df["content"] = df["content_with_weight"]
         del df["content_with_weight"]
+        logger.debug("{} {}".format(query, df))
         return df

agent/component/rewrite.py CHANGED Viewed

@@ -17,6 +17,7 @@ from abc import ABC
 from api.db import LLMType
 from api.db.services.llm_service import LLMBundle
 from agent.component import GenerateParam, Generate
 class RewriteQuestionParam(GenerateParam):
@@ -104,7 +105,7 @@ class RewriteQuestion(Generate, ABC):
         self._canvas.history.pop()
         self._canvas.history.append(("user", ans))
-        print(ans, ":::::::::::::::::::::::::::::::::")
         return RewriteQuestion.be_output(ans)

 from api.db import LLMType
 from api.db.services.llm_service import LLMBundle
 from agent.component import GenerateParam, Generate
+from api.utils.log_utils import logger
 class RewriteQuestionParam(GenerateParam):
         self._canvas.history.pop()
         self._canvas.history.append(("user", ans))
+        logger.info(ans)
         return RewriteQuestion.be_output(ans)

agent/component/wikipedia.py CHANGED Viewed

@@ -13,13 +13,11 @@
 #  See the License for the specific language governing permissions and
 #  limitations under the License.
 #
-import random
 from abc import ABC
-from functools import partial
 import wikipedia
 import pandas as pd
-from agent.settings import DEBUG
 from agent.component.base import ComponentBase, ComponentParamBase
 class WikipediaParam(ComponentParamBase):
@@ -65,5 +63,5 @@ class Wikipedia(ComponentBase, ABC):
             return Wikipedia.be_output("")
         df = pd.DataFrame(wiki_res)
-        if DEBUG: print(df, ":::::::::::::::::::::::::::::::::")
         return df

 #  See the License for the specific language governing permissions and
 #  limitations under the License.
 #
 from abc import ABC
 import wikipedia
 import pandas as pd
 from agent.component.base import ComponentBase, ComponentParamBase
+from api.utils.log_utils import logger
 class WikipediaParam(ComponentParamBase):
             return Wikipedia.be_output("")
         df = pd.DataFrame(wiki_res)
+        logger.debug(f"df: {df}")
         return df

agent/component/yahoofinance.py CHANGED Viewed

@@ -17,6 +17,7 @@ from abc import ABC
 import pandas as pd
 from agent.component.base import ComponentBase, ComponentParamBase
 import yfinance as yf
 class YahooFinanceParam(ComponentParamBase):
@@ -74,8 +75,8 @@ class YahooFinance(ComponentBase, ABC):
                     {"content": "quarterly cash flow statement:\n" + msft.quarterly_cashflow.to_markdown() + "\n"})
             if self._param.news:
                 yohoo_res.append({"content": "news:\n" + pd.DataFrame(msft.news).to_markdown() + "\n"})
-        except Exception as e:
-            print("**ERROR** " + str(e))
         if not yohoo_res:
             return YahooFinance.be_output("")

 import pandas as pd
 from agent.component.base import ComponentBase, ComponentParamBase
 import yfinance as yf
+from api.utils.log_utils import logger
 class YahooFinanceParam(ComponentParamBase):
                     {"content": "quarterly cash flow statement:\n" + msft.quarterly_cashflow.to_markdown() + "\n"})
             if self._param.news:
                 yohoo_res.append({"content": "news:\n" + pd.DataFrame(msft.news).to_markdown() + "\n"})
+        except Exception:
+            logger.exception("YahooFinance got exception")
         if not yohoo_res:
             return YahooFinance.be_output("")

agent/settings.py CHANGED Viewed

@@ -13,22 +13,6 @@
 #  See the License for the specific language governing permissions and
 #  limitations under the License.
 #
-# Logger
-import os
-from api.utils.file_utils import get_project_base_directory
-from api.utils.log_utils import LoggerFactory, getLogger
-DEBUG = 0
-LoggerFactory.set_directory(
-    os.path.join(
-        get_project_base_directory(),
-        "logs",
-        "flow"))
-# {CRITICAL: 50, FATAL:50, ERROR:40, WARNING:30, WARN:30, INFO:20, DEBUG:10, NOTSET:0}
-LoggerFactory.LEVEL = 30
-flow_logger = getLogger("flow")
-database_logger = getLogger("database")
 FLOAT_ZERO = 1e-8
 PARAM_MAXDEPTH = 5

 #  See the License for the specific language governing permissions and
 #  limitations under the License.
 #
 FLOAT_ZERO = 1e-8
 PARAM_MAXDEPTH = 5

api/apps/__init__.py CHANGED Viewed

@@ -13,7 +13,6 @@
 #  See the License for the specific language governing permissions and
 #  limitations under the License.
 #
-import logging
 import os
 import sys
 from importlib.util import module_from_spec, spec_from_file_location
@@ -30,18 +29,14 @@ from api.utils import CustomJSONEncoder, commands
 from flask_session import Session
 from flask_login import LoginManager
-from api.settings import SECRET_KEY, stat_logger
-from api.settings import API_VERSION, access_logger
 from api.utils.api_utils import server_error_response
 from itsdangerous.url_safe import URLSafeTimedSerializer as Serializer
 __all__ = ["app"]
-logger = logging.getLogger("flask.app")
-for h in access_logger.handlers:
-    logger.addHandler(h)
 Request.json = property(lambda self: self.get_json(force=True, silent=True))
 app = Flask(__name__)
@@ -158,8 +153,8 @@ def load_user(web_request):
                 return user[0]
             else:
                 return None
-        except Exception as e:
-            stat_logger.exception(e)
             return None
     else:
         return None

 #  See the License for the specific language governing permissions and
 #  limitations under the License.
 #
 import os
 import sys
 from importlib.util import module_from_spec, spec_from_file_location
 from flask_session import Session
 from flask_login import LoginManager
+from api.settings import SECRET_KEY
+from api.settings import API_VERSION
 from api.utils.api_utils import server_error_response
+from api.utils.log_utils import logger
 from itsdangerous.url_safe import URLSafeTimedSerializer as Serializer
 __all__ = ["app"]
 Request.json = property(lambda self: self.get_json(force=True, silent=True))
 app = Flask(__name__)
                 return user[0]
             else:
                 return None
+        except Exception:
+            logger.exception("load_user got exception")
             return None
     else:
         return None

api/apps/canvas_app.py CHANGED Viewed

@@ -23,6 +23,7 @@ from api.utils import get_uuid
 from api.utils.api_utils import get_json_result, server_error_response, validate_request, get_data_error_result
 from agent.canvas import Canvas
 from peewee import MySQLDatabase, PostgresqlDatabase
 @manager.route('/templates', methods=['GET'])
@@ -114,7 +115,7 @@ def run():
                 pass
             canvas.add_user_input(req["message"])
         answer = canvas.run(stream=stream)
-        print(canvas)
     except Exception as e:
         return server_error_response(e)

 from api.utils.api_utils import get_json_result, server_error_response, validate_request, get_data_error_result
 from agent.canvas import Canvas
 from peewee import MySQLDatabase, PostgresqlDatabase
+from api.utils.log_utils import logger
 @manager.route('/templates', methods=['GET'])
                 pass
             canvas.add_user_input(req["message"])
         answer = canvas.run(stream=stream)
+        logger.info(canvas)
     except Exception as e:
         return server_error_response(e)

api/apps/llm_app.py CHANGED Viewed

@@ -25,6 +25,7 @@ from api.db.db_models import TenantLLM
 from api.utils.api_utils import get_json_result
 from rag.llm import EmbeddingModel, ChatModel, RerankModel, CvModel, TTSModel
 import requests
 @manager.route('/factories', methods=['GET'])
@@ -89,7 +90,7 @@ def set_api_key():
                 if len(arr) == 0 or tc == 0:
                     raise Exception("Fail")
                 rerank_passed = True
-                print(f'passed model rerank{llm.llm_name}',flush=True)
             except Exception as e:
                 msg += f"\nFail to access model({llm.llm_name}) using this api key." + str(
                     e)

 from api.utils.api_utils import get_json_result
 from rag.llm import EmbeddingModel, ChatModel, RerankModel, CvModel, TTSModel
 import requests
+from api.utils.log_utils import logger
 @manager.route('/factories', methods=['GET'])
                 if len(arr) == 0 or tc == 0:
                     raise Exception("Fail")
                 rerank_passed = True
+                logger.info(f'passed model rerank {llm.llm_name}')
             except Exception as e:
                 msg += f"\nFail to access model({llm.llm_name}) using this api key." + str(
                     e)

api/apps/sdk/dataset.py CHANGED Viewed

@@ -526,4 +526,4 @@ def list(tenant_id):
             new_key = key_mapping.get(key, key)
             renamed_data[new_key] = value
         renamed_list.append(renamed_data)
-    return get_result(data=renamed_list)

             new_key = key_mapping.get(key, key)
             renamed_data[new_key] = value
         renamed_list.append(renamed_data)
+    return get_result(data=renamed_list)

api/apps/user_app.py CHANGED Viewed

@@ -53,8 +53,8 @@ from api.settings import (
 )
 from api.db.services.user_service import UserService, TenantService, UserTenantService
 from api.db.services.file_service import FileService
-from api.settings import stat_logger
 from api.utils.api_utils import get_json_result, construct_response
 @manager.route("/login", methods=["POST", "GET"])
@@ -177,7 +177,7 @@ def github_callback():
             try:
                 avatar = download_img(user_info["avatar_url"])
             except Exception as e:
-                stat_logger.exception(e)
                 avatar = ""
             users = user_register(
                 user_id,
@@ -202,7 +202,7 @@ def github_callback():
             return redirect("/?auth=%s" % user.get_id())
         except Exception as e:
             rollback_user_registration(user_id)
-            stat_logger.exception(e)
             return redirect("/?error=%s" % str(e))
     # User has already registered, try to log in
@@ -279,7 +279,7 @@ def feishu_callback():
             try:
                 avatar = download_img(user_info["avatar_url"])
             except Exception as e:
-                stat_logger.exception(e)
                 avatar = ""
             users = user_register(
                 user_id,
@@ -304,7 +304,7 @@ def feishu_callback():
             return redirect("/?auth=%s" % user.get_id())
         except Exception as e:
             rollback_user_registration(user_id)
-            stat_logger.exception(e)
             return redirect("/?error=%s" % str(e))
     # User has already registered, try to log in
@@ -436,7 +436,7 @@ def setting_user():
         UserService.update_by_id(current_user.id, update_dict)
         return get_json_result(data=True)
     except Exception as e:
-        stat_logger.exception(e)
         return get_json_result(
             data=False, message="Update failure!", code=RetCode.EXCEPTION_ERROR
         )
@@ -621,7 +621,7 @@ def user_add():
         )
     except Exception as e:
         rollback_user_registration(user_id)
-        stat_logger.exception(e)
         return get_json_result(
             data=False,
             message=f"User registration failure, error: {str(e)}",

 )
 from api.db.services.user_service import UserService, TenantService, UserTenantService
 from api.db.services.file_service import FileService
 from api.utils.api_utils import get_json_result, construct_response
+from api.utils.log_utils import logger
 @manager.route("/login", methods=["POST", "GET"])
             try:
                 avatar = download_img(user_info["avatar_url"])
             except Exception as e:
+                logger.exception(e)
                 avatar = ""
             users = user_register(
                 user_id,
             return redirect("/?auth=%s" % user.get_id())
         except Exception as e:
             rollback_user_registration(user_id)
+            logger.exception(e)
             return redirect("/?error=%s" % str(e))
     # User has already registered, try to log in
             try:
                 avatar = download_img(user_info["avatar_url"])
             except Exception as e:
+                logger.exception(e)
                 avatar = ""
             users = user_register(
                 user_id,
             return redirect("/?auth=%s" % user.get_id())
         except Exception as e:
             rollback_user_registration(user_id)
+            logger.exception(e)
             return redirect("/?error=%s" % str(e))
     # User has already registered, try to log in
         UserService.update_by_id(current_user.id, update_dict)
         return get_json_result(data=True)
     except Exception as e:
+        logger.exception(e)
         return get_json_result(
             data=False, message="Update failure!", code=RetCode.EXCEPTION_ERROR
         )
         )
     except Exception as e:
         rollback_user_registration(user_id)
+        logger.exception(e)
         return get_json_result(
             data=False,
             message=f"User registration failure, error: {str(e)}",

api/db/db_models.py CHANGED Viewed

@@ -30,12 +30,9 @@ from peewee import (
 )
 from playhouse.pool import PooledMySQLDatabase, PooledPostgresqlDatabase
 from api.db import SerializedType, ParserType
-from api.settings import DATABASE, stat_logger, SECRET_KEY, DATABASE_TYPE
-from api.utils.log_utils import getLogger
 from api import utils
-LOGGER = getLogger()
 def singleton(cls, *args, **kw):
     instances = {}
@@ -288,7 +285,7 @@ class BaseDataBase:
         database_config = DATABASE.copy()
         db_name = database_config.pop("name")
         self.database_connection = PooledDatabase[DATABASE_TYPE.upper()].value(db_name, **database_config)
-        stat_logger.info('init database on cluster mode successfully')
 class PostgresDatabaseLock:
     def __init__(self, lock_name, timeout=10, db=None):
@@ -396,7 +393,7 @@ def close_connection():
         if DB:
             DB.close_stale(age=30)
     except Exception as e:
-        LOGGER.exception(e)
 class DataBaseModel(BaseModel):
@@ -412,15 +409,15 @@ def init_database_tables(alter_fields=[]):
     for name, obj in members:
         if obj != DataBaseModel and issubclass(obj, DataBaseModel):
             table_objs.append(obj)
-            LOGGER.info(f"start create table {obj.__name__}")
             try:
                 obj.create_table()
-                LOGGER.info(f"create table success: {obj.__name__}")
             except Exception as e:
-                LOGGER.exception(e)
                 create_failed_list.append(obj.__name__)
     if create_failed_list:
-        LOGGER.info(f"create tables failed: {create_failed_list}")
         raise Exception(f"create tables failed: {create_failed_list}")
     migrate_db()

 )
 from playhouse.pool import PooledMySQLDatabase, PooledPostgresqlDatabase
 from api.db import SerializedType, ParserType
+from api.settings import DATABASE, SECRET_KEY, DATABASE_TYPE
 from api import utils
+from api.utils.log_utils import logger
 def singleton(cls, *args, **kw):
     instances = {}
         database_config = DATABASE.copy()
         db_name = database_config.pop("name")
         self.database_connection = PooledDatabase[DATABASE_TYPE.upper()].value(db_name, **database_config)
+        logger.info('init database on cluster mode successfully')
 class PostgresDatabaseLock:
     def __init__(self, lock_name, timeout=10, db=None):
         if DB:
             DB.close_stale(age=30)
     except Exception as e:
+        logger.exception(e)
 class DataBaseModel(BaseModel):
     for name, obj in members:
         if obj != DataBaseModel and issubclass(obj, DataBaseModel):
             table_objs.append(obj)
+            logger.info(f"start create table {obj.__name__}")
             try:
                 obj.create_table()
+                logger.info(f"create table success: {obj.__name__}")
             except Exception as e:
+                logger.exception(e)
                 create_failed_list.append(obj.__name__)
     if create_failed_list:
+        logger.info(f"create tables failed: {create_failed_list}")
         raise Exception(f"create tables failed: {create_failed_list}")
     migrate_db()

api/db/db_utils.py CHANGED Viewed

@@ -22,12 +22,6 @@ from playhouse.pool import PooledMySQLDatabase
 from api.utils import current_timestamp, timestamp_to_date
 from api.db.db_models import DB, DataBaseModel
-from api.db.runtime_config import RuntimeConfig
-from api.utils.log_utils import getLogger
-from enum import Enum
-LOGGER = getLogger()
 @DB.connection_context()

 from api.utils import current_timestamp, timestamp_to_date
 from api.db.db_models import DB, DataBaseModel
 @DB.connection_context()

api/db/init_data.py CHANGED Viewed

@@ -30,6 +30,7 @@ from api.db.services.llm_service import LLMFactoriesService, LLMService, TenantL
 from api.db.services.user_service import TenantService, UserTenantService
 from api.settings import CHAT_MDL, EMBEDDING_MDL, ASR_MDL, IMAGE2TEXT_MDL, PARSERS, LLM_FACTORY, API_KEY, LLM_BASE_URL
 from api.utils.file_utils import get_project_base_directory
 def encode_to_base64(input_string):
@@ -69,36 +70,34 @@ def init_superuser():
              "api_key": API_KEY, "api_base": LLM_BASE_URL})
     if not UserService.save(**user_info):
-        print("\033[93m【ERROR】\033[0mcan't init admin.")
         return
     TenantService.insert(**tenant)
     UserTenantService.insert(**usr_tenant)
     TenantLLMService.insert_many(tenant_llm)
-    print(
-        "【INFO】Super user initialized. \033[93memail: [email protected], password: admin\033[0m. Changing the password after logining is strongly recomanded.")
     chat_mdl = LLMBundle(tenant["id"], LLMType.CHAT, tenant["llm_id"])
     msg = chat_mdl.chat(system="", history=[
                         {"role": "user", "content": "Hello!"}], gen_conf={})
     if msg.find("ERROR: ") == 0:
-        print(
-            "\33[91m【ERROR】\33[0m: ",
             "'{}' dosen't work. {}".format(
                 tenant["llm_id"],
                 msg))
     embd_mdl = LLMBundle(tenant["id"], LLMType.EMBEDDING, tenant["embd_id"])
     v, c = embd_mdl.encode(["Hello!"])
     if c == 0:
-        print(
-            "\33[91m【ERROR】\33[0m:",
-            " '{}' dosen't work!".format(
                 tenant["embd_id"]))
 def init_llm_factory():
     try:
         LLMService.filter_delete([(LLM.fid == "MiniMax" or LLM.fid == "Minimax")])
-    except Exception as e:
         pass
     factory_llm_infos = json.load(
@@ -111,14 +110,14 @@ def init_llm_factory():
         llm_infos = factory_llm_info.pop("llm")
         try:
             LLMFactoriesService.save(**factory_llm_info)
-        except Exception as e:
             pass
         LLMService.filter_delete([LLM.fid == factory_llm_info["name"]])
         for llm_info in llm_infos:
             llm_info["fid"] = factory_llm_info["name"]
             try:
                 LLMService.save(**llm_info)
-            except Exception as e:
                 pass
     LLMFactoriesService.filter_delete([LLMFactories.name == "Local"])
@@ -145,7 +144,7 @@ def init_llm_factory():
                 row = deepcopy(row)
                 row["llm_name"] = "text-embedding-3-large"
                 TenantLLMService.save(**row)
-            except Exception as e:
                 pass
             break
     for kb_id in KnowledgebaseService.get_all_ids():
@@ -169,9 +168,8 @@ def add_graph_templates():
                 CanvasTemplateService.save(**cnvs)
             except:
                 CanvasTemplateService.update_by_id(cnvs["id"], cnvs)
-        except Exception as e:
-            print("Add graph templates error: ", e)
-            print("------------", flush=True)
 def init_web_data():
@@ -182,7 +180,7 @@ def init_web_data():
     #    init_superuser()
     add_graph_templates()
-    print("init web data success:{}".format(time.time() - start_time))
 if __name__ == '__main__':

 from api.db.services.user_service import TenantService, UserTenantService
 from api.settings import CHAT_MDL, EMBEDDING_MDL, ASR_MDL, IMAGE2TEXT_MDL, PARSERS, LLM_FACTORY, API_KEY, LLM_BASE_URL
 from api.utils.file_utils import get_project_base_directory
+from api.utils.log_utils import logger
 def encode_to_base64(input_string):
              "api_key": API_KEY, "api_base": LLM_BASE_URL})
     if not UserService.save(**user_info):
+        logger.info("can't init admin.")
         return
     TenantService.insert(**tenant)
     UserTenantService.insert(**usr_tenant)
     TenantLLMService.insert_many(tenant_llm)
+    logger.info(
+        "Super user initialized. email: [email protected], password: admin. Changing the password after logining is strongly recomanded.")
     chat_mdl = LLMBundle(tenant["id"], LLMType.CHAT, tenant["llm_id"])
     msg = chat_mdl.chat(system="", history=[
                         {"role": "user", "content": "Hello!"}], gen_conf={})
     if msg.find("ERROR: ") == 0:
+        logger.error(
             "'{}' dosen't work. {}".format(
                 tenant["llm_id"],
                 msg))
     embd_mdl = LLMBundle(tenant["id"], LLMType.EMBEDDING, tenant["embd_id"])
     v, c = embd_mdl.encode(["Hello!"])
     if c == 0:
+        logger.error(
+            "'{}' dosen't work!".format(
                 tenant["embd_id"]))
 def init_llm_factory():
     try:
         LLMService.filter_delete([(LLM.fid == "MiniMax" or LLM.fid == "Minimax")])
+    except Exception:
         pass
     factory_llm_infos = json.load(
         llm_infos = factory_llm_info.pop("llm")
         try:
             LLMFactoriesService.save(**factory_llm_info)
+        except Exception:
             pass
         LLMService.filter_delete([LLM.fid == factory_llm_info["name"]])
         for llm_info in llm_infos:
             llm_info["fid"] = factory_llm_info["name"]
             try:
                 LLMService.save(**llm_info)
+            except Exception:
                 pass
     LLMFactoriesService.filter_delete([LLMFactories.name == "Local"])
                 row = deepcopy(row)
                 row["llm_name"] = "text-embedding-3-large"
                 TenantLLMService.save(**row)
+            except Exception:
                 pass
             break
     for kb_id in KnowledgebaseService.get_all_ids():
                 CanvasTemplateService.save(**cnvs)
             except:
                 CanvasTemplateService.update_by_id(cnvs["id"], cnvs)
+        except Exception:
+            logger.exception("Add graph templates error: ")
 def init_web_data():
     #    init_superuser()
     add_graph_templates()
+    logger.info("init web data success:{}".format(time.time() - start_time))
 if __name__ == '__main__':

api/db/operatioins.py DELETED Viewed

@@ -1,21 +0,0 @@
-#
-#  Copyright 2024 The InfiniFlow Authors. All Rights Reserved.
-#
-#  Licensed under the Apache License, Version 2.0 (the "License");
-#  you may not use this file except in compliance with the License.
-#  You may obtain a copy of the License at
-#
-#      http://www.apache.org/licenses/LICENSE-2.0
-#
-#  Unless required by applicable law or agreed to in writing, software
-#  distributed under the License is distributed on an "AS IS" BASIS,
-#  WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-#  See the License for the specific language governing permissions and
-#  limitations under the License.
-#
-import operator
-import time
-import typing
-from api.utils.log_utils import sql_logger
-import peewee

api/db/services/dialog_service.py CHANGED Viewed

@@ -26,11 +26,12 @@ from api.db.db_models import Dialog, Conversation,DB
 from api.db.services.common_service import CommonService
 from api.db.services.knowledgebase_service import KnowledgebaseService
 from api.db.services.llm_service import LLMService, TenantLLMService, LLMBundle
-from api.settings import chat_logger, retrievaler, kg_retrievaler
 from rag.app.resume import forbidden_select_fields4resume
 from rag.nlp.search import index_name
 from rag.utils import rmSpace, num_tokens_from_string, encoder
 from api.utils.file_utils import get_project_base_directory
 class DialogService(CommonService):
@@ -177,7 +178,7 @@ def chat(dialog, messages, stream=True, **kwargs):
         tts_mdl = LLMBundle(dialog.tenant_id, LLMType.TTS)
     # try to use sql if field mapping is good to go
     if field_map:
-        chat_logger.info("Use SQL to retrieval:{}".format(questions[-1]))
         ans = use_sql(questions[-1], field_map, dialog.tenant_id, chat_mdl, prompt_config.get("quote", True))
         if ans:
             yield ans
@@ -219,7 +220,7 @@ def chat(dialog, messages, stream=True, **kwargs):
                                         doc_ids=attachments,
                                         top=dialog.top_k, aggs=False, rerank_mdl=rerank_mdl)
     knowledges = [ck["content_with_weight"] for ck in kbinfos["chunks"]]
-    chat_logger.info(
         "{}->{}".format(" ".join(questions), "\n->".join(knowledges)))
     retrieval_tm = timer()
@@ -291,7 +292,7 @@ def chat(dialog, messages, stream=True, **kwargs):
         yield decorate_answer(answer)
     else:
         answer = chat_mdl.chat(prompt, msg[1:], gen_conf)
-        chat_logger.info("User: {}|Assistant: {}".format(
             msg[-1]["content"], answer))
         res = decorate_answer(answer)
         res["audio_binary"] = tts(tts_mdl, answer)
@@ -319,8 +320,7 @@ def use_sql(question, field_map, tenant_id, chat_mdl, quota=True):
         nonlocal sys_prompt, user_promt, question, tried_times
         sql = chat_mdl.chat(sys_prompt, [{"role": "user", "content": user_promt}], {
             "temperature": 0.06})
-        print(user_promt, sql)
-        chat_logger.info(f"“{question}”==>{user_promt} get SQL: {sql}")
         sql = re.sub(r"[\r\n]+", " ", sql.lower())
         sql = re.sub(r".*select ", "select ", sql.lower())
         sql = re.sub(r" +", " ", sql)
@@ -340,9 +340,7 @@ def use_sql(question, field_map, tenant_id, chat_mdl, quota=True):
                     flds.append(k)
                 sql = "select doc_id,docnm_kwd," + ",".join(flds) + sql[8:]
-        print(f"“{question}” get SQL(refined): {sql}")
-        chat_logger.info(f"“{question}” get SQL(refined): {sql}")
         tried_times += 1
         return retrievaler.sql_retrieval(sql, format="json"), sql
@@ -371,10 +369,9 @@ def use_sql(question, field_map, tenant_id, chat_mdl, quota=True):
             question, sql, tbl["error"]
         )
         tbl, sql = get_table()
-        chat_logger.info("TRY it again: {}".format(sql))
-    chat_logger.info("GET table: {}".format(tbl))
-    print(tbl)
     if tbl.get("error") or len(tbl["rows"]) == 0:
         return None
@@ -404,7 +401,7 @@ def use_sql(question, field_map, tenant_id, chat_mdl, quota=True):
     rows = re.sub(r"T[0-9]{2}:[0-9]{2}:[0-9]{2}(\.[0-9]+Z)?\|", "|", rows)
     if not docid_idx or not docnm_idx:
-        chat_logger.warning("SQL missing field: " + sql)
         return {
             "answer": "\n".join([clmns, line, rows]),
             "reference": {"chunks": [], "doc_aggs": []},

 from api.db.services.common_service import CommonService
 from api.db.services.knowledgebase_service import KnowledgebaseService
 from api.db.services.llm_service import LLMService, TenantLLMService, LLMBundle
+from api.settings import retrievaler, kg_retrievaler
 from rag.app.resume import forbidden_select_fields4resume
 from rag.nlp.search import index_name
 from rag.utils import rmSpace, num_tokens_from_string, encoder
 from api.utils.file_utils import get_project_base_directory
+from api.utils.log_utils import logger
 class DialogService(CommonService):
         tts_mdl = LLMBundle(dialog.tenant_id, LLMType.TTS)
     # try to use sql if field mapping is good to go
     if field_map:
+        logger.info("Use SQL to retrieval:{}".format(questions[-1]))
         ans = use_sql(questions[-1], field_map, dialog.tenant_id, chat_mdl, prompt_config.get("quote", True))
         if ans:
             yield ans
                                         doc_ids=attachments,
                                         top=dialog.top_k, aggs=False, rerank_mdl=rerank_mdl)
     knowledges = [ck["content_with_weight"] for ck in kbinfos["chunks"]]
+    logger.info(
         "{}->{}".format(" ".join(questions), "\n->".join(knowledges)))
     retrieval_tm = timer()
         yield decorate_answer(answer)
     else:
         answer = chat_mdl.chat(prompt, msg[1:], gen_conf)
+        logger.info("User: {}|Assistant: {}".format(
             msg[-1]["content"], answer))
         res = decorate_answer(answer)
         res["audio_binary"] = tts(tts_mdl, answer)
         nonlocal sys_prompt, user_promt, question, tried_times
         sql = chat_mdl.chat(sys_prompt, [{"role": "user", "content": user_promt}], {
             "temperature": 0.06})
+        logger.info(f"{question} ==> {user_promt} get SQL: {sql}")
         sql = re.sub(r"[\r\n]+", " ", sql.lower())
         sql = re.sub(r".*select ", "select ", sql.lower())
         sql = re.sub(r" +", " ", sql)
                     flds.append(k)
                 sql = "select doc_id,docnm_kwd," + ",".join(flds) + sql[8:]
+        logger.info(f"{question} get SQL(refined): {sql}")
         tried_times += 1
         return retrievaler.sql_retrieval(sql, format="json"), sql
             question, sql, tbl["error"]
         )
         tbl, sql = get_table()
+        logger.info("TRY it again: {}".format(sql))
+    logger.info("GET table: {}".format(tbl))
     if tbl.get("error") or len(tbl["rows"]) == 0:
         return None
     rows = re.sub(r"T[0-9]{2}:[0-9]{2}:[0-9]{2}(\.[0-9]+Z)?\|", "|", rows)
     if not docid_idx or not docnm_idx:
+        logger.warning("SQL missing field: " + sql)
         return {
             "answer": "\n".join([clmns, line, rows]),
             "reference": {"chunks": [], "doc_aggs": []},

api/db/services/document_service.py CHANGED Viewed

@@ -17,7 +17,6 @@ import hashlib
 import json
 import random
 import re
-import traceback
 from concurrent.futures import ThreadPoolExecutor
 from copy import deepcopy
 from datetime import datetime
@@ -26,7 +25,7 @@ from io import BytesIO
 from peewee import fn
 from api.db.db_utils import bulk_insert_into_db
-from api.settings import stat_logger, docStoreConn
 from api.utils import current_timestamp, get_format_time, get_uuid
 from graphrag.mind_map_extractor import MindMapExtractor
 from rag.settings import SVR_QUEUE_NAME
@@ -40,6 +39,7 @@ from api.db.services.common_service import CommonService
 from api.db.services.knowledgebase_service import KnowledgebaseService
 from api.db import StatusEnum
 from rag.utils.redis_conn import REDIS_CONN
 class DocumentService(CommonService):
@@ -387,7 +387,7 @@ class DocumentService(CommonService):
                 cls.update_by_id(d["id"], info)
             except Exception as e:
                 if str(e).find("'0'") < 0:
-                    stat_logger.error("fetch task exception:" + str(e))
     @classmethod
     @DB.connection_context()
@@ -544,7 +544,7 @@ def doc_upload_and_parse(conversation_id, file_objs, user_id):
                     "knowledge_graph_kwd": "mind_map"
                 })
             except Exception as e:
-                stat_logger.error("Mind map generation error:", traceback.format_exc())
         vects = embedding(doc_id, [c["content_with_weight"] for c in cks])
         assert len(cks) == len(vects)

 import json
 import random
 import re
 from concurrent.futures import ThreadPoolExecutor
 from copy import deepcopy
 from datetime import datetime
 from peewee import fn
 from api.db.db_utils import bulk_insert_into_db
+from api.settings import docStoreConn
 from api.utils import current_timestamp, get_format_time, get_uuid
 from graphrag.mind_map_extractor import MindMapExtractor
 from rag.settings import SVR_QUEUE_NAME
 from api.db.services.knowledgebase_service import KnowledgebaseService
 from api.db import StatusEnum
 from rag.utils.redis_conn import REDIS_CONN
+from api.utils.log_utils import logger
 class DocumentService(CommonService):
                 cls.update_by_id(d["id"], info)
             except Exception as e:
                 if str(e).find("'0'") < 0:
+                    logger.exception("fetch task exception")
     @classmethod
     @DB.connection_context()
                     "knowledge_graph_kwd": "mind_map"
                 })
             except Exception as e:
+                logger.exception("Mind map generation error")
         vects = embedding(doc_id, [c["content_with_weight"] for c in cks])
         assert len(cks) == len(vects)

api/db/services/file_service.py CHANGED Viewed

@@ -28,6 +28,7 @@ from api.db.services.file2document_service import File2DocumentService
 from api.utils import get_uuid
 from api.utils.file_utils import filename_type, thumbnail_img
 from rag.utils.storage_factory import STORAGE_IMPL
 class FileService(CommonService):
@@ -272,8 +273,8 @@ class FileService(CommonService):
                 cls.delete_folder_by_pf_id(user_id, file.id)
             return cls.model.delete().where((cls.model.tenant_id == user_id)
                                             & (cls.model.id == folder_id)).execute(),
-        except Exception as e:
-            print(e)
             raise RuntimeError("Database error (File retrieval)!")
     @classmethod
@@ -321,8 +322,8 @@ class FileService(CommonService):
     def move_file(cls, file_ids, folder_id):
         try:
             cls.filter_update((cls.model.id << file_ids, ), { 'parent_id': folder_id })
-        except Exception as e:
-            print(e)
             raise RuntimeError("Database error (File move)!")
     @classmethod

 from api.utils import get_uuid
 from api.utils.file_utils import filename_type, thumbnail_img
 from rag.utils.storage_factory import STORAGE_IMPL
+from api.utils.log_utils import logger
 class FileService(CommonService):
                 cls.delete_folder_by_pf_id(user_id, file.id)
             return cls.model.delete().where((cls.model.tenant_id == user_id)
                                             & (cls.model.id == folder_id)).execute(),
+        except Exception:
+            logger.exception("delete_folder_by_pf_id")
             raise RuntimeError("Database error (File retrieval)!")
     @classmethod
     def move_file(cls, file_ids, folder_id):
         try:
             cls.filter_update((cls.model.id << file_ids, ), { 'parent_id': folder_id })
+        except Exception:
+            logger.exception("move_file")
             raise RuntimeError("Database error (File move)!")
     @classmethod

api/db/services/llm_service.py CHANGED Viewed

@@ -14,12 +14,12 @@
 #  limitations under the License.
 #
 from api.db.services.user_service import TenantService
-from api.settings import database_logger
 from rag.llm import EmbeddingModel, CvModel, ChatModel, RerankModel, Seq2txtModel, TTSModel
 from api.db import LLMType
 from api.db.db_models import DB
 from api.db.db_models import LLMFactories, LLM, TenantLLM
 from api.db.services.common_service import CommonService
 class LLMFactoriesService(CommonService):
@@ -209,40 +209,40 @@ class LLMBundle(object):
         emd, used_tokens = self.mdl.encode(texts, batch_size)
         if not TenantLLMService.increase_usage(
                 self.tenant_id, self.llm_type, used_tokens):
-            database_logger.error(
-                "Can't update token usage for {}/EMBEDDING used_tokens: {}".format(self.tenant_id, used_tokens))
         return emd, used_tokens
     def encode_queries(self, query: str):
         emd, used_tokens = self.mdl.encode_queries(query)
         if not TenantLLMService.increase_usage(
                 self.tenant_id, self.llm_type, used_tokens):
-            database_logger.error(
-                "Can't update token usage for {}/EMBEDDING used_tokens: {}".format(self.tenant_id, used_tokens))
         return emd, used_tokens
     def similarity(self, query: str, texts: list):
         sim, used_tokens = self.mdl.similarity(query, texts)
         if not TenantLLMService.increase_usage(
                 self.tenant_id, self.llm_type, used_tokens):
-            database_logger.error(
-                "Can't update token usage for {}/RERANK used_tokens: {}".format(self.tenant_id, used_tokens))
         return sim, used_tokens
     def describe(self, image, max_tokens=300):
         txt, used_tokens = self.mdl.describe(image, max_tokens)
         if not TenantLLMService.increase_usage(
                 self.tenant_id, self.llm_type, used_tokens):
-            database_logger.error(
-                "Can't update token usage for {}/IMAGE2TEXT used_tokens: {}".format(self.tenant_id, used_tokens))
         return txt
     def transcription(self, audio):
         txt, used_tokens = self.mdl.transcription(audio)
         if not TenantLLMService.increase_usage(
                 self.tenant_id, self.llm_type, used_tokens):
-            database_logger.error(
-                "Can't update token usage for {}/SEQUENCE2TXT used_tokens: {}".format(self.tenant_id, used_tokens))
         return txt
     def tts(self, text):
@@ -250,8 +250,8 @@ class LLMBundle(object):
             if isinstance(chunk,int):
                 if not TenantLLMService.increase_usage(
                     self.tenant_id, self.llm_type, chunk, self.llm_name):
-                        database_logger.error(
-                            "Can't update token usage for {}/TTS".format(self.tenant_id))
                 return
             yield chunk
@@ -259,8 +259,8 @@ class LLMBundle(object):
         txt, used_tokens = self.mdl.chat(system, history, gen_conf)
         if isinstance(txt, int) and not TenantLLMService.increase_usage(
                 self.tenant_id, self.llm_type, used_tokens, self.llm_name):
-            database_logger.error(
-                "Can't update token usage for {}/CHAT llm_name: {}, used_tokens: {}".format(self.tenant_id, self.llm_name, used_tokens))
         return txt
     def chat_streamly(self, system, history, gen_conf):
@@ -268,7 +268,7 @@ class LLMBundle(object):
             if isinstance(txt, int):
                 if not TenantLLMService.increase_usage(
                         self.tenant_id, self.llm_type, txt, self.llm_name):
-                    database_logger.error(
-                        "Can't update token usage for {}/CHAT llm_name: {}, content: {}".format(self.tenant_id, self.llm_name, txt))
                 return
             yield txt

 #  limitations under the License.
 #
 from api.db.services.user_service import TenantService
 from rag.llm import EmbeddingModel, CvModel, ChatModel, RerankModel, Seq2txtModel, TTSModel
 from api.db import LLMType
 from api.db.db_models import DB
 from api.db.db_models import LLMFactories, LLM, TenantLLM
 from api.db.services.common_service import CommonService
+from api.utils.log_utils import logger
 class LLMFactoriesService(CommonService):
         emd, used_tokens = self.mdl.encode(texts, batch_size)
         if not TenantLLMService.increase_usage(
                 self.tenant_id, self.llm_type, used_tokens):
+            logger.error(
+                "LLMBundle.encode can't update token usage for {}/EMBEDDING used_tokens: {}".format(self.tenant_id, used_tokens))
         return emd, used_tokens
     def encode_queries(self, query: str):
         emd, used_tokens = self.mdl.encode_queries(query)
         if not TenantLLMService.increase_usage(
                 self.tenant_id, self.llm_type, used_tokens):
+            logger.error(
+                "LLMBundle.encode_queries can't update token usage for {}/EMBEDDING used_tokens: {}".format(self.tenant_id, used_tokens))
         return emd, used_tokens
     def similarity(self, query: str, texts: list):
         sim, used_tokens = self.mdl.similarity(query, texts)
         if not TenantLLMService.increase_usage(
                 self.tenant_id, self.llm_type, used_tokens):
+            logger.error(
+                "LLMBundle.similarity can't update token usage for {}/RERANK used_tokens: {}".format(self.tenant_id, used_tokens))
         return sim, used_tokens
     def describe(self, image, max_tokens=300):
         txt, used_tokens = self.mdl.describe(image, max_tokens)
         if not TenantLLMService.increase_usage(
                 self.tenant_id, self.llm_type, used_tokens):
+            logger.error(
+                "LLMBundle.describe can't update token usage for {}/IMAGE2TEXT used_tokens: {}".format(self.tenant_id, used_tokens))
         return txt
     def transcription(self, audio):
         txt, used_tokens = self.mdl.transcription(audio)
         if not TenantLLMService.increase_usage(
                 self.tenant_id, self.llm_type, used_tokens):
+            logger.error(
+                "LLMBundle.transcription can't update token usage for {}/SEQUENCE2TXT used_tokens: {}".format(self.tenant_id, used_tokens))
         return txt
     def tts(self, text):
             if isinstance(chunk,int):
                 if not TenantLLMService.increase_usage(
                     self.tenant_id, self.llm_type, chunk, self.llm_name):
+                        logger.error(
+                            "LLMBundle.tts can't update token usage for {}/TTS".format(self.tenant_id))
                 return
             yield chunk
         txt, used_tokens = self.mdl.chat(system, history, gen_conf)
         if isinstance(txt, int) and not TenantLLMService.increase_usage(
                 self.tenant_id, self.llm_type, used_tokens, self.llm_name):
+            logger.error(
+                "LLMBundle.chat can't update token usage for {}/CHAT llm_name: {}, used_tokens: {}".format(self.tenant_id, self.llm_name, used_tokens))
         return txt
     def chat_streamly(self, system, history, gen_conf):
             if isinstance(txt, int):
                 if not TenantLLMService.increase_usage(
                         self.tenant_id, self.llm_type, txt, self.llm_name):
+                    logger.error(
+                        "LLMBundle.chat_streamly can't update token usage for {}/CHAT llm_name: {}, content: {}".format(self.tenant_id, self.llm_name, txt))
                 return
             yield txt

api/ragflow_server.py CHANGED Viewed

@@ -27,13 +27,10 @@ from api.apps import app
 from api.db.runtime_config import RuntimeConfig
 from api.db.services.document_service import DocumentService
 from api.settings import (
-    HOST,
-    HTTP_PORT,
-    access_logger,
-    database_logger,
-    stat_logger,
 )
 from api import utils
 from api.db.db_models import init_database_tables as init_web_db
 from api.db.init_data import init_web_data
@@ -45,23 +42,22 @@ def update_progress():
         time.sleep(3)
         try:
             DocumentService.update_progress()
-        except Exception as e:
-            stat_logger.error("update_progress exception:" + str(e))
-if __name__ == "__main__":
-    print(
-        r"""
         ____   ___    ______ ______ __
        / __ \ /   |  / ____// ____// /____  _      __
       / /_/ // /| | / / __ / /_   / // __ \| | /| / /
      / _, _// ___ |/ /_/ // __/  / // /_/ /| |/ |/ /
     /_/ |_|/_/  |_|\____//_/    /_/ \____/ |__/|__/
-    """,
-        flush=True,
     )
-    stat_logger.info(f"project base: {utils.file_utils.get_project_base_directory()}")
     # init db
     init_web_db()
@@ -83,7 +79,7 @@ if __name__ == "__main__":
     RuntimeConfig.DEBUG = args.debug
     if RuntimeConfig.DEBUG:
-        stat_logger.info("run on debug mode")
     RuntimeConfig.init_env()
     RuntimeConfig.init_config(JOB_SERVER_HOST=HOST, HTTP_PORT=HTTP_PORT)
@@ -91,17 +87,17 @@ if __name__ == "__main__":
     peewee_logger = logging.getLogger("peewee")
     peewee_logger.propagate = False
     # rag_arch.common.log.ROpenHandler
-    peewee_logger.addHandler(database_logger.handlers[0])
-    peewee_logger.setLevel(database_logger.level)
     thr = ThreadPoolExecutor(max_workers=1)
     thr.submit(update_progress)
     # start http server
     try:
-        stat_logger.info("RAG Flow http server start...")
         werkzeug_logger = logging.getLogger("werkzeug")
-        for h in access_logger.handlers:
             werkzeug_logger.addHandler(h)
         run_simple(
             hostname=HOST,

 from api.db.runtime_config import RuntimeConfig
 from api.db.services.document_service import DocumentService
 from api.settings import (
+    HOST, HTTP_PORT
 )
 from api import utils
+from api.utils.log_utils import logger
 from api.db.db_models import init_database_tables as init_web_db
 from api.db.init_data import init_web_data
         time.sleep(3)
         try:
             DocumentService.update_progress()
+        except Exception:
+            logger.exception("update_progress exception")
+if __name__ == '__main__':
+    logger.info(r"""
         ____   ___    ______ ______ __
        / __ \ /   |  / ____// ____// /____  _      __
       / /_/ // /| | / / __ / /_   / // __ \| | /| / /
      / _, _// ___ |/ /_/ // __/  / // /_/ /| |/ |/ /
     /_/ |_|/_/  |_|\____//_/    /_/ \____/ |__/|__/
+    """)
+    logger.info(
+        f'project base: {utils.file_utils.get_project_base_directory()}'
     )
     # init db
     init_web_db()
     RuntimeConfig.DEBUG = args.debug
     if RuntimeConfig.DEBUG:
+        logger.info("run on debug mode")
     RuntimeConfig.init_env()
     RuntimeConfig.init_config(JOB_SERVER_HOST=HOST, HTTP_PORT=HTTP_PORT)
     peewee_logger = logging.getLogger("peewee")
     peewee_logger.propagate = False
     # rag_arch.common.log.ROpenHandler
+    peewee_logger.addHandler(logger.handlers[0])
+    peewee_logger.setLevel(logger.handlers[0].level)
     thr = ThreadPoolExecutor(max_workers=1)
     thr.submit(update_progress)
     # start http server
     try:
+        logger.info("RAG Flow http server start...")
         werkzeug_logger = logging.getLogger("werkzeug")
+        for h in logger.handlers:
             werkzeug_logger.addHandler(h)
         run_simple(
             hostname=HOST,

api/settings.py CHANGED Viewed

@@ -17,24 +17,9 @@ import os
 from datetime import date
 from enum import IntEnum, Enum
 from api.utils.file_utils import get_project_base_directory
-from api.utils.log_utils import LoggerFactory, getLogger
 import rag.utils.es_conn
 import rag.utils.infinity_conn
-# Logger
-LoggerFactory.set_directory(
-    os.path.join(
-        get_project_base_directory(),
-        "logs",
-        "api"))
-# {CRITICAL: 50, FATAL:50, ERROR:40, WARNING:30, WARN:30, INFO:20, DEBUG:10, NOTSET:0}
-LoggerFactory.LEVEL = 30
-stat_logger = getLogger("stat")
-access_logger = getLogger("access")
-database_logger = getLogger("database")
-chat_logger = getLogger("chat")
 import rag.utils
 from rag.nlp import search
 from graphrag import search as kg_search
@@ -47,8 +32,6 @@ TEMP_DIRECTORY = os.path.join(get_project_base_directory(), "temp")
 RAG_FLOW_CONF_PATH = os.path.join(get_project_base_directory(), "conf")
 LIGHTEN = int(os.environ.get('LIGHTEN', "0"))
-SUBPROCESS_STD_LOG_NAME = "std.log"
 ERROR_REPORT = True
 ERROR_REPORT_WITH_PATH = False

 from datetime import date
 from enum import IntEnum, Enum
 from api.utils.file_utils import get_project_base_directory
 import rag.utils.es_conn
 import rag.utils.infinity_conn
 import rag.utils
 from rag.nlp import search
 from graphrag import search as kg_search
 RAG_FLOW_CONF_PATH = os.path.join(get_project_base_directory(), "conf")
 LIGHTEN = int(os.environ.get('LIGHTEN', "0"))
 ERROR_REPORT = True
 ERROR_REPORT_WITH_PATH = False

api/utils/api_utils.py CHANGED Viewed

@@ -35,11 +35,12 @@ from werkzeug.http import HTTP_STATUS_CODES
 from api.db.db_models import APIToken
 from api.settings import (
     REQUEST_MAX_WAIT_SEC, REQUEST_WAIT_SEC,
-    stat_logger, CLIENT_AUTHENTICATION, HTTP_APP_KEY, SECRET_KEY
 )
 from api.settings import RetCode
 from api.utils import CustomJSONEncoder, get_uuid
 from api.utils import json_dumps
 requests.models.complexjson.dumps = functools.partial(
     json.dumps, cls=CustomJSONEncoder)
@@ -117,7 +118,7 @@ def get_data_error_result(code=RetCode.DATA_ERROR,
 def server_error_response(e):
-    stat_logger.exception(e)
     try:
         if e.code == 401:
             return get_json_result(code=401, message=repr(e))
@@ -258,7 +259,7 @@ def construct_json_result(code=RetCode.SUCCESS, message='success', data=None):
 def construct_error_response(e):
-    stat_logger.exception(e)
     try:
         if e.code == 401:
             return construct_json_result(code=RetCode.UNAUTHORIZED, message=repr(e))

 from api.db.db_models import APIToken
 from api.settings import (
     REQUEST_MAX_WAIT_SEC, REQUEST_WAIT_SEC,
+    CLIENT_AUTHENTICATION, HTTP_APP_KEY, SECRET_KEY
 )
 from api.settings import RetCode
 from api.utils import CustomJSONEncoder, get_uuid
 from api.utils import json_dumps
+from api.utils.log_utils import logger
 requests.models.complexjson.dumps = functools.partial(
     json.dumps, cls=CustomJSONEncoder)
 def server_error_response(e):
+    logger.exception(e)
     try:
         if e.code == 401:
             return get_json_result(code=401, message=repr(e))
 def construct_error_response(e):
+    logger.exception(e)
     try:
         if e.code == 401:
             return construct_json_result(code=RetCode.UNAUTHORIZED, message=repr(e))

api/utils/log_utils.py CHANGED Viewed

@@ -14,300 +14,38 @@
 #  limitations under the License.
 #
 import os
-import typing
-import traceback
 import logging
-import inspect
-from logging.handlers import TimedRotatingFileHandler
-from threading import RLock
-from api.utils import file_utils
-class LoggerFactory(object):
-    TYPE = "FILE"
-    LOG_FORMAT = "[%(levelname)s] [%(asctime)s] [%(module)s.%(funcName)s] [line:%(lineno)d]: %(message)s"
-    logging.basicConfig(format=LOG_FORMAT)
-    LEVEL = logging.DEBUG
-    logger_dict = {}
-    global_handler_dict = {}
-    LOG_DIR = None
-    PARENT_LOG_DIR = None
-    log_share = True
-    append_to_parent_log = None
-    lock = RLock()
-    # CRITICAL = 50
-    # FATAL = CRITICAL
-    # ERROR = 40
-    # WARNING = 30
-    # WARN = WARNING
-    # INFO = 20
-    # DEBUG = 10
-    # NOTSET = 0
-    levels = (10, 20, 30, 40)
-    schedule_logger_dict = {}
-    @staticmethod
-    def set_directory(directory=None, parent_log_dir=None,
-                      append_to_parent_log=None, force=False):
-        if parent_log_dir:
-            LoggerFactory.PARENT_LOG_DIR = parent_log_dir
-        if append_to_parent_log:
-            LoggerFactory.append_to_parent_log = append_to_parent_log
-        with LoggerFactory.lock:
-            if not directory:
-                directory = file_utils.get_project_base_directory("logs")
-            if not LoggerFactory.LOG_DIR or force:
-                LoggerFactory.LOG_DIR = directory
-            if LoggerFactory.log_share:
-                oldmask = os.umask(000)
-                os.makedirs(LoggerFactory.LOG_DIR, exist_ok=True)
-                os.umask(oldmask)
-            else:
-                os.makedirs(LoggerFactory.LOG_DIR, exist_ok=True)
-            for loggerName, ghandler in LoggerFactory.global_handler_dict.items():
-                for className, (logger,
-                                handler) in LoggerFactory.logger_dict.items():
-                    logger.removeHandler(ghandler)
-                ghandler.close()
-            LoggerFactory.global_handler_dict = {}
-            for className, (logger,
-                            handler) in LoggerFactory.logger_dict.items():
-                logger.removeHandler(handler)
-                _handler = None
-                if handler:
-                    handler.close()
-                if className != "default":
-                    _handler = LoggerFactory.get_handler(className)
-                    logger.addHandler(_handler)
-                LoggerFactory.assemble_global_handler(logger)
-                LoggerFactory.logger_dict[className] = logger, _handler
-    @staticmethod
-    def new_logger(name):
-        logger = logging.getLogger(name)
-        logger.propagate = False
-        logger.setLevel(LoggerFactory.LEVEL)
         return logger
-    @staticmethod
-    def get_logger(class_name=None):
-        with LoggerFactory.lock:
-            if class_name in LoggerFactory.logger_dict.keys():
-                logger, handler = LoggerFactory.logger_dict[class_name]
-                if not logger:
-                    logger, handler = LoggerFactory.init_logger(class_name)
-            else:
-                logger, handler = LoggerFactory.init_logger(class_name)
-            return logger
-    @staticmethod
-    def get_global_handler(logger_name, level=None, log_dir=None):
-        if not LoggerFactory.LOG_DIR:
-            return logging.StreamHandler()
-        if log_dir:
-            logger_name_key = logger_name + "_" + log_dir
-        else:
-            logger_name_key = logger_name + "_" + LoggerFactory.LOG_DIR
-        # if loggerName not in LoggerFactory.globalHandlerDict:
-        if logger_name_key not in LoggerFactory.global_handler_dict:
-            with LoggerFactory.lock:
-                if logger_name_key not in LoggerFactory.global_handler_dict:
-                    handler = LoggerFactory.get_handler(
-                        logger_name, level, log_dir)
-                    LoggerFactory.global_handler_dict[logger_name_key] = handler
-        return LoggerFactory.global_handler_dict[logger_name_key]
-    @staticmethod
-    def get_handler(class_name, level=None, log_dir=None,
-                    log_type=None, job_id=None):
-        if not log_type:
-            if not LoggerFactory.LOG_DIR or not class_name:
-                return logging.StreamHandler()
-                # return Diy_StreamHandler()
-            if not log_dir:
-                log_file = os.path.join(
-                    LoggerFactory.LOG_DIR,
-                    "{}.log".format(class_name))
-            else:
-                log_file = os.path.join(log_dir, "{}.log".format(class_name))
-        else:
-            log_file = os.path.join(log_dir, "rag_flow_{}.log".format(
-                log_type) if level == LoggerFactory.LEVEL else 'rag_flow_{}_error.log'.format(log_type))
-        os.makedirs(os.path.dirname(log_file), exist_ok=True)
-        if LoggerFactory.log_share:
-            handler = ROpenHandler(log_file,
-                                   when='D',
-                                   interval=1,
-                                   backupCount=14,
-                                   delay=True)
-        else:
-            handler = TimedRotatingFileHandler(log_file,
-                                               when='D',
-                                               interval=1,
-                                               backupCount=14,
-                                               delay=True)
-        if level:
-            handler.level = level
-        return handler
-    @staticmethod
-    def init_logger(class_name):
-        with LoggerFactory.lock:
-            logger = LoggerFactory.new_logger(class_name)
-            handler = None
-            if class_name:
-                handler = LoggerFactory.get_handler(class_name)
-                logger.addHandler(handler)
-                LoggerFactory.logger_dict[class_name] = logger, handler
-            else:
-                LoggerFactory.logger_dict["default"] = logger, handler
-            LoggerFactory.assemble_global_handler(logger)
-            return logger, handler
-    @staticmethod
-    def assemble_global_handler(logger):
-        if LoggerFactory.LOG_DIR:
-            for level in LoggerFactory.levels:
-                if level >= LoggerFactory.LEVEL:
-                    level_logger_name = logging._levelToName[level]
-                    logger.addHandler(
-                        LoggerFactory.get_global_handler(
-                            level_logger_name, level))
-        if LoggerFactory.append_to_parent_log and LoggerFactory.PARENT_LOG_DIR:
-            for level in LoggerFactory.levels:
-                if level >= LoggerFactory.LEVEL:
-                    level_logger_name = logging._levelToName[level]
-                    logger.addHandler(
-                        LoggerFactory.get_global_handler(level_logger_name, level, LoggerFactory.PARENT_LOG_DIR))
-def setDirectory(directory=None):
-    LoggerFactory.set_directory(directory)
-def setLevel(level):
-    LoggerFactory.LEVEL = level
-def getLogger(className=None, useLevelFile=False):
-    if className is None:
-        frame = inspect.stack()[1]
-        module = inspect.getmodule(frame[0])
-        className = 'stat'
-    return LoggerFactory.get_logger(className)
-def exception_to_trace_string(ex):
-    return "".join(traceback.TracebackException.from_exception(ex).format())
-class ROpenHandler(TimedRotatingFileHandler):
-    def _open(self):
-        prevumask = os.umask(000)
-        rtv = TimedRotatingFileHandler._open(self)
-        os.umask(prevumask)
-        return rtv
-def sql_logger(job_id='', log_type='sql'):
-    key = job_id + log_type
-    if key in LoggerFactory.schedule_logger_dict.keys():
-        return LoggerFactory.schedule_logger_dict[key]
-    return get_job_logger(job_id=job_id, log_type=log_type)
-def ready_log(msg, job=None, task=None, role=None, party_id=None, detail=None):
-    prefix, suffix = base_msg(job, task, role, party_id, detail)
-    return f"{prefix}{msg} ready{suffix}"
-def start_log(msg, job=None, task=None, role=None, party_id=None, detail=None):
-    prefix, suffix = base_msg(job, task, role, party_id, detail)
-    return f"{prefix}start to {msg}{suffix}"
-def successful_log(msg, job=None, task=None, role=None,
-                   party_id=None, detail=None):
-    prefix, suffix = base_msg(job, task, role, party_id, detail)
-    return f"{prefix}{msg} successfully{suffix}"
-def warning_log(msg, job=None, task=None, role=None,
-                party_id=None, detail=None):
-    prefix, suffix = base_msg(job, task, role, party_id, detail)
-    return f"{prefix}{msg} is not effective{suffix}"
-def failed_log(msg, job=None, task=None, role=None,
-               party_id=None, detail=None):
-    prefix, suffix = base_msg(job, task, role, party_id, detail)
-    return f"{prefix}failed to {msg}{suffix}"
-def base_msg(job=None, task=None, role: str = None,
-             party_id: typing.Union[str, int] = None, detail=None):
-    if detail:
-        detail_msg = f" detail: \n{detail}"
-    else:
-        detail_msg = ""
-    if task is not None:
-        return f"task {task.f_task_id} {task.f_task_version} ", f" on {task.f_role} {task.f_party_id}{detail_msg}"
-    elif job is not None:
-        return "", f" on {job.f_role} {job.f_party_id}{detail_msg}"
-    elif role and party_id:
-        return "", f" on {role} {party_id}{detail_msg}"
-    else:
-        return "", f"{detail_msg}"
-def exception_to_trace_string(ex):
-    return "".join(traceback.TracebackException.from_exception(ex).format())
-def get_logger_base_dir():
-    job_log_dir = file_utils.get_rag_flow_directory('logs')
-    return job_log_dir
-def get_job_logger(job_id, log_type):
-    rag_flow_log_dir = file_utils.get_rag_flow_directory('logs', 'rag_flow')
-    job_log_dir = file_utils.get_rag_flow_directory('logs', job_id)
-    if not job_id:
-        log_dirs = [rag_flow_log_dir]
-    else:
-        if log_type == 'audit':
-            log_dirs = [job_log_dir, rag_flow_log_dir]
-        else:
-            log_dirs = [job_log_dir]
-    if LoggerFactory.log_share:
-        oldmask = os.umask(000)
-        os.makedirs(job_log_dir, exist_ok=True)
-        os.makedirs(rag_flow_log_dir, exist_ok=True)
-        os.umask(oldmask)
-    else:
-        os.makedirs(job_log_dir, exist_ok=True)
-        os.makedirs(rag_flow_log_dir, exist_ok=True)
-    logger = LoggerFactory.new_logger(f"{job_id}_{log_type}")
-    for job_log_dir in log_dirs:
-        handler = LoggerFactory.get_handler(class_name=None, level=LoggerFactory.LEVEL,
-                                            log_dir=job_log_dir, log_type=log_type, job_id=job_id)
-        error_handler = LoggerFactory.get_handler(
-            class_name=None,
-            level=logging.ERROR,
-            log_dir=job_log_dir,
-            log_type=log_type,
-            job_id=job_id)
-        logger.addHandler(handler)
-        logger.addHandler(error_handler)
-    with LoggerFactory.lock:
-        LoggerFactory.schedule_logger_dict[job_id + log_type] = logger
     return logger

 #  limitations under the License.
 #
 import os
 import logging
+from logging.handlers import RotatingFileHandler
+from api.utils.file_utils import get_project_base_directory
+LOG_LEVEL = logging.INFO
+LOG_FILE = os.path.abspath(os.path.join(get_project_base_directory(), "logs", f"ragflow_{os.getpid()}.log"))
+LOG_FORMAT = "%(asctime)-15s %(levelname)-8s %(process)d %(message)s"
+logger = None
+def getLogger():
+    global logger
+    if logger is not None:
         return logger
+    print(f"log file path: {LOG_FILE}")
+    os.makedirs(os.path.dirname(LOG_FILE), exist_ok=True)
+    logger = logging.getLogger("ragflow")
+    logger.setLevel(LOG_LEVEL)
+    handler1 = RotatingFileHandler(LOG_FILE, maxBytes=10*1024*1024, backupCount=5)
+    handler1.setLevel(LOG_LEVEL)
+    formatter1 = logging.Formatter(LOG_FORMAT)
+    handler1.setFormatter(formatter1)
+    logger.addHandler(handler1)
+    handler2 = logging.StreamHandler()
+    handler2.setLevel(LOG_LEVEL)
+    formatter2 = logging.Formatter(LOG_FORMAT)
+    handler2.setFormatter(formatter2)
+    logger.addHandler(handler2)
     return logger
+logger = getLogger()

deepdoc/parser/pdf_parser.py CHANGED Viewed

@@ -19,13 +19,14 @@ from io import BytesIO
 import re
 import pdfplumber
 import logging
-from PIL import Image, ImageDraw
 import numpy as np
 from timeit import default_timer as timer
 from pypdf import PdfReader as pdf2_read
 from api.settings import LIGHTEN
 from api.utils.file_utils import get_project_base_directory
 from deepdoc.vision import OCR, Recognizer, LayoutRecognizer, TableStructureRecognizer
 from rag.nlp import rag_tokenizer
 from copy import deepcopy
@@ -49,15 +50,15 @@ class RAGFlowPdfParser:
                 import torch
                 if torch.cuda.is_available():
                     self.updown_cnt_mdl.set_param({"device": "cuda"})
-            except Exception as e:
-                logging.error(str(e))
         try:
             model_dir = os.path.join(
                 get_project_base_directory(),
                 "rag/res/deepdoc")
             self.updown_cnt_mdl.load_model(os.path.join(
                 model_dir, "updown_concat_xgb.model"))
-        except Exception as e:
             model_dir = snapshot_download(
                 repo_id="InfiniFlow/text_concat_xgb_v1.0",
                 local_dir=os.path.join(get_project_base_directory(), "rag/res/deepdoc"),
@@ -187,7 +188,7 @@ class RAGFlowPdfParser:
         return True
     def _table_transformer_job(self, ZM):
-        logging.info("Table processing...")
         imgs, pos = [], []
         tbcnt = [0]
         MARGIN = 10
@@ -425,12 +426,12 @@ class RAGFlowPdfParser:
             detach_feats = [b["x1"] < b_["x0"],
                             b["x0"] > b_["x1"]]
             if (any(feats) and not any(concatting_feats)) or any(detach_feats):
-                print(
                     b["text"],
                     b_["text"],
                     any(feats),
                     any(concatting_feats),
-                    any(detach_feats))
                 i += 1
                 continue
             # merge up and down
@@ -726,14 +727,14 @@ class RAGFlowPdfParser:
             #    continue
             if tv < fv and tk:
                 tables[tk].insert(0, c)
-                logging.debug(
                     "TABLE:" +
                     self.boxes[i]["text"] +
                     "; Cap: " +
                     tk)
             elif fk:
                 figures[fk].insert(0, c)
-                logging.debug(
                     "FIGURE:" +
                     self.boxes[i]["text"] +
                     "; Cap: " +
@@ -760,7 +761,7 @@ class RAGFlowPdfParser:
                 if ii is not None:
                     b = louts[ii]
                 else:
-                    logging.warn(
                         f"Missing layout match: {pn + 1},%s" %
                         (bxs[0].get(
                             "layoutno", "")))
@@ -918,8 +919,8 @@ class RAGFlowPdfParser:
                 if usefull(boxes[0]):
                     dfs(boxes[0], 0)
                 else:
-                    logging.debug("WASTE: " + boxes[0]["text"])
-            except Exception as e:
                 pass
             boxes.pop(0)
             mw = np.mean(widths)
@@ -927,7 +928,7 @@ class RAGFlowPdfParser:
                 res.append(
                     "\n".join([c["text"] + self._line_tag(c, ZM) for c in lines]))
             else:
-                logging.debug("REMOVED: " +
                               "<<".join([c["text"] for c in lines]))
         return "\n\n".join(res)
@@ -938,8 +939,8 @@ class RAGFlowPdfParser:
             pdf = pdfplumber.open(
                 fnm) if not binary else pdfplumber.open(BytesIO(binary))
             return len(pdf.pages)
-        except Exception as e:
-            logging.error(str(e))
     def __images__(self, fnm, zoomin=3, page_from=0,
                    page_to=299, callback=None):
@@ -962,8 +963,8 @@ class RAGFlowPdfParser:
             self.page_chars = [[{**c, 'top': c['top'], 'bottom': c['bottom']} for c in page.dedupe_chars().chars if self._has_color(c)] for page in
                                self.pdf.pages[page_from:page_to]]
             self.total_page = len(self.pdf.pages)
-        except Exception as e:
-            logging.error(str(e))
         self.outlines = []
         try:
@@ -979,11 +980,11 @@ class RAGFlowPdfParser:
             dfs(outlines, 0)
         except Exception as e:
-            logging.warning(f"Outlines exception: {e}")
         if not self.outlines:
-            logging.warning(f"Miss outlines")
-        logging.info("Images converted.")
         self.is_english = [re.search(r"[a-zA-Z0-9,/¸;:'\[\]\(\)!@#$%^&*\"?<>._-]{30,}", "".join(
             random.choices([c["text"] for c in self.page_chars[i]], k=min(100, len(self.page_chars[i]))))) for i in
                            range(len(self.page_chars))]
@@ -1023,7 +1024,7 @@ class RAGFlowPdfParser:
             self.is_english = re.search(r"[\na-zA-Z0-9,/¸;:'\[\]\(\)!@#$%^&*\"?<>._-]{30,}",
                                         "".join([b["text"] for b in random.choices(bxes, k=min(30, len(bxes)))]))
-        logging.info("Is it English:", self.is_english)
         self.page_cum_height = np.cumsum(self.page_cum_height)
         assert len(self.page_cum_height) == len(self.page_images) + 1
@@ -1162,10 +1163,10 @@ class PlainParser(object):
                     dfs(a, depth + 1)
             dfs(outlines, 0)
-        except Exception as e:
-            logging.warning(f"Outlines exception: {e}")
         if not self.outlines:
-            logging.warning(f"Miss outlines")
         return [(l, "") for l in lines], []

 import re
 import pdfplumber
 import logging
+from PIL import Image
 import numpy as np
 from timeit import default_timer as timer
 from pypdf import PdfReader as pdf2_read
 from api.settings import LIGHTEN
 from api.utils.file_utils import get_project_base_directory
+from api.utils.log_utils import logger
 from deepdoc.vision import OCR, Recognizer, LayoutRecognizer, TableStructureRecognizer
 from rag.nlp import rag_tokenizer
 from copy import deepcopy
                 import torch
                 if torch.cuda.is_available():
                     self.updown_cnt_mdl.set_param({"device": "cuda"})
+            except Exception:
+                logger.exception("RAGFlowPdfParser __init__")
         try:
             model_dir = os.path.join(
                 get_project_base_directory(),
                 "rag/res/deepdoc")
             self.updown_cnt_mdl.load_model(os.path.join(
                 model_dir, "updown_concat_xgb.model"))
+        except Exception:
             model_dir = snapshot_download(
                 repo_id="InfiniFlow/text_concat_xgb_v1.0",
                 local_dir=os.path.join(get_project_base_directory(), "rag/res/deepdoc"),
         return True
     def _table_transformer_job(self, ZM):
+        logger.info("Table processing...")
         imgs, pos = [], []
         tbcnt = [0]
         MARGIN = 10
             detach_feats = [b["x1"] < b_["x0"],
                             b["x0"] > b_["x1"]]
             if (any(feats) and not any(concatting_feats)) or any(detach_feats):
+                logger.info("{} {} {} {}".format(
                     b["text"],
                     b_["text"],
                     any(feats),
                     any(concatting_feats),
+                    ))
                 i += 1
                 continue
             # merge up and down
             #    continue
             if tv < fv and tk:
                 tables[tk].insert(0, c)
+                logger.debug(
                     "TABLE:" +
                     self.boxes[i]["text"] +
                     "; Cap: " +
                     tk)
             elif fk:
                 figures[fk].insert(0, c)
+                logger.debug(
                     "FIGURE:" +
                     self.boxes[i]["text"] +
                     "; Cap: " +
                 if ii is not None:
                     b = louts[ii]
                 else:
+                    logger.warn(
                         f"Missing layout match: {pn + 1},%s" %
                         (bxs[0].get(
                             "layoutno", "")))
                 if usefull(boxes[0]):
                     dfs(boxes[0], 0)
                 else:
+                    logger.debug("WASTE: " + boxes[0]["text"])
+            except Exception:
                 pass
             boxes.pop(0)
             mw = np.mean(widths)
                 res.append(
                     "\n".join([c["text"] + self._line_tag(c, ZM) for c in lines]))
             else:
+                logger.debug("REMOVED: " +
                               "<<".join([c["text"] for c in lines]))
         return "\n\n".join(res)
             pdf = pdfplumber.open(
                 fnm) if not binary else pdfplumber.open(BytesIO(binary))
             return len(pdf.pages)
+        except Exception:
+            logger.exception("total_page_number")
     def __images__(self, fnm, zoomin=3, page_from=0,
                    page_to=299, callback=None):
             self.page_chars = [[{**c, 'top': c['top'], 'bottom': c['bottom']} for c in page.dedupe_chars().chars if self._has_color(c)] for page in
                                self.pdf.pages[page_from:page_to]]
             self.total_page = len(self.pdf.pages)
+        except Exception:
+            logger.exception("RAGFlowPdfParser __images__")
         self.outlines = []
         try:
             dfs(outlines, 0)
         except Exception as e:
+            logger.warning(f"Outlines exception: {e}")
         if not self.outlines:
+            logger.warning("Miss outlines")
+        logger.info("Images converted.")
         self.is_english = [re.search(r"[a-zA-Z0-9,/¸;:'\[\]\(\)!@#$%^&*\"?<>._-]{30,}", "".join(
             random.choices([c["text"] for c in self.page_chars[i]], k=min(100, len(self.page_chars[i]))))) for i in
                            range(len(self.page_chars))]
             self.is_english = re.search(r"[\na-zA-Z0-9,/¸;:'\[\]\(\)!@#$%^&*\"?<>._-]{30,}",
                                         "".join([b["text"] for b in random.choices(bxes, k=min(30, len(bxes)))]))
+        logger.info("Is it English:", self.is_english)
         self.page_cum_height = np.cumsum(self.page_cum_height)
         assert len(self.page_cum_height) == len(self.page_images) + 1
                     dfs(a, depth + 1)
             dfs(outlines, 0)
+        except Exception:
+            logger.exception("Outlines exception")
         if not self.outlines:
+            logger.warning("Miss outlines")
         return [(l, "") for l in lines], []

deepdoc/parser/resume/entities/corporations.py CHANGED Viewed

@@ -11,10 +11,15 @@
 #  limitations under the License.
 #
-import re,json,os
 import pandas as pd
 from rag.nlp import rag_tokenizer
 from . import regions
 current_file_path = os.path.dirname(os.path.abspath(__file__))
 GOODS = pd.read_csv(os.path.join(current_file_path, "res/corp_baike_len.csv"), sep="\t", header=0).fillna(0)
 GOODS["cid"] = GOODS["cid"].astype(str)
@@ -27,7 +32,7 @@ def baike(cid, default_v=0):
     global GOODS
     try:
         return GOODS.loc[str(cid), "len"]
-    except Exception as e:
         pass
     return default_v
@@ -65,7 +70,8 @@ def rmNoise(n):
 GOOD_CORP = set([corpNorm(rmNoise(c), False) for c in GOOD_CORP])
 for c,v in CORP_TAG.items():
     cc = corpNorm(rmNoise(c), False)
-    if not cc: print (c)
 CORP_TAG = {corpNorm(rmNoise(c), False):v for c,v in CORP_TAG.items()}
 def is_good(nm):

 #  limitations under the License.
 #
+import re
+import json
+import os
 import pandas as pd
 from rag.nlp import rag_tokenizer
 from . import regions
+from api.utils.log_utils import logger
 current_file_path = os.path.dirname(os.path.abspath(__file__))
 GOODS = pd.read_csv(os.path.join(current_file_path, "res/corp_baike_len.csv"), sep="\t", header=0).fillna(0)
 GOODS["cid"] = GOODS["cid"].astype(str)
     global GOODS
     try:
         return GOODS.loc[str(cid), "len"]
+    except Exception:
         pass
     return default_v
 GOOD_CORP = set([corpNorm(rmNoise(c), False) for c in GOOD_CORP])
 for c,v in CORP_TAG.items():
     cc = corpNorm(rmNoise(c), False)
+    if not cc:
+        logger.info(c)
 CORP_TAG = {corpNorm(rmNoise(c), False):v for c,v in CORP_TAG.items()}
 def is_good(nm):

deepdoc/parser/resume/step_two.py CHANGED Viewed

@@ -11,13 +11,19 @@
 #  limitations under the License.
 #
-import re, copy, time, datetime, demjson3, \
-    traceback, signal
 import numpy as np
 from deepdoc.parser.resume.entities import degrees, schools, corporations
 from rag.nlp import rag_tokenizer, surname
 from xpinyin import Pinyin
 from contextlib import contextmanager
 class TimeoutException(Exception): pass
@@ -79,7 +85,7 @@ def forEdu(cv):
                 y, m, d = getYMD(dt)
                 st_dt.append(str(y))
                 e["start_dt_kwd"] = str(y)
-            except Exception as e:
                 pass
         r = schools.select(n.get("school_name", ""))
@@ -158,7 +164,7 @@ def forEdu(cv):
             y, m, d = getYMD(edu_end_dt)
             cv["work_exp_flt"] = min(int(str(datetime.date.today())[0:4]) - int(y), cv.get("work_exp_flt", 1000))
         except Exception as e:
-            print("EXCEPTION: ", e, edu_end_dt, cv.get("work_exp_flt"))
     if sch:
         cv["school_name_kwd"] = sch
         if (len(cv.get("degree_kwd", [])) >= 1 and "本科" in cv["degree_kwd"]) \
@@ -233,7 +239,7 @@ def forWork(cv):
         if type(n) == type(""):
             try:
                 n = json_loads(n)
-            except Exception as e:
                 continue
         if n.get("start_time") and (not work_st_tm or n["start_time"] < work_st_tm): work_st_tm = n["start_time"]
@@ -269,8 +275,8 @@ def forWork(cv):
         try:
             duas.append((datetime.datetime.strptime(ed, "%Y-%m-%d") - datetime.datetime.strptime(st, "%Y-%m-%d")).days)
-        except Exception as e:
-            print("kkkkkkkkkkkkkkkkkkkk", n.get("start_time"), n.get("end_time"))
         if n.get("scale"):
             r = re.search(r"^([0-9]+)", str(n["scale"]))
@@ -327,7 +333,7 @@ def forWork(cv):
             y, m, d = getYMD(work_st_tm)
             cv["work_exp_flt"] = min(int(str(datetime.date.today())[0:4]) - int(y), cv.get("work_exp_flt", 1000))
         except Exception as e:
-            print("EXCEPTION: ", e, work_st_tm, cv.get("work_exp_flt"))
     cv["job_num_int"] = 0
     if duas:
@@ -457,8 +463,8 @@ def parse(cv):
                     t = k[:-4]
                     cv[f"{t}_kwd"] = nms
                     cv[f"{t}_tks"] = rag_tokenizer.tokenize(" ".join(nms))
-            except Exception as e:
-                print("【EXCEPTION】:", str(traceback.format_exc()), cv[k])
                 cv[k] = []
         # tokenize fields
@@ -524,7 +530,7 @@ def parse(cv):
         if not y: y = "2012"
         if not m: m = "01"
         if not d: d = "01"
-        cv["updated_at_dt"] = f"%s-%02d-%02d 00:00:00" % (y, int(m), int(d))
         # long text tokenize
     if cv.get("responsibilities"): cv["responsibilities_ltks"] = rag_tokenizer.tokenize(rmHtmlTag(cv["responsibilities"]))
@@ -556,10 +562,10 @@ def parse(cv):
                 cv["work_exp_flt"] = (time.time() - int(int(cv["work_start_time"]) / 1000)) / 3600. / 24. / 365.
             elif re.match(r"[0-9]{4}[^0-9]", str(cv["work_start_time"])):
                 y, m, d = getYMD(str(cv["work_start_time"]))
-                cv["work_start_dt"] = f"%s-%02d-%02d 00:00:00" % (y, int(m), int(d))
                 cv["work_exp_flt"] = int(str(datetime.date.today())[0:4]) - int(y)
     except Exception as e:
-        print("【EXCEPTION】", e, "==>", cv.get("work_start_time"))
     if "work_exp_flt" not in cv and cv.get("work_experience", 0): cv["work_exp_flt"] = int(cv["work_experience"]) / 12.
     keys = list(cv.keys())
@@ -574,7 +580,7 @@ def parse(cv):
     cv["tob_resume_id"] = str(cv["tob_resume_id"])
     cv["id"] = cv["tob_resume_id"]
-    print("CCCCCCCCCCCCCCC")
     return dealWithInt64(cv)
@@ -589,4 +595,3 @@ def dealWithInt64(d):
     if isinstance(d, np.integer): d = int(d)
     return d

 #  limitations under the License.
 #
+import re
+import copy
+import time
+import datetime
+import demjson3
+import traceback
+import signal
 import numpy as np
 from deepdoc.parser.resume.entities import degrees, schools, corporations
 from rag.nlp import rag_tokenizer, surname
 from xpinyin import Pinyin
 from contextlib import contextmanager
+from api.utils.log_utils import logger
 class TimeoutException(Exception): pass
                 y, m, d = getYMD(dt)
                 st_dt.append(str(y))
                 e["start_dt_kwd"] = str(y)
+            except Exception:
                 pass
         r = schools.select(n.get("school_name", ""))
             y, m, d = getYMD(edu_end_dt)
             cv["work_exp_flt"] = min(int(str(datetime.date.today())[0:4]) - int(y), cv.get("work_exp_flt", 1000))
         except Exception as e:
+            logger.exception("forEdu {} {} {}".format(e, edu_end_dt, cv.get("work_exp_flt")))
     if sch:
         cv["school_name_kwd"] = sch
         if (len(cv.get("degree_kwd", [])) >= 1 and "本科" in cv["degree_kwd"]) \
         if type(n) == type(""):
             try:
                 n = json_loads(n)
+            except Exception:
                 continue
         if n.get("start_time") and (not work_st_tm or n["start_time"] < work_st_tm): work_st_tm = n["start_time"]
         try:
             duas.append((datetime.datetime.strptime(ed, "%Y-%m-%d") - datetime.datetime.strptime(st, "%Y-%m-%d")).days)
+        except Exception:
+            logger.exception("forWork {} {}".format(n.get("start_time"), n.get("end_time")))
         if n.get("scale"):
             r = re.search(r"^([0-9]+)", str(n["scale"]))
             y, m, d = getYMD(work_st_tm)
             cv["work_exp_flt"] = min(int(str(datetime.date.today())[0:4]) - int(y), cv.get("work_exp_flt", 1000))
         except Exception as e:
+            logger.exception("forWork {} {} {}".format(e, work_st_tm, cv.get("work_exp_flt")))
     cv["job_num_int"] = 0
     if duas:
                     t = k[:-4]
                     cv[f"{t}_kwd"] = nms
                     cv[f"{t}_tks"] = rag_tokenizer.tokenize(" ".join(nms))
+            except Exception:
+                logger.exception("parse {} {}".format(str(traceback.format_exc()), cv[k]))
                 cv[k] = []
         # tokenize fields
         if not y: y = "2012"
         if not m: m = "01"
         if not d: d = "01"
+        cv["updated_at_dt"] = "%s-%02d-%02d 00:00:00" % (y, int(m), int(d))
         # long text tokenize
     if cv.get("responsibilities"): cv["responsibilities_ltks"] = rag_tokenizer.tokenize(rmHtmlTag(cv["responsibilities"]))
                 cv["work_exp_flt"] = (time.time() - int(int(cv["work_start_time"]) / 1000)) / 3600. / 24. / 365.
             elif re.match(r"[0-9]{4}[^0-9]", str(cv["work_start_time"])):
                 y, m, d = getYMD(str(cv["work_start_time"]))
+                cv["work_start_dt"] = "%s-%02d-%02d 00:00:00" % (y, int(m), int(d))
                 cv["work_exp_flt"] = int(str(datetime.date.today())[0:4]) - int(y)
     except Exception as e:
+        logger.exception("parse {} ==> {}".format(e, cv.get("work_start_time")))
     if "work_exp_flt" not in cv and cv.get("work_experience", 0): cv["work_exp_flt"] = int(cv["work_experience"]) / 12.
     keys = list(cv.keys())
     cv["tob_resume_id"] = str(cv["tob_resume_id"])
     cv["id"] = cv["tob_resume_id"]
+    logger.info("CCCCCCCCCCCCCCC")
     return dealWithInt64(cv)
     if isinstance(d, np.integer): d = int(d)
     return d

deepdoc/vision/operators.py CHANGED Viewed

@@ -20,6 +20,7 @@ import cv2
 import numpy as np
 import math
 from PIL import Image
 class DecodeImage(object):
@@ -402,7 +403,7 @@ class DetResizeForTest(object):
                 return None, (None, None)
             img = cv2.resize(img, (int(resize_w), int(resize_h)))
         except BaseException:
-            print(img.shape, resize_w, resize_h)
             sys.exit(0)
         ratio_h = resize_h / float(h)
         ratio_w = resize_w / float(w)
@@ -452,7 +453,6 @@ class E2EResizeForTest(object):
         return data
     def resize_image_for_totaltext(self, im, max_side_len=512):
         h, w, _ = im.shape
         resize_w = w
         resize_h = h

 import numpy as np
 import math
 from PIL import Image
+from api.utils.log_utils import logger
 class DecodeImage(object):
                 return None, (None, None)
             img = cv2.resize(img, (int(resize_w), int(resize_h)))
         except BaseException:
+            logger.exception("{} {} {}".format(img.shape, resize_w, resize_h))
             sys.exit(0)
         ratio_h = resize_h / float(h)
         ratio_w = resize_w / float(w)
         return data
     def resize_image_for_totaltext(self, im, max_side_len=512):
         h, w, _ = im.shape
         resize_w = w
         resize_h = h

deepdoc/vision/recognizer.py CHANGED Viewed

@@ -19,6 +19,7 @@ from huggingface_hub import snapshot_download
 from api.utils.file_utils import get_project_base_directory
 from .operators import *
 class Recognizer(object):
@@ -439,7 +440,7 @@ class Recognizer(object):
             end_index = min((i + 1) * batch_size, len(imgs))
             batch_image_list = imgs[start_index:end_index]
             inputs = self.preprocess(batch_image_list)
-            print("preprocess")
             for ins in inputs:
                 bb = self.postprocess(self.ort_sess.run(None, {k:v for k,v in ins.items() if k in self.input_names})[0], ins, thr)
                 res.append(bb)

 from api.utils.file_utils import get_project_base_directory
 from .operators import *
+from api.utils.log_utils import logger
 class Recognizer(object):
             end_index = min((i + 1) * batch_size, len(imgs))
             batch_image_list = imgs[start_index:end_index]
             inputs = self.preprocess(batch_image_list)
+            logger.info("preprocess")
             for ins in inputs:
                 bb = self.postprocess(self.ort_sess.run(None, {k:v for k,v in ins.items() if k in self.input_names})[0], ins, thr)
                 res.append(bb)

deepdoc/vision/seeit.py CHANGED Viewed

@@ -14,6 +14,7 @@
 import os
 import PIL
 from PIL import ImageDraw
 def save_results(image_list, results, labels, output_dir='output/', threshold=0.5):
@@ -24,7 +25,7 @@ def save_results(image_list, results, labels, output_dir='output/', threshold=0.
         out_path = os.path.join(output_dir, f"{idx}.jpg")
         im.save(out_path, quality=95)
-        print("save result to: " + out_path)
 def draw_box(im, result, lables, threshold=0.5):

 import os
 import PIL
 from PIL import ImageDraw
+from api.utils.log_utils import logger
 def save_results(image_list, results, labels, output_dir='output/', threshold=0.5):
         out_path = os.path.join(output_dir, f"{idx}.jpg")
         im.save(out_path, quality=95)
+        logger.info("save result to: " + out_path)
 def draw_box(im, result, lables, threshold=0.5):

deepdoc/vision/t_recognizer.py CHANGED Viewed

@@ -10,7 +10,10 @@
 #  See the License for the specific language governing permissions and
 #  limitations under the License.
 #
-import os, sys
 sys.path.insert(
     0,
     os.path.abspath(
@@ -56,7 +59,7 @@ def main(args):
             } for t in lyt]
         img = draw_box(images[i], lyt, labels, float(args.threshold))
         img.save(outputs[i], quality=95)
-        print("save result to: " + outputs[i])
 def get_table_html(img, tb_cpns, ocr):

 #  See the License for the specific language governing permissions and
 #  limitations under the License.
 #
+import os
+import sys
+from api.utils.log_utils import logger
 sys.path.insert(
     0,
     os.path.abspath(
             } for t in lyt]
         img = draw_box(images[i], lyt, labels, float(args.threshold))
         img.save(outputs[i], quality=95)
+        logger.info("save result to: " + outputs[i])
 def get_table_html(img, tb_cpns, ocr):

graphrag/claim_extractor.py CHANGED Viewed

@@ -7,7 +7,6 @@ Reference:
 import argparse
 import json
-import logging
 import re
 import traceback
 from dataclasses import dataclass
@@ -18,12 +17,12 @@ import tiktoken
 from graphrag.claim_prompt import CLAIM_EXTRACTION_PROMPT, CONTINUE_PROMPT, LOOP_PROMPT
 from rag.llm.chat_model import Base as CompletionLLM
 from graphrag.utils import ErrorHandlerFn, perform_variable_replacements
 DEFAULT_TUPLE_DELIMITER = "<|>"
 DEFAULT_RECORD_DELIMITER = "##"
 DEFAULT_COMPLETION_DELIMITER = "<|COMPLETE|>"
 CLAIM_MAX_GLEANINGS = 1
-log = logging.getLogger(__name__)
 @dataclass
@@ -127,7 +126,7 @@ class ClaimExtractor:
                 ]
                 source_doc_map[document_id] = text
             except Exception as e:
-                log.exception("error extracting claim")
                 self._on_error(
                     e,
                     traceback.format_exc(),
@@ -266,4 +265,4 @@ if __name__ == "__main__":
         "claim_description": ""
     }
     claim = ex(info)
-    print(json.dumps(claim.output, ensure_ascii=False, indent=2))

 import argparse
 import json
 import re
 import traceback
 from dataclasses import dataclass
 from graphrag.claim_prompt import CLAIM_EXTRACTION_PROMPT, CONTINUE_PROMPT, LOOP_PROMPT
 from rag.llm.chat_model import Base as CompletionLLM
 from graphrag.utils import ErrorHandlerFn, perform_variable_replacements
+from api.utils.log_utils import logger
 DEFAULT_TUPLE_DELIMITER = "<|>"
 DEFAULT_RECORD_DELIMITER = "##"
 DEFAULT_COMPLETION_DELIMITER = "<|COMPLETE|>"
 CLAIM_MAX_GLEANINGS = 1
 @dataclass
                 ]
                 source_doc_map[document_id] = text
             except Exception as e:
+                logger.exception("error extracting claim")
                 self._on_error(
                     e,
                     traceback.format_exc(),
         "claim_description": ""
     }
     claim = ex(info)
+    logger.info(json.dumps(claim.output, ensure_ascii=False, indent=2))

graphrag/community_reports_extractor.py CHANGED Viewed

@@ -6,11 +6,10 @@ Reference:
 """
 import json
-import logging
 import re
 import traceback
 from dataclasses import dataclass
-from typing import Any, List, Callable
 import networkx as nx
 import pandas as pd
 from graphrag import leiden
@@ -20,8 +19,7 @@ from rag.llm.chat_model import Base as CompletionLLM
 from graphrag.utils import ErrorHandlerFn, perform_variable_replacements, dict_has_keys_with_types
 from rag.utils import num_tokens_from_string
 from timeit import default_timer as timer
-log = logging.getLogger(__name__)
 @dataclass
@@ -82,7 +80,7 @@ class CommunityReportsExtractor:
                     response = re.sub(r"[^\}]*$", "", response)
                     response = re.sub(r"\{\{", "{", response)
                     response = re.sub(r"\}\}", "}", response)
-                    print(response)
                     response = json.loads(response)
                     if not dict_has_keys_with_types(response, [
                                 ("title", str),
@@ -94,7 +92,7 @@ class CommunityReportsExtractor:
                     response["weight"] = weight
                     response["entities"] = ents
                 except Exception as e:
-                    print("ERROR: ", traceback.format_exc())
                     self._on_error(e, traceback.format_exc(), None)
                     continue
@@ -127,5 +125,4 @@ class CommunityReportsExtractor:
         report_sections = "\n\n".join(
             f"## {finding_summary(f)}\n\n{finding_explanation(f)}" for f in findings
         )
         return f"# {title}\n\n{summary}\n\n{report_sections}"

 """
 import json
 import re
 import traceback
 from dataclasses import dataclass
+from typing import List, Callable
 import networkx as nx
 import pandas as pd
 from graphrag import leiden
 from graphrag.utils import ErrorHandlerFn, perform_variable_replacements, dict_has_keys_with_types
 from rag.utils import num_tokens_from_string
 from timeit import default_timer as timer
+from api.utils.log_utils import logger
 @dataclass
                     response = re.sub(r"[^\}]*$", "", response)
                     response = re.sub(r"\{\{", "{", response)
                     response = re.sub(r"\}\}", "}", response)
+                    logger.info(response)
                     response = json.loads(response)
                     if not dict_has_keys_with_types(response, [
                                 ("title", str),
                     response["weight"] = weight
                     response["entities"] = ents
                 except Exception as e:
+                    logger.exception("CommunityReportsExtractor got exception")
                     self._on_error(e, traceback.format_exc(), None)
                     continue
         report_sections = "\n\n".join(
             f"## {finding_summary(f)}\n\n{finding_explanation(f)}" for f in findings
         )
         return f"# {title}\n\n{summary}\n\n{report_sections}"

graphrag/index.py CHANGED Viewed

@@ -28,6 +28,7 @@ from graphrag.graph_extractor import GraphExtractor, DEFAULT_ENTITY_TYPES
 from graphrag.mind_map_extractor import MindMapExtractor
 from rag.nlp import rag_tokenizer
 from rag.utils import num_tokens_from_string
 def graph_merge(g1, g2):
@@ -94,7 +95,7 @@ def build_knowledge_graph_chunks(tenant_id: str, chunks: List[str], callback, en
     chunks = []
     for n, attr in graph.nodes(data=True):
         if attr.get("rank", 0) == 0:
-            print(f"Ignore entity: {n}")
             continue
         chunk = {
             "name_kwd": n,
@@ -136,7 +137,7 @@ def build_knowledge_graph_chunks(tenant_id: str, chunks: List[str], callback, en
     mg = mindmap(_chunks).output
     if not len(mg.keys()): return chunks
-    print(json.dumps(mg, ensure_ascii=False, indent=2))
     chunks.append(
         {
             "content_with_weight": json.dumps(mg, ensure_ascii=False, indent=2),

 from graphrag.mind_map_extractor import MindMapExtractor
 from rag.nlp import rag_tokenizer
 from rag.utils import num_tokens_from_string
+from api.utils.log_utils import logger
 def graph_merge(g1, g2):
     chunks = []
     for n, attr in graph.nodes(data=True):
         if attr.get("rank", 0) == 0:
+            logger.info(f"Ignore entity: {n}")
             continue
         chunk = {
             "name_kwd": n,
     mg = mindmap(_chunks).output
     if not len(mg.keys()): return chunks
+    logger.info(json.dumps(mg, ensure_ascii=False, indent=2))
     chunks.append(
         {
             "content_with_weight": json.dumps(mg, ensure_ascii=False, indent=2),

graphrag/mind_map_extractor.py CHANGED Viewed

@@ -18,7 +18,6 @@ import collections
 import logging
 import os
 import re
-import logging
 import traceback
 from concurrent.futures import ThreadPoolExecutor
 from dataclasses import dataclass
@@ -30,6 +29,7 @@ from rag.llm.chat_model import Base as CompletionLLM
 import markdown_to_json
 from functools import reduce
 from rag.utils import num_tokens_from_string
 @dataclass
@@ -193,6 +193,6 @@ class MindMapExtractor:
         gen_conf = {"temperature": 0.5}
         response = self._llm.chat(text, [{"role": "user", "content": "Output:"}], gen_conf)
         response = re.sub(r"```[^\n]*", "", response)
-        print(response)
-        print("---------------------------------------------------\n", self._todict(markdown_to_json.dictify(response)))
         return self._todict(markdown_to_json.dictify(response))

 import logging
 import os
 import re
 import traceback
 from concurrent.futures import ThreadPoolExecutor
 from dataclasses import dataclass
 import markdown_to_json
 from functools import reduce
 from rag.utils import num_tokens_from_string
+from api.utils.log_utils import logger
 @dataclass
         gen_conf = {"temperature": 0.5}
         response = self._llm.chat(text, [{"role": "user", "content": "Output:"}], gen_conf)
         response = re.sub(r"```[^\n]*", "", response)
+        logger.info(response)
+        logger.info(self._todict(markdown_to_json.dictify(response)))
         return self._todict(markdown_to_json.dictify(response))

intergrations/chatgpt-on-wechat/plugins/ragflow_chat.py CHANGED Viewed

@@ -2,7 +2,7 @@ import requests
 from bridge.context import ContextType  # Import Context, ContextType
 from bridge.reply import Reply, ReplyType  # Import Reply, ReplyType
 from bridge import *
-from common.log import logger
 from plugins import Plugin, register  # Import Plugin and register
 from plugins.event import Event, EventContext, EventAction  # Import event-related classes
@@ -76,7 +76,7 @@ class RAGFlowChat(Plugin):
                     logger.error(f"[RAGFlowChat] HTTP error when creating conversation: {response.status_code}")
                     return f"Sorry, unable to connect to RAGFlow API (create conversation). HTTP status code: {response.status_code}"
             except Exception as e:
-                logger.exception(f"[RAGFlowChat] Exception when creating conversation: {e}")
                 return f"Sorry, an internal error occurred: {str(e)}"
         # Step 2: Send the message and get a reply
@@ -108,5 +108,5 @@ class RAGFlowChat(Plugin):
                 logger.error(f"[RAGFlowChat] HTTP error when getting answer: {response.status_code}")
                 return f"Sorry, unable to connect to RAGFlow API (get reply). HTTP status code: {response.status_code}"
         except Exception as e:
-            logger.exception(f"[RAGFlowChat] Exception when getting answer: {e}")
             return f"Sorry, an internal error occurred: {str(e)}"

 from bridge.context import ContextType  # Import Context, ContextType
 from bridge.reply import Reply, ReplyType  # Import Reply, ReplyType
 from bridge import *
+from api.utils.log_utils import logger
 from plugins import Plugin, register  # Import Plugin and register
 from plugins.event import Event, EventContext, EventAction  # Import event-related classes
                     logger.error(f"[RAGFlowChat] HTTP error when creating conversation: {response.status_code}")
                     return f"Sorry, unable to connect to RAGFlow API (create conversation). HTTP status code: {response.status_code}"
             except Exception as e:
+                logger.exception("[RAGFlowChat] Exception when creating conversation")
                 return f"Sorry, an internal error occurred: {str(e)}"
         # Step 2: Send the message and get a reply
                 logger.error(f"[RAGFlowChat] HTTP error when getting answer: {response.status_code}")
                 return f"Sorry, unable to connect to RAGFlow API (get reply). HTTP status code: {response.status_code}"
         except Exception as e:
+            logger.exception("[RAGFlowChat] Exception when getting answer")
             return f"Sorry, an internal error occurred: {str(e)}"

rag/app/book.py CHANGED Viewed

@@ -20,6 +20,7 @@ from rag.nlp import bullets_category, is_english,remove_contents_table, \
     tokenize_chunks
 from rag.nlp import rag_tokenizer
 from deepdoc.parser import PdfParser, DocxParser, PlainParser, HtmlParser
 class Pdf(PdfParser):
@@ -38,7 +39,7 @@ class Pdf(PdfParser):
         start = timer()
         self._layouts_rec(zoomin)
         callback(0.67, "Layout analysis finished")
-        print("layouts:", timer() - start)
         self._table_transformer_job(zoomin)
         callback(0.68, "Table analysis finished")
         self._text_merge()

     tokenize_chunks
 from rag.nlp import rag_tokenizer
 from deepdoc.parser import PdfParser, DocxParser, PlainParser, HtmlParser
+from api.utils.log_utils import logger
 class Pdf(PdfParser):
         start = timer()
         self._layouts_rec(zoomin)
         callback(0.67, "Layout analysis finished")
+        logger.info("layouts: {}".format(timer() - start))
         self._table_transformer_job(zoomin)
         callback(0.68, "Table analysis finished")
         self._text_merge()

rag/app/email.py CHANGED Viewed

@@ -18,7 +18,7 @@ import re
 from rag.nlp import rag_tokenizer, naive_merge, tokenize_chunks
 from deepdoc.parser import HtmlParser, TxtParser
 from timeit import default_timer as timer
-from rag.settings import cron_logger
 import io
@@ -86,7 +86,7 @@ def chunk(
     )
     main_res.extend(tokenize_chunks(chunks, doc, eng, None))
-    cron_logger.info("naive_merge({}): {}".format(filename, timer() - st))
     # get the attachment info
     for part in msg.iter_attachments():
         content_disposition = part.get("Content-Disposition")

 from rag.nlp import rag_tokenizer, naive_merge, tokenize_chunks
 from deepdoc.parser import HtmlParser, TxtParser
 from timeit import default_timer as timer
+from api.utils.log_utils import logger
 import io
     )
     main_res.extend(tokenize_chunks(chunks, doc, eng, None))
+    logger.info("naive_merge({}): {}".format(filename, timer() - st))
     # get the attachment info
     for part in msg.iter_attachments():
         content_disposition = part.get("Content-Disposition")

rag/app/laws.py CHANGED Viewed

@@ -21,7 +21,7 @@ from rag.nlp import bullets_category, remove_contents_table, hierarchical_merge,
     make_colon_as_title, tokenize_chunks, docx_question_level
 from rag.nlp import rag_tokenizer
 from deepdoc.parser import PdfParser, DocxParser, PlainParser, HtmlParser
-from rag.settings import cron_logger
 class Docx(DocxParser):
@@ -122,8 +122,8 @@ class Pdf(PdfParser):
         start = timer()
         self._layouts_rec(zoomin)
         callback(0.67, "Layout analysis finished")
-        cron_logger.info("layouts:".format(
-            (timer() - start) / (self.total_page + 0.1)))
         self._naive_vertical_merge()
         callback(0.8, "Text extraction finished")

     make_colon_as_title, tokenize_chunks, docx_question_level
 from rag.nlp import rag_tokenizer
 from deepdoc.parser import PdfParser, DocxParser, PlainParser, HtmlParser
+from api.utils.log_utils import logger
 class Docx(DocxParser):
         start = timer()
         self._layouts_rec(zoomin)
         callback(0.67, "Layout analysis finished")
+        logger.info("layouts:".format(
+            ))
         self._naive_vertical_merge()
         callback(0.8, "Text extraction finished")