balibabu commited on
Commit
ecfd212
·
1 Parent(s): 3a0bf13

feat: modify the description of qa (#406)

Browse files

### What problem does this PR solve?

feat: modify the description of qa

Issue link: #405

### Type of change

- [x] Bug Fix (non-breaking change which fixes an issue)

web/src/locales/en.ts CHANGED
@@ -171,7 +171,7 @@ export default {
171
  methodTitle: 'Chunking Method Description',
172
  methodExamples: 'Examples',
173
  methodExamplesDescription:
174
- 'This visual guides is in order to make understanding easier for you.',
175
  dialogueExamplesTitle: 'Dialogue Examples',
176
  methodEmpty:
177
  'This will display a visual explanation of the knowledge base categories',
@@ -201,15 +201,27 @@ export default {
201
  presentation: `<p>The supported file formats are <b>PDF</b>, <b>PPTX</b>.</p><p>
202
  Every page will be treated as a chunk. And the thumbnail of every page will be stored.</p><p>
203
  <i>All the PPT files you uploaded will be chunked by using this method automatically, setting-up for every PPT file is not necessary.</i></p>`,
204
- qa: `<p><b>EXCEL</b> and <b>CSV/TXT</b> files are supported.</p><p>
205
- If the file is in excel format, there should be 2 columns question and answer without header.
206
- And question column is ahead of answer column.
207
- And it's O.K if it has multiple sheets as long as the columns are rightly composed.</p><p>
208
-
209
- If it's in csv format, it should be UTF-8 encoded. Use TAB as delimiter to separate question and answer.</p><p>
210
-
211
- <i>All the deformed lines will be ignored.
212
- Every pair of Q&A will be treated as a chunk.</i></p>`,
 
 
 
 
 
 
 
 
 
 
 
 
213
  resume: `<p>The supported file formats are <b>DOCX</b>, <b>PDF</b>, <b>TXT</b>.
214
  </p><p>
215
  The résumé comes in a variety of formats, just like a person’s personality, but we often have to organize them into structured data that makes it easy to search.
 
171
  methodTitle: 'Chunking Method Description',
172
  methodExamples: 'Examples',
173
  methodExamplesDescription:
174
+ 'The following screenshots are presented to facilitate understanding.',
175
  dialogueExamplesTitle: 'Dialogue Examples',
176
  methodEmpty:
177
  'This will display a visual explanation of the knowledge base categories',
 
201
  presentation: `<p>The supported file formats are <b>PDF</b>, <b>PPTX</b>.</p><p>
202
  Every page will be treated as a chunk. And the thumbnail of every page will be stored.</p><p>
203
  <i>All the PPT files you uploaded will be chunked by using this method automatically, setting-up for every PPT file is not necessary.</i></p>`,
204
+ qa: `
205
+ <p>
206
+ This chunk method supports <b>EXCEL</b> and <b>CSV/TXT</b> file formats.
207
+ </p>
208
+ <li>
209
+ If the file is in <b>Excel</b> format, it should consist of two columns
210
+ without headers: one for questions and the other for answers, with the
211
+ question column preceding the answer column. Multiple sheets are
212
+ acceptable as long as the columns are correctly structured.
213
+ </li>
214
+ <li>
215
+ If the file is in <b>CSV/TXT</b> format, it must be UTF-8 encoded with TAB
216
+ used as the delimiter to separate questions and answers.
217
+ </li>
218
+ <p>
219
+ <i>
220
+ Lines of texts that fail to follow the above rules will be ignored, and
221
+ each Q&A pair will be considered a distinct chunk.
222
+ </i>
223
+ </p>
224
+ `,
225
  resume: `<p>The supported file formats are <b>DOCX</b>, <b>PDF</b>, <b>TXT</b>.
226
  </p><p>
227
  The résumé comes in a variety of formats, just like a person’s personality, but we often have to organize them into structured data that makes it easy to search.
web/src/locales/zh-traditional.ts CHANGED
@@ -144,12 +144,12 @@ export default {
144
  languagePlaceholder: '請輸入語言',
145
  permissions: '權限',
146
  embeddingModel: '嵌入模型',
147
- chunkTokenNumber: '塊令牌數',
148
- chunkTokenNumberMessage: '塊令牌數是必填項',
149
  embeddingModelTip:
150
  '用於嵌入塊的嵌入模型。一旦知識庫有了塊,它就無法更改。如果你想改變它,你需要刪除所有的塊。',
151
  permissionsTip: '如果權限是“團隊”,則所有團隊成員都可以操作知識庫。',
152
- chunkTokenNumberTip: '它大致確定了一個塊的令牌數量。',
153
  chunkMethod: '解析方法',
154
  chunkMethodTip: '說明位於右側。',
155
  upload: '上傳',
@@ -163,7 +163,7 @@ export default {
163
  cancel: '取消',
164
  methodTitle: '分塊方法說明',
165
  methodExamples: '示例',
166
- methodExamplesDescription: '這個視覺指南是為了讓您更容易理解。',
167
  dialogueExamplesTitle: '對話示例',
168
  methodEmpty: '這將顯示知識庫類別的可視化解釋',
169
  book: `<p>支持的文件格式為<b>DOCX</b>、<b>PDF</b>、<b>TXT</b>。</p><p>
@@ -182,7 +182,7 @@ export default {
182
  <p>此方法將簡單的方法應用於塊文件:</p>
183
  <p>
184
  <li>系統將使用視覺檢測模型將連續文本分割成多個片段。</li>
185
- <li>接下來,這些連續的片段被合併成令牌數不超過“令牌數”的塊。</li></p>`,
186
  paper: `<p>僅支持<b>PDF</b>文件。</p><p>
187
  如果我們的模型運行良好,論文將按其部分進行切片,例如<i>摘要、1.1、1.2</i>等。</p><p>
188
  這樣做的好處是LLM可以更好的概括論文中相關章節的內容,
@@ -192,15 +192,24 @@ export default {
192
  presentation: `<p>支持的文件格式為<b>PDF</b>、<b>PPTX</b>。</p><p>
193
  每個頁面都將被視為一個塊。並且每個頁面的縮略圖都會被存儲。</p><p>
194
  <i>您上傳的所有PPT文件都會使用此方法自動分塊,無需為每個PPT文件進行設置。</i></p>`,
195
- qa: `支持<p><b>EXCEL</b>和<b>CSV/TXT</b>文件。</p><p>
196
- 如果文件是Excel格式,應該有2列問題和答案,沒有標題。
197
- 問題欄位於答案欄之前。
198
- 如果有多個工作表也沒關係,只要列的組合正確即可。</p><p>
199
-
200
- 如果是 csv 格式,則應採用 UTF-8 編碼。使用 TAB 作為分隔符來分隔問題和答案。</p><p>
201
-
202
- <i>所有變形的線都將被忽略。
203
- 每對問答都將被視為一個塊。</i></p>`,
 
 
 
 
 
 
 
 
 
204
  resume: `<p>支持的文件格式為<b>DOCX</b>、<b>PDF</b>、<b>TXT</b>。
205
  </p><p>
206
  簡歷有多種格式,就像一個人的個性一樣,但我們經常必須將它們組織成結構化數據,以便於搜索。
@@ -414,7 +423,7 @@ export default {
414
  202: '一個請求已經進入後台排隊(異步任務)。',
415
  204: '刪除數據成功。',
416
  400: '發出的請求有錯誤,服務器沒有進行新建或修改數據的操作。',
417
- 401: '用戶沒有權限(令牌、用戶名、密碼錯誤)。',
418
  403: '用戶得到授權,但是訪問是被禁止的。',
419
  404: '發出的請求針對的是不存在的記錄,服務器沒有進行操作。',
420
  406: '請求的格式不可得。',
 
144
  languagePlaceholder: '請輸入語言',
145
  permissions: '權限',
146
  embeddingModel: '嵌入模型',
147
+ chunkTokenNumber: '塊Token數',
148
+ chunkTokenNumberMessage: '塊Token數是必填項',
149
  embeddingModelTip:
150
  '用於嵌入塊的嵌入模型。一旦知識庫有了塊,它就無法更改。如果你想改變它,你需要刪除所有的塊。',
151
  permissionsTip: '如果權限是“團隊”,則所有團隊成員都可以操作知識庫。',
152
+ chunkTokenNumberTip: '它大致確定了一個塊的Token數量。',
153
  chunkMethod: '解析方法',
154
  chunkMethodTip: '說明位於右側。',
155
  upload: '上傳',
 
163
  cancel: '取消',
164
  methodTitle: '分塊方法說明',
165
  methodExamples: '示例',
166
+ methodExamplesDescription: '提出以下屏幕截圖以促進理解。',
167
  dialogueExamplesTitle: '對話示例',
168
  methodEmpty: '這將顯示知識庫類別的可視化解釋',
169
  book: `<p>支持的文件格式為<b>DOCX</b>、<b>PDF</b>、<b>TXT</b>。</p><p>
 
182
  <p>此方法將簡單的方法應用於塊文件:</p>
183
  <p>
184
  <li>系統將使用視覺檢測模型將連續文本分割成多個片段。</li>
185
+ <li>接下來,這些連續的片段被合併成Token數不超過“Token數”的塊。</li></p>`,
186
  paper: `<p>僅支持<b>PDF</b>文件。</p><p>
187
  如果我們的模型運行良好,論文將按其部分進行切片,例如<i>摘要、1.1、1.2</i>等。</p><p>
188
  這樣做的好處是LLM可以更好的概括論文中相關章節的內容,
 
192
  presentation: `<p>支持的文件格式為<b>PDF</b>、<b>PPTX</b>。</p><p>
193
  每個頁面都將被視為一個塊。並且每個頁面的縮略圖都會被存儲。</p><p>
194
  <i>您上傳的所有PPT文件都會使用此方法自動分塊,無需為每個PPT文件進行設置。</i></p>`,
195
+ qa: `<p>
196
+ 此塊方法支持<b> excel </b>和<b> csv/txt </b>文件格式。
197
+ </p>
198
+ <li>
199
+ 如果文件以<b> excel </b>格式,則應由兩個列組成
200
+ 沒有標題:一個提出問題,另一個用於答案,
201
+ 答案列之前的問題列。多張紙是
202
+ 只要列正確結構,就可以接受。
203
+ </li>
204
+ <li>
205
+ 如果文件以<b> csv/txt </b>格式為
206
+ 用作分開問題和答案的定界符。
207
+ </li>
208
+ <p>
209
+ <i>
210
+ 未能遵循上述規則的文本行將被忽略,並且
211
+ 每個問答對將被認為是一個獨特的部分。
212
+ </i>`,
213
  resume: `<p>支持的文件格式為<b>DOCX</b>、<b>PDF</b>、<b>TXT</b>。
214
  </p><p>
215
  簡歷有多種格式,就像一個人的個性一樣,但我們經常必須將它們組織成結構化數據,以便於搜索。
 
423
  202: '一個請求已經進入後台排隊(異步任務)。',
424
  204: '刪除數據成功。',
425
  400: '發出的請求有錯誤,服務器沒有進行新建或修改數據的操作。',
426
+ 401: '用戶沒有權限(Token、用戶名、密碼錯誤)。',
427
  403: '用戶得到授權,但是訪問是被禁止的。',
428
  404: '發出的請求針對的是不存在的記錄,服務器沒有進行操作。',
429
  406: '請求的格式不可得。',
web/src/locales/zh.ts CHANGED
@@ -145,12 +145,12 @@ export default {
145
  languagePlaceholder: '请输入语言',
146
  permissions: '权限',
147
  embeddingModel: '嵌入模型',
148
- chunkTokenNumber: '块令牌数',
149
- chunkTokenNumberMessage: '块令牌数是必填项',
150
  embeddingModelTip:
151
  '用于嵌入块的嵌入模型。 一旦知识库有了块,它就无法更改。 如果你想改变它,你需要删除所有的块。',
152
  permissionsTip: '如果权限是“团队”,则所有团队成员都可以操作知识库。',
153
- chunkTokenNumberTip: '它大致确定了一个块的令牌数量。',
154
  chunkMethod: '解析方法',
155
  chunkMethodTip: '说明位于右侧。',
156
  upload: '上传',
@@ -164,7 +164,7 @@ export default {
164
  cancel: '取消',
165
  methodTitle: '分块方法说明',
166
  methodExamples: '示例',
167
- methodExamplesDescription: '这个视觉指南是为了让您更容易理解。',
168
  dialogueExamplesTitle: '对话示例',
169
  methodEmpty: '这将显示知识库类别的可视化解释',
170
  book: `<p>支持的文件格式为<b>DOCX</b>、<b>PDF</b>、<b>TXT</b>。</p><p>
@@ -183,7 +183,7 @@ export default {
183
  <p>此方法将简单的方法应用于块文件:</p>
184
  <p>
185
  <li>系统将使用视觉检测模型将连续文本分割成多个片段。</li>
186
- <li>接下来,这些连续的片段被合并成令牌数不超过“令牌数”的块。</li></p>`,
187
  paper: `<p>仅支持<b>PDF</b>文件。</p><p>
188
  如果我们的模型运行良好,论文将按其部分进行切片,例如<i>摘要、1.1、1.2</i>等。</p><p>
189
  这样做的好处是LLM可以更好的概括论文中相关章节的内容,
@@ -193,15 +193,25 @@ export default {
193
  presentation: `<p>支持的文件格式为<b>PDF</b>、<b>PPTX</b>。</p><p>
194
  每个页面都将被视为一个块。 并且每个页面的缩略图都会被存储。</p><p>
195
  <i>您上传的所有PPT文件都会使用此方法自动分块,无需为每个PPT文件进行设置。</i></p>`,
196
- qa: `支持<p><b>EXCEL</b>和<b>CSV/TXT</b>文件。</p><p>
197
- 如果文件是Excel格式,应该有2列问题和答案,没有标题。
198
- 问题栏位于答案栏之前。
199
- 如果有多个工作表也没关系,只要列的组合正确即可。</p><p>
200
-
201
- 如果是 csv 格式,则应采用 UTF-8 编码。 使用 TAB 作为分隔符来分隔问题和答案。</p><p>
202
-
203
- <i>所有变形的线都将被忽略。
204
- 每对问答都将被视为一个块。</i></p>`,
 
 
 
 
 
 
 
 
 
 
205
  resume: `<p>支持的文件格式为<b>DOCX</b>、<b>PDF</b>、<b>TXT</b>。
206
  </p><p>
207
  简历有多种格式,就像一个人的个性一样,但我们经常必须将它们组织成结构化数据,以便于搜索。
@@ -430,7 +440,7 @@ export default {
430
  202: '一个请求已经进入后台排队(异步任务)。',
431
  204: '删除数据成功。',
432
  400: '发出的请求有错误,服务器没有进行新建或修改数据的操作。',
433
- 401: '用户没有权限(令牌、用户名、密码错误)。',
434
  403: '用户得到授权,但是访问是被禁止的。',
435
  404: '发出的请求针对的是不存在的记录,服务器没有进行操作。',
436
  406: '请求的格式不可得。',
 
145
  languagePlaceholder: '请输入语言',
146
  permissions: '权限',
147
  embeddingModel: '嵌入模型',
148
+ chunkTokenNumber: '块Token数',
149
+ chunkTokenNumberMessage: '块Token数是必填项',
150
  embeddingModelTip:
151
  '用于嵌入块的嵌入模型。 一旦知识库有了块,它就无法更改。 如果你想改变它,你需要删除所有的块。',
152
  permissionsTip: '如果权限是“团队”,则所有团队成员都可以操作知识库。',
153
+ chunkTokenNumberTip: '它大致确定了一个块的Token数量。',
154
  chunkMethod: '解析方法',
155
  chunkMethodTip: '说明位于右侧。',
156
  upload: '上传',
 
164
  cancel: '取消',
165
  methodTitle: '分块方法说明',
166
  methodExamples: '示例',
167
+ methodExamplesDescription: '提出以下屏幕截图以促进理解。',
168
  dialogueExamplesTitle: '对话示例',
169
  methodEmpty: '这将显示知识库类别的可视化解释',
170
  book: `<p>支持的文件格式为<b>DOCX</b>、<b>PDF</b>、<b>TXT</b>。</p><p>
 
183
  <p>此方法将简单的方法应用于块文件:</p>
184
  <p>
185
  <li>系统将使用视觉检测模型将连续文本分割成多个片段。</li>
186
+ <li>接下来,这些连续的片段被合并成Token数不超过“Token数”的块。</li></p>`,
187
  paper: `<p>仅支持<b>PDF</b>文件。</p><p>
188
  如果我们的模型运行良好,论文将按其部分进行切片,例如<i>摘要、1.1、1.2</i>等。</p><p>
189
  这样做的好处是LLM可以更好的概括论文中相关章节的内容,
 
193
  presentation: `<p>支持的文件格式为<b>PDF</b>、<b>PPTX</b>。</p><p>
194
  每个页面都将被视为一个块。 并且每个页面的缩略图都会被存储。</p><p>
195
  <i>您上传的所有PPT文件都会使用此方法自动分块,无需为每个PPT文件进行设置。</i></p>`,
196
+ qa: ` <p>
197
+ 此块方法支持<b> excel </b>和<b> csv/txt </b>文件格式。
198
+ </p>
199
+ <li>
200
+ 如果文件以<b> excel </b>格式,则应由两个列组成
201
+ 没有标题:一个提出问题,另一个用于答案,
202
+ 答案列之前的问题列。多张纸是
203
+ 只要列正确结构,就可以接受。
204
+ </li>
205
+ <li>
206
+ 如果文件以<b> csv/txt </b>格式为
207
+ 用作分开问题和答案的定界符。
208
+ </li>
209
+ <p>
210
+ <i>
211
+ 未能遵循上述规则的文本行将被忽略,并且
212
+ 每个问答对将被认为是一个独特的部分。
213
+ </i>
214
+ </p>`,
215
  resume: `<p>支持的文件格式为<b>DOCX</b>、<b>PDF</b>、<b>TXT</b>。
216
  </p><p>
217
  简历有多种格式,就像一个人的个性一样,但我们经常必须将它们组织成结构化数据,以便于搜索。
 
440
  202: '一个请求已经进入后台排队(异步任务)。',
441
  204: '删除数据成功。',
442
  400: '发出的请求有错误,服务器没有进行新建或修改数据的操作。',
443
+ 401: '用户没有权限(Token、用户名、密码错误)。',
444
  403: '用户得到授权,但是访问是被禁止的。',
445
  404: '发出的请求针对的是不存在的记录,服务器没有进行操作。',
446
  406: '请求的格式不可得。',