File size: 2,181 Bytes
2b42ef6
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
77712b5
2b42ef6
 
 
 
 
 
7bcb1e8
2b42ef6
 
77712b5
 
 
2b42ef6
 
 
 
 
5606c56
 
 
 
2b42ef6
 
 
 
77712b5
2b42ef6
 
 
 
 
 
7bcb1e8
2b42ef6
 
 
 
 
 
 
 
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
import gradio as gr

def check_transcript(transcript, threshold=10):
    """
    檢查逐字稿中的時間段是否有漏掉的部分。

    Parameters:
    - transcript: 逐字稿文本,格式為 "開始時間 - 結束時間\n文字內容"
    - threshold: 判斷時間間隔的閾值,單位為秒(默認為 10 秒)

    Returns:
    - 輸出是否存在時間段遺漏的提示信息。
    """
    # 將逐字稿文本分割成行
    lines = transcript.split('\n')
    # 初始化變量以儲存時間戳
    end_times = []
    contents = []  # 儲存對應的文字內容
    
    for line in lines:
        if " - " in line:
            # 提取結束時間部分
            time_str = line.split(" - ")[1].strip()
            # 將時間戳轉換為秒數
            h, m, s = map(int, time_str.split(":"))
            total_seconds = h * 3600 + m * 60 + s
            end_times.append(total_seconds)
            # 提取文字內容
            contents.append(line)

    # 檢查時間戳之間的間隔
    gaps = []
    for i in range(1, len(end_times)):
        gap = end_times[i] - end_times[i-1]
        if gap > threshold:
            # 顯示前一句和後一句逐字稿
            previous_content = contents[i-1] if i - 1 >= 0 else "(無前句)"
            next_content = contents[i + 1] if i + 1 < len(contents) else "(無後句)"
            gaps.append(f"發現時間間隔過長: {gap:.2f} 秒\n漏掉區段前一句:{previous_content}\n漏掉區段後一句:{next_content}")
    
    if not gaps:
        return "逐字稿無漏掉部分。"
    else:
        return "\n\n".join(gaps)

# 建立 Gradio 界面
iface = gr.Interface(
    fn=check_transcript, 
    inputs=[
        gr.Textbox(lines=10, label="逐字稿文本"),
        gr.Number(value=10, label="時間間隔閾值(秒數)")  # 使用 value 而不是 default
    ], 
    outputs="text",
    title="逐字稿漏掉檢查工具",
    description="輸入逐字稿文本,檢查時間週是否有漏掉的部分。格式為 '開始時間 - 結束時間\n文字內容',例如 '00:00:01 - 00:00:03\n書局舉辦週年慶'"
)

# 啟動 Gradio 應用
iface.launch()