Spaces:

JunyiAcademy
/

vaitor2

Running

App Files Files Community

youngtsai commited on Apr 7, 2024

Commit

dcbbabb

1 Parent(s): 7a116ca

key_moment["keywords"] = generate_key_moments_keywords(transcript)

Browse files

Files changed (1) hide show

app.py +24 -0

app.py CHANGED Viewed

@@ -1069,6 +1069,12 @@ def get_key_moments(video_id, formatted_simple_transcript, formatted_transcript,
         is_key_moments_exists = GCS_SERVICE.check_file_exists(bucket_name, blob_name)
         if not is_key_moments_exists:
             key_moments = generate_key_moments(formatted_simple_transcript, formatted_transcript)
             key_moments_json = {"key_moments": key_moments}
             key_moments_text = json.dumps(key_moments_json, ensure_ascii=False, indent=2)
             upload_file_to_gcs_with_json_string(gcs_client, bucket_name, blob_name, key_moments_text)
@@ -1161,6 +1167,24 @@ def generate_key_moments(formatted_simple_transcript, formatted_transcript):
     return key_moments
 def get_key_moments_html(key_moments):
     css = """
     <style>

         is_key_moments_exists = GCS_SERVICE.check_file_exists(bucket_name, blob_name)
         if not is_key_moments_exists:
             key_moments = generate_key_moments(formatted_simple_transcript, formatted_transcript)
+            # 檢查 key_moments 是否有 keywords
+            for key_moment in key_moments:
+                if "keywords" not in key_moment:
+                    transcript = key_moment["transcript"]
+                    key_moment["keywords"] = generate_key_moments_keywords(transcript)
             key_moments_json = {"key_moments": key_moments}
             key_moments_text = json.dumps(key_moments_json, ensure_ascii=False, indent=2)
             upload_file_to_gcs_with_json_string(gcs_client, bucket_name, blob_name, key_moments_text)
     return key_moments
+def generate_key_moments_keywords(transcript):
+    user_prompt = f"""transcript  extract to keyword
+        保留專家名字、專業術語、年份、數字、期刊名稱、地名、數學公式、數學表示式、物理化學符號，
+        不用給上下文，直接給出關鍵字，使用 zh-TW，用逗號分隔， example: 關鍵字1, 關鍵字2
+        transcript：{transcript}
+    """
+    response = OPEN_AI_CLIENT.completions.create(
+        model="gpt-4-1106-preview",
+        messages=[
+            {"role": "system", "content": "你是一個擅長資料分析跟影片教學的老師，user 為學生，請根據以下文本提取關鍵字"},
+            {"role": "user", "content": user_prompt}
+        ],
+        max_tokens=100,
+    )
+    keywords = response.choices[0].message.content.strip().split(", ")
+    return keywords
 def get_key_moments_html(key_moments):
     css = """
     <style>