Spaces:

Th3BossC
/

TranscriptApi

Running

App Files Files Community

Th3BossC commited on Jun 15, 2023

Commit

15ec869

1 Parent(s): 0d6526c

added question answering funcationality

Browse files

Files changed (8) hide show

TranscriptApi/__pycache__/models.cpython-310.pyc +0 -0
TranscriptApi/common/__pycache__/utils.cpython-310.pyc +0 -0
TranscriptApi/common/utils.py +12 -5
TranscriptApi/models.py +4 -2
TranscriptApi/resources/__pycache__/routes.cpython-310.pyc +0 -0
TranscriptApi/resources/routes.py +47 -19
__pycache__/app.cpython-310.pyc +0 -0
instance/site.db +0 -0

TranscriptApi/__pycache__/models.cpython-310.pyc CHANGED Viewed

Binary files a/TranscriptApi/__pycache__/models.cpython-310.pyc and b/TranscriptApi/__pycache__/models.cpython-310.pyc differ

TranscriptApi/common/__pycache__/utils.cpython-310.pyc CHANGED Viewed

Binary files a/TranscriptApi/common/__pycache__/utils.cpython-310.pyc and b/TranscriptApi/common/__pycache__/utils.cpython-310.pyc differ

TranscriptApi/common/utils.py CHANGED Viewed

@@ -40,7 +40,6 @@ def get_video(video_url, location, filename = 'audio'):
     audio_filename = location + filename + '.mp3'
     print('[INFO] downloading video...')
     video = YouTube(video_url).streams.filter(file_extension = 'mp4').first().download(filename = video_filename)
-    print('something')
     video = VideoFileClip(video_filename)
     print('[INFO] extracting audio from video...')
     video.audio.write_audiofile(audio_filename)
@@ -141,7 +140,10 @@ def summarize_youtube_video(video_url, outputs_dir):
     complete_summary = ' '.join(summaries)
     with open(summary_file, 'w') as f:
         f.write(complete_summary)
-    return complete_summary
 ############################################################
@@ -198,9 +200,9 @@ def summarize_string(text : str):
 def summarize_file(file_location, file_extension, working_dir = "TranscriptApi/static/files"):
     # _, file_extension = os.path.splitext(file_location)
     text = ""
-    if file_extension == '.pdf':
         text = extract_text_pdf(file_location)
-    elif file_extension == '.txt':
         text = extract_text_txt(file_location)
     else:
         return "[ERROR]"
@@ -208,4 +210,9 @@ def summarize_file(file_location, file_extension, working_dir = "TranscriptApi/s
     if os.path.exists(working_dir):
         shutil.rmtree(working_dir)
     os.mkdir(working_dir)
-    return summarize_string(text)

     audio_filename = location + filename + '.mp3'
     print('[INFO] downloading video...')
     video = YouTube(video_url).streams.filter(file_extension = 'mp4').first().download(filename = video_filename)
     video = VideoFileClip(video_filename)
     print('[INFO] extracting audio from video...')
     video.audio.write_audiofile(audio_filename)
     complete_summary = ' '.join(summaries)
     with open(summary_file, 'w') as f:
         f.write(complete_summary)
+    with open(transcripts_file, 'r') as f:
+        complete_transcript = f.read()
+    return {'transcript': complete_transcript, 'summary' : complete_summary}
 ############################################################
 def summarize_file(file_location, file_extension, working_dir = "TranscriptApi/static/files"):
     # _, file_extension = os.path.splitext(file_location)
     text = ""
+    if file_extension == 'pdf':
         text = extract_text_pdf(file_location)
+    elif file_extension == 'txt':
         text = extract_text_txt(file_location)
     else:
         return "[ERROR]"
     if os.path.exists(working_dir):
         shutil.rmtree(working_dir)
     os.mkdir(working_dir)
+    return [text, summarize_string(text)]
+def answer(question: str, context : str):
+    # qa = pipeline(task = "question-answering", model = "Th3BossC/QuestionAnsweringModel", tokenizer = "Th3BossC/QuestionAnsweringModel")
+    qa = pipeline(task = "question-answering", model = "deepset/roberta-base-squad2")
+    return qa(question = question, context = context)['answer']

TranscriptApi/models.py CHANGED Viewed

@@ -6,17 +6,19 @@ class VideoSummary(db.Model):
     date = db.Column(db.DateTime(), nullable = False, default = datetime.utcnow)
     video_id = db.Column(db.String(10), unique = True, nullable = False)
     title = db.Column(db.String(100), nullable = False)
     summary = db.Column(db.Text(), nullable = False)
     def __repr__(self):
-        print(f'VideoSummary({self.id}, {self.video_id}, {self.title})')
 class FileSummary(db.Model):
     id = db.Column(db.Integer, primary_key = True)
     date = db.Column(db.DateTime(), nullable = False, default = datetime.utcnow)
     title = db.Column(db.String(100), nullable = False)
     summary = db.Column(db.Text(), nullable = False)
     def __repr__(self):
-        print(f"FileSummary({self.id}, {self.title})")

     date = db.Column(db.DateTime(), nullable = False, default = datetime.utcnow)
     video_id = db.Column(db.String(10), unique = True, nullable = False)
     title = db.Column(db.String(100), nullable = False)
+    transcript = db.Column(db.Text(), nullable = False)
     summary = db.Column(db.Text(), nullable = False)
     def __repr__(self):
+        f'VideoSummary({self.id}, {self.video_id}, {self.title})'
 class FileSummary(db.Model):
     id = db.Column(db.Integer, primary_key = True)
     date = db.Column(db.DateTime(), nullable = False, default = datetime.utcnow)
     title = db.Column(db.String(100), nullable = False)
+    transcript = db.Column(db.Text(), nullable = False)
     summary = db.Column(db.Text(), nullable = False)
     def __repr__(self):
+        f"FileSummary({self.id}, {self.title})"

TranscriptApi/resources/__pycache__/routes.cpython-310.pyc CHANGED Viewed

Binary files a/TranscriptApi/resources/__pycache__/routes.cpython-310.pyc and b/TranscriptApi/resources/__pycache__/routes.cpython-310.pyc differ

TranscriptApi/resources/routes.py CHANGED Viewed

@@ -1,62 +1,90 @@
 from flask import Blueprint, request, current_app
 from flask_restful import Api, Resource
-from TranscriptApi.common.utils import title, summarize_youtube_video, summarize_file, summarize_string
 from TranscriptApi.models import VideoSummary, FileSummary
 from TranscriptApi import db
 import os
 resources = Blueprint('resources', __name__)
 api = Api(resources)
 class VideoTranscript(Resource):
     def get(self, video_id):
         print(request)
         summaryExist = VideoSummary.query.filter_by(video_id = video_id).first()
         if summaryExist is not None:
-            return {'title' : summaryExist.title, 'summary' : summaryExist.summary}, 200
         try:
             video_title = title(video_id)
         except:
             return {'error' : 'Video ID not valid'}, 400
         try:
-            summary = summarize_youtube_video('https://www.youtube.com/watch?v=' + video_id, 'TranscriptApi/common/audio')
-            newVideo = VideoSummary(title = video_title, video_id = video_id, summary = summary)
             db.session.add(newVideo)
             db.session.commit()
-            return {'title' : video_title, 'summary' : summary}, 200
         except Exception as e:
             return 500
 api.add_resource(VideoTranscript, '/video_api/<string:video_id>')
 class FileTranscript(Resource):
     def post(self, type):
         if type == 'pdf' or type == 'txt':
             print(request.files)
             file = request.files['file']
             file_location = os.path.join(current_app.config.get('UPLOAD_FOLDER'), file.filename)
             file.save(os.path.join(current_app.config.get('UPLOAD_FOLDER'), file.filename))
-            summary = summarize_file(file_location = file_location, file_extension = type)
             file_name = file.filename
         elif type == 'direct_text':
-            summary = summarize_string(request.json['text'])
             file_name = "Entered Text"
         if summary == "[ERROR]":
             return {'error' : 'We are expreriencing some issues...'}, 500
         else:
-            newSummary = FileSummary(title = file_name, summary = summary)
             db.session.add(newSummary)
             db.session.commit()
             return {'title' : file_name, 'summary' : summary}, 200
-        print(file)
-api.add_resource(FileTranscript, '/file_api/<string:type>')

 from flask import Blueprint, request, current_app
 from flask_restful import Api, Resource
+from TranscriptApi.common.utils import title, summarize_youtube_video, summarize_file, summarize_string, answer
 from TranscriptApi.models import VideoSummary, FileSummary
 from TranscriptApi import db
 import os
+import shutil
 resources = Blueprint('resources', __name__)
 api = Api(resources)
 class VideoTranscript(Resource):
     def get(self, video_id):
         print(request)
         summaryExist = VideoSummary.query.filter_by(video_id = video_id).first()
         if summaryExist is not None:
+            return {'video_id' : video_id, 'title' : summaryExist.title, 'summary' : summaryExist.summary}, 200
         try:
             video_title = title(video_id)
         except:
             return {'error' : 'Video ID not valid'}, 400
         try:
+            output = summarize_youtube_video('https://www.youtube.com/watch?v=' + video_id, 'TranscriptApi/common/audio')
+            newVideo = VideoSummary(title = video_title, video_id = video_id, transcript = f"The title of the video is {video_title}. {output['transcript']}", summary = output['summary'])
             db.session.add(newVideo)
             db.session.commit()
+            return {'video_id' : video_id, 'title' : video_title, 'summary' : output['summary']}, 200
         except Exception as e:
             return 500
 api.add_resource(VideoTranscript, '/video_api/<string:video_id>')
 class FileTranscript(Resource):
     def post(self, type):
         if type == 'pdf' or type == 'txt':
             print(request.files)
             file = request.files['file']
             file_location = os.path.join(current_app.config.get('UPLOAD_FOLDER'), file.filename)
             file.save(os.path.join(current_app.config.get('UPLOAD_FOLDER'), file.filename))
+            transcript, summary = summarize_file(file_location = file_location, file_extension = type)
             file_name = file.filename
         elif type == 'direct_text':
+            transcript, summary = summarize_string(request.json['text'])
             file_name = "Entered Text"
         if summary == "[ERROR]":
+            if os.path.exists(current_app.config.get('UPLOAD_FOLDER')):
+                shutil.rmtree(current_app.config.get('UPLOAD_FOLDER'))
+            os.mkdir(current_app.config.get('UPLOAD_FOLDER'))
             return {'error' : 'We are expreriencing some issues...'}, 500
         else:
+            newSummary = FileSummary(title = file_name, transcript = transcript, summary = summary)
             db.session.add(newSummary)
             db.session.commit()
+            if os.path.exists(current_app.config.get('UPLOAD_FOLDER')):
+                shutil.rmtree(current_app.config.get('UPLOAD_FOLDER'))
+            os.mkdir(current_app.config.get('UPLOAD_FOLDER'))
             return {'title' : file_name, 'summary' : summary}, 200
+api.add_resource(FileTranscript, '/file_api/<string:type>')
+class VideoQuestions(Resource):
+    def post(self, video_id):
+        print(request.json)
+        videoExists = VideoSummary.query.filter_by(video_id = video_id).first()
+        if videoExists is None:
+            transcript, summary = summarize_youtube_video('https://www.youtube.com/watch?v=' + video_id, 'TranscriptApi/common/audio')
+            video_title = title(video_id)
+            newVideo = VideoSummary(title = video_title, video_id = video_id, transcript = f"The title of the video is {video_title}. {transcript}", summary = summary)
+        VideoExists = VideoSummary.query.filter_by(video_id = video_id).first()
+        data = request.json # {question : "blabla"}
+        try:
+            ans = answer(question = data["question"], context = VideoExists.transcript)
+            return {'question' : data['question'], 'answer' : ans}, 200
+        except:
+            return {'error' : 'something went wrong'}, 500
+api.add_resource(VideoQuestions, '/video_question_api/<string:video_id>')
+class FileQuestions(Resource):
+    def post(self, id):
+        transcriptData = FileSummary.query.filter_by(id = id).first()
+        print(transcriptData)
+        if transcriptData is not None:
+            ans = answer(question = request.json['question'], context = transcriptData.transcript)
+            return {'question' : request.json['question'], 'answer' : ans}, 200
+        else:
+            return {'error' : 'file not found'}, 400
+api.add_resource(FileQuestions, '/file_question_api/<int:id>')

__pycache__/app.cpython-310.pyc CHANGED Viewed

Binary files a/__pycache__/app.cpython-310.pyc and b/__pycache__/app.cpython-310.pyc differ

instance/site.db CHANGED Viewed

Binary files a/instance/site.db and b/instance/site.db differ