In [1]:
from pathlib import Path
from retry import retry
import time, base64, requests, ffmpeg  # ffmpeg-python

token = "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"
API_URL = "https://t4vtvikeag4f1yzd.eu-west-1.aws.endpoints.huggingface.cloud"
# API_URL = "https://y7b9n0olpn47wbfr.us-east-1.aws.endpoints.huggingface.cloud"
fichier_audio = Path("/Users/ericmattmann/Desktop/110 Boulevard Auguste Blanqui 14.m4a")
headers = {"Authorization": f"Bearer {token}", "Content-Type": "application/json"}
with open(fichier_audio, "rb") as f:
    audio_data = base64.b64encode(f.read()).decode("utf-8")

In [2]:
def get_duration_ffmpeg(file_path):
    probe = ffmpeg.probe(file_path)
    stream = next((stream for stream in probe["streams"] if stream["codec_type"] == "audio"), None)
    duration = float(stream["duration"])
    return duration


g = get_duration_ffmpeg(fichier_audio)
print(
    f"La durée de l'enregistrement est : {int(g//3600):d} heures, {int((g % 3600)//60):d} minutes et {int(g%60):d} secondes."
)

La durée de l'enregistrement est : 0 heures, 10 minutes et 15 secondes.


In [3]:
@retry(tries=7, delay=60)
def query_transcription(audio_data):
    payload = {
        "inputs": audio_data,
        "parameters": {
            "language": "fr",
            "sampling_rate": 16000,
        },
        "options": {"transcription": True, "diarization": False},
    }

    response = requests.post(API_URL, headers=headers, json=payload)
    return response.json()


@retry(tries=7, delay=60)
def query_diarization(audio_data, transcription):
    payload = {
        "inputs": (audio_data, transcription),
        "parameters": {
            "language": "fr",
            "sampling_rate": 16000,
        },
        "options": {"transcription": False, "diarization": True},
    }

    response = requests.post(API_URL, headers=headers, json=payload)
    return response.json()


@retry(tries=7, delay=60)
def query_transcription_diarization(audio_data):
    payload = {
        "inputs": audio_data,
        "parameters": {
            "language": "fr",
            "sampling_rate": 16000,
        },
        "options": {"transcription": True, "alignment": True, "diarization": True},
    }

    response = requests.post(API_URL, headers=headers, json=payload)
    return response.json()

In [4]:
if g < 5_400:  # (1h30)
    print("Transcription and Diarization in the same call.")
    response = query_transcription_diarization(audio_data=audio_data)
else:
    print("Transcription first...")
    response = query_transcription(audio_data=audio_data)
    time.sleep(30)
    print("...then Diarization.")
    response = query_diarization(audio_data=audio_data, transcription=response)

Transcription and Diarization in the same call.


In [5]:
response

{'segments': [{'text': " Oui, je vais t'envoyer mes photos d'identité que j'avais fait modifier par une intelligence artificielle. Donc, la première question, c'est à quoi servent les IA ? À quoi servent les IA ? C'est une question dont la réponse change sans arrêt parce qu'il y a tout le temps des nouvelles IA. Mais il y en a aussi depuis longtemps.",
   'start': 2.858,
   'end': 29.821,
   'speaker': 'SPEAKER_01'},
  {'text': ' les IA les plus courantes servent à te proposer des publicités',
   'start': 32.21,
   'end': 43.148,
   'speaker': 'SPEAKER_01'},
  {'text': " ou des propositions de produits à acheter quand tu es par exemple sur Amazon ou bien même sur Internet. Elles ont appris des choses sur toi par d'autres fois où tu as acheté des produits ou d'autres fois où tu es allé sur Internet. Et elles se servent des choses que tu as faites par le passé, des choses que tous les gens ont faites par le passé.",
   'start': 44.872,
   'end': 69.77,
   'speaker': 'SPEAKER_01'},
  {'te

In [6]:
from itertools import groupby
from collections import deque

print("Assignation des locuteurs...")
locuteurs = {}
for sp in list(
    set(
        [
            r.get("speaker", "Non-identifié")
            for r in response["segments"]
            if r.get("speaker", "Non-identifié") != ("Non-identifié")
        ]
    )
):
    for r in [r for r in response["segments"] if r.get("speaker") == sp][:15]:
        print(f"{r['speaker']} :\t{r['text'].strip()[:100]}{'...' if len(r['text'].strip()) > 100 else ''}")
    locuteurs[sp] = input(f"Nom du locuteur {sp} : ")
# [k for k, v in groupby(ligne.split())] permet d'éliminer les mots répétés à la suite les uns des autres. https://docs.python.org/fr/3/library/itertools.html#itertools.groupby
résultat = [
    f"{locuteurs[segment['speaker']]} :\t{' '.join([k for k, v in groupby(segment['text'].strip().split())])}\n"
    for segment in response["segments"]
    if segment.get("speaker", "Non-identifié") != "Non-identifié"
]
# le code ci-après permet d'éliminer les lignes répétées à la suite les unes des autres (même locuteur, même texte)
out = list()
précédente = deque()
for line in résultat:
    if line not in précédente and not line.startswith("Non-identifié"):
        out.append(line)
        précédente.append(line)
        if len(précédente) > 2:
            précédente.popleft()

Assignation des locuteurs...
SPEAKER_01 :	Oui, je vais t'envoyer mes photos d'identité que j'avais fait modifier par une intelligence artifici...
SPEAKER_01 :	les IA les plus courantes servent à te proposer des publicités
SPEAKER_01 :	ou des propositions de produits à acheter quand tu es par exemple sur Amazon ou bien même sur Intern...
SPEAKER_01 :	pour dire, ce produit-là, si je le propose, il y a une meilleure chance que les autres qu'on l'achèt...
SPEAKER_01 :	Et elle sert aux gens qui fabriquent des programmes informatiques. C'est une IA qui a appris à écrir...
SPEAKER_01 :	quand c'est des choses qui sont simples et qu'on fait un peu comme d'habitude, elle, elle peut le pr...
SPEAKER_01 :	En ce moment, c'est des IA qui fabriquent des images ou qui permettent de parler avec elles, les cha...
SPEAKER_01 :	parce qu'elles fonctionnent avec ce qu'on appelle des réseaux de neurones, c'est des programmes dans...
SPEAKER_01 :	Il y a 60 ans, on avait déjà créé des petits réseaux de neurone

In [7]:
résultat

["Eric :\tOui, je vais t'envoyer mes photos d'identité que j'avais fait modifier par une intelligence artificielle. Donc, la première question, c'est à quoi servent les IA ? À quoi servent les IA ? C'est une question dont la réponse change sans arrêt parce qu'il y a tout le temps des nouvelles IA. Mais il y en a aussi depuis longtemps.\n",
 'Eric :\tles IA les plus courantes servent à te proposer des publicités\n',
 "Eric :\tou des propositions de produits à acheter quand tu es par exemple sur Amazon ou bien même sur Internet. Elles ont appris des choses sur toi par d'autres fois où tu as acheté des produits ou d'autres fois où tu es allé sur Internet. Et elles se servent des choses que tu as faites par le passé, des choses que tous les gens ont faites par le passé.\n",
 "Eric :\tpour dire, ce produit-là, si je le propose, il y a une meilleure chance que les autres qu'on l'achète. Une autre IA qui est moins ancienne, mais qui est beaucoup, très, très utilisée, c'est une IA qui est un p