In [1]:
import pandas as pd

corpus_df = pd.read_parquet("evaluation_data/corpus.parquet", engine="pyarrow")
corpus_df.head()

Unnamed: 0,doc_id,contents,metadata
0,f0567fea-1193-4223-a826-c0016297c3a7,"240731,집행에관한이의,2023그887,2024.04.30,대법원,민사,4001...",{'last_modified_datetime': 2024-07-11 23:32:01...
1,6ac682e2-c8c1-4f61-a0e3-1c5f4f42e8e2,"240739,손해배상(기)[영국법상 채무불이행에 대한 위약금 약정이 손해배상액의 예...",{'last_modified_datetime': 2024-07-11 23:32:01...
2,fd68837f-c29a-4ed9-ac6a-30b00f06333b,"240743,구상금[도시 일용근로자의 월 가동일수가 문제된 사건],2020다2716...",{'last_modified_datetime': 2024-07-11 23:32:01...
3,5c307884-bcf3-479d-9693-70c967a8878a,"240735,벌점부과처분취소[건설기술 진흥법 제53조 제1항에서 규정한 벌점부과처분...",{'last_modified_datetime': 2024-07-11 23:32:01...
4,30cc8063-071d-4c41-918f-ded6ea67b622,"240747,손해배상(국)[문서제출명령에대한재항고][금융감독원 직원이 직무상 작성하...",{'last_modified_datetime': 2024-07-11 23:32:01...


In [2]:
prompt = """다음은 법률 판례에 관한 내용입니다.
내용을 보고 법률 관련 질문을 만드세요.
반드시 주어진 판례와 관련한 질문이어야 합니다.
만약 주어진 내용이 법률 판례와 관련되지 않았다면,
'법률 판례와 관련 없습니다.'라고 질문을 만드세요.

판례 내용:
{{text}}

생성할 질문 개수: {{num_questions}}

예시:
[Q]: 이 판례에서 다루는 주요 법적 쟁점은 무엇인가요?
[A]: 이 판례는 [구체적인 법적 쟁점]을 다루고 있습니다.

법률 판례와 관련이 없는 내용일 경우 예시:
[Q]: 법률 판례와 관련 없습니다.
[A]: 법률 판례와 관련 없습니다.

결과:
"""

In [3]:
from dotenv import load_dotenv
from llama_index.llms.upstage import Upstage

load_dotenv()

llm = Upstage(temperature=1.0, max_retries=20)

In [4]:
import nest_asyncio
from autorag.data.qacreation import generate_qa_llama_index, make_single_content_qa

nest_asyncio.apply()

qa_df = make_single_content_qa(
    corpus_df,
    content_size=100,
    qa_creation_func=generate_qa_llama_index,
    llm=llm,
    prompt=prompt,
    question_num_per_content=1,
)


0it [00:00, ?it/s]

1it [00:40, 40.12s/it]

2it [01:09, 33.60s/it]

3it [01:35, 30.15s/it]

4it [01:38, 24.52s/it]


In [5]:
# delete if the output question is '뉴진스와 관련 없습니다'
qa_df = qa_df.loc[~qa_df["query"].str.contains("법률 판례와 관련 없습니다.")]
qa_df.reset_index(drop=True, inplace=True)
qa_df.to_parquet("evaluation_data/qa.parquet")