SakuraLLM/LN-Korean-14B-v0.2.1

基于Sakura-14B-Qwen2beta-Base-v2，在韩文轻小说翻译数据上微调（包含713本日轻的韩翻和中翻对照以及14本韩轻的中翻）
模型仅支持韩文→简体中文的翻译
from transformers import AutoModelForCausalLM, AutoTokenizer
from transformers.generation import GenerationConfig

model_path = 'SakuraLLM/LN-Korean-14B-v0.2.1'
tokenizer = AutoTokenizer.from_pretrained(model_path, trust_remote_code=True)
model = AutoModelForCausalLM.from_pretrained(model_path, device_map='auto', trust_remote_code=True).eval()
model.generation_config = GenerationConfig.from_pretrained(model_path, trust_remote_code=True)

# 段落之间用\n分隔
text = '''여자애들이 자신들의 첫 경험에 대한 이야기를 하는 걸 들은 적이 있는가.
물론 여기서 첫 경험이라는 것은 처음으로 야자를 쨌다든가 처음으로 술을 마셔 봤다든가 그런 것이 아니라, 명실공히 그렇고 그런 의미에서의 첫 경험이다.
“우, 우리가…… 처음으로 그, 그걸 한 거는 말이야.”
그렇게 말한 것은 소파에 앉아 있는 갈색 교복의 소녀였다. 둥근 얼굴에 커다란 갈색 눈동자를 지닌, 부드러운 머리카락을 어깨 위로 늘어뜨리고 있는 소녀다. 전반적으로 얌전한 모범생 같아 보이는 인상이고 몸집도 아담한 편이지만, 교복 상의를 매혹적으로 부풀어 오르게 하고 있는 가슴만큼은 얌전하지도 아담하지도 않았다. 몸을 움츠린 자세 탓에 두 팔이 가슴을 양옆에서 압박하고 있어, 몸을 움직일 때마다 그 윤곽이 부드럽게 일그러졌다.'''

# 文本长度控制在1024以内
assert len(text) < 1024

messages = [
    {'role': 'user', 'content': f'翻译成中文：\n{text}'}
]

text = tokenizer.apply_chat_template(
    messages,
    tokenize=False,
    add_generation_prompt=True
)

model_inputs = tokenizer([text], return_tensors='pt').to('cuda')

generated_ids = model.generate(
    model_inputs.input_ids,
    max_new_tokens=1024
)

generated_ids = [
    output_ids[len(input_ids):] for input_ids, output_ids in zip(model_inputs.input_ids, generated_ids)
]

response = tokenizer.batch_decode(generated_ids, skip_special_tokens=True)[0]
print(response)