Spaces:

argilla
/

synthetic-data-generator

Running

davidberenstein1957 HF staff commited on Dec 23, 2024

Commit

32d8669

1 Parent(s): f5ab4cb

update examples

Files changed (5) hide show

examples/argilla_deployment.py CHANGED Viewed

@@ -4,7 +4,9 @@ import os
 from synthetic_dataset_generator import launch
 # Follow https://docs.argilla.io/latest/getting_started/quickstart/ to get your Argilla API key and URL
-os.environ["ARGILLA_API_URL"] = "https://[your-owner-name]-[your_space_name].hf.space"
-os.environ["ARGILLA_API_KEY"] = "my_api_key"
 launch()

 from synthetic_dataset_generator import launch
 # Follow https://docs.argilla.io/latest/getting_started/quickstart/ to get your Argilla API key and URL
+os.environ["ARGILLA_API_URL"] = (
+    "https://[your-owner-name]-[your_space_name].hf.space"  # argilla base url
+)
+os.environ["ARGILLA_API_KEY"] = "my_api_key"  # argilla api key
 launch()

examples/ollama_deployment.py CHANGED Viewed

@@ -6,12 +6,9 @@ import os
 from synthetic_dataset_generator import launch
 assert os.getenv("HF_TOKEN")  # push the data to huggingface
-os.environ["OLLAMA_BASE_URL"] = "http://127.0.0.1:11434/"
-os.environ["MODEL"] = "llama3.1:8b-instruct-q8_0"
-os.environ["TOKENIZER_ID"] = "meta-llama/Llama-3.1-8B-Instruct"
-os.environ["MAGPIE_PRE_QUERY_TEMPLATE"] = "llama3"
-os.environ["MAX_NUM_ROWS"] = "10000"
-os.environ["DEFAULT_BATCH_SIZE"] = "5"
-os.environ["MAX_NUM_TOKENS"] = "2048"
 launch()

 from synthetic_dataset_generator import launch
 assert os.getenv("HF_TOKEN")  # push the data to huggingface
+os.environ["OLLAMA_BASE_URL"] = "http://127.0.0.1:11434/"  # ollama base url
+os.environ["MODEL"] = "llama3.1:8b-instruct-q8_0"  # model id
+os.environ["TOKENIZER_ID"] = "meta-llama/Llama-3.1-8B-Instruct"  # tokenizer id
+os.environ["MAGPIE_PRE_QUERY_TEMPLATE"] = "llama3"  # magpie template
 launch()

examples/openai_deployment.py CHANGED Viewed

@@ -4,9 +4,9 @@ import os
 from synthetic_dataset_generator import launch
 assert os.getenv("HF_TOKEN")  # push the data to huggingface
-os.environ["OPENAI_BASE_URL"] = "https://api.openai.com/v1/"
-os.environ["API_KEY"] = os.getenv("OPENAI_API_KEY")
-os.environ["MODEL"] = "gpt-4o"
 os.environ["MAGPIE_PRE_QUERY_TEMPLATE"] = None  # chat data not supported with OpenAI
 launch()

 from synthetic_dataset_generator import launch
 assert os.getenv("HF_TOKEN")  # push the data to huggingface
+os.environ["OPENAI_BASE_URL"] = "https://api.openai.com/v1/"  # openai base url
+os.environ["API_KEY"] = os.getenv("OPENAI_API_KEY")  # openai api key
+os.environ["MODEL"] = "gpt-4o"  # model id
 os.environ["MAGPIE_PRE_QUERY_TEMPLATE"] = None  # chat data not supported with OpenAI
 launch()

examples/tgi_or_hf_dedicated.py CHANGED Viewed

@@ -4,8 +4,8 @@ import os
 from synthetic_dataset_generator import launch
 assert os.getenv("HF_TOKEN")  # push the data to huggingface
-os.environ["HUGGINGFACE_BASE_URL"] = "http://127.0.0.1:3000/"
-os.environ["MAGPIE_PRE_QUERY_TEMPLATE"] = "llama3"
 os.environ["TOKENIZER_ID"] = (
     "meta-llama/Llama-3.1-8B-Instruct"  # tokenizer for model hosted on endpoint
 )

 from synthetic_dataset_generator import launch
 assert os.getenv("HF_TOKEN")  # push the data to huggingface
+os.environ["HUGGINGFACE_BASE_URL"] = "http://127.0.0.1:3000/"  # dedicated endpoint/TGI
+os.environ["MAGPIE_PRE_QUERY_TEMPLATE"] = "llama3"  # magpie template
 os.environ["TOKENIZER_ID"] = (
     "meta-llama/Llama-3.1-8B-Instruct"  # tokenizer for model hosted on endpoint
 )

src/synthetic_dataset_generator/constants.py CHANGED Viewed

@@ -22,12 +22,10 @@ if HUGGINGFACE_BASE_URL and MODEL:
     raise ValueError(
         "`HUGGINGFACE_BASE_URL` and `MODEL` cannot be set at the same time. Use a model id for serverless inference and a base URL dedicated to Hugging Face Inference Endpoints."
     )
-if OPENAI_BASE_URL or OLLAMA_BASE_URL:
-    if not MODEL:
         raise ValueError("`MODEL` is not set. Please provide a model id for inference.")
 # Check if multiple base URLs are provided
 base_urls = [
     url for url in [OPENAI_BASE_URL, OLLAMA_BASE_URL, HUGGINGFACE_BASE_URL] if url

     raise ValueError(
         "`HUGGINGFACE_BASE_URL` and `MODEL` cannot be set at the same time. Use a model id for serverless inference and a base URL dedicated to Hugging Face Inference Endpoints."
     )
+if not MODEL:
+    if OPENAI_BASE_URL or OLLAMA_BASE_URL:
         raise ValueError("`MODEL` is not set. Please provide a model id for inference.")
 # Check if multiple base URLs are provided
 base_urls = [
     url for url in [OPENAI_BASE_URL, OLLAMA_BASE_URL, HUGGINGFACE_BASE_URL] if url