Spaces:

brancengregory
/

demo-argilla

Runtime error

App Files Files Community

brancengregory commited on Feb 21, 2023

Commit

0ef555c

unverified ·

1 Parent(s): 8fd318d

Add scripts

Browse files

Files changed (5) hide show

.gitignore +1 -0
pyproject.toml +21 -0
scripts/main.py +8 -0
scripts/prep.py +54 -0
scripts/upload.py +36 -0

.gitignore ADDED Viewed

	@@ -0,0 +1 @@


1	+ data/*.csv

pyproject.toml ADDED Viewed

	@@ -0,0 +1,21 @@

+[tool.poetry]
+name = "demo-argilla"
+version = "0.1.0"
+description = ""
+authors = ["Brancen Gregory <[email protected]>"]
+readme = "README.md"
+packages = [{include = "demo_argilla"}]
+[tool.poetry.dependencies]
+python = "^3.10, <3.11"
+pandas = "^1.5.3"
+argilla = "^1.3.0"
+spacy = {extras = ["apple", "transformers"], version = "^3.5.0"}
+datasets = "^2.9.0"
+[tool.poetry.dependencies.en_core_web_trf]
+url = "https://github.com/explosion/spacy-models/releases/download/en_core_web_trf-3.5.0/en_core_web_trf-3.5.0.tar.gz"
+[build-system]
+requires = ["poetry-core"]
+build-backend = "poetry.core.masonry.api"

scripts/main.py ADDED Viewed

	@@ -0,0 +1,8 @@

+import argilla as rg
+rg.init(
+    api_url='https://brancengregory-demo-argilla.hf.space',
+    api_key='team.apikey'
+)
+dataset = rg.load("plaintiff_sample").prepare_for_training()

scripts/prep.py ADDED Viewed

	@@ -0,0 +1,54 @@

+import os
+import pandas
+import psycopg2
+def connect():
+    if os.getenv('NEW_OJO_HOST') == '':
+        print("No configuration for the OJO database was found. Please create one now using `ojo_auth()`.")
+        return
+    else:
+        conn = psycopg2.connect(
+            host = os.getenv('NEW_OJO_HOST'),
+            database = "ojodb",
+            user = os.getenv('NEW_OJO_DEFAULT_USER'),
+            password = os.getenv('NEW_OJO_DEFAULT_PASS'),
+            port = os.getenv('NEW_OJO_PORT'),
+            sslmode = os.getenv('NEW_OJO_SSL_MODE'),
+            sslrootcert = os.getenv('NEW_OJO_SSL_ROOT_CERT'),
+            sslcert = os.getenv('NEW_OJO_SSL_CERT'),
+            sslkey = os.getenv('NEW_OJO_SSL_KEY')
+        )
+        return conn
+# A function to get the list of plaintiffs; Takes a parameter n which is the number of plaintiffs to return;
+# If n is None, all plaintiffs are returned
+def plaintiffs(n=None):
+    conn = connect()
+    with conn:
+        if n is None:
+            sql = """select distinct(filed_by) from eviction_addresses.case c left join public.issue i on c.id = i.case_id;"""
+        else:
+            sql = """select distinct(filed_by) from eviction_addresses.case c left join public.issue i on c.id = i.case_id limit {};""".format(n)
+        data = pandas.read_sql_query(sql, conn)
+    conn.close()
+    return data
+data = plaintiffs().dropna()
+data.to_csv('data/plaintiffs.csv', index=False, header=True)
+def minutes(n=None):
+    conn = connect()
+    with conn:
+        if n is None:
+            sql = """select distinct(description) from eviction_addresses.case c left join public.minute m on c.id = m.case_id;"""
+        else:
+            sql = """select distinct(description) from eviction_addresses.case c left join public.minute m on c.id = m.case_id limit {};""".format(n)
+        data = pandas.read_sql_query(sql, conn)
+    conn.close()
+    return data
+data = minutes().dropna()
+data.to_csv('data/minutes.csv', index=False, header=True)

scripts/upload.py ADDED Viewed

	@@ -0,0 +1,36 @@

+import pandas as pd
+import argilla as rg
+import spacy
+from datasets import Dataset
+# Configuration
+rg.init(
+    api_url='https://brancengregory-demo-argilla.hf.space',
+    api_key='team.apikey'
+)
+# Plaintiffs
+data = pd.read_csv("data/labelled_plaintiffs.csv")
+data = data.rename(columns={"filed_by": "text"})
+dataset = rg.read_pandas(data, task="TextClassification")
+rg.log(dataset, "plaintiff_sample")
+# Minutes
+dataset = Dataset.from_csv("data/minutes.csv").rename_column("description", "text")
+nlp = spacy.load("en_core_web_trf")
+def tokenize(row):
+    tokens = [token.text for token in nlp(row["text"])]
+    return {"tokens": tokens}
+dataset = dataset.map(tokenize)
+dataset = rg.read_datasets(dataset, task="TokenClassification")
+rg.log(dataset, "minutes_sample")