nlztrk commited on
Commit
6af96e2
·
1 Parent(s): dca24c8

Update README.md

Browse files
Files changed (1) hide show
  1. README.md +3 -3
README.md CHANGED
@@ -10,14 +10,14 @@ license: apache-2.0
10
 
11
  <h1>Neler yaptık? </h1>
12
  <h2>Adres Tanıma </h2>
13
- </p>Etiketli veriden NER modeli eğittik, en iyi bu çalışıyor: <a href="https://huggingface.co/deprem-ml/deprem-ner">deprem-ner</a> <br>
14
  Bu model pipeline'da openAI davinci'nin yükünü hafifletiyor.
15
  <br>
16
  Şu modelleri benchmark ettik 👇 <br>
17
  - convbert-base-turkish-ner (xlm-roberta-turkish-ner'le birebir çalışıyor)<br>
18
  - xlm_roberta_large_df <br>
19
  - xlm-roberta-turkish-ner (iyi çalışıyor ama iyisi bulunabilir, LOC döndürüyor sadece)<br>
20
- - <a href="https://huggingface.co/deprem-ml">deprem-ner</a> modelimiz en iyi ve en spesifik location tag'lerini döndürüyor.
21
  <br>
22
  Benchmark'ları şu dataset'te görebilirsiniz: <a href="https://huggingface.co/datasets/deprem-ml/butun_model_benchmarklari">deprem-ml/butun_model_benchmarklari</a> <br>
23
  Benchmark ettiğimiz notebook'u <a href="https://colab.research.google.com/drive/1NxQe-EPjF0Sckf54ZqOKkDP7HlpBkk8P?usp=sharing">burada</a> bulabilirsiniz.
@@ -29,7 +29,7 @@ Benchmark ettiğimiz notebook'u <a href="https://colab.research.google.com/drive
29
  - Candidate label'ları belirlemek için clustering modeli eğitildi, embedding'ler <a href="https://huggingface.co/deprem-ml/distilroberta-tweet-clustering-embeddings">burada</a><br>.
30
  </p>
31
  <h2>OCR</h2>
32
- <p> OCR için easyocr kullandık. Space OCR'ın çıktısını davinci'ye veriyor, sonraki adımda NER'i swap edeceğiz. Bu Space'i iki türlü kullanabilirsiniz:<br>
33
  - GUI olarak kullanıp metin içeren screenshot ya da metnin kendisini verip input'un DB'ye düşmesini sağlayabilirsiniz.<br>
34
  - (Kullanılan) Backend'inize entegre edebilirsiniz. Space'in en altında "Use via API"ya tıklayarak endpoint'ler nasıl kullanılıyor bakıp bu Space'i kendi backend'inizde kullanabilirsiniz. <br>
35
  OCR tarafında test edilen ve/-ya görüşülen diğer toolboxlar (efor kaybına yol açmaması adına) aşağıda listelenmiştir;<br>
 
10
 
11
  <h1>Neler yaptık? </h1>
12
  <h2>Adres Tanıma </h2>
13
+ </p>Etiketli veriden NER modeli eğittik, en iyi bunlar çalışıyor: <a href="https://huggingface.co/deprem-ml/deprem-ner">deprem-ner</a> ve <a href="https://huggingface.co/deprem-ml/deprem-ner-mdebertav3">deprem-ner-mdebertav3</a><br>
14
  Bu model pipeline'da openAI davinci'nin yükünü hafifletiyor.
15
  <br>
16
  Şu modelleri benchmark ettik 👇 <br>
17
  - convbert-base-turkish-ner (xlm-roberta-turkish-ner'le birebir çalışıyor)<br>
18
  - xlm_roberta_large_df <br>
19
  - xlm-roberta-turkish-ner (iyi çalışıyor ama iyisi bulunabilir, LOC döndürüyor sadece)<br>
20
+ - <a href="https://huggingface.co/deprem-ml/deprem-ner">deprem-ner</a> ve <a href="https://huggingface.co/deprem-ml/deprem-ner-mdebertav3">deprem-ner-mdebertav3</a> modellerimiz en iyi ve en spesifik location tag'lerini döndürüyor.
21
  <br>
22
  Benchmark'ları şu dataset'te görebilirsiniz: <a href="https://huggingface.co/datasets/deprem-ml/butun_model_benchmarklari">deprem-ml/butun_model_benchmarklari</a> <br>
23
  Benchmark ettiğimiz notebook'u <a href="https://colab.research.google.com/drive/1NxQe-EPjF0Sckf54ZqOKkDP7HlpBkk8P?usp=sharing">burada</a> bulabilirsiniz.
 
29
  - Candidate label'ları belirlemek için clustering modeli eğitildi, embedding'ler <a href="https://huggingface.co/deprem-ml/distilroberta-tweet-clustering-embeddings">burada</a><br>.
30
  </p>
31
  <h2>OCR</h2>
32
+ <p> OCR için <a href="https://github.com/JaidedAI/EasyOCR">EasyOCR</a> kullandık. Space OCR'ın çıktısını davinci'ye veriyor, sonraki adımda NER'i swap edeceğiz. Bu Space'i iki türlü kullanabilirsiniz:<br>
33
  - GUI olarak kullanıp metin içeren screenshot ya da metnin kendisini verip input'un DB'ye düşmesini sağlayabilirsiniz.<br>
34
  - (Kullanılan) Backend'inize entegre edebilirsiniz. Space'in en altında "Use via API"ya tıklayarak endpoint'ler nasıl kullanılıyor bakıp bu Space'i kendi backend'inizde kullanabilirsiniz. <br>
35
  OCR tarafında test edilen ve/-ya görüşülen diğer toolboxlar (efor kaybına yol açmaması adına) aşağıda listelenmiştir;<br>