Spaces:

xin
/

PatentSolver

Build error

App Files Files Community

xin commited on Jan 24, 2022

Commit

74555b0

1 Parent(s): df3f782

model

Browse files

Files changed (4) hide show

Word2vec/data_problem_corpus/problem_corpus_sample_cleaned.csv +3 -0
Word2vec/run.py +67 -0
Word2vec/simialrity_result/test.csv +3 -0
Word2vec/trained_word2vec.model +3 -0

Word2vec/data_problem_corpus/problem_corpus_sample_cleaned.csv ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:194deaf2b057e3eb519ffe122c6b7f79544d6b2a1de339555e410b029174b0b6
+size 234347529

Word2vec/run.py ADDED Viewed

	@@ -0,0 +1,67 @@

+#!/usr/bin/env python3
+# -*- coding: utf-8 -*-
+# @File  : test_sentence_similarity.py
+# @Author: nixin
+# @Date  : 2019-03-06
+import numpy as np
+from scipy import spatial
+from gensim.models import word2vec
+import pandas as pd
+# load the trained word vector model
+model = word2vec.Word2Vec.load('/Users/nixin/PycharmProjects/PatentSolver_demonstrator/Word2vec/trained_word2vec.model')
+index2word_set = set(model.wv.index2word)
+def avg_feature_vector(sentence, model, num_features, index2word_set):
+    words = sentence.split()
+    feature_vec = np.zeros((num_features, ), dtype='float32')
+    n_words = 0
+    for word in words:
+        if word in index2word_set:
+            n_words += 1
+            feature_vec = np.add(feature_vec, model[word])
+    if (n_words > 0):
+        feature_vec = np.divide(feature_vec, n_words)
+    return feature_vec
+#read problem file
+problem_corpus = pd.read_csv('/Users/nixin/PycharmProjects/PatentSolver_demonstrator/Word2vec/data_problem_corpus/problem_corpus_sample_cleaned.csv')
+problem_corpus = problem_corpus.head(100)
+target_problem = 'strategic cleavage of such a target rna will destroy its ability to direct synthesis of an encoded protein'
+target_domain = 'A'
+# remove the same domain's problems
+problem_corpus = problem_corpus[problem_corpus.Domain != 'A']
+# choose the time range
+problem_corpus = problem_corpus[problem_corpus['publication_year'].between(2015, 2017)]
+value=[]
+for each_problem in problem_corpus['First part Contradiction']:
+    s1_afv = avg_feature_vector(target_problem, model=model, num_features=100, index2word_set=index2word_set)
+    s2_afv = avg_feature_vector(each_problem, model=model, num_features=100, index2word_set=index2word_set)
+    sim_value = format( 1 - spatial.distance.cosine(s1_afv, s2_afv), '.2f')
+    value.append(sim_value)
+problem_corpus[['similarity_value', 'target_problem']] = value, target_problem
+print(problem_corpus)
+# set similarity threshold
+problem_corpus_final = problem_corpus[problem_corpus.similarity_value>= '0.8']
+# print(problem_corpus.columns())
+problem_corpus_final.to_csv('/Users/nixin/PycharmProjects/PatentSolver_demonstrator/Word2vec/simialrity_result/test.csv', index=False)
+print(problem_corpus_final)

Word2vec/simialrity_result/test.csv ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:f100a1f9f61956bb4e97d177bc48b581c1ab4a925215c43d1cf9f8e590070774
+size 2601

Word2vec/trained_word2vec.model ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:3546e4a57f7c76e9272566c43311dcebe354a3a968ea70b3f3a3b6d55c8f5977
+size 147031792