Spaces:

HUBioDataLab
/

ASCARIS

Running

App Files Files Community

fatmacankara commited on Dec 12, 2023

Commit

f761ce4

1 Parent(s): b31c4ca

Update code/pdb_featureVector.py

Browse files

Files changed (1) hide show

code/pdb_featureVector.py +349 -349

code/pdb_featureVector.py CHANGED Viewed

@@ -82,377 +82,377 @@ def pdb(input_set, mode, impute):
     out_path = path_to_output_files / 'log.txt'
     #sys.stdout = open(out_path, 'w')
     data = clean_data(input_set)
-    if len(data) != 0:
         data = add_uniprot_sequence(data)
         match = data[(data.wt_sequence_match == 'm')]
         org_len = len(match)
         iso = data[(data.wt_sequence_match == 'i')]
         noMatch = data[(data.wt_sequence_match != 'm') & (data.wt_sequence_match != 'i')]
-        if len(data) == 0:
-            st.write('Feature vectore generation terminated. Please enter a query.')
         else:
-            if len(noMatch) == len(data) :
-                st.write('Aminoacid at the position could not be mapped to canonical or isoform sequence. Please check the input amino acid.')
-            elif len(noMatch) > 0:
-                st.write(
-                    f'{len(noMatch)} of {len(data)} datapoints has not been mapped to any sequence. These datapoints are omitted.')
-            if len(iso) > 0:
-                st.write(f'{len(iso)} of {len(data)} datapoints has been mapped to isoform sequences. These datapoints are omitted.')
-            if len(match) == 0:
-                st.write('Feature generation terminated due to failed mapping of input amino acid to UniProt sequence.')
-            else:
-                st.write(f'{len(match)} of {len(data)} datapoints has been mapped to canonical sequences. Proceeding with these datapoins.')
-                if (len(iso) != 0) | (len(noMatch) != 0):
-                    st.write('Omitted datapoints are:', noMatch.datapoint.to_list() + iso.datapoint.to_list())
-                st.write('\n')
-                st.write('Check log file for updates.')
-                data = match[['uniprotID', 'wt', 'pos', 'mut', 'datapoint']]
-                print('>> Feature vector generation started...\n')
-                print('\n>> Creating directories...')
-                print('\n>> Adding physicochemical properties...\n')
-                data = add_physicochemical(data)
-                print('\n>> Adding domains\n')
-                data = add_domains(data, path_to_domains)
-                print('\n>> Adding sequence annotations...\n')
-                data = add_annotations(data)
-                print('\n>> Retrieving PDB structure information...\n')
-                pdb_info = addPDBinfo(data, path_to_output_files)
-                if len(pdb_info) != 0:
-                    data = pd.merge(data, pdb_info, on='uniprotID', how='left')
-                    # Spare datapoint if there is no associated PDB.
-                    no_pdb = data[data.pdbID.isna()].drop_duplicates()
-                    pdb = data[~data.pdbID.isna()].drop_duplicates()
-                    # Spare datapoint if associated PDB does not cover mutated area.
-                    pdb.pos = pdb.pos.apply(lambda x:int(x))
-                    pdb.start = pdb.start.apply(lambda x: int(x))
-                    pdb.end = pdb.end.apply(lambda x: int(x))
-                    no_pdb_add = pdb[~((pdb.pos > pdb.start) & (pdb.pos < pdb.end))]
-                    pdb = pdb[(pdb.pos > pdb.start) & (pdb.pos < pdb.end)] # do not change order
-                    pdb.reset_index(drop=True, inplace=True)
-                    # Delete spared datapoint from no_pdb list if it has any other PDB that spans the mutated area.
-                    no_pdb_add = no_pdb_add[~no_pdb_add.datapoint.isin(pdb.datapoint.to_list())]
-                    # Final collection of datapoints without PDB associaton.
-                    no_pdb = pd.concat([no_pdb, no_pdb_add])
-                    no_pdb = no_pdb[SIMPLE_COLS]
-                    no_pdb = no_pdb.drop_duplicates()
-                    pdb = pdb.sort_values(['uniprotID', 'resolution'], axis=0, ascending=True)
                     pdb.reset_index(drop=True, inplace=True)
-                    pdb.fillna(np.NaN, inplace=True)
-                    # Get position mapping from added structures
-                    print('\n>> Adding structure residue positions...\n')
-                    if len(pdb) > 0: # there are mapped structures, and some of them span the mutated area.
-                        pdb.replace({'[]': np.NaN, 'nan-nan': np.NaN, '': np.NaN}, inplace=True)
-                        pdb = pdbMapping(pdb, Path(path_to_output_files / 'pdb_structures'))
                         pdb.reset_index(drop=True, inplace=True)
-                        pdb = pdb.fillna(np.NaN)
-                        no_pdb_add_ = pdb[pdb.AAonPDB.isna()]
-                        no_pdb_add = pdb[pdb.MATCHDICT.isna()]
-                        no_pdb = pd.concat([no_pdb_add_, no_pdb, no_pdb_add])
-                        no_pdb.reset_index(inplace=True, drop=True)
-                        pdb = pdb[~(pdb.MATCHDICT.isna())]
-                        pdb = pdb[~(pdb.AAonPDB.isna())]
-                        if len(pdb) > 0:
-                            print('\n>> Mapping to PDB residues...\n')
-                            pdb = changeUPtoPDB(pdb)
-                            pdb.reset_index(drop=True, inplace=True)
-                            print('\n>> Calculating 3D distances for PDB structures...\n')
-                            pdb = isZeroDistance(pdb)
-                            pdb = processFile(pdb, path_to_output_files)
-                            pdb = match3D(pdb)
-                            pdb = selectMaxAnnot(pdb)
-                            pdb = pdb.sort_values(by=['datapoint', 'resolution', 'annotTotal'], ascending=[True, True, True])
-                            pdb = pdb.drop_duplicates(['datapoint'])
-                            pdb.replace({'[]': np.NaN, 'hit':0.0}, inplace=True)
-                            print('\n>> PDB matching is completed...\n')
-                        else:
-                            # There was no residue match in the associated PDB. So we cannot use PDB data.
-                            pdb = pdb[SIMPLE_COLS]
-                            print('\n>>> No PDB structure could be matched.')
                     else:
                         pdb = pdb[SIMPLE_COLS]
                         print('\n>>> No PDB structure could be matched.')
                 else:
-                    pdb = pd.DataFrame(columns = SIMPLE_COLS)
                     print('\n>>> No PDB structure could be matched.')
-                    no_pdb = data.copy()
-                no_pdb = no_pdb[SIMPLE_COLS]
-                print(
-                    'PDB phase is finished...\nPDB structures are found for %d of %d.\n%d of %d failed to match with PDB structure.\n'
-                    % (len(pdb.drop_duplicates(['datapoint'])), len(data.drop_duplicates(['datapoint'])),
-                       len(no_pdb.drop_duplicates(['datapoint'])), len(data.drop_duplicates(['datapoint']))))
-                print('\n>>> Proceeding to  SwissModel search...')
-                print('------------------------------------\n')
-                swiss = no_pdb.copy()
                 if len(swiss) > 0:
-                    print('\n>> Adding SwissModel residue positions...\n')
-                    swiss.replace({'[]': np.NaN, 'nan-nan': np.NaN, '': np.NaN}, inplace=True)
-                    swiss = swiss.fillna(np.NaN)
-                    swiss, no_swiss_models= addSwissModels(swiss, path_to_input_files, path_to_output_files)
-                    print('\n>> Mapping to SwissModels...\n')
-                    if len(swiss) > 0:
-                        swiss.reset_index(drop=True, inplace=True)
-                        swiss = changeUPtoModels(swiss)
-                        swiss.reset_index(drop=True, inplace=True)
-                        print('\n>> Calculating 3D distances for SwissModels...\n')
-                        swiss = isZeroDistance(swiss)
-                        swiss = match3DModels(swiss)
-                        swiss = selectMaxAnnot(swiss)
-                        swiss = swiss.sort_values(by=['datapoint', 'qmean_norm', 'distance', 'hitTotal', 'annotTotal'], ascending=[True, False, True, False, True])
-                        swiss = swiss.drop_duplicates(['datapoint'])
-                        swiss.replace({'[]': np.NaN, 'hit': 0.0}, inplace=True)
-                    else:
-                        swiss = swiss[SIMPLE_COLS]
-                    if len(no_swiss_models) > 0:
-                        no_swiss_models = no_swiss_models[SIMPLE_COLS]
-                        no_swiss_models.reset_index(inplace=True, drop=True)
                 else:
                     swiss = swiss[SIMPLE_COLS]
-                    no_swiss_models = no_pdb.copy()
-                if len(no_swiss_models) >0:
-                    modbase = no_swiss_models.copy()
-                    print('Proceeding to  Modbase search...')
-                    print('------------------------------------\n')
-                    modbase = modbase[SIMPLE_COLS]
-                    modbase.replace({'[]': np.NaN, 'nan-nan': np.NaN, '': np.NaN}, inplace=True)
-                    modbase = modbase.fillna(np.NaN)
-                    print('\n>> Adding Modbase residue positions...\n')
-                    modbase_simple = modbase[['uniprotID', 'wt', 'pos', 'mut','datapoint']]
-                    modbase_simple = modbase_simple.drop_duplicates(['uniprotID', 'wt', 'pos' ,'mut','datapoint'])
-                    modbaseOut, no_modbase_models_updated = addModbaseModels(modbase_simple, path_to_input_files, path_to_output_files)
-                    if len(modbaseOut) > 0:
-                        modbase = modbase.merge(modbaseOut, on = ['uniprotID', 'wt', 'pos', 'mut','datapoint'], how = 'left')
-                        no_modbase_models_updated['sasa'] = np.NaN
-                        modbase.reset_index(inplace=True, drop=True)
-                        no_modbase_add = modbase[pd.isna(modbase.coordinates)]
-                        modbase = modbase[~pd.isna(modbase.coordinates)]
-                        no_modbase_models_updated = pd.concat([no_modbase_models_updated, no_modbase_add])
-                        print('\n>> Mapping to Modbase models...\n')
-                        modbase = changeUPtoModels(modbase)
-                        print('\n>> Calculating 3D distances for Modbase models...\n')
-                        modbase = isZeroDistance(modbase)
-                        modbase = match3DModels(modbase)
-                        modbase = selectMaxAnnot(modbase)
-                        modbase = modbase.sort_values(by=['datapoint', 'quality_score', 'distance','hitTotal', 'annotTotal'], ascending=[True, False, True, False, True])
-                        modbase = modbase.drop_duplicates(['datapoint'])
-                        modbase.replace({'[]': np.NaN, 'hit': 0.0}, inplace=True)
                     else:
-                        modbase = pd.DataFrame(columns = SIMPLE_COLS)
-                else:
-                    no_modbase_models_updated = pd.DataFrame(columns = SIMPLE_COLS)
-                    modbase= pd.DataFrame(columns = SIMPLE_COLS)
-                COLS = ['uniprotID', 'wt', 'pos', 'mut', 'datapoint', 'composition', 'polarity', 'volume', 'granthamScore', 'domain', 'domStart', 'domEnd', 'distance',
-                        'region', 'crosslink', 'peptide', 'disulfide', 'signalPeptide', 'propeptide', 'naturalVariant', 'nucleotideBinding', 'modifiedResidue', 'site',
-                        'caBinding', 'turn', 'transmembrane', 'repeat', 'glycosylation', 'intramembrane', 'metalBinding', 'bindingSite', 'dnaBinding', 'activeSite',
-                        'coiledCoil', 'helix', 'mutagenesis', 'zincFinger', 'transitPeptide', 'intMet', 'strand', 'lipidation', 'motif', 'topologicalDomain',
-                        'disulfideBinary', 'intMetBinary', 'intramembraneBinary', 'naturalVariantBinary', 'dnaBindingBinary', 'activeSiteBinary', 'nucleotideBindingBinary',
-                        'lipidationBinary', 'siteBinary', 'transmembraneBinary', 'crosslinkBinary', 'mutagenesisBinary', 'strandBinary', 'helixBinary', 'turnBinary', 'metalBindingBinary',
-                        'repeatBinary', 'topologicalDomainBinary', 'caBindingBinary', 'bindingSiteBinary', 'regionBinary', 'signalPeptideBinary', 'modifiedResidueBinary', 'zincFingerBinary',
-                        'motifBinary', 'coiledCoilBinary', 'peptideBinary', 'transitPeptideBinary', 'glycosylationBinary', 'propeptideBinary', 'sasa']
-                if len(no_modbase_models_updated) == 0:
-                    no_modbase_models_updated = pd.DataFrame(columns = SIMPLE_COLS)
-                no_modbase_models_updated = no_modbase_models_updated[~no_modbase_models_updated.datapoint.isin(modbase.datapoint.to_list())]
-                no_modbase_models_updated = no_modbase_models_updated[['uniprotID', 'wt', 'pos', 'mut', 'datapoint']]
-                no_modbase_models_updated.pos = no_modbase_models_updated.pos.astype(int)
-                no_modbase_models_updated = no_modbase_models_updated.drop_duplicates()
-                if len(pdb)>0:
-                    pdb = pdb[COLS]
-                    pdb['Source'] = 'PDB'
-                else:
-                    pdb = pd.DataFrame()
-                if len(swiss) > 0:
-                    swiss = swiss[COLS]
-                    swiss['Source'] = 'SWISS-Model'
-                else:
-                    swiss = pd.DataFrame()
-                if len(modbase) > 0:
-                    modbase = modbase[COLS]
-                    modbase['Source'] = 'Modbase'
-                else:
-                    modbase = pd.DataFrame()
-                # st.write('======PDB==========')
-                # st.write(pdb.to_string())
-                # st.write('======SWISS==========')
-                # st.write(swiss.to_string())
-                # st.write('======MODBASE==========')
-                # st.write(modbase.to_string())
-                allData = pd.concat([pdb, swiss, modbase])
-                allData.reset_index(inplace=True, drop=True)
-                allData.replace({np.NaN: ''}, inplace=True)
-                # st.write('======ALL DATA==========')
-                # st.write(allData.to_string())
-                if len(allData)>0:
-                    allData.distance.replace({-1000: ''}, inplace=True)
-                    # Get interface positions from ECLAIR. Download HQ human
-                    print()
-                    print('Assigning surface regions...')
-                    print('------------------------------------\n')
-                    print('Extracting interface residues...\n')
-                    data_interface = pd.read_csv(path_to_interfaces, sep='\t')
-                    positions = get_interface_positions(data_interface, 'P1', 'P2')
-                    interface_dataframe = pd.DataFrame()
-                    for key, val in positions.items():
-                        k = pd.Series((key, str(list(set(val)))))
-                        interface_dataframe = interface_dataframe.append(k, ignore_index=True)
-                    interface_dataframe.columns = ['uniprotID', 'positions']
-                    final_data = finalTouch(allData)
-                    final_data = final_data.merge(interface_dataframe, on='uniprotID', how='left')
-                    final_data.positions = final_data.positions.astype('str')
-                    for i in final_data.index:
-                        if (str(final_data.at[i, 'pos']) in final_data.at[i, 'positions']) and final_data.at[i, 'trsh4'] == 'surface':
-                            final_data.at[i, 'threeState_trsh4_HQ'] = 'interface'
-                        elif (str(final_data.at[i, 'pos']) not in final_data.at[i, 'positions']) and final_data.at[i, 'trsh4'] == 'surface':
-                            final_data.at[i, 'threeState_trsh4_HQ'] = 'surface'
-                        elif (str(final_data.at[i, 'pos']) not in final_data.at[i, 'positions']) and final_data.at[i, 'trsh4'] == 'core':
-                            final_data.at[i, 'threeState_trsh4_HQ'] = 'core'
-                        elif (str(final_data.at[i, 'pos']) in final_data.at[i, 'positions']) and final_data.at[i, 'trsh4'] == 'core':
-                            final_data.at[i, 'threeState_trsh4_HQ'] = 'conflict'
-                        elif final_data.at[i, 'trsh4'] == 'nan':
-                            final_data.at[i, 'threeState_trsh4_HQ'] = 'nan'
-                    final_data.drop(['positions'], axis=1, inplace=True)
-                    fisherResult = pd.read_csv(fisher_path, sep='\t')
-                    significant_domains = fisherResult.domain.to_list()
-                    for i in final_data.index:
-                        if final_data.at[i, 'domain'] in significant_domains:
-                            final_data.at[i, 'domain_fisher'] = final_data.at[i, 'domain']
-                        else:
-                            final_data.at[i, 'domain_fisher'] = 'NULL'
-                    print('Final adjustments are being done...\n')
-                    binaryCols = UNIPROT_ANNOTATION_COLS[-30:]
-                    final_data = final_data.astype(str)
-                    final_data.replace({'NaN': 'nan'}, inplace=True)
-                    for i in final_data.index:
-                        for j in binaryCols:
-                            final_data[j] = final_data[j].astype('str')
-                            if (final_data.at[i, j] == '0') or (final_data.at[i, j] == '0.0'):
-                                final_data.at[i, j] = '1'
-                            elif final_data.at[i, j] == 'nan':
-                                final_data.at[i, j] = '0'
-                            elif (final_data.at[i, j] == '1') or (final_data.at[i, j] == '1.0'):
-                                final_data.at[i, j] = '2'
-                    annotCols = UNIPROT_ANNOTATION_COLS[:30]
-                    for i in final_data.index:
-                        for annot in annotCols:
-                            binaryName = str(annot) + 'Binary'
-                            if final_data.at[i, binaryName] == '2':
-                                final_data.at[i, annot] = '0.0'
-                    final_data.rename(
-                        columns={'uniprotID': 'prot_uniprotAcc', 'wt': 'wt_residue', 'pos': 'position', 'mut': 'mut_residue',
-                                 'datapoint': 'meta_merged', 'datapoint_disease': 'meta-lab_merged', 'label': 'source_db',
-                                 'family': 'prot_family', 'domain': 'domains_all', 'domain_fisher': 'domains_sig',
-                                 'distance': 'domains_3Ddist', 'threeState_trsh4_HQ': 'location_3state',
-                                 'disulfideBinary': 'disulfide_bin', 'intMetBinary': 'intMet_bin',
-                                 'intramembraneBinary': 'intramembrane_bin',
-                                 'naturalVariantBinary': 'naturalVariant_bin', 'dnaBindingBinary': 'dnaBinding_bin',
-                                 'activeSiteBinary': 'activeSite_bin',
-                                 'nucleotideBindingBinary': 'nucleotideBinding_bin', 'lipidationBinary': 'lipidation_bin',
-                                 'siteBinary': 'site_bin',
-                                 'transmembraneBinary': 'transmembrane_bin', 'crosslinkBinary': 'crosslink_bin',
-                                 'mutagenesisBinary': 'mutagenesis_bin',
-                                 'strandBinary': 'strand_bin', 'helixBinary': 'helix_bin', 'turnBinary': 'turn_bin',
-                                 'metalBindingBinary': 'metalBinding_bin',
-                                 'repeatBinary': 'repeat_bin', 'topologicalDomainBinary': 'topologicalDomain_bin',
-                                 'caBindingBinary': 'caBinding_bin',
-                                 'bindingSiteBinary': 'bindingSite_bin', 'regionBinary': 'region_bin',
-                                 'signalPeptideBinary': 'signalPeptide_bin',
-                                 'modifiedResidueBinary': 'modifiedResidue_bin', 'zincFingerBinary': 'zincFinger_bin',
-                                 'motifBinary': 'motif_bin',
-                                 'coiledCoilBinary': 'coiledCoil_bin', 'peptideBinary': 'peptide_bin',
-                                 'transitPeptideBinary': 'transitPeptide_bin',
-                                 'glycosylationBinary': 'glycosylation_bin', 'propeptideBinary': 'propeptide_bin',
-                                 'disulfide': 'disulfide_dist', 'intMet': 'intMet_dist',
-                                 'intramembrane': 'intramembrane_dist', 'naturalVariant': 'naturalVariant_dist',
-                                 'dnaBinding': 'dnaBinding_dist', 'activeSite': 'activeSite_dist',
-                                 'nucleotideBinding': 'nucleotideBinding_dist', 'lipidation': 'lipidation_dist',
-                                 'site': 'site_dist',
-                                 'transmembrane': 'transmembrane_dist', 'crosslink': 'crosslink_dist',
-                                 'mutagenesis': 'mutagenesis_dist', 'strand': 'strand_dist', 'helix': 'helix_dist',
-                                 'turn': 'turn_dist',
-                                 'metalBinding': 'metalBinding_dist', 'repeat': 'repeat_dist',
-                                 'topologicalDomain': 'topologicalDomain_dist', 'caBinding': 'caBinding_dist',
-                                 'bindingSite': 'bindingSite_dist', 'region': 'region_dist',
-                                 'signalPeptide': 'signalPeptide_dist', 'modifiedResidue': 'modifiedResidue_dist',
-                                 'zincFinger': 'zincFinger_dist', 'motif': 'motif_dist', 'coiledCoil': 'coiledCoil_dist',
-                                 'peptide': 'peptide_dist', 'transitPeptide': 'transitPeptide_dist',
-                                 'glycosylation': 'glycosylation_dist', 'propeptide': 'propeptide_dist'}, inplace=True)
-                    final_data = final_data[
-                        ['prot_uniprotAcc', 'wt_residue', 'mut_residue', 'position','Source', 'meta_merged', 'composition', 'polarity',
-                         'volume',
-                         'granthamScore', 'domains_all',
-                         'domains_sig', 'domains_3Ddist', 'sasa', 'location_3state', 'disulfide_bin', 'intMet_bin',
-                         'intramembrane_bin', 'naturalVariant_bin', 'dnaBinding_bin',
-                         'activeSite_bin', 'nucleotideBinding_bin', 'lipidation_bin', 'site_bin',
-                         'transmembrane_bin', 'crosslink_bin', 'mutagenesis_bin', 'strand_bin',
-                         'helix_bin', 'turn_bin', 'metalBinding_bin', 'repeat_bin',
-                         'caBinding_bin', 'topologicalDomain_bin', 'bindingSite_bin',
-                         'region_bin', 'signalPeptide_bin', 'modifiedResidue_bin',
-                         'zincFinger_bin', 'motif_bin', 'coiledCoil_bin', 'peptide_bin',
-                         'transitPeptide_bin', 'glycosylation_bin', 'propeptide_bin', 'disulfide_dist', 'intMet_dist',
-                         'intramembrane_dist',
-                         'naturalVariant_dist', 'dnaBinding_dist', 'activeSite_dist',
-                         'nucleotideBinding_dist', 'lipidation_dist', 'site_dist',
-                         'transmembrane_dist', 'crosslink_dist', 'mutagenesis_dist',
-                         'strand_dist', 'helix_dist', 'turn_dist', 'metalBinding_dist',
-                         'repeat_dist', 'caBinding_dist', 'topologicalDomain_dist',
-                         'bindingSite_dist', 'region_dist', 'signalPeptide_dist',
-                         'modifiedResidue_dist', 'zincFinger_dist', 'motif_dist',
-                         'coiledCoil_dist', 'peptide_dist', 'transitPeptide_dist',
-                         'glycosylation_dist', 'propeptide_dist']]
-                    # Imputation
-                    if (impute == 'True') or (impute == 'true') or (impute == True):
-                        filler = [17.84, 30.8, 24.96, 13.12, 23.62, 18.97, 20.87, 29.59, 20.7, 12.7, 22.85, 17.21, 9.8, 9, 15.99,
-                                  16.82,
-                                  20.46, 24.58, 9.99, 17.43, 20.08, 30.91, 20.86, 22.14, 21.91, 28.45, 17.81, 25.12, 20.33, 22.36]
-                        col_index = 0
-                        for col_ in final_data.columns[-30:]:
-                            final_data[col_] = final_data[col_].fillna(filler[col_index])
-                            final_data[col_] = final_data[col_].replace({'nan': filler[col_index]})
-                            col_index += 1
-                        final_data['domains_3Ddist'] = final_data['domains_3Ddist'].fillna(24.5)
-                        final_data['sasa'] = final_data['sasa'].fillna(29.5)
-                        final_data['location_3state'] = final_data['location_3state'].fillna('unknown')
-                    elif (impute == 'False') or (impute == 'false'):
-                        pass
-                    final_data = final_data.replace({'nan': np.NaN})
-                    final_data.domains_all = final_data.domains_all.replace({-1: 'NULL'})
                     # ready.to_csv(path_to_output_files / 'featurevector_pdb.txt', sep='\t', index=False)
                     if len(final_data) == 0:
                         print(

     out_path = path_to_output_files / 'log.txt'
     #sys.stdout = open(out_path, 'w')
     data = clean_data(input_set)
+    if len(data) == 0:
+        st.write('Feature vectore generation terminated. Please enter a query or check your input format.')
+    else:
         data = add_uniprot_sequence(data)
         match = data[(data.wt_sequence_match == 'm')]
         org_len = len(match)
         iso = data[(data.wt_sequence_match == 'i')]
         noMatch = data[(data.wt_sequence_match != 'm') & (data.wt_sequence_match != 'i')]
+        if len(noMatch) == len(data) :
+            st.write('Aminoacid at the position could not be mapped to canonical or isoform sequence. Please check the input amino acid.')
+        elif len(noMatch) > 0:
+            st.write(
+                f'{len(noMatch)} of {len(data)} datapoints has not been mapped to any sequence. These datapoints are omitted.')
+        if len(iso) > 0:
+            st.write(f'{len(iso)} of {len(data)} datapoints has been mapped to isoform sequences. These datapoints are omitted.')
+        if len(match) == 0:
+            st.write('Feature generation terminated due to failed mapping of input amino acid to UniProt sequence.')
         else:
+            st.write(f'{len(match)} of {len(data)} datapoints has been mapped to canonical sequences. Proceeding with these datapoins.')
+            if (len(iso) != 0) | (len(noMatch) != 0):
+                st.write('Omitted datapoints are:', noMatch.datapoint.to_list() + iso.datapoint.to_list())
+            st.write('\n')
+            st.write('Check log file for updates.')
+            data = match[['uniprotID', 'wt', 'pos', 'mut', 'datapoint']]
+            print('>> Feature vector generation started...\n')
+            print('\n>> Creating directories...')
+            print('\n>> Adding physicochemical properties...\n')
+            data = add_physicochemical(data)
+            print('\n>> Adding domains\n')
+            data = add_domains(data, path_to_domains)
+            print('\n>> Adding sequence annotations...\n')
+            data = add_annotations(data)
+            print('\n>> Retrieving PDB structure information...\n')
+            pdb_info = addPDBinfo(data, path_to_output_files)
+            if len(pdb_info) != 0:
+                data = pd.merge(data, pdb_info, on='uniprotID', how='left')
+                # Spare datapoint if there is no associated PDB.
+                no_pdb = data[data.pdbID.isna()].drop_duplicates()
+                pdb = data[~data.pdbID.isna()].drop_duplicates()
+                # Spare datapoint if associated PDB does not cover mutated area.
+                pdb.pos = pdb.pos.apply(lambda x:int(x))
+                pdb.start = pdb.start.apply(lambda x: int(x))
+                pdb.end = pdb.end.apply(lambda x: int(x))
+                no_pdb_add = pdb[~((pdb.pos > pdb.start) & (pdb.pos < pdb.end))]
+                pdb = pdb[(pdb.pos > pdb.start) & (pdb.pos < pdb.end)] # do not change order
+                pdb.reset_index(drop=True, inplace=True)
+                # Delete spared datapoint from no_pdb list if it has any other PDB that spans the mutated area.
+                no_pdb_add = no_pdb_add[~no_pdb_add.datapoint.isin(pdb.datapoint.to_list())]
+                # Final collection of datapoints without PDB associaton.
+                no_pdb = pd.concat([no_pdb, no_pdb_add])
+                no_pdb = no_pdb[SIMPLE_COLS]
+                no_pdb = no_pdb.drop_duplicates()
+                pdb = pdb.sort_values(['uniprotID', 'resolution'], axis=0, ascending=True)
+                pdb.reset_index(drop=True, inplace=True)
+                pdb.fillna(np.NaN, inplace=True)
+                # Get position mapping from added structures
+                print('\n>> Adding structure residue positions...\n')
+                if len(pdb) > 0: # there are mapped structures, and some of them span the mutated area.
+                    pdb.replace({'[]': np.NaN, 'nan-nan': np.NaN, '': np.NaN}, inplace=True)
+                    pdb = pdbMapping(pdb, Path(path_to_output_files / 'pdb_structures'))
                     pdb.reset_index(drop=True, inplace=True)
+                    pdb = pdb.fillna(np.NaN)
+                    no_pdb_add_ = pdb[pdb.AAonPDB.isna()]
+                    no_pdb_add = pdb[pdb.MATCHDICT.isna()]
+                    no_pdb = pd.concat([no_pdb_add_, no_pdb, no_pdb_add])
+                    no_pdb.reset_index(inplace=True, drop=True)
+                    pdb = pdb[~(pdb.MATCHDICT.isna())]
+                    pdb = pdb[~(pdb.AAonPDB.isna())]
+                    if len(pdb) > 0:
+                        print('\n>> Mapping to PDB residues...\n')
+                        pdb = changeUPtoPDB(pdb)
                         pdb.reset_index(drop=True, inplace=True)
+                        print('\n>> Calculating 3D distances for PDB structures...\n')
+                        pdb = isZeroDistance(pdb)
+                        pdb = processFile(pdb, path_to_output_files)
+                        pdb = match3D(pdb)
+                        pdb = selectMaxAnnot(pdb)
+                        pdb = pdb.sort_values(by=['datapoint', 'resolution', 'annotTotal'], ascending=[True, True, True])
+                        pdb = pdb.drop_duplicates(['datapoint'])
+                        pdb.replace({'[]': np.NaN, 'hit':0.0}, inplace=True)
+                        print('\n>> PDB matching is completed...\n')
                     else:
+                        # There was no residue match in the associated PDB. So we cannot use PDB data.
                         pdb = pdb[SIMPLE_COLS]
                         print('\n>>> No PDB structure could be matched.')
                 else:
+                    pdb = pdb[SIMPLE_COLS]
                     print('\n>>> No PDB structure could be matched.')
+            else:
+                pdb = pd.DataFrame(columns = SIMPLE_COLS)
+                print('\n>>> No PDB structure could be matched.')
+                no_pdb = data.copy()
+            no_pdb = no_pdb[SIMPLE_COLS]
+            print(
+                'PDB phase is finished...\nPDB structures are found for %d of %d.\n%d of %d failed to match with PDB structure.\n'
+                % (len(pdb.drop_duplicates(['datapoint'])), len(data.drop_duplicates(['datapoint'])),
+                   len(no_pdb.drop_duplicates(['datapoint'])), len(data.drop_duplicates(['datapoint']))))
+            print('\n>>> Proceeding to  SwissModel search...')
+            print('------------------------------------\n')
+            swiss = no_pdb.copy()
+            if len(swiss) > 0:
+                print('\n>> Adding SwissModel residue positions...\n')
+                swiss.replace({'[]': np.NaN, 'nan-nan': np.NaN, '': np.NaN}, inplace=True)
+                swiss = swiss.fillna(np.NaN)
+                swiss, no_swiss_models= addSwissModels(swiss, path_to_input_files, path_to_output_files)
+                print('\n>> Mapping to SwissModels...\n')
                 if len(swiss) > 0:
+                    swiss.reset_index(drop=True, inplace=True)
+                    swiss = changeUPtoModels(swiss)
+                    swiss.reset_index(drop=True, inplace=True)
+                    print('\n>> Calculating 3D distances for SwissModels...\n')
+                    swiss = isZeroDistance(swiss)
+                    swiss = match3DModels(swiss)
+                    swiss = selectMaxAnnot(swiss)
+                    swiss = swiss.sort_values(by=['datapoint', 'qmean_norm', 'distance', 'hitTotal', 'annotTotal'], ascending=[True, False, True, False, True])
+                    swiss = swiss.drop_duplicates(['datapoint'])
+                    swiss.replace({'[]': np.NaN, 'hit': 0.0}, inplace=True)
                 else:
                     swiss = swiss[SIMPLE_COLS]
+                if len(no_swiss_models) > 0:
+                    no_swiss_models = no_swiss_models[SIMPLE_COLS]
+                    no_swiss_models.reset_index(inplace=True, drop=True)
+            else:
+                swiss = swiss[SIMPLE_COLS]
+                no_swiss_models = no_pdb.copy()
+            if len(no_swiss_models) >0:
+                modbase = no_swiss_models.copy()
+                print('Proceeding to  Modbase search...')
+                print('------------------------------------\n')
+                modbase = modbase[SIMPLE_COLS]
+                modbase.replace({'[]': np.NaN, 'nan-nan': np.NaN, '': np.NaN}, inplace=True)
+                modbase = modbase.fillna(np.NaN)
+                print('\n>> Adding Modbase residue positions...\n')
+                modbase_simple = modbase[['uniprotID', 'wt', 'pos', 'mut','datapoint']]
+                modbase_simple = modbase_simple.drop_duplicates(['uniprotID', 'wt', 'pos' ,'mut','datapoint'])
+                modbaseOut, no_modbase_models_updated = addModbaseModels(modbase_simple, path_to_input_files, path_to_output_files)
+                if len(modbaseOut) > 0:
+                    modbase = modbase.merge(modbaseOut, on = ['uniprotID', 'wt', 'pos', 'mut','datapoint'], how = 'left')
+                    no_modbase_models_updated['sasa'] = np.NaN
+                    modbase.reset_index(inplace=True, drop=True)
+                    no_modbase_add = modbase[pd.isna(modbase.coordinates)]
+                    modbase = modbase[~pd.isna(modbase.coordinates)]
+                    no_modbase_models_updated = pd.concat([no_modbase_models_updated, no_modbase_add])
+                    print('\n>> Mapping to Modbase models...\n')
+                    modbase = changeUPtoModels(modbase)
+                    print('\n>> Calculating 3D distances for Modbase models...\n')
+                    modbase = isZeroDistance(modbase)
+                    modbase = match3DModels(modbase)
+                    modbase = selectMaxAnnot(modbase)
+                    modbase = modbase.sort_values(by=['datapoint', 'quality_score', 'distance','hitTotal', 'annotTotal'], ascending=[True, False, True, False, True])
+                    modbase = modbase.drop_duplicates(['datapoint'])
+                    modbase.replace({'[]': np.NaN, 'hit': 0.0}, inplace=True)
+                else:
+                    modbase = pd.DataFrame(columns = SIMPLE_COLS)
+            else:
+                no_modbase_models_updated = pd.DataFrame(columns = SIMPLE_COLS)
+                modbase= pd.DataFrame(columns = SIMPLE_COLS)
+            COLS = ['uniprotID', 'wt', 'pos', 'mut', 'datapoint', 'composition', 'polarity', 'volume', 'granthamScore', 'domain', 'domStart', 'domEnd', 'distance',
+                    'region', 'crosslink', 'peptide', 'disulfide', 'signalPeptide', 'propeptide', 'naturalVariant', 'nucleotideBinding', 'modifiedResidue', 'site',
+                    'caBinding', 'turn', 'transmembrane', 'repeat', 'glycosylation', 'intramembrane', 'metalBinding', 'bindingSite', 'dnaBinding', 'activeSite',
+                    'coiledCoil', 'helix', 'mutagenesis', 'zincFinger', 'transitPeptide', 'intMet', 'strand', 'lipidation', 'motif', 'topologicalDomain',
+                    'disulfideBinary', 'intMetBinary', 'intramembraneBinary', 'naturalVariantBinary', 'dnaBindingBinary', 'activeSiteBinary', 'nucleotideBindingBinary',
+                    'lipidationBinary', 'siteBinary', 'transmembraneBinary', 'crosslinkBinary', 'mutagenesisBinary', 'strandBinary', 'helixBinary', 'turnBinary', 'metalBindingBinary',
+                    'repeatBinary', 'topologicalDomainBinary', 'caBindingBinary', 'bindingSiteBinary', 'regionBinary', 'signalPeptideBinary', 'modifiedResidueBinary', 'zincFingerBinary',
+                    'motifBinary', 'coiledCoilBinary', 'peptideBinary', 'transitPeptideBinary', 'glycosylationBinary', 'propeptideBinary', 'sasa']
+            if len(no_modbase_models_updated) == 0:
+                no_modbase_models_updated = pd.DataFrame(columns = SIMPLE_COLS)
+            no_modbase_models_updated = no_modbase_models_updated[~no_modbase_models_updated.datapoint.isin(modbase.datapoint.to_list())]
+            no_modbase_models_updated = no_modbase_models_updated[['uniprotID', 'wt', 'pos', 'mut', 'datapoint']]
+            no_modbase_models_updated.pos = no_modbase_models_updated.pos.astype(int)
+            no_modbase_models_updated = no_modbase_models_updated.drop_duplicates()
+            if len(pdb)>0:
+                pdb = pdb[COLS]
+                pdb['Source'] = 'PDB'
+            else:
+                pdb = pd.DataFrame()
+            if len(swiss) > 0:
+                swiss = swiss[COLS]
+                swiss['Source'] = 'SWISS-Model'
+            else:
+                swiss = pd.DataFrame()
+            if len(modbase) > 0:
+                modbase = modbase[COLS]
+                modbase['Source'] = 'Modbase'
+            else:
+                modbase = pd.DataFrame()
+            # st.write('======PDB==========')
+            # st.write(pdb.to_string())
+            # st.write('======SWISS==========')
+            # st.write(swiss.to_string())
+            # st.write('======MODBASE==========')
+            # st.write(modbase.to_string())
+            allData = pd.concat([pdb, swiss, modbase])
+            allData.reset_index(inplace=True, drop=True)
+            allData.replace({np.NaN: ''}, inplace=True)
+            # st.write('======ALL DATA==========')
+            # st.write(allData.to_string())
+            if len(allData)>0:
+                allData.distance.replace({-1000: ''}, inplace=True)
+                # Get interface positions from ECLAIR. Download HQ human
+                print()
+                print('Assigning surface regions...')
+                print('------------------------------------\n')
+                print('Extracting interface residues...\n')
+                data_interface = pd.read_csv(path_to_interfaces, sep='\t')
+                positions = get_interface_positions(data_interface, 'P1', 'P2')
+                interface_dataframe = pd.DataFrame()
+                for key, val in positions.items():
+                    k = pd.Series((key, str(list(set(val)))))
+                    interface_dataframe = interface_dataframe.append(k, ignore_index=True)
+                interface_dataframe.columns = ['uniprotID', 'positions']
+                final_data = finalTouch(allData)
+                final_data = final_data.merge(interface_dataframe, on='uniprotID', how='left')
+                final_data.positions = final_data.positions.astype('str')
+                for i in final_data.index:
+                    if (str(final_data.at[i, 'pos']) in final_data.at[i, 'positions']) and final_data.at[i, 'trsh4'] == 'surface':
+                        final_data.at[i, 'threeState_trsh4_HQ'] = 'interface'
+                    elif (str(final_data.at[i, 'pos']) not in final_data.at[i, 'positions']) and final_data.at[i, 'trsh4'] == 'surface':
+                        final_data.at[i, 'threeState_trsh4_HQ'] = 'surface'
+                    elif (str(final_data.at[i, 'pos']) not in final_data.at[i, 'positions']) and final_data.at[i, 'trsh4'] == 'core':
+                        final_data.at[i, 'threeState_trsh4_HQ'] = 'core'
+                    elif (str(final_data.at[i, 'pos']) in final_data.at[i, 'positions']) and final_data.at[i, 'trsh4'] == 'core':
+                        final_data.at[i, 'threeState_trsh4_HQ'] = 'conflict'
+                    elif final_data.at[i, 'trsh4'] == 'nan':
+                        final_data.at[i, 'threeState_trsh4_HQ'] = 'nan'
+                final_data.drop(['positions'], axis=1, inplace=True)
+                fisherResult = pd.read_csv(fisher_path, sep='\t')
+                significant_domains = fisherResult.domain.to_list()
+                for i in final_data.index:
+                    if final_data.at[i, 'domain'] in significant_domains:
+                        final_data.at[i, 'domain_fisher'] = final_data.at[i, 'domain']
                     else:
+                        final_data.at[i, 'domain_fisher'] = 'NULL'
+                print('Final adjustments are being done...\n')
+                binaryCols = UNIPROT_ANNOTATION_COLS[-30:]
+                final_data = final_data.astype(str)
+                final_data.replace({'NaN': 'nan'}, inplace=True)
+                for i in final_data.index:
+                    for j in binaryCols:
+                        final_data[j] = final_data[j].astype('str')
+                        if (final_data.at[i, j] == '0') or (final_data.at[i, j] == '0.0'):
+                            final_data.at[i, j] = '1'
+                        elif final_data.at[i, j] == 'nan':
+                            final_data.at[i, j] = '0'
+                        elif (final_data.at[i, j] == '1') or (final_data.at[i, j] == '1.0'):
+                            final_data.at[i, j] = '2'
+                annotCols = UNIPROT_ANNOTATION_COLS[:30]
+                for i in final_data.index:
+                    for annot in annotCols:
+                        binaryName = str(annot) + 'Binary'
+                        if final_data.at[i, binaryName] == '2':
+                            final_data.at[i, annot] = '0.0'
+                final_data.rename(
+                    columns={'uniprotID': 'prot_uniprotAcc', 'wt': 'wt_residue', 'pos': 'position', 'mut': 'mut_residue',
+                             'datapoint': 'meta_merged', 'datapoint_disease': 'meta-lab_merged', 'label': 'source_db',
+                             'family': 'prot_family', 'domain': 'domains_all', 'domain_fisher': 'domains_sig',
+                             'distance': 'domains_3Ddist', 'threeState_trsh4_HQ': 'location_3state',
+                             'disulfideBinary': 'disulfide_bin', 'intMetBinary': 'intMet_bin',
+                             'intramembraneBinary': 'intramembrane_bin',
+                             'naturalVariantBinary': 'naturalVariant_bin', 'dnaBindingBinary': 'dnaBinding_bin',
+                             'activeSiteBinary': 'activeSite_bin',
+                             'nucleotideBindingBinary': 'nucleotideBinding_bin', 'lipidationBinary': 'lipidation_bin',
+                             'siteBinary': 'site_bin',
+                             'transmembraneBinary': 'transmembrane_bin', 'crosslinkBinary': 'crosslink_bin',
+                             'mutagenesisBinary': 'mutagenesis_bin',
+                             'strandBinary': 'strand_bin', 'helixBinary': 'helix_bin', 'turnBinary': 'turn_bin',
+                             'metalBindingBinary': 'metalBinding_bin',
+                             'repeatBinary': 'repeat_bin', 'topologicalDomainBinary': 'topologicalDomain_bin',
+                             'caBindingBinary': 'caBinding_bin',
+                             'bindingSiteBinary': 'bindingSite_bin', 'regionBinary': 'region_bin',
+                             'signalPeptideBinary': 'signalPeptide_bin',
+                             'modifiedResidueBinary': 'modifiedResidue_bin', 'zincFingerBinary': 'zincFinger_bin',
+                             'motifBinary': 'motif_bin',
+                             'coiledCoilBinary': 'coiledCoil_bin', 'peptideBinary': 'peptide_bin',
+                             'transitPeptideBinary': 'transitPeptide_bin',
+                             'glycosylationBinary': 'glycosylation_bin', 'propeptideBinary': 'propeptide_bin',
+                             'disulfide': 'disulfide_dist', 'intMet': 'intMet_dist',
+                             'intramembrane': 'intramembrane_dist', 'naturalVariant': 'naturalVariant_dist',
+                             'dnaBinding': 'dnaBinding_dist', 'activeSite': 'activeSite_dist',
+                             'nucleotideBinding': 'nucleotideBinding_dist', 'lipidation': 'lipidation_dist',
+                             'site': 'site_dist',
+                             'transmembrane': 'transmembrane_dist', 'crosslink': 'crosslink_dist',
+                             'mutagenesis': 'mutagenesis_dist', 'strand': 'strand_dist', 'helix': 'helix_dist',
+                             'turn': 'turn_dist',
+                             'metalBinding': 'metalBinding_dist', 'repeat': 'repeat_dist',
+                             'topologicalDomain': 'topologicalDomain_dist', 'caBinding': 'caBinding_dist',
+                             'bindingSite': 'bindingSite_dist', 'region': 'region_dist',
+                             'signalPeptide': 'signalPeptide_dist', 'modifiedResidue': 'modifiedResidue_dist',
+                             'zincFinger': 'zincFinger_dist', 'motif': 'motif_dist', 'coiledCoil': 'coiledCoil_dist',
+                             'peptide': 'peptide_dist', 'transitPeptide': 'transitPeptide_dist',
+                             'glycosylation': 'glycosylation_dist', 'propeptide': 'propeptide_dist'}, inplace=True)
+                final_data = final_data[
+                    ['prot_uniprotAcc', 'wt_residue', 'mut_residue', 'position','Source', 'meta_merged', 'composition', 'polarity',
+                     'volume',
+                     'granthamScore', 'domains_all',
+                     'domains_sig', 'domains_3Ddist', 'sasa', 'location_3state', 'disulfide_bin', 'intMet_bin',
+                     'intramembrane_bin', 'naturalVariant_bin', 'dnaBinding_bin',
+                     'activeSite_bin', 'nucleotideBinding_bin', 'lipidation_bin', 'site_bin',
+                     'transmembrane_bin', 'crosslink_bin', 'mutagenesis_bin', 'strand_bin',
+                     'helix_bin', 'turn_bin', 'metalBinding_bin', 'repeat_bin',
+                     'caBinding_bin', 'topologicalDomain_bin', 'bindingSite_bin',
+                     'region_bin', 'signalPeptide_bin', 'modifiedResidue_bin',
+                     'zincFinger_bin', 'motif_bin', 'coiledCoil_bin', 'peptide_bin',
+                     'transitPeptide_bin', 'glycosylation_bin', 'propeptide_bin', 'disulfide_dist', 'intMet_dist',
+                     'intramembrane_dist',
+                     'naturalVariant_dist', 'dnaBinding_dist', 'activeSite_dist',
+                     'nucleotideBinding_dist', 'lipidation_dist', 'site_dist',
+                     'transmembrane_dist', 'crosslink_dist', 'mutagenesis_dist',
+                     'strand_dist', 'helix_dist', 'turn_dist', 'metalBinding_dist',
+                     'repeat_dist', 'caBinding_dist', 'topologicalDomain_dist',
+                     'bindingSite_dist', 'region_dist', 'signalPeptide_dist',
+                     'modifiedResidue_dist', 'zincFinger_dist', 'motif_dist',
+                     'coiledCoil_dist', 'peptide_dist', 'transitPeptide_dist',
+                     'glycosylation_dist', 'propeptide_dist']]
+                # Imputation
+                if (impute == 'True') or (impute == 'true') or (impute == True):
+                    filler = [17.84, 30.8, 24.96, 13.12, 23.62, 18.97, 20.87, 29.59, 20.7, 12.7, 22.85, 17.21, 9.8, 9, 15.99,
+                              16.82,
+                              20.46, 24.58, 9.99, 17.43, 20.08, 30.91, 20.86, 22.14, 21.91, 28.45, 17.81, 25.12, 20.33, 22.36]
+                    col_index = 0
+                    for col_ in final_data.columns[-30:]:
+                        final_data[col_] = final_data[col_].fillna(filler[col_index])
+                        final_data[col_] = final_data[col_].replace({'nan': filler[col_index]})
+                        col_index += 1
+                    final_data['domains_3Ddist'] = final_data['domains_3Ddist'].fillna(24.5)
+                    final_data['sasa'] = final_data['sasa'].fillna(29.5)
+                    final_data['location_3state'] = final_data['location_3state'].fillna('unknown')
+                elif (impute == 'False') or (impute == 'false'):
+                    pass
+                final_data = final_data.replace({'nan': np.NaN})
+                final_data.domains_all = final_data.domains_all.replace({-1: 'NULL'})
                     # ready.to_csv(path_to_output_files / 'featurevector_pdb.txt', sep='\t', index=False)
                     if len(final_data) == 0:
                         print(