Spaces:

jie1
/

succ1

Build error

App Files Files Community

jie1 commited on Oct 11, 2022

Commit

e1810a8

•

1 Parent(s): 24261c2

Upload 12 files

Browse files

Files changed (12) hide show

file/Merge_Dlsc.py +38 -0
file/Plt.py +35 -0
file/Preinput_Merge.py +83 -0
file/README.md +30 -0
file/Rfile.py +11 -0
file/Sort_Dlkcat.py +39 -0
file/Sort_Sco_Kcat.py +28 -0
file/Sort_Scores.py +35 -0
file/background.jpeg +0 -0
file/result.jpg +0 -0
file/test.py +65 -0
file/tname.py +6 -0

file/Merge_Dlsc.py ADDED Viewed

	@@ -0,0 +1,38 @@

+import re
+from tname import *
+from Rfile import *
+def Merge_Dlsc(sc_file, dl_file):
+    scontents = j_reads(sc_file.name)
+    scores = []
+    # 读取并保存第一个scores值
+    content = re.match('.*score=(\d.\d+?),', scontents[0])
+    score = content.group(1)
+    scores.append(float(score))
+    # 保存剩下的scores值
+    for i in range(2, len(scontents)):
+        if i % 2 == 0:
+            # 使用正则表达式
+            content = re.match('.*score=(\d.\d+?),', scontents[i])
+            score = content.group(1)
+            scores.append(float(score))
+    dcontents = j_reads(dl_file.name)
+    dcontents[0] = dcontents[0].strip() + "\t" + "scores value" + "\n"
+    name = Name()
+    name = name + r"kcat_scores.tsv"  # 结果文件名称
+    # 第一行与其它行格式不一样，单独写入
+    with open(name, "a") as f:
+        f.write(dcontents[0])
+    # 写入剩下的行
+    for i in range(1, len(dcontents)):
+        dcontents[i] = dcontents[i].strip() + "\t" + str(scores[i - 1]) + "\n"
+        with open(name, "a") as f:
+            f.write(dcontents[i])
+    return name

file/Plt.py ADDED Viewed

	@@ -0,0 +1,35 @@

+from matplotlib import pyplot as plt
+def Plt(file):
+    filereader = open(file.name, 'r')
+    # 可视化
+    Loss_list = []
+    Accuracy_list = []
+    for line in filereader.readlines():
+        if line[0:4] == "loss":
+            list = line.split()
+            # print(list[1])
+            Loss_list.append(float(list[1]))
+            Accuracy_list.append(float(list[3]))
+    print(Loss_list)
+    length = len(Loss_list)
+    x1 = range(0, length)
+    x2 = range(0, length)
+    y1 = Accuracy_list
+    # y2 = Loss_list[4:]
+    y2 = Loss_list
+    plt.subplot(2, 1, 1)
+    plt.plot(x1, y1)
+    plt.title('Test accuracy vs. epoches')
+    plt.ylabel('Test accuracy')
+    plt.subplot(2, 1, 2)
+    plt.plot(x2, y2)
+    plt.xlabel('Test loss vs. epoches')
+    plt.ylabel('Test loss')
+    plt.savefig("result.jpg")
+    # plt.show()
+    return "result.jpg"

file/Preinput_Merge.py ADDED Viewed

	@@ -0,0 +1,83 @@

+import re
+from tname import *
+from Rfile import *
+def Strip(seq_file):
+    contents = j_reads(seq_file.name)
+    ina = Name()
+    ina = ina + r"input.tsv"  # 结果文件名称
+    # 去除序列文件中的换行,并写入新的文件中
+    for i in range(0, len(contents) - 1):
+        if contents[i][0] != '>' and contents[i + 1][0] != '>':
+            content = contents[i].split()
+            content = content[0]
+        else:
+            content = contents[i]
+        with open(ina, "a") as f:
+            f.write(content)
+    # 最后一行特殊，单独写入
+    with open(ina, "a") as f:
+        f.write(contents[len(contents) - 1])
+    return ina
+def Merge(smi_file, seq_file):
+    smile = j_read(smi_file.name)
+    smile = smile.strip("\n")
+    # 读取去掉换行后的文件
+    contents = j_reads(seq_file.name)
+    name = Name()
+    name = name + r"kcat_input.tsv"  # 结果文件名称
+    with open(name, "a") as f3:
+        f3.write("Substrate Name	Substrate SMILES	Protein Sequence")
+        f3.write("\n")
+    for i in range(0, len(contents)):
+        if i % 2 == 1:
+            with open(name, "a") as f3:
+                # 写入索引
+                f3.write(">seq" + str(int((i - 1) / 2)))
+                f3.write("\t")
+                # 写入smile名称
+                f3.write(smile)
+                f3.write("\t")
+                # 写入序列
+                f3.write(contents[i])
+    return name
+def Merge_All(smi_file, seq_file):
+    smile = j_read(smi_file.name)
+    smile = smile.strip("\n")
+    # 读取去掉换行后的文件
+    contents = j_reads(seq_file.name)
+    name = Name()
+    name = name + r"kcat_input.tsv"  # 结果文件名称
+    with open(name, "a") as f3:
+        f3.write("Substrate Name	Substrate SMILES	Protein Sequence")
+        f3.write("\n")
+    for i in range(0, len(contents)):
+        if i % 2 == 1:
+            with open(name, "a") as f3:
+                # 写入索引
+                # f3.write(">seq" + str(int((i - 1) / 2)))
+                info = re.sub(' ', '_', contents[i - 1])
+                info = re.sub('\n', '', info)
+                f3.write(info)
+                f3.write("\t")
+                # 写入smile名称
+                f3.write(smile)
+                f3.write("\t")
+                # 写入序列
+                f3.write(contents[i])
+    return name

file/README.md ADDED Viewed

	@@ -0,0 +1,30 @@

+```
+1. Sort 模块里，可以进行dlkcat，scores值的排序，选择相关文件，点击对应按钮，即可进行排序
+2. Pre Merge 模块里，进行smile 与 seq序列文件的合并，
+如若序列文件中的单条序列不是在一行而是分为多行的，需处理换行符，在strip_file上传文件，点击strip按钮，会生成新的序列文件，并且注意文件除了末尾可以有一行空行，其余地方不能有多余的空行
+合并smile 与 seq 文件时，有两种情况：
+一种是序列格式文件如下所示的：
+>1J3U_A/1-468 Crystal structure of aspartase from Bacillus sp. YM55-1 [Bacillus sp. YM55-1]
+MNTDVRIEKDFLGEKEIPKDAYYGVQTIRATENFPITGYRIHPELIKSLGIVKKSAALANMEVGLLDKEVGQ
+YIVKAADEVIEGKWNDQFIVDPIQGGAGTSINMNANEVIANRALELMGEEKGNYSKISPNSHVNMSQSTNDA
+FPTATHIAVLSLLNQLIETTKYMQQEFMKKADEFAGVIKMGRTHLQDAVPILLGQEFEAYARVIARDIERIA
+NTRNNLYDINMGATAVGTGLNADPEYISIVTEHLAKFSGHPLRSAQHLVDATQNTDCYTEVSSALKVCMINM
+SKIANDLRLMASGPRAGLSEIVLPARQPGSSIMPGKVNPVMPEVMNQVAFQVFGNDLTITSASEAGQFELNV
+MEPVLFFNLIQSISIMTNVFKSFTENCLKGIKANEERMKEYVEKSIGIITAINPHVGYETAAKLAREAYLTG
+ESIRELCIKYGVLTEEQLNEILNPYEMIHPGIAGRK
+>WP_016839137.1/1-468 aspartate ammonia-lyase [Ureibacillus thermosphaericus]
+MNTDVRIEKDFLGEKEIPKDAYYGVQTIRATENFPITGYRIHPELIKSLGIVKKSAALANMEVGLLDKEVGQ
+YIVKAADEVIEGKWNDQFIVDPIQGGAGTSINMNANEVIANRALELMGEEKGNYSKISPNSHVNMSQSTNDA
+合并时需要保存序列的来源这些相关信息，点击Merge All 按钮
+另一种点击Merge按钮
+3. Merge Dlsc 模块里，进行scores 与 Dlkcat文件的合并，合并时注意两个文件的序列相对应
+```

file/Rfile.py ADDED Viewed

	@@ -0,0 +1,11 @@

+def j_reads(file):
+    with open(file, "r") as f:
+        contents = f.readlines()
+    return contents
+def j_read(file):
+    with open(file, "r") as f:
+        content = f.readline()
+    return content

file/Sort_Dlkcat.py ADDED Viewed

	@@ -0,0 +1,39 @@

+from tname import *
+from Rfile import *
+def Sort_Dlkcat(file):
+    contents = j_reads(file.name)
+    dlkcats = []  # 存储kcat值
+    # dlkcat sort
+    for i in range(2, len(contents)):
+        content = contents[i].split()
+        dlkcats.append(float(content[3]))
+    sorted_dlkcat = []  # 按kcat值从大到小对其索引进行排序
+    sorted_dlkcat = sorted(range(len(dlkcats)), key=lambda k: dlkcats[k], reverse=True)
+    name = Name()
+    name = name + r"kcat_sort.fa"  # 结果文件名称
+    # 第一条序列单独写入
+    with open(name, "a") as f:
+        content = contents[1].split()
+        f.write(content[0])
+        f.write("\t")
+        f.write("Kcat value=")
+        f.write(content[3])
+        f.write("\n")
+        f.write(content[2])
+        f.write("\n")
+    for i in range(0, len(dlkcats)):
+        with open(name, "a") as f:
+            content = contents[sorted_dlkcat[i] + 2].split()
+            f.write(content[0])
+            f.write("\t")
+            f.write("Kcat value=")
+            f.write(content[3])
+            f.write("\n")
+            f.write(content[2])
+            f.write("\n")
+    return name

file/Sort_Sco_Kcat.py ADDED Viewed

	@@ -0,0 +1,28 @@

+from tname import *
+from Rfile import *
+def Sort_Sco_Kcat(file):
+    dlkcats = []
+    contents = j_reads(file.name)
+    # dlkcat sort根据kcat值对文件进行排序
+    name = Name()
+    kcatname = name + r"mkcat_sort.fa"  # 结果文件名称
+    for i in range(2, len(contents)):
+        content = contents[i].split()
+        dlkcats.append(float(content[3]))
+    s_dlkcat = []
+    s_dlkcat = sorted(range(len(dlkcats)), key=lambda k: dlkcats[k], reverse=True)
+    # 写入文件
+    with open(kcatname, "a") as f:
+        f.write(contents[0])
+        # 第一行第二行不参与排序，直接写入
+        f.write(contents[1])
+    # 写入剩下的行
+    for i in range(0, len(dlkcats)):
+        with open(kcatname, "a") as f:
+            f.write(contents[s_dlkcat[i]+2])
+    return kcatname

file/Sort_Scores.py ADDED Viewed

	@@ -0,0 +1,35 @@

+import re
+from tname import *
+from Rfile import *
+def Sort_Scores(file):
+    scores = []
+    contents = j_reads(file.name)
+    for i in range(2, len(contents)):
+        if i % 2 == 0:
+            # 使用正则表达式
+            content = re.match('.*score=(\d.\d+?),', contents[i])
+            if content:
+                score = content.group(1)
+                scores.append(float(score))
+    na = Name()
+    na = na + r"scores_sort.tsv"  # 结果文件名称
+    # 按列表scores中元素的值进行排序，并返回元素对应索引序列
+    sorted_id = []
+    sorted_id = sorted(range(len(scores)), key=lambda k: scores[k], reverse=True)
+    # 第一条序列和其他序列格式不一样，且第一条序列不需要排序，单独写入
+    with open(na, "a") as f1:
+        f1.write(contents[0])
+        f1.write(contents[1])
+    for i in range(0, len(scores)):
+        with open(na, "a") as f:
+            f.write(contents[sorted_id[i] * 2 + 2])
+            # 由于文件前两行未参与排序，所以索引要+2
+            f.write(contents[sorted_id[i] * 2 + 2 + 1])
+    return na

file/background.jpeg ADDED Viewed

file/result.jpg ADDED Viewed

file/test.py ADDED Viewed

	@@ -0,0 +1,65 @@

+import gradio as gr
+from Sort_Scores import *
+from Preinput_Merge import *
+from Sort_Dlkcat import *
+from Merge_Dlsc import *
+from Sort_Sco_Kcat import *
+from Plt import *
+with gr.Blocks(css=".gradio-container {background-image: url('file=background.jpeg')}") as demo:
+    gr.Markdown("Welcome using this demo.")
+    with gr.Tab("HelloWorld"):
+        gr.Markdown("Welcome using this demo.")
+        gr.Markdown("This is a succend test")
+        gr.Markdown("I think this demo can do some things")
+        gr.Markdown("在sort里，可以对scores文件，dlkcat文件，以及合并后的scores与dlkcat文件进行排序")
+        gr.Markdown("Pre Merge里，可以将序列文件与smi文件进行合并，合并后可以进行dlkcat值的计算，合并前若序列文件需要处理换行符也可以对其进行处理")
+        gr.Markdown("Merge Dlsc里，可以合并scores值文件和dlkcat文件，主义这两个文件序列需要一致")
+    with gr.Tab("Sort"):
+        file1_input = gr.File(label="输入相关文件")
+        file1_output = gr.File()
+        with gr.Row():
+            file1_button1 = gr.Button("Sort Scores")
+            file1_button2 = gr.Button("Sort Dlkcat")
+            file1_button3 = gr.Button("Sort Mergekcat")
+    with gr.Tab("Pre Merge"):
+        with gr.Row():
+            file2_input1 = gr.File(label="strip_file")
+            file2_input2 = gr.File(label="smi_file")
+            file2_input3 = gr.File(label="seq_file")
+        file2_output = gr.File()
+        file2_button1 = gr.Button("Strip")
+        with gr.Row():
+            file2_button2 = gr.Button("Merge")
+            file2_button3 = gr.Button("Merge All")
+    with gr.Tab("Merge Dlsc"):
+        with gr.Row():
+            file4_input1 = gr.File(label="sc_file")
+            file4_input2 = gr.File(label="cat_file")
+        file4_output = gr.File()
+        file4_button = gr.Button("Merge")
+    with gr.Tab("Plt Picture"):
+        file5_input = gr.File(label="log_file")
+        file5_output = gr.File()
+        file5_button = gr.Button("Plt")
+    with gr.Accordion("Open for More!"):
+        gr.Markdown("Look at me...")
+    file1_button1.click(Sort_Scores, inputs=file1_input, outputs=file1_output)
+    file1_button2.click(Sort_Dlkcat, inputs=file1_input, outputs=file1_output)
+    file1_button3.click(Sort_Sco_Kcat, inputs=file1_input, outputs=file1_output)
+    file2_button1.click(Strip, inputs=file2_input1, outputs=file2_output)
+    file2_button2.click(Merge, inputs=[file2_input2, file2_input3], outputs=file2_output)
+    file2_button3.click(Merge_All, inputs=[file2_input2, file2_input3], outputs=file2_output)
+    file4_button.click(Merge_Dlsc, inputs=[file4_input1, file4_input2], outputs=file4_output)
+    file5_button.click(Plt, inputs=file5_input, outputs=file5_output)
+if __name__ == "__main__":
+    demo.launch()

file/tname.py ADDED Viewed

	@@ -0,0 +1,6 @@

+import time
+def Name():
+    name = time.strftime('%m-%d-%H_%M', time.localtime())  # %Y-%m-%d-%H:%M:%S 冒号会报错
+    return name