Spaces:

QINGCHE
/

TSA

Sleeping

App Files Files Community

QINGCHE commited on Jun 9, 2023

Commit

cbc1d23

•

1 Parent(s): 1c529f8

add UI

Browse files

Files changed (8) hide show

__pycache__/classification.cpython-39.pyc +0 -0
__pycache__/run.cpython-39.pyc +0 -0
__pycache__/textInput.cpython-39.pyc +0 -0
__pycache__/util.cpython-39.pyc +0 -0
app.py +35 -0
classification.py +1 -1
run.py +47 -56
textInput.py +12 -0

__pycache__/classification.cpython-39.pyc CHANGED Viewed

Binary files a/__pycache__/classification.cpython-39.pyc and b/__pycache__/classification.cpython-39.pyc differ

__pycache__/run.cpython-39.pyc ADDED Viewed

Binary file (1.11 kB). View file

__pycache__/textInput.cpython-39.pyc ADDED Viewed

Binary file (705 Bytes). View file

__pycache__/util.cpython-39.pyc CHANGED Viewed

Binary files a/__pycache__/util.cpython-39.pyc and b/__pycache__/util.cpython-39.pyc differ

app.py ADDED Viewed

	@@ -0,0 +1,35 @@

+import numpy as np
+import gradio as gr
+import textInput
+output = []
+keys = []
+with gr.Blocks() as demo:
+    #用markdown语法编辑输出一段话
+    gr.Markdown("# 文本分类系统")
+    gr.Markdown("请选择要输入的文件或填入文本")
+    topic_num = gr.Textbox()
+    max_length = gr.Textbox()
+    with gr.Tabs():
+        with gr.Tab("文本输入"):
+            text_input = gr.Textbox()
+            text_button = gr.Button("生成")
+        with gr.Tab("文件输入"):
+            gr.Markdown("目前支持的格式有PDF、Word、txt")
+            file_input = gr.File()
+    # 设置tab选项卡
+    with gr.Tabs():
+        with gr.Tab("分类页"):
+            text_keys_output = gr.Textbox()
+        with gr.Tab("摘要页"):
+            #Blocks特有组件，设置所有子组件按水平排列
+            text_ab_output = gr.Textbox()
+    # with gr.Accordion("Open for More!"):
+    #     gr.Markdown("Look at me...")
+    text_button.click(textInput.text_dump_to_json, inputs=[text_input,topic_num,max_length], outputs=[text_keys_output,text_ab_output])
+    # image_button.click(flip_image, inputs=image_input, outputs=image_output)
+demo.launch()

classification.py CHANGED Viewed

@@ -8,7 +8,7 @@ import torch
 def classify_by_topic(articles, central_topics):
-    # 计算每篇文章与每个中心主题的相似度，返回一个矩阵
     def compute_similarity(articles, central_topics):
         model = AutoModel.from_pretrained("distilbert-base-multilingual-cased")

 def classify_by_topic(articles, central_topics):
+    # 计算与每个中心主题的相似度，返回一个矩阵
     def compute_similarity(articles, central_topics):
         model = AutoModel.from_pretrained("distilbert-base-multilingual-cased")

run.py CHANGED Viewed

@@ -1,56 +1,47 @@
-import util
-import abstract
-import classification
-import inference
-import outline
-from inference import BertClassificationModel
-# input:file/text,topic_num,max_length,output_choice
-# output:file/text/topic_sentence
-# file_process:
-# in util
-# read file code
-# file to json_text
-# convert:
-# in util
-# convert code
-# json_text to text
-# process:
-# in util
-# text process code
-# del stop seg
-text = "我今天的调研内容是大模型训练的关键技术与挑战。在现代机器学习任务中，大模型训练已成为解决复杂问题的重要手段。在本次报告中，我将介绍分布式并行加速、算法模型架构、内存和计算优化以及集群架构等关键技术。首先，分布式并行加速策略，包括数据并行、模型并行、流水线并行和张量并行等四种方式。这些策略帮助我们将训练数据和模型分布到多个设备上，以加速大模型训练过程。接下来，我们将介绍算法模型架构。Transformer网络模型是一种应用广泛的神经网络模型，基于自注意力机制。它在自然语言处理和计算机视觉任务中取得了显著的成果。此外，适用于万亿级稀疏场景的MoE模型，它通过混合专家模型来处理稀疏数据，具有良好的适应性。为了在有限的计算资源下实现大模型训练，我们需要采用内存和计算优化技术。在内存优化方面，我们激活重计算、内存高效优化器和模型压缩等技术。这些技术可以减少内存占用、降低内存消耗，从而提高训练效率。在计算优化方面，混合精度训练、算子融合和梯度累加等技术，以减少计算资源需求，进一步提升训练速度。最后，我们将讨论大模型训练的集群架构。选择合适的集群架构是实现大模型的分布式训练的关键。我们将介绍参数服务器模式（PS）和集合通讯模式（CC）两种流行的集群架构。PS架构通过Server和Worker之间的通信来更新模型参数，而CC模式中每个节点都是工作节点，负责模型训练并掌握当前最新的全局梯度信息。这些集群架构在大模型训练中起到了关键作用，帮助实现分布式训练并提高训练效率。综上所述，大模型训练需要综合考虑分布式并行加速、算法模型架构、内存和计算优化以及集群架构等多个方面。通过合理地优化这些方面，我们可以实现更高效的大模型训练，解决各种规模的机器学习问题。大模型训练的发展为我们提供了更多创新和突破的机会。大数据技术也为实现人工智能的进步和应用做出重要贡献。谢谢大家！"
-topic_num = 5
-max_length = 50
-article = util.seg(text)
-print(article)
-sentences = [util.clean_text(sentence) for sentence in article]
-central_sentences = abstract.abstruct_main(sentences, topic_num)
-print(central_sentences)
-groups = classification.classify_by_topic(article, central_sentences)
-print(groups)
-groups = util.article_to_group(groups, central_sentences)
-title_dict,title = util.generation(groups, max_length)
-# ans:
-# {Ai_abstruct:(main_sentence,paragraph)}
-for i in title_dict.items():
-    print(i)
-matrix = inference.inference_matrix(title)
-print(matrix)
-text_outline,outline_list = outline.passage_outline(matrix,title)
-print(text_outline)
-output = util.formate_text(title_dict,outline_list)
-print (output)

+import util
+import abstract
+import classification
+import inference
+import outline
+from inference import BertClassificationModel
+# input:file/text,topic_num,max_length,output_choice
+# output:file/text/topic_sentence
+# file_process:
+# in util
+# read file code
+# file to json_text
+# convert:
+# in util
+# convert code
+# json_text to text
+# process:
+# in util
+# text process code
+# del stop seg
+def texClear(article):
+    sentencesCleared = [util.clean_text(sentence) for sentence in article]
+    return sentencesCleared
+def textToAb(sentences, article, topic_num, max_length):
+    central_sentences = abstract.abstruct_main(sentences, topic_num)
+    groups = classification.classify_by_topic(article, central_sentences)
+    groups = util.article_to_group(groups, central_sentences)
+    title_dict,title = util.generation(groups, max_length)
+    # ans:
+    # {Ai_abstruct:(main_sentence,paragraph)}
+    matrix = inference.inference_matrix(title)
+    _,outline_list = outline.passage_outline(matrix,title)
+    output = util.formate_text(title_dict,outline_list)
+    keys = []
+    for key in title.keys():
+        keys.append(key)
+    return keys, output

textInput.py ADDED Viewed

	@@ -0,0 +1,12 @@

+import run
+def text_dump_to_json(text):
+    lines = [x.strip() for x in text.split("\n") if x.strip()!='']
+    data = {"text":lines}
+    sentences = run.texClear(lines)
+    keys, output = run.textToAb(sentences,lines,5,50)
+    return keys, output
+def file_dump_to_json(file):
+    return