initial commit

Files changed (10) hide show

.gitignore ADDED Viewed

Dockerfile ADDED Viewed

+# read the doc: https://huggingface.co/docs/hub/spaces-sdks-docker
+# you will also find guides on how best to write your Dockerfile
+FROM python:3.9
+WORKDIR /code
+COPY ./requirements.txt /code/requirements.txt
+RUN pip install --no-cache-dir --upgrade -r /code/requirements.txt
+RUN useradd -m -u 1000 user
+USER user
+ENV HOME=/home/user \
+	PATH=/home/user/.local/bin:$PATH
+WORKDIR $HOME/app
+COPY --chown=user . $HOME/app
+CMD ["python", "app.py"]

app.py ADDED Viewed

+from qnabackend import create_app
+app = create_app()
+@app.route('/')
+def home():
+    return "hello world"
+if __name__ == '__main__':
+    app.run(debug = True, port = 5000)
+# if __name__ == '__main__':
+#     app.run(debug = False, host = "0.0.0.0", port = 7860)

qnabackend/__init__.py ADDED Viewed

+from flask import Flask
+from qnabackend.config import Config
+from flask_cors import CORS
+def create_app(config_class = Config):
+    app = Flask(__name__)
+    CORS(app)
+    app.config.from_object(config_class)
+    from qnabackend.resources.routes import resources
+    app.register_blueprint(resources)
+    return app

qnabackend/common/__init__.py ADDED Viewed

File without changes

qnabackend/common/utils.py ADDED Viewed

+from bs4 import BeautifulSoup
+import requests
+def getText(url : str):
+    response = requests.get(url)
+    if response.status_code == 200:
+        html_content = response.content
+    else:
+        print(f"[INFO] couldn't access website data, try again")
+        return
+    soup = BeautifulSoup(html_content, 'html.parser')
+    text_elements = soup.find_all(['p'])
+    scraped_text = ' '.join(element.get_text() for element in text_elements)
+    if len(scraped_text) > 20000:
+        print(f"[ERROR] page too large to perform qna")
+        return
+    return scraped_text
+from transformers import AutoTokenizer, AutoModelForSeq2SeqLM
+model = AutoModelForSeq2SeqLM.from_pretrained('google/flan-t5-large')
+tokenizer = AutoTokenizer.from_pretrained('google/flan-t5-large')
+def getAnswer(url : str, question : str):
+    context = getText(url)
+    inputs = tokenizer(f"context : {context}, question : {question}", return_tensors = 'pt').input_ids
+    outputs = model.generate(
+        inputs,
+        min_length = 10,
+        max_new_tokens = 600,
+        length_penalty = 1,
+        num_beams = 3,
+        no_repeat_ngram_size = 3,
+        temperature = 0.7,
+        top_k = 110,
+        top_p = 0.8,
+        repetition_penalty = 2.1
+    )
+    answer = tokenizer.decode(outputs[0], skip_special_tokens = True)
+    return answer

qnabackend/config.py ADDED Viewed

qnabackend/resources/__init__.py ADDED Viewed

File without changes

qnabackend/resources/routes.py ADDED Viewed

+from flask import Blueprint, request
+from flask_restful import Api, Resource
+from qnabackend.common.utils import getAnswer
+resources = Blueprint('resources', __name__)
+api = Api(resources)
+class Backend(Resource):
+    def post(self):
+        url = request.json['url']
+        question = request.json['question']
+        answer = getAnswer(url, question)
+        return {'question' : question, 'answer' : answer}
+api.add_resource(Backend, '/question')

requirements.txt ADDED Viewed

+aniso8601==9.0.1
+beautifulsoup4==4.12.2
+blinker==1.6.2
+certifi==2023.7.22
+charset-normalizer==3.2.0
+click==8.1.6
+colorama==0.4.6
+filelock==3.12.2
+Flask==2.3.2
+Flask-Cors==4.0.0
+Flask-RESTful==0.3.10
+fsspec==2023.6.0
+huggingface-hub==0.16.4
+idna==3.4
+itsdangerous==2.1.2
+Jinja2==3.1.2
+MarkupSafe==2.1.3
+mpmath==1.3.0
+networkx==3.1
+numpy==1.25.2
+packaging==23.1
+pytz==2023.3
+PyYAML==6.0.1
+regex==2023.8.8
+requests==2.31.0
+safetensors==0.3.2
+six==1.16.0
+soupsieve==2.4.1
+sympy==1.12
+tokenizers==0.13.3
+torch==2.0.1
+tqdm==4.66.1
+transformers==4.31.0
+typing_extensions==4.7.1
+urllib3==2.0.4
+Werkzeug==2.3.6