A simple logistic regression model

- Update README.md (incl. model card)
- Add training script
- Add model artifact

Files changed (5) hide show

.gitattributes CHANGED Viewed

@@ -13,6 +13,8 @@
 *.ot filter=lfs diff=lfs merge=lfs -text
 *.parquet filter=lfs diff=lfs merge=lfs -text
 *.pb filter=lfs diff=lfs merge=lfs -text
 *.pt filter=lfs diff=lfs merge=lfs -text
 *.pth filter=lfs diff=lfs merge=lfs -text
 *.rar filter=lfs diff=lfs merge=lfs -text

 *.ot filter=lfs diff=lfs merge=lfs -text
 *.parquet filter=lfs diff=lfs merge=lfs -text
 *.pb filter=lfs diff=lfs merge=lfs -text
+*.pickle filter=lfs diff=lfs merge=lfs -text
+*.pkl filter=lfs diff=lfs merge=lfs -text
 *.pt filter=lfs diff=lfs merge=lfs -text
 *.pth filter=lfs diff=lfs merge=lfs -text
 *.rar filter=lfs diff=lfs merge=lfs -text

README.md CHANGED Viewed

@@ -1,3 +1,34 @@
 ---
 license: bsd-3-clause
 ---

 ---
 license: bsd-3-clause
+tags:
+- sklearn
+datasets:
+- synthetic dataset from sklearn
+metrics:
+- type: accuracy
+  value: 0.948
 ---
+# Simple example using plain scikit-learn
+## Reproducing the model
+Inside a Python environment, install the dependencies listed in `requirements.txt` and then run:
+``` bash
+python train.py
+```
+The resulting model artifact should be stored in `model.pickle`.
+## The model
+The used model is a simple logistic regression trained through gradient descent.
+## Intended use & limitations
+This model is just for demonstration purposes and should thus not be used.
+## Dataset
+The dataset is entirely synthetic and has no real world origin.

model.pickle ADDED Viewed

+version https://git-lfs.github.com/spec/v1
+oid sha256:49024e6163c30049244412395379a7189646f0080a9368d2c92f7ef6cfb3041e
+size 1112

requirements.txt ADDED Viewed

	@@ -0,0 +1 @@


1	+ scikit-learn==1.0.1

train.py ADDED Viewed

+"""Script to create the model artifact
+Trains a simple logistic regression with grid search on a synthetic dataset and
+stores the model in a pickle file.
+"""
+import pickle
+from sklearn.datasets import make_classification
+from sklearn.linear_model import SGDClassifier
+from sklearn.model_selection import GridSearchCV
+SEED = 0
+def get_data():
+    X, y = make_classification(n_samples=1000, random_state=SEED)
+    return X, y
+def get_model(**kwargs):
+    model = SGDClassifier(random_state=SEED)
+    model.set_params(**kwargs)
+    return model
+def get_hparams():
+    hparams = {
+        'penalty': ['l1', 'l2'],
+        'alpha': [0.00001, 0.0001, 0.001],
+    }
+    return hparams
+def grid_search(model, X, y, hparams):
+    search = GridSearchCV(model, hparams, cv=5, scoring='accuracy')
+    search.fit(X, y)
+    return search
+def train(model, X, y, hparams):
+    search = grid_search(model, X, y, hparams=hparams)
+    print(f"Best accuracy: {100 * search.best_score_:.1f}%")
+    print(f"Best parameters: {search.best_params_}")
+    return search.best_estimator_
+def save_model(model, filename):
+    with open(filename, 'wb') as f:
+        pickle.dump(model, f)
+    print(f"Stored model in '{filename}'")
+def main():
+    X, y = get_data()
+    model = get_model()
+    hparams = get_hparams()
+    model_trained = train(model, X, y, hparams=hparams)
+    save_model(model_trained, 'model.pickle')
+if __name__ == '__main__':
+    main()