Spaces:
Sleeping
Sleeping
VincentGOURBIN
commited on
Commit
•
3fd0bb8
1
Parent(s):
f839319
Upload folder using huggingface_hub
Browse files- runningscript.py +1 -1
- sampledateset.py +29 -0
- subset_top5_per_station_fuel.parquet +3 -0
runningscript.py
CHANGED
@@ -10,7 +10,7 @@ from xgboost import XGBRegressor
|
|
10 |
|
11 |
# 1. Chargement des données
|
12 |
print("Chargement des données...")
|
13 |
-
parquet_files = glob.glob('
|
14 |
|
15 |
if not parquet_files:
|
16 |
raise FileNotFoundError("Aucun fichier Parquet trouvé dans le répertoire spécifié.")
|
|
|
10 |
|
11 |
# 1. Chargement des données
|
12 |
print("Chargement des données...")
|
13 |
+
parquet_files = glob.glob('subset_top5_per_station_fuel.parquet')
|
14 |
|
15 |
if not parquet_files:
|
16 |
raise FileNotFoundError("Aucun fichier Parquet trouvé dans le répertoire spécifié.")
|
sampledateset.py
ADDED
@@ -0,0 +1,29 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
1 |
+
import pandas as pd
|
2 |
+
|
3 |
+
# Charger le dataset depuis le fichier Parquet
|
4 |
+
df = pd.read_parquet('full_dataset.parquet')
|
5 |
+
|
6 |
+
# Afficher les colonnes disponibles pour vérification
|
7 |
+
print("Colonnes du dataset :", df.columns)
|
8 |
+
|
9 |
+
# Assurer que les colonnes nécessaires existent
|
10 |
+
# Remplace 'station_id', 'fuel_type' et 'timestamp' par les noms réels des colonnes si elles sont différentes
|
11 |
+
required_columns = ['station_id', 'fuel_name', 'rate_date']
|
12 |
+
for col in required_columns:
|
13 |
+
if col not in df.columns:
|
14 |
+
raise ValueError(f"La colonne '{col}' est manquante dans le dataset.")
|
15 |
+
|
16 |
+
# Convertir la colonne 'timestamp' en type datetime si ce n'est pas déjà le cas
|
17 |
+
if not pd.api.types.is_datetime64_any_dtype(df['rate_date']):
|
18 |
+
df['rate_date'] = pd.to_datetime(df['rate_date'])
|
19 |
+
|
20 |
+
# Trier le dataframe par 'station_id', 'fuel_type' et 'timestamp' rate_date
|
21 |
+
df_sorted = df.sort_values(by=['station_id', 'fuel_name', 'rate_date'], ascending=[True, True, False])
|
22 |
+
|
23 |
+
# Pour chaque combinaison de 'station_id' et 'fuel_type', sélectionner les 5 derniers enregistrements
|
24 |
+
df_top5 = df_sorted.groupby(['station_id', 'fuel_name']).head(5).reset_index(drop=True)
|
25 |
+
|
26 |
+
# Sauvegarder le sous-ensemble de données dans un nouveau fichier Parquet
|
27 |
+
df_top5.to_parquet('subset_top5_per_station_fuel.parquet')
|
28 |
+
|
29 |
+
print("Le sous-ensemble a été sauvegardé dans 'subset_top5_per_station_fuel.parquet'")
|
subset_top5_per_station_fuel.parquet
ADDED
@@ -0,0 +1,3 @@
|
|
|
|
|
|
|
|
|
1 |
+
version https://git-lfs.github.com/spec/v1
|
2 |
+
oid sha256:a47440ecf309fc4639bed6dd28c58744bc9624b4384b2bc186a45fb21663ead9
|
3 |
+
size 3833901
|