import streamlit as st from datasets import load_dataset # Funktion zum Laden und Anzeigen von Datasets def load_and_show_dataset(dataset_name, split="train"): try: # Dataset von Hugging Face laden dataset = load_dataset(dataset_name, split=split) # Anzahl der Zeilen im Dataset anzeigen st.write(f"Dataset: {dataset_name} - Split: {split}") st.write(f"Total rows: {len(dataset)}") # Die ersten 10 Zeilen des Datasets anzeigen st.write(dataset[:10]) except Exception as e: st.error(f"Error loading dataset: {e}") # Streamlit-Benutzeroberfläche st.title("Hugging Face Dataset Checker") st.sidebar.header("Dataset Auswahl") # Liste der Datasets dataset_options = [ "TSOWatch/units-name-de", "TSOWatch/tso-general", "TSOWatch/tso-skills", "TSOWatch/tso-units", "TSOWatch/1001NightsPrincess", "TSOWatch/1001NightsOilLamp", "TSOWatch/1001NightsTreasureKnowledge", "TSOWatch/1001NightsBesiegedCity", "TSOWatch/1001NightsSeaSnake", "TSOWatch/1001NightsThirdThief", "TSOWatch/1001NightsSecondThief", "TSOWatch/1001NightsFirstThief", "TSOWatch/1001NightsWoodcutter" ] # Dropdown für das Dataset auswählen selected_dataset = st.sidebar.selectbox("Wähle ein Dataset", dataset_options) # Dropdown für den Split auswählen split_options = ["train", "test", "validation"] selected_split = st.sidebar.selectbox("Wähle einen Split", split_options) # Lade und zeige das ausgewählte Dataset if st.button("Lade Dataset"): load_and_show_dataset(selected_dataset, selected_split)