--- title: Anonymizace českých textů emoji: 🕵️ colorFrom: blue colorTo: red sdk: docker app_port: 8501 license: mit --- # Anonymizace českých textů Tento projekt poskytuje nástroj pro anonymizaci osobních údajů v českých textech pomocí knihovny Microsoft Presidio a dalších pokročilých NLP technik. ## Funkce - Detekce širokého spektra osobních údajů v českém jazyce - Flexibilní metody anonymizace (nahrazení, maskování, hashování) - Podpora různých formátů vstupních textů - Uživatelsky přívětivé webové rozhraní pomocí Streamlit - Možnost generování syntetických dat pro anonymizované texty ## Instalace ### Pomocí Dockeru 1. Naklonujte tento repozitář: ``` git clone https://github.com/vas-projekt/anonymizacni-platforma.git cd anonymizacni-platforma ``` 2. Sestavte Docker obraz: ``` docker build -t anonymizace-ceskych-textu . ``` 3. Spusťte kontejner: ``` docker run -p 8501:8501 anonymizace-ceskych-textu ``` ### Lokální instalace 1. Naklonujte repozitář a přejděte do jeho adresáře. 2. Vytvořte a aktivujte virtuální prostředí: ``` python -m venv venv source venv/bin/activate # Pro Windows použijte `venv\Scripts\activate` ``` 3. Nainstalujte potřebné závislosti: ``` pip install -r requirements.txt ``` 4. Stáhněte český jazykový model pro spaCy: ``` python -m spacy download cs_core_news_sm ``` ## Použití 1. Spusťte aplikaci: ``` streamlit run presidio_streamlit.py ``` 2. Otevřete webový prohlížeč a přejděte na `http://localhost:8501`. 3. Vložte text, který chcete anonymizovat, nebo nahrajte soubor. 4. Vyberte typy osobních údajů, které chcete anonymizovat, a metodu anonymizace. 5. Klikněte na tlačítko "Anonymizovat" a zobrazte výsledky. ## Konfigurace Pro konfiguraci aplikace můžete upravit soubor `.env` s následujícími proměnnými: - `OPENAI_API_KEY`: Váš API klíč pro OpenAI (volitelné, pro generování syntetických dat) - `DEBUG`: Nastavte na "True" pro zobrazení podrobných chybových hlášení ## Přispívání Příspěvky jsou vítány! Prosím, otevřete issue pro návrhy na vylepšení nebo pošlete pull request s vašimi změnami. ## Licence Tento projekt je licencován pod MIT licencí. Viz soubor `LICENSE` pro více detailů. --- Kontrola konfigurace na https://huggingface.co/docs/hub/spaces-config-reference