Веб-приложение для генерации больших наборов синтетических данных с настраиваемыми параметрами, использующее FastAPI и Dask для параллельной обработки.
- Генерация синтетических данных с настраиваемым количеством строк
- Параллельная обработка с использованием Dask
- Разделение вывода на несколько файлов
- Отслеживание прогресса во время генерации
- Автоматическая архивация сгенерированных файлов
- Веб-интерфейс для удобного взаимодействия
- UUID
- Имя
- Дата рождения
- Номер паспорта
- Адрес
- Город
- Страна
- Банковский счет (IBAN)
- SWIFT код
- Python 3.9+
- FastAPI
- Dask
- Pandas
- Faker
- Дополнительные зависимости указаны в requirements.txt
- Клонируйте репозиторий:
git clone <url-репозитория>
cd fast_api_data- Создайте и активируйте виртуальное окружение:
python -m venv venv
source venv/bin/activate # Для Mac/Linux- Установите зависимости:
pip install -r requirements.txt- Запустите сервер:
uvicorn main:app --reload-
Откройте веб-интерфейс:
- Перейдите по адресу
http://localhost:8000в браузере - Заполните параметры генерации:
- Количество строк
- Имя выходного файла
- Размер чанка (для пакетной обработки)
- Количество воркеров (для параллельной обработки)
- Записей на файл (опционально, для разделения вывода)
- Перейдите по адресу
-
Нажмите "Сгенерировать данные" и дождитесь завершения
-
Скачайте сгенерированный архив, когда он будет готов
GET /: Основной веб-интерфейсPOST /generate-form: Обработка отправки формыGET /status: Проверка статуса генерацииGET /download: Скачивание сгенерированного архива
Основные настраиваемые параметры:
- Размер чанка по умолчанию: 50 000 строк
- Количество воркеров по умолчанию: 4
- Директория данных: 'data'
- Генерируемые поля и их параметры можно изменить в
core/generator.py
- Валидация всех входных параметров
- Обработка попыток параллельной генерации
- Подробные сообщения об ошибках
- Автоматическая очистка временных файлов
MIT License
ohhaus