Skip to content

Веб-приложение для быстрой генерации больших наборов синтетических персональных данных. Построено на FastAPI и Dask, что обеспечивает высокую производительность за счёт параллельной обработки.

License

Notifications You must be signed in to change notification settings

ohhaus/synthetic-data-factory

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

5 Commits
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

Генератор Синтетических Данных

Веб-приложение для генерации больших наборов синтетических данных с настраиваемыми параметрами, использующее FastAPI и Dask для параллельной обработки.

Возможности

  • Генерация синтетических данных с настраиваемым количеством строк
  • Параллельная обработка с использованием Dask
  • Разделение вывода на несколько файлов
  • Отслеживание прогресса во время генерации
  • Автоматическая архивация сгенерированных файлов
  • Веб-интерфейс для удобного взаимодействия

Генерируемые поля данных

  • UUID
  • Имя
  • Дата рождения
  • Номер паспорта
  • Адрес
  • Город
  • Страна
  • Email
  • Банковский счет (IBAN)
  • SWIFT код

Требования

  • Python 3.9+
  • FastAPI
  • Dask
  • Pandas
  • Faker
  • Дополнительные зависимости указаны в requirements.txt

Установка

  1. Клонируйте репозиторий:
git clone <url-репозитория>
cd fast_api_data
  1. Создайте и активируйте виртуальное окружение:
python -m venv venv
source venv/bin/activate  # Для Mac/Linux
  1. Установите зависимости:
pip install -r requirements.txt

Использование

  1. Запустите сервер:
uvicorn main:app --reload
  1. Откройте веб-интерфейс:

    • Перейдите по адресу http://localhost:8000 в браузере
    • Заполните параметры генерации:
      • Количество строк
      • Имя выходного файла
      • Размер чанка (для пакетной обработки)
      • Количество воркеров (для параллельной обработки)
      • Записей на файл (опционально, для разделения вывода)
  2. Нажмите "Сгенерировать данные" и дождитесь завершения

  3. Скачайте сгенерированный архив, когда он будет готов

API Endpoints

  • GET /: Основной веб-интерфейс
  • POST /generate-form: Обработка отправки формы
  • GET /status: Проверка статуса генерации
  • GET /download: Скачивание сгенерированного архива

Конфигурация

Основные настраиваемые параметры:

  • Размер чанка по умолчанию: 50 000 строк
  • Количество воркеров по умолчанию: 4
  • Директория данных: 'data'
  • Генерируемые поля и их параметры можно изменить в core/generator.py

Обработка ошибок

  • Валидация всех входных параметров
  • Обработка попыток параллельной генерации
  • Подробные сообщения об ошибках
  • Автоматическая очистка временных файлов

Лицензия

MIT License

Автор

ohhaus

About

Веб-приложение для быстрой генерации больших наборов синтетических персональных данных. Построено на FastAPI и Dask, что обеспечивает высокую производительность за счёт параллельной обработки.

Resources

License

Stars

Watchers

Forks

Releases

No releases published

Packages

 
 
 

Contributors