Этот код предназначен для анализа данных о зарплатах разработчиков из Stack Overflow за период с 2011 по 2024 год (с возможностью подгрузки будущих годов). Основные задачи проекта включают:
- Обработку сырых данных из CSV-файлов
- Нормализацию названий профессий и стран
- Корректировку зарплат с учетом инфляции
- Создание единой базы данных для последующего анализа
IT_аналитика.ipynb- Jupyter Notebook с кодом обработки данныхProfessionsDict.json- словарь для нормализации названий профессийit_professions_db.sql- SQL-скрипт для создания структуры базы данных PostgreSQL
- Python 3
- Pandas для работы с данными
- CSV для чтения/записи файлов
- Регулярные выражения для обработки текста
- PostgreSQL для хранения нормализованных данных
- Нормализация профессий:
- Создан словарь для унификации названий профессий за разные годы
- Учтены изменения в классификациях Stack Overflow
- Обработка зарплат:
- Корректировка на инфляцию с приведением к 2024 году
- Удаление некорректных значений
- Работа со странами:
- Унификация названий стран
- Выявление общего списка стран за весь период
- База данных:
- Нормализованная структура с таблицами стран, профессий и языков программирования
- Связь респондентов с их навыками и демографическими данными
- Клонируйте репозиторий
- Для работы с базой данных:
- Установите PostgreSQL
- Выполните скрипт
it_professions_db.sqlдля создания структуры БД - Импортируйте данные из CSV-файлов с помощью команд COPY
- Для работы с Jupyter Notebook:
- Убедитесь, что все CSV-файлы с данными находятся в папке
/content/ - Запустите
IT_аналитика.ipynb - Результаты будут сохранены в
ProfsDF.csv
- Убедитесь, что все CSV-файлы с данными находятся в папке