Тестовое задание
№2
Имеется файл transactions.txt (в рамках задания не предоставляется) размером 250GB, содержащий в себе записи о транзакциях клиентов банка в отдельно взятый день.

Файл доступен локально. Можно считать, что он расположен в "/usr/local/data/transactions.txt" на той машине, на которой будут выполняться вычисления. Характеристики машины для вычислений: Unix-like OS, 8 CPU Cores, 16GB RAM, 600Gb свободного дискового пространства на HDD.


Формат записей в файле:
номер записи, id клиента, объем транзакции (в рублях), сегмент клиента

Пример начала файла:
1,ADF346274,1000,R
2,JDY272800,600,AF
3,ADF346274,2460,R
4,TDG254776,4000,R
5,RYE846234,70000,AF

Имеются следующие гарантии относительно содержимого файла:
— ID клиента имеет вид XXX000000;
— объем транзакции всегда положительное целое число;
— сегмент клиента может принимать только одно из двух значений {R, AF}.
Задание:
Напишите программу на Python 3.7, которая:
1. Подсчитает количество клиентов для каждого из сегментов, совершавших транзакции.
2. Подсчитает средний объем отдельной транзакции в каждом из сегментов.
3. Подсчитает 90% доверительный интервал для среднего объема отдельной транзакции в каждом из сегментов.
4. Проверит гипотезу о равенстве средних объемов отдельных транзакций между сегментами при уровне значимости 10%.
Приложите ссылку на код, размещенный на любом из удобных для вас ресурсов (например, GitHub Gist).
Ответы вносите в поля формы
E-mail*
Имя*
Фамилия*
Ссылка на решение:
Комментарий к решению (если есть)