Коллеги, у кого свободный завтрашний вечер? Для обработки больших файлов формата Excel нужно сделать конвертер, который позволит быстро вставдять данные в БД Postgres.
1) Конвертировать данные из Excel в CSV. Важно правильно поставить разделители чисел и даты. Конвертация файла из 60 000 строк должна занимать не больше 2-х минут на нормальном железе.
Пример конвертера на Python:
(Проверил, за 2 минуты укладывается, но формат дат делает неправильный.
CSV нужен только потому что отдельными insert-ами Postgres очень долго вставляет данные.
2) После конвертации в CSV нужно скормить файл в PgLoader:
3) Строки, которые по каким-либо причинам не удалось импортировать в БД, сложить в отдельный файл Excel.
Программа должна работать из командной строки Linux Debian.
Например:
data_loader -f исходный_файл.xls -d "pgsql:database=db1:user=123"