АИС Предбиллинг - это инновационное решение для автоматизации процесса обработки и анализа документов в сфере энергетики. Она основана на использовании передовых технологий, таких, как нейросеть и компьютерное зрение, что позволяет обрабатывать документы практически любого формата и вида.
С помощью нейросети программа способна распознавать основные понятия в сфере энергетики на русском языке, что значительно упрощает процесс обработки и анализа данных. Благодаря использованию алгоритмов компьютерного зрения, программа может легко находить в документе таблицы и другие графические данные, а при необходимости восстанавливать документ к нормальному виду для дальнейшей обработки.
АИС Предбиллинг предназначена для автоматической загрузки и первичной обработки следующей информации:
Информация может поступать в виде файлов по электронной почте, на сетевом ресурсе, ftp, путем интеграции с шиной данных (на основе RabbitMQ) или прямой интеграцией с системами-источниками данных или сайтами. По окончании загрузки система выдает протокол с указанием результата загрузки для каждого файла.
Структурная схема АИС Предбиллинг представлена на схеме:
Система состоит из функциональных микросервисов, работающих как отдельные процессы на сервере. Между собой микросервисы общаются путем передачи сообщений через собственный брокер сообщений RabbitMQ. При необходимости, возможна интеграция со сторонними системами с использованием сервиса очередей сообщений – входящая информация может поступать прямо в очередь сообщений Системы
«Транспорт»- обеспечивает поступление информации. Состоит из процедур опроса сетевых ресурсов, ftp, почты, CRQ-интерфейса «Энергосфера», сервера «Пирамида», сайта АТС, сайтов ГП и др. Полученная информация в виде файлов сохраняется в файловое хранилище и передается на распознавание
«Нейронная сеть (ENN)» - Специально разработанная нейронная сеть, задача которой определять типы документов и распознавать внутренне содержимое документов.
«Компьютерное зрение (CV)» - Вспомогательный блок нейронной сети, который позволяет преобразовать любые файл в данные для обработки нейронной сетью. Наделяет сервис способностью «видеть» и извлекать информацию из увиденного.
«Сохранение» - сохранение данных в локальное хранилище АИС Предбиллинг, а также передача данных в Биллинговую систему с использованием коннектора.
«Валидация» - Набор методов для проверки привольности полученных данных.
«API» - интерфейс для подключения сторонних поставщиков и потребителей данных.
Наиболее сложными с технической точки зрения являются процессы определения формата, идентификации и валидации для XLS-файлов. Разбор файлов происходит в 3 шага: первичный анализ документа компьютерным зрением, построение модели при помощи нейронной сети и вариация собранной модели. К модели Excel могут быть предварительно приведены файлы форматов PDF (кроме сканированных) и DOC.
Первичный анализ документа компьютерным зрением: Самый сложный алгоритмически шаг, так как для сервиса документ представляет собой просто набор буков и цифр в матрице. Нужно проанализировать документ и «увидеть» таблицы и другие данные.
Сервис умеет считывать из ячеек видимые границы и строить из них модели таблиц, разделяя на заголовок и табличные данные. Так же это позволяет разделить данные в документе на табличные и остальные ячейки. Предусмотрен набор алгоритмов, которые помогают достраивать таблицы, если они были плохо построены изначально или построить таблицы, не имеющих видимых границ.
Построение модели при помощи нейронной сети: После нахождения таблиц и отделения от других ячеек происходит нейроноструктурное определение документа. Нейронная сеть считывает все заголовки таблиц ячейки вокруг таблиц и заметки в документе. Далее она формирует результат в виде типа документа: почасовые данные, интегральные показание или другие, основываясь на модели, полученной в результате обучения на примерах. Дополнительно накладываются некоторые структурные особенности документов, которые корректируют результат нейронной сети.
Валидация: после построения модели и получения типа документа происходит проверка модели на правильность определения типа и полноту данных в ней. После успешного прохождения валидации документ проходит на этап сохранения, а при ошибке валидации формируется отчёт и направляется в виде ответного сообщения источнику. Если документ пришел по электронной почте, ответ будет выслан ответным сообщением.
Обработка PDF: PDF документ проходит конвертирование в Excel формат и подаётся на обработку как Excel.
Обработка TXT, CSV, HTML: Так как эти форматы являются примитивными, то они обрабатываются линейной логикой с небольшой поддержкой нейронной сети для определения типов документов.
Обработка XML: В процессе загрузки происходит проверка формата файла на соответствие xsd-схемам. Файлы, которые не соответствуют ни одной из схем из библиотеки, не загружаются, отправителю возвращается ответ о неуспешной загрузке.
Система нормализации документов: Примерно в 80% отправляемых документах присутствует ошибки в заполнении данных и/или неправильное оформление документов. Например, «сломанное» оформление таблицы, много пустых ячеек с табличным оформлением и т.д. и т.п. Это усложняет анализ документа и является основным местом появление ошибок при анализе документа. Перед анализом компьютерным зрение системы пытается нормализовать документ исправляя ошибки, допущенные человеком при заполнении.
Для получения описания сервисов можно воспользоваться утилитой Swagger.
В системе предусмотрено логгирование всех операций в локальный файл и в базу данных, отправка сообщений об ошибке на электронную почту администратору (адрес электронной почты прописывается локально в конфигурационном файле).
Для администрирования АИС Предбиллинг и управления работой системы разработан веб-интерфейс, при помощи которого можно просматривать логи работы системы, управлять расписанием, настройками загрузки информации и отправки отчетов о работе.
Пример конфигурации сервера для установки АИС ПредбиллингМодуль интеграции АИС Предбиллинг имеет стандартные программные интерфейсы, позволяющие быстро реализовать интеграции с различными биллинговыми системами для автоматизации различных бизнес-процессов.
Модуль интеграции с АСУСЭ обеспечивает следующие функции: