Задача от  АО «Национальные информационные технологии

 

Дата и время консультации:

27.04.2016 в 10:00

Место:

Инкубатор Tech Garden (БЦ Нурлы тау, блок 5B, 17 этаж

Обратная связь:

+7 708 967 36 99

Задача


Необходимо разработать модель анализа текстовых документов с использованием определенных алгоритмов машинного обучения (например, TF-IDF) для классификации текстовых документов по следующим категориям:

1.   Отчетные документы – информация за конкретный период времени  

(час, день, неделя, декада, месяц, квартал, полугодие, год, несколько лет).

2.   Справочные документы - информация, содержащая описание или

подтверждение фактов и событий.

3.  Информационные документы – вся остальная информация.

 

Обязательные условия:

1.   Модель должна классифицировать текстовые документы в

автоматизированном режиме (источником входящей информации для модели должна быть определенная папка на демонстрируемом компьютере, в которой должны находится несколько файлов поддерживаемого формата, результатом работы модели должны быть три конечные папки: «Отчетные документы», «Справочные документы», «Информационные документы», в которых должны находится соответствующие заданным категориям текстовые документы после обработки).

2.   Поддерживаемый формат текстовых документов: *.txt, *.doc, *.docx, *.xls, *.xlsx, *.pdf (цифровой pdf, не сканированный).  

3.   Текстовые документы поддерживаемого формата должны быть

использованы из открытых интернет источников (сайты государственных органов, национальных компаний, интернет СМИ,

открытые форумы, блог-платформы, другие).

4.   Необходимо указать ссылки на использованные интернет источники

для последующей проверки текстовых документов.

 

Призы:

Возможность прохождения практики в АО «НИТ» с дальнейшим трудоустройством