Самый детальный видеокурс по 1С:Документооборот

Извлечение текстов в 1С:Документооборот

Как настроить автоматическое извлечение текстов в 1С:Документооборот на сервере приложений 1С?

Для работы полнотектового поиска в 1С:Документооборот по содержимому файлов нужно, чтобы программа 1С:Документооборот могла извлекать тексты. 1С:Документооборот умеет извлекать тексты из файлов популярных форматов средствами операционной системы Windows для дальнейшего использования в полнотекстовом поиске. Данная процедура в клиент-серверном варианте под Windows должна производиться на сервере.


Настройка извлечения текстов подробно рассмотрена в вебинаре "Правильная установка 1С:Документооборот", запись которого можно посмотреть по ссылке.

В Windows обязательно надо проверить региональные настройки (особенно это важно, если Windows не русский). Если русский язык в системе не установлен, то при извлечении русских текстов на сервере 1С будут проблемы, так как извлечение текстов осуществляется средствами операционной системы MS Windows.
 
Для того, чтобы извлечение текстов в 1С:Документооборот производилось на сервере, надо включить настройку «Извлекать тексты только на сервере» в настройках программы.

За это отвечает регламентное задание «Извлечение текста».
Из форматов txt, html, doc, xls текст будет извлекаться средствами Windows. А вот из форматов docx и xlxs – нет. Для извлечения текстов данных форматов в 1С:Документообороте надо установить Pack от Microsoft.
Есть 32 и 64 битные версии Pack-ов от Microsoft. Все зависит от разрядности сервера 1С:Предприятия. Ставим тот, который нам подходит. Скачиваем с сайта microsoft по ссылке http://www.microsoft.com/ru-RU/download/details.aspx?id=17062 файлы Filters:

  • FilterPack32bit.exe или
  • FilterPack64bit.exe.

Запускаем фильтр-пак и устанавливаем его.
Для извлечения текстов из pdf файлов с текстовым слоем в 1С:Документооборот нужно установить IFilter. Есть разные версии iFilters: платные и бесплатные, под разные форматы (в том числе и  для Autocad).  PDF является самым популярным форматом у пользователей.
Есть 32 и 64 битные версии PDF IFilter. Все зависит от разрядности сервера 1С:Предприятия. Ставим тот, который нам подходит. Скачиваем с сайта adobe по ссылкам фильтры:


Запускаем PDF Filter и устанавливаем его.
В программе 1С:Документооборот под Администратором установим в настойках программы флаг «Извлекать тексты только на сервере». Это нужно для того, чтобы извлечение текстов не зависело от того, где работают пользователи (в тонком клиенте под Линукс и в браузерах извлечение текстов не работает).
Загрузим файлы в формате doc и в формате pdf в хранилище Файлы.

Проверим тестовые образы файлов pdf и doc.

Видим, что содержимое файлов успешно извлекается.
Проверим расписание регламентного задания «Извлечение текста».
И проверим, как выполнялись фоновые задания.


Комментариев нет:

Отправить комментарий