Intereting Posts
Android: ошибка в launchMode = "singleTask"? -> стек активности не сохранен Используя привязку данных Android, как указать текст фиктивного (или «по умолчанию»), который будет отображаться во время предварительного просмотра макета в Android Studio? Структура ресурсов в Apache Cordova (PhoneGap) и загрузка файлов из файловой системы Метод http post, передающий на сервер значения null «Частный статический конечный» член тестового класса блока Android меняет значение на null Почему метод getOAuthAccessToken всегда запускает исключение в twitter4j api? Gradle не может разрешать зависимости в Android Studio Как разместить два TextView на одной строке в вертикальной компоновке В Visual Studio Emulator для Android по-прежнему поддерживается установка пакета перетаскивания? Тост не показан на Samsung Galaxy S3 (последнее обновление 4.1.2) Ошибка телефона cmd: сбой команды с кодом выхода ENOENT Ошибка: «Невозможно сделать статическую ссылку на нестатический метод findViewById (int) из типа Activity" Android – увеличение / уменьшение местоположения RelativeLayout с распространением / пинчем Есть ли способ подключиться к устройству Bluetooth Low Energy под Android 5, отображая публичный статический адрес? Android программно обновляет apk и видит результат установки

Пользовательский словарь для Tesseract

В настоящее время я работаю над проектом для Android с использованием Tesseract OCR. Я надеялся точно настроить результаты, предоставленные пользователю, добавив словарь. Согласно http://code.google.com/p/tesseractocr/wiki/FAQ , лучший способ сделать это будет

Замените слова tessdata / eng.user своим списком слов в том же формате – текст UTF8, по одному слову в строке.

Однако в папке tessdata нет файла eng.user-words, я предполагаю, что если я просто сделаю текстовый файл с моим словарем в нем, он никогда не будет использоваться ..

Кто-нибудь имел подобный опыт и знает, что делать? Любой совет будет большой помощью.

Solutions Collecting From Web of "Пользовательский словарь для Tesseract"

Если вы используете tesseract 3 (который, как я полагаю, вы есть). Вам нужно будет перестроить файл eng.trainddata, который я намерен полностью заменить файл word-dawg, чтобы попытаться получить лучшие результаты (т. Е. Слова, которые я обнаруживаю, всегда одинаковы).

Вам понадобятся файлы comb_tessdata и wordlist2dawg в каталоге обучения при компиляции tesseract.

  1. Распакуйте все (я сделал это, чтобы создать резервную копию моего eng.word-dawg, вам также понадобится unicharset позже)

    ./combine_tessdata -u eng.traineddata

  2. Создайте текстовый файл вашего списка слов (wordlistfile)

  3. Создать eng.word-dawg

    ./wordlist2dawg wordlistfile eng.word-dawg trainingdat_backup / .unicharset

  4. Замените файл word-dawg

    ./combine_tessdata -o eng.traineddata eng.word-dawg

Это должно быть так.