Tesseract.js przynosi przeglądarkom tłumaczenie OCR obrazu

Tłumaczenie OCR nadal nie jest doskonałe, ale w ciągu ostatnich kilku lat znacznie się poprawiło. Drogą wiodącą jest Tesseract silnik tłumaczeń obecnie otwarte źródło do++.

Chociaż jest to niesamowita biblioteka, jest ona jednak ograniczona do oprogramowania. Na szczęście ktoś stworzył port Tesseract w JavaScript, który nazywa się Tesseract.js. To obsługuje do 60 języków i chociaż z pewnością nie jest doskonała, dobrze spełnia swoje zadanie.

Instalacja i konfiguracja to bardzo proste rozwiązanie wyceluj w dowolny element obrazu na stronie i uruchom Tesseract.recognize () funkcjonować. Może to zrobić dowolny rodzaj obrazu i automatycznie kompresuj i tłumacz w przeglądarce.

Możesz uzyskać o wiele bardziej skomplikowane, ale piękno jest jak możesz uruchomić OCR za pomocą jednej linii kodu.

Sprawdź stronę docelową Tesseract.js, jeśli chcesz zobaczyć prezentację na żywo. To działa w przeglądarce, gdzie możesz przeciągnij i upuść zeskanowany obraz tekstu, aby uzyskać automatyczne tłumaczenie OCR.

Możesz także pobrać ten przykład lokalnie za pośrednictwem strony GitHub lub zbudować własną aplikację, dołączając skrypt Tesseract.js bezpośrednio z CDN.

Najprostszy przykład kodu wygląda następująco mój obraz jest bezpośrednim odniesieniem do elementu obrazu HTML:

 Tesseract.recognize (myImage) .then (funkcja (wynik) console.log (wynik));

Tak czy inaczej ta biblioteka jest tak pomocna, aby przejść z OCR w Internecie. To jest dalekie od doskonałości, ale to także najlepsze źródło dla twórców stron internetowych, którzy chcą dynamicznej funkcjonalności OCR na stronie.

Aby dowiedzieć się więcej, odwiedź stronę GitHub Tesseract.js, gdzie możesz sprawdzić demo na żywo i przejrzeć dokumentację online.