ಟೆಸೆರಾಕ್ಟ್‌ ಬಂತು ದಾರಿ ಬಿಡಿ; ಓಸಿಆರ್‌ ಮಾಡೋ ಚಿಂತೆ ಬಿಡಿ!

ಟಿಡಿಐಲ್ ರೂಪಿಸಿದ ಕನ್ನಡ ಓ ಸಿ ಆರ್‌ (ಆಪ್ಟಿಕಲ್‌  ಕ್ಯಾರೆಕ್ಟರ್ ರೆಕಗ್ನಿಶನ್‌ : ಚಿತ್ರರೂಪದಲ್ಲಿರುವ ಅಕ್ಷರಗಳನ್ನು ಫಾಂಟ್‌ ಆಗಿ ಪರಿವರ್ತಿಸುವ ತಂತ್ರಜ್ಞಾನ) ತಂತ್ರಾಂಶದ ಬಗ್ಗೆ ಬರೆದಿದ್ದೆ. ಆಗ ಶ್ರೀ ಓಂಶಿವಪ್ರಕಾಶ್ ಅವರು ಟೆಸೆರಾಕ್ಟ್‌ನ 4.0 ಆವೃತ್ತಿಯು ಕನ್ನಡದಲ್ಲಿ ತುಂಬಾ ಚೆನ್ನಾಗಿ ಕೆಲಸ ಮಾಡುತ್ತಿದೆ ಎಂದು ತಿಳಿಸಿ ಪೋಸ್ಟ್ ಹಾಕಿದ್ದರು.

ಇದರ ಬೆನ್ನಿಗೆ ಬಿದ್ದ ನಾನು ವಿಂಡೋಸ್‌ ಕಾರ್ಯಾಚರಣಾ ವ್ಯವಸ್ಥೆಯಲ್ಲಿ (ಓಂಶಿವಪ್ರಕಾಶ್‌ ಅವರು ಲಿನಕ್ಸ್‌ ಬಳಕೆದಾರರು) ಇದನ್ನು ಬಳಸುವ ಬಗ್ಗೆ ಪ್ರಯೋಗಗಳನ್ನು ನಡೆಸಿದೆ. ಮೊದಲು ಒಂದು ಪುಟವನ್ನು ಪರಿವರ್ತಿಸಿದ ನಾನು ಇಂದು 80 ಪುಟಗಳ ಕನ್ನಡ ಪುಸ್ತಕವನ್ನು ಸಲೀಸಾಗಿ, ಕೇವಲ ಹತ್ತು ನಿಮಿಷಗಳಲ್ಲಿ ಸುಮಾರು ಶೇಕಡಾ 90 ಕಾರ್ಯದಕ್ಷತೆಯ ಪ್ರಮಾಣದಲ್ಲಿ ಪಠ್ಯವನ್ನಾಗಿ ಪರಿವರ್ತಿಸಿದೆ. ಇದನ್ನೇ ಡಿಟಿಪಿ ಮಾಡುವುದಿದ್ದರೆ ನನಗೆ ಕನಿಷ್ಠ 2400 ರೂ. ವೆಚ್ಚ ಆಗುತ್ತಿತ್ತು; ಸಾಕಷ್ಟು ಸಮಯವೂ ಬೇಕಾಗಿತ್ತು.    ಹಾಗೆಯೇ ಎರಡು ಕಾಲಂಗಳ ಅತಿ ಹಳೆಯ ಕಿಟೆಲ್‌ ನಿಘಂಟುವಿನ ದ್ವಿಭಾಷಾ ಪುಟವನ್ನೂ ಪ್ರಯತ್ನಿಸಿದೆ. ಶೇಕಡಾ 50 ಫಲಿತಾಂಶ ಬಂತು; ಅಲ್ಲದೆ ಅದು ಎರಡು ಕಾಲಂಗಳನ್ನು ತಾನಾಗಿಯೇ ಗುರುತಿಸಿಕೊಂಡಿತ್ತು!

ಖಂಡಿತವಾಗಿಯೂ ನೀವೆಲ್ಲರೂ ಶೇರ್‌ ಮಾಡಬೇಕಿರುವುದು ಟಿಡಿಐಎಲ್‌ನ ಅತಿ ದುರ್ಬಲ ಫಲಿತಾಂಶ ಓ ಸಿ ಆರ್‌ ಅಲ್ಲ; ಮುಕ್ತ ತಂತ್ರಾಂಶವಲ್ಲದಿದ್ದರೂ ಕೊನೇ ಪಕ್ಷ ಫ್ರೀ ಸಾಫ್ಟ್‌ವೇರ್ ಆಗಿ ಗೂಗಲ್‌ನಿಂದ ಬಿಡುಗಡೆ ಆಗಿರುವ ಟೆಸೆರಾಕ್ಟ್ 4.0 ವನ್ನು!

ಬನ್ನಿ, ಇನ್ನುಮುಂದೆ ಕನ್ನಡದ ಇಮೇಜ್‌ ಪುಟಗಳನ್ನು ಸಲೀಸಾಗಿ ಪಠ್ಯವನ್ನಾಗಿ ಪರಿವರ್ತಿಸಿ; ಅದಕ್ಕಾಗಿ ಟೆಸೆರಾಕ್ಟ್‌ 4.0 ಬಳಸಿ. ನೀವು ಐಟಿ ವಾಲಂಟೀರ್‌ ಆಗಿದ್ದರೆ ಇದನ್ನು ಬೆಳೆಸಿ; ಇದಕ್ಕೆ ವಿವಿಧ ಕಠಿಣ ಫಾಂಟ್‌ಗಳನ್ನು ಊಡಿಸಿ ಕಲಿಸಿ; ಶಾಸನಗಳನ್ನೂ ಓದುವ ಸಾಮರ್ಥ್ಯವನ್ನು ತನ್ನಿ!

ನಾನು ಕನ್ನಡ ಮತ್ತು ಸಂಸ್ಕೃತಿ ಇಲಾಖೆಯು ಓಸಿಆರ್‌ಗಾಗಿ 80 ಲಕ್ಷ ರೂ.ಗಳ ಟೆಂಡರ್ ರದ್ದು ಮಾಡಿಸುವ ಹೋರಾಟದ ಸಂದರ್ಭದಲ್ಲಿ ನಡೆಸಿದ ಓಸಿಆರ್‌ ಪ್ರಾತ್ಯಕ್ಷಿಕೆಯಲ್ಲಿ (https://beluru.com/?p=3511) ಟೆಸೆರಾಕ್ಟ್‌ ಬಗ್ಗೆ ಶ್ರೀ   ಎಂ ಎನ್‌ ಎಸ್‌ ರಾವ್‌, ಓಂಶಿವಪ್ರಕಾಶ್‌ ಮತ್ತು ಅನಿವರ್ ಒತ್ತಾಯಿಸಿದ ಬಗ್ಗೆ ದಾಖಲಿಸಿದ್ದೆ. ಈಗ ಅವರ ಮಾತೇ ನಿಜವಾಗಿದೆ.

ಈ ಮಧ್ಯೆ, ಐಐಎಸ್‌ಸಿಯು ರೂಪಿಸಿ ಮುಚ್ಚಳಿಕೆಯ ಆಧಾರದಲ್ಲಿ ಮಾತ್ರವೇ ನೀಡುತ್ತಿದ್ದ ( ಅದರಲ್ಲಿ ಮೂಲ ಕಡತಗಳನ್ನು ಐಐಎಸ್‌ಸಿಗೆ ನೀಡಬೇಕೆಂಬ ಷರತ್ತೂ ಇತ್ತು!) ಕನ್ನಡ ಓಸಿಆರ್‌ನ ಕೊಂಡಿಯೇ ಕಳಚಿದೆ; ಕಾಣುತ್ತಿಲ್ಲ ಎಂಬುದನ್ನು ಕನ್ನಡಿಗರ ಗಮನಕ್ಕೆ ತರಬಯಸುತ್ತಿದ್ದೇನೆ. ಇಂಥ ಜನವಿರೋಧಿ ಸಂಸ್ಥೆಗೆ ಇನ್ನಾವುದೇ ತಂತ್ರಾಂಶ ರೂಪಿಸುವ ಗುತ್ತಿಗೆಯನ್ನು ಕೊಡಲೇಬಾರದು ಎಂಬುದು ನನ್ನ ಅಭಿಪ್ರಾಯ.

ಟೆಸೆರಾಕ್ಟ್‌ ಡೌನ್‌ಲೋಡ್‌ ಕೊಂಡಿ: http://digi.bib.uni-mannheim.de/tesseract/tesseract-ocr-setup-4.00.00dev.exe (ಇದನ್ನು https://github.com/tesseract-ocr/tesseract/wiki/4.0-with-LSTM#400-alpha-for-windows ಈ ಪುಟದಲ್ಲಿ  4.0.0-alpha for Windows ಅಧ್ಯಾಯದಲ್ಲಿ ನೀಡಿದೆ.

ವಿಂಡೋಸ್‌ನಲ್ಲಿ ಕಮ್ಯಾಂಡ್‌ಲೈನ್‌ ಮೂಲಕ ಇದನ್ನು ಬಳಸಲು ಈ ವಿಡಿಯೋ ನೋಡಿ: https://www.youtube.com/watch?v=rSKYTefQv5g

ಬಹುಪುಟಗಳನ್ನು ಏಕಕಾಲದಲ್ಲಿ ಓಸಿಆರ್‌ ಮಾಡಲು ಆದೇಶ ಕೊಡುವ ಬ್ಯಾಚ್‌ಫೈಲ್‌ ರೂಪಿಸಲು ಈ ಪುಟ ಓದಿ:

https://stackoverflow.com/questions/31680193/how-to-tesseract-multiple-files-in-the-same-folder-from-command-prompt

ಕನ್ನಡ ಮತ್ತು ಇತರೆ ಭಾಷೆಯನ್ನು ಒಟ್ಟಿಗೆ ಓದಲು ಬೇಕಾದ ಸ್ಕ್ರಿಪ್ಟ್ ಬರೆಯಲು ಈ ಮೇಲಿನ ಪುಟದಲ್ಲಿರುವ ಕಾಮೆಂಟ್‌ಗಳನ್ನು ಗಮನಿಸಿ.

(ವಿಂಡೋಸ್ ಬಳಕೆದಾರರು ಕಮ್ಯಾಂಡ್‌ ಪ್ರಾಂಪ್ಟ್ ಮರೆತೇಬಿಟ್ಟಿರುವುದರಿಂದ ಸ್ವಲ್ಪ ಕಷ್ಟ ಇದೆ. ನಾನೂ ಎರಡು ದಿನ ಕಷ್ಟಪಟ್ಟು ಕಲಿತೆ… ಬಹುಪಾಲು ಬಾಯಿಪಾಠ ಮಾಡಿ!!)

ಟೆಸೆರಾಕ್ಟ್‌ ಬೆಂಬಲಿಸುವ ಇತರೆ ಭಾಷೆಗಳು: ಬೆಂಗಾಲಿ, ಹಿಂದಿ, ಮಲಯಾಳಂ, ತಮಿಳು, ತೆಲುಗು, ಅಸಾಮೀ, ಗುಜರಾತಿ, ನೇಪಾಳಿ, ಒಡಿಯ, ಪಂಜಾಬಿ, ಸಂಸ್ಕೃತ, ಟಿಬೆಟನ್ ಇತ್ಯಾದಿ.