| LANGUAGE_TO_TESSERACT_CODE = { | |
| 'Afrikaans': 'afr', | |
| 'Amharic': 'amh', | |
| 'Arabic': 'ara', | |
| 'Assamese': 'asm', | |
| 'Azerbaijani': 'aze', | |
| 'Belarusian': 'bel', | |
| 'Bulgarian': 'bul', | |
| 'Bengali': 'ben', | |
| 'Breton': 'bre', | |
| 'Bosnian': 'bos', | |
| 'Catalan': 'cat', | |
| 'Czech': 'ces', | |
| 'Welsh': 'cym', | |
| 'Danish': 'dan', | |
| 'German': 'deu', | |
| 'Greek': 'ell', | |
| 'English': 'eng', | |
| 'Esperanto': 'epo', | |
| 'Spanish': 'spa', | |
| 'Estonian': 'est', | |
| 'Basque': 'eus', | |
| 'Persian': 'fas', | |
| 'Finnish': 'fin', | |
| 'French': 'fra', | |
| 'Western Frisian': 'fry', | |
| 'Irish': 'gle', | |
| 'Scottish Gaelic': 'gla', | |
| 'Galician': 'glg', | |
| 'Gujarati': 'guj', | |
| 'Hausa': 'hau', | |
| 'Hebrew': 'heb', | |
| 'Hindi': 'hin', | |
| 'Croatian': 'hrv', | |
| 'Hungarian': 'hun', | |
| 'Armenian': 'hye', | |
| 'Indonesian': 'ind', | |
| 'Icelandic': 'isl', | |
| 'Italian': 'ita', | |
| 'Japanese': 'jpn', | |
| 'Javanese': 'jav', | |
| 'Georgian': 'kat', | |
| 'Kazakh': 'kaz', | |
| 'Khmer': 'khm', | |
| 'Kannada': 'kan', | |
| 'Korean': 'kor', | |
| 'Kurdish': 'kur', | |
| 'Kyrgyz': 'kir', | |
| 'Latin': 'lat', | |
| 'Lao': 'lao', | |
| 'Lithuanian': 'lit', | |
| 'Latvian': 'lav', | |
| 'Malagasy': 'mlg', | |
| 'Macedonian': 'mkd', | |
| 'Malayalam': 'mal', | |
| 'Mongolian': 'mon', | |
| 'Marathi': 'mar', | |
| 'Malay': 'msa', | |
| 'Burmese': 'mya', | |
| 'Nepali': 'nep', | |
| 'Dutch': 'nld', | |
| 'Norwegian': 'nor', | |
| 'Oromo': 'orm', | |
| 'Oriya': 'ori', | |
| 'Punjabi': 'pan', | |
| 'Polish': 'pol', | |
| 'Pashto': 'pus', | |
| 'Portuguese': 'por', | |
| 'Romanian': 'ron', | |
| 'Russian': 'rus', | |
| 'Sanskrit': 'san', | |
| 'Sindhi': 'snd', | |
| 'Sinhala': 'sin', | |
| 'Slovak': 'slk', | |
| 'Slovenian': 'slv', | |
| 'Somali': 'som', | |
| 'Albanian': 'sqi', | |
| 'Serbian': 'srp', | |
| 'Sundanese': 'sun', | |
| 'Swedish': 'swe', | |
| 'Swahili': 'swa', | |
| 'Tamil': 'tam', | |
| 'Telugu': 'tel', | |
| 'Thai': 'tha', | |
| 'Tagalog': 'tgl', | |
| 'Turkish': 'tur', | |
| 'Uyghur': 'uig', | |
| 'Ukrainian': 'ukr', | |
| 'Urdu': 'urd', | |
| 'Uzbek': 'uzb', | |
| 'Vietnamese': 'vie', | |
| 'Xhosa': 'xho', | |
| 'Yiddish': 'yid', | |
| 'Chinese': 'chi_sim', | |
| } | |
| TESSERACT_CODE_TO_LANGUAGE = {v:k for k,v in LANGUAGE_TO_TESSERACT_CODE.items()} | |