У Національному корпусі кримськотатарської мови вже є понад вісім сотень матеріалів
За вісім місяців роботи до Національного корпусу кримськотатарської мови опрацювали та внесли понад 800 матеріалів.
Про це розповіли в уряді.
Платформу для дослідження кримськотатарської мови, що працюватиме на даних з текстів, почали збирати торік.
У корпусі матеріали викладені чотирма графічними системами: арабською графікою, довоєнною латиницею, кирилицею та сучасною латиницею.
За даними урядовців, на платформі зібрали вже твори понад 200 авторів. Серед тисяч друкованих сторінок, які внесли до каталогу, є вірші 1646–1647 років авторства Ашика Умера, газети, серед яких випуски видання “Терджіман” за 1883 рік, журнали, підручники, наукові статті та міжнародно-правові документи.
“Процедуру розпізнавання та форматування пройшли вже 54% матеріалів. До завантаження на платформу корпусу підготовлено 25% від запланованого обсягу матеріалів”, – звітують вони.
Укладачі корпусу раніше казали, що їм бракує гумористичних текстів, доробок медіа та текстових файлів кіно і театру, наприклад, сценаріїв. До наповнення корпусу можуть долучитись усі охочі, а тому тексти просять надсилати за посиланням e.ctcorpus.org.
Окрім того, що корпус має допомогти досліджувати мову початківцям, він має також стати поштовхом для впровадження кримськотатарської в операційних системах та онлайн-перекладачах.
Нагадаємо, що ЮНЕСКО зараховує кримськотатарську мову до числа тих, що потребують захисту. Окрім цього, кримськотатарська є мовою кримських татар – одного з корінних народів України, який зазнає утисків і репресій у тимчасово окупованому Росією Криму.
Нещодавно українська співачка кримськотатарського походження Джамала випустила збірку традиційних кримськотатарських пісень, які збирала багато років з командою на півострові.
Фотографія обкладинки: Kostyantyn Chernichkin