Ульяна БАБИЙ
gazeta@ks.chukotka.ru
Ӆыгъоравэтӆьэн йиӆииӆ рачӄэвымгогъэ таӆяӈкэнанвэпы ытъыёӆягты кытъыматынвэты: тъививэ йиӆыӆьы тъививыӆьэ нэпӆыткуэн рытомгавкы ранъав ваӆьын корпус – электронкэн рычаакавъёттэ ынӄэнагты ёнрыёттэ ынкъам тувъёттэ кэӆит, вэтгавыт ӆыгъоравэтӆьа йеӆымэӆ ынръа нантэнмавыркынат рыванватынвэты «Яндекс.Переводчик».
Йиӆииӆ, ынӈытъэ ваӆёмъё ытръэч эмнуӈ рэмкык ынкъам аӈӄчормы нымык ытъыёӆягты ръиӆегъи тор вагыргэты. 2025 гивик ӆыгъоравэтӆьэн йиӆииӆ рымагтыгъэ ръэтыӈӄачагты энарыӆгаткаӆе вагыргэты: нэпӆыткуэн ытъыёӆкэн тыӆянвын рытомгавынвыкэн майӈы ранъав корпусэн. Мытӆыӈэн ӄӆиккин таучын ӄэгӆынан ваӆьыт, ёнрыёттэ каӆейпы ынкъам газетайпы гаӆяӆьы вагыргэпы вэтгавыт тэнмавытваркыт амра вэтгавӈа йиӆе аӆгаритмэн ынкъам машинакэн йеӆыӆьатынвэпы.
Нымайыӈӄэнайӈын ым регионык энанӆягыргын томгатъэ рэнмыгиӈкы АНО «Чукотский арктический научный центр». Ӈутку нанымгоӈавын мигчир амран томгавгӈа «Национальный корпус чукотского языка» — ынӄэна инэнӆетэ ванэван ытръэч ынгытамавын йиӆииӆ нэрэн пэӆӄынтэвыркын яанвэты ымваӈэт пэнинэмиӆ тор вагыргыкэн чувчываӆьэты. Ранъав нытомгаттыӆяӄэн ранъавкэн корпус ӆыгъоравэтӆьайеӆы-русиӆьинэт вэтгавтомгыт — раӆӄаӈынвыӆӄыӆ яачы яанвэты рытэнмавынвыт машинакэнат йеӆыӆьатынвыт.
Гамэгчерымгоӆенат микырык ӆыги ныӆгыӄин ӆыгъоравэтӆьа йиӆииӆ ынкъам авын вагыргын: Борис Ыттыгыргын, Григорий Ранаврольтын, Вера Грачёва, Антонина Кергитваль. Вэтгавъйыръык энантомгавыӆьо гитӆинэт Виктория Вылко, Галина Пенелькут, Анна Гыргольгыргына, Ирина Коравье, Александра Пенелькут, Елена Авдащенкова, Михаил Голбцев. Энантомгавынвэты чеэкэевъэт ымы кэӆиткуӆьыт Эквы каӆеткорак экономикак инэнӆеӆьу ынкы гатваӆен Александр Иванов. Ыммэгчеранма ӈинъэйвыткуӆьу гитӆинэт авын вэтгавыӆьыт ӆыгъоравэтӆьа йиӆымиӆ мъанымгыпы Чукоткак, ӄэӆюӄ ытръэч ыргынан ӆыги миӈкыри ныӄуӆиӆьэтӄин ӆыгэвэтгав.
Эвын унпычьу энанӆянвык гэнъэтӆин каӆевэтгав сканер, коръё каӆетъоӆгыпы йыӆьёттэ Чукоткакэн отделенията Сбербанка. Ынӄэна оборудованията регионкэн оборудованията вараткэн организацията «Чычеткин вэтгав» («Родное слово») юнрыринэт энарыӆгат форматэты ӄымэг ӆуур ӈирэче кыӆгыӈкэн кэӆит, тайкыёттэ 1940-гэвэтагнэпы 1980– гэвэтагнэты. Пэтатыӆьыт каӆевэтгавыт, иӆгэттыӆеӆьын шрифт, таӈ гынрэтъёттэ каӆевэтгаврак кэӆит – ымыӆьо ынӄэнат тор вагыргы нымытвамгоат.
Вэнратгыргэпы Департаментата образования и науки Чукоткакэн АО мэчынкы нэпӆыткуэн ытъыёӆкэн этап. Йоёӆӄыӆ найоан: мынгыткэн ӄӆиккин таучын вэтгавъйыръыт нэгичинэт, нэнмигчирэвынэт, натантэнмыӈынат. Намгоан ӈирэӄэв этап, мэӈко нараёӈынат гэчеёттэ рытэнмав сайтагты «Национальный корпус чукотского языка» ынӄоры ымыӆьо рытэнмавъёттэ нараёӈынат «Яндекс.Переводчик». Ӄырымэн ынӄэн тымӈэ кыӆяёӆӄыӆ – ынӄэн тытыӆ ымвагыргы майӈы энарыӆгат коммуникациягты.
Ытъыёӆ вэтгаквыпы «КС», мигчир нэнӆеркын Ымварат мынгыткэн гэвэӈэт ораяаӆьэты чиниткин йиӆыт (2022 гэвэтагнэпы–2032 гэвэтагнэты) авын вэнратынвэпы Федералкэн агентствата энанмэгчеравынвэпы вараттэ (ФАДН) ынкъам Ярата варатэн Россиякэнат. Ӆыгэяагты ваӆьыӆӄыӆ ынӄэн тыӆян гатвыӆен Ӈирэкэв Авынтыӆя сессияк «Информационные технологии и языки народов России», гаӆяӆьын Москвак кыткытык 2025 гивик. Инэнӆеӆьын ФАДН Россиякэн Игорь Баринов гивӆин, яачыкэн вагыргын йиӆыкин варатэн ымнотаеквэкэн рыкыӆватытваркын энарыӆгаткаӆе вагыргэты.
Омакатынвык мэгчер группак ФАДНак инэнӆеӆьын отдела гыёӆятынвык йиӆыт Чукоткак АНО «Чукотский арктический научный центр» и председатель РОО «Чычеткин вэтгав» Виктория Каврана рыкаӆыровнэнат тайкыёттэ мигчирыт. Ынан тувнэнат тайкыёӆӄыӆтэ мигчитти амран пытвынтанӈа, эмрэ тэнкэвӈыӈэ ынкъам амран тэнмавӈа вэтгавъйыръыт, тувнэн ымы рытэнмавъё тъивив тэминӈыӆьин – йиӆымигчитӆьэн ынкъам йиӆыӆьин, IT-гыютӆьин ынкъам авын вэтгавыӆьэн.
– Ванэван мынтымӈэ энарыӆгаткаӆевынат вэтгавыт. Ынӄэната ӈиныӆьэ ӆыгъоравэтӆьа варатгыпы нэрэн чикувӈын таӆяӈкэнавагыргын ытъыютӆьин. Чама гаймаӈэн нэрэйгуӆетыркын чиниткин йиӆииӆ энарыӆгаткаӆе вэтгаквыпы. Ӄымэӆ гаймаӈэн наранвэтгаватымгоӈын ымвагыргын йиӆе вэтгавык яаё таӆяӈкэнавагыргык эмнуӈкы, – гивӆин специалист.
Энантомгатгыргын йеӆыйгоӆят корпуса – мигчир нэӈъэӆӄин, нитчыӄин, ваӆьыӆӄыӆ ванэван ытръэч техникакэн рычековынвын, ымы чечавъёӆӄыӆ ягтаӆ выентоӆьын йиӆииӆ. Ямга вэтгавъйыръын рычекотковъёӆӄыӆ, ямга рыеӆыӆьавъё тэкэм ӄэгӆын ваӆьыӆӄыӆ. Яачы энанпытвынтатъёгыргын, тайкыёӆӄыӆтэ аӆгоритмат автоматикакэн энанмэгчератынвын. Йыпатгыргын ӆыгъоравэтӆьа йеӆыеӆ «Яндекс.Переводчик»эты ӄырымэн ытръэч техноӆогиякэн йонвын. Ынӄэн ымыӆьорык ӆьоёӆӄыӆ иӈӄун ынӄэн йиӆииӆ ваӆьыӆӄыӆ тор вагыргык.
– Регионкэн вараткэн организацията «Чычеткин вэтгав» ымыӆьо микырык нэвинрэнмык мытивыркынитык вэӆынкыӄунэтури, ынӄэн: Сбербанк, округкэн Департамент образования и науки, ФАДН Россиякэн, Яраӈы вараткэн Россиякэн. Вэнратгыргэпы ӆыгъоравэтӆьа йиӆииӆ вэӄэтыркын энарыӆгаткаӆе ванвэты, ӆёӈын тымӈэва чиниткин ӄэӆеӆвынчыкукин, – пыӆыткугъи вэтгавык Виктория Кавры.
Инэнтэнкэвӈын «КС»
«Яндекс Переводчик» – веб-служба, рытэнмавъё эмрэн йиӆыӆьэвӈэ каӆевэтгав ӆымӈэвыр веб-страница винрэттумгу ныпириӄин ченет гыёӆят алгоритм статистикакэн машинакэн йиӆыӆьэтыӆьын. Системата нэнатараӈӄэнат вэтгавъёчгыт тэнмычьыт рычикувыпӆытку нымкыӄинэт рыеӆыӆьавъёттэ каӆевэтгавыт. Рыеӆыӆьавъёӆӄыӆ каӆевэтгав компьютерата нэнантэнмычьавӄэн вэтгавъйыръымкык, ынӄоры нэнантэнмычьавӄэн тэнмычьы йиӆык, нинэрэчичевӈыӄин йиӆе тувъёттэ каӆевэтгавыт. Ӈирэӄ гивиӈик «Яндекс.Переводчике» ӈэръа пароӆявъэ йеӆепы варатэн Россиякэн. Томгатъат бурятыӆьэн, кабардино-черкесскакэн, карачаево-балкарскакэн, коми, мокшанскакэн, осетинаӆьэн, тувинскакэн, эрзянскакэн. Башкирскакэнагты ынкъам чувашскакэнагты нинээрынэт технологият синтеза ынкъам аӆкыӆынвыт вэтгавэн. Таӆпыма 2025 гивиӈит чит нинээрӄинэт ӈэръамытӆыӈэн йиӆыт, ынкыг рээн абазинскакэн, мансийскакэн, ногайскакэн ынкъам чеченскакэн. Ӆыгъоравэтӆьэн йиӆииӆ нэюнрыэн мэгчерынвэты ӄуӆи йиӆык рээн ӄынур уйӈэ нъэӆтыӆеӆьын, ынкыг рээн – вепсскакэн, мансийскакэн, ненецкакэн, хантыйскакэн.
Родное слово в эпоху цифры
Включение чукотского языка в «Яндекс.Переводчик» станет не просто технологическим достижением, а признанием его значимости и права на существование в современном мире
Ульяна БАБИЙ
gazeta@ks.chukotka.ru
Чукотский язык стоит на пороге исторического прорыва: команда языковых активистов завершила создание параллельного корпуса – электронного собрания специально обработанных и аннотированных текстов, выражений, словоформ на чукотском языке и готовит его к интеграции в «Яндекс.Переводчик».
Для языка, который ещё недавно чаще звучал в стойбищах оленеводов и в прибрежных сёлах, это настоящий рывок в будущее. В 2025 году чукотский язык преодолел важнейший рубеж на пути в цифровой мир: завершён первый этап создания масштабного параллельного корпуса. Сто тысяч живых, настоящих, выхваченных из книг и газет прошлых десятилетий словоформ теперь готовы к тому, чтобы заговорить на языке алгоритмов и машинного перевода.
Масштабная для всего региона инициатива родилась в стенах АНО «Чукотский арктический научный центр». Здесь началась работа над «Национальным корпусом чукотского языка» – проектом, который призван не просто сохранить язык, но вернуть его в повседневную жизнь современных чукчей. Параллельно формировался первый корпус чукотско-русских словоформ – фундамент для будущей интеграции в сервисы машинного перевода.
К работе подключились лучшие знатоки чукотского языка и культуры: Борис Ыттыгыргын, Григорий Ранаврольтын, Вера Грачёва, Антонина Кергитваль. Набор словоформ вели Виктория Вылко, Галина Пенелькут, Анна Гыргольгыргына, Ирина Коравье, Александра Пенелькут, Елена Авдащенкова, Михаил Голбцев. В процесс включились даже студенты Высшей школы экономики под руководством Александра Иванова. На протяжении всей работы шли непрерывные консультации с носителями языка из сёл Чукотки, ведь только они могли подтвердить точность каждой формы, каждого оттенка значения.
Технической опорой проекта стал книжный сканер, приобретённый на средства Чукотского отделения Сбербанка. С помощью этого оборудования региональная общественная организация «Чычеткин вэтгав» («Родное слово») перевела в цифровой формат более 30 книг, изданных с 1940-х по 1980-е годы. Пожелтевшие страницы, выцветший шрифт, бережно хранимые в библиотеках издания, – всё это обрело новую жизнь.
Поддержка Департамента образования и науки Чукотского АО позволила завершить первый этап в срок. Цель достигнута: 100 тысяч словоформ собраны, обработаны, сверены. Теперь начинается второй этап, предполагающий внесение всех данных на специальный сайт «Национальный корпус чукотского языка» и передачу материалов в «Яндекс.Переводчик». Это уже не просто техническая задача – это дверь в мир глобальных цифровых коммуникаций.
Как ранее сообщал «КС», работа ведётся в рамках Международного десятилетия родных языков (2022 – 2032 годы) при содействии Федерального агентства по делам национальностей (ФАДН) и Дома народов России. Важность этого направления подчёркивалась на II Стратегической сессии «Информационные технологии и языки народов России», прошедшей в Москве весной 2025 года. Руководитель ФАДН России Игорь Баринов отметил, что будущее языков народов страны неразрывно связано с цифровой средой.
На заседании рабочей группы при ФАДН руководитель отдела изучения языков Чукотки АНО «Чукотский арктический научный центр» и председатель РОО «Чычеткин вэтгав» Виктория Кавры представила отчёт о проделанной работе. Она рассказала о планах по активному сканированию, редактированию и коррекции словоформ, о формировании команды специалистов – лингвистов, переводчиков, IT-экспертов и носителей языка.
– Это не просто цифровизация текстов. Это возможность для молодого поколения чукчей прикоснуться к наследию предков через современные технологии. Возможность изучать родной язык с помощью машинного перевода и проверки правописания. Возможность говорить с миром на языке, который веками звучал в тундре, – подчёркивает специалист.
Создание языкового корпуса – работа кропотливая, требующая не только технической экспертизы, но и глубокого понимания живой материи языка. Каждая словоформа должна быть выверена, каждый перевод – точен. Впереди – сканирование, распознавание, редактирование, создание алгоритмов автоматической обработки. Включение чукотского языка в «Яндекс.Переводчик» станет не просто технологическим достижением. Это будет признание его значимости, его права на существование в современном мире.
– Региональная общественная организация «Чычеткин вэтгав» благодарит всех, кто поддержал этот проект: Сбербанк, окружной Департамент образования и науки, ФАДН России, Дом народов России. Благодаря этой поддержке чукотский язык делает исторический шаг в цифровое пространство, не теряя при этом своей души, – добаивла Виктория Кавры.
Справка «КС»
«Яндекс.Переводчик» – веб-служба, предназначенная для перевода текста или веб-страницы с использованием самообучаемого алгоритма статистического машинного перевода. Система строит словари соответствий на основе анализа миллионов переведённых текстов. Текст для перевода компьютер вначале сравнивает с базой слов, затем с базой моделей языка, стараясь определить смысл выражения в контексте. За два года в «Яндекс.Переводчике» удвоилось количество языков народов России. Появились бурятский, кабардино-черкесский, карачаево-балкарский, коми, мокшанский, осетинский, тувинский, эрзянский. Для башкирского и чувашского добавлены технологии синтеза и распознавания речи. К концу 2025 года планировалось включить ещё семь языков, в том числе абазинский, мансийский, ногайский и чеченский. Чукотский язык стал одним из 34 отобранных для работы наряду с другими языками, находящимися под угрозой исчезновения, – вепсским, мансийским, ненецким, хантыйским.