Исследователи из ЯрГУ создали веб-приложение для экспертной оценки разметки синтаксических деревьев
Aa
21.09.2023
Приложение создано в качестве вспомогательного инструмента для работы над проектом «Разработка методов анализа тональности русскоязычных публицистических текстов с использованием синтаксической структуры предложений», поддержанным грантом РНФ (
https://rscf.ru/project/23-21-00495/). Над исследованием работает команда ученых лаборатории FRUCT-YSU ЯрГУ им. П. Г. Демидова под руководством руководителя лаборатории кандидата физико-математических наук, доцента кафедры компьютерных сетей Ильи Парамонова. В состав научной группы также входят доктор филологических наук, старший научный сотрудник Елена Бойчук, аспиранты Максим Костерин и Анатолий Полетаев. Последний и является главным разработчиком веб-приложения.
— Одна из существенных проблем современной компьютерной лингвистики — отсутствие размеченных корпусов синтаксических деревьев. Нам требовался алгоритм построения деревьев синтаксических единиц русскоязычных предложений для выполнения исследования по гранту, однако такого алгоритма на тот момент не существовало. Поэтому мы его создали сами, но для апробации потребовался размеченный корпус. Надежные результаты возможно было получить только после проверки разметки экспертами-филологами, и мы упростили им работу — разработали функциональное веб-приложение. Оно показывает филологам предложения и их деревья синтаксических единиц, а также даёт возможность оставить комментарий, если разметка проведена неверно. По окончании работы экспертов с приложением эти комментарии уже может собрать обычный программист и внести на их основе изменения в алгоритм, — пояснил Анатолий Полетаев.
Инструмент пригодится ученым при разработке автоматических методов обработки русскоязычных текстов. Он значительно ускоряет работу по экспертной верификации разметки корпусов, а также снижает риск ошибок. Программа зарегистрирована как объект интеллектуальной собственности в Роспатенте.
Сейчас приложение помогает демидовским ученым разрабатывать методы определения тональности текста, т. е. эмоционального отношения к нему автора или других людей, а также обнаружения в нем иронии и сарказма.
— Мы работаем с русским языком и разрабатываем преимущественно те методы, которые основываются на моделировании языка, а не на применении искусственных нейронных сетей, которые сейчас доминируют при решении подобных задач. Такие методы в настоящее время слабо развиты ввиду сложности их разработки, но полезны — для их применения не требуется собирать чрезмерно больших корпусов текста для обучения нейронных сетей. Кроме того, они потенциально могут применяться для текстов в разных областях, что для нейросетевых методов обычно затруднено или невозможно, — отметил руководитель проекта Илья Парамонов.
← Возврат к списку