04.06.2014 | Ворчалки о языке / Колонка
Русский национальныйКорпус — это не просто большое собрание текстов. Это собрание сбалансированное
Корпус — это не просто большое собрание текстов. Это собрание сбалансированное (тексты разного типа отобраны в определенной пропорции). При этом для конкретной задачи можно выбрать тексты того или иного жанра, времени и т.п. Например, можно задать такой подкорпус: поэтические тексты с автором — женщиной до 1950 года рождения. Искать по массиву текстов можно определенную словоформу или сочетание слов, а также два или более слов, находящихся в тексте на указанном расстоянии друг от друга, а также можно задать не слово, а грамматическую форму (например, чтобы изучить модель управления глагола). И много еще чего можно делать. И разумеется, со всяческой статистикой.
Помимо собственно научной работы, Корпус еще изумителен тем, что теперь можно получать какие-то предварительные ответы на возникающие в ходе жизни лингвистические вопросы. Дело в том, что наш индивидуальный языковой опыт очень ограничен и обычно слабо отрефлектирован. И Корпус позволяет нам выйти за его пределы. Приведу несколько примеров из последнего времени.
«Ряд» — как было сказано в одном из пресс-релизов — «российских деятелей культуры», каковых деятелей я не хочу здесь называть из исключительно санитарно-гигиенических соображений, обратились к правительству и мэрии Москвы с просьбой вернуть памятник Феликсу Дзержинскому на Лубянскую площадь в Москве.
Помните анекдот про двух приятелей, один из которых рассказывал другому о том, как он устроился на работу пожарным. «В целом я доволен! — говорил он. — Зарплата не очень большая, но по сравнению с предыдущей вполне нормальная. Обмундирование хорошее. Коллектив дружный. Начальство не вредное. Столовая вполне приличная. Одна только беда. Если вдруг где, не дай бог, пожар, то хоть увольняйся!»