ПРОЕКТЫ


1 РУССКИЙ СТАНДАРТ
Проект предусматривает создание эталонной выборки морфологически и синтаксически размеченного корпуса текстов русского языка (от 1 млн. словоупотреблений, с дальнейшим пополнением). Такого рода выборка должна содержать особым образом отобранные классические и современные тексты, представляющие "стандартизованный" русский литературный язык XIX и (главным образом) XX века и не содержащие явных отклонений от современной языковой нормы. Эти тексты, в частности, могут служить удобным средством проверки качества различных алгоритмов автоматического анализа, поэтому они хранятся в размеченном виде. Первоначальная разметка производится автоматически, с последующей коррекцией вручную. В дальнейшем представляло бы интерес объединение эталонного корпуса текстов со словарем современного русского языка в рамках системы, позволяющей получать текстовые примеры на заданное слово (или определенное значение слова), находить в словаре значение произвольного слова в тексте, и т.п.
2 РУССКИЕ ДИАЛЕКТЫ
Проект предусматривает ввод, компьютерную обработку и морфологическую разметку русских диалектных текстов по материалам диалектных экспедиций МГУ последних лет. По некоторым диалектам имеются также аудиоматериалы, которые могут быть интегрированы в создаваемый корпус.
3 ДРЕВНЕРУССКИЕ ТЕКСТЫ
Проект предусматривает содействие компьютеризации древнерусских документов, ведущемуся сейчас, главным образом, силами специалистов Института русского языка РАН. Предполагается ввод в компьютер, машинная обработка и разметка большого массива древнерусских текстов, с учетом графико-орфографических и лингвистических особенностей памятников, а также с отражением материала греческих оригиналов (для переводных текстов). Результаты машинной обработки оформляются в виде базы данных, отражающей орфографическую, грамматическую и семантико-синтаксическую информацию о всех словоформах данного текста.
4 МАЛЫЕ ЯЗЫКИ
Проект предусматривает создание корпусов текстов по языкам народов России, прежде всего малым и исчезающим - таким как кетский, юкагирский, вепсский, бесписьменные языки Дагестана (андийский, чамалинский, багвалинский, агульский) и т.п. Тексты должны быть снабжены поморфемными глоссами и литературным переводом на русский / английский языки. В тот же корпус будут включены материалы по тем редким и малоизученным языкам за пределами России, данные по которым собраны и могут быть предоставлены российскими специалистами - это, в частности, языки Западной Африки (группа манде, догон, фула и др.), ряд редких языков банту, кувейтский диалект арабского, сантали, и др.
5 CLASSICA
Проект предусматривает создание программного обеспечения для анализа классических текстов (латинских и древнегреческих) и опирается на машинный корпус и словари латинского и древнегреческого языков. В проект, в частности, входят программы автоматического морфологического анализа и программа метрической обработки текстов (расстановки долгот и определения стихотворного размера для поэтических произведений).
6 VERBUM
Проект предусматривает развитие и пополнение базы данных по глагольным категориям в языках мира. База данных содержит информацию о наличии, способе выражения, грамматическом статусе и других типологически существенных свойствах грамматических и словообразовательных глагольных значений (таких, как перфект, оптатив, каузатив, будущее время и т.п.) в различных языках. Работа над базой данных предполагает представление существующих грамматических описаний языков в сопоставимом виде; основным инструментом для этого является специально разработанный В.А. Плунгяном (в рамках типологического проекта, поддержанного фондом им. А. фон Гумбольдта) универсальная классификация глагольных значений, являющаяся составной частью базы данных. Для каждого языка в базе данных приводятся сведения о засвидетельствованных в нем глагольных значениях, входящих в универсальную классификацию. В настоящее время база данных нуждается в серьезной переработке программного обеспечения, которая позволила бы довести число описанных языков до 100-150.
7 ЛЕКСИКОГРАФ
Проект предусматривает создание системы баз данных по русской лексике. Предполагается продолжение - на новой основе - исследований в рамках комплексного проекта, поддержанного европейским фондом INTAS в 1997-2000 г. В настоящее время система "Лексикограф" объединяет несколько баз данных: "Глагол", "Предметные имена" и "Наречия".
База данных "ЛЕКСИКОГРАФ - ГЛАГОЛ" ориентирована прежде всего на системное описание глагольной многозначности и диатезных преобразований, а также на предсказание значений видовых форм глагола.
База данных "ЛЕКСИКОГРАФ - ПРЕДМЕТНЫЕ ИМЕНА" содержит информацию о всех основных грамматических свойствах русских предметных имен, а также о таких важнейших параметрах их семантической структуры, как мереология, таксономия и набор валентностей.
Обе эти базы позволяют автоматически получать списки лексем, удовлетворяющих различным комбинациям выбранных пользователем параметров: например, списки всех каузативных, дефектных по виду, стативных и т.п. глаголов или списки всех транспортных средств, построек, частей механизмов, и т.п.
База данных "ЛЕКСИКОГРАФ - НАРЕЧИЯ" также позволяет получать списки русских наречий с заданными свойствами: например, наречий времени, места; наречий, управляющих родительным падежом, и т.п.
Развитие данного проекта предполагает:
a) модификацию и модернизацию программного обеспечения баз данных для последующего помещения их в Интернет;
b) завершение обработки всего массива словника;
c) расширение формата баз (в частности, базы предметных имен, в которой предполагается отразить множественность таксономических категорий имен и их топологические характеристики);
d) создание новых баз, в первую очередь для отглагольных имен и прилагательных.
8 SPACE WORDS
Проект предусматривает создание базы данных по специализированным языковым единицам (прежде всего, предлогам и наречиям), выражающим пространственные значения в языках мира. База данных должна содержать как можно более детальную информацию о всех релевантных свойствах таких пространственных единиц: описываются их морфологические и синтаксические особенности, а, с помощью специально разработанного метаязыка, представляется их семантическая структура. Эта информация позволяет сопоставлять пространственные элементы разных языков и дает возможность описывать многие другие фрагменты языковых систем, так или иначе связанные с обозначением пространства: прилагательных размера, классифицирующих глаголов движения или местоположения, и т.п. Особое внимание уделяется также полисемии пространственных элементах (отражаемой, по мере возможности, в виде их семантических карт, как это принято в новейших типологических исследованиях).

НА ГЛАВНУЮ СТРАНИЦУ