Корпус лингвистика деген эмне?

Мазмуну:

Корпус лингвистика деген эмне?
Корпус лингвистика деген эмне?
Anonim

Бир нече ондогон жылдар мурун окумуштуулар лингвистикалык изилдөөлөрдү автоматташтыруу жөнүндө кыялданчу. Жумуш кол менен аткарылган, ага окуучулардын көп бөлүгү тартылган, "көңүл бурбоо" катасынын олуттуу ыктымалдыгы бар болчу, эң негизгиси, мунун баары көп, көп убакытты талап кылды.

Компьютердик технологиянын өнүгүшү менен изилдөөлөрдү бир топ ылдам жүргүзүү мүмкүн болуп калды жана бүгүнкү күндө тилди изилдөөнүн келечектүү багыттарынын бири корпус лингвистикасы болуп саналат. Анын негизги өзгөчөлүгү – бирдиктүү маалымат базасына бириктирилген, өзгөчө жол менен белгиленген жана корпус деп аталган чоң көлөмдөгү тексттик маалыматты колдонуу.

Бүгүнкү күндө миллиондогондон он миллиарддаган лексикалык бирдиктерди камтыган, ар кандай тилдик материалдын негизинде ар кандай максаттар үчүн түзүлгөн көптөгөн корпустар бар. Бул багыт келечектүү деп таанылып, прикладдык жана илимий максаттарга жетүүдөгү олуттуу прогрессти көрсөтөт. Профессионалдар, тигил же бул жол менен иштешеттабигый тилди колдонсоңуз, текст корпусу менен жок дегенде базалык деңгээлде таанышыңыз сунушталат.

Корпус лингвистикасынын тарыхы

Бул багыттын калыптанышы өткөн кылымдын 60-жылдарынын башында АКШда Браун корпусунун түзүлүшү менен байланыштуу. Тексттердин жыйнагы 1 миллион гана сөз формасынан турган жана бүгүнкү күндө мындай көлөмдөгү корпус таптакыр атаандаштыкка жараксыз болмок. Бул көбүнчө компьютердик технологиялардын өнүгүү темптерине, ошондой эле жаңы изилдөө ресурстарына болгон суроо-талаптын өсүшүнө байланыштуу.

90-жылдары корпус лингвистикасы толук кандуу жана өз алдынча дисциплинага айланган, тексттердин жыйнактары түзүлүп, бир нече ондогон тилдер үчүн белгиленген. Бул мезгилде, мисалы, Британиянын Улуттук Корпусу 100 миллион сөз колдонуу үчүн түзүлгөн.

корпус лингвистика
корпус лингвистика

Тил илиминин бул багыты өнүккөн сайын тексттердин көлөмү чоңоёт (жана миллиарддаган лексика бирдигине жетет), белгилөө дагы ар түрдүү болот. Бүгүнкү күндө интернет мейкиндигинде көркөм адабиятка же академиялык адабиятка багытталган, көп тилдүү жана билим берүүчү жазуу жана оозеки кептин корпусун, ошондой эле башка көптөгөн түрлөрүн таба аласыз.

Кандай учурлар бар

Корпус лингвистикасындагы корпустун түрлөрү бир нече жол менен көрсөтүлүшү мүмкүн. Классификациялоонун негизи тексттердин тили (орусча, немисче), кирүү режими (ачык булак, жабык булак, коммерциялык), баштапкы материалдын жанры (көркөм адабият) болушу мүмкүн экендиги интуитивдик түрдө түшүнүктүү.адабият, документалдык, академиялык, журналистика).

корпус лингвистикасынын методдору
корпус лингвистикасынын методдору

Кызыктуу түрдө оозеки кепти чагылдырган материалдарды генерациялоо жүргүзүлөт. Мындай сөздү атайылап жаздыруу респонденттерге жасалма шарттарды түзүп, натыйжада алынган материалды «стихиялуу» деп айтууга болбой тургандыктан, азыркы корпус лингвистикасы башка жолго түшкөн. Ыктыярчы микрофон менен жабдылып, күндүз ал катышкан бардык сүйлөшүүлөр жазылып турат. Албетте, айланадагылар күнүмдүк баарлашуу учурунда илимдин өнүгүшүнө салым кошуп жатканын биле алышпайт.

Кийинчерээк алынган аудио жазуулар маалымат банкында сакталат жана стенограмма сыяктуу басылган текст менен коштолот. Ошентип, күнүмдүк оозеки кептин корпусун түзүү үчүн зарыл болгон белгилөө мүмкүн болот.

Колдонмо

Тилди колдонуу мүмкүн болгон жерде текст корпусун да колдонсо болот. Тил илиминде корпустук методдорду колдонуунун максаты төмөнкүлөр болушу мүмкүн:

  • Шайлоочулар менен кардарлардын оң жана терс пикирлерине көз салуу үчүн саясатта жана бизнесте кеңири колдонулган маанай программаларын түзүү.
  • Маалымат тутумун сөздүктөргө жана котормочуларга туташтыруу, алардын иштешин жакшыртуу.
  • Тилдин түзүлүшүн, анын өнүгүү тарыхын жана жакынкы келечекте өзгөрүшүн алдын ала түшүнүүгө көмөктөшүүчү ар кандай изилдөө тапшырмалары.
  • Морфологиялык,синтаксистик, семантикалык жана башка өзгөчөлүктөр.
  • Ар кандай лингвистикалык системалардын ишин оптималдаштыруу ж.б.

Кабаттарды колдонуу

Ресурс интерфейси кадимки издөө системасына окшош жана колдонуучудан маалымат базасын издөө үчүн кандайдыр бир сөздү же сөздөрдүн айкалышын киргизүүнү сунуштайт. Так суроо формасынан тышкары, сиз тексттик маалыматты дээрлик бардык лингвистикалык критерийлер боюнча табууга мүмкүндүк берген кеңейтилген версиясын колдоно аласыз.

компьютер жана корпус лингвистикасы
компьютер жана корпус лингвистикасы

Издөө үчүн негиз болушу мүмкүн:

  • кеп бөлүгүнүн белгилүү бир тобуна таандык;
  • грамматикалык өзгөчөлүктөрү;
  • семантика;
  • стилдик жана эмоционалдык боёо.

Ошондой эле, сиз сөздөрдүн ырааттуулугу үчүн издөө критерийлерин айкалыштырсаңыз болот: мисалы, этиштин бардык көрүнүштөрүн ушул чакта, биринчи жак, жекелик, андан кийин "in" предлогу жана айыптоочтук учурда зат атооч менен табыңыз. Мындай жөнөкөй тапшырманы чечүү колдонуучуга бир нече секунд талап кылынат жана берилген талааларда чычканды бир нече чыкылдатуу менен гана талап кылынат.

Түзүү процесси

Издөөнүн өзү бардык субкорпустарда да, конкреттүү максатка жетүүдөгү муктаждыктарга жараша атайын тандалган биринде да жүргүзүлүшү мүмкүн:

  1. Биринчиден, корпустун негизин кайсы тексттер түзөрү аныкталат. Практикалык максаттарда көбүнчө журналисттик, гезиттик материалдар, интернет-комментарийлер колдонулат. Илимий долбоорлордо эң көпкорпустун ар кандай түрлөрү, бирок тексттер кандайдыр бир жалпы негизде тандалышы керек.
  2. Алдын ала тексттердин топтому алдын ала иштетилет, каталар оңдолот, эгер бар болсо, тексттин библиографиялык жана экстралингвистикалык сыпаттамасы даярдалат.
  3. Бардык тексттик эмес маалыматтар чыпкаланат: графика, сүрөттөр, таблицалар өчүрүлөт.
  4. Токендер, адатта, сөздөр, андан ары иштетүү үчүн бөлүнөт.
  5. Акыры, элементтердин жыйындысына морфологиялык, синтаксистик жана башка белгилөөлөр жүргүзүлөт.

Бардык аткарылган операциялардын натыйжасы анын үстүнө бөлүштүрүлгөн элементтердин жыйындысы бар синтаксистик түзүлүш болуп саналат, алардын ар бири үчүн сөздүн бир бөлүгү, грамматикалык жана айрым учурларда семантикалык өзгөчөлүктөрү аныкталган.

Далдарды түзүүдөгү кыйынчылыктар

Корпусту алуу үчүн көп сөздөрдү же сүйлөмдөрдү бириктирүү жетишсиз экенин түшүнүү керек. Бир жагынан алганда, тексттердин жыйнагы тең салмактуу болушу керек, башкача айтканда, белгилүү бир пропорцияда тексттердин ар кандай түрлөрүн берүү. Башка жагынан алганда, иштин мазмуну өзгөчө түрдө белгилениши керек.

Захаров корпус лингвистикасы
Захаров корпус лингвистикасы

Биринчи маселе макулдашуу менен чечилет: мисалы, жыйнакка 60% көркөм тексттер, 20% даректүү тасмалар кирет, белгилүү бир үлүш оозеки кептин жазуу жүзүндөгү баяндамасына, мыйзам актыларына, илимий эмгектерге ж.б.у.с. Бүгүнкү күндө тең салмактуу корпус үчүн идеалдуу рецепт жок.

Мазмунду белгилөө боюнча экинчи суроону чечүү кыйыныраак. Тексттерди автоматтык түрдө белгилөө үчүн колдонулган атайын программалар жана алгоритмдер бар, бирок алар 100% натыйжа бербейт, каталарды жаратышы мүмкүн жана кол менен тактоону талап кылат. Бул маселени чечүүнүн мүмкүнчүлүктөрү жана көйгөйлөрү В. П. Захаровдун корпустук лингвистика боюнча эмгегинде кеңири баяндалган.

Текстти белгилөө бир нече деңгээлде ишке ашырылат, биз аларды төмөндө келтиребиз.

Морфологиялык белги

Мектеп скамейкасынан орус тилинде кептин ар турдуу мучелеру бар экендигин жана алардын ар биринин езунче езгечелуктеру бар экендигин эстейбиз. Мисалы, этиште зат атоочто жок маанай жана чак категориялары бар. Эне тилинде сүйлөгөн адам зат атоочторду четке кагат жана этиштерди эч ойлонбостон бириктирет, бирок кол эмгеги 100 миллион сөз колдонулган корпусту белгилөө үчүн ылайыктуу эмес. Бардык керектүү операцияларды компьютер аткара алат, бирок бул үчүн аны үйрөтүү керек.

Морфологиялык белгилөө компьютер үчүн ар бир сөздү белгилүү грамматикалык өзгөчөлүктөргө ээ болгон кептин кандайдыр бир бөлүгү катары "түшүнүү" үчүн зарыл. Орус тилинде (башка тилдердегидей эле) бир катар регулярдуу эрежелер иштегендиктен, машинага бир катар алгоритмдерди киргизүү менен морфологиялык анализдин автоматтык процедурасын курууга болот. Бирок, эрежеден өзгөчөлүктөр, ошондой эле ар кандай татаалдаштыруучу факторлор бар. Натыйжада, бүгүнкү күндө таза компьютердик анализ идеалдуу эмес, атүгүл 4% каталар 100 миллион бирдикте 4 миллион сөздүн маанисин берип, кол менен тактоону талап кылат.

Бул көйгөй В. П. Захаровдун "Корпус лингвистика" китебинде кеңири сүрөттөлгөн.

Синтаксистик белгилөө

Синтаксистик талдоо же талдоо - сүйлөмдөгү сөздөрдүн байланышын аныктоочу процедура. Алгоритмдердин жыйындысынын жардамы менен тексттеги теманы, предикатты, толуктоолорду, кептин ар кандай бурулуштарын аныктоого болот. Кезектеги сөздөрдүн кайсынысы негизги жана кайсынысы көз каранды экенин аныктоо менен, биз тексттен маалыматты натыйжалуу чыгарып, машинаны издөө сурамына жооп катары бизди кызыктырган маалыматты гана кайтарууга үйрөтө алабыз.

Россиянын жогорку окуу жайларында корпустук лингвистика лабораториялары
Россиянын жогорку окуу жайларында корпустук лингвистика лабораториялары

Баса, заманбап издөө системалары муну «алмада канча калория бар» же «Москвадан Санкт-Петербургга чейинки аралык» сыяктуу тиешелүү суроолорго жооп катары узун тексттердин ордуна конкреттүү сандарды берүү үчүн колдонушат. Бирок, сүрөттөлгөн процесстин эң негиздерин түшүнүү үчүн "Корпус лингвистикасына киришүү" же башка негизги окуу китеби менен таанышыңыз керек.

Семантикалык белгилөө

Сөздүн семантикасы жөнөкөй тил менен айтканда анын мааниси. Семантикалык талдоодо кеңири колдонулуучу ыкма – бул сөзгө анын семантикалык категориялардын жана субкатегориялардын жыйындысына таандыктыгын чагылдырган тегдердин атрибуциясы. Мындай маалымат тексттин сезимдерин талдоо алгоритмдерин оптималдаштыруу, автоматтык шилтеме берүү жана корпус лингвистикасынын ыкмаларын колдонуу менен башка тапшырмаларды аткаруу үчүн баалуу.

Дарактын бир катар "тамыры" бар, алар абстракттуу сөздөргө ээабдан кенен семантика. Бул дарактын бутактары улам барган сайын конкреттүү лексикалык элементтерди камтыган түйүндөр түзүлөт. Мисалы, «жандык» деген сөздү «адам», «жаныбар» сыяктуу түшүнүктөр менен байланыштырса болот. Биринчи сөз мындан ары ар кандай кесиптерге, туугандык, улуттук терминдерге, ал эми экинчиси - жаныбарлардын класстарына жана түрлөрүнө бөлүнөт.

Маалымат издөө системаларын колдонуу

Корпус лингвистикасынын колдонуу чөйрөлөрү ишмердүүлүктүн ар түрдүү чөйрөлөрүн камтыйт. Корпоралар сөздүктөрдү түзүү жана оңдоо, автоматтык которуу системаларын түзүү, жыйынтыктоо, фактыларды алуу, сезимдерди аныктоо жана башка тексттерди иштетүү үчүн колдонулат.

корпус лингвистика корпустун түрлөрү
корпус лингвистика корпустун түрлөрү

Мындан тышкары, мындай ресурстар дүйнө тилдерин жана жалпы тилдин иштөө механизмдерин изилдөөдө активдүү колдонулат. Алдын ала даярдалган чоң көлөмдөгү маалыматка жетүү тилдердин өнүгүү тенденцияларын тез жана ар тараптуу изилдөөгө, неологизмдердин жана туруктуу кеп бурулуштарынын калыптанышына, лексикалык бирдиктердин маанилеринин өзгөрүшүнө ж.б. өбөлгө түзөт.

Мындай чоң көлөмдөгү маалыматтар менен иштөө автоматташтырууну талап кылгандыктан, бүгүнкү күндө компьютер менен корпус лингвистикасынын ортосунда тыгыз байланыш бар.

Орус тилинин улуттук корпусу

Бул корпус (NKRC деп кыскартылган) ар кандай тапшырмаларды чечүү үчүн ресурсту пайдаланууга мүмкүндүк берген бир катар субкорпустарды камтыйт.

NCRA маалымат базасындагы материалдар төмөнкүлөргө бөлүнөт:

  • 90-жана 2000-жылдардагы ММКлардагы басылмалар боюнчажыл, ата мекендик жана чет өлкөлүк;
  • оозеки сүйлөө жазуулары;
  • акцентологиялык белгиленген тексттер (б.а. акцент белгилери менен);
  • диалект кеп;
  • поэтикалык чыгармалар;
  • синтаксистик белгилери бар материалдар, ж.б.

Маалыматтык система ошондой эле чыгармалардын орус тилинен англис, немис, француз жана башка көптөгөн тилдерге (жана тескерисинче) параллелдүү котормолору бар субкорпусту камтыйт.

Ошондой эле маалымат базасында анын өнүгүүсүнүн ар кандай мезгилдеринде орус тилиндеги жазуу жүзүндөгү кепти чагылдырган тарыхый тексттердин бөлүмү бар. Чет өлкөлүк жарандар үчүн орус тилин өздөштүрүү үчүн пайдалуу боло турган окуу корпусу да бар.

Орус тилинин улуттук корпусу 400 миллион лексикалык бирдикти камтыйт жана көп жагынан европалык тилдер корпусунун олуттуу бөлүгүнөн алдыда турат.

Перспективалар

Бул чөйрөнү келечектүү деп таанууну жактаган факт – орус университеттеринде, ошондой эле чет өлкөлүк университеттерде корпустук лингвистикалык лабораториялардын болушу. Каралып жаткан маалыматтык-издөө ресурстарынын алкагында пайдалануу жана изилдөө менен жогорку технологиялар, суроо-жооп системалары чөйрөсүндөгү айрым багыттарды өнүктүрүү менен байланышкан, бирок бул тууралуу жогоруда сөз болгон.

корпус лингвистика тарыхы
корпус лингвистика тарыхы

Корпустук лингвистиканын мындан аркы өнүгүшү бардык деңгээлде, техникалык жактан, маалыматты издөө жана иштетүү процесстерин оптималдаштыруучу жаңы алгоритмдерди киргизүү, ЭЭМдин мүмкүнчүлүктөрүн кеңейтүү, оперативдүү иштөөсүн жогорулатуу жагынан болжолдонууда.эстутум жана үй чарбасы менен аяктайт, анткени колдонуучулар бул түрүн күнүмдүк жашоодо жана жумушта колдонуунун көбүрөөк жолдорун табышат.

Корутундуда

Өткөн кылымдын орто ченинде 2017-жыл алыскы келечектей көрүнгөн, анда космостук аппараттар Ааламдын мейкиндиктерин кыдырып, роботтор адамдар үчүн бардык ишти аткарышат. Чындыгында болсо, илим «ак тактарга» толуп, кылымдар бою адамзатты түйшөлткөн суроолорго жооп берүү үчүн айласыз аракеттерди жасоодо. Бул жерде тилдин иштешине байланыштуу суроолор сыймыктануу менен орун алат жана аларга корпус жана эсептөө лингвистикасы аларга жооп берүүгө жардам берет.

Маалыматтын чоң көлөмүн иштетүү мурда жеткиликсиз болгон калыптарды аныктоого, тилдин айрым өзгөчөлүктөрүнүн өнүгүшүн болжолдоого, дээрлик реалдуу убакытта сөздөрдүн түзүлүшүнө көз салууга мүмкүндүк берет.

Практикалык глобалдык деңгээлде корпусту, мисалы, коомдук маанайды баалоонун потенциалдуу куралы катары кароого болот - Интернет бул чыныгы колдонуучулар тарабынан түзүлгөн ар кандай тексттердин үзгүлтүксүз жаңыртылган маалымат базасы: бул комментарийлер, сын-пикирлер, макалалар, жана кептин башка көптөгөн формалары.

Мындан тышкары, корпус менен иштөө бизге Google же Яндекс кызматтарынан тааныш болгон маалыматты издөөгө катышкан техникалык каражаттардын, машиналык котормолордун, электрондук сөздүктөрдүн өнүгүшүнө салым кошот.

Корпус лингвистикасы алгачкы кадамдарын гана жасап жатат жана жакынкы келечекте тездик менен өнүгөт деп айтууга болот.

Сунушталууда: