Жыштык текстти талдоо: өзгөчөлүктөр жана мисалдар

Мазмуну:

Жыштык текстти талдоо: өзгөчөлүктөр жана мисалдар
Жыштык текстти талдоо: өзгөчөлүктөр жана мисалдар
Anonim

Тексттер менен иштөөгө туура келсе, бул түшүнүктү жашооңузда бир нече жолу жолуктурдуңуз. Атап айтканда, сиз тексттин жыштыгын так талдоо жүргүзгөн онлайн эсептегичтерине кайрылсаңыз болот. Бул ыңгайлуу куралдар тексттин кайсы бир бөлүгүндө белгилүү бир белги же тамга канча жолу кездешээрин көрсөтөт. Көп учурда пайыздык көрсөткүч да көрсөтүлөт. Бул эмне үчүн керек? Тексттин жыштык анализи жөнөкөй шифрлердин "жарылышына" кандай салым кошот? Анын маңызы эмнеде, аны ким ойлоп тапкан? Ушул жана башка маанилүү суроолорго макаланын жүрүшүндө жооп беребиз.

Аныктама

Жыштык анализи криптоанализдин түрлөрүнүн бири. Ал илимпоздордун жеке символдордун статистикалык тривиалдык эмес бөлүштүрүлүшү жана алардын жөнөкөй жана шифрленген тексттеги үзгүлтүксүз ырааттуулугу бар экендиги жөнүндөгү божомолуна негизделген.

Мындай бөлүштүрүү, жеке белгилерди алмаштырууга чейин, шифрлөө/шифрлөө процесстеринде да сакталат деп ишенишет.

системалардын жыштык анализи
системалардын жыштык анализи

Процесстин мүнөздөмөсү

Эми жыштык анализин жөнөкөй сөз менен карап көрөлү. Бул жетиштүү узундуктагы тексттердеги бир эле алфавиттик белгинин көрүнүштөрүнүн саны бир тилде жазылган ар кандай тексттерде бирдей экенин билдирет.

Ал эми моноалфавиттик шифрлөө жөнүндө эмне айтууга болот? Эгер шифрленген тексти бар бөлүмдө ушундай ыктымалдыкка ээ символ бар болсо, аны ошол шифрленген тамга деп эсептөө реалдуу болот деп болжолдонууда.

Жыштыктагы текстти талдоочулар диаграммаларга (эки тамганын ырааттуулугу) бирдей ой жүгүртүүнү колдонушат. Триграммалар - бул полиалфавиттик шифрлер үчүн.

Усулдун тарыхы

Сөздөрдүн жыштыктык анализи азыркы замандын табылгасы эмес. Ал илим дүйнөсүнө 9-кылымдан бери белгилүү. Анын жаралышы Аль-Кинди аты менен байланыштуу.

Бирок жыштыктарды анализдөө ыкмасын колдонуунун белгилүү учурлары бир топ кийинки мезгилге таандык. Бул жерде эң айкын мисал 1822-жылы Дж.-Ф тарабынан чыгарылган египет иероглифтеринин дешифрациясы. Champollion.

Эгер фантастикага кайрылсак, бул чечмелөө ыкмасына көптөгөн кызыктуу шилтемелерди таба алабыз:

  • Конан Дойл - "Бийлеген адамдар".
  • Жюль Верн - "Капитан Гранттын балдары".
  • Эдгар По - "Алтын Баг".

Бирок, өткөн кылымдын ортосунан баштап, шифрлөөдө колдонулган алгоритмдердин көбү мындай жыштык криптоанализге туруктуулугун эске алуу менен иштелип чыккан. Ошондуктан аныбүгүн алар көбүнчө келечектеги криптографтарды окутуу үчүн гана колдонулат.

текст жыштыгын талдоо
текст жыштыгын талдоо

Негизги ыкма

Келиңиз, жыштык жооптун анализин майда-чүйдөсүнө чейин көрсөтөлү. Мындай талдоо тесттин сөздөн, ал эми тамгалардан турганына түздөн-түз негизделет. Улуттук алфавитти толтуруучу тамгалардын саны чектелүү. Каттарды бул жерде жөн эле тизмектесе болот.

Мындай тексттин эң маанилүү мүнөздөмөлөрү тамгалардын кайталанышы, ар кандай биграммалар, триграммалар жана n-граммдар, ошондой эле ар кандай тамгалардын бири-бирине шайкеш келиши, үнсүздөрдүн/үндүүлөрдүн кезектешип келиши жана башка болот. бул белгилердин түрлөрү.

Методдордун негизги идеясы – улуттук алфавиттин тамгаларынан (T=t1t2…tl менен белгиленген) талдоо үчүн жетиштүү узун ачык тексттерде мүмкүн болгон n-граммдардын (nm менен белгиленген) кездешүүсүн эсептөө. {a1, a2, …, an}) менен белгиленет. Жогоруда айтылгандардын баары тексттин бир нече m-граммдарына себеп болот:

t1t2…tm, t2t3… tm+1, …, ti-m+1tl-m+2…tl.

Эгер бул m-грамм ai1ai2…максаттын белгилүү бир текстте кездешүүсүнүн саны T болсо, жана L изилдөөчү талдаган m-граммдардын жалпы саны болсо, анда эмпирикалык түрдө аныктоого болот. жетиштүү чоң L болсо, мындай m-грамм үчүн жыштыктар бири-биринен бир аз айырмаланат.

жыштык талдоо
жыштык талдоо

Орус алфавитинин көп кездешүүчү тамгалары

Бирок убакыт-жыштык анализи, окшош атына карабастан, биздин маектин темасына эч кандай тиешеси жок. Мындай талдоо үчүн жүргүзүлөтөзгөчө толкундун трансформациясын колдонуу менен аз байкалган радар станцияларынан сигналдар.

Эми негизги темага кайрылалы. Жыштык анализин жүргүзүүдө орус алфавитинин кайсы тамгалары кыйла көлөмдүү тексттерде көп кездешерин биле аласыз (пайыз 0,062ден 0,018ге чейин):

  • A.
  • V.
  • D.
  • F.
  • I.
  • K.
  • M.
  • O.
  • R.
  • T.
  • F.
  • T.
  • Ш.
  • b.
  • E.
  • I.

Ал тургай, орус алфавитинин эң кеңири таралган тамгаларын үйрөнүүгө жардам берген атайын мнемоникалык эреже да киргизилди. Бул үчүн, бир гана сөздү эстеп калуу жетиштүү - "сабак".

Жалпы учурларда тамгаларды пайыздык мааниде колдонуу жыштыгы жөн гана белгиленет: адис тамга текстте канча жолу кездешээрин эсептейт, андан кийин алынган маанини тексттеги символдордун жалпы санына бөлөт. Ал эми бул маанини пайыз менен көрсөтүү үчүн аны 100гө көбөйтүү жетиштүү.

Жыштык тексттин көлөмүнө гана эмес, анын табиятына да көз каранды болорун эске алуу маанилүү. Мисалы, техникалык булактарда "F" тамгасы көркөм адабиятка караганда алда канча көп кездешет. Демек, объективдүү натыйжаларга жетишүү үчүн адис изилдөө үчүн ар кандай мүнөздөгү жана стилдеги тексттерди териши керек.

текст жыштыгын талдоо программалары
текст жыштыгын талдоо программалары

Би-, три-, төрт грамм

Маанилүү тексттерден сиз эң кеңири таралгандарды да таба аласыз (тиешелүүлүгүнө жараша, эң көпкайталанган) эки же андан көп тамгалардын айкалышы. Адистер ошондой эле ар кандай алфавиттердин окшош диаграммаларынын жыштыгын көрсөткөн бир нече таблицаларды түзүшкөн.

Орус тилине келсек, көлөмдүү мазмундуу тексттердин системаларынын жыштык анализи эң кеңири таралган биграммаларды жана триграммаларды түзүүгө мүмкүндүк берди:

  • EN.
  • ST.
  • БИРОК.
  • ЖОК.
  • КҮЙҮК.
  • RA.
  • OV.
  • KO.
  • VO.
  • СТО.
  • ЖАНЫ
  • ENO.
  • TOV.
  • OVA.
  • ОВО.

Типтердин бири-бирине артыкчылыктуу мамилелери

Бул жыштык анализи текст изилдөөчүлөргө бере турган бардык мүмкүнчүлүктөр эмес. Биграммдардын жана триграммалардын окшош таблицаларынан маалыматты системалаштыруу менен тамгалардын эң кеңири таралган айкалышы боюнча маалыматтарды алууга болот. Же, башкача айтканда, алардын бири-бири менен жакшы көргөн мамилеси.

Мындай кеңири изилдөө адистер тарабынан буга чейин жүргүзүлгөн. Анын натыйжасы алфавиттин ар бир тамгасы менен бирге анын кошуналары көрсөтүлгөн таблица болду. Анын үстүнө, көбүнчө анын алдында да, андан кийин да кездешкен каармандар. Таблицадагы тамгалар кокустан жазылган эмес. Символго жакыныраак, эң көп кездешкен кошуналар, андан ары - сейрек кездешкендер көрсөтүлөт.

Мисалдарды карап көрөлү:

  • "А" тамгасы. Бул жерде төмөнкү артыкчылыктуу байланыштар айырмаланат: l-d-k-t-v-r-n-A-l-n-s-t-r-v-to-m. Бул жерден биз тексттерде «А» дан мурун көбүнчө «Н» («НА») турганын көрөбүз. Ал эми орус тилиндеги тексттерде көбүнчө "А" дан кийин "Л" менен кездешүүгө болот.("AL").
  • "М" тамгасы. Эксперттер мындай артыкчылыктуу байланыштарды аныкташкан: "I-s-a-i-e-o-M-i-e-o-u-a-n-p-s".
  • "б" тамгасы. Тандалган байланыштар төмөнкүдөй: "n-s-t-l-b-n-k-v-p-s-e-o-i".
  • "Ш" тамгасы. Тандалган байланыштар: "e-b-a-i-u-Sch-e-i-a".
  • "P" тамгасы. Орус алфавитинин бул белгиси менен артыкчылыктуу байланыштар: "v-s-u-a-i-e-o-P-o-r-e-a-u-i-l".
убакыт-жыштык талдоо
убакыт-жыштык талдоо

Талдоо эмне менен аныкталат?

Заманбап жыштыктагы текстти талдоо программалары ар кандай макалалардын, эсселердин, үзүндүлөрдүн жана башкалардын чоң көлөмүн изилдөөгө жардам берет. Төмөнкү маалымат изилдөөчүгө стандарт катары берилет:

  • Тексттеги символдордун жалпы саны.
  • Автор колдонгон боштуктардын саны.
  • Сандардын саны.
  • Колдонулган тыныш белгилери жөнүндө маалымат - чекиттер, үтүрлөр ж.б.
  • Жеткиликтүү алфавиттердин ар бириндеги тамгалардын саны - кириллица, латын ж.б.
  • Тексттеги ар бир тамганы жана символду колдонуу жыштыгы жөнүндө маалымат - айтылгандардын саны жана бүткүл текстке салыштырмалуу пайыз.

Ашыкча оптималдаштыруу жана ашыкча каныккандык менен күрөш

Текст жыштыгын талдоо эмне үчүн жүргүзүлөт? Жазылган текстте кайсы каармандар көп кездешээрин аныктоо үчүн гана кызыкчылык үчүнбү? Жок, анализдин негизги колдонулушу практикалык жана башка жерде колдонулат.

N-граммдар туруктуу биграммдарды жана триграммаларды гана эмес. Ошол элекатегорияларга ачкыч сөздөр (тегдер), коллокациялар кирет. Башкача айтканда, эки же андан көп сөздөн турган туруктуу айкалыштар. Алар мындай композициялар текстте чогуу кездешип, ошол эле учурда белгилүү бир семантикалык жүктү алып жүргөндүгү менен айырмаланат.

Бул абийирсиз SEO адистеринин колуна тийет. Өз иштеринде алар кээде тигил же бул веб-баракчанын актуалдуулугун жасалма түрдө жогорулатуу үчүн тексттеги тегдердин жана ачкыч сөздөрдүн кайталанышын кыянаттык менен колдонушат. Алар системаны ушундай «трюк» менен алдоо аракетин көрүүдө: орус тили үчүн салттуу сөздөрдүн кадимки айкалышы менен табигый айкалыштыруу («Норка пальто сатып алуу») карама-каршылыкка айландыруу. Башкача айтканда, ушундай табигый N-граммдагы сөздөрдү кайра иреттөө аркылуу алынган («нока пальто сатып ал»).

Бирок бүгүнкү күндө издөө алгоритмдери ашыкча оптималдаштырууну спам сыяктуу эффективдүү аныктоону үйрөнүштү - издөө бетиндеги натыйжалардын рейтингине таасир этүүчү ачкыч сөздөр, тэгдер менен тексттин ашыкча каныккандыгы. Ашыкча оптималдаштырылган барактар азыр, тескерисинче, колдонуучунун суроосу боюнча ылдыйкы орунда турат. Ал эми адамдар өздөрү маанисиз, теги ашыкча текстти окушпайт, башка булактагы пайдалуу маалыматты жактырышат.

жыштык талдоо ыкмасы
жыштык талдоо ыкмасы

SEO адистери үчүн жеке анализге жардам берүү

Ошентип, заманбап издөө системасынын текст чыпкалары бүгүнкү күндө ошол интернет баракчаларына артыкчылык беришет, алар жөнүндө маалымат окууга оңой эле эмес, келгендер үчүн да пайдалуу. жаңы стандарттарга, SEO адистерине, алардын ишин оптималдаштыруу үчүнжана тексттин жыштык анализине кайрылыңыз. Көптөгөн популярдуу кызматтар аны бүгүн камсыздайт.

Жыштык талдоо маалыматтуулугу үчүн жарыялоого даярдалып жаткан текстти карап чыгууга жардам берет. Тегдердин жана негизги сөз айкаштарынын ашыкча болушун жок кылыңыз. Ал ошондой эле издөө системаларынын текст чыпкаларында шек туудурган сөздөрдүн табигый эмес айкалыштарына автордун көңүлүн бурууга мүмкүндүк берет.

жыштык жооп талдоо
жыштык жооп талдоо

Тексттин жыштыгын талдоо Ошентип, булактагы белгилүү бир белгинин айтылуу жыштыгын аныктоого жардам берет. Метод бүгүн тегдер менен тексттин ашыкча жүктөлүшүн, сөздөрдүн табигый эмес алмаштырууларын баалоо үчүн колдонулат.

Сунушталууда: