Data Mining бул Концепция, алгоритм анализи, максаты жана колдонуу

Мазмуну:

Data Mining бул Концепция, алгоритм анализи, максаты жана колдонуу
Data Mining бул Концепция, алгоритм анализи, максаты жана колдонуу
Anonim

Маалыматтык технологиянын өнүгүшү практикалык натыйжаларды алып келет. Бирок маалыматты табуу, талдоо жана колдонуу сыяктуу милдеттер азырынча эффективдүү жогорку сапаттагы куралды ала элек. Аналитика жана сандык аспаптар бар, алар чындап эле иштейт. Бирок маалыматты колдонууда сапаттык революция азырынча боло элек.

Компьютердик технология пайда боло электе эле адам чоң көлөмдөгү маалыматты иштеп чыгышы керек болчу жана аны өзүнүн тажрыйбасынын жана жеткиликтүү техникалык мүмкүнчүлүктөрүнүн чегинде жеңе алган.

Билимдерди жана көндүмдөрдү өнүктүрүү ар дайым реалдуу керектөөлөргө жооп берип келген жана учурдагы милдеттерге ылайык келген. Берилиштерди казып алуу - адамдын ишмердүүлүгүнүн ар кандай чөйрөлөрүндө чечимдерди кабыл алуу үчүн зарыл болгон маалыматтарда мурда белгисиз, майда-чүйдө эмес, практикалык жактан пайдалуу жана жеткиликтүү билимдерди ачуу ыкмаларынын жыйындысына карата колдонулуучу жалпы аталыш.

Адам, интеллект, программалоо

Адам ар дайым кандай кырдаалда болбосун кандай иш кылууну билет. Сабатсыздык же бейтааныш жагдай анын чечим чыгаруусуна тоскоол болбойт. Ар бир адамдын чечиминин объективдүүлүгүнө жана негиздүүлүгүнө шек туудурса болот, бирок ал кабыл алынат.

Интеллект негизделет: тукум куучулук «механизм», алынган, активдүү билим. Билим адамдын алдында пайда болгон көйгөйлөрдү чечүү үчүн колдонулат.

  1. Интеллект – бул билимдердин жана көндүмдөрдүн уникалдуу жыйындысы: адамдын жашоосу жана иши үчүн мүмкүнчүлүктөр жана негиз.
  2. Акыл тынымсыз өнүгүп, адамдын иш-аракеттери башка адамдарга таасир этет.

Программалоо - бул маалыматтардын көрсөтүлүшүн жана алгоритмдерди түзүү процессин формалдаштыруунун биринчи аракети.

Адам, интеллект, программалоо
Адам, интеллект, программалоо

Жасалма интеллект (AI) - бул убакытты жана ресурстарды текке кетирүү, бирок AI тармагындагы өткөн кылымдагы ийгиликсиз аракеттердин натыйжалары эсинде сакталып, ар кандай эксперттик (акылдуу) системаларда колдонулуп, кайра өзгөртүлгөн, атап айтканда, алгоритмдер (эрежелер) жана математикалык (логикалык) маалыматтарды талдоо жана Маалыматтарды казып алуу.

Маалымат жана кадимки чечимди издөө

Кадимки китепкана бул билимдин репозиторийси, ал эми басма сөз жана графика компьютердик технологияга алаканга сала элек. Физика, химия, теориялык механика, дизайн, жаратылыш тарыхы, философия, табият таануу, ботаника, окуу китептери, монографиялар, окумуштуулардын эмгектери, конференциянын материалдары, иштеп чыгуу иштери боюнча баяндамалар жана башкалар ар дайым актуалдуу жана ишенимдүү.

Китепкана - бул ар түрдүү булактарматериалды берүү формасы, келип чыгышы, түзүлүшү, мазмуну, презентация стили ж.б.

Китепкана: китептер, журналдар жана башка басылмалар
Китепкана: китептер, журналдар жана башка басылмалар

Түшүнүү жана колдонуу үчүн сыртынан баары көрүнүп турат (окууга болот, жеткиликтүү). Сиз каалаган маселени чечип, тапшырманы туура коюп, чечимди негиздей аласыз, эссе же курстук иш жаза аласыз, дипломго материал тандай аласыз, диссертациянын же илимий-аналитикалык баяндаманын темасы боюнча булактарды талдай аласыз.

Бардык маалымат көйгөйүн чечсе болот. Тиешелүү өжөрлүк жана чеберчилик менен так жана ишенимдүү натыйжа болот. Бул контекстте, Data Mining такыр башка ыкма.

Натыйжадан тышкары, адам максатка жетүү процессинде көрүлгөн бардык нерселерге "активдүү шилтемелерди" алат. Маселени чечүүдө ал колдонгон булактарга кайрылса болот жана булактын бар экенин эч ким талаша албайт. Бул аныктыгынын кепилдиги эмес, бирок аныктык үчүн жоопкерчилик кимге "жазылууну токтоткондугунун" ишенимдүү далили. Бул көз караштан алганда, Data Mining ишенимдүүлүгүнө жана эч кандай "активдүү" шилтемелерге чоң шектенүүлөрдү билдирет.

Бир нече маселелерди чечүү менен адам жыйынтыкка ээ болуп, өзүнүн интеллектуалдык потенциалын көптөгөн "активдүү шилтемелерге" кеңейтет. Эгер жаңы тапшырма мурунтан эле бар шилтемени "жандандырса", адам аны кантип чечүү керектигин билет: кайра эч нерсе издөөнүн кереги жок.

"Активдүү шилтеме" - бул туруктуу бирикме: конкреттүү учурда кантип жана эмне кылуу керек. Адамдын мээси өзүнө кызыктуу, пайдалуу көрүнгөн нерселердин баарын автоматтык түрдө эстеп калат.же келечекте керек болушу мүмкүн. Көп жагынан алганда, бул подсознание деңгээлинде болот, бирок "активдүү шилтеме" менен байланыштырылышы мүмкүн болгон тапшырма пайда болору менен, ал дароо ойдо пайда болот жана маалыматты кошумча издөөсүз эле чечим кабыл алынат. Data Mining ар дайым издөө алгоритминин кайталанышы жана бул алгоритм өзгөрбөйт.

Дайыма издөө: "көркөм" көйгөйлөр

Математика китепканасы жана андагы маалыматты издөө салыштырмалуу алсыз иш. Интегралды чечүүнүн, матрицаны куруунун же эки элестүү санды кошуу операциясын аткаруунун тигил же бул жолун табуу эмгекти талап кылат, бирок жөнөкөй. Көбү белгилүү бир тилде жазылган бир нече китептерди иреттеп, туура текстти таап, аны изилдеп, керектүү чечимди алышыңыз керек.

Убакыттын өтүшү менен санап чыгуу тааныш болуп калат жана топтолгон тажрыйба китепкананын маалыматын жана башка математикалык маселелерди чечүүгө мүмкүндүк берет. Бул суроо-жооптордун чектелген маалымат мейкиндиги. Мүнөздүү өзгөчөлүгү: маалыматты мындай издөө окшош маселелерди чечүү үчүн билимди топтойт. Адамдын маалымат издөөсү анын эс тутумунда башка көйгөйлөрдү чечүүнүн мүмкүн болгон издерин («активдүү шилтемелер») калтырат.

Көркөм адабияттан: «1248-жылдын январында адамдар кантип жашашкан?» деген суроого жооп табыңыз. абдан кыйын. Дүкөндөрдүн текчелеринде эмне болгон, тамак-аш соодасы кандай уюштурулган деген суроого жооп берүү ого бетер кыйын. Бул тууралуу кайсы бир жазуучу өз романында так жана түз жазса да, эгер бул жазуучунун аты табылса, анда күмөн санооалынган маалыматтардын ишенимдүүлүгү сакталып калат. Ишенимдүүлүк - бул ар кандай көлөмдөгү маалыматтын маанилүү мүнөздөмөсү. Булак, автор жана натыйжанын жалган экенин жокко чыгарган далилдер маанилүү.

Кайсы бир жагдайдын объективдүү жагдайлары

Адам көрөт, угат, сезет. Кээ бир адистер уникалдуу сезимде - интуицияда эркин сүйлөйт. Маселени баяндоо маалыматты талап кылат, маселени чечүү процесси көбүнчө маселенин коюлушун тактоо менен коштолот. Бул маалыматты компьютер тутумунун ичине жылдырууда келип чыккан азыраак көйгөй.

Виртуалдык мейкиндиктеги маалымат
Виртуалдык мейкиндиктеги маалымат

Китепкана жана кесиптештер чечим кабыл алуу процессинин кыйыр катышуучулары болуп саналат. Китептин (булактын) жасалгасы, тексттеги графика, маалыматты рубрикаларга бөлүү өзгөчөлүктөрү, фразалар боюнча шилтемелер, предметтик көрсөткүч, баштапкы булактардын тизмеси - бардыгы адамда маселени чечүү процессине кыйыр түрдө таасир этүүчү ассоциацияларды пайда кылат. көйгөй.

Маселени чечүүнүн убактысы жана орду маанилүү. Адам ушунчалык ирээтке келтирилгендиктен, кандайдыр бир маселени чечүү процессинде аны курчап турган бардык нерселерге эрксизден көңүл бурат. Бул алаксытып, же стимулдаштырат. Data Mining эч качан "түшүнбөйт".

Виртуалдык мейкиндиктеги маалымат

Адамды ар дайым окуя, кубулуш, объект, маселени чечүү алгоритми жөнүндө ишенимдүү маалымат гана кызыктырып келген. Адам каалаган максатына кантип жете аларын дайыма элестетип келген.

Компьютерлердин жана маалымат системаларынын пайда болушу адамдын жашоосун жеңилдетүү керек болчу, бирок баары татаалдашып кетти. Маалымат компьютердик системалардын ичине көчүп, көздөн кайым болду. Керектүү маалыматтарды тандоо үчүн туура алгоритм түзүшүңүз же маалымат базасына суроо түзүшүңүз керек.

Маалымат системасынын ичиндеги маалыматтар
Маалымат системасынын ичиндеги маалыматтар

Суроо туура болушу керек. Ошондо гана жооп ала аласыз. Бирок аныктыгына күмөн саноолор сакталып турат. Бул жагынан алганда, Data Mining чындап эле "казуу", бул "маалымат алуу". Бул фразаны которуу мода болуп калды. Орусча версиясы – бул маалымат иштетүү же маалымат иштетүү технологиясы.

Бийликтүү адистердин эмгектеринде Data Mining милдеттери төмөнкүчө көрсөтүлгөн:

  • классификация;
  • кластерлөө;
  • ассоциация;
  • ырааттуулук;
  • болжолдоо.

Информацияны кол менен иштеп чыгууда адамды жетектеген практиканын көз карашынан алганда, бул позициялардын бардыгы талаш-тартыштуу. Кандай болгон күндө да адам маалыматты автоматтык түрдө иштеп чыгат жана маалыматтарды классификациялоо, объекттердин тематикалык топторун түзүү (кластерлөө), убактылуу схемаларды издөө (ырааттуулук) же натыйжаны болжолдоо жөнүндө ойлонбойт.

Адамдын аң-сезиминдеги бул позициялардын баары активдүү билимдер менен көрсөтүлөт, алар көбүрөөк позицияларды камтыйт жана баштапкы маалыматтарды иштетүү логикасын динамикалык түрдө колдонушат. Адамдын аң-сезими маанилүү роль ойнойт, өзгөчө ал белгилүү бир билим тармагында адис болгондо.

Мисалы: Компьютердик жабдууларды дүңүнөн сатуу

Тапшырма жөнөкөй. бир нече баркомпьютердик жабдууларды жана перифериялык жабдууларды ондогон берүүчүлөр. Ар биринде xls форматында прейскурант бар (Excel файлы), аны жеткирүүчүнүн расмий сайтынан көчүрүп алса болот. Excel файлдарын окуган, аларды маалымат базасынын таблицаларына айландырган жана кардарларга эң арзан баада каалаган өнүмдөрдү тандоого мүмкүндүк берген веб-ресурсту түзүү талап кылынат.

Көйгөйлөр дароо пайда болот. Ар бир жеткирүүчү xls файлынын структурасынын жана мазмунунун өзүнүн версиясын сунуштайт. Сиз файлды жеткирүүчүнүн веб-сайтынан жүктөө, электрондук почта аркылуу заказ кылуу же жеке кабинетиңиз аркылуу жүктөп алуу шилтемесин алуу, башкача айтканда, жеткирүүчүдө расмий каттоодон өтүү аркылуу ала аласыз.

Виртуалдык компьютер дүкөнү
Виртуалдык компьютер дүкөнү

Маселени чечүү (эң башында) технологиялык жактан жөнөкөй. Файлдарды жүктөө (баштапкы маалыматтар), ар бир жеткирүүчү үчүн файлды таануу алгоритми жазылат жана маалыматтар баштапкы маалыматтардын бир чоң таблицасына жайгаштырылат. Бардык маалыматтар алынгандан кийин, жаңы маалыматтарды үзгүлтүксүз алмаштыруу (күн сайын, жума сайын же өзгөртүү боюнча) механизми орнотулгандан кийин:

  • ассортиментти өзгөртүү;
  • баалардын өзгөрүшү;
  • кампадагы сандын тактоосу;
  • кепилдик шарттарын, спецификацияларды ж.б. тууралоо

Чыныгы көйгөйлөр ушул жерден башталат. Эң негизгиси, жеткирүүчү төмөнкүлөрдү жаза алат:

  • ноутбук Acer;
  • ноутбук Asus;
  • Dell ноутбуку.

Биз бир эле продукт жөнүндө айтып жатабыз, бирок ар кандай өндүрүүчүлөрдөн. Кантип ноутбук=ноутбукту дал келтирсе болот же Acer, Asus жана Dell'ди продукт линиясынан кантип алып салуу керек?

үчүнадам көйгөй эмес, бирок алгоритм Acer, Asus, Dell, Samsung, LG, HP, Sony соода белгилери же камсыздоочулар экенин кантип "түшүнөт"? Кантип "принтер" жана принтер, "сканер" жана "MFP", "ксерокс" жана "MFP", "наушник" менен "гарнитура", "аксессуарлар" "аксессуарлар" менен дал келет?

Башкы дайындардын (баштапкы файлдар) негизинде категория дарагын куруу мурунтан эле көйгөй болуп, баарын автоматтык түрдө коюу керек.

Маалыматтарды тандоо: "жаңы куюлган" казуулар

Эсептөө техникасын берүүчүлөрдүн маалымат базасын түзүү милдети чечилди. Категориялар дарагы курулду, бардык камсыздоочулардын сунуштары бар жалпы стол иштеп жатат.

Бул мисалдын контекстиндеги типтүү берилиштерди иштетүү тапшырмалары:

  • эң төмөн баада товар табыңыз;
  • эң төмөн жеткирүү баасы жана баасы бар нерсени тандаңыз;
  • продукцияны талдоо: мүнөздөмөлөр жана критерийлер боюнча баалар.

Менеджердин чыныгы ишинде бир нече ондогон камсыздоочулардын маалыматтарын колдонгондо, бул тапшырмалардын көптөгөн вариациялары жана андан да көп реалдуу жагдайлар болот.

Мисалы, ASUS VivoBook S15 саткан "А" берүүчү бар: алдын ала төлөө, акчаны иш жүзүндө алгандан 5 күн өткөндөн кийин жеткирүү. Ошол эле үлгүдөгү буюмдун "Б" берүүчүсү бар: алуу боюнча төлөм, келишим түзүлгөндөн кийин бир сутка ичинде жеткирүү, баасы бир жарым эсе жогору.

Data Mining башталат - "казуулар". Каймана сөз айкаштары: "казуулар" же "маалыматтарды казып алуу" синонимдер. Бул чечим чыгарууга кантип себеп табуу керектиги жөнүндө.

"A" жана "B" берүүчүлөрүнүн жеткирүү тарыхы бар. Баабиринчи учурда алдын ала төлөө, экинчи учурда дүмүрчөк боюнча төлөмгө каршы, экинчи учурда жеткирүүнүн бузулушу 65% жогору экендигин эске алуу менен. кардар тарабынан жаза тобокелдиги жогору/төмөн. Кантип жана эмнени аныктоо жана кандай чечим кабыл алуу керек?

Ал эми маалымат базасы программист жана менеджер тарабынан түзүлгөн. Программист жана менеджер алмашса, маалымат базасынын учурдагы абалын кантип аныктоо жана аны туура колдонууну үйрөнүү керек? Сиз ошондой эле маалыматтарды казып алуу керек болот. Data Mining ар кандай математикалык жана логикалык ыкмаларды сунуштайт, алар кандай маалыматтар изилденип жатканына маани бербейт. Бул кээ бир учурларда туура чечимди берет, бирок бардыгында эмес.

Виртуалдыкка өтүп, маанисин табуу

Маалыматтарды казып алуу ыкмалары маалымат базага жазылып, «көз караш талаасынан» жок болуп кеткенден кийин мааниге ээ болот. Компьютердик жабдуулар менен соода кылуу - бул кызыктуу иш, бирок бул жөн гана бизнес. Ал компанияда канчалык деңгээлде уюшкандыгы анын ийгилигинен көз каранды.

Планетадагы климаттын өзгөрүшү жана белгилүү бир шаардагы аба ырайы климат боюнча кесипкөй адистерди гана эмес, бардыгын кызыктырат. Миңдеген сенсорлор шамалдын, нымдуулуктун, басымдын көрсөткүчтөрүн, Жердин жасалма спутниктеринен алынган маалыматтарды алышат жана маалыматтардын жылдар жана кылымдар бою тарыхы бар.

Аба ырайы маалыматы жумушка кол чатыр алып келүү же алып келбөө жөнүндө гана эмес. Data Mining технологиялары – бул авиалайнердин коопсуз учушу, автожолдун туруктуу иштеши жана деңиз аркылуу мунай продуктуларын ишенимдүү жеткирүү.

"Чийки" маалымат маалыматка жөнөтүлөтсистемасы. Data Mining милдеттери аларды таблицалардын системалаштырылган системасына айландыруу, байланыштарды түзүү, бир тектүү маалыматтардын топторун бөлүп көрсөтүү жана калыптарды аныктоо болуп саналат.

Климат, аба ырайы жана чийки маалыматтар
Климат, аба ырайы жана чийки маалыматтар

Математикалык жана логикалык методдор OLAP (On-line Analytical Processing) сандык аналитикасынын күндөрүнөн бери өзүнүн практикалык экенин көрсөттү. Бул жерде технология компьютердик жабдыктарды сатуу мисалындагыдай эле маанисин таап, аны жоготпой коюуга мүмкүндүк берет.

Андан тышкары, глобалдык тапшырмаларда:

  • трансулуттук бизнес;
  • аба транспортун башкаруу;
  • жердин түбүн же социалдык көйгөйлөрдү изилдөө (мамлекеттик деңгээлде);
  • дарылардын тирүү организмге таасирин изилдөө;
  • өнөр жай ишканасынын курулушунун кесепеттерин алдын ала айтуу ж.б.

Data Mine технологиялары жана "маанисиз" маалыматтарды объективдүү чечимдерди кабыл алууга мүмкүндүк берген реалдуу маалыматтарга айландыруу - бул жалгыз вариант.

Адамдын мүмкүнчүлүктөрү чийки маалымат көп болгон жерде бүтөт. Маалыматтарды иштетүү тутумдары маалыматты көрүү, түшүнүү жана сезүү талап кылынган жерде өзүнүн пайдалуулугун жоготот.

Функциялардын акылга сыярлык бөлүштүрүлүшү жана объективдүү

Адам менен компьютер бири-бирин толуктап турушу керек - бул аксиома. Диссертация жазуу адам үчүн приоритет, ал эми маалымат системасы жардам берет. Бул жерде Data Mining технологиясы ээ болгон маалыматтар эвристика, эрежелер, алгоритмдер.

Апталык аба ырайын даярдоо маалымат системасынын приоритети болуп саналат. Адам маалыматтарды башкарат, бирок өз чечимдерин системанын эсептөөлөрүнүн натыйжаларына негиздейт. Ал Data Mining ыкмаларын, адистердин маалыматтарын классификациялоону, алгоритмдердин колдонулушун кол менен башкарууну, мурунку маалыматтарды автоматтык түрдө салыштырууну, математикалык болжолдоону жана маалымат системасын колдонууга катышкан чыныгы адамдардын көптөгөн билимдерин жана көндүмдөрүн айкалыштырат.

Адам жана компьютер
Адам жана компьютер

Ыктымалдуулук теориясы жана математикалык статистика билимдин эң "сүйүктүү" жана түшүнүктүү тармактары эмес. Көптөгөн адистер алардан абдан алыс, бирок бул тармактарда иштелип чыккан ыкмалар дээрлик 100% туура жыйынтыктарды берет. Маалыматтарды казып алуунун идеяларына, ыкмаларына жана алгоритмдерине негизделген системаларды колдонуу менен чечимдерди объективдүү жана ишенимдүү түрдө алууга болот. Болбосо, аны чечүү мүмкүн эмес.

Фараондор жана өткөн кылымдардын сырлары

Тарых мезгил-мезгили менен кайра жазылып турган:

  • мамлекеттер - өздөрүнүн стратегиялык кызыкчылыктары үчүн;
  • авторитеттүү окумуштуулар - өздөрүнүн субъективдүү ишенимдери үчүн.

Эмне чын, эмнеси жалган экенин айтуу кыйын. Data Mining колдонуу бул маселени чечүүгө мүмкүндүк берет. Мисалы, пирамидаларды куруу технологиясы жылнаамачылар тарабынан баяндалган жана ар кайсы кылымдарда окумуштуулар тарабынан изилденген. Бардык материалдар Интернетке түшкөн эмес, бул жерде баары уникалдуу эмес жана көптөгөн маалыматтар болбошу мүмкүн:

  • сүрөттөлгөн убакыт чекити;
  • сүрөттү жазуу убактысы;
  • сүрөттөө негизделген даталар;
  • автор(лар), пикирлер (шилтемелер) эске алынган;
  • объективдүүлүктү ырастоо.

Бкитепканалардан, храмдардан жана "күтүүсүз жерлерден" ар кандай кылымдардагы кол жазмаларды жана өткөндүн материалдык далилдерин таба аласыз.

Кызыктуу максат: баарын чогултуп, "чындыкты" ачуу. Маселенин өзгөчөлүгү: маалымат жылнаамачы биринчи сүрөттөмөсүнөн тартып, фараондордун тирүү кезинде, азыркы кылымда, бул маселе көптөгөн илимпоздор тарабынан заманбап ыкмалар менен чечилгенге чейин алынышы мүмкүн.

Data Miningди колдонуунун негиздери: кол эмгеги мүмкүн эмес. Өтө көп сан:

  • маалымат булактары;
  • көрсөтүү тилдери;
  • бир эле нерсени ар кандай жолдор менен сүрөттөгөн изилдөөчүлөр;
  • даталар, окуялар жана шарттар;
  • терминдик корреляция көйгөйлөрү;
  • маалымат топтору боюнча статистиканын анализи убакыттын өтүшү менен айырмаланышы мүмкүн, ж.б.

Өткөн кылымдын аягында, жасалма интеллект идеясынын дагы бир фиаскосу карапайым адамдарга гана эмес, татаал адиске да айкын болуп калганда, идея пайда болгон: "инсанды кайра жаратуу".

Мисалы, Пушкиндин, Гогольдун, Чеховдун эмгектери боюнча белгилүү бир эрежелердин системасы, жүрүм-турум логикасы калыптанат жана адам белгилүү суроолорго жооп бере ала турган маалымат системасы түзүлөт: Пушкин, Гоголь же Чехов. Теориялык жактан мындай тапшырма кызыктуу, бирок иш жүзүндө аны ишке ашыруу өтө кыйын.

Бирок, мындай тапшырма идеясы абдан практикалык идеяны сунуштайт: "акылдуу маалыматты издөөнү кантип түзүү керек". Интернет - бул көптөгөн өнүгүп жаткан ресурстар, чоң маалымат базасы жана бул Data Miningди адам менен айкалыштыруу үчүн сонун мүмкүнчүлүкбиргелешип иштеп чыгуу форматындагы логика.

Машина менен адам бирге
Машина менен адам бирге

Машина менен адам жупташкан - бул эң сонун милдет жана "маалымат археологиясы" тармагындагы талашсыз ийгилик, маалыматтардагы жогорку сапаттагы казуулар жана натыйжалар бир нерседен күмөн жаратат, бирок бул сизге шексиз мүмкүнчүлүк берет. жаңы билимдерди алуу жана коомдо суроо-талапка ээ болот.

Сунушталууда: