Data mining
Data mining нь машин сургалт, статистик, өгөгдлийн сангийн системийн огтлолцолд оршдог аргуудыг ашиглан томоохон хэмжээний өгөгдлийн багц дотроос хэв маяг, загварыг илрүүлэх, олборлох үйл явц юм. Data mining (Өгөгдөл олборлолт) нь компьютерийн шинжлэх ухаан, статистикийн олон салбарын дэд салбар бөгөөд гол зорилго нь өгөгдлийн багцаас ухаалаг аргууд ашиглан мэдээлэл гарган авч, түүнийг цаашид ашиглахад ойлгомжтой бүтэц болгон хувиргах явдал юм. Data mining нь "Өгөгдлийн санд мэдлэг илрүүлэх" (Knowledge Discovery in Databases, KDD) процессын шинжилгээний шат бөгөөд үүнд өгөгдлийн сан ба өгөгдлийн удирдлага, өгөгдлийн урьдчилсан боловсруулалт, загвар ба дүгнэлт хийх асуудлууд, сонирхолтой байдал хэмжүүрүүд, төвөгтэй байдлын үнэлгээ, олдсон бүтэцүүдийн дараах боловсруулалт, дүрслэл, онлайн шинэчлэлт зэрэг орно.
"Data mining" гэдэг нэр нь буруу ойлголт төрүүлдэг бөгөөд үнэн хэрэгтээ томоохон хэмжээний өгөгдлөөс хэв маяг, мэдлэгийг олборлохыг хэлдэг ба өгөгдлийг өөрийг нь олборлохыг илэрхийлдэггүй. Мөн энэ нэр томъёо нь түгээмэл хэрэглэгддэг бөгөөд томоохон хэмжээний өгөгдөл, мэдээллийн боловсруулалт (цуглуулга, олборлолт, хадгалалт, шинжилгээ, статистик) болон хиймэл оюун ухаан (жишээ нь машин сургалт) ба бизнесийн оюун ухаан зэрэг компьютерийн шийдвэр дэмжих системүүдэд өргөн хэрэглэгддэг. Ерөнхийдөө "томоохон хэмжээний өгөгдлийн шинжилгээ" болон "аналитикс" гэсэн нэр томъёо эсвэл бодит аргуудыг заахдаа хиймэл оюун ухаан, машин сургалт гэсэн нэр томъёо илүү тохиромжтой байдаг.
Data mining-ын үндсэн үүрэг нь томоохон хэмжээний өгөгдлийг хагас автомат буюу автомат аргаар шинжлэн өмнө нь мэдэгдээгүй, сонирхолтой хэв маягуудыг илрүүлэх явдал юм. Жишээ нь өгөгдлийн бичлэгүүдийн бүлгүүд (кластерийн шинжилгээ), ер бусын бичлэгүүд (аномалийн илрүүлэлт), хамаарал бүхий харилцаа (холбоо барих дүрэм олборлолт, дараалсан хэв маяг олборлолт) зэрэг. Үүний тулд ихэвчлэн орон зайн индексүүд зэрэг өгөгдлийн сангийн техникүүд ашиглагддаг. Эдгээр хэв маягуудыг оролтын өгөгдлийн нэг төрлийн хураангуй гэж үзэж болох бөгөөд цаашид шинжилгээ хийх, машин сургалт, урьдчилсан аналитикт ашиглаж болно. Жишээ нь, Data mining-ын шатанд өгөгдөл дотор олон бүлэг илрүүлснээр шийдвэр дэмжих систем илүү нарийвчлалтай таамаглал гаргах боломжтой болно. Өгөгдөл цуглуулах, бэлтгэх, үр дүн тайлбарлах, тайлагнах үйл явц нь өгөгдөл олборлолтын шатанд багтахгүй ч KDD процессын бусад шатанд хамаарна.
Өгөгдлийн шинжилгээ ба Data mining-ын ялгаа нь өгөгдлийн шинжилгээ нь өгөгдлийн багц дээр загвар, таамаглалыг туршихад ашиглагддаг (жишээ нь маркетингийн кампанит ажлын үр дүнг шинжлэх), харин өгөгдөл олборлолт нь машин сургалт, статистикийн загвар ашиглан томоохон хэмжээний өгөгдлөөс далд хэв маяг илрүүлэхэд чиглэдэгт оршино.
Хамааралтай нэр томъёонууд болох өгөгдөл ухах (data dredging), өгөгдөл загасчлах (data fishing), өгөгдөл сэмээрхэн судлах (data snooping) нь томоохон хүн амын өгөгдлийн багцаас статистикийн итгэлтэй дүгнэлт хийхэд хангалттай биш жижиг хэсгүүдийг санамсаргүйгээр сонгон судлахыг хэлдэг. Гэсэн хэдий ч эдгээр аргуудыг шинэ таамаглал үүсгэх, том өгөгдлийн багцтай харьцуулахад ашиглаж болно.
Үүсэл
[засварлах | кодоор засварлах]1960-аад онд статистикчид, эдийн засагчид өгөгдлийг урьдчилсан таамаглалгүйгээр шинжлэхийг буруу гэж үзэн өгөгдөл загасчлах, ухах зэрэг нэр томъёог хэрэглэж байв. "Өгөгдөл олборлолт" нэр томъёог эдийн засагч Майкл Ловелл 1983 онд Economic Studies сэтгүүлд шүүмжлэлтэйгээр ашигласан бөгөөд энэ үйлдлийг "туршилт" (эерэг) болон "загасчлах" эсвэл "сэмээрхэн судлах" (сөрөг) гэж нэрлэж байв.
1990-ээд оны орчим өгөгдлийн сангийн нийгэмлэгт "Data mining" нэр томъёо эерэг утгатайгаар тархсан. 1980-аад онд "database mining"™ нэрийг ХНC компани ашиглаж байсан тул судлаачид өгөгдөл олборлолт руу шилжсэн. Бусад хэрэглэгддэг нэр томъёо нь өгөгдлийн археологи, мэдээлэл хураах, мэдээлэл илрүүлэх, мэдлэг олборлох зэрэг орно. Грегори Пиатецки-Шапиро 1989 онд анхны "мэдлэг илрүүлэх өгөгдлийн санд" (KDD) семинарыг зохион байгуулж, энэ нэр томъёо хиймэл оюун ухаан, машин сургалтын салбарт түгээмэл болсон. Гэсэн хэдий ч бизнес, хэвлэл мэдээллийн салбарт өгөгдөл олборлолт нэр томъёо илүү түгээмэл хэрэглэгддэг. Одоогийн байдлаар өгөгдөл олборлолт ба мэдлэг илрүүлэх нэр томъёонууд солилцон хэрэглэгддэг.
Түүхэн үндэс
[засварлах | кодоор засварлах]Өгөгдлөөс хэв маяг гаралтыг гар аргаар хийх нь зууны өмнөөс хийгдэж ирсэн. Үүнд Бэйсийн онол (1700-аад он) ба регрессийн шинжилгээ (1800-аад он) орно. Компьютерийн технологийн тархалт, хүч чадал нэмэгдсэнээр өгөгдөл цуглуулах, хадгалах, боловсруулах чадвар эрс сайжирсан. Өгөгдлийн багц том, төвөгтэй болсон тул гар аргаар хийх шинжилгээ улам бүр автоматжсан өгөгдлийн боловсруулалтаар орлуулж, машин сургалтын шинэ нээлтүүд (нейрон сүлжээ, кластерийн шинжилгээ, генетикийн алгоритм, шийдвэрийн мод, дэмжих вектор машин) тусалж байна. Data mining нь эдгээр аргуудыг томоохон өгөгдөл дотор далд хэв маяг илрүүлэх зорилгоор хэрэглэх процесс юм. Энэ нь статистик, хиймэл оюун ухааны математик үндсийг өгөгдлийн сангийн удирдлагатай холбож өгөгдлийг хадгалах, индексжүүлэх аргыг ашиглан илүү үр дүнтэй суралцах, илрүүлэх алгоритмуудыг хэрэгжүүлэх боломжийг олгодог бөгөөд ингэснээр улам том өгөгдлийн багцад хэрэглэж болно.
Үйл явц
[засварлах | кодоор засварлах]Мэдлэг илрүүлэх өгөгдлийн сангийн (KDD) процесс дараах шатуудаас бүрдэнэ:
- Сонголт
- Урьдчилсан боловсруулалт
- Хувиргалт
- Өгөгдөл олборлолт
- Тайлбар/үнэлгээ
Энэхүү процесс нь олон хувилбартай бөгөөд жишээ нь CRISP-DM (Cross-industry standard process for data mining) аргыг дурдвал зургаан шаттай:
- Бизнесийн ойлголт
- Өгөгдлийн ойлголт
- Өгөгдлийн бэлтгэл
- Загварчлал
- Үнэлгээ
- Хэрэгжилт
эсвэл энгийн хувилбар болох (1) Урьдчилсан боловсруулалт, (2) Өгөгдөл олборлолт, (3) Үр дүн баталгаажуулалт гэх мэт.
2002, 2004, 2007, 2014 онуудад явуулсан судалгаагаар CRISP-DM аргачлал өгөгдөл олборлогчдын дунд хамгийн түгээмэл хэрэглэгддэг аргачлал болох нь тогтоогдсон. Өөр нэг Data mining-ын стандарт болох SEMMA ч дурдагдсан ч CRISP-DM-г ашигладаг хүмүүс 3-4 дахин олон байсан. Судлаачдын олон баг өгөгдөл олборлолтын процессын загваруудын тоймыг нийтэлж, 2008 онд Азеведо, Сантос нар CRISP-DM ба SEMMA-гийн харьцуулалтыг хийсэн.