img_biส่วนที่ 1 Data Source เป็นข้อมูลจากแหล่งต่างๆที่เราต้องการเก็บรวมไว้บน data warehouse ของเราไม่ว่าจะเป็น customer, product, Order และอื่นๆซึ่งเป็นข้อมูลภายในองค์กรและข้อมูลภายนอกที่ต้องนำมาใช้ประโยชน์ เช่น location base, wiki, social, etc.
ส่วนที่ 2 Data Management Platform แน่นอนว่าข้อมูลที่เราเก็บและทำการ Transformation มาจากแหล่งต่างๆ(data source) จะถูกนำไปใช้งานต่อเช่น ทำ report, data analytic, OLAP, data mining มันจะต้องอยู่ในรูปที่สามารถนำไปใช้งานต่อได้สะดวกรวดเร็ว(speed)และมีคุณภาพ(data quality) เพราะฉะนั้นในการออกแบบ data warehouse เพื่อเก็บข้อมูลในส่วนนี้จึงถือว่ามีความสำคัญ
ส่วนที่ 3 BI Platform เป็นส่วนที่เรานำข้อมูลมาทำการวิเคราะห์(data analytics) ซึ่งอาจจะใช้เทคนิคที่เรียกว่า OLAP(Online Analytical Processing) เพื่อให้การวิเคราะห์ข้อมูลในมุมมองต่างๆ สามารถทำได้อย่างมีประสิทธิภาพ นอกจากนี้เราสามารถจะใช้เทคนิคขั้นสูงเพื่อจำแนกข้อมูล และหาความน่าจะเป็นโดยใช้ data mining ซึ่งจะมาแชร์ให้ฟังต่อไปครับ

 Data Mining คืออะไร? 

           Data Mining คือ การวิเคราะห์ข้อมูลจากข้อมูลจำนวนมาก (big data) เพื่อหาความสัมพันธ์ของข้อมูลที่ซ่อนอยู่ โดยทำการจำแนกประเภท รูปแบบ เชื่อมโยงข้อมูลที่มีความสัมพันธ์กัน และหาความน่าจะเป็นที่จะเกิดขึ้น เพื่อให้ได้องค์ความรู้ใหม่ ที่สามารถนำไปใช้ประกอบการตัดสินใจในด้านต่างๆ เช่น ตลาดหลักทรัพย์,ทางธุรกิจ, ทางด้านการแพทย์, ยุทธศาสตร์ทหาร เป็นต้น

การทำเหมืองข้อมูล (data mining) ขอสรุป Algorithm of Data mining ที่ใช้กันบ่อยๆไว้ประมาณนี้ครับ จริงมี Algorithm เยอะกว่านี้นะค่อยๆศึกษากันไปนะครับ “วันนี้พูดถึง 8 กระบวนท่า algorithm of data mining”
img_algorithm

Descriptive Modeling : Unsupervised Learning

1.Association Algorithm เป็นอัลกอริทึมการค้นหาความสัมพันธ์ของข้อมูลจากข้อมูลขนาดใหญ่ (Big Data) เพื่อนำไปใช้ในการวิเคราะห์ หรือทำนายปรากฏการณ์ต่าง ๆ หรือมาจากการวิเคราะห์การซื้อสินค้าของลูกค้าที่เรียกว่า “Market Basket Analysis” โดยนำ transaction การซื้อสินค้ามาทำการค้นหาวิเคราะห์ ว่าลูกค้าใช้อะไรคู่กับสินค้าอะไรบ่อยๆ ทำให้สามารถออกโปรโมชั่นแคมเปญคู่กัน ทำให้มีราคาถูกลง เพื่อเพิ่มมูลค่าให้กับสินค้า ผลการวิเคราะห์ที่ได้จะเป็นคำตอบของปัญหา ซึ่งการวิเคราะห์แบบนี้เป็นการใช้ “กฎความสัมพันธ์ ”(Association Rule) เพื่อหาความสัมพันธ์ของข้อมูล อ่านเพิ่มเติม

2.Clustering Algorithm เป็นเทคนิคที่ใช้ในการจำแนกกลุ่มข้อมูลใหม่ที่มีลักษณะคล้ายกันไว้ในกลุ่มเดียวกัน ขั้นตอนวิธีที่ใช้ในการแบ่งกลุ่มจะอาศัยความเหมือน (similarity) หรือ ความใกล้ชิด (proximity) โดยคำนวณจากการวัดระยะระหว่างเวกเตอร์ของข้อมูลเข้า ตัวอย่างเช่น บริษัทจำหน่ายรถยนต์ได้แยกกลุ่มลูกค้าออกเป็น 3 กลุ่ม คือ  กลุ่มผู้มีรายได้สูง (>80,000 บาท) , กลุ่มผู้มีรายได้ปานกลาง (25,000 ถึง 80,000 บาท), กลุ่มผู้มีรายได้ต่ำ (less than 25,000 บาท)   หรือจำแนกกลุ่มลูกค้าช่วงตามช่วงอายุ,เพศ วิเคราะห์ปัจจัยเสี่ยงที่มีโอกาศเกิดโรคต่างๆ เพื่อจัดแคมเปญเสนอขายประกันคุ้มครองชีวิตได้ตรงกลุ่มเป้าหมาย อ่านเพิ่มเติม

3.Time Series Algorithm เป็นวิธีการพยากรณ์แบบข้อมูลอนุกรมเวลา ซึ่งถ้าจะเริ่มศึกษา algorithm นี้ก็จะเน้นไปในเรื่องการพยากรณ์การขาย (Sales forecasting) ก็คือ การประมาณ หรือ การคาดคะเนว่าอะไรจะเกิดขึ้นในอนาคต เช่น การพยากรณ์ยอดขายของ 3 ปีข้างหน้า การพยากรณ์มีบทบาทสำคัญกับทุกด้าน ทั้งหน่วยงานของรัฐบาล และเอกชน รัฐบาลต้องประมาณ หรือ พยากรณ์รายได้ รายจ่ายในปีหน้า เพื่อนำมาวางแผน เอกชนต้องพยากรณ์ยอดขาย เพื่อนำมาวางแผนการผลิต สินค้าคงคลัง แรงงาน เป็นต้น อ่านเพิ่มเติม

Predictive Modeling : Supervised Learning

Classification

4.Decision Trees Algorithm  เป็นการแยกข้อมูล (Classification)ออกเป็นกลุ่มโดยใช้คุณสมบัติของข้อมูล (Attribute) เป็นตัวกำหนด ซึ่งประกอบไปด้วย โหนดภายใน (Internal node), กิ่ง (Link), โหนดใบ (Leaf node) วิธีการวิเคราะห์แบบต้นไม้ตัดสินใจเป็นการค้นหาจากบนลงล่าง(Top-down)โดยเริ่มจากการเลือกคุณสมบัติที่ดีที่สุดมาเป็นโหนดราก (Root node)และวนสร้างโหนดลูกและเส้นเชื่อมไปเรื่อยๆจนกว่าข้อมูลที่ได้จะถูกจัดไว้เป็นกลุ่มเดียวกันเราถึงจะหยุดสร้างต้นไม้ แนะนำอัลกอริทึมที่ใช้สร้าง decision tree ได้แก่ ID3, C4.5, C5.0, CART algorithm อ่านเพิ่มเติม

5.Naive Bayes Algorithm
6.Neural Network Algorithm  เป็นแนวคิดที่ได้มาจากการจำลองการทำงานของเซลล์สมองของมนุษย์ ซึ่งมีโครงสร้างประกอบด้วย Input layer, Hidden layer,Output layer มีหน่วยย่อยเรียกว่า Perceptron ซึ่งเทียบเท่าได้กับเซลล์สมองของมนุษย์หนึ่ง Neuronโดยหลักการของ neural network จะมีการกำหนดค่าน้ำหนัก weight และ threshold ให้แก่ input แต่ละตัวโดยใช้ back-propagation algorithm ในการคำนวณ และในการสร้างโมเดล Neural network สามารถทำได้ทั้ง 2 วิธีคือ Supervised Learning และ Unsupervised Learning  ซึ่งเราสามารถนำมาประยุกต์ใช้กับงานด้านต่างๆ อาทิเช่น การพยากรณ์ การจดจำใบหน้า เรียนรู้จำลายมือ ลายเซนต์ ใช้ในทางการแพทย์  อ่านเพิ่มเติม

Regression
7.Linear Regression Algorithm
8.Logistic Regression Algorithm

 ตัวอย่างธุรกิจที่นำเทคนิค Data Mining ไปประยุกต์ใช้งานเพื่อสร้างความได้เปรียบทางการแข่งขัน (Competitive Advantage)

1. amazon.com  เป็นตัวอย่างการนำเทคนิคนี้ไปประยุกต์ใช้กับงานจริง ได้แก่ ระบบแนะนำหนังสือ,หนังให้กับลูกค้าของ Amazon ข้อมูลการสั่งซื้อทั้งหมดของ Amazon ซึ่งมีขนาดใหญ่มากจะถูกนำมาประมวลผลเพื่อหาความสัมพันธ์ของข้อมูล คือ ลูกค้าที่ซื้อหนังสือเล่มหนึ่ง ๆ มักจะซื้อหนังสือเล่มใดพร้อมกันด้วยเสมอ ความสัมพันธ์ที่ได้จากกระบวนการนี้จะสามารถนำไปใช้คาดเดาได้ว่าควรแนะนำหนังสือเล่มใดเพิ่มเติมให้กับลูกค้าที่เพิ่งซื้อหนังสือจากร้านเรียกว่า Product Recommendations “amazon นั้นได้ส่วนแบ่งจากการทำการแนะนำสินค้าแบบนี้กว่าร้อยละ 35 จากยอดขายทั้งหมด” (Siegel, 2013)
amazon

รูปตัวอย่างการแนะนำหนังสือ

amazon2

รูปตัวอย่างการแนะนำการซื้อหนัง

TG Facebook Comments