Forecasting with the Microsoft Time Series Data Mining algorithm
การ Forecasting โดยใช้ Tool Microsoft Data Mining Add-ins for Microsoft Office ซึ่งเราสามารถดาวน์โหลดได้จากเว็บไซต์ Microsoft จริงๆมีหลาย Tool เช่น IBM SPSS Modeler, SAS Data mining, Rapid miner, Anggoss Knowledge studio, Microsoft Analysis Services, Oracle data mining, FICO Data management Platform, Think Analytics, Teradata warehouse miner, Weka, Knime เป็นต้นสามารถศึกษาเพิ่มเติมได้จากลิ้ง Top 26 Data Mining Software
“เหตุผลที่เลือก MS data mining add-ins คิดว่าทุกท่านที่กำลังทำงาน มี MS Office อยู่ในเครื่องอยู่แล้ว ดังนั้นหากจะทดลองนำข้อมูลมาทำ Data Mining ก็เป็นเรื่องง่ายๆ ที่ทุกท่านสามารถทำเองได้ เมื่อทำการติดตั้ง Microsoft Data Mining Add-ins for Microsoft Office เสร็จแล้วทำการเปิด Microsoft Excel ขึ้นมาจะเห็นแท็บ Data Mining ดังรูป”
มีเครื่องมือให้เราทดลองทำ Data mining ได้หลาย Algorithm แต่วันนี้ผมจะใช้ Function Forecast มาทำการพยากรณ์อนาคต หลักการทำงานของฟังก์ชัน Function Forecast เข้าใช้ 2 Model นี้ครับคือ
“ARTXP (Autoregressive Tree Model for Time-Series Analysis) มีใน Analysis Service 2005 ซึ่งเหมาะสำหรับการพยากรณ์ในระยะสั้น ส่วน ARIMA (Autoregressive Integrated Moving Average ) เริ่มใช้ใน Analysis Service 2008 เทคนิค Forecast นี้จะใช้ข้อมูลในอดีตเพื่อหา Model แสดงถึงพฤติกรรมของข้อมูลและใช้เป็นแนวทางในการพยากรณ์ในอนาคตเป็นเทคนิคที่ถูกปรับปรุงให้เหมาะสมสำหรับการพยากรณ์ในระยะยาวซึ่งเป็นการผสมระหว่าง ARIMA+ARTXP สามารถทำการพยากรณ์ได้อย่างมีประสิทธิภาพมากขึ้น” ส่วนข้อมูลเชิงลึกสามารถศึกษาเพิ่มเติมได้จาก Box-Jenkins Models
มาเริ่มใช้ Tool เพื่อทำการ Forecast กันดีกว่าครับ
1. Data Preparation เตรียมข้อมูลที่จะนำมาทำการพยากรณ์ให้พร้อม โดยในการเตรียมข้อมูลสิ่งที่เราต้องคำนึงถึงคือ “Explore Data” สำรวจข้อมูลที่เรามีที่จะนำมาใช้ในการทำการพยากรณ์ โดยเก็บรวบรวมมาอยู่ที่เดียวกันอาจเก็บในรูปแบบของตาราง จัดกลุ่มของข้อมูลให้สามารถนำไปโปรเซสต่อได้ง่าย “Cleansing Data” ทำให้ข้อมูลของเราอยู่ในรูปแบบที่สามารถอ่านเข้าใจได้ง่ายสามารถนำไปทำ Presentation ต่อได้ง่าย เช่น Column Gender ที่มีข้อมูล “F” และ “M” อาจจะเปลี่ยนให้เป็น Female และ Male เป็นต้น
สมมุติผมใช้ตัวอย่างข้อมูลที่มากับโปรแกรม ซึ่งเป็นข้อมูลการขาย M200 Model เป็นยอดขายของ 3 ภูมิภาค ตั้งแต่ 2001-07 ถึง 2004-06 ดังรูป
2. Forecast
จากรูป
1) ทำการเลือกข้อมูลที่เราต้องการ
2) เลือกฟังก์ชัน “Forecast”
หน้าจอแสดงถึงขอบเขตข้อมูลที่เราเลือก
Time stamp จะต้องเลือกคอลัมน์เกี่ยวกับเวลา ในที่นี้ให้ทำการเลือกคอลัมน์ Year_Month ซึ่งเก็บข้อมูล ปี/เดือน ของข้อมูลการขาย
Input Column เลือกข้อมูลที่เราต้องการที่จะนำมาพยากรณ์ หากต้องการพยากรณ์แค่ใน Europe เราก็เลือกแค่คอลัมภ์ Europe Amount ในที่นี้เราจะพยากรณ์เปรียบเทียบยอดขายทั้ง 3 Zone ก็เลือกทั้งหมด
จากนั้นทำการคลิก Next
รอจนกว่าโปรแกรมทำการ Process เสร็จจะโชว์หน้าจอดังรูป ข้างล่าง
จากรูปแสดงกราฟเปรียบเทียบยอดพยากรณ์การขายใน 3 ภูมิภาคในอีก 5 เดือนถัดไปซึ่งสามารถปรับได้โดยเปลี่ยนที่ Prediction Steps ถ้ากำหนดเป็น 3 จะเท่ากับ 3 รอบในอนาคต เช่น 2004-07, 2004-08, 2004-09 เป็นต้น
จากรูป ค่าการพยากรณ์รายได้จากการขายใน 5 เดือนข้างหน้าของอเมริกาเหนือ จะได้ว่า
– ยอดพยากรณ์ 2004-07 มีค่าเท่ากับ 289657.75017928
– ยอดพยากรณ์ 2004-08 มีค่าเท่ากับ 287474.194266346
– ยอดพยากรณ์ 2004-09 มีค่าเท่ากับ 246325.171796734
– ยอดพยากรณ์ 2004-10 มีค่าเท่ากับ 385199.694520373
– ยอดพยากรณ์ 2004-11 มีค่าเท่ากับ 371575.142964376
หากเราต้องการนำกราฟไปใช้ให้ทำการคลิก Copy to Excel จะได้กราฟดังรูป