Wednesday, January 19, 2011

Class 9 : Data Management II & Business Intelligence

Data Management II & Business Intelligence

Data Warehouse : Major Benefits
1.Reach data more quickly as they’re located in one place.
2.Reach data easier , more frequent by end users themselves ,using Web browser.

Reasons for data inconsistency
1.เกิดจากข้อมูลมี format ต่างกัน
2.ข้อมูล update ไม่เท่ากัน

Data Warehouse Process
1.Collect Data both from External data and Operational Data
2.Data Staging : Extract, Clean, Transform and Load .AKA “ETCL” คัดกรองเฉพาะข้อมูลที่ต้องใช้จาก Database เก็บข้อมูลไว้ใน Data Cube

The Data Mart : is a small scaled-down version 0f a data warehouse : ไม่ได้มีข้อมูลทุกอย่างเหมือน Data Warehouse แต่ตัดแบ่งข้อมูลมาจาก Data Warehouse ตามมุมมองที่ผู้ใช้ต้องการ

Types of Data Mart
1.Replicated data mart : ในกรณีที่องค์กรมี Data Warehouse ขององค์กรอยู่แล้วและทีผู้ใช้ Data Warehouse ที่หลากหลาย จึงจำเป็นต้องมี of Data Martเพิ่มขึ้นมาโดยนำข้อมูลมาจาก Data Warehouse เพื่อจัดระเบียบให้ตรงกับความต้องการใช้
2.Stand-alone data mart : เกิดขึ้นกับองค์กรที่ยังไม่พร้อมที่จะสร้าง Data Warehouseขององค์กร จึงสร้างเฉพาะ data mart ในส่วนที่พร้อม

The Data Cube
“Multidimensional Databases” (AKA OLAP) : เป็น database ที่มีการจัดเรียงข้อมูลตามมิติต่างๆ เพื่อความสะดวกการวิเคราะห์ข้อมูลที่มีอยู่เป็นจำนวนมาก โดยจะสามารถวิเคราะห์ข้อมูลในลักษณะต่างๆ เช่น
1.Slices and Dices : การดูข้อมูลที่แบ่งออกเป็นมิติต่าง เช่น ข้อมูลเกี่ยวกับ Wine ทั้งในแง่ของราคา ฐานลูกค้าในแต่ละระยะเวลา
2.Rollups : ดูข้อมูลที่เป็นรายละเอียด ไปยังข้อมูลที่เป็นภาพรวม เพื่อความสะดวกในการเปรียบเทียบ และวิเคราะห์แนวโน้ม
3.Drill Downs : ดูข้อมูลจากภาพรวมไปยังรายละเอียด

Business Intelligence : BI : รวมเครื่องมือในการทำงานต่างๆและ database เพื่อทำให้สามารถเข้าถึงข้อมูล จัดการข้อมูลได้อย่าง interactive รวมถึงช่วยให้ผู้บริหารและนักวิเคราะห์สามารถวิเคราะห์ข้อมูลต่างๆได้อย่างดียิ่งขึ้น

Dashboard & Scorecards
Dashboard : innovate ในการนำข้อมูลไปสู่ผู้บริหาร เพื่อใช้ในการประเมิน performance ตาม balance scorecard ทั้ง 4 ด้าน คือ Financial , Customer ,Internal Process และ Learning and Growth

Data Mining : การสกัดข้อมูลที่จำเป็น/มีประโยชน์ออกมาจากข้อมูลทั้งหมด เพื่อใช้ในการตัดสินใจทางธุรกิจ
Yield from Data mining
1.Clustering : เป็นการจัดกลุ่มของข้อมูล โดยแบ่งจากความสัมพันธ์ของกลุ่มข้อมูล
2.Classification : เป็นการจัดกลุ่มข้อมูลโดยมีสมมติฐานล่วงหน้า แล้วดูว่าข้อมูลเป็นไปตามสมมติฐานหรือไม่ ถ้าไม่ แสดงว่าสมมติฐานผิด
3.Association : เป็นผลสืบเนื่องที่เกิดขึ้น เช่น เวลาลูกค้าเปิดบัญชีออมทรัพย์ ต่อไปก็น่าจะมรการเปิดใช้ ATM ต่อด้วย
4.Sequence Discovery
5.Prediction : เป็นการ Forecast ไปข้างหน้า

Text Mining
ข้อมูลส่วนใหญ่ที่อยู่ใน data warehouse จะเป็นข้อมูลแบบ structured คือมีรูปแบบที่แน่นอน มีชื่อ attribute , ขนาดของ fieldว่ามีกี่ character ซึ่งจะสามารถใช้ Data mining ได้ แต่ในกรณีที่เป็นข้อมูลแบบ unstructured data จะไม่สามารถใช้ data mining ได้ เนื่องจากเป็นข้อมูลที่ไม่ได้มีรูปแบบชัดเจน เช่น complain จากลูกค้า ซึ่งข้อมูลประเภท unstructured นี้มีการเติบโตสูงมาก

Wednesday, January 12, 2011

Class 8 : Data Management

Data Management

System ประกอบไปด้วย Inputs Process Outputs
ต้องกำหนด Objective ก่อนว่าทำไปเพื่ออะไร ต้องการทำอะไรกับสิ่งเหล่านี้ : สิ่งที่เราต้องการจากระบบ คือ Outputs ซึ่งจะเป็นสิ่งที่กำหนดได้อย่างถูกต้องว่าต้องการ Inputs แบบไหน

ระบบสารสนเทศสามารถแบ่งตามสายงาน (functional) และตามระดับบังคับบัญชา(level)

Data กับ Information ต่างกันอย่างไร : กระบวนการที่จะได้มา และประโยชน์ที่ได้มาจากการใช้
ในระบบอื่นๆ Input และ Output อาจมีความแตกต่างอย่างชัดเจนเช่น การหุงข้าว Input คือ ข้าวสาร Output คือข้าวสวย สามารถแยกแยะได้จากภาพลักษณ์ภายนอก แต่ IS นั้น Input และ Output อาจจะไม่ได้มีความแตกต่างกันมาก จึงไม่สามารถแยกแยะจากรูปลักษณ์ภายนอกได้ ต้องวัดจากประโยชน์ที่ผู้ใช้ได้รับ

Data : คือ message ที่ถูกส่งไปยังผู้ที่ไม่ได้มีส่วนได้เสีย ไม่เกิดประโยชน์
Information : คือ message ที่สามารถทำให้เกิดการเปลี่ยนแปลง การกระทำ หรือการตัดสินใจแก่ผู้มีส่วนได้เสียได้ โดยสรุปคือ วัดจากประโยชน์ที่ผู้รับเป็นหลัก

ต้องประเมินว่าใครคือผู้ใช้ผลผลิตจากระบบสารสนเทศเพื่อดูว่า output ต้องเป็นอะไร
งบการเงิน เป็นประโยชน์ต่อ External User เนื่องจากมีการจัดทำตาม format มาตรฐาน เพื่อประโยชน์ในการเปรียบเทียบระหว่างบริษัทได้ แต่ถ้าหากเป็น Internal User แล้ว งบการเงินจะต้องจัดทำขึ้นภายใต้รูปแบบอื่นเพื่อนำเสนอข้อมูลในแง่มุมที่ต่างกัน เนื่องจากมีวัตถุประสงค์ในการใช้งบการเงินต่างกันในระหว่าง User 2 ประเภท

สิ่งที่อยู่ใน management report คือสารสนเทศสำหรับผู้บริหารเช่นกัน เพราะทำให้รู้ว่าองค์กรมีจุดแข็งหรือจุดอ่อนอย่างไร สามารถนำไปปรับปรุงองค์กรให้ดียิ่งขึ้นต่อไป

Output หลักของ IS คือ สารสนเทศ
Website เป็นระบบได้ แต่อาจจะไม่ใช่ IS บางเวบอาจจะมีวัตถุประสงค์ในการโฆษณา ประชาสัมพันธ์เท่านั้น เช่น
Twitter หรือ Facebook ถือว่าไม่ใช่ IS เนื่องจากมีแต่การแสดงข้อมูลเท่านั้น
tbs.tu.ac.th ก็ไม่ใช่ IS เช่นกัน เนื่องจากมีแต่การแสดงประกาศ ข้อมูลเพื่อการโฆษณาใหทราบเท่านั้น ไม่สามารถ tracking ข้อมูลย้อนหลังทั้งหมดได้
Amazon.com ถือว่าเป็น IS เนื่องจากมีการรับข้อมูลจากผู้ใช้ ประมวลผลข้อมูลและแสดงผล มีลักษณะการรวบรวมข้อมูลเกิดขึ้น

สารสนเทศจะต้องถูกส่งไปยังผู้รับตามสิทธิ และต้องมีการเก็บบันทึกข้อมูล ไม่ใช่เก็บสารสนเทศ ถือได้ว่าหัวใจหลักของ IS คือ Input ถ้ามี Input จะสามารถประมวลผลได้เสมอ

การจัดการข้อมูลที่สำคัญคือ การจัดการกับ Input ซึ่งมีความยากเนื่องมาจากข้อมูลมีเป็นจำนวนมาก กระจัดกระจายไปทั่วทั้งองค์กร บางครั้งข้อมูลเดียวถูกบันทึกไว้ที่หลายแผนกขององค์กร ทำให้เกิดความซ้ำซ้อน หรือถูกนำไปใช้โดยขาดการควบคุมคุณภาพที่เพียงพอ รวมไปถึงการรวบรวมข้อมูลที่เป็น External Data เพื่อในการตัดสินใจขององค์กร และเรื่องของการควบคุมดูแลสิทธิในการเข้าถึงข้อมูล
เป้าหมายในการจัดการข้อมูลคือการสร้าง Infrastructure เพื่อจัดการกับข้อมูลดิบให้กลายเป็นสารสนเทศที่มีคุณภาพสูงได้

Data Life Cycle Process: ดูว่าข้อมูลเมื่อเริ่มเกิดขึ้นแล้วไปจบที่ตรงไหน เช่น เมื่อมีข้อมูลเกิดขึ้นแล้ว ข้อมูลจะถูกเก็บไว้ที่ database ก่อนที่จะถูกนำไปเก็บไว้ที่ data warehouse ตามวัตถุประสงค์หรือ format ที่องค์กรต้องการ จากนั้นผู้ใช้ข้อมูลสามารถเข้าไปใช้ข้อมูลจาก data warehouse เพื่อใช้ประโยชน์ในการวิเคราะห์ได้

Data Source : Organizational Data มักจะถูกบันทึกไว้ที่ Database ขององค์กร เป็นข้อมูลเกี่ยวกับบุคลากร ผลิตภัณฑ์ บริการและกระบวนการต่างๆขององค์กร
End-User Data : เป็นข้อมูลที่บันทึกความเชี่ยวชาญ ทักษะ ความชำนาญของบุคลากร
External Data : เป็นข้อมูลที่องค์กรไม่ได้เป็นเจ้าของข้อมูลนั้น เช่นราคาสินค้าคู่แข่ง

Data Warehouse : เก็บเฉพาะข้อมูลในส่วนทราองค์กรต้องการใช้เพื่อตอบคำถามให้บรรลุวัตถุประสงค์ขององค์กร จะ extract เฉพาะ attribute ที่องค์กรต้องการ ซึ่งข้อมูลที่อยู่ใน Data Warehouse นั้นคือข้อมูลที่ถูกจัดระเบียบ/ มุมมองใหม่เพื่อประโยชน์ในการวิเคราะห์กลายเป็น Input ของ Data Mining

Characteristics of Data Warehouses
1.Organization : ข้อมูลจะถูกจัดตามวัตถุประสงค์ ซึ่งจะกำหนดวัตถุประสงค์ขึ้นมาก่อน
2.Consistency : ข้อมูลต่างๆอาจจะไม่ได้อยู่ใน format เดียวกัน ข้อมูลที่ถูกบันทึกใน Data Warehouses จะถูกจัดให้อยู่ใน format เดียวกันที่จะสอดคล้องกับข้อมูลอื่นๆใน data warehouse แต่ไม่จำเป็นต้องสอดคล้องกับข้อมูลอื่นๆใน database
3. Time Variant : ข้อมูลที่จะถูกเก็บไว้เป็นเวลานาน เพื่อประโยชน์ในการวิเคราะห์เปรียบเทียบ
4.Non-Volatile : ข้อมูลจะไม่ถูก update ไม่มีการเปลี่ยนแปลงใดๆทั้งสิ้นแต่อาจจะมรการเติมข้อมูลเข้าไป ( Refresh)
5.Rational
6. Client/Server : ผู้ใช้สามารถเข้าถึงข้อมูลใน Data warehouse ได้ง่าย