วันพฤหัสบดีที่ 20 มกราคม พ.ศ. 2554

IT Learning Journal Report (9) - January 19, 2011

Major benefit of Data Warehouses
1.               ได้ข้อมูลมาใช้งานอย่างทันเวลา เพราะข้อมูลถูกเก็บรวบรวมไว้ในที่เดียวกัน
2.               ผู้ใช้งานเข้าถึงและนำข้อมูลมาใช้ได้ง่ายขึ้น
Characteristics of Data Warehouses
1.               ความสม่ำเสมอของข้อมูล - ข้อมูลที่เก็บใน Data Warehouses ควรมีลักษณะสม่ำเสมอ แต่ในความเป็นจริง Data input มักไม่สม่ำเสมอ เช่น แต่ละแผนกกรอกข้อมูลเดียวกันไม่เหมือนกัน, มี format ที่ต่างกันจาก fact ตัวเดียวกัน, แต่ละแผนก update ข้อมูลต่างกัน
2.               ต้องเก็บข้อมูลที่จำเป็น - Data Warehouses ต้องเก็บข้อมูลที่จำเป็นสำหรับผู้บริหาร เพื่อนำไปวิเคราะห์และตัดสินใจ เมื่อมีการเรียกข้อมูล ตัวโปรแกรม Data Warehouses จะดึงข้อมูลจาก Data Warehouses และนำเสนอในรูปแบบต่างๆ เช่น ‘Drill Downs’ จะให้ข้อมูลในภาพใหญ่ไปหาภาพย่อย ตรงกันข้ามกับ ‘Roll ups’ เช่น จะดูข้อมูลมหาวิทยาลัย และเลือกดูข้อมูลคณะพาณิชย์ฯ สนใจข้อมูลของสาขาวิชาการบัญชี เป็นต้น
Data Warehouse Making Process 
1.               รวบรวมข้อมูลมาทำ Data Warehouses โดยเราจะดูว่าต้องการข้อมูลอะไรบ้างเพื่อนำมาจัดทำData Warehouses ซึ่งแหล่งข้อมูลมาจาก
·        Operational Data เป็นข้อมูลภายในของบริษัท มาจากระบบ TPS เช่น ข้อมูลยอดขาย 5 ปี  
·        External Data เป็นข้อมูลภายนอกบริษัท เช่น ข้อมูลคู่แข่ง
2.               จัดทำ Meta Data โดยนำข้อมูลที่รวบรวมมาสร้าง Meta Data ซึ่งคือ ข้อมูลของข้อมูล ใช้อธิบายข้อมูลใน Data  Warehouses
3.               Data Staging ย่อขั้นตอนได้ว่า  E(C)TL
3.1      Extract พิจารณาว่าจะเอาข้อมูลอะไร รูปแบบใด มาไว้ใน Data Warehouses
3.2      Clean หากพบข้อมูลจาก 2 แหล่งไม่ตรงกัน ต้องเลือกข้อมูลเดียวที่ถูกต้องเก็บไว้
3.3      Transform แปลงข้อมูลให้อยู่ใน format ที่ต้องการ
3.4      Load มีการโหลดข้อมูลลง Data Cube ทำให้ข้อมูลหนึ่งๆมีหลายมุมมอง ผู้ใช้สามารถนำข้อมูลไปใช้วิเคราะห์ได้หลายมุมมอง
4.               ยึด Business object เป็นหลัก เมื่อสร้าง Data Warehouse
5.               สร้าง Business View ผู้บริหารสามารถเรียกดูข้อมูลที่ต้องการได้ โดยดึงข้อมูลจาก Data Warehouses  เช่น รูปแบบ Dashboard  ที่นำเสนอข้อมูลเป็น chart progress
6.               Information Catalog Enterprise Data Warehouse เป็น Data Warehouse ของทั้งองค์กร ฝ่ายไหนอยากจะใช้ข้อมูลก็สามารถมาดึงข้อมูลเอาได้ ถ้าแต่ละหน่วยงานดึงข้อมูลพร้อมๆกัน ระบบก็จะช้า และข้อมูลที่ดึงมาก็ไม่ได้เกิดประโยชน์ทั้งหมดด้วย คือ ต้องการข้อมูลแค่ส่วนงานบางส่วน แต่ข้อมูลที่ดึงมามีข้อมูลของส่วนงานอื่นที่ไม่จำเป็นต้องใช้ติดมาด้วย มีการแก้ปัญหาโดยการทำ Data Mart
Data Mart  คือ Data warehouses ขนาดย่อม ซึ่งแบ่งข้อมูลตามความต้องการของผู้ใช้แต่ละประเภท Data Mart แบ่งเป็น 2 ประเภท
1. Replicated (dependent) data marts องค์กรทำ Enterprise Data Warehouse รวม แล้วแต่ละแผนกจะแยกข้อมูลมาทำ mart ของแผนกตนเอง
2. Stand–alone data marts เกิดในกรณีองค์กรไม่พร้อมทำ Enterprise Data Warehouse ก็ทำเฉพาะ marts ในส่วนงานของตัวเองที่พร้อมไปก่อน เมื่อแต่ละส่วนงานพร้อมกันมากๆแล้วค่อยเอามารวมเป็น Enterprise (ในทางปฏิบัติไม่ค่อยเกิดจริง)
Business Intelligence (BI)
Business Intelligence คือ เครื่องมือในการสร้าง Information สำหรับการวิเคราะห์ข้อมูลของผู้บริหารระดับสูง ประกอบไปด้วย 3 ส่วน ได้แก่
·        Data Mining
คือ การค้นหาและคัดกรองข้อมูลที่มีอยู่จำนวนมาก ให้ได้ข้อมูลที่ผู้ใช้สามารถนำไปใช้ประโยชน์ได้จริง โดย กระบวนการแปลงและวิเคราะห์ข้อมูลแบ่งออกเป็น 5 รูปแบบ ได้แก่
1.               Clustering  เป็นการจัดกลุ่มของข้อมูล โดยไม่มีการตั้งสมมติฐานไว้ล่วงหน้า
2.               Classification เป็นการจัดกลุ่มของข้อมูลเช่นกัน แต่มีการตั้งสมมติฐานไว้ล่วงหน้า
3.               Association ผลสืบเนื่อง
4.               Sequence Discovery  ผลที่เกิดตามมา
5.               Prediction การคาดการณ์ไปในอนาคต
·        Text Mining
คล้ายกับ Data mining แต่จะใช้กรณีที่ข้อมูลแบบ Unstructured Data
·        Web Mining
BI Functions and Features 
แบ่งออกเป็น 3 กลุ่ม คือ
·        Reporting and Analysis
·        Analytics
·        Data Integration

นายสัจจวัฒน์ จันทร์หอม
เลขทะเบียน นศ. 5302110043

วันพฤหัสบดีที่ 13 มกราคม พ.ศ. 2554

IT Learning Journal Report (8) - January 12, 2011

Data Management
ระบบ (System)
ระบบ คือ กระบวนการทำงานที่เป็นขั้นตอนต่างๆ ซึ่งกระบวนการจะต้องประกอบด้วยสิ่งที่นำเข้า (Inputs) แล้วนำมาผ่านกระบวนการ (Process) เพื่อให้ได้ผลลัพธ์ออกมา (Outputs) สิ่งที่สำคัญคือ ระบบจะต้องสามารถระบุวัตถุประสงค์ว่า ต้องการ Outputs อะไร แล้วค่อยมากำหนด Inputs และ Process ว่าควรเป็นอย่างไร นอกจากนี้ ระบบประกอบไปด้วย Environment, Boundary, Control และ Feedback
ระบบสารสนเทศ (Information System)
ระบบกระบวนการรวบรวมข้อมูล (Input) แล้วนำมาประมวลผล (Process) ซึ่งจะวิเคราะห์ข้อมูลตามวัตถุประสงค์ของ Outputs เพื่อให้ได้ Outputs ซึ่งคือ สารสนเทศ (Information System) เพียงอย่างเดียว ผู้รับสารสนเทศนี้ต้องมีสิทธิในการเข้าถึง และระบบสารสนเทศจะเก็บบันทึกข้อมูลที่นำมาเข้าสู่ระบบเพื่อการใช้งานต่อไปในอนาคต
ความแตกต่างของ Data, Information, Knowledge
·       Data ข้อมูลที่ยังไม่มีความหมายหรือประโยชน์ต่อผู้ใช้
·       Information ข้อมูลที่มีความหมายและประโยชน์ต่อผู้ใช้ ช่วยตัดสินใจได้
·       Knowledge หรือ องค์ความรู้ เป็นส่วนที่ผู้ใช้ได้รับประโยชน์ในลักษณะของการเพิ่มพูนความรู้จากเดิม
ตัวอย่าง เช่น วิชา AI613 เรียนวันที่ 12,19 มค. 2 กพ.เราอาจเรียกโดยรวมว่า Message
ถ้าเป็นนักศึกษาปริญญาโทด้านการบัญชีซึ่งมีส่วนได้ส่วนเสียใน message นี้ว่าจะต้องเข้าห้องเรียนในวันเวลาดังกล่าว message นี้ก่อให้เกิดการเปลี่ยนแปลงในพฤติกรรมหรือการตัดสินใจ message ถือว่าเป็น Information
ถ้าเป็นนักศึกษาปริญญาโทด้านการตลาดซึ่งไม่มีมีส่วนได้ส่วนเสียใน message นี้ว่า เพราะไม่ได้ลงทะเบียนในวิชาดังกล่าว message นี้ไม่ก่อให้เกิดการเปลี่ยนแปลงในพฤติกรรมหรือการตัดสินใจ message ถือว่าเป็น Data
ผู้จัดเตรียมสารสนเทศต้องสามารถคาดคะเนความต้องการของผู้ใช้สารสนเทศได้ในระดับหนึ่ง หรือ ต้องคิดเผื่อแทนด้วย
องค์ประกอบของ Information System
1.   Hardware
2.   Software
3.   Data
4.   Network
5.   Procedures
6.   People
ประเภทของ Information System
Information System สามารถมองได้ใน 2 ลักษณะ คือ
1. แบ่งตามแนวตั้ง เป็นการแบ่งตามแผนกภายในองค์กร โดยแต่ละแผนกก็จะมี IS Support การทำงาน เช่น ระบบสารสนเทศทางบัญชี (AIS) เป็นต้น
2.  แบ่งตามแนวนอน เป็นการแบ่งตามระดับของผู้บริหารหรือการใช้งาน ซึ่งแบ่งย่อยออกเป็น
·       ระดับล่าง: Transactional Processing System (TPS) ซึ่งเป็นระบบที่สำคัญที่สุด เพราะข้อมูลเกือบทั้งหมดจะมาจาก TPS ดังนั้นจีงต้องมีการบริหารจัดการในส่วนนี้ให้ดีดี เพื่อให้ได้มาซึ่งข้อมูลถูกต้องและครบถ้วน
·       ระดับกลาง: Management Information System (MIS)
·       ระดับสูง: Executive Support System (ESS)
Data Management
มีความสำคัญในการเตรียมข้อมูลก่อนนำไปใช้งาน ซึ่งสามารถแบ่งออกเป็น 4 ประเภทคือ
·       Data profiling ทำความเข้าใจลักษณะข้อมูลและแหล่งเก็บข้อมูลที่มีอยู่
·       Data Quality Management เพิ่มคุณภาพให้กับข้อมูล
·       Data Integration ลดความซ้ำซ้อนของข้อมูลด้วยการบูรณาการข้อมูลที่จำเป็นเข้าด้วยกัน
·       Data Augmentation สร้างคุณค่าของข้อมูลให้เพิ่มมากยิ่งขึ้น
อย่างไรก็ดี Data Management มีความยุ่งยากในเรื่องต่างต่อไปนี้ เช่น ข้อมูลมีจำนวนมากขึ้นเรื่อยๆตามระยะเวลา และกระจัดกระจายทั้งองค์กร รวมทั้งอาจข้อมูลซ้ำซ้อนและ องค์กรต้องจัดหาข้อมูลจากภายนอกมาประกอบการตัดสินใจด้วย หรือ ประเด็นสำคัญในลักษณะของข้อมูลเอง อาทิ ความปลอดภัยของข้อมูล คุณภาพ และการบูรณาการของข้อมูล
Data Life Cycle Process
เราควรทราบ Data Life Cycle Process เพื่อจะได้ทราบว่า จุดเริ่มต้นและจุดจบของข้อมูลอยู่ที่ไหน จะได้วางแผนในการเก็บข้อมูลใหม่ๆได้ ซึ่งข้อมูลส่วนใหญ่มาจาก
·       Transactional Processing System (TPS) ซึ่งเป็นข้อมูลภายใน (Internal Data) ที่จัดเก็บใน Database
·       มีข้อมูลที่ได้มาจากภายนอก (External Data)
·       มาจาก Personal Data ซึ่งเป็นข้อมูลที่พนักงาน/บุคลากรใช้
เมื่อเก็บข้อมูลแล้วก็จะมีการจัดรูปแบบใหม่เพื่อเก็บเข้าใน Data Warehouse เพื่อเตรียมไว้ใช้ในการวิเคราะห์ต่อไปในอนาคต
Data Warehouses
        จะไม่ใช่ Database ขนาดใหญ่ที่เก็บข้อมูลทั้งหมด แต่เก็บข้อมูลบางส่วนมาจาก Database เฉพาะในส่วนของข้อมูลที่ต้องการมาใช้ จะเป็นข้อมูลที่ถูกจัดใหม่ และพร้อมสำหรับนำมาใช้ในการวิเคราะห์หรือตัดสินใจในขั้นต่อๆไป
คุณสมบัติของสิ่งที่เก็บใน Data Warehouse
1.  Organization
2.  Consistency
3.   Time variant
4.   Non-volatile
5.   Relational
6.   Client/server

นายสัจจวัฒน์ จันทร์หอม
เลขทะเบียน นศ. 5302110043