นส.เมษศจี ศิริรุ่งเรือง 5202115191

นส.เมษศจี ศิริรุ่งเรือง 5202115191

วันพุธที่ 19 มกราคม พ.ศ. 2554

Business Intelligence

คาบ 9 : 19 ม.ค. 54

          วันนี้อาจารย์ศรีสมรักมาสอนอีกหนึ่งคาบ อาจารย์เริ่มต้นด้วยการทบทวนเนื้อหาคราวที่แล้วเกี่ยกวับ Data Warehouse แล้วจึงขึ้นหัวข้อต่อไปคือ

Data Warehouse Processing
          เป็นกระบวนการจัดทำ Data Warehouse โดยมีขั้นตอนทั้งหมด 5 ขั้นตอน ดังนี้
          1. รวบรวมข้อมูล  - ทั้งจากภายในองค์กร (Operational Data) และ ภายนอกงอค์กร (External Data)
          2. ทำ Meta Data- หลังจากที่ได้รวบรวมข้อมูลแล้ว จึงนำข้อมูลที่รวบรวมมา มาสร้าง Meta Data หรือ ข้อมูลของข้อมูล ที่ซึ่งใช้อธิบายเกี่ยวกับ Data ที่อยู๋ใน Warehouse ซึ่งจะมีทีมงานเข้ามเกี่ยวข้องด้วย
          2. ทำ Data Staging -หลังจากรวบรวมข้อมูลได้แล้ว นอกจากจะทำ Meda Data แล้ว ยังเอาข้อมูลที่รวบรวมมาไปทำ Data Staging ซึ่งเป็นการจัดระบบข้อมูลที่มี และสร้างเป็น Data Cube ซึ่งประกอบไปด้วยการทำ Extract, Clean, Transform และ Load
          3. สร้าง Data Warehouse - เมื่อได้ Data Cube แล้วจึงทำ Data Warehouse โดยยึด Business Object เป็นหลัก
          4. สร้าง Business View - เมื่อได้ Data Warehouse แล้ว การนำเสนอข้อมูลจะต้องอยู่ในรูปแบบที่ง่าย เพื่ออำนวยความสะดวกในการนำไปใช้ของผู้บริหาร ซึ่งจะอกมาในรูปแบบของ Dash Board

Meta Data
          เป็นข้อมูลที่ใช้อธิบายเกี่ยวกับ Data ที่อยู่ใน Warehouse, เป็นแนวทางในการเคลื่อนย้าย Data ต่างๆ รวมไปถึงวิธีในการเคลื่อนย้าย Data

Data Mart
          เป็นเสมือน Data Warehouse หน่วยย่อยของแต่ละแผนก เนื่องจาก Data Warehouse ของบริษัทนั้นมีขนาดใหญ่และมีผู้เข้าใช้จำนวนมาก ทำให้เกิดความวุ่นวายและสร้างปัญหาให้แก่ผู้ที่เข้าใช้ จึงคัดลอกข้อมูลในส่วนที่เกี่ยวข้องของแต่ละฝ่ายออกมาสร้างเป็น Data Mart ของแต่ละฝ่ายเอง เพื่อลดความวุ่นวายและปัญหาต่างๆ ลง ซึ่ง Data Mart แบ่งออกเป็น 2 ประเภท คือ
          1.Replicated (Dependent) Data Mart มีลักษณะเป็น Data Warehouse ของฝ่ายลักษณะเดียวกับที่อธิบายไปข้างต้น
          2.Stand-alone Data Mart เป็นการสร้าง Data Mart ของฝ่ายขึ้นมาโดยที่ไม่มี Data Warehouse ขององค์กร เนื่องจากองค์กรยังไม่มีความพร้อมในการสร้างเท่าฝ่าย แต่ข้อเสียของประเภทนี้คือ เมื่อทุกฝ่ายมี Data Mart แล้ว จะไม่สามารถนำ Data Mart -องแต่ละฝ่ายมารวมเป็น Data Warehouse ขององค์กรได้

Data Cube
          เป็น Multidimensional Databases ที่เอาไว้เก็บข้อมูลที่ Transform แล้วจึงมา Load ลงที่นี่ เพื่อให้สามารถมองภาพของข้อมูลนั้นได้หลายมิติมากขึ้น จุดเด่นของ Data Cube คือ สามารถตัดแบ่งส่วนเพื่อเลือกข้อมูลที่ต้องการวิเคราะห์ได้ ทำให้สามารถวิเคราะห์ข้อมูลที่มีได้ในหลายมิติ หลายมุมมอง ทำให้เห็นปัญหาที่ชัดเจนขึ้น

* Multidimensional Data * เป็นข้อมูลที่ถูกออกแบบมาให้นำเสนอให้มองเห้นความผิดพลาดและจุดเด่นได้อย่างชัดเจน โดยข้อมูลที่มีทั้งหมดจะอยู่ในรูปแบบของลูกบาศก์ ซึ่งสามารถ Slice และ Dice ออกมาได้
           Slice คือ การตัดข้อมูลออกมาโดยมองในมุมมองของช่วงเวลา แต่มองสินค้าทุกชนิด
           Dice คือ การตัดข้อมูลออกมาโยมองในมุมมองของสินค้าชนิดหนึ่ง ในช่วงเวลายาวๆ


          พอถึงตรงนี้อาจารย์ก็ปล่อยพักแล้วจึงมาขึ้นเนื้อหาเรื่อง Business Intelligence ซึ่งมีรายละเอียดต่อไปนี้

Business Intelligence
           คือ เป็นการรวมกันของ การออกแบบโครงสร้างระบบ เครื่องมือต่างๆ รวมถึงฐานข้อมูลและ Apllication ต่างๆ ที่ช่วยในการทำงานวิเคราะห์ ประกอบไปด้วย 3 กลุ่ม Function และ Features ดังนี้

          1. Reporting and Analysis - เป็นส่วนออกรายงานให้แก่ผู้ใช้ ซึ่งมีตัวอย่างการออกรายงานต่างๆ เช่น
               - Enterprise Reporting System - จัดทำรายงานทั้งในรูปแบบปกติ และรูปแบบที่สามารถปรับแก้เองได้ตามต้องการ ซึ่งรายงานเหล่านี้จะเป็นข้อมูลที่เตรียมให้สำหรับผู้บริหารนำไปใช้ในการวิเคราะห์ต่างๆ
               - Dashboards - ส่วนมากเป็นการแสดงรายงานของ operation และ tactical แต่ก็มีในระดับ strategic ด้วย (แต่ไม่นิยม)
               - Scorecard - เป็นรายงานสำหรับผู้บริหาร ผู้จัดการในระดับ strategic

           2.Analytics - เป็นส่วนของการใช้เครื่องมือในการวิเคราะห์ข้อมูล โดยมีตัวอย่างดังต่อไปนี้
               - Online Analytical Processing (OLTP) - เป็นเครื่องมือเริ่มต้นของผู้บริหารที่ช่วยในการวิเคราะห์ ซึ่งเครื่องมือจะช่วยระบุปัญหาและวิเคราะห์ได้ในพื้นฐานเท่านั้น ไม่สามารถตอบคำถามเชิงธุรกิจได้ ซึ่งการวิเคราะห์ข้อมูลด้วยเครื่องมือนี้จะทำให้ได้ insight ของข้อมูล แสดงผลออกมาในรูปแบบของกราฟ โดยจะวิเคราะห์แบบ Multidimensional
            
               - Data Mining - เป็นการแยกข้อมูลออกมาเพื่อพยากรณ์แนวโน้มที่อาจจะเกิดขึ้น
           ลักษณะของ Data Mining จะต้องทำกับบริษัทที่มี Database ขนาดใหญ่, ต้องรู้ว่าข้อมู,นี้มีประโยชน์หรือไม่ (เหมือนแยกเพชรออกมาก้อนหิน), สามารถทำเป็น Paralle processing, นำเสนอรายงานได้ 5 รูปแบบ (แต่ต้องสั่งว่าต้องการรูปแบบไหน)

          Mining Process  เริ่มต้นที่ การรวบรวมข้อมูลจากที่ต่างๆ ทั้ง Warehouse และแหล่งอื่น แล้วทำ ECTL ซึ่งการที่ต้องทำอีกครั้งเนื่องจากข้อมูลชิ้นเดียวกันกับใน Warehouse แต่อาจมีความหมายที่แตกต่างไปใน Mining แล้วจึงวิเคราะห์และประมวลผลข้อมูล และสิ่งสุดท้ายที่สำคัญ คือ การแปรผลข้อมูล ที่จะทำให้สามารถนำไปใช้ได้ง่ายยิ่งขึ้น

           5 รูปแบบของ Data Mining
                    1.Clustering - นำเสนอข้อมูลที่มีความสัมพันธ์กันเอง
                    2.Classification - นำเสนอข้อมูลตามสมมติฐานที่เราคิด โดยให้ทดสอบว่าสมมติฐานนั้นจริงหรือไม่ อย่างไร
                    3.Association - นำเสนอผลสืบเนื่อง
                    4.Sequence discovery - consequence ที่เกิดตามหลังมา
                    5.Prediction - นำเสนอโดยการพยากรณ์สิ่งที่จะเกิดขึ้น

          ข้อดีข้อเสียของการทำ Data Mining
                   - เป็นเครื่องมือที่ใช้งานง่ายสำหรับพนักงานระดับปฏิบัติการ
                   - แต่เทคนิคอาจจะซับซ้อนมากเกินไป ทำให้ต้องการความรู้และการอบรม
                   - และอาจต้องมีความรู้ด้านสิถิติในการอ่านและแปลผล

         -Text Mining - เป็นการจัดกระทำกับข้อมูลที่ไม่มีรูปแบบ (Unstructure Data) เช่น ความคิดเห็นของลูกค้า ซึ่งเครื่องมือนี้จะช่วยในการหา hidden content จากข้อมูลที่ไม่มีรูปแบบ และจับกลุ่มข้อมูลที่มีลักษณะเดียวกันเข้าด้วยกัน
          การนำไปใช้ เครื่องมือนี้จะออกมาในรูปแบบของการ detect e-mail spam โดยการ detect keyword บางคำ หรือการส่งต่อกระบวนการทำงานอย่างอัตโนมัตให้แก่ผู้ที่รับผิดชอบ เช่น โทรศัพท์ตอบรับอัตโนมัติที่ให้กดเบอร์ตามฝ่ายที่ต้องการและจะโอนให้โดยตรง

วันพฤหัสบดีที่ 13 มกราคม พ.ศ. 2554

Data Management

คาบ 8 : 12 ม.ค. 54

          วันนี้อาจารย์ศรีสมรักมาสอนแทนอาจารย์ปีเตอร์ ซึ่่งอาจารย์จะมาสอน 3 อาทิตย์ 3 เรื่องด้วยกัน อาทิตย์แรกนี้เริ่มด้วยเรื่อง Data Management โดยอาจารย์เริ่มปูพื้นเริ่มคาบดังนี้

          อาจารย์พูดถึงระบบสารสนเทศ (Information System) โดยอาจารย์ถามว่า twitter, facebook, เว็บคณะ, google, amazon พวกนี้เป็น IS หรือไม่?? โดยอาจารย์ได้อธิบายถึงความหมายของระบบ (System) ว่าจะต้องประกอบไปด้วย input, process, output เป็นหลักๆ และมี environment, boundary, control&feedback และ subsystem เป็นส่วนเสริม โดยการที่จะเกิดระบบขึ้นมาได้นั้น จะต้องมีวัตถุประสงค์ก่อนว่า สิ่งที่จะทำนั้น ทำเพื่ออะไร output ที่ต้องการเห็นมีหน้าตา ลักษณะประมาณไหน เพื่อจะได้สามารถระบุ input และ process ได้ชัดเจน

ระบบสารสนเทศ (Information System) คือ ระบบที่มีหน้าที่รวบรวมข้อมูล ตามวัตถุประสงค์เืพื่อให้แก่ผู้ใช้ระบบ หลังจากนั้นจึงมีการจัดเก็บข้อมูลที่นำเข้ามาสู่ระบบเพื่อการใช้งานในอนาคต

           มาถึงตรงนี้อาจารย์ก็มีคำถามว่า output ของระบบสารสนเทศคืออะไร??
คำตอบก็คือ สารสนเทศ นั่นเอง เนื่องจาก output ของระบบคือวัตถุประสงค์ของระบบ ซึ่งวัตถุประสงค์ของระบบสารสนเทศก็คือสร้างสารสนเทศขึ้นมา ดังนั้น output ของระบบสารสนเทศก็คือ สารสนเทศ

          โดยหน้าตาของ output ที่เป็นสารสนเทศนั้น จะแตกต่างไปจาก output ของระบบอื่นๆ คือ ระบบอื่นส่วนมากนั้น ลักษณะและรูปแบบของ output จะแตกต่างจาก input อย่างชัดเจน แต่สำหรับระบบสารสนเทศแล้วนั้น ส่วนมากจะมีลักษณะและรูปแบบที่ไม่แตกต่าง input มากนัก ทำให้ไม่สามารถแยกแยะได้ชัดเจนว่า output ที่ออกมานั้นเป็น Data หรือ Information

           ความแตกต่างของ data และ information นั้นจะพิจารณาจาก ประโยชน์ที่ผู้รับได้รับ ถ้าผู้รับเห็นว่า output นั้นมีประโยชน์ สามารถช่วยทำให้เกิดการเปลี่ยนแปลงในพฤติกรรม output นั้นจะเป็น Information แต่หาก output นั้นผู้รับไม่รู้สึกได้รับประโยชน์ output นั้นจะเป็นเพียง data

          ดังนั้น จากคำถามตอนต้นคาบของอาจารย์ ที่ถามว่า twitter, facebook, เว็บคณะ, google และ amazon นั้นอะไรเป็น IS บ้าง คำเฉลยก็คือ มีเพียง amazon เท่านั้นที่เป็น information เนื่องจากเป็น E-commerce มีการสั่งของเป็น input กระบวนการภายในของ amazon เป็น process และมี output คือ ของที่สั่ง

Data Management
      การบริหารข้อมูลทำได้ยาก เพราะ
  • มีข้อมูลเพิ่มขึ้นจำนวนมากตลอดเวลา
  • ข้อมูลกระจัดกระจายอยู่ตามหน่วยงานต่างๆ 
  • ข้อมูลมีความซ้ำซ้อน แต่ละฝ่ายมีการสร้างและเก็บแยกออกจากกัน
  • ข้อมูลจากภายนอกที่ใช้ในการตัดสินใจเป็นข้อมูลที่เราไม่ีมีอำนาจเป็นเจ้าของ ไม่สามารถทำอะไรได้
  • มีเรื่องความปลอดภัยของข้อมูล คุณภาพ และ จริยธรรมที่เป็นประเด็นสำคัญ
  • การเลือกเครื่องมือเพื่อใช้ในการจัดการนั้นเป็นปัญหาใหญ่

โดย Data Management แบ่งเป็น 4 อย่างคือ
  1. Data Profiling - ข้อมูลเืบื้องต้นของข้อมูลที่จัดเก็บ คือ ใครเป็นคนสร้าง ข้อมูลเหล่านี้จัดเก็บอยู่ที่ไหน จัดเก็บอย่างไร และใครเป็นผู้ใช้ข้อมูล
  2. Data quality management - เป็นการปรับปรุงคุณภาพของข้อมูล
  3. Data integration - เป็นการรวบรวมข้อมูลที่เหมือนกันจากหลายแหล่งเข้าด้วยกัน
  4. Data augmentation - เป็นการเพิ่มคุณค่าของข้อมูล

Data life cycle process
แบ่งออกเป็น 4 ขั้นตอน ดังนี้
           1. เก็บข้อมูล โดยสามารถเก็บข้อมูลได้จาก 3 แหล่งคือ Internal Data, External Data และ Personal Data
           2. เลือกข้อมูลที่้ต้องการใช้มารวมกันที่ Data Warehouse โดยจะเลือกเฉพาะข้อมูลย่อยๆ ที่ต้องการใช้ ไม่เลือกมาทั้งกลุ่ม
           3. ผู้ใช้เข้ามาคัดลอกข้อมูลเพื่อนำไปใช้ในการวิเคราะห์
           4. วิเคราะห์ข้อมูล โดยอาจใช้เครื่องมือช่วยในการวิเคราะห์ เช่น OLAP, EIS, DSS เป็นต้น หลังจากนั้นจึงนำข้อมูลที่ผ่านการวิเคราะห์ไปประยุกต์ใช้ เช่น การทำ SCM, CRM หรือการวางแผนกลยุทธ์ เป็นต้น

Data Processing
แบ่งออกเป็น 2 ด้านคือ
          Transactional เป็นการประมวลผลข้อมูลขั้นพื้นฐาน ระดับปฏิบัติการ
          Analytical เป็นการเอาข้อมูลมาใช้ประมวลผลอีกครั้งเพื่อการตัดสินใจระดับสูงขึ้นไป นำข้อมูลเหล่านี้ไปใช้วิเคราะห์ต่อ

Data Warehouse
           การทำ Data Warehouse นั้นเป็นเหมือนขั้นตอนการเตรียมข้อมูลที่เีกี่ยวข้อง เพื่อนำไปใช้ในการวิเคราะห์และประมวลผลเพื่อการตัดสินใจอีก ซึ่งจะเหมาะกับองค์กรที่ผู้บริหารเน้นการใช้ข้อมูลในกาารตัดสินใจ จะไม่เหมาะกับองค์กรที่ผู้บริหารใช้ประสบการณ์ในการตัดสินใจ ดังนั้น ไม่ใช่ทุกองค์กรที่จะต้องทำ Data Warehouse


ลักษณะของ Data Warehouse
  1. organization มีการจดหมวดหมู่ของข้อมูลใหม่ โดยจัดตามสิ่งที่สนใจ (Subject) เป็นหลัก (ไม่ได้แบ่งตามฝ่ายที่จัดเก็บข้อมูล)
  2. consistency ข้อมูลมีความสม่ำเสมอเหมือนกัน อยู่ในรูปแบบเดียวกัน
  3. time variant มีช่วงเวลาที่ชัดเจน
  4. non-volatile ข้อมูลจะไม่มีการเปลี่ยนแปลง ไม่ีมีการถูกอัพเดท
  5. relational ใช้ relational structure
  6. client/server ใช้ server เพื่อให้ผู้ใช้สามารถเข้าถึงข้อมูลได้ง่าย
องค์กรที่เหมาะกับการใช้ Data Warehouse
  • มีข้อมูลจำนวนมากที่ผู้ใช้ต้องการเข้าถึง
  • ข้อมูลระดับ operational ถูกจัดเก็บไว้ในหลากหลายรูปแบบ หลากหลายระบบ
  • มีการใช้ข้อมูลเป็นปัจจัยสำคัญในการตัดสินใจ
  • มีลูกค้าหลากหลายแบบ
  • ข้อมูลเดียวกันถูกเก็บในหลายรูปแบบในหลายระบบ
  • ข้อมูลถูกเก็บในระบบและรูปแบบที่ยากต่อการเข้าใจและแปลความ