BIG DATA.
Big Data คือ ข้อมูลขนาดใหญ่มากจนซอฟต์แวร์หรือฮาร์ดแวร์ธรรมดานั้นไม่สามารถที่จะจัดการหรือวิเคราะห์ได้อย่างมีประสิทธิภาพ
ฺ Big Data คือ การรวบรวมข้อมูลทั้ง Structured (พวกที่เก็บในโครงสร้างตารางข้อมูล) และ Unstructured (พวกที่เป็น text ยาวๆ รูปภาพ และ วิดีโอต่างๆ) มาทำการประมวลวิเคราะห์ข้อมูลและนำไปใช้ประโยชน์
Big Data คือ 4Vs ที่ทุกคนพูดถึงกัน ซึ่งได้แก่ Volume (ข้อมูลขนาดใหญ่) Velocity (ข้อมูลที่เกิดและไหลเข้าสู่การจัดเก็บด้วยความเร็วสูง) Variety (ข้อมูลที่มีความหลากหลายในรูปแบบ) Veracity (ข้อมูลที่มีระดับคุณภาพปะปนกันไป)
Big Data คือ buzzword ที่ทุกคนพูดถึงตลอดเวลา และใช้เป็น Marketing Term ในการสร้างภาพ (น่าเบื่ออออ)
Big Data คือ Big Trend ที่ทุกคนทุกองค์กรพูดถึงอย่างมากในปี 2017 ที่ผ่านมา แต่เป็นสิ่งที่มีคนเข้าใจน้อยมากว่า ตกลง Big Data คืออะไรกันแน่
Big Data คือ ไม่ใช่การที่เราซื้อ Hardware จำนวนมากเพื่อมาเก็บข้อมูลให้ได้เยอะที่สุด ไม่ใช่การถกเถียงว่าเราจะเก็บข้อมูลอะไรดี ไม่ใช่การมานั่งภูมิใจว่า เรามีข้อมูลมากมายมหายศาล
Big Data คือ การพยายามสร้างมูลค่าของธุรกิจจากการนำเข้ามูลจำนวนมากทั้งภายในและภายนอกองค์กร มาวิเคราะห์ประมวลผล (ไม่ใช่แค่เก็บเฉยๆ)
Big Data คือ การสร้างทักษะและความรู้ให้กับทีมงานเพื่อให้สามารถจัดการข้อมูลปริมาณขนาดใหญ่ได้ และเข้าใจเชิงลึกถึงข้อมูลขนาดใหญ่ ไม่ใช่แค่หลับหูหลับตาจับข้อมูลโยนเข้าถัง
Big Data คือ งานของทุกคน ไม่ใช่แค่งานของไอที หรือ ทีมวิเคราะห์ข้อมูล งานนั้นเริ่มตั้งแต่ตัดสินใจว่าจะเก็บข้อมูลอันไหน หรือ ไม่เก็บอันไหน จะเก็บไว้นานเท่าไหร่ จะเก็บไว้ที่ไหนอย่างไร จะเอาไปใช้อย่างไร
Big Data คือ การลงทุนระยะยาว ไม่ใช่การตั้งงบโครงการ แล้วเรียก vendor มา demo ระบบให้ดู แล้วจ่ายเงินเพื่อให้มีระบบซักระบบนึง
1. Data Source แหล่งที่มาของข้อมูล
ซึ่งถือได้ว่า เป็นต้นน้ำ เป็นแหล่งกำเนิดของข้อมูล อาจจะเป็นระบบ โปรแกรม หรือจะเป็นมนุษย์เรา ที่สร้างให้เกิดข้อมูลขึ้นมา ทั้งนี้ เมื่อได้ชื่อว่าเป็น Big Data แล้ว ข้อมูลต่างๆ มักจะมาจากแหล่งข้อมูลที่หลากหลาย นำพามาซึ่งความยากลำบากในการจัดการโครงสร้าง หรือจัดเตรียมให้ข้อมูลที่นำมารวมกันนั้น มีความพร้อมใช้ต่อไป
2. Gateway ช่องทางการเชื่อมโยงข้อมูล
การเชื่อมโยงข้อมูล เป็นส่วนที่สำคัญมาก และเป็นปัญหาใหญ่ในการทำ Big Data Project ต้องอาศัยทักษะของ Data Engineer ทั้งการเขียนโปรแกรมเอง และใช้เครื่องมือที่มีอยู่มากมาย ทั้งนี้การจะออกแบบช่องทางการเชื่อมโยงข้อมูลได้อย่างสมบูรณ์แบบ จำเป็นต้องทราบก่อนว่า จะนำข้อมูลใดไปทำอะไรต่อบ้าง มิเช่นนั้น การสร้างช่องทางการเชื่อมที่ไม่มีเป้าหมาย ก็อาจเป็นการเสียเวลาโดยเปล่าประโยชน์
3. Storage แหล่งเก็บข้อมูล
แหล่งเก็บนี้ ไม่ใช่แค่การเก็บข้อมูลจากแหล่งข้อมูล แต่เป็นการเก็บข้อมูลจากแหล่งข้อมูลหลายๆ แหล่ง เอามาไว้เพื่อรอการใช้งาน ซึ่งอาจจะเป็นที่พักข้อมูลให้พร้อมใช้ หรือจะเป็นแหล่งเก็บข้อมูลในอดีตก็เป็นได้
4. Analytics การวิเคราะห์ข้อมูล
ส่วนนี้เป็นหน้าที่หลักของ Data Scientist ซึ่งแบ่งงานออกเป็น 2 ลักษณะ คือ การวิเคราะห์เบื้องต้น โดยการใช้วิธีทางสถิติ หรือจะเป็นการวิเคราะห์เชิงลึกโดยการสร้าง Model แบบต่างๆ รวมไปถึงการใช้ Machine Learning เพื่อให้ได้ผลลัพธ์เฉพาะจงเจาะในแต่ละปัญหา และแต่ละชุดข้อมูล
5. Result/Action การใช้ผลการวิเคราะห์ข้อมูล
ผลลัพธ์ที่ได้จากการวิเคราะห์สามารถนำไปใช้งานได้ 2 รูปแบบ คือ ออกเป็นรายงาน เพื่อให้ Data Analyst นำผลลัพธ์ที่ได้ไปใช้กับงานทางธุรกิจต่อไป หรือจะเป็นการนำไปกระทำเลยโดยที่ไม่ต้องมี “มนุษย์” คอยตรวจสอบ ซึ่งจำเป็นต้องมีการเขียนโปรแกรมเพิ่ม เพื่อให้มีการกระทำออกไป ที่เรียกว่า Artificial Intelligence

คุณลักษณะสำคัญ 4 อย่างของ Big Data
Big Data มีคุณลักษณะสำคัญอยู่ 4 อย่างคือ ต้องเป็นข้อมูลที่มีจำนวนมากขนาดมหาศาล (Volume) มีความซับซ้อนหลากหลาย (Variety) มักจะเปลี่ยนแปลงอย่างรวดเร็วอยู่ตลอดเวลา (Velocity) และยังไม่สามารถนำมาใช้เป็นข้อมูลที่สมบูรณ์เพื่อนำมาใช้ในการประกอบการพิจารณาได้ (Veracity)
ข้อมูลมากมายมหาศาลเป็นอย่างไร (Volume)
ข้อมูลจำนวนมหาศาลนี้ได้มาจากการดำเนินธุรกิจ เช่น ข้อมูลจากทุกแผนก การเงิน บัญชี ฝ่ายขาย การตลาด ลูกค้าสัมพันธ์ ฯลฯ หรือ จากบทสนทนาของเรากับลูกค้าใน Social Media ทั้งหมด ไม่ว่าจะแบบ Online หรือ offline ไปจนถึง URLs ที่คุณ Bookmarks เอาไว้ จะจัดเก็บในรูปแบบไหนประเภทใดก็ได้ ซึ่งในแต่ละวันข้อมูลใหม่พวกนี้ก็จะมีเข้ามาตลอด วันหนึ่งก็ถือว่ามากมายแล้ว ยิ่งถ้าข้อมูลที่มีจำนวนมากเข้ามาตลอดวัน 7 วันในหนึ่งอาทิตย์ เข้ามาทุกเดือนตลอดทั้งปี รวมกันหลายๆ ปีจะมากมายก่ายกองขนาดไหน
ข้อมูลที่มีความหลากหลายและซับซ้อน (Variety)
เอาเป็นว่าทุกรูปแบบที่คุณพอจะนึกออกนับเป็นความหลากหลายและความซับซ้อนได้ทั้งหมด ไม่ว่าจะเป็น Behavioral data: ข้อมูลเชิงพฤติกรรมการใช้งานต่างๆ หรือ Image & sounds: ภาพ, วีดีโอ, ข้อมูลเสียงที่ถูกบันทึกไว้ รวมทั้ง Languages: ข้อความใดๆที่เกิดขึ้นในเว็บไซต์ ไปจนถึง Records: ข้อมูลที่เก็บไว้อยู่ในสกุลไฟล์ใดๆ เช่น .bmp .gif .jpeg .png .tif .tiff .svg .doc .docx .odt .pdf .rtf .tex และอื่นๆอีกมากมาย ความหลากรูปแบบและความซับซ้อนของข้อมูลนี่เองที่เป็นส่วนหนึ่งของ Big Data
ข้อมูลที่มีการเปลี่ยนแปลงอย่างรวดเร็วอยู่ตลอดเวลา (Velocity)
อัตราการเพิ่มขึ้นของข้อมูลเป็นไปด้วยความรวดเร็ว เช่น ข้อมูลการพิมพ์สนทนา ข้อมูลการอัดภาพวีดีโอ ข้อมูลการสั่งซื้อสินค้า ข้อมูลโปรโมชั่นต่างๆ หรือ ข้อมูล Sensor เป็นต้น ลองสังเกตุว่าในทุกๆ วัน ทุกๆ ชั่วโมง หน้าเฟสบุคของเรามีการฟีดข้อมูลมามากมายแค่ไหน ดังนั้นถ้าองค์กรธุรกิจใดสามารถนำข้อมูลเหล่านั้นไปใช้ให้เกิดประโยชน์ได้ ก็จะสามารถได้เปรียบทางธุรกิจ
ข้อมูลที่มีความไม่ชัดเจน (Veracity)
เป็นข้อมูลที่มีความคลุมเครือ มีความไม่แน่นอน เนื่องจากข้อมูลมีความหลากหลายและมาจากแหล่งต่างๆ เช่น Facebook, Twitter, Youtube ซึ่งเป็นสิ่งที่ยากที่เราจะสามารถควบคุมคุณภาพของข้อมูลได้ข้อมูลที่มีคุณภาพนั้นจะต้องถูกต้องแม่นยำและเชื่อถือได้ ถ้าข้อมูลไร้คุณภาพก็จะส่งผลต่อการวิเคราะห์ต่อไป แต่เราจะทำให้ข้อมูลที่ยังไม่ได้คุณภาพนี้กลายเป็นข้อมูลที่ดีได้อย่างไร ขึ้นอยู่กับวิธีในการเก็บและกระบวนการทำ Data Cleansing
กระบวนการจาก Big Data สู่ความสัมพันธ์ของข้อมูล
บางคนอาจสงสัยว่าวิธีการประมวลผล แยกแยะ วิเคราะห์ของ Big Data จะเป็นไปอย่างไร เราสามารถอธิบายคร่าวๆได้ดังนี้
1. Storage: การรวบรวมข้อมูลมาจัดเก็บ
การรวบรวมข้อมูลจากแหล่งต่างๆ ทั้งข้อมูลที่มีคุณภาพ ข้อมูลที่คาดว่าจะมีประโยชน์ / ไม่ครบถ้วน ข้อมูลรูปภาพ วิดีโอ ไฟล์เสียงทั้งหลาย ถูกส่งมาจัดเก็บที่ถังข้อมูล
2. Processing: การประมวลผล
เมื่อข้อมูลต่างๆถูกนำมารวมกันไว้ในที่เดียวแล้ว จะถูกนำไปจัดหมวดหมู่ข้อมูลที่มีความเกี่ยวข้องสัมพันธ์กัน ให้ผลคล้ายคลึงกัน แล้วนำมาเปลี่ยนเป็นรูปแบบข้อมูลเพื่อเอาเข้าระบบคลังข้อมูลที่ผ่านการประมวลผลแล้ว
3. Analyst: การวิเคราะห์และนำเสนอ
จากนั้นข้อมูลมากมายทั้งหมดที่ถูกจัดเรียงแล้วในหลายมิติจะถูกนำมาวิเคราะห์หา Pattern ของข้อมูลที่มองไม่เห็นด้วยตาเปล่า เช่น หารูปแบบความสัมพันธ์ที่ซ่อนอยู่ หาแนวโน้มการตลาด เทรนด์ความชอบของลูกค้า และข้อมูลอื่นๆที่เป็นประโยชน์ทางธุรกิจ และถูกนำเสนอออกมาในรูปแบบที่เข้าใจง่ายผ่านทางสถิติ กราฟ หรือรูปภาพนั่นเอง

ท้ายสุดที่อยากฝากไว้ ก็คือ...
Big Data คือ การที่เราเริ่มก้าวจากการให้ความสนใจกับประโยชน์ในการใช้ข้อมูลอย่างแท้จริง จนทำให้เกิดความเข้าใจว่า เราควรต้องมีระบบในการบริหารจัดการข้อมูลที่ดีและสามารถรองรับการเติบโตของข้อมูลที่จะวิ่งไปถึงปริมาณใหญ่ๆ จนสามารถจัดการข้อมูลได้ถึงระดับ real-time และลดการใช้แรงงานในการประมวลผลข้อมูล สร้างรายงาน หรือการวิเคราะห์ข้อมูล
ไม่มีความคิดเห็น:
แสดงความคิดเห็น