fbpx
Photchamarn Suphonpaichit

Photchamarn Suphonpaichit

What is Big Data?

อะไรคือความหมายที่แท้จริงของ Big Data?

เรียกข้อมูลใหญ่ได้ต้องมีอย่างน้อย 3 องค์ประกอบ

Big Data must have at least 3 characteristics.

ปริมาณข้อมูล:

ชื่อบอกอย่างมีนัยยะแล้วว่าข้อมูลใหญ่ ดังนั้นปริมาณข้อมูลของ Big Data ต้องไม่เล็กแน่นอน ไม่เช่นนั้นแล้วคงต้องเปลี่ยนชื่อเป็น Small Data  International Data Corporation (IDC) ได้คาดการณ์ไว้ว่า ปริมาณการใช้ข้อมูลต่างๆบนโลกนี้ จะเติบโตถึง 175 ZB ภายในปี 2568  ถ้านึกไม่ออกว่า 175 ZB มากขนาดไหน ลองจินตนาการว่าเอาแผ่น DVD ที่บรรจุข้อมูลเหล่านี้ทีละแผ่นวางซ้อนกันเป็นชั้นๆให้สูงขึ้นไปเรื่อยๆจนถึงดวงจันทร์ได้ระยะทางไปกลับดวงจันทร์ถึง 23 รอบ หรือ วนรอบโลก 222 รอบ [4]

Volume:

Big data itself defines the volume. At present the data existing is in petabytes and is supposed to increase to zettabytes in nearby future. International Data Corporation forecasts the Global Data to grow to 175 ZB by 2025. Imagine, If you were able to store the entire Global Data on DVDs, then you would have a stack of DVDs that could get you to the moon 23 times or circle Earth 222 times. [4]

ความรวดเร็วในการรับ-ส่งข้อมูล:

ความเร็วของข้อมูลที่มาจากแหล่งต่างๆ ต้องไม่ได้ถูกจำกัด ทั้งการส่งข้อมูลที่เข้ามาและการส่งข้อมูลออกไป ตัวอย่างเช่นข้อมูลจากอุปกรณ์เซ็นเซอร์จะถูกย้ายไปยังที่เก็บฐานข้อมูลอย่างต่อเนื่อง ดังนั้นระบบการวิเคราะห์ข้อมูลแบบเดิมๆจึงไม่สามารถทำการวิเคราะห์ข้อมูลที่เคลื่อนไหวอยู่ตลอดเวลาได้

Velocity:

Big data is a concept dealing with the speed of the data coming from various sources. This characteristic is not being limited to the speed of incoming data but also the speed of data flows. For example the data from the sensor devices would be constantly moving to the database store and this amount won’t be small enough. Thus our traditional systems are not capable enough of performing the analytics on the data.

ข้อมูลมีความหลากหลาย: 

ข้อมูลที่ได้มีความหลากหลายไม่ได้เป็นหมวดหมู่เดียว แต่ยังรวมถึงข้อมูลกึ่งโครงสร้าง (Semi-Structured) จากแหล่งข้อมูลต่าง ๆ เช่นหน้าเว็บ, ไฟล์บันทึกการใช้งานเว็บ, เว็บไซต์โซเชียลมีเดีย, อีเมล, เอกสารอิเล็กโทรนิคส์, ข้อมูลจากอุปกรณ์เซ็นเซอร์ที่ติดตั้งตามสถานที่ต้องๆ ข้อมูลทั้งหมดนี้แตกต่างกันโดยสิ้นเชิง ประกอบด้วยข้อมูลแบบมีโครงสร้าง (Structured) กึ่งโครงสร้าง (Semi-Structured) และรวมถึง ข้อมูลที่ไม่มีโครงสร้าง (Unstructured) ซึ่งยากต่อการจัดการโดยระบบการวิเคราะห์แบบดั้งเดิมที่มีอยู่ 

Variety:

Data, being produced, is not of a single category as it not only includes the traditional data but also the semi-structured data from various resources like web Pages, Web Log Files, social media sites, e-mail, documents, sensor devices data both from active-passive devices. All this data is totally different consisting of raw, structured, semi-structured, and even unstructured data which is difficult to be handled by the existing traditional analytic systems.

ความคิดเห็นของผู้เขียน

มีเอกสารทางวิชาการมากมายที่ให้ความหมายของข้อมูลใหญ่ตั้งแต่ปี 2544 Laney D. ด้วยคำจำกัดความ 3Vs คือ Volume, Velocity และ Variety หลังจากนั้นก็มีการเพิ่ม V จากเดิม 3Vs, 4Vs, 5Vs, 6Vs, 10Vs ขณะที่เขียนบทความนี้ พบว่ามีการนิยามความหมายของคำว่าข้อมูลใหญ่ถึง 17Vs ผู้เขียนชอบความคิดเห็นของ  Ambigavathi, M. & Sridharan, D. (2020) ที่กล่าวว่า  “นักวิชาการจะสามารถอธิบายความหมายของข้อมูลใหญ่ไปจนถึง 100 Vs ในเร็วๆนี้” ไม่แน่ใจว่าเป็นการประชดหรืออย่างไร! ผู้เขียนขอเลือกใช้การนิยามตั้งต้นในขั้นตอนนี้ คือ 3V ของ Laney D. เพราะสิ่งที่ผู้เขียนอยากจะเน้นคือ คำว่า Big Data ไม่ได้หมายถึงเพียงการมีข้อมูลจำนวนมากเท่านั้น

My Opinions.

There had been a lot of academic papers that defined Big Data since 2001. All of them started from the Laney D. with 3Vs definition, Volume, Velocity, and Variety. However, there are more academics paper add more definition from 3Vs, 4Vs, 5Vs, 6Vs, 10Vs as I am writing this article It is up to 17Vs. So, Ambigavathi, M. &Sridharan, D. (2020) said in this paper that “Several researchers at different periods are recommended a wide range of V’s for different applications. Also, some researchers also suggest that it will be increased up to 100 V’s in the near future for an efficient big data analytics”. What a sarcastic! Therefore, I get back to basic at this step. I selected the 3Vs classical Big Data definition of Laney D. in this article. The most important thing that I want to let you know is “Only Large Volume of Data is not a Big Data”.

Reference:

  1. Laney D (2001) 3-d data management: controlling data volume, velocity, and variety. META Group Research Note, 6 February (Citation: 2878)
  2. David Reinsel – John Gantz – John Rydning, “The Digitization of the World From Edge to Core” An IDC White Paper. November 2018
  3. AmbigavathiM., &SridharanD. (2020). A Survey on Big Data in Healthcare Applications. In. Intelligent Communication, Control and Devices (pp. 755-763).
Share on facebook
Facebook
Share on twitter
Twitter