Data Waste & Dark Data
The Hidden Cost of Digital Expansion: Data Waste
Recently, humanity has required an increasing number of data centers due to the advancement and widespread adoption of AI, cloud computing, and blockchain technologies. Technologies like the cloud and blockchain are characterized by storing data volumes that exceed the size of the original source. Where a single unit of data was once sufficient, these technologies require retaining multiple copies—sometimes multiplying the volume tens of times over—rather than just two. Consequently, the rate of data growth is outpacing the speed of advancements in efficient storage technology. While hardware technology improves to store more data in smaller capacities, there are inevitable limits to hardware development.
Tech giants like Google, Amazon, and Microsoft—often called the representatives of data centers—already possess cloud server centers of immense scale. Yet, despite their existing vast capacity, they find themselves compelled to build even more. The current volume of hardware is said to be enough to circle the Earth’s equator if loaded onto 40-ton trucks lined up in a row. Even this is insufficient, and the trend is set to increase further.
However, amidst this growth, there is something we are overlooking: “data waste” or waste generated by the digital infrastructure. Hardware has a lifespan, and not all data is utilized at 100% efficiency. A significant amount of data remains abandoned and unused (often called Dark Data). When hardware reaches the end of its life, it must be disposed of, but recycling systems are not functioning effectively. Moreover, since hardware typically requires replacement every five years, the growth rate of this waste is only escalating.
Operating hardware requires immense amounts of electricity and water, alongside significant carbon emissions. When this hardware is discarded and sent to landfills without proper recycling, it causes adverse effects on the surrounding soil and water quality. Furthermore, such waste is often offloaded to third-world countries under the guise of “used exports” or “recycling.”
This phenomenon bears a striking resemblance to plastic. Plastic has a history of less than 100 years and is incredibly useful in our daily lives. However, the volume of waste generated by plastic usage is enough to cover the Earth’s oceans and is actively causing severe environmental pollution. Consequently, nations are leading movements for recycling and the reduction of plastic consumption.
I do not believe that the concept of data waste is yet felt by people as viscerally as plastic pollution. However, this is a reality we face and one we must confront. As an engineer, I believe we must not only focus on simple technological development but also contemplate these environmental issues together. While the benefits naturally increase as technology advances, I believe we are in an era that requires an attitude of simultaneously considering the dangers posed by such advancements.
최근 인류는 AI, 클라우드, 블록체인 기술의 발전과 대중적인 사용으로 인해 많은 데이터센터를 필요로 하고 있다. 클라우드와 블록체인과 같은 기술은 원본 데이터의 용량 이상의 데이터를 담고 있는 특징이 있다. 기존에 하나의 데이터가 필요했다라면 클라우드와 블록체인에서는 하나 이상의 데이터를 가지고만 있어야하고 그것은 두개가 아닌 수십배로 늘어날 수도 있게 된다. 이에 따라 필요로 하는 데이터의 증가율은 그 데이터를 효율적으로 저장하는 기술 발전의 속도를 넘어서고 있다. 하드웨어의 기술이 좋아져서 많은 데이터를 더 적은 용량의 하드웨어에 저장할 수 있게 되겠지만 하드웨어의 발전에는 한계가 존재하기 마련이다.
데이터 센터의 대표주자라고도 불릴 수 있는 구글, 아마존, 마이크로 소프트에서는 엄청난 규모의 클라우드 서버 센터를 보유하고 있다. 하지만 그 엄청난 규모가 이미 있음에도 더 지어야 하는 상황이다. 현재 하드뒈어 수의 규모는 40톤 트럭에 실어 한 줄로 세웠을 때 지구 적도를 한바퀴 돌고도 남는 거리만큼 있다고 한다. 그것마저 부족해서 앞으로 더 증가할 추세이다.
하지만, 이러한 증가에 있어서 우리가 놓치고 있는 것들이 있다. 바로 데이터 쓰레기 혹은 폐기물이다. 하드웨어는 수명이 존재하고 모든 데이터는 100% 효율로 사용되지 않는다. 어떠한 데이터는 사용되지도 않는 채로 방치되고 있는 것들도 많이 있을 수 있다. 하드웨어의 수명이 다하게 된다면 그 하드웨어를 처리를 해야하는데 재활용이 잘 되고 있지도 않다. 또한 하드웨어는 5년 주기로 교체해주어야 할텐데 이러한 데이터 쓰레기들의 증가율은 갈수록 높아만 진다.
하드웨어를 사용할 때에는 엄청난 전기와 물을 필요로 하고 또한 탄소의 배출도 크다. 이것이 사용되지 않고 폐기를 해야 될 때에는 재활용이 제대로 이루어지지 않은 상태로 매립이 된다면 그 주변의 토양과 수질에 악영향을 가져온다. 그리고 그러한 매립은 제 3세계로 중고 수출 혹은 재활용이라는 명목으로 떠넘겨지는 경우도 있다.
이러한 것은 마치 플라스틱과 유사한 면모를 보이고 있다. 플라스틱의 역사는 100년이 되지 않았고 우리 일상생활에 정말 유용하게 쓰이고 있다. 하지만 플라스틱 사용으로 나오는 쓰레기의 양은 지구의 바다를 뒤덮을 정도로 많이 나오고 있고 실제로 환경 오염에 많은 영향을 끼치고 있다. 그렇기 때문에 각 나라에서 분리수거 및 플라스틱 사용량을 줄이는 운동을 주도하기도 한다.
나는 아직 데이터 쓰레기가 사람들에게 플라스틱의 환경오염처럼 피부에 와닿게 전달되고 있다고는 생각하지 않는다. 하지만 이러한 것은 우리가 직면하고 있는 현실이기도 하고 직면해야하는 현실이다. 나는 공학도로서 단순 기술개발에만 신경 쓰는 것이 아니라 이런 환경 문제도 같이 고민해야된다고 본다. 기술이 발전할수록 우리에게 이로운 점이 당연히 많아지기도 하지만 그와 동시에 기술 발전으로 인해 위험해지는 면 또한 동시에 생각하는 태도가 필요한 시대가 아닐까 생각한다.