반응형


원문 : Every company has a big data issue 

http://www.hanbit.co.kr/network/category/category_view.html?cms_code=CMS1547082578


안올라온줄 알고있었는데.. 올라왔었구나..

^^


---------------------------------------------------------------------------------------------------------------------------------------------------------------------

작은 것을 포함한 모든 비즈니스에 어떻게 빅데이터를 적용할 수 있을지 GoodData의 Roman Stanek의 인터뷰 입니다. 

"빅데이터"와 같은 단어처럼 사람들의 입에 많이 오르내리게 되면 그 단어의 의미를 잃어버리는 경향이 있습니다. 그러나 빅데이터는 마켓팅 용어보다 특히 더 그렇습니다. 비록 우리가 안팎에서 보고 있는 우리들의 조직에 대한 순수한 크기의 정보를 제어하고 이해하려는 수단이라는 의미를 가지고 있을지라도 말이죠. 

사용자로부터 수많은 정보를 모으고 있는 Google이나 Facebook처럼 기업의 문제점이라고 인식하지 않는 것은 쉽습니다. 하지만 GoodData의 CEO Roman Stanek(@RomanStanek)는 아래의 인터뷰에서 다양한 소스로부터 만들어진 수많은 데이터는 빅데이터 이슈를 만들어 낼 것이고, 그건 기업의 규모와 관계없이 모든 곳에 큰 영향을 끼칠 것이라고 말하고 있습니다. 

20년 이상 사업가로 활동한 Stanek는 클라우드에 비즈니스에 관련된 지식을 넣어 단순화하는 방법으로 2007년 GoodData를 시작했습니다. 오늘날 그는 비즈니스 지식에 대한 문제점 뿐만 아니라, 그의 비즈니스가 커져가면서 봐왔던 빅데이터를 보면서 그의 회사 같은 기업들은 데이터 과학자들의 영역을 넘어서는 빅데이터를 가질 수 있을 거라 믿었고, 일반적인 비즈니스 사용자들도 또한 손에 넣을 수 있을 거라 생각했습니다. 

 빅데이터는 대규모 기업의 문제라는 인식이 있습니다. 소규모나 중간 규모의 기업들이 가지고 있는 빅데이터에 대한 역할은 무엇입니까? 

Roman Stanek : 빅데이터는 수많은 소스(source)로부터 나옵니다. 그리고 소비자의 반응, 소셜미디어, 이메일 같이 대부분은 기업의 방화벽 밖에 존재하고 있습니다. 기업의 크기는 빅데이터를 관리하고 이해하는데 상관이 없습니다. 예를 들어 100명의 직원을 가지고 있는 회사가 페이스북이나 트위터, 이메일, 또는 전화를 통해 수천만의 고객의 전화를 감당해야 한다고 생각해 보죠. 그게 바로 그들이 처리해야 하는 데이터의 양입니다. 

게다가 빅데이터는 규모가 작던 크던 상관없이 모든 기업들에게 엄청난 부를 가져다 주는 잠재력이 있는 것으로 인식되고 있습니다. 비즈니스들이 영향력 있는 데이터에 대해서 영리한 판단을 내릴 수 있을 때 그들은 좀더 빨리 비즈니스에 대한 결정을 할 수 있게 됩니다. 

비즈니스 데이터의 양이 증가하는데 기여하는 요인은 무엇입니까? 

Roman Stanek : 저장공간, 영업결과, 페이스북의 부적적인 댓글, 트위터의 긍정적인 댓글, 아마존의 쇼핑 습관, 판도라에서의 플레이 리스트들과 온라인 검색 습관 등 요인들이 너무 많습니다. 당신이 정보라고 말하거나 묘사하는 것들, 그 모든 것들이 수집되고 있는 거죠. 

IDC는 디지털 데이터가 2.7 제타바이트(PDF)까지 커질 것이라고 2012년에 예측했습니다. 한번에 수량화 할 수 없는 페이스북의 대화나 트윗들을 수량화할 수 있게 만들어 주는 하둡과 같은 기술은 매우 고마운 기술입니다. 거의 모든 것들을 측정할 수 있게 되었습니다. 그 결과 기업들은 천문학적인 양의 데이터를 측정하고 저장하고 수집하는데 많은 돈을 쏟아 붙고 있습니다. 

오늘날의 빅데이터가 지난날의 비즈니스 지식(BI)과 다른 점은 무엇입니까? 

Roman Stanek : 고전적인 비즈니스 지식(BI)은 구식이고 이미 사용할 수가 없습니다. 현재의 툴들은 소셜 네트워크와 클라우드를 통해서 가져온 비정형 데이터의 거대한 양에 대처할 수 없습니다. 일반적으로 사용되던 BI 툴들은 IT부서가 감당하기 힘든 일들을 요구하게 되면서 구현실패와 고객들을 충족시키지 못해 자취를 감추게 되었습니다. 

제 생각으로는, 빅데이터의 진실된 값어치는 데이터를 통찰력으로 변화시켜 실행에 옮길 수 있는 비즈니스 능력에 있다고 생각이 됩니다. 예를 들어 영업 관리자들은 영업담당자들의 결과를 빠르게 분석해야 하고 새로운 계약이나 실패한 계약들을 고려해 봐야 합니다. 그리고 기존에 세웠던 계획대비 실제 팀의 수행능력을 비교해 봐야 합니다. 

헬프 데스크의 직원은 개개인의 고객들이 어떻게 영업과 이익에 영향을 비치는지 볼 수 있어야 합니다. 유동적인 고객들을 유지하기 위해 언제 치고 빠져야 하는지를 알게 됩니다. 보험 대리점들은 그들의 지역으로 오고 있는 허리케인이 곧 닥칠 자연 재해와 비용을 예측할 수 있습니다. 

빅데이터가 단지 데이터 과학자들이 언급하는 질문들의 영역에 있지 않다는 것을 어떻게 할 수 있습니까? 그리고 비즈니스 사용자들이 일을 하거나 사업을 키워가기 위한 대답을 어디에서 찾을 수 있습니까? 

Roman Stanek : 데이터를 해석하는 통계학에서 박사학위는 필요하지 않습니다. 저는 사람들이 전략적 결정을 하기 위해 필요한 데이터가 무엇인지 이미 알고 있을 거라 생각합니다. 예를 들어 제가 마케팅 최고 경영자라고 가정한다면 페이스북이 정말 나의 영업을 넓힐 수 있거나 어느 정도까지 성과를 낼 수 있다면 배우고 싶어서 안달이 날 것 입니다. 그런 것들을 알아보려면 수많은 소스로부터 데이터를 가져와서 회사의 누구든지 자신의 데이터를 간단하고 시작적으로 직관적인 방법으로 보여줄 수 있는 현대적인 앱이 필요합니다. 클라우드 기술의 발전과 성장은 결과적으로 이런 조합을 가능하게 할 것입니다. 

빅데이터가 무엇이 일어났는지 기대하기 보다는 다시 돌아보기 위한 비즈니스 전략이라는 것을 기업들은 어떻게 알 수 있을까요? 

Roman Stanek : 빅데이터를 비즈니스 전략으로 사용하는 것은 성숙함의 다음 단계입니다. 어떤 기업도 입증되지 않은 상태에서 어느날 갑자기 분석적인 상태로 넘어갈 수 없습니다. 따라서 기업들은 그들의 데이터 분석이 성숙한 단계로 도달할 수 있도록 지표가 주도적이 되도록 초점을 맞춰야만 합니다. 

고전적인 업종 지식 툴은 역사적인 트렌드를 보고 당신이 어떤 일들이 일어났었는지 분석하는 것을 가능하게 합니다. 예를 들어, 저는 이전 3/4분기를 통해서 저의 영업에 대한 특징을 알 수 있습니다. 이러한 접근을 통한 도전은 당신이 현재 정보에 대해 반응할 수 없도록 만들어 미래의 비즈니스 성과에 영향을 미칠 수 있습니다. 

대조적으로 다음 세대의 분석학은 사람들이 지금 사용할 수 있는 통찰력을 찾을 수 있는 클라우드의 확장성과 처리능력에 영향을 미칠 것입니다. 저는 최근에 다른 유형의 직업에 대해 어떤 개성을 가진 사람이 가장 적당한지 결정하는 빅데이터를 처리하는 HR 앱에 대해서 들었습니다. 이런 종류의 정보는 HR 부서를 단순하게 할수 있도록 해줍니다. 하지만 각각의 위치에 적합한 사람을 찾을 수 있는 질문들을 찾거나 가지고 있어야만 합니다. 기업의 하부에 직접적으로 영향을 미칠 수 있는 유동성을 줄여야 합니다. 

앞에서 말한 것들은 단지 예시일 뿐입니다. 기업의 크기는 정말 문제가 되지 않는다는 것이 중요한 점이죠. 빅데이터는 크기에 관계없이 모든 기업에게 제공되는 열쇠이며, 수익을 창출하는 새로운 자원을 찾아줄 것입니다. 그리고 이익을 증대시켜주고 좀더 현명한 결정을 내리는 데에 빠르게 할 수 있도록 만들어 줄 것입니다. 고맙게도 새로운 실시간 클라우드 기반 기술들 덕분이 이런 능력들인 이미 현실에 존재 합니다.

728x90
반응형
반응형

또 다시 번역..

역시 어렵다.. ^^;

원문 : New ethics for a new world 

http://www.hanbit.co.kr/network/category/category_view.html?cms_code=CMS8402710404


-----------------------------------------------------------------------------------------------------------------------

데이터 주도적인 현재 세계의 가장 큰 위협은 윤리적인 부분입니다. 

 최초에 우리 조상들이 돌조각을 무기로 사용할 때부터 기술은 우리를 분리시켜왔습니다. 하지만 적어도 오늘날보다는 드물었습니다. 인터넷에 항상 연결된 사회는 개인 사생활을 위협할지라도 건강과 지혜, 효율성을 보장했고 편견은 과학으로 감추었습니다. 

겉보기에 데이터 주도적인 사회는 더 투명해 보이고 자원을 더 효과적으로 사용할 수 있도록 만듭니다. 통찰력을 위해 사람들의 지식과 연결시키고 정보를 수집합니다. 그 결과 우리는 재난이나 질병을 피하고, 부당하고 부패한 정보를 강렬한 빛으로 빛나게 함으로써 문제를 정확히 찾을 수 있게 되었습니다. 또한 데이터는 도시를 똑똑하게 만들고 잔디의 뿌리에 물을 주고 우리가 가르치는 방법을 향상시키고 있습니다. 

그러나 이런 많은 보상에 대해서는 경계해야 할 주의사항이 있습니다. 데이터가 단지 도구라는 것을 잊어버리기 쉬워서 결국, 그 도구가 위험한 일을 야기할 수 있습니다. 데이터는 우리의 사생활을 침식시킵니다. 종종 정확하게 우리를 예측하고 이 예측을 사실로 대하는 것은 새로운, 그리고 서서히 퍼지는 편견의 형태입니다. 그리고 우리의 디지털 삶을 수집할 수 있고 다른 사람이 알기를 원하지 않는 우리들의 사진이 널리 퍼질 수 있습니다. 

빅데이터에 대한 움직임은 단지 더 많이 알고 있다는 것이 아닙니다. 부족한 것에서 풍부한 것으로의 근본적인 변화에 대한 것입니다. 대부분의 시장은 다이아몬드나 오일, 또는 음악의 가격의 부족에 의해서 결정됩니다. 그러나 그런 것들이 너무 싸졌을 때 그것들을 거의 무료로 하는 재미있는 일이 발생합니다. 

증기기관의 출현을 생각해 봅시다. Jevons" Paradox로 잘 알려진 경제학자 Stanley Jevons는 증기기관 사용의 증가로 연료 사용이 증가했다는 것을 관측했습니다. 그것은 전혀 예측했던 일이 아니었습니다. Jevons는 풍부함이 어떤 것을 사용하는 새로운 방법을 만들어 낸다는 것을 깨달았습니다. 증기기관이 저렴해짐에 따라 그것을 이용하는 새로운 방법을 찾아내고 그것은 새로운 요구사항을 만들어 낸다는 것입니다. 

그런데 똑같은 일이 데이터에도 일어나고 있습니다. 한달이 걸리던 레포트가 지금은 단지 테블릿으로 몇 번의 탭만으로 만들어지고 있습니다다. 경쟁자들의 생각할 수 없이 복잡한 분석은 지금 구글 검색이 해주고 있습니다. 방송허가가 필요했던 멀티미디어 콘텐츠의 세계적인 전파는 이제 업로드로 대체되었습니다. 

빅 데이터는 우리의 세계를 분석하는 비용을 줄이고 있습니다. 그리고 풍부함의 결과는 데이터를 사용하는 새로운 방법의 계기가 되었습니다. 기계에 데이터를 공급해야 하기 때문에 시각화, 인터페이스, 그리고 유비쿼터스를 이용한 데이터 수집은 점점 중요해지고 있습니다. 그렇지 않으면 기계는 빈곤해 지게 됩니다. 

이러한 결과들은 논란이 많습니다. 저널리스트들은 정보에 대한 광범위한 접근을 원하지만 반대로 그들의 앞에 새로운 회의론을 가져오기도 합니다. 왜냐하면 사실은 지어내기 쉽기 때문입니다. 당신은 어떤 음모를 지지하고, 실수를 노출시키고, 당신이 싫어하는 다른 위치의 사람들에게 이의를 제기할 수 있는 증거를 찾을 수 있습니다. 그러나 데이터로부터 진실을 분리하는 것은 커져가는 문제점입니다. 아마 가장 큰 위협은 현재의 데이터 주도적인 세계에 대한 윤리적인 부분일 것입니다. 우리의 안전한 사회적 네트워크는 불확실성과 엮여있습니다. 우리는 복지, 보험, 그리고 다른 정확한 법령을 가지고 있습니다. 왜냐하면 앞날을 예측할 수 없기 때문입니다. 그래서 우리는 나누어져 있는 자원에 위험을 분할합니다. 우리가 미래를 예측할 수 있는 시점에 더 좋은 방법은 다른 사람들과 우리의 운명을 기꺼이 공유하지 않는 것입니다. 그리고 더 많은 예측들이 사실로 여겨질 때에 공정성은 반 사회적인 현상으로 다가올 것입니다. 

인류는 집단이 하나의 공동체로 묶일 때 커다란 변화를 겪었습니다. 바로 문화를 형성하고 다른 사람들과 정신적으로 묶이게 되었던 것입니다. 집단으로써 우리는 높은 단계에 이르렀고, 국가를 건설하고, 도전을 성공하고, 미지의 세계를 탐험했습니다. 만약 당신이 이런 공동체의 일원이었다면 무엇이 일어나고 있었는지 알려고 하지 않았을 것입니다. 왜냐하면, 개인에서 집단으로의 변화는 너무 급진적이어서 뒤늦은 깨달음에 불과하기 때문입니다. 

우리는 지금 중간단계에 놓여있습니다. 아마도 더 커지고, 변화하고, 정신적인 부분에서 정신과 디지털이 융합된 곳으로 우리를 이끌 것 입니다. 우리는 온라인 세계에 대량으로 서식하고 있습니다. 그리고 우리의 조상들이 새로운 사회적 계약을 만들어 왔던 것처럼, 우리 또한 집단으로써 도덕적 가이드라인을 만들고 새로운 윤리, 권리, 법을 만들어야 합니다. 

사회적 변화를 위한 이런 싸움은 그들의 행동을 멈추게 하고 있습니다. 왜냐하면 그들은 초기에 인터넷에 항상 접속된 데이터 주도적인 사람들을 위한 윤리와 정신적 가이드라인을 다시 만드는데 도움이 되는 공정성을 찾으려 하지 않기 때문입니다.

728x90
반응형
반응형

원문 : Big data is our generation’s civil rights issue, and we don’t know it 

http://www.hanbit.co.kr/network/category/category_view.html?cms_code=CMS3564760672


번역 완료!


-------------------------------------------------------------------------------------------------------------------------------------------------------------------

데이터는 그것이 어떻게 사용될 수 있는지 연관지어 생각해야 한다. 

데이터가 사람들의 삶을 침범한 것이 아니라, 데이터를 어떻게 사용해야 하는가에 대한 통제의 부족이 사람들의 삶을 침범했다. 

소위 빅 데이터라고 불려지는 것은 정보의 양을 의미하는 것이 아니다. 전혀 거대할 필요가 없다. 오히려, 이것은 데이터를 분석하는 기초 경제학의 재고(reconsideration)라고 할 수 있다. 

수 십년 간 데이터베이스의 3가지 속성들 간에 날카로운 신경전이 존재해 왔다. 데이터를 빠르게 하고, 거대화 하고, 다양화 하는 것이 바로 그것이다. 중요한 점은 3가지를 동시에 소유할 수 없다는 것이다. 

 
나는 처음에 이것을 "데이터가 가지고 있는 3가지 V" 라고 들었다. 크기(Volume), 다양성(Variety), 속도(velocity). 전통적으로 2가지를 소유하기는 쉽지만 3가지 모두를 소유하기에는 정말 많은 비용이 든다. 

하둡과 같은 클라우드의 출현과 무어의 법칙의 기술적 진보는 지금 이 시대에는 데이터 분석에 많은 비용이 소요되지 않는다는 것을 의미한다. 그리고 어떤 것이 사실상 공짜가 되어 비용이 저렴해질 때에는 큰 변화가 생기게 된다. 증기기관의 출현 또는 디지털 음악의 출판, 또는 홈 프린팅만 보더라도 그 변화를 알 수 있다. 풍부함이 부족한 것을 대체하면서 새로운 비즈니스 모델을 만들게 된다. 

오래 전에는 데이터가 부족한 모델로 여겨졌기 때문에 기업들은 무엇을 먼저 수집해야 할지 결정한 후에야 데이터를 수집했다. 고전적인 데이터웨어 하우스는 색상, 지역, 그리고 크기에 따른 판매 형태들을 추적해 왔다. 무엇을 저장하고 어떻게 저장할 것인가 결정하는 행동은 스키마를 설계하는 것으로 불려지게 되었고, 여러 가지 면에서 이런 행동은 누군가가 데이터에 대해 무엇인가를 결정하는 순간이 되었다. 이것은 즉각적인 맥락이다. 

그것은 반복이 필요하다. 

당신은 데이터의 스키마를 정의하는 순간에 대해 무엇인가를 결정한다. 

새롭고 데이터가 풍부한 모델에서는 먼저 데이터를 수집하고 나중에 질문을 요구한다. 스키마는 수집이 끝난 후에 나타난다. 실제로 Splunk, Palantir와 같은 빅 데이터의 성공사례는 상을 받을 만 하다. 바로 데이터를 수집한 후에 내용을 만드는 능력 때문이다. 그래서 때로는 스키마가 존재하지 않는 쿼리(schema-less query)라고 불려지기도 한다. 이것은 우리가 데이터가 무엇인지 결정하기 전에 오랜 시간 동안 정보를 수집한다는 것을 의미한다. 

그리고 이것은 위험한 방법이다. 

은행 관리자가 특정영역의 주민들(아래 빨간 지역)의 대출을 제한하려고 할 때 의회는 그것을 저지했다. 그들은 인종에 따라서 대출 정책을 차별화 하는 것이 불법이라는 법률을 제정했다. 

 

"개인화"는 차별의 다른 말이다. 만약 당신에 대해 아는 것을 바탕으로 해서 당신에게 맞춘다면 우리는 차별하는 것이 아니다. 그것은 바로 더 나은 서비스이다. 

한가지 예로, American Express는 고객이 높은 등급의 신용등급을 가지고 있을지라도 쇼핑장소에 따라서 신용한도를 조정하기 위해 구매 내역을 사용했다.

Johnson은 American Express가 자신의 신용한도를 낮춘 이유를 읽고는 입을 다물지 못했다고 말한다. "최근에 기관에서 카드를 사용한 사람들은 American Express와 안 좋은 상환기록을 가지고 있다."

 우리는 이 약삭빠른 행동을 맞춤형 신용카드 한도 제한에서부터 운전자 프로파일을 기반으로 한 자동차 보험에 이르기까지 모든 곳에서 볼 수 있다. 이런 점에서 빅 데이터는 인권에 관한 이슈이다. 하지만 일반적으로 사회는 처리할 수 있는 방법을 제대로 갖추지 못하고 있다. 

우리는 사람들에 대한 정보를 추측하는데 사람들의 기호를 잘 사용한다. OKcupid의 2010년 블로그 포스트 중에 "The Real Stuff White People Like"에서는 인종을 짐작하기 위해 정보를 얼마나 쉽게 사용할 수 있는지 보여주고 있다. 이건 정말로 눈을 번쩍 뜨게 해주는 일이다. (그리고 그 글을 쓴 사람들은 그들이 배운 것에 대해서는 포함하지 않았다. 그 중 어떤 부분은 약간의 논란이 있기도 했다.) 그들은 단순히 다른 사람들이 사용하지 않는 단어를 사용하는 하나의 그룹을 살펴봤을 뿐이었다. 그 결과로 특정 인종이나 성별에 따른 "trigger" 단어 목록을 만들 수 있었다 

지금 이것은 거꾸로 실행된다. 만약 이런 것들과 같이 당신을 알았거나 블로그 포스트나 페이스북 또는 트위터에서 그것들에 대해서 언급한 당신을 보았다면 이것은 당신의 성별, 인종, 그리고 당신의 종교와 성적 기호까지도 알 수 있는 좋은 기회가 된다. 그리고 나는 당신에 대한 마켓팅 전락을 세울 수 있다. 이것이 인권에 대한 이슈를 야기하고 있다. 

만약 당신이 듣는 음악에 관한 정보를 수집했다면, 당신은 내가 새로운 음악을 제안하거나 당신의 친구들과 공유하기 위해 그 정보를 사용할거라고 예측할지도 모른다. 그러나 그 대신 나는 당신의 인종적 배경에 대해 추측하는데 사용할 수 있다. 그리고 당신이 대출하는 것을 거부하는 데에 그 정보를 활용할 수 있다. 

다른 예는 무엇이 있을까? 얼마전에 런던에서 사람들의 성 정보가 인종 경계 지도를 만드는데 얼마나 유용한지 토론한 런던의 빅 데이터 세미나를 보고 나서 쓴 Private Data In Public Ways를 살펴보자. 

 

Malte Spitz가 말한 이 Ted토크는 오늘날 시민을 추적 일을 설명하는데 큰 역할을 하고 있다. 그리고 그는 오늘날 정부가 하는 방법처럼 Stasi(비밀경찰)이 핸드폰 통화기록을 봤다면 베를린 장벽이 무너졌을지에 대해 추측해보고 있다. 

그러면 우리는 정보가 사용되는 방법을 어떻게 규제할수 있을까? 

적절하게 처리할수 있는 유일한 방법은 어떤 데이터든 이것을 사용할 수 있는 방법과 연결하는 것이다. 예를 들어, 나의 음악적 성향은 은행을 결정하는 것이 아닌 노래를 추천하는 곳에 사용되어야 한다. 

권한으로 묶여있어서 느리고 수수께끼 같고 부담스럽고 실행하기 어렵고 혁신하기 어려운 데이터는 암호화를 통해서 수행할 수 있다. 또는 스팸 메일을 규제하는 것과 같이 법 제정을 통해서 실행시킬 수 있다. 이것은 멋지긴 하지만 집행하기가 어렵다. 

수량화된 사회에서 우리가 살아가고 사랑하고 일하고 즐기는 것을 향상시킬 수 있는 방법에 대한 예는 무수히 많다. 빅 데이터는 병이 발생하는 것을 찾는데 도움이 되고 학생들이 어떻게 배워야 하는지, 정치적인 당파성을 어떻게 드러내야 하는지를 알려줄 것이다. 그리고 통근자들에게 간단한 예를 선택해줌으로써 수많은 비용을 줄이는데 도움이 될 것이다. 폭발적인 인구증가와 기후변화, 에너지 공황과 같이 이 땅에 살기 위해 노력하는 것처럼 단순하게 무시할 수 없는 이익들이 있다. 

그러나 정부는 정보에 의존하는 것에 견제를 통한 균형이 필요하다. 그리고 이러한 의존이 어떻게 개인 사생활을 침해하는지에 대한 균형과 사회와 우리가 생각해보지 못한 사회와 도덕적 이슈를 창조해야 한다. 유권자 대부분이 그것에 대해서 생각하고 있지는 않지만 그들의 구매 성향에는 영향을 미친다. 

728x90
반응형

+ Recent posts