센티먼트 분석의 최적화를 위한 주제 태그

블룸버그 프로페셔널 서비스 2018년 6월 4일

트레이더 및 투자자들이 시장을 움직이는 시그널을 찾기 위해 고출력 머신 및 비전형적 데이터에 눈을 돌리게 됨에 따라 알고리즘의 증가가 월가에 변화를 불러오고 있다. 대안적 데이터를 발굴하는 것이 현대 트레이딩 전략의 필수 요소가 되었다.

이 모든 것이 뉴스 기사의 체계적 분석을 매력적으로 보이게 한다. 뉴스 및 소셜 미디어 분석은 브랜드 관리 및 타겟 광고를 위한 데이터 수집 도구로 빠르게 자리잡았디. 오늘날에는 더 나은 투자 및 트레이딩 결정을 위해 사용될 수 있는 예측 시그널을 찾기 위해 동일한 콘텐츠가 더 높은 정밀도와 더 빠른 속도를 갖춘 퀀트 헤지 펀드에 의하여 처리된다.

통상적으로 텍스트 뉴스는 수십년 동안 사용되어 온 컴퓨터 과학 분야인 자연언어처리(Natural Language Processing, NLP) 기법으로 처리되고 있다. NLP 업무의 한 예는 센티먼트 분석인데, 여기에서는 각 뉴스 기사들에 깔려 있는 어조를 기준으로 분류하여 주가에 대한 잠재적인 영향을 판독할 수 있다. 예를 들어, 예상보다 더 양호한 분기 실적에 대한 뉴스 기사는 긍정적인 센티먼트를 갖는 것으로 점수를 받아 주가를 상승시킬 수 있는 반면에, 애널리스트의 등급 하향에 관한 뉴스 기사는 부정적으로 점수가 매겨져 주가 수정을 초래하였다.

문맥에 대한 고려

더욱 많은 오픈소스의 NPL 도구 및 서버가 이용 가능해 짐에 따라 이를 기성 알고리즘(off-the-shelf algorithm)을 취합된 실시간 뉴스 피드와 연결시켜서 시스템을 구축하려는 유혹을 받을 수 있다. 하지만 머신이 특정 언어를 해석하려 시도할 때 문제가 발생할 수 있다. 블룸버그의 계량 연구원 겸 데이터 과학자인 이바일로 디모프(Ivailo Dimov)에 따르면 대부분의 알고리즘에서 “magnificent”와 같은 단어는 Magnificent Hotel Investments (대량의 호텔 투자)와 같은 문맥에서도 긍정적인 것으로 잘못 인식될 것이라고 한다.

전문적인 재무적 도메인 지식(financial oriented domain knowledge)에 대한 훈련의 부재시, 일반적인 목적의 NLP 알고리즘은 이러한 미묘한 차이를 인지하지 못하여 왜곡된 센티먼트 점수를 배정하고 트레이딩 성과에 치명적인 결과를 낳게 된다. “특정 텍스트가 기업에 적용되는지 혹은 비지니스 상황에 적용되는지의 여부를 구별할 수 없으면 잘못된 데이터 및 노이스가 생성됩니다.” 라고 디모프는 말한다.

이러한 문제에 대응하여 블룸버그의 머신 판독 가능 뉴스 및 분석 자료는 주석을 단 방대한 양의 과거 재무 뉴스를 기초로 학습된 독점적 NPL 모델을 이용한다. 센티먼트 점수는 기사에서 언급된 개별 주식을 바탕으로 매겨진다. 또한 뉴스 기사 역시 풍부한 주제 태그 조합 및 태그가 함께 붙여져 기술 , 애널리스트 변경 , 또는 등급 하향 와 같은 콘텐츠 특징 및 주제를 세부 범주화한다. “주제별 태그를 통해 우리는 원 텍스트 자체보다 센티먼트에 더 관련성 높은 정보를 취합할 수 있습니다.”라고 디모프는 말한다.

요소 분석을 통한 그룹 코드 개선

블룸버그는 많은 출처로부터 데이터를 수집하여 시간이 흐름에 따라 더욱 정확한 주제 태그를 생성할 수 있는 강력한 솔루션을 개발하였다. 대부분의 경우, 잠재적 오류는 피하면서 관련된 정보를 모두 파악하기 위해 특정 뉴스 기사에 필요한 것보다 더 많은 태그가 있을 수 있다. 한편 전체 주제 분류(topic taxonomy)에는 한쪽으로 치우친 꼬리 분포를 가진 수만 개의 독특한 태그가 포함되어 있다.

이는 센티먼트 주도 전략을 더욱 강화하기 위하여 주제 태그를 활용하려 시도할 때 큰 어려움을 야기한다. 유사한 의미를 지닌 태그를 연관 지어 그러한 태그들이 하나의 그룹으로 처리될 수 있도록 하려면 적절한 차원 감축이 필요하다. 하지만 잠재적 미분석(Latent Semantic Analysis)과 같은 전통적인 기법은 용어의 동시 출현(term co-occurrences)에만 기초하여 분석하는데, 이는 높은 차원, 희소한 분포 때문에 매우 번거로운 것으로 밝혀졌다. 따라서 논리적 관련성이 없어도 주제 태그를 한 그룹으로 규정짓는 경향이 있다.

이바일로와 그의 동료 다니엘 램(Daniel Lam)은 π-요소 분석이라 불리는 새로운 수학적 접근법을 개발하여 비용 대비 가장 효과적인, 비용을 절약하는 방법으로 코드를 더 잘 이해할 수 있도록 그룹화하였다.

π-요소 분석에 의해 파악된 주제 태그 그룹은, 센티먼트 분석과 결합하였을 때, 특정 주식의 가격에 센티먼트가 더욱 강력한 영향을 미침을 보여준다. 즉 구조화 뉴스 출처가 알파를 탐색하는 데 있어 값진 역할을 한다는 증거를 체계적으로 보여준다.

주제 코드와 함께 주가에 대한 센티먼트 영향에 관하여 더 읽고 싶으신 경우 리포트(영문)를 참조하세요.

머신 러닝 및 데이터 피드 상품에 대해 더 알고 싶으시면 링크를 클릭해 주세요. 더 알아보기