다빈치 SW 공모전

'언택트 시대에 유용한 앱 혹은 서비스를 주제로한 SW 공모전으로
2020-2학기 비공학 전공 재학생 2인 이상이면 참가 가능합니다.

자세히 알아보기

캡스톤 디자인 경진대회

캡스톤 디자인 교과목 수행 결과물 또는 졸업 작품 심사
2019년 2학기, 2020년 1학기 중 한 학기 이상 캡스톤 디자인 교과목을
수강한 학생만 참가 가능합니다.

자세히 알아보기

PE연구활동 발표대회

PE연구/개발 활동을 수행하면서 얻어진 다양한 형태의 결과물
(논문형태의 결과보고서, 논문, 발명품, 작품, 콘텐츠 등)을 심사

자세히 알아보기

SW·AI 창업아이디어경진대회

SW 관련 전공 학부생 여러분!
반짝이는 SW창업 아이디어로 여러분의 미래를 바꾸십시오!

자세히 알아보기

SW·AI융합우수성과 발표회

SW융합전공 / 복수 전공 학생 여러분!
SW융합전공 / 복수전공을 이수하는 과정에서 얻어진 성과를 뽐내 주세요.

자세히 알아보기

다빈치 주니어 SW 작품대회

창의적인 아이디어와 소프트웨어를 활용한
멋진 SW 작품을 만들어 보세요!

자세히 알아보기

다빈치오픈소스 SW·AI 딥러닝 해커톤

4차 산업혁명을 견인하는 심층학습을 주제로한 SW·AI 딥러닝 해커톤으로
소프트웨어대학 재학생으로 구성된 2인 이하 팀으로 참가 가능합니다.

자세히 알아보기

코딩경진대회

소프트웨어 중심 대학으로서 중앙대학교의 소프트웨어 관련
교육 프로그램 성과를 공유합니다.

자세히 알아보기

SW·AI융합우수성과 발표회

  • 인간지능

    팀장
    이채운 (광고홍보학과 | 4학년)

발표영상

실시간 뉴스 데이터 수집 및 키워드 추출을 통한 시사 분석
  • 작품 소개
  •  인터넷과 같은 디지털 매체를 통해 각종 신문이나 방송 등의 정기간행물을 전달하는 온라인 저널리즘이 등장한 이후, 대부분의 사람들은 스마트폰 혹은 컴퓨터를 이용하여 뉴스를 접하고 있습니다. 이로 인해, 빠르고 다양한 정보를 많은 사람들에게 전달할 수 있게 되었으며, 인터넷만 할 수 있다면 누구든지 자유롭게 뉴스를 확인 할 수 있기에 정보 불균형을 어느 정도 해소 할 수 있게 되었습니다.
     하지만, 하루에 생산되는 뉴스 기사는 약 10,000건을 훌쩍 넘으며 오히려 과도한 정보로 인해 정작 중요한 뉴스를 놓치는 일이 빈번하게 일어납니다. 이와 같은 정보의 홍수 속에서 다양한 관점의 시사를 파악하기란 더 어려워졌습니다. 아무리 빠르고 효율적으로 기사 콘텐츠를 소비하더라도 한 사람이 소비할 수 있는 수는 정해져 있고, 학업이나 일에 몰두하다 보면 여러 트렌드나 주요 시사를 따라가기란 여간 힘든 일이 아닙니다.
     저는 이러한 상황에서 뉴스의 핵심을 짚을 수 있고, 많은 뉴스를 통해 전반적인 시사를 파악하기에 가장 알맞은 방법은 '핵심 키워드'라고 생각하였습니다. 수 없이 쏟아지는 기사 속에서 핵심 키워드를 가공된 상태로 추출한다면, 비슷한 기사의 그룹핑은 물론이고, 다양한 시사점에 대해 그 변화를 한 눈에 볼 수 있게 됩니다. 또한, 비슷한 뉴스 기사에서 추출된 키워드 사이에 어떠한 상관관계가 있는 지 파악하는 알고리즘 모델까지 존재한다면, 미래에 대한 근거있는 통찰이 가능합니다.
     이 기술을 통해서 사용자들은 자신에게 필요한 정보를 선택적으로 습득할 수 있고, 키워드와 키워드 사이에 학습된 특정 관계가 형성되어 있다면 어떠한 시사점에 대한 전후 맥락과 전체적인 상황까지도 빠르게 훑어볼 수 있습니다. 인터넷으로 인해서 정보가 모두에게 공개되었지만, 동시에 자신에게 '핵심적인' 정보를 계속 주시하기란 거의 불가능에 가깝기 때문에, 이 기술이 분야와 상관 없이 많은 사람들이 '효율적'으로 뉴스 콘텐츠를 소비할 수 있도록 도와줄 수 있을 것이라 기대됩니다.
    (본 프로젝트는 교내에서 알고리즘 과목을 수강후, 핀테크 스타트업에서 인턴십 개인 프로젝트로 진행한 결과물 입니다.)
     
  • 세부 내용
  •  뉴스 기사를 AI 혹은 빅데이터와 접목시켜 유의미한 결과를 이끌어 내려는 노력은 수없이 많습니다. 그 중, '빅카인즈'는 한국언론진흥재단에서 만든 뉴스 데이터를 데이터 베이스화시켜 분석해주는 서비스입니다. 하지만, 일반인이 손쉽게 접근하기도 어렵고 너무 방대한 데이터를 다루기 때문에 최근의 트렌드나 이슈의 흐름을 파악하기 어렵습니다. 그리고 줌인터넷에서 출시한 '뉴썸'은 AI를 이용하여 사용자의 취향을 분석해 맞춤 뉴스 기사 큐레이팅을 해주는 서비스입니다. 하지만 단순하게 기사만 큐레이팅 해줄 뿐, 어떠한 핵심 이슈의 흐름이나 그 변화량 등은 사용자가 파악하기 어렵습니다. 이 두 가지 서비스 모두 훌륭한 서비스이고, 많은 사람들이 이용하고 있지만 사용자 편리성 측면과 확장성에서는 여러 단점을 갖고 있습니다. 뉴스 데이터에서 추출된 키워드는 그 빈도수의 변화량, 연관된 키워드를 엮어서 이용할 때 가장 효율적이고 고도화된 결과를 도출해낼 수 있습니다.
     실시간으로 기사 콘텐츠를 '키워딩'하기 위해서는 우선 기사 데이터를 지속적으로 수집해야 합니다. 이는 서버 상에서 지속적으로 크롤러를 실행시켜, 최소한의 시간 격차를 두고 뉴스 기사 데이터를 수집하면 됩니다. 크롤링 및 스크레이핑은 Python의 널리 알려진 Scrapy 프레임워크를 이용하면 빠르고 효율적으로 수행할 수 있습니다. 수집된 데이터는 메세지 큐를 통해서 키워드 추출 알고리즘으로 보내지고, 토크나이징과 자연어 처리(NLP) 과정을 거쳐 유의미한 핵심 키워드를 추출합니다. 이 때 핵심 단어를 선정하는 것은 각 문장의 단어 그래프를 그리고, 허브 역할을 하는 단어를 추출함으로써 선정합니다. 이 방법은 구글의 초기 검색 엔진 알고리즘으로 유명한 Page Rank 알고리즘을 텍스트에 접목시킨 Text Rank 알고리즘으로 불려지기도 합니다. 이렇게 추출된 단어를 데이터 베이스에 뉴스 기사와 함께 저장하면 되는데, 이 모든 과정은 컨테이너화 되어 격리된 상태로 병렬적으로 수행됩니다. 따라서 크롤링과 스크레이핑, 키워드 추출 알고리즘의 최대 성능을 낼 수 있습니다. 
     또한 추가적으로 한 기사에서 추출된 키워드를 단어 간 유사도를 계산할 수 있는 Word2Vec 모델을 통해서 학습시킨다면 다양한 관점을 볼 수 있는 결과를 도출시킬 수 있습니다. 이 Word2Vec 모델은 '주차장에서 { }를 한다'라는 문장에서 사람은 당연하게 '주차'라는 단어를 떠올릴 수 있지만, 그것이 안되는 컴퓨터에게 그 주변 단어(주차장, -하다)를 토대로 다른 단어를 유추시킬 수 있도록 하는 것입니다. 이렇게 할 경우, 예를 들어 왕과 여자를 더했을 때 '여왕'이 나오게끔 할 수 있습니다. 키워드 간에 이 관계를 학습시킨다면 한 단어로부터, 다른 단어를 유추할 수 있으며 그렇게 연쇄적으로 여러 시사를 연결지어 통찰할 수 있습니다.
     
  • 기대효과
  •  뉴스 데이터에서 추출된 키워드들이 쌓이게 되면 어떠한 분야에도 적용할 수가 있게 됩니다. 특히 사회적 이슈에 민감한 금융 분야에는 이슈의 변화 및 흐름을 예측하는 데 큰 도움이 될 것으로 예상됩니다. 먼 과거의 데이터도 추가적으로 수집한다면, 다가올 상황에 대한 통계 기반의 추측을 할 수 있게 됩니다. 예를 들어 코로나19와 관련된 주요 제약사 혹은 관련 기업은 물론이고, 어떤 기업이 어떠한 키워드와 함께 추출되었는지를 함께 살펴 볼 수 있게 됩니다.
     금융 분야가 아니더라도 다른 특정 분야(사회, 문화, IT, 정치 등)에 접목시킬 수도 있으며 연관된 키워드로 전반적인 시사를 파악할 수 있다는 장점이 있습니다. 하나의 키워드 혹은 하나의 기사에 대해서 단순하게 텍스트로 보는 것만이 아니라, 빅데이터와 AI를 이용하여 다듬어지고 가공된 추가적인 데이터들을 함께 살펴볼 수 있는데, 이 때 Word Cloud, 그래프와 같은 시각화 툴을 이용하면 직관적으로 이해할 수 있습니다. 대선 후보와 같은 경우, 특정 후보에 대한 다양한 자료 및 관련 키워드들을 볼 수 있으며, 그 키워드의 추출량 변화 차트를 통해서 여론의 변화를 한 눈에 볼 수 있는 것입니다.
     뉴스 기사는 SNS나 다른 데이터와는 다르게 특정 주제에 대해서 전문적이고 글 자체가 어느 정도 잘 다듬어져 있는 경우가 많습니다. 즉, 어떠한 전문 분야 혹은 지식이더라도 그 키워드만을 통해서 맞춤 뉴스 제공, 주요 이슈 및 흐름 파악, 관련 키워드를 통한 연관된 지식 획득 등이 가능해지는 것입니다. 그 사용자는 학생이 될 수도 있고, 트렌드를 알아야 하는 기획자나 마케터, 금융 변동을 예측하려는 증권사 혹은 투자자, 등 대부분의 사람들이 해당됩니다. 결국 미디어와 트렌드, 빅데이터 및 AI가 모두 접목되어 1의 가치를 갖고 있는 뉴스 데이터를 통해 100의 가치로 만들 수 있는 것입니다. 
      
  • 결과물
  •   이 프로젝트를 통해서, 실시간 뉴스 데이터는 물론, 키워드 별 뉴스량과 트렌드의 흐름을 파악할 수 있습니다. 무궁무진한 방식으로 기사와 키워드 빅데이터를 이용할 수 있다는 큰 장점이 있습니다. 첨부된 이미지는 각 기사에서 추출된 키워드 및 그 변화량에 대한 차트를 시각적으로 보여주기 위하여 참고용으로 개발한 애플리케이션 모습의 일부입니다.

    Screen Shot 2020-08-24 at 23.27.11.png
    - 실시간 뉴스 및 추출된 키워드를 보여주는 애플리케이션 화면 (참고용 애플리케이션)
     

    Screen Shot 2020-08-17 at 23.41.14.png
    - '대통령' 키워드의 추출 변화량
     

    Screen Shot 2020-08-17 at 23.40.23.png
    - 뉴스와 추출된 키워드 목록


      연관 키워드 학습 모델의 경우 현재, 약 5만개의 데이터만을 학습 시킨 결과이므로 정확도가 다소 낮을 수 있습니다. 하지만 더 많은 데이터를 수집 할수록 그 정확도가 높아지게 되고, 연관성이 큰 키워드가 추출됩니다. 이 모델 또한, 학습하는 기간을 전체 기간, 최근 한 달, 등 세분화 시켜서 나누게 되면 시시각각 변하는 연관 키워드를 확인할 수 있는 모델이 완성됩니다.

    Screen Shot 2020-08-17 at 23.51.09.png
    - Word2Vec 모델로 연관 키워드 학습을 시킨 후, '팬데믹'을 검색하면 나오는 키워드들


    - 키워드 추출 관련 논문: 김현중, 조성준, 강필성 , 2014, KR-WordRank : WordRank를 개선한 비지도학습 기반 한국어 단어 추출 방법

     

중앙대학교 다빈치 sw tech fair 참가신청 닫기