유가증권시장, 코스닥 시장 외에도 많은 한국의 기업들의 전자정보를 제공하며 따로 dart api 를 제공하기 때문에 비교적 쉽게 데이터를 가져올 수 있습니다. 이중에서도 기업이 매년 공시하는 정기보고서 중 사업보고서를 크롤링하여 가져와보았습니다. 그 중 이사의 경영진단 및 분석의견 항목에는 회사의 전반적인 당년 성과가 텍스트로 나와있습니다.
(해당 기업이 전반적으로 적자를 보았다는 내용)
재무제표를 제외한 기업의 당년 평가정보에 대한 텍스트를 저장하여 라벨링해 해당 기업의 성과를 분석할 수 있다면, 또 이를 historical data와 비교하여 어느정도 패턴을 찾거나 상관성을 발견할 수 있다면 유의미한 프로젝트가 되지 않을까 하는게 프로젝트를 시작하게 된 동기이고 파이썬 코드를 짜보면서 공부한 딥러닝 아키텍처를 실제로 적용해보는 것도 의미가 있겠다 싶었습니다.
그 첫단계로 dart 사이트에서
dart 사이트에 들어가서
1. 해당기업의 사업보고서 리스트를 검색 후 데이터프레임으로 저장
2. 사업보고서 페이지 url 을 따고 /
3. 이사의 경영진단및 분석의견의 url 주소 가져오기
4. 본문의 텍스트를 가져와 데이터프레임에 추가 후 저장
정도로 단계별로 나눠서 볼 수 있습니다.
dart는 친절하게도 api를 제공하고 있어 api인증키를 신청하고 아래 변수를 참고하여 url을 구성해 검색하면 됩니다.
발급된 api_code를 넣으시고 검색하시면 됩니다.
여기서는 예시로 삼성전자의 종목코드인 '005930' 를 넣고 날짜를 1990년에 맞춰서 사업보고서인 'bsn_tp=A001' 조건을 넣어 검색했습니다.