티스토리 뷰
개요
nestJS와 TS 공부를 결정하고,
기왕이면 토이프로젝트로 진행해서 3년이상 멈춰있는 깃허브 활성화를 하기로 결정했다.
프로젝트 주제로는 IT 뉴스 사이트들의 기사 제목을 수집해 키워드를 추출하여,
실시간 트랜드 파악을 위한 크롤러로 하기로 결정했다.
https://brunch.co.kr/@minimapworld/42
#5.현직 IT담당자가 추천하는 국내 IT미디어 11선
미디어와 블로거의 경계가 모호해진 시점에서 | IT를 다루는 국내 미디어들은 많다. 수많은 미디어에서 11개를 선정한다는 것 힘든일이다. 3가지 기준을 가지고 선별해 보았다. 1. 타매체 대비 독
brunch.co.kr
위 글에서 안내해주는 11개 미디어 중, 글이 많이 올라오는 뉴스 사이트 5개를 대상으로 결정했다.
블로터, cio코리아, itworld, zdnet 코리아, 테크수다
토이프로젝트 기간은 타이트 하게 정하기 위해 2주로 구정 포함해서 1월 24일까지로 결정했다.
간단한 기획서
구분 | 내용 |
이름 | IT 뉴스 태그 크롤링을 통한 트랜드 파악 |
사용 언어 및 프레임워크 | node.js, nestJS, mongoDB, mongoose, pug(view engine), docker |
주요 기능 | 1. IT 뉴스 사이트 5군대의 기사 타이틀 크롤링 2. 타이틀을 단어 단위로 분리 3. 노출되는 단어 횟수에 따른 랭킹 설정 4. 전체 및 사이트별로 일, 주, 월에 자주 사용된 단어를 랭킹 순으로 볼 수 있는 간단한 페이지 |
목표 | 1. nestJS, Type script 학습 2. 랭킹 순으로 볼 수 있는 페이지를 인포그래픽으로 표현 |
고민
타이틀을 단어 단위로 분리하고 명사들만 뽑아내 트렌드를 분석하고 싶은데,
오타 띄어쓰기 등 깔끔하게 명사만 분리하는게 힘들것같다.
간단한 한국어 자연어 처리 오픈소스 등을 좀 찾아봐서 적용해야 할 것 같다.
'toyProject' 카테고리의 다른 글
IT 뉴스 태그 크롤러 - 중간 점검 (0) | 2023.01.25 |
---|
공지사항
최근에 올라온 글
최근에 달린 댓글
- Total
- Today
- Yesterday
링크
TAG
- 팝빌
- libpaper-utils
- tojson
- fluent-plugin-s3
- forwarder
- log forwarder
- bigint to number
- dockerfile
- default-libmysqlclient-dev
- uuid v1
- reverse proxy
- mms
- 대규모 시스템 설계 기초
- rewrite_tag_filter
- log
- nginx api cache
- rewrite-tag-filter
- fluentd-plugin-split-array
- fluent-plugin-mysql
- mms 연동
- uuid 중복
- 뉴스피드 시스템
- nestjs
- split_array
- reverse proxy cache
- log aggregator
- 혼자 공부하는 컴퓨터구조 + 운영체제
- popbill
- nginx cache
- fluentd
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 |
글 보관함