2006/11/07 18:52
카테고리 : 아기뚱지식

(서두)
아무리 과음을 해도 다욧트를 외치며 점심식사를 거르는 착실한 똔진씨는 오전을 칙간에서 보내고 있습니다.
속은 쓰리고 아픈데 배출되는것은 별로 없네요. 역시나 input이 있어야 output도 있나봅니다.
잠깐!! 어? 술은 몸속으로 완전 흡수되나?

암튼 칙간에 간김에 망상의 실타래를 풀기 시작한 똔진!!!

'어제 일을 블로그에 써 볼까?' 라는 생각에서 '그럼 태그는 뭘로 달지?' 라는 생각으로 변하고 '이런 비슷한 경우가 없었나? 있다면 뭐라고 태그를 달았더라?' 라는 생각에서 '경우는 비슷해도 태그로 빼낼 키워드가 다르지 않을까?'하는 옆길로 빠졌다가 '그럼 누가 편하게 태그를 달아주면 안되나?'라는 결론에 도달 한다.

여기서 잠깐)
web2.0을 설명하는 사람들은 다음과 같은 분류법의 변화를 예로 들곤 한다.
taxonomy(카테고리)방식 -> Folksonomy(꼬리표)방식으로의 변화
참고) Folksonomy : ‘사람들에 의한 분류법’(Folk+order+nomos)

(본론)
일단 타겟은 블로그 이용자 중 컨텐츠의 키워드를 잘 뽑아내지 못하는 사람. 혹은 다른사람들이 쉽게 태그를 찾기를 바라는 컨텐츠 제작자. 정도??
예1) 어떤이는 자신의 블로그에 공통된 대표 태그를 달고 싶어 한다. '스타벅스'와 'starbugs'와 '별다방'이 모두 같은 뜻을 가진 태그이기에 자동으로 공통된 대표 태그 하나를 뽑아서 보여주길 원한다는 것이다.
예2) 다른이는 자신이 쓴 글에 어떤 키워드가 있는지 알고 싶어 한다. '이민을 떠난 강아지를 좋아하는 친구에게 강아지 옷을 택배로 보냈다'는 내용의 컨텐츠는 태그의 추출에 따라서 전혀 다르게 보일 수 있다. (책임을 추출기에게 떠 넘기는 듯한 뤼앙스~)

태그 추출을 할 경우 어떤 방식으로 뽑아줘야 할까?

첫번째는 문장단위 형태소 분석 후 키워드라 생각되는 단어(명사,대명사,...)를 추출한 후 (빈도수와 근접률 같은)특정 계산식을 이용하여 태그를 선별하는 쉬우면서 '어쩐지 정확할 거 같지 않은' 방법이 있다.

두번째는 '타이틀은 본문을 대표한다'라는 말에 의존한 방법이다.
먼저 범주별 태그사전을 구축한다. 여기서 볌주별 태그사전이란 요리나 여행같은 주제가 있는 사전을 의미한다.
태그 사전이 준비되면 타이틀에서 키워드를 추출(첫번째 방법)한 후 범주 사전과 매칭을 시도한다. 해당 타이틀이 어떤 범주에 속하는지 파악이 될 것이며, 해당 범주사전내에 태그집합을 이용하여 본문내 검색을 시도하는 방법이 있다.

세번째는 학습형 크롤러를 이용하는 방법이다.
먼저 현존하는 태그를 분포형식으로 사전에 저장한다.
컨텐츠에서 추출된 키워드들과 태그사전을 매칭하여 나온 결과 중 분포도가 많고 밀집도가 작은 태그를 추출하여 추천해 준다.
다음 사용자가 선택을 거부하고 다른 태그로 바꾼 경우 변경된 태그를 태그사전의 기록하는 방식을 취하여 관계를 재 정의 한다. (이를 위해서는 설치형 어플이 되지 않을까?)

위에 공통으로 쓰이는 태그사전은 계층형식을 띄고 있으며 동의표현과 관계를 표시해 놓는 것이 좋다. 컨텐츠 내에 태그가 발견되었다 하더라도 실제 추출해 주는 태그는 최상위 대표태그여야 한다. 또한 빠른검색을 위해 미리 구워놓을 수도 있겠지만, 경우에 따라서는 실시간으로 크롤링해야할 필요도 있기 때문에 고정된 형태는 아니다.

(더욱 더 고민사항)
1) 이미지, 동영상, 음악으로 이루어진 포스팅
2) 내용에 노래가사, 영화대사등이 적혀 있는 포스팅

이미지의 경우 이미지태깅이나 파일명을 통한 추측 정도 가능하겠으나 실제로 이를 통해 키워드 추출이 가능한지 여부가 궁금하다.

Trackback Address
http://babyp.net/trackback/158
by

pass://
 
184121
어제는 115명, 오늘은38명