User-Centric Web Crawling

**seminar ideas** · 01-06-2012, 02:50 PM

User-Centric Web Crawling

.ppt

User-Centric Web Crawling.ppt (Size: 445.5 KB / Downloads: 38)

Web Crawling Optimization Problem

Not enough resources to (re)download every web document every day/hour
Must pick and choose optimization problem
Others: objective function = avg. freshness, age
Our goal: focus directly on impact on users

Relevance Scoring Function

Search engines’ internal notion of how well a document matches a query

Each D/Q pair numerical score [0,1]

Combination of many factors, including:
Vector-space similarity (e.g., TF.IDF cosine metric)
Link-based factors (e.g., PageRank)
Anchortext of referring pages

Overall Effectiveness

Staleness = fraction of out-of-date documents* [Cho et al. 2000]
Embarrassment = probability that user visits irrelevant result* [Wolf et al. 2002]

* Used “shingling” to filter out “trivial” changes

Scoring function: PageRank (similar results for TF.IDF)

Related Work

Focused/topic-specific crawling
[Chakrabarti, many others]
Select subset of pages that match user interests
Our work: given a set of pages, decide when to (re)download each based on predicted content shifts + user interests

Possibly Related Threads…
Thread		Author	Replies	Views	Last Post
	The Web Service Modeling Ontology (WSMO) ppt	seminar ideas	1	2,772	15-09-2017, 12:19 PM Last Post: jaseela123
	Usability of Semantic Web for Enhancing Digital Living Experience	seminar flower	1	2,695	11-09-2017, 04:39 PM Last Post: jaseela123
	multiple parameter for web service	seminar ideas	1	2,371	09-09-2017, 09:27 AM Last Post: jaseela123
	Organizing User Search Histories Report	study tips	1	974	02-09-2017, 04:35 PM Last Post: jaseela123
	Web Spoofing Seminar PPT	project girl	1	3,100	02-09-2017, 02:50 PM Last Post: jaseela123
	The Web	project girl	1	1,675	02-09-2017, 01:45 PM Last Post: jaseela123
	Packet Route Tracer of Web Request PPT	study tips	1	1,560	29-08-2017, 11:36 AM Last Post: jaseela123
	Report on Web Search Engine	project girl	1	676	28-08-2017, 02:54 PM Last Post: jaseela123
	WEB SPOOFING A SEMINAR REPORT	Computer Science Clay	0	20,769,278	25-08-2017, 09:32 PM Last Post: Computer Science Clay
	Seaside, a very cool framework to develop web application	computer science crazy	0	11,080,378	25-08-2017, 09:32 PM Last Post: computer science crazy

Quick Reply
Message Type your reply to this message here. Disable Smilies	You have selected one or more posts to quote. Quote these posts now or deselect them.