Zum Hauptinhalt springen Zur Suche springen Zur Hauptnavigation springen
Beschreibung
Inhaltlich unveränderte Neuauflage. Das Internet wächst stetig. (Volltext-)Suchmaschinen helfen beim Auffinden von Informationen, gehen dabei aber nicht besonders intelligent vor. Sie be­schränken sich auf eine Suche nach Webseiten, die die gesuchten Begriffe enthalten, ohne die Anfrage in einen genaueren Kontext zu stellen. Was im Anfangsstadium des Internet noch ausreichte, genügt schon seit längerem nicht mehr zum gezielten Durchsuchen von Milliarden von Webseiten. Dabei ist eine automatische Klassifikation von Webseiten mit gängigen maschinellen Lernverfahren schon lange möglich. Ebenso lassen sich inhaltlich gleiche Seiten erkennen und gezielt ausfiltern. Der Autor gibt einführend einen Überblick über gängige Verfahren zur Klassifikation von Texten, mit denen sich auch die Inhalte von Webseiten klassifizieren lassen. Er erläutert zusätzliche Merkmale von Webseiten, mit denen sich diese Klassifikation gegenüber der reinen Textklassifikation weiter verbessern lässt und bewertet diese Merkmale mit verschiedenen Versuchen. Dabei wird zwischen einer Analyse der gesamten Webseite und einer Analyse lediglich anhand der Vorschaudaten der Suchmaschine unterschieden. An­schließend werden Verfahren zur Erkennung von Inhaltlich gleichen Seiten erläutert und auf ihre Eignung zur Filterung von Webseiten untersucht.
Inhaltlich unveränderte Neuauflage. Das Internet wächst stetig. (Volltext-)Suchmaschinen helfen beim Auffinden von Informationen, gehen dabei aber nicht besonders intelligent vor. Sie be­schränken sich auf eine Suche nach Webseiten, die die gesuchten Begriffe enthalten, ohne die Anfrage in einen genaueren Kontext zu stellen. Was im Anfangsstadium des Internet noch ausreichte, genügt schon seit längerem nicht mehr zum gezielten Durchsuchen von Milliarden von Webseiten. Dabei ist eine automatische Klassifikation von Webseiten mit gängigen maschinellen Lernverfahren schon lange möglich. Ebenso lassen sich inhaltlich gleiche Seiten erkennen und gezielt ausfiltern. Der Autor gibt einführend einen Überblick über gängige Verfahren zur Klassifikation von Texten, mit denen sich auch die Inhalte von Webseiten klassifizieren lassen. Er erläutert zusätzliche Merkmale von Webseiten, mit denen sich diese Klassifikation gegenüber der reinen Textklassifikation weiter verbessern lässt und bewertet diese Merkmale mit verschiedenen Versuchen. Dabei wird zwischen einer Analyse der gesamten Webseite und einer Analyse lediglich anhand der Vorschaudaten der Suchmaschine unterschieden. An­schließend werden Verfahren zur Erkennung von Inhaltlich gleichen Seiten erläutert und auf ihre Eignung zur Filterung von Webseiten untersucht.
Über den Autor
Dipl.-Inform.: Studium der Informatikan der Universität Dortmund.
Details
Erscheinungsjahr: 2012
Fachbereich: Datenkommunikation, Netze & Mailboxen
Genre: Informatik, Mathematik, Medizin, Naturwissenschaften, Technik
Rubrik: Naturwissenschaften & Technik
Medium: Taschenbuch
Inhalt: 92 S.
ISBN-13: 9783639417036
ISBN-10: 3639417038
Sprache: Deutsch
Einband: Kartoniert / Broschiert
Autor: Basmaci, Norbert
Hersteller: AV Akademikerverlag
Verantwortliche Person für die EU: preigu GmbH & Co. KG, Lengericher Landstr. 19, D-49078 Osnabrück, mail@preigu.de
Maße: 220 x 150 x 7 mm
Von/Mit: Norbert Basmaci
Erscheinungsdatum: 29.05.2012
Gewicht: 0,155 kg
Artikel-ID: 106436012