形態素解析

技術者の読者ならご存知の方も多いと思いますが、検索エンジンの基本的な仕組みの1つです。検索エンジンはサイト のコンテンツをクロールして取得しますが、この時点ではコンテンツはただの HTMLでしかありません。コンテンツを HTMLのまま保管したのでは検索時に常に部分一致検索が必要となり、これでは検索に時間がかかり、検索エンジン会社にとっては運営コストが増すということになってしまいます。そのため検索エンジンのような全文検索においては、文章となっているデータを形態素解析することで、単語から助詞や助動詞を除いた音を取り出し、その単語を中心にインデックスを作成する方法が主流です。このインデ ックス は 「フルテキストインデ ックス」と 呼ばれており、最近のデータベースシステムにはほぼ備わっている機能です。 さてSEOで問題となるのは、形態素解析の部分です。形態素解析エンジンとして無料のものには以下のようなものがありますが、商用では Google ,Yahoo! JAPANを含め、
ただ辞書やチューニングが違うのが原因だと思われますが、 GoogleとYahoo! JAPANでは形態素解析の結果が多少異なるため、注意が必要です。

形態素解析エンジンは、漢字とひらがな、漢字とカタカナ、ひらがなとカタカナのように、異種の文字が組み合わさった文字列はほぼ問題なく分割することができます。漢字の連続もほぼ分割できています。問題となるのは、カタカナの連続などの単語が分割できないことです。例として「クラウドコンピューティング」を見てみましょう 。Googleで「クラウドコンピューティング」を検索し、
Wikipediaの検索結果のキャッシュをクリックしてみま しょう 。キャッシュとは、検索エンジンが保存しているそのサイトの HTMLのデータのことです。
「ハイライトされているキーワード」というところを見てください。
文字の背景が途中で切れていますが、この切れ目が単語の切れ目となります。切れていない部分、すなわち「クラウドコンピューテイング」はそれぞれ別の単語として認識されています。