URLの正規化とは
複数、生成されている同一のコンテンツを統一させるためのプロセス検索エンジンでは、異なる「URL」に対しては、別のページと認識します。
例えば「https://s3mn.com、https://www.s3mn.com」のように、「www」の有無であっても、別のページとして扱われてしまい、コンテンツ内容は同じなので重複コンテンツとして認識されます
URL正規化(英:URL Normalization)とは、検索エンジン(クローラ)に対して、正規の「URL」に最適化を行い、正しいURLを伝えて処理(インデックスに登録)してもらうことです。
基本的には、「http~https」「wwwの有り無し」の正規化は必須となり、Webサイトの構造によっては、「index.html、index.php」の有り無しも関わってくる場合もある!
想定される同じ内容の重複コンテンツ(URL)

URLの正規化は「なぜ」必要?

- 検索結果でユーザーに表示する URL を指定するため
- 類似ページや重複ページについてリンクのシグナルを統合するため
- 1 つの商品やトピックのトラッキング指標を単純化するため
- シンジケーション コンテンツを管理するため
- 重複したページのクロールに時間がかからないようにするため
Google 検索セントラル「重複した URL を統合する」に記載
2009年に作成された「検索エンジン最適化 スターターガイド」に記載
1つのページにURLは1つにしよう。ある1つのコンテンツに対して、張られるリンクのURLがユーザーによって異なると、そのコンテ ンツに対する評価がURLごとに分かれてしまう恐れがあります。これを防ぐために、サイト内でペー ジをリンクするときには、常に特定のURLを使用するようにしましょう。同一のコンテンツが複数の URLによってアクセスされていることに気付いた場合は、好ましくないURLから好ましいURLに301 リダイレクトの設定をすると良いでしょう。
検索エンジン(クローラー)は、同じ内容のページが複数存在しているもの、または、類似しているページは、同じページの重複と見なされてしまいます。
重複コンテンツは、ページを評価する上でも好ましくなく、検索エンジンから適正に判断してもらえない側面があり、クロールの頻度についても減ることに繋がます。
通常は、URLの正規化を指定していない場合は、検索エンジンが最適だと判断したURLが選ばれてしまい、どちらかの「URL」を正規化として判断されてインデックスに登録するよう努めています。
但し、悪意のある(ランキング操作やトラフィックの増大を意図する)偽装を意図した重複コンテンツに関しては、「インデックス登録とランキングに対して適切な調整を行い」ランキングが低下するか、Google インデックスから完全に削除されて検索結果に表示されなくなる
Google 検索セントラル「重複コンテンツの作成を避ける」に記載
正規ページを指定する方法
- rel=canonical タグを使用する
- rel=canonical HTTPヘッダーを使用する
- サイトマップを使用する
- 301リダイレクトを使用する
「rel=canonical」タグ」
head要素の中にある「rel=”canonical”」とは、
検索エンジン(クローラ)に対して、正しい「URL」を解析しやすいいように「通知」します。
1 2 3 4 5 |
<head> <link rel="canonical" href="https://www.s3mn.com/" /> <head> |
※Webサイトを右クリックして「ページのソースを表示」を選択すると確認できます。
通常は、CMS(サイト作成ツール)によって、ページパーマリンク(URL)が自動で出力されている仕様で!
注意点、「rel=”canonical”」タグは、SEOにとって欠かせなく、クローラに対してはページの統一(正規化)が測れます。ただ、ユーザーにとってはアクセスできる状態になってしまいます。
また、HTMLのページのみ有効な仕様で、PDFや画像など、HTML以外は対応しません。
そもそも、「rel=”canonical”」タグは、検索エンジンに対して命令しているのではなく、あくまでも「検索エンジンに通知」としての役割になるので、「rel=”canonical”」を無条件で受け入れる仕様ではありません。
ですので、場合によっては無視されてしまい、意図しない検索結果になる可能性もあります。
未対応であっても、「Wordpress」の場合はプラグインで「出力・設定」する機能があります。
プラグイン「All in One SEO Pack」の導入で使用することができます。
プラグインを使えば、個別のページに対して「rel=”canonical”」の設定ができて、重複しているページや、A/Bテストのページなど、最適化
特にSEOに特化されているテンプレートでは記事ごとに設定できるものもある!
「rel=canonical」HTTPヘッダー
head要素の中にある「rel=”canonical”」とは、
検索エンジン(クローラ)に対して、正しい「URL」を解析しやすいいように記述します。
1 2 3 4 |
<Location /download/seo-guide.pdf> Header add Link '<https://cluster-seo.com/download/seo-guide.pdf>; rel="canonical"' </Location> |
※Webサイトを右クリックして「ページのソースを表示」を選択すると確認できます。
通常は、CMS(サイト作成ツール)によって設定ができ、正しい「URL」を入力することで完了します!特にSEOに特化されているテンプレートでは、ほとんど対応している仕様です!
未対応であっても、「Wordpress」の場合はプラグインで出力する機能があります。
プラグイン「All in One SEO Pack」の導入で使用することができます。
注意点、「rel=”canonical”」タグは、SEOにとって欠かせなく、クローラに対してはページの統一(正規化)が測れます。ただ、ユーザーにとってはアクセスできる状態になってしまいます。
また、HTMLのページのみ有効な仕様で、PDFや画像など、HTML以外は対応しません。