Google Sitemap ・Python 

 
 サマリー
Googleサイトマップを作成しようとテルネットの接続をこころみるも接続不可となってしまう、以前は確かにテルネット接続が許可になっていてコマンドラインからピトンと起動してグーグルマップを作成できたはずなのに・・・・・、しかたないクローンジョブを設定してグーグルマップを作ろうとあれこれ試すも失敗ばかり、ネットで情報を探すもやさしい解説は見つからず、やっとのことでXreaサーバーにCronjobを設定してグーグルサイトマップを作成した経過を忘れないように、そしてまだ設定できずに悩んでおられるかもしれない人へヒントとなるように・・・・。

まずはグーグルウェブマスター ツールのページを参考にして、サイトマップ生成ツールのプログラム ファイルをダウンロードしておきましょう。

1 example_config.xml

ダウンロードしたファイルを解凍して得られたexample_config.xml を config.xmlとりネームして保存しておきます。

2.3 これらは特に問題ないでしょう。

4 store_into

あとはこのテンプレートを各自の条件に合わせて修正して行けばいいわけですが、私はconfig.xmlをindex.htmlの置いてあるディレクトリー(public_html)に置きましたので store_into="/virtual/ID(各自のホームディレクトリー名)/public_html/sitemap.xml"となります。 というか正確にはsitemap.xmlファイルを保存したい場所をフルパスで指定することになります。

 verbose="3"

デバッグ情報を得るために3としておきます。

 filter

グーグルロボットに拾ってもらいたくないディレクトリーは
<!-- Exclude URLs that end with a '~' (IE: emacs backup files) -->
<filter action="drop" type="wildcard" pattern="*/cgi-bin/*" />
<filter action="drop" type="wildcard" pattern="*/log/*"/>
パスのワイルドカード(*)が使用できるので、拾ってもいらいたくないディレクトリを*と/で囲っておきます。

※ sitemap.xml

本来はsitemap_gen.pyでsitemap.xmlを作成するのですが、cronジョブで作成しようとすると[ERROR] Can not locate file "/virtual/****/public_html/sitemap.xml” とエラーを返されてしまうのであらかじめ種ファイルとして空のsitemap.xmlを作ってpublic_htmlにおいておきます。

これで準備が完了したので、3つのファイル(config.xmlsitemap_gen.pyurllist.txtsitemap.xml
)とこれから作るシェルスクリプトを記述したファイル sitemapgen.shをすべて同じ場所public_htmlにアップしておきます。

sitemapgen.shを作る»»