自宅サーバの整理箱

自宅サーバを構築しwordpress,fedora,CentOSの作業メモ

*

DMMからスクレイピングでワードプレスに自動投稿

   

DMMからAPIが提供されるようになりましたが、
あえてAPIを使わず、スクレイピングの道を進む管理人です。

今日は、DMMの商品リストから画像、説明文、リンク等を
スクレイピングするスクリプトを作りましたので、簡単に
ログに残しておきます。

①simple_html_dom は導入しておきます。

②DMMから早速スクレイピング開始

まずは商品リストページをスクレイピング
$html = file_get_html($act_url);

リストページから商品詳細URLをスクレイピング
そしてぐるぐるループ

$href = $html->find('#main-src table p.ttl a');
//foreach($href as $element){
    商品の詳細ページ(一件一葉)
    $url = 'http://www.dmm.co.jp'.$element->href;

    ワードプレス記事のタイトル用にタグ消去
    $title = strip_tags($element);

    画像URLをスクレイピング
    $image = $detail->find('.mg-r12 img',0);

    説明文をスクレイピング
    $text = strip_tags($detail->find('.lh4',0));

    ワードプレスに投稿!
    switch_to_blog( $site_id );
    $insert_id = wp_insert_post($post_value,true);
    restore_current_blog();
//}ループ終わり

 - Word Press, スクレイピング

 Total 936 views