DMMからスクレイピングでワードプレスに自動投稿
DMMからAPIが提供されるようになりましたが、
あえてAPIを使わず、スクレイピングの道を進む管理人です。
今日は、DMMの商品リストから画像、説明文、リンク等を
スクレイピングするスクリプトを作りましたので、簡単に
ログに残しておきます。
①simple_html_dom は導入しておきます。
②DMMから早速スクレイピング開始
まずは商品リストページをスクレイピング
$html = file_get_html($act_url);
リストページから商品詳細URLをスクレイピング
そしてぐるぐるループ
$href = $html->find('#main-src table p.ttl a'); //foreach($href as $element){ 商品の詳細ページ(一件一葉) $url = 'http://www.dmm.co.jp'.$element->href; ワードプレス記事のタイトル用にタグ消去 $title = strip_tags($element); 画像URLをスクレイピング $image = $detail->find('.mg-r12 img',0); 説明文をスクレイピング $text = strip_tags($detail->find('.lh4',0)); ワードプレスに投稿! switch_to_blog( $site_id ); $insert_id = wp_insert_post($post_value,true); restore_current_blog(); //}ループ終わり
Total 1,131 views