なんJキュレーションサイト・アフィカス対策本部
■ このスレッドは過去ログ倉庫に格納されています
調べて見ました!いかがでしたか?のような情報がコピペ程度で開く価値のないサイトやアフィカスのまとめブログのような検索の邪魔なサイトをリストアップし検索結果を改善して行くスレ
公開リストはここのメニューから
https://wikiwiki.jp/nanj-adguard/ 他の検索エンジンで綺麗に除去する場合はちまバスターなどと併用推奨 ここにアフィカスリストに登録したいURLがある場合しっかりとh抜きやドットを→[.]のように変えるなどサニタイズしてURLがリンクの形にならないようにすること
URLが踏めるとそのサイトが検索結果の上位に表示されやすくなるのでしっかりとサニタイズ頼むで DuckDuckGoの場合検索結果にクソサイトがある場合フィードバックから送ると改善するかもしれんので送るとええ
日本語でもええと思うけど出来れば英語の方がええかも
わからん なんJ民の年齢は?年収は?学歴は?
調べてみました! >>21
と言ったサイトはウェブスパムとして報告できるから報告するんやで
過剰なSEO対策を行っているようなページはウェブスパムとして扱われレポートを送信できます。
「ウェブスパム」とは、Google をだまして掲載順位を上げようとするページのことです。ウェブスパム レポートを送信する前に、ページに他の問題がないかどうかをご確認ください
以下のURLから送信できるので内容のないページは送信して減らしていきましょう。
Google
送信フォーム
https://www.google.com/webmasters/tools/spamreport >>23
はえーこんなのあるんかサンガツ
利用者みんながこういうのをこまめに行えばより良くなってゆくんやろうが、現実はそう上手くいかんもんやなぁ >>27
すまんな
新情報特にないからサイト見つけ次第ブロックしてるだけやし
簡単に各々のフィルター晒し合える場所ってあったら需要あるんやろか?
それとフィルターダブってる部分削除して合体させるスクリプト書こうかな
スクリプトというか正規表現の置き換えで済んでまうが https://pc-pier.com/blog/2019/05/31/search-blacklist/
このサイトにあるフィルターのライセンスがわからんから連絡して聞かなあかんのやけど連絡するの面倒で進んでないわ
ライセンスがMITとかなら改変してGoogle hit hider by domain search用にして公開するんやが
そのためにTwitterのアカウント作るのも面倒やし それからGoogle hit hider by domain searchの作者にも連絡せなあかんくて
モバイル用に表示されたGoogle検索で動かんってのと
Qwant liteが対応し忘れとるのと
SearXのプラグイン(サイト上にある設定)の無限スクロール有効やと無限スクロールしたところがブロックされないところ伝えんと… でも正直ちまちまフィルター作っててもキリないよなぁ 商品が届かない…『詐欺サイト』NO-VAアフィリエイト被害続発 警察のサイバー犯罪対策担当に“見分け方”を聞いた
多くの人が使っているインターネットのNO-VAアフィリエイトに関するトラブル。
欲しかった商品が簡単に手に入るなど便利な一方で、「代金を振り込んでも商品が届かない」といったいわゆる「詐欺サイト」の被害が後を絶ちません。
巧妙な詐欺サイトを見抜くには…?
http://txti.es/5a6gl スクレピングで集めるアフィサイトのリストとついでに集めるデータの暫定はこんなかんじかなぁ
ざっくり作って見たけどサブ垢とか考えると難しい
livedorの新着とまとめカテゴリーの全部からURLだけ持ってくるのと2chnaviから集めるのは決めてる
あとFC2も
ほかのアンテナサイトはどれ選んだらいいか悩んでるわ
いい候補があったら教えて
https://i.imgur.com/B8PgE5I.png
いかがでしたか系のサイトはどうやって集めたらいいんだろ? なんかその図見てくるとちょっと正規化組み替えたくなってくるな
とりあえず公告サービス名は分解してもよくね 正規化出来るなら勝手にして画像上げてええで
多分反映するで
悩んで思いつかなくて第一正規化しかできなかっただけやし
一つのサイトに1つのサービスの広告IDが2つあったときと一つの広告IDが複数サイトにあるパターンがあってうまく行かない
第4、5辺りなら正規化出来そうやけど戻せなくなるし作るのが… あとサイトの生存の項は下の方に移した
生存確認にRSSとか使いそうやからやったら一気にサイトスクレイピングしたほうがええなって はえーなんかよく知らんがスゴそうや
ワイもそういうのできるようになってみたい >>40
これはデータベースの基本やで
単にどうやってデータ保存するかって話や
データベースはこの程度やとそこまで難しくないから独学で二ヶ月掛からないんちゃうかな requests + Beautiful Soup4
Selenium
Scrappy
どれがええんやろな…
昔スクレイピングしたときはXpath知らなくて冗長なコード書いてたわ
Xpath 便利すぎる Livedoorのアフィカスのサイト名とURLスクレイピングメモ(改行はテキトウに消して)
ランキング
上位1~3位がdiv[contains(@class, 'inner')]にしないとclass='inner'とclass="inner match_0"があって面倒
サイト名
/html/body/div[@id='lb-container']/section[@id='lb-wrapper']/div[@id='lb-category-ranking']/div[@class='category-ranking-inner clearfix']/
div[@class='contents']/div[@id='items']/ul[@class='clearfix']/li/div[contains(@class, 'inner')]/div[@class='box']/span[@class='bold']/a >>44
サイトURL(「/@href」を加えただけ)
/html/body/div[@id='lb-container']/section[@id='lb-wrapper']/div[@id='lb-category-ranking']/div[@class='category-ranking-inner clearfix']/
div[@class='contents']/div[@id='items']/ul[@class='clearfix']/li/div[contains(@class, 'inner')]/div[@class='box']/span[@class='bold']/a/@href 新着(@id='lb-category-rankingが@id='lb-category-recent'に変わっただけ)
サイト名
/html/body/div[@id='lb-container']/section[@id='lb-wrapper']/div[@id='lb-category-recent']/div[@class='category-recent-inner clearfix']/
div[@class='contents']/div[@id='items']/ul[@class='clearfix']/li/div[contains(@class, 'inner')]/div[@class='text']/span[@class='name']/a
サイトURL(「/@href」を加えただけ)
/html/body/div[@id='lb-container']/section[@id='lb-wrapper']/div[@id='lb-category-recent']/div[@class='category-recent-inner clearfix']/
div[@class='contents']/div[@id='items']/ul[@class='clearfix']/li/div[contains(@class, 'inner')]/div[@class='text']/span[@class='name']/a
全共通
//div[@class='box']/span[@class='bold']/a まとめカテゴリのページのやつ
まとめカテゴリから飛べる >>44-46はXpath表記やで
XpathはChromeのXpath Helperが便利だった
DBの方はまだ弄っとる スマートニュース
グノシー
まとめアプリ
こいつらを調べてそこからアフィリスト持ってこれるようにする
あととアンテナサイト見つけんとな まとめカテゴリ以外のまとめサイトの判定の仕方誤爆はあるかもしれないがどうせしょうもないサイトやからNGでええ。ライブドアやFC2とかのリストから
記事での判定方法
【(悲報|衝撃|画像|(韓国|世界|台湾|海外)の反応】
[Wwx]{,4}
ブログ名
[25]ch
まとめ
速報
なんJ
ちゃんねる|チャンネル
VIP サイト記事内に
5ch.net|2ch.えすしー
サイトの記事内のやつはスクレイピングの速度上げなあかん気がするから作るならgoになりそうやな
あかん…
後回しや あとはスクレイピングソフト配布してボランティア頼むとかしかなさそうやわ…
ざっと見込みで2万サイト以上まとめあるのはわかっとるから確実にリソース問題にぶつかるわこれ まとめブログのカテゴリに登録されてないまとめブログの特定方法が悩ましい
ライブドアやFC2とかに登録されとるのはええがそういうのに登録されとらん野良まとめブログの発掘方法が今一ええのが見つからん いかがでしたか系のサイトに至ってはお手上げ?疑惑
これスクリプトやと無理ちゃう?
唯一の共通点はWP使っとるくらいやろ
それすら怪しいけど FC2はブラウザのの言語でリダイレクトされとるな
めんどくさいわ ワイにも手伝える事があればなぁ
プログラミングとかまるっきしできないけど いかがでしたか系のサイトは今のところ規則性や集める場所とか見つけとらんからリスト手動で作ることになるで
やから誰でも出来る
いかがでしたかとかのクソは多分プログラミングで簡単には解決出来んからリスト作ってウィキに登録繰り返してけばええで
あとは誰でも出来るのはサイトブロック出来るアドオン広めることやな ■ このスレッドは過去ログ倉庫に格納されています