CS3244 Project Title: Quora Question Pairs

Project Description

The motivation behind this project is to reduce question duplicates on knowledge-sharing platforms like Stackoverflow, Google, Quora and Reddit.

Duplicate questions negatively affects user experience as discussion for the same question is segmented into different posts. Hence, the aim of our project is to minimise the duplicated (False Positive) instances within the dataset.

Machine Learning Techniques:

Exploratory Data Analysis
Feature Engineering
Support Vector Machine
Logistic Regression
Random Forest Classifier
XGBoost
Recurrent Neural Networks (RNN)
Siamese Recurrent Neural Networks (Siamese RNN)
Natural Language Processing (NLP)

Evaluation of Models

Models	F1	Recall	Precision	Accuracy
SVM	69.0%	90.3%	55.9%	70.2%
Logistic Regression	53.6%	50.0%	57.6%	68.0%
RFC	66.0%	76.0%	58.0%	71.0%
XGBoost	70.8%	86.7%	59.7%	73.7%
RNN	77.0%	78.1%	75.9%	82.8%
Siamese RNN	77.0% (+0.034)	78.1% (+0.061)	75.9% (+0.008)	82.8% (+0.019)

Final Siamese RNN Architecture

Final Model

Even though the improvements were minor, we regarded it as significant due to the large dataset it was trained over (~400,000 rows). Hence, the final model chosen was the Siamese Recurrent Neural Networks with Engineered Features.

Team Contributers:

Mentor:

Cheong Siu Hong

Name		Name	Last commit message	Last commit date
Latest commit History 19 Commits
Source Codes		Source Codes
CS3244 Group 45 Presentation Slides.pdf		CS3244 Group 45 Presentation Slides.pdf
LICENSE		LICENSE
README.md		README.md

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

Repository files navigation

CS3244 Project Title: Quora Question Pairs

Project Description

Evaluation of Models

Final Siamese RNN Architecture

Final Model

Team Contributers:

Mentor:

Referenced Work:

About

Uh oh!

Releases

Packages

Languages

License

luajunan/CS3244-Quora-Semantics-Project

Folders and files

Latest commit

History

Repository files navigation

CS3244 Project Title: Quora Question Pairs

Project Description

Evaluation of Models

Final Siamese RNN Architecture

Final Model

Team Contributers:

Mentor:

Referenced Work:

About

Resources

License

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages